PII vor der Verwendung von LLMs entfernen
So bereiten Sie sensible Texte sicher vor der Nutzung von KI-Systemen vor
Was ist PII?
Dazu gehören alle Informationen, mit denen eine Person direkt oder indirekt identifiziert werden kann.
Häufige Beispiele für PII sind:
- vollständige Namen
- E-Mail-Adressen
- Telefonnummern
- Wohnadressen
- Pass- oder Ausweisnummern
- Kundennummern
- IBANs und Bankdaten
- medizinische Informationen
- Support-Tickets mit personenbezogenen Daten
- interne Geschäftsinformationen mit Bezug zu Personen
In vielen realen Dokumenten treten mehrere Arten personenbezogener Daten gemeinsam auf.
Warum PII bei der Nutzung von LLMs wichtig ist
- das Zusammenfassen von Dokumenten
- das Umformulieren von E-Mails
- die Analyse von Supportanfragen
- die Extraktion von Informationen
- Übersetzungen
- Recherche
- die Erstellung von Entwürfen
- Unterstützung beim Programmieren
Um diese Systeme zu nutzen, kopieren Menschen häufig Rohtexte direkt in KI-Chatbots oder generative KI-Plattformen.
Das Problem besteht darin, dass diese Texte häufig sensible personenbezogene oder vertrauliche Informationen enthalten.
Nutzer können unbeabsichtigt private Daten, Kundeninformationen, Patientendaten, interne Dokumente oder gesetzlich geschützte Informationen mit externen KI-Systemen teilen.
Beispiele für sensible Daten in LLM-Prompts
- Kundengespräche
- medizinische Unterlagen
- Verträge
- Support-Tickets
- Mitarbeiterkommunikation
- rechtliche Dokumente
- Finanzdaten
- Forschungsmaterial
- private Nachrichten
Selbst scheinbar harmlose Texte können versteckte Identifikatoren enthalten, durch die Personen oder vertrauliche Unternehmensinformationen offengelegt werden können.
Ein sichererer Workflow vor der Nutzung von KI
Ein sichererer Arbeitsablauf vor der Nutzung von LLMs ist:
- Sensible Informationen automatisch erkennen
- Den Text schwärzen, anonymisieren oder pseudonymisieren
- Die bereinigte Version mit KI-Systemen verwenden
- Pseudonymisierte Platzhalter bei Bedarf anschließend lokal wiederherstellen
Dies hilft dabei, Datenschutz-, Sicherheits- und Compliance-Risiken zu reduzieren und den Text dennoch für KI-gestützte Aufgaben nutzbar zu halten.
Beispiel
Originaltext
Kunde Sarah Johnson aus London kontaktierte den Support bezüglich des Kontos AC-48372.
Ihre E-Mail-Adresse lautet [email protected] und ihre Telefonnummer ist +44 7700 900123.
Pseudonymisierte Version
Kunde [PERSON_1] aus [LOCATION_1] kontaktierte den Support bezüglich des Kontos [SECRET_1].
Ihre E-Mail-Adresse lautet [EMAIL_1] und ihre Telefonnummer ist [PHONE_1].
Der wichtige Kontext bleibt erhalten, während personenbezogene Informationen entfernt werden.
Warum lokale PII-Entfernung wichtig ist
Bei sensiblen Daten kann dies selbst Datenschutz- oder Compliance-Probleme verursachen.
Redaxa arbeitet lokal auf Ihrem eigenen PC.
Keine Cloud-Verarbeitung. Keine externe KI erforderlich. Keine Dokument-Uploads.
Dadurch eignet sich Redaxa für:
- DSGVO-sensitive Arbeitsabläufe
- juristische und medizinische Umgebungen
- Forschungseinrichtungen
- Geschäftskommunikation
- Nutzer, die mit vertraulichen Dokumenten arbeiten
- die Vorbereitung von Texten vor der Nutzung von LLMs oder KI-Assistenten
Text sicher vorbereiten, bevor KI verwendet wird
- PII automatisch erkennen
- sensible Informationen hervorheben
- personenbezogene Daten schwärzen
- Texte anonymisieren oder pseudonymisieren
- Prompts sicher vorbereiten, bevor KI-Systeme verwendet werden
Die Anwendung arbeitet lokal und unterstützt mehrere Sprachen.