Personenbezogene Daten vor der Nutzung von LLMs entfernen

Was ist PII?

PII steht für Personally Identifiable Information und bezeichnet personenbezogene Daten.

Dazu gehören alle Informationen, mit denen eine Person direkt oder indirekt identifiziert werden kann.

Häufige Beispiele für PII sind:

vollständige Namen
E-Mail-Adressen
Telefonnummern
Wohnadressen
Pass- oder Ausweisnummern
Kundennummern
IBANs und Bankdaten
medizinische Informationen
Support-Tickets mit personenbezogenen Daten
interne Geschäftsinformationen mit Bezug zu Personen

In vielen realen Dokumenten treten mehrere Arten personenbezogener Daten gemeinsam auf.

Warum PII bei der Nutzung von LLMs wichtig ist

Large Language Models (LLMs) wie ChatGPT, Claude, Gemini, Copilot, Grok und andere KI-Assistenten werden zunehmend verwendet für:

das Zusammenfassen von Dokumenten
das Umformulieren von E-Mails
die Analyse von Supportanfragen
die Extraktion von Informationen
Übersetzungen
Recherche
die Erstellung von Entwürfen
Unterstützung beim Programmieren

Um diese Systeme zu nutzen, kopieren Menschen häufig Rohtexte direkt in KI-Chatbots oder generative KI-Plattformen.

Das Problem besteht darin, dass diese Texte häufig sensible personenbezogene oder vertrauliche Informationen enthalten.

Nutzer können unbeabsichtigt private Daten, Kundeninformationen, Patientendaten, interne Dokumente oder gesetzlich geschützte Informationen mit externen KI-Systemen teilen.

Beispiele für sensible Daten in LLM-Prompts

Sensible Informationen innerhalb von Prompts können Folgendes umfassen:

Kundengespräche
medizinische Unterlagen
Verträge
Support-Tickets
Mitarbeiterkommunikation
rechtliche Dokumente
Finanzdaten
Forschungsmaterial
private Nachrichten

Selbst scheinbar harmlose Texte können versteckte Identifikatoren enthalten, durch die Personen oder vertrauliche Unternehmensinformationen offengelegt werden können.

Ein sichererer Workflow vor der Nutzung von KI

Ein sichererer Arbeitsablauf vor der Nutzung von LLMs ist:

Sensible Informationen automatisch erkennen
Den Text schwärzen, anonymisieren oder pseudonymisieren
Die bereinigte Version mit KI-Systemen verwenden
Pseudonymisierte Platzhalter bei Bedarf anschließend lokal wiederherstellen

Dies hilft dabei, Datenschutz-, Sicherheits- und Compliance-Risiken zu reduzieren und den Text dennoch für KI-gestützte Aufgaben nutzbar zu halten.

Beispiel

Originaltext

Kunde Sarah Johnson aus London kontaktierte den Support bezüglich des Kontos AC-48372.
Ihre E-Mail-Adresse lautet [email protected] und ihre Telefonnummer ist +44 7700 900123.

Pseudonymisierte Version

Kunde [PERSON_1] aus [LOCATION_1] kontaktierte den Support bezüglich des Kontos [SECRET_1].
Ihre E-Mail-Adresse lautet [EMAIL_1] und ihre Telefonnummer ist [PHONE_1].

Der wichtige Kontext bleibt erhalten, während personenbezogene Informationen entfernt werden.

Warum lokale PII-Entfernung wichtig ist

Viele Anonymisierungs- oder KI-Datenschutztools verlangen, dass Nutzer Dokumente oder Texte in einen Cloud-Dienst hochladen.

Bei sensiblen Daten kann dies selbst Datenschutz- oder Compliance-Probleme verursachen.

Redaxa arbeitet lokal auf Ihrem eigenen PC.

Keine Cloud-Verarbeitung. Keine externe KI erforderlich. Keine Dokument-Uploads.

Dadurch eignet sich Redaxa für:

DSGVO-sensitive Arbeitsabläufe
juristische und medizinische Umgebungen
Forschungseinrichtungen
Geschäftskommunikation
Nutzer, die mit vertraulichen Dokumenten arbeiten
die Vorbereitung von Texten vor der Nutzung von LLMs oder KI-Assistenten

Text sicher vorbereiten, bevor KI verwendet wird

Redaxa hilft Nutzern dabei, Texte sicher vorzubereiten, bevor sie an ChatGPT, Claude, Gemini, Copilot, Grok oder andere LLMs gesendet werden.

PII automatisch erkennen
sensible Informationen hervorheben
personenbezogene Daten schwärzen
Texte anonymisieren oder pseudonymisieren
Prompts sicher vorbereiten, bevor KI-Systeme verwendet werden

Die Anwendung arbeitet lokal und unterstützt mehrere Sprachen.