Eliminar PII antes de utilizar LLMs
Cómo preparar texto sensible de forma segura antes de utilizar sistemas de IA
¿Qué es PII?
Esto incluye cualquier información que pueda identificar a una persona de forma directa o indirecta.
Ejemplos comunes de PII incluyen:
- nombres completos
- direcciones de correo electrónico
- números de teléfono
- direcciones particulares
- números de pasaporte o documento de identidad
- identificadores de clientes
- IBAN y datos bancarios
- información médica
- tickets de soporte que contienen datos personales
- información empresarial interna vinculada a personas
En muchos documentos reales, aparecen juntos varios tipos de PII.
Por qué la PII es importante al utilizar LLMs
- resumir documentos
- reescribir correos electrónicos
- analizar solicitudes de soporte
- extraer información
- traducción
- investigación
- generación de borradores
- asistencia de programación
Para utilizar estos sistemas, las personas suelen pegar texto sin procesar directamente en chatbots de IA o plataformas de IA generativa.
El problema es que estos textos contienen con frecuencia información sensible, personal o confidencial.
Los usuarios pueden compartir involuntariamente datos privados, información de clientes, datos de pacientes, documentos internos o información legalmente protegida con sistemas externos de IA.
Ejemplos de datos sensibles en prompts de LLM
- conversaciones con clientes
- historiales médicos
- contratos
- tickets de soporte
- comunicación de empleados
- documentos legales
- datos financieros
- material de investigación
- mensajes privados
Incluso un texto aparentemente inofensivo puede contener identificadores ocultos que pueden exponer a personas o información empresarial confidencial.
Un flujo de trabajo más seguro antes de utilizar IA
Un flujo de trabajo más seguro antes de utilizar LLMs es:
- Detectar automáticamente la información sensible
- Redactar, anonimizar o seudonimizar el texto
- Utilizar la versión depurada con sistemas de IA
- Restaurar posteriormente los marcadores seudonimizados de forma local si es necesario
Esto ayuda a reducir los riesgos de privacidad, seguridad y cumplimiento normativo, manteniendo al mismo tiempo el texto útil para tareas asistidas por IA.
Ejemplo
Texto original
El cliente Sarah Johnson de London contactó con el soporte en relación con la cuenta AC-48372.
Su correo electrónico es [email protected] y su número de teléfono es +44 7700 900123.
Versión seudonimizada
El cliente [PERSON_1] de [LOCATION_1] contactó con el soporte en relación con la cuenta [SECRET_1].
Su correo electrónico es [EMAIL_1] y su número de teléfono es [PHONE_1].
El contexto importante permanece intacto mientras se elimina la información de identificación personal.
Por qué es importante la eliminación local de PII
En el caso de datos sensibles, esto puede generar problemas de privacidad o cumplimiento normativo.
Redaxa funciona localmente en su propio PC.
Sin procesamiento en la nube. Sin IA externa. Sin carga de documentos.
Esto hace que Redaxa sea adecuado para:
- flujos de trabajo sensibles al RGPD
- entornos jurídicos y sanitarios
- instituciones de investigación
- comunicación empresarial
- usuarios que trabajan con documentos confidenciales
- preparar texto antes de utilizar LLM o asistentes de IA
Prepare texto de forma segura antes de usar IA
- detectar PII automáticamente
- resaltar información sensible
- ocultar datos personales
- anonimizar o seudonimizar texto
- preparar prompts de forma segura antes de utilizar sistemas de IA
La aplicación funciona localmente y admite varios idiomas.