Eliminar datos personales antes de usar LLMs

¿Qué es PII?

PII significa Personally Identifiable Information y se refiere a datos personales.

Esto incluye cualquier información que pueda identificar a una persona de forma directa o indirecta.

Ejemplos comunes de PII incluyen:

nombres completos
direcciones de correo electrónico
números de teléfono
direcciones particulares
números de pasaporte o documento de identidad
identificadores de clientes
IBAN y datos bancarios
información médica
tickets de soporte que contienen datos personales
información empresarial interna vinculada a personas

En muchos documentos reales, aparecen juntos varios tipos de PII.

Por qué la PII es importante al utilizar LLMs

Los modelos de lenguaje de gran tamaño (LLMs) como ChatGPT, Claude, Gemini, Copilot, Grok y otros asistentes de IA se utilizan cada vez más para:

resumir documentos
reescribir correos electrónicos
analizar solicitudes de soporte
extraer información
traducción
investigación
generación de borradores
asistencia de programación

Para utilizar estos sistemas, las personas suelen pegar texto sin procesar directamente en chatbots de IA o plataformas de IA generativa.

El problema es que estos textos contienen con frecuencia información sensible, personal o confidencial.

Los usuarios pueden compartir involuntariamente datos privados, información de clientes, datos de pacientes, documentos internos o información legalmente protegida con sistemas externos de IA.

Ejemplos de datos sensibles en prompts de LLM

La información sensible dentro de los prompts puede incluir:

conversaciones con clientes
historiales médicos
contratos
tickets de soporte
comunicación de empleados
documentos legales
datos financieros
material de investigación
mensajes privados

Incluso un texto aparentemente inofensivo puede contener identificadores ocultos que pueden exponer a personas o información empresarial confidencial.

Un flujo de trabajo más seguro antes de utilizar IA

Un flujo de trabajo más seguro antes de utilizar LLMs es:

Detectar automáticamente la información sensible
Redactar, anonimizar o seudonimizar el texto
Utilizar la versión depurada con sistemas de IA
Restaurar posteriormente los marcadores seudonimizados de forma local si es necesario

Esto ayuda a reducir los riesgos de privacidad, seguridad y cumplimiento normativo, manteniendo al mismo tiempo el texto útil para tareas asistidas por IA.

Ejemplo

Texto original

El cliente Sarah Johnson de London contactó con el soporte en relación con la cuenta AC-48372.
Su correo electrónico es [email protected] y su número de teléfono es +44 7700 900123.

Versión seudonimizada

El cliente [PERSON_1] de [LOCATION_1] contactó con el soporte en relación con la cuenta [SECRET_1].
Su correo electrónico es [EMAIL_1] y su número de teléfono es [PHONE_1].

El contexto importante permanece intacto mientras se elimina la información de identificación personal.

Por qué es importante la eliminación local de PII

Muchas herramientas de anonimización o privacidad de IA requieren que los usuarios carguen documentos o textos en un servicio en la nube.

En el caso de datos sensibles, esto puede generar problemas de privacidad o cumplimiento normativo.

Redaxa funciona localmente en su propio PC.

Sin procesamiento en la nube. Sin IA externa. Sin carga de documentos.

Esto hace que Redaxa sea adecuado para:

flujos de trabajo sensibles al RGPD
entornos jurídicos y sanitarios
instituciones de investigación
comunicación empresarial
usuarios que trabajan con documentos confidenciales
preparar texto antes de utilizar LLM o asistentes de IA

Prepare texto de forma segura antes de usar IA

Redaxa ayuda a los usuarios a preparar texto de forma segura antes de enviarlo a ChatGPT, Claude, Gemini, Copilot, Grok u otros LLM.

detectar PII automáticamente
resaltar información sensible
ocultar datos personales
anonimizar o seudonimizar texto
preparar prompts de forma segura antes de utilizar sistemas de IA

La aplicación funciona localmente y admite varios idiomas.