Remover PII antes de utilizar LLMs
Como preparar texto sensível de forma segura antes de utilizar sistemas de IA
O que é PII?
Isto inclui qualquer informação que possa identificar uma pessoa direta ou indiretamente.
Exemplos comuns de PII incluem:
- nomes completos
- endereços de e-mail
- números de telefone
- moradas residenciais
- números de passaporte ou documento de identificação
- IDs de clientes
- IBANs e dados bancários
- informação médica
- tickets de suporte com dados pessoais
- informação empresarial interna associada a indivíduos
Em muitos documentos reais, vários tipos de PII aparecem em conjunto.
Porque a PII é importante ao utilizar LLMs
- resumir documentos
- reescrever e-mails
- analisar pedidos de suporte
- extrair informações
- tradução
- pesquisa
- geração de rascunhos
- assistência à programação
Para utilizar estes sistemas, as pessoas frequentemente colam texto bruto diretamente em chatbots de IA ou plataformas de IA generativa.
O problema é que estes textos contêm frequentemente informações sensíveis, pessoais ou confidenciais.
Os utilizadores podem partilhar inadvertidamente dados privados, informações de clientes, dados de pacientes, documentos internos ou informações legalmente protegidas com sistemas externos de IA.
Exemplos de dados sensíveis em prompts de LLM
- conversas com clientes
- registos médicos
- contratos
- tickets de suporte
- comunicação entre colaboradores
- documentos legais
- dados financeiros
- material de investigação
- mensagens privadas
Mesmo um texto aparentemente inofensivo pode conter identificadores ocultos que podem expor indivíduos ou informações empresariais confidenciais.
Um fluxo de trabalho mais seguro antes de utilizar IA
Um fluxo de trabalho mais seguro antes de utilizar LLMs é:
- Detetar automaticamente informações sensíveis
- Redigir, anonimizar ou pseudonimizar o texto
- Utilizar a versão limpa com sistemas de IA
- Restaurar posteriormente os marcadores pseudonimizados localmente, se necessário
Isto ajuda a reduzir riscos de privacidade, segurança e conformidade, mantendo ao mesmo tempo o texto útil para tarefas assistidas por IA.
Exemplo
Texto original
O cliente Sarah Johnson de London contactou o suporte relativamente à conta AC-48372.
O seu e-mail é [email protected] e o seu número de telefone é +44 7700 900123.
Versão pseudonimizada
O cliente [PERSON_1] de [LOCATION_1] contactou o suporte relativamente à conta [SECRET_1].
O seu e-mail é [EMAIL_1] e o seu número de telefone é [PHONE_1].
O contexto importante permanece intacto enquanto as informações de identificação pessoal são removidas.
Porque a remoção local de PII é importante
Quando se trata de dados sensíveis, isso pode criar problemas de privacidade ou conformidade.
O Redaxa funciona localmente no seu próprio PC.
Sem processamento na nuvem. Sem necessidade de IA externa. Sem carregamento de documentos.
Isso torna o Redaxa adequado para:
- fluxos de trabalho sensíveis ao RGPD
- ambientes jurídicos e de saúde
- instituições de investigação
- comunicação empresarial
- utilizadores que trabalham com documentos confidenciais
- preparar texto antes de utilizar LLMs ou assistentes de IA
Prepare texto com segurança antes de utilizar IA
- detetar PII automaticamente
- destacar informações sensíveis
- ocultar dados pessoais
- anonimizar ou pseudonimizar texto
- preparar prompts com segurança antes de utilizar sistemas de IA
A aplicação funciona localmente e suporta vários idiomas.