Remoção de dados pessoais antes da utilização de LLMs

O que é PII?

PII significa Personally Identifiable Information e refere-se a dados pessoais.

Isto inclui qualquer informação que possa identificar uma pessoa direta ou indiretamente.

Exemplos comuns de PII incluem:

nomes completos
endereços de e-mail
números de telefone
moradas residenciais
números de passaporte ou documento de identificação
IDs de clientes
IBANs e dados bancários
informação médica
tickets de suporte com dados pessoais
informação empresarial interna associada a indivíduos

Em muitos documentos reais, vários tipos de PII aparecem em conjunto.

Porque a PII é importante ao utilizar LLMs

Os Large Language Models (LLMs), como ChatGPT, Claude, Gemini, Copilot, Grok e outros assistentes de IA, são cada vez mais utilizados para:

resumir documentos
reescrever e-mails
analisar pedidos de suporte
extrair informações
tradução
pesquisa
geração de rascunhos
assistência à programação

Para utilizar estes sistemas, as pessoas frequentemente colam texto bruto diretamente em chatbots de IA ou plataformas de IA generativa.

O problema é que estes textos contêm frequentemente informações sensíveis, pessoais ou confidenciais.

Os utilizadores podem partilhar inadvertidamente dados privados, informações de clientes, dados de pacientes, documentos internos ou informações legalmente protegidas com sistemas externos de IA.

Exemplos de dados sensíveis em prompts de LLM

Informações sensíveis em prompts podem incluir:

conversas com clientes
registos médicos
contratos
tickets de suporte
comunicação entre colaboradores
documentos legais
dados financeiros
material de investigação
mensagens privadas

Mesmo um texto aparentemente inofensivo pode conter identificadores ocultos que podem expor indivíduos ou informações empresariais confidenciais.

Um fluxo de trabalho mais seguro antes de utilizar IA

Um fluxo de trabalho mais seguro antes de utilizar LLMs é:

Detetar automaticamente informações sensíveis
Redigir, anonimizar ou pseudonimizar o texto
Utilizar a versão limpa com sistemas de IA
Restaurar posteriormente os marcadores pseudonimizados localmente, se necessário

Isto ajuda a reduzir riscos de privacidade, segurança e conformidade, mantendo ao mesmo tempo o texto útil para tarefas assistidas por IA.

Exemplo

Texto original

O cliente Sarah Johnson de London contactou o suporte relativamente à conta AC-48372.
O seu e-mail é [email protected] e o seu número de telefone é +44 7700 900123.

Versão pseudonimizada

O cliente [PERSON_1] de [LOCATION_1] contactou o suporte relativamente à conta [SECRET_1].
O seu e-mail é [EMAIL_1] e o seu número de telefone é [PHONE_1].

O contexto importante permanece intacto enquanto as informações de identificação pessoal são removidas.

Porque a remoção local de PII é importante

Muitas ferramentas de anonimização ou privacidade para IA exigem que os utilizadores carreguem documentos ou texto para um serviço na nuvem.

Quando se trata de dados sensíveis, isso pode criar problemas de privacidade ou conformidade.

O Redaxa funciona localmente no seu próprio PC.

Sem processamento na nuvem. Sem necessidade de IA externa. Sem carregamento de documentos.

Isso torna o Redaxa adequado para:

fluxos de trabalho sensíveis ao RGPD
ambientes jurídicos e de saúde
instituições de investigação
comunicação empresarial
utilizadores que trabalham com documentos confidenciais
preparar texto antes de utilizar LLMs ou assistentes de IA

Prepare texto com segurança antes de utilizar IA

O Redaxa ajuda os utilizadores a preparar texto com segurança antes de o enviar para ChatGPT, Claude, Gemini, Copilot, Grok ou outros LLMs.

detetar PII automaticamente
destacar informações sensíveis
ocultar dados pessoais
anonimizar ou pseudonimizar texto
preparar prompts com segurança antes de utilizar sistemas de IA

A aplicação funciona localmente e suporta vários idiomas.