Capítulo 17 Dados anonimizados e sintéticos
17.1 Dados anonimizados
17.1.1 O que são dados anonimizados?
Dados anonimizados são aqueles que passaram por um processo técnico destinado a impedir a identificação direta ou indireta de indivíduos, considerando os meios “razoavelmente prováveis” de reidentificação.200
A anonimização envolve um trade-off inevitável entre privacidade e utilidade estatística, sendo necessário equilibrar o risco de identificação com a preservação das propriedades analíticas do banco de dados.200
A anonimização perfeita é, na prática, inalcançável em muitos cenários modernos, especialmente em bases de alta dimensionalidade, devido ao risco de ataques de reidentificação e reconstrução.200
17.1.2 Por que anonimização perfeita não existe?
Ataques evoluem continuamente, explorando novas vulnerabilidades e técnicas de reidentificação.200
Reconstrução pode ocorrer mesmo em dados agregados.200
Alta dimensionalidade torna registros únicos, aumentando o risco de reidentificação.200
Avaliação empírica contra ataques é essencial.200
17.1.3 Quais são os principais tipos de ataques contra dados anonimizados?
Ataques de inferência de pertencimento (membership inference), que verificam se um indivíduo faz parte do banco.200
Ataques de inferência de atributos (attribute inference), que buscam estimar características sensíveis não observadas diretamente.200
Ataques de reconstrução, que tentam reconstituir parcialmente ou totalmente o banco original a partir de dados agregados.200
17.1.4 Como anonimizar os dados de um banco?
Abordagens modernas incluem a liberação de dados agregados, geração de dados sintéticos e aplicação de mecanismos formais como privacidade diferencial, que oferecem garantias matemáticas quantificáveis contra inferência excessiva de informações individuais.200
Pseudonimização: Remoção de identificadores diretos (nome, CPF, telefone, entre outros).200
Desidentificação por generalização/supressão: Técnicas como k-anonimato, generalização de atributos, ruído etc.200
O fluxo de anonimização recomendado envolve: remoção de identificadores diretos; definição de variáveis-chave; mensuração de risco; aplicação de métodos de proteção; avaliação simultânea de risco residual e utilidade.201
17.1.5 Quais são as limitações das técnicas de anonimização?
Pseudonimização é insuficiente, pois atributos combinados podem reidentificar indivíduos.200
Desidentificação por generalização/supressão não garante proteção adequada em dados de alta dimensionalidade.200
Diante dessas limitações, a geração de dados sintéticos surge como uma estratégia alternativa de redução de risco, embora também sujeita a desafios técnicos e regulatórios.202
17.1.6 Qual é o equilíbrio entre privacidade e utilidade?
A anonimização envolve um equilíbrio fundamental entre privacidade e utilidade.200
Quanto maior a proteção contra reidentificação, maior tende a ser a distorção estatística introduzida nos dados.200
Técnicas inadequadas podem produzir um mau equilíbrio; técnicas modernas, quando auditadas contra ataques conhecidos, tendem a produzir melhores resultados.200
O pacote anonimizer205 fornece a função anonymize para criar uma versão anônima de variáveis em um banco de dados.
O pacote digest206 fornece a função digest para criar identificadores por objetos hash criptografados ou não.
O pacote sdcMicro207 fornece funções proteção de microdados.
17.2 Dados sintéticos
17.2.1 O que são dados sintéticos?
Dados sintéticos são bases artificiais geradas a partir de modelos estatísticos treinados sobre dados reais, preservando suas propriedades estatísticas relevantes, mas sem corresponder diretamente aos registros originais.200
Embora dados sintéticos possam reduzir riscos de reidentificação, eles não são automaticamente seguros, pois modelos geradores podem memorizar registros individuais, tornando possíveis ataques de inferência ou reconstrução.200
Dados sintéticos têm aplicações promissoras em políticas públicas, modelos preditivos e tecnologia de digital twins na saúde, embora apresentem desafios relacionados a viés, qualidade e governança regulatória.202
Dados sintéticos mantêm similaridade estatística e distributiva com os dados originais, sem diferenças significativas nas comparações por testes de hipótese nula.208
A geração de dados sintéticos não elimina todos os riscos de divulgação, especialmente em casos de observações raras ou extremos (por exemplo, recordes ou desempenhos únicos), que podem aumentar o risco de identificação mesmo após a síntese.208
O pacote synthpop209 fornece a função syn para criar bancos de dados sintéticos a partir de um banco de dados real.
17.2.2 Como dados sintéticos podem ser usados em digital twins?
- Dados sintéticos podem alimentar modelos de digital twins, réplicas virtuais de sistemas hospitalares ou de pacientes, permitindo simular cenários clínicos, testar intervenções e otimizar decisões terapêuticas sem expor dados individuais reais.202
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,