Capítulo 18 Dados anonimizados e sintéticos
18.1 Dados anonimizados
18.1.1 O que são dados anonimizados?
Dados anonimizados são aqueles que passaram por um processo técnico destinado a impedir a identificação direta ou indireta de indivíduos, considerando os meios “razoavelmente prováveis” de reidentificação.213
A anonimização envolve um trade-off inevitável entre privacidade e utilidade estatística, sendo necessário equilibrar o risco de identificação com a preservação das propriedades analíticas do banco de dados.213
A anonimização perfeita é, na prática, inalcançável em muitos cenários modernos, especialmente em bases de alta dimensionalidade, devido ao risco de ataques de reidentificação e reconstrução.213
18.1.2 Por que anonimização perfeita não existe?
Ataques evoluem continuamente, explorando novas vulnerabilidades e técnicas de reidentificação.213
Reconstrução pode ocorrer mesmo em dados agregados.213
Alta dimensionalidade torna registros únicos, aumentando o risco de reidentificação.213
Avaliação empírica contra ataques é essencial.213
18.1.3 Quais são os principais tipos de ataques contra dados anonimizados?
Ataques de inferência de pertencimento (membership inference), que verificam se um indivíduo faz parte do banco.213
Ataques de inferência de atributos (attribute inference), que buscam estimar características sensíveis não observadas diretamente.213
Ataques de reconstrução, que tentam reconstituir parcialmente ou totalmente o banco original a partir de dados agregados.213
18.1.4 Como anonimizar os dados de um banco?
Abordagens modernas incluem a liberação de dados agregados, geração de dados sintéticos e aplicação de mecanismos formais como privacidade diferencial, que oferecem garantias matemáticas quantificáveis contra inferência excessiva de informações individuais.213
Pseudonimização: Remoção de identificadores diretos (nome, CPF, telefone, entre outros).213
Desidentificação por generalização/supressão: Técnicas como k-anonimato, generalização de atributos, ruído etc.213
O fluxo de anonimização recomendado envolve: remoção de identificadores diretos; definição de variáveis-chave; mensuração de risco; aplicação de métodos de proteção; avaliação simultânea de risco residual e utilidade.214
18.1.5 Quais são as limitações das técnicas de anonimização?
Pseudonimização é insuficiente, pois atributos combinados podem reidentificar indivíduos.213
Desidentificação por generalização/supressão não garante proteção adequada em dados de alta dimensionalidade.213
Diante dessas limitações, a geração de dados sintéticos surge como uma estratégia alternativa de redução de risco, embora também sujeita a desafios técnicos e regulatórios.215
18.1.6 Qual é o equilíbrio entre privacidade e utilidade?
A anonimização envolve um equilíbrio fundamental entre privacidade e utilidade.213
Quanto maior a proteção contra reidentificação, maior tende a ser a distorção estatística introduzida nos dados.213
Técnicas inadequadas podem produzir um mau equilíbrio; técnicas modernas, quando auditadas contra ataques conhecidos, tendem a produzir melhores resultados.213
O pacote ids216 fornece a função random_id para criar identificadores aleatórios por criptografia.
O pacote hash217 fornece a função hash para criar identificadores por objetos hash.
O pacote anonimizer218 fornece a função anonymize para criar uma versão anônima de variáveis em um banco de dados.
O pacote digest219 fornece a função digest para criar identificadores por objetos hash criptografados ou não.
O pacote sdcMicro220 fornece funções proteção de microdados.
18.2 Dados sintéticos
18.2.1 O que são dados sintéticos?
Dados sintéticos são bases artificiais geradas a partir de modelos estatísticos treinados sobre dados reais, preservando suas propriedades estatísticas relevantes, mas sem corresponder diretamente aos registros originais.213
Embora dados sintéticos possam reduzir riscos de reidentificação, eles não são automaticamente seguros, pois modelos geradores podem memorizar registros individuais, tornando possíveis ataques de inferência ou reconstrução.213
Dados sintéticos têm aplicações promissoras em políticas públicas, modelos preditivos e tecnologia de digital twins na saúde, embora apresentem desafios relacionados a viés, qualidade e governança regulatória.215
Dados sintéticos mantêm similaridade estatística e distributiva com os dados originais, sem diferenças significativas nas comparações por testes de hipótese nula.221
A geração de dados sintéticos não elimina todos os riscos de divulgação, especialmente em casos de observações raras ou extremos (por exemplo, recordes ou desempenhos únicos), que podem aumentar o risco de identificação mesmo após a síntese.221
O pacote synthpop222 fornece a função syn para criar bancos de dados sintéticos a partir de um banco de dados real.
18.2.2 Como dados sintéticos podem ser usados em digital twins?
- Dados sintéticos podem alimentar modelos de digital twins, réplicas virtuais de sistemas hospitalares ou de pacientes, permitindo simular cenários clínicos, testar intervenções e otimizar decisões terapêuticas sem expor dados individuais reais.215
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,