Capítulo 18 Dados anonimizados e sintéticos

18.1 Dados anonimizados

18.1.1 O que são dados anonimizados?

Dados anonimizados são aqueles que passaram por um processo técnico destinado a impedir a identificação direta ou indireta de indivíduos, considerando os meios “razoavelmente prováveis” de reidentificação.²¹³
A anonimização envolve um trade-off inevitável entre privacidade e utilidade estatística, sendo necessário equilibrar o risco de identificação com a preservação das propriedades analíticas do banco de dados.²¹³
A anonimização perfeita é, na prática, inalcançável em muitos cenários modernos, especialmente em bases de alta dimensionalidade, devido ao risco de ataques de reidentificação e reconstrução.²¹³

18.1.2 Por que anonimização perfeita não existe?

Ataques evoluem continuamente, explorando novas vulnerabilidades e técnicas de reidentificação.²¹³
Reconstrução pode ocorrer mesmo em dados agregados.²¹³
Alta dimensionalidade torna registros únicos, aumentando o risco de reidentificação.²¹³
Avaliação empírica contra ataques é essencial.²¹³

18.1.3 Quais são os principais tipos de ataques contra dados anonimizados?

Ataques de inferência de pertencimento (membership inference), que verificam se um indivíduo faz parte do banco.²¹³
Ataques de inferência de atributos (attribute inference), que buscam estimar características sensíveis não observadas diretamente.²¹³
Ataques de reconstrução, que tentam reconstituir parcialmente ou totalmente o banco original a partir de dados agregados.²¹³

18.1.4 Como anonimizar os dados de um banco?

Abordagens modernas incluem a liberação de dados agregados, geração de dados sintéticos e aplicação de mecanismos formais como privacidade diferencial, que oferecem garantias matemáticas quantificáveis contra inferência excessiva de informações individuais.²¹³
Pseudonimização: Remoção de identificadores diretos (nome, CPF, telefone, entre outros).²¹³
Desidentificação por generalização/supressão: Técnicas como k-anonimato, generalização de atributos, ruído etc.²¹³
O fluxo de anonimização recomendado envolve: remoção de identificadores diretos; definição de variáveis-chave; mensuração de risco; aplicação de métodos de proteção; avaliação simultânea de risco residual e utilidade.²¹⁴

18.1.5 Quais são as limitações das técnicas de anonimização?

Pseudonimização é insuficiente, pois atributos combinados podem reidentificar indivíduos.²¹³
Desidentificação por generalização/supressão não garante proteção adequada em dados de alta dimensionalidade.²¹³
Diante dessas limitações, a geração de dados sintéticos surge como uma estratégia alternativa de redução de risco, embora também sujeita a desafios técnicos e regulatórios.²¹⁵

18.1.6 Qual é o equilíbrio entre privacidade e utilidade?

A anonimização envolve um equilíbrio fundamental entre privacidade e utilidade.²¹³
Quanto maior a proteção contra reidentificação, maior tende a ser a distorção estatística introduzida nos dados.²¹³
Técnicas inadequadas podem produzir um mau equilíbrio; técnicas modernas, quando auditadas contra ataques conhecidos, tendem a produzir melhores resultados.²¹³

O pacote ids²¹⁶ fornece a função random_id para criar identificadores aleatórios por criptografia.

O pacote hash²¹⁷ fornece a função hash para criar identificadores por objetos hash.

O pacote anonimizer²¹⁸ fornece a função anonymize para criar uma versão anônima de variáveis em um banco de dados.

O pacote digest²¹⁹ fornece a função digest para criar identificadores por objetos hash criptografados ou não.

O pacote sdcMicro²²⁰ fornece funções proteção de microdados.

18.2 Dados sintéticos

18.2.1 O que são dados sintéticos?

Dados sintéticos são bases artificiais geradas a partir de modelos estatísticos treinados sobre dados reais, preservando suas propriedades estatísticas relevantes, mas sem corresponder diretamente aos registros originais.²¹³
Embora dados sintéticos possam reduzir riscos de reidentificação, eles não são automaticamente seguros, pois modelos geradores podem memorizar registros individuais, tornando possíveis ataques de inferência ou reconstrução.²¹³
Dados sintéticos têm aplicações promissoras em políticas públicas, modelos preditivos e tecnologia de digital twins na saúde, embora apresentem desafios relacionados a viés, qualidade e governança regulatória.²¹⁵
Dados sintéticos mantêm similaridade estatística e distributiva com os dados originais, sem diferenças significativas nas comparações por testes de hipótese nula.²²¹
A geração de dados sintéticos não elimina todos os riscos de divulgação, especialmente em casos de observações raras ou extremos (por exemplo, recordes ou desempenhos únicos), que podem aumentar o risco de identificação mesmo após a síntese.²²¹

O pacote synthpop²²² fornece a função syn para criar bancos de dados sintéticos a partir de um banco de dados real.

18.2.2 Como dados sintéticos podem ser usados em digital twins?

Dados sintéticos podem alimentar modelos de digital twins, réplicas virtuais de sistemas hospitalares ou de pacientes, permitindo simular cenários clínicos, testar intervenções e otimizar decisões terapêuticas sem expor dados individuais reais.²¹⁵

Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,

Referências

213.

Gadotti A, Rocher L, Houssiau F, Creţu AM, Montjoye YA de. Anonymization: The imperfect science of using data while preserving privacy. Science Advances. 2024;10(29). doi:10.1126/sciadv.adn7053

214.

Templ M, Kowarik A, Meindl B. Statistical Disclosure Control for Micro-Data Using theRPackagesdcMicro. Journal of Statistical Software. 2015;67(4). doi:10.18637/jss.v067.i04

215.

Giuffrè M, Shung DL. Harnessing the power of synthetic data in healthcare: innovation, application, and privacy. npj Digital Medicine. 2023;6(1). doi:10.1038/s41746-023-00927-3

216.

FitzJohn R. ids: Generate Random Identifiers.; 2017. https://CRAN.R-project.org/package=ids.

217.

Brown C. hash: Full Featured Implementation of Hash Tables/Associative Arrays/Dictionaries.; 2023. https://CRAN.R-project.org/package=hash.

218.

Hendricks P. anonymizer: Anonymize Data Containing Personally Identifiable Information.; 2023. https://github.com/paulhendricks/anonymizer.

219.

Lucas DE with contributions by A, Tuszynski J, Bengtsson H, et al. digest: Create Compact Hash Digests of R Objects.; 2023. https://CRAN.R-project.org/package=digest.

220.

Templ M, Kowarik A, Meindl B. Statistical Disclosure Control for Micro-Data Using the R Package sdcMicro. V 67.; 2015. doi:10.18637/jss.v067.i04

221.

Naughton M, Weaving D, Scott T, Compton H. Synthetic Data as a Strategy to Resolve Data Privacy and Confidentiality Concerns in the Sport Sciences: Practical Examples and an R Shiny Application. International Journal of Sports Physiology and Performance. 2023;18(10):1213–1218. doi:10.1123/ijspp.2023-0007

222.

Nowok B, Raab GM, Dibben C. synthpop: Bespoke Creation of Synthetic Data in R. Journal of Statistical Software. 2016;74. doi:10.18637/jss.v074.i11