Capítulo 17 Dados anonimizados e sintéticos


17.1 Dados anonimizados


17.1.1 O que são dados anonimizados?

  • Dados anonimizados são aqueles que passaram por um processo técnico destinado a impedir a identificação direta ou indireta de indivíduos, considerando os meios “razoavelmente prováveis” de reidentificação.200

  • A anonimização envolve um trade-off inevitável entre privacidade e utilidade estatística, sendo necessário equilibrar o risco de identificação com a preservação das propriedades analíticas do banco de dados.200

  • A anonimização perfeita é, na prática, inalcançável em muitos cenários modernos, especialmente em bases de alta dimensionalidade, devido ao risco de ataques de reidentificação e reconstrução.200


17.1.2 Por que anonimização perfeita não existe?

  • Ataques evoluem continuamente, explorando novas vulnerabilidades e técnicas de reidentificação.200

  • Reconstrução pode ocorrer mesmo em dados agregados.200

  • Alta dimensionalidade torna registros únicos, aumentando o risco de reidentificação.200

  • Avaliação empírica contra ataques é essencial.200


17.1.3 Quais são os principais tipos de ataques contra dados anonimizados?

  • Ataques de inferência de pertencimento (membership inference), que verificam se um indivíduo faz parte do banco.200

  • Ataques de inferência de atributos (attribute inference), que buscam estimar características sensíveis não observadas diretamente.200

  • Ataques de reconstrução, que tentam reconstituir parcialmente ou totalmente o banco original a partir de dados agregados.200


17.1.4 Como anonimizar os dados de um banco?

  • Abordagens modernas incluem a liberação de dados agregados, geração de dados sintéticos e aplicação de mecanismos formais como privacidade diferencial, que oferecem garantias matemáticas quantificáveis contra inferência excessiva de informações individuais.200

  • Pseudonimização: Remoção de identificadores diretos (nome, CPF, telefone, entre outros).200

  • Desidentificação por generalização/supressão: Técnicas como k-anonimato, generalização de atributos, ruído etc.200

  • O fluxo de anonimização recomendado envolve: remoção de identificadores diretos; definição de variáveis-chave; mensuração de risco; aplicação de métodos de proteção; avaliação simultânea de risco residual e utilidade.201


17.1.5 Quais são as limitações das técnicas de anonimização?

  • Pseudonimização é insuficiente, pois atributos combinados podem reidentificar indivíduos.200

  • Desidentificação por generalização/supressão não garante proteção adequada em dados de alta dimensionalidade.200

  • Diante dessas limitações, a geração de dados sintéticos surge como uma estratégia alternativa de redução de risco, embora também sujeita a desafios técnicos e regulatórios.202


17.1.6 Qual é o equilíbrio entre privacidade e utilidade?

  • A anonimização envolve um equilíbrio fundamental entre privacidade e utilidade.200

  • Quanto maior a proteção contra reidentificação, maior tende a ser a distorção estatística introduzida nos dados.200

  • Técnicas inadequadas podem produzir um mau equilíbrio; técnicas modernas, quando auditadas contra ataques conhecidos, tendem a produzir melhores resultados.200







17.2 Dados sintéticos


17.2.1 O que são dados sintéticos?

  • Dados sintéticos são bases artificiais geradas a partir de modelos estatísticos treinados sobre dados reais, preservando suas propriedades estatísticas relevantes, mas sem corresponder diretamente aos registros originais.200

  • Embora dados sintéticos possam reduzir riscos de reidentificação, eles não são automaticamente seguros, pois modelos geradores podem memorizar registros individuais, tornando possíveis ataques de inferência ou reconstrução.200

  • Dados sintéticos têm aplicações promissoras em políticas públicas, modelos preditivos e tecnologia de digital twins na saúde, embora apresentem desafios relacionados a viés, qualidade e governança regulatória.202

  • Dados sintéticos mantêm similaridade estatística e distributiva com os dados originais, sem diferenças significativas nas comparações por testes de hipótese nula.208

  • A geração de dados sintéticos não elimina todos os riscos de divulgação, especialmente em casos de observações raras ou extremos (por exemplo, recordes ou desempenhos únicos), que podem aumentar o risco de identificação mesmo após a síntese.208



17.2.2 Como dados sintéticos podem ser usados em digital twins?

  • Dados sintéticos podem alimentar modelos de digital twins, réplicas virtuais de sistemas hospitalares ou de pacientes, permitindo simular cenários clínicos, testar intervenções e otimizar decisões terapêuticas sem expor dados individuais reais.202



Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,


Referências

200.
Gadotti A, Rocher L, Houssiau F, Creţu AM, Montjoye YA de. Anonymization: The imperfect science of using data while preserving privacy. Science Advances. 2024;10(29). doi:10.1126/sciadv.adn7053
201.
Templ M, Kowarik A, Meindl B. Statistical Disclosure Control for Micro-Data Using theRPackagesdcMicro. Journal of Statistical Software. 2015;67(4). doi:10.18637/jss.v067.i04
203.
FitzJohn R. ids: Generate Random Identifiers.; 2017. https://CRAN.R-project.org/package=ids.
204.
Brown C. hash: Full Featured Implementation of Hash Tables/Associative Arrays/Dictionaries.; 2023. https://CRAN.R-project.org/package=hash.
205.
Hendricks P. anonymizer: Anonymize Data Containing Personally Identifiable Information.; 2023. https://github.com/paulhendricks/anonymizer.
206.
Lucas DE with contributions by A, Tuszynski J, Bengtsson H, et al. digest: Create Compact Hash Digests of R Objects.; 2023. https://CRAN.R-project.org/package=digest.
207.
Templ M, Kowarik A, Meindl B. Statistical Disclosure Control for Micro-Data Using the R Package sdcMicro. Vol 67.; 2015. doi:10.18637/jss.v067.i04
208.
Naughton M, Weaving D, Scott T, Compton H. Synthetic Data as a Strategy to Resolve Data Privacy and Confidentiality Concerns in the Sport Sciences: Practical Examples and an R Shiny Application. International Journal of Sports Physiology and Performance. 2023;18(10):1213–1218. doi:10.1123/ijspp.2023-0007
209.
Nowok B, Raab GM, Dibben C. synthpop: Bespoke Creation of Synthetic Data in R. Journal of Statistical Software. 2016;74. doi:10.18637/jss.v074.i11