Capítulo 14 Dados perdidos e imputados


14.1 Dados perdidos


14.1.1 O que são dados perdidos?

  • Dados perdidos são dados não coletados de um ou mais participantes, para uma ou mais variáveis.151


Tabela 14.1: Simulação de uma amostra (n=10) de um ensaio clínico aleatorizado (dados com perdas aleatórias).
id Grupo Idade Sexo Desfecho (pré) Desfecho (pós)
1 Controle 53 F 57.0 41.3
2 Controle 64 F 45.3 70.0
3 Controle 65 M 39.3 NA
4 Intervenção 66 F 47.8 NA
5 Controle 44 M 39.7 65.7
6 Intervenção NA F 42.7 NA
7 Intervenção 67 M 43.7 64.9
8 Intervenção NA F 33.1 63.3
9 Controle 68 F 58.4 61.6
10 Controle 74 M 51.5 54.3



14.1.2 Qual o problema de um estudo ter dados perdidos?

  • Uma grande quantidade de dados perdidos pode comprometer a integridade científica do estudo, considerando-se que o tamanho da amostra foi estimado para observar um determinado tamanho de efeito mínimo.151

  • Perda de participantes no estudo por dados perdidos pode reduzir o poder estatístico (erro tipo II).151

  • Não existe solução globalmente satisfatória para o problema de dados perdidos.151


14.2 Mecanismos geradores de dados perdidos


14.2.1 Quais os mecanismos geradores de dados perdidos?

  • Dados perdidos completamente ao acaso (missing completely at random, MCAR), em que os dados perdidos estão distribuídos aleatoriamente nos dados da amostra.152,153


Representação gráfica de dados perdidos completamente ao acaso (MCAR) em um estudo randomizado controlado (RCT).

Figura 14.1: Representação gráfica de dados perdidos completamente ao acaso (MCAR) em um estudo randomizado controlado (RCT).


  • Dados perdidos ao acaso (missing at random, MAR), em que a probabilidade de ocorrência de dados perdidos é relacionada a outras variáveis medidas.152,153
Representação gráfica de dados perdidos ao acaso (MAR) em um estudo randomizado controlado (RCT).

Figura 14.2: Representação gráfica de dados perdidos ao acaso (MAR) em um estudo randomizado controlado (RCT).


  • Dados perdidos não ao acaso (missing not at random, MNAR), em que a probabilidade da ocorrência de dados perdidos é relacionada com a própria variável.152,153


Representação gráfica de dados perdidos não ao acaso (MNAR) em um estudo randomizado controlado (RCT).

Figura 14.3: Representação gráfica de dados perdidos não ao acaso (MNAR) em um estudo randomizado controlado (RCT).


14.2.2 Como identificar o mecanismo gerador de dados perdidos em um banco de dados?

  • Por definição, não é possível avaliar se os dados foram perdidos ao acaso (MAR) ou não (MNAR).152

  • Testes t e regressões logísticas podem ser aplicados para identificar relações entre variáveis com e sem dados perdidos, criando um fator de análise (‘dado perdido’ = 1, ‘dado observado’ = 0).152





14.3 Estratégias para lidar com dados perdidos


14.3.1 Que estratégias podem ser utilizadas na coleta de dados quando há expectativa de perda amostral?

  • Na expectativa de ocorrência de perda amostral, com consequente ocorrência de dados perdidos, recomenda-se ampliar o tamanho da amostra com um percentual correspondente a tal estimativa (ex.: 10%), embora ainda não corrija potenciais vieses pela perda.151


14.3.2 Que estratégias podem ser utilizadas na análise quando há dados perdidos?

  • Na ocorrência de dados perdidos, a análise mais comum compreende apenas os ‘casos completos’, com exclusão de participantes com algum dado perdido nas variáveis do estudo. Em casos de grande quantidade de dados perdidos, pode-se perder muito poder estatístico (erro tipo II elevado).151

  • A análise de dados completos é válida quando pode-se argumentar que a probabilidade de o participante ter dados completos depende apenas das covariáveis e não dos desfechos.153

  • A análise de dados completos é eficiente quando todos os dados perdidos estão no desfecho, ou quando cada participante com dados perdidos nas covariáveis também possui dados perdidos nos desfechos.153




14.3.3 Que estratégias podem ser utilizadas na redação de estudos em que há dados perdidos?

  • Informar: o número de participantes com dados perdidos; diferenças nas taxas de dados perdidos entre os braços do estudo; os motivos dos dados perdidos; o fluxo de participantes; quaisquer diferenças entre os participantes com e sem dados perdidos; o padrão de ausência (por exemplo, se é aleatória); os métodos para tratamento de dados perdidos das variáveis em análise; os resultados de quaisquer análises de sensibilidade; as implicações dos dados perdidos na interpretação do resultados.157


14.4 Dados imputados


14.4.1 O que são dados imputados?


14.4.2 Quando a imputação de dados é indicada?

  • A análise com imputação de dados pode ser útil quando pode-se argumentar que os dados foram perdidos ao acaso (MAR); quando o desfecho foi observado e os dados perdidos estão nas covariáveis; e variáveis auxiliares — preditoras do desfecho e não dos dados perdidos — estão disponíveis.153

  • Na ocorrência de dados perdidos, a imputação de dados (substituição por dados simulados plausíveis preditos pelos dados presentes) pode ser uma alternativa para manter o erro tipo II estipulado no plano de análise.151


14.4.3 Quais são os métodos de imputação de dados?

  • Modelos lineares e logísticos podem ser utilizados para imputar dados perdidos em variáveis contínuas e dicotômicas, respectivamente.158

  • Os métodos de imputação de dados mais robustos incluem a imputação multivariada por equações encadeadas (multivariate imputation by chained equations, MICE)159 e a correspondência média preditiva (predictive mean matching, PMM).160,161


Impacto de métodos de imputação na distribuição de uma variável contínua com dados perdidos.

Figura 14.4: Impacto de métodos de imputação na distribuição de uma variável contínua com dados perdidos.




Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,


Referências

55.
R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing; 2023. https://www.R-project.org/.
141.
R Core Team. R: A Language and Environment for Statistical Computing.; 2023. https://www.R-project.org/.
151.
Altman DG, Bland JM. Missing data. BMJ. 2007;334(7590):424–424. doi:10.1136/bmj.38977.682025.2c
152.
Heymans MW, Twisk JWR. Handling missing data in clinical research. Journal of Clinical Epidemiology. setembro 2022. doi:10.1016/j.jclinepi.2022.08.016
153.
Carpenter JR, Smuk M. Missing data: A statistical framework for practice. Biometrical Journal. 2021;63(5):915–947. doi:10.1002/bimj.202000196
154.
Yanagida T. misty: Miscellaneous Functions.; 2023. https://CRAN.R-project.org/package=misty.
155.
Little RJA. A Test of Missing Completely at Random for Multivariate Data with Missing Values. Journal of the American Statistical Association. 1988;83(404):1198–1202. doi:10.1080/01621459.1988.10478722
156.
Tierney N, Cook D. Expanding Tidy Data Principles to Facilitate Missing Data Exploration, Visualization and Assessment of Imputations. Journal of Statistical Software. 2023;105(7):1–31. doi:10.18637/jss.v105.i07
157.
Akl EA, Shawwa K, Kahale LA, et al. Reporting missing participant data in randomised trials: systematic survey of the methodological literature and a proposed guide. BMJ Open. 2015;5(12):e008431. doi:10.1136/bmjopen-2015-008431
158.
Austin PC, Buuren S van. Logistic regression vs. predictive mean matching for imputing binary covariates. Statistical Methods in Medical Research. setembro 2023. doi:10.1177/09622802231198795
159.
Buuren S van, Groothuis-Oudshoorn K. mice: Multivariate Imputation by Chained Equations in R. Journal of Statistical Software. 2011;45:1–67. doi:10.18637/jss.v045.i03
160.
Rubin DB. Statistical Matching Using File Concatenation with Adjusted Weights and Multiple Imputations. Journal of Business & Economic Statistics. 1986;4(1):87. doi:10.2307/1391390
161.
Little RJA. Missing-Data Adjustments in Large Surveys. Journal of Business & Economic Statistics. 1988;6(3):287–296. doi:10.1080/07350015.1988.10509663
162.
Robitzsch A, Grund S. miceadds: Some Additional Multiple Imputation Functions, Especially for mice.; 2023. https://CRAN.R-project.org/package=miceadds.