Capítulo 15 Dados perdidos e imputados
15.1 Dados perdidos
15.1.1 O que são dados perdidos?
- Dados perdidos são dados não coletados de um ou mais participantes, para uma ou mais variáveis.152
id | Grupo | Idade | Sexo | Desfecho (pré) | Desfecho (pós) |
---|---|---|---|---|---|
1 | Controle | 53 | F | 57.0 | 41.3 |
2 | Controle | 64 | F | 45.3 | 70.0 |
3 | Controle | 65 | M | 39.3 | NA |
4 | Intervenção | 66 | F | 47.8 | NA |
5 | Controle | 44 | M | 39.7 | 65.7 |
6 | Intervenção | NA | F | 42.7 | NA |
7 | Intervenção | 67 | M | 43.7 | 64.9 |
8 | Intervenção | NA | F | 33.1 | 63.3 |
9 | Controle | 68 | F | 58.4 | 61.6 |
10 | Controle | 74 | M | 51.5 | 54.3 |
O pacote base97 fornece a função is.na para identificar que elementos de um objeto são dados perdidos.
15.1.2 Qual o problema de um estudo ter dados perdidos?
Uma grande quantidade de dados perdidos pode comprometer a integridade científica do estudo, considerando-se que o tamanho da amostra foi estimado para observar um determinado tamanho de efeito mínimo.152
Perda de participantes no estudo por dados perdidos pode reduzir o poder estatístico (erro tipo II).152
Não existe solução globalmente satisfatória para o problema de dados perdidos.152
15.1.3 Quais os mecanismos geradores de dados perdidos?
- Dados perdidos completamente ao acaso (missing completely at random, MCAR), em que os dados perdidos estão distribuídos aleatoriamente nos dados da amostra.153,154

Figura 15.1: Representação gráfica de dados perdidos completamente ao acaso (MCAR) em um estudo randomizado controlado (RCT).
- Dados perdidos ao acaso (missing at random, MAR), em que a probabilidade de ocorrência de dados perdidos é relacionada a outras variáveis medidas.153,154

Figura 15.2: Representação gráfica de dados perdidos ao acaso (MAR) em um estudo randomizado controlado (RCT).
- Dados perdidos não ao acaso (missing not at random, MNAR), em que a probabilidade da ocorrência de dados perdidos é relacionada com a própria variável.153,154

Figura 15.3: Representação gráfica de dados perdidos não ao acaso (MNAR) em um estudo randomizado controlado (RCT).
15.1.4 Como identificar o mecanismo gerador de dados perdidos em um banco de dados?
Por definição, não é possível avaliar se os dados foram perdidos ao acaso (MAR) ou não (MNAR).153
Testes t e regressões logísticas podem ser aplicados para identificar relações entre variáveis com e sem dados perdidos, criando um fator de análise (‘dado perdido’ = 1, ‘dado observado’ = 0).153
O pacote misty155 fornece a função na.test para executar o Little’s Missing Completely at Random (MCAR) test156.
O pacote naniar157 fornece a função mcar_test para executar o Little’s Missing Completely at Random (MCAR) test156.
O pacote naniar157 fornece a função gg_miss_upset para gerar o gráfico Upset para visualizar padrões de dados perdidos.
15.1.5 Que estratégias podem ser utilizadas na coleta de dados quando há expectativa de perda amostral?
- Na expectativa de ocorrência de perda amostral, com consequente ocorrência de dados perdidos, recomenda-se ampliar o tamanho da amostra com um percentual correspondente a tal estimativa (ex.: 10%), embora ainda não corrija potenciais vieses pela perda.152
15.1.6 Que estratégias podem ser utilizadas na análise quando há dados perdidos?
Na ocorrência de dados perdidos, a análise mais comum compreende apenas os ‘casos completos’, com exclusão de participantes com algum dado perdido nas variáveis do estudo. Em casos de grande quantidade de dados perdidos, pode-se perder muito poder estatístico (erro tipo II elevado).152
A análise de dados completos é válida quando pode-se argumentar que a probabilidade de o participante ter dados completos depende apenas das covariáveis e não dos desfechos.154
A análise de dados completos é eficiente quando todos os dados perdidos estão no desfecho, ou quando cada participante com dados perdidos nas covariáveis também possui dados perdidos nos desfechos.154
O pacote base97 fornece a função na.omit para remover dados perdidos de um objeto em um banco de dados.
O pacote stats142 fornece a função complete.cases para identificar os casos completos - isto é, sem dados perdidos - em um banco de dados.
15.1.7 Que estratégias podem ser utilizadas na redação de estudos em que há dados perdidos?
- Informar: o número de participantes com dados perdidos; diferenças nas taxas de dados perdidos entre os braços do estudo; os motivos dos dados perdidos; o fluxo de participantes; quaisquer diferenças entre os participantes com e sem dados perdidos; o padrão de ausência (por exemplo, se é aleatória); os métodos para tratamento de dados perdidos das variáveis em análise; os resultados de quaisquer análises de sensibilidade; as implicações dos dados perdidos na interpretação do resultados.158
15.2 Dados imputados
15.2.2 Quando a imputação de dados é indicada?
A análise com imputação de dados pode ser útil quando pode-se argumentar que os dados foram perdidos ao acaso (MAR); quando o desfecho foi observado e os dados perdidos estão nas covariáveis; e variáveis auxiliares — preditoras do desfecho e não dos dados perdidos — estão disponíveis.154
Na ocorrência de dados perdidos, a imputação de dados (substituição por dados simulados plausíveis preditos pelos dados presentes) pode ser uma alternativa para manter o erro tipo II estipulado no plano de análise.152
15.2.3 Quais os métodos de imputação de dados?
Modelos lineares e logísticos podem ser utilizados para imputar dados perdidos em variáveis contínuas e dicotômicas, respectivamente.159
Os métodos de imputação de dados mais robustos incluem a imputação multivariada por equações encadeadas (multivariate imputation by chained equations, MICE)160 e a correspondência média preditiva (predictive mean matching, PMM)161,162.
Os pacotes mice160 e miceadds163 fornecem funções mice e mi.anova para imputação multivariada por equações encadeadas, respectivamente, para imputação de dados.
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,