Capítulo 14 Análise inicial de dados
14.1 Análise inicial de dados
14.1.1 O que é análise inicial de dados?
Análise inicial de dados145 é uma sequência de procedimentos que visam principalmente a transparência e integridade das pré-condições do estudo para conduzir a análise estatística apropriada de modo responsável para responder aos problemas da pesquisa.77
O objetivo da análise inicial de dados é propiciar dados prontos para análise estatística, incluindo informações confiáveis sobre as propriedades dos dados.77
A análise inicial de dados pode ser dividida nas seguintes etapas:77
Configuração dos metadados
Limpeza dos dados
Verificação dos dados
Relatório inicial dos dados
Refinamento e atualização do plano de análise estatística
Documentação e relatório da análise inicial de dados
A análise inicial de dados não deve ser confundida com análise exploratória146, nem deve ser utilizada para hipotetizar após os dados serem coletados (conhecido como Hypothesizing After Results are Known, HARKing)147.
14.1.2 Como conduzir uma análise inicial de dados?
Desenvolva um plano de análise inicial de dados consistente com os objetivos da pesquisa. Por exemplo, verifique a distribuição e escala das variáveis, procure por observações não-usuais ou improváveis, avalie possíveis padrões de dados perdidos.77
Não altere diretamente os dados de uma tabela obtida de uma fonte. Use scripts para implementar eventuais alterações, de modo a manter o registro de todas as modificações realizadas no banco de dados.77
Use os metadados do estudo para guiar a análise inicial dos dados e compartilhe com os dados para maior transparência e reprodutibilidade.77
Representação gráfica dos dados pode ajudar a identificar características e padrões no banco de dados, tais como suposições e tendências.77
Verifique a frequência e proporção de dados perdidos em cada variável, e depois examine por padrões de dados perdidos simultaneamente por duas ou mais variáveis.77
Verifique a frequência e proporção de dados perdidos em cada variável, e depois examine por padrões de dados perdidos simultaneamente por duas ou mais variáveis.77
Exclusão de dados ad hoc baseada no desfecho pode influenciar os resultados do estudo, portanto os critérios de exclusão de dados antes da análise estatística (descritiva e/ou inferencial) devem ser reportados.148
14.1.3 Quais problemas podem ser detectados na análise inicial de dados?
- Ocorrência de dados perdidos, que podem ser excluídos ou imputados para não reduzir o poder do estudo.REF?
O pacote stats71 fornece a função complete.cases para identificar os casos completos - isto é, sem dados perdidos - em um banco de dados.
- Registros duplicados, que devem ser excluídos para não inflar a amostra.149
O pacote base65 fornece a função duplicated para identificar elementos duplcados de um banco de dados.
Codificação 0 ou 1 para variáveis dicotômicas para representar a direção esperada da associação entre elas.149
Ordenação cronológica de variáveis com registros temporais (retrospectivos ou prospectivos).149
A distribuição das variáveis para verificação das suposições das análises planejadas.149
Ocorrência de efeitos teto e piso nas variáveis.149