Capítulo 17 Análise inicial de dados
17.1 Análise inicial de dados
17.1.1 O que é análise inicial de dados?
Análise inicial de dados169 é uma sequência de procedimentos que visam principalmente a transparência e integridade das pré-condições do estudo para conduzir a análise estatística apropriada de modo responsável para responder aos problemas da pesquisa.134
O objetivo da análise inicial de dados é propiciar dados prontos para análise estatística, incluindo informações confiáveis sobre as propriedades dos dados.134
A análise inicial de dados pode ser dividida nas seguintes etapas:134
Configuração dos metadados
Limpeza dos dados
Verificação dos dados
Relatório inicial dos dados
Refinamento e atualização do plano de análise estatística
Documentação e relatório da análise inicial de dados
A análise inicial de dados não deve ser confundida com análise exploratória,170 nem deve ser utilizada para hipotetizar após os dados serem coletados (conhecido como Hypothesizing After Results are Known, HARKing).59
17.1.2 Como conduzir uma análise inicial de dados?
Desenvolva um plano de análise inicial de dados consistente com os objetivos da pesquisa. Por exemplo, verifique a distribuição e escala das variáveis, procure por observações não-usuais ou improváveis, avalie possíveis padrões de dados perdidos.134
Não altere diretamente os dados de uma tabela obtida de uma fonte. Use scripts para implementar eventuais alterações, de modo a manter o registro de todas as modificações realizadas no banco de dados.134
Use os metadados do estudo para guiar a análise inicial dos dados e compartilhe com os dados para maior transparência e reprodutibilidade.134
Representação gráfica dos dados pode ajudar a identificar características e padrões no banco de dados, tais como suposições e tendências.134
Verifique a frequência e proporção de dados perdidos em cada variável, e depois examine por padrões de dados perdidos simultaneamente por duas ou mais variáveis.134
Verifique a frequência e proporção de dados perdidos em cada variável, e depois examine por padrões de dados perdidos simultaneamente por duas ou mais variáveis.134
Exclusão de dados ad hoc baseada no desfecho pode influenciar os resultados do estudo, portanto os critérios de exclusão de dados antes da análise estatística (descritiva e/ou inferencial) devem ser reportados.171
17.1.3 Quais problemas podem ser detectados na análise inicial de dados?
- Ocorrência de dados perdidos, que podem ser excluídos ou imputados para não reduzir o poder do estudo.REF?
O pacote stats142 fornece a função complete.cases para identificar os casos completos - isto é, sem dados perdidos - em um banco de dados.
- Registros duplicados, que devem ser excluídos para não inflar a amostra.172
O pacote base97 fornece a função duplicated para identificar elementos duplcados de um banco de dados.
Codificação 0 ou 1 para variáveis dicotômicas para representar a direção esperada da associação entre elas.172
Ordenação cronológica de variáveis com registros temporais (retrospectivos ou prospectivos).172
A distribuição das variáveis para verificação das suposições das análises planejadas.172
Ocorrência de efeitos teto e piso nas variáveis.172
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,