Capítulo 23 Análise inicial de dados
23.1 Análise inicial de dados
23.1.1 O que é análise inicial de dados?
Análise inicial de dados273 é uma sequência de procedimentos que visam principalmente a transparência e integridade das pré-condições do estudo para conduzir a análise estatística apropriada de modo responsável para responder aos problemas da pesquisa.162
O objetivo da análise inicial de dados é propiciar dados prontos para análise estatística, incluindo informações confiáveis sobre as propriedades dos dados.162
A análise inicial de dados pode ser dividida nas seguintes etapas: Configuração dos metadados; Limpeza dos dados; Verificação dos dados; Relatório inicial dos dados; Refinamento e atualização do plano de análise estatística; Documentação e relatório da análise inicial de dados.162
A análise inicial de dados não deve ser confundida com análise exploratória,274 nem deve ser utilizada para hipotetizar após os dados serem coletados (conhecido como Hypothesizing After Results are Known, HARKing).110
23.1.2 Como conduzir uma análise inicial de dados?
Desenvolva um plano de análise inicial de dados consistente com os objetivos da pesquisa. Por exemplo, verifique a distribuição e escala das variáveis, procure por observações não-usuais ou improváveis, avalie possíveis padrões de dados perdidos.162
Não altere diretamente os dados de uma tabela obtida de uma fonte. Use scripts para implementar eventuais alterações, de modo a manter o registro de todas as modificações realizadas no banco de dados.162
Use os metadados do estudo para guiar a análise inicial dos dados e compartilhe com os dados para maior transparência e reprodutibilidade.162
Representação gráfica dos dados pode ajudar a identificar características e padrões no banco de dados, tais como suposições e tendências.162
Verifique a frequência e proporção de dados perdidos em cada variável, e depois examine por padrões de dados perdidos simultaneamente por duas ou mais variáveis.162
Exclusão de dados ad hoc baseada no desfecho pode influenciar os resultados do estudo, portanto os critérios de exclusão de dados antes da análise estatística (descritiva e/ou inferencial) devem ser reportados.275
O pacote stats159 fornece a função na.omit para retornar os dados sem os dados perdidos.
O pacote stats159 fornece a função complete.cases para identificar os casos completos em um banco de dados.
- Registros duplicados, que devem ser excluídos para não inflar a amostra.276
O pacote base31 fornece a função duplicated para identificar elementos duplicados de um banco de dados.
Codificação 0 ou 1 para variáveis dicotômicas para representar a direção esperada da associação entre elas.276
Ordenação cronológica de variáveis com registros temporais (retrospectivos ou prospectivos).276
A distribuição das variáveis para verificação das suposições das análises planejadas.276
Ocorrência de efeitos teto e piso nas variáveis.276
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,