Capítulo 18 Análise inicial de dados
18.1 Análise inicial de dados
18.1.1 O que é análise inicial de dados?
Análise inicial de dados221 é uma sequência de procedimentos que visam principalmente a transparência e integridade das pré-condições do estudo para conduzir a análise estatística apropriada de modo responsável para responder aos problemas da pesquisa.159
O objetivo da análise inicial de dados é propiciar dados prontos para análise estatística, incluindo informações confiáveis sobre as propriedades dos dados.159
A análise inicial de dados pode ser dividida nas seguintes etapas: Configuração dos metadados; Limpeza dos dados; Verificação dos dados; Relatório inicial dos dados; Refinamento e atualização do plano de análise estatística; Documentação e relatório da análise inicial de dados.159
A análise inicial de dados não deve ser confundida com análise exploratória,222 nem deve ser utilizada para hipotetizar após os dados serem coletados (conhecido como Hypothesizing After Results are Known, HARKing).108
18.1.2 Como conduzir uma análise inicial de dados?
Desenvolva um plano de análise inicial de dados consistente com os objetivos da pesquisa. Por exemplo, verifique a distribuição e escala das variáveis, procure por observações não-usuais ou improváveis, avalie possíveis padrões de dados perdidos.159
Não altere diretamente os dados de uma tabela obtida de uma fonte. Use scripts para implementar eventuais alterações, de modo a manter o registro de todas as modificações realizadas no banco de dados.159
Use os metadados do estudo para guiar a análise inicial dos dados e compartilhe com os dados para maior transparência e reprodutibilidade.159
Representação gráfica dos dados pode ajudar a identificar características e padrões no banco de dados, tais como suposições e tendências.159
Verifique a frequência e proporção de dados perdidos em cada variável, e depois examine por padrões de dados perdidos simultaneamente por duas ou mais variáveis.159
Verifique a frequência e proporção de dados perdidos em cada variável, e depois examine por padrões de dados perdidos simultaneamente por duas ou mais variáveis.159
Exclusão de dados ad hoc baseada no desfecho pode influenciar os resultados do estudo, portanto os critérios de exclusão de dados antes da análise estatística (descritiva e/ou inferencial) devem ser reportados.223
O pacote stats156 fornece a função complete.cases para identificar os casos completos — isto é, sem dados perdidos — em um banco de dados.
- Registros duplicados, que devem ser excluídos para não inflar a amostra.224
O pacote base64 fornece a função duplicated para identificar elementos duplcados de um banco de dados.
Codificação 0 ou 1 para variáveis dicotômicas para representar a direção esperada da associação entre elas.224
Ordenação cronológica de variáveis com registros temporais (retrospectivos ou prospectivos).224
A distribuição das variáveis para verificação das suposições das análises planejadas.224
Ocorrência de efeitos teto e piso nas variáveis.224
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,