Capítulo 14 Análise inicial de dados


14.1 Análise inicial de dados


14.1.1 O que é análise inicial de dados?

  • Análise inicial de dados145 é uma sequência de procedimentos que visam principalmente a transparência e integridade das pré-condições do estudo para conduzir a análise estatística apropriada de modo responsável para responder aos problemas da pesquisa.77

  • O objetivo da análise inicial de dados é propiciar dados prontos para análise estatística, incluindo informações confiáveis sobre as propriedades dos dados.77

  • A análise inicial de dados pode ser dividida nas seguintes etapas:77

    • Configuração dos metadados

    • Limpeza dos dados

    • Verificação dos dados

    • Relatório inicial dos dados

    • Refinamento e atualização do plano de análise estatística

    • Documentação e relatório da análise inicial de dados

  • A análise inicial de dados não deve ser confundida com análise exploratória146, nem deve ser utilizada para hipotetizar após os dados serem coletados (conhecido como Hypothesizing After Results are Known, HARKing)147.


14.1.2 Como conduzir uma análise inicial de dados?

  • Desenvolva um plano de análise inicial de dados consistente com os objetivos da pesquisa. Por exemplo, verifique a distribuição e escala das variáveis, procure por observações não-usuais ou improváveis, avalie possíveis padrões de dados perdidos.77

  • Não altere diretamente os dados de uma tabela obtida de uma fonte. Use scripts para implementar eventuais alterações, de modo a manter o registro de todas as modificações realizadas no banco de dados.77

  • Use os metadados do estudo para guiar a análise inicial dos dados e compartilhe com os dados para maior transparência e reprodutibilidade.77

  • Representação gráfica dos dados pode ajudar a identificar características e padrões no banco de dados, tais como suposições e tendências.77

  • Verifique a frequência e proporção de dados perdidos em cada variável, e depois examine por padrões de dados perdidos simultaneamente por duas ou mais variáveis.77

  • Verifique a frequência e proporção de dados perdidos em cada variável, e depois examine por padrões de dados perdidos simultaneamente por duas ou mais variáveis.77

  • Exclusão de dados ad hoc baseada no desfecho pode influenciar os resultados do estudo, portanto os critérios de exclusão de dados antes da análise estatística (descritiva e/ou inferencial) devem ser reportados.148


14.1.3 Quais problemas podem ser detectados na análise inicial de dados?

  • Ocorrência de dados perdidos, que podem ser excluídos ou imputados para não reduzir o poder do estudo.REF?




  • Registros duplicados, que devem ser excluídos para não inflar a amostra.149



  • Codificação 0 ou 1 para variáveis dicotômicas para representar a direção esperada da associação entre elas.149

  • Ordenação cronológica de variáveis com registros temporais (retrospectivos ou prospectivos).149

  • A distribuição das variáveis para verificação das suposições das análises planejadas.149

  • Ocorrência de efeitos teto e piso nas variáveis.149


Referências

65.
R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing; 2023. https://www.R-project.org/.
71.
R Core Team. R: A Language and Environment for Statistical Computing.; 2023. https://www.R-project.org/.
77.
Baillie M, Cessie S le, Schmidt CO, Lusa L, Huebner M. Ten simple rules for initial data analysis. PLOS Computational Biology. 2022;18(2):e1009819. doi:10.1371/journal.pcbi.1009819
145.
Chatfield C. Exploratory data analysis. European Journal of Operational Research. 1986;23(1):5-13. doi:10.1016/0377-2217(86)90209-2
146.
Ferketich S, Verran J. Technical Notes. Western Journal of Nursing Research. 1986;8(4):464-466. doi:10.1177/019394598600800409
147.
Kerr NL. HARKing: Hypothesizing After the Results are Known. Personality and Social Psychology Review. 1998;2(3):196-217. doi:10.1207/s15327957pspr0203_4
148.
Landis SC, Amara SG, Asadullah K, et al. A call for transparent reporting to optimize the predictive value of preclinical research. Nature. 2012;490(7419):187-191. doi:10.1038/nature11556
149.
Huebner M, Vach W, Cessie S le. A systematic approach to initial data analysis is good research practice. The Journal of Thoracic and Cardiovascular Surgery. 2016;151(1):25-27. doi:10.1016/j.jtcvs.2015.09.085