Capítulo 23 Análise inicial de dados

23.1 Análise inicial de dados

23.1.1 O que é análise inicial de dados?

Análise inicial de dados²⁷³ é uma sequência de procedimentos que visam principalmente a transparência e integridade das pré-condições do estudo para conduzir a análise estatística apropriada de modo responsável para responder aos problemas da pesquisa.¹⁶²
O objetivo da análise inicial de dados é propiciar dados prontos para análise estatística, incluindo informações confiáveis sobre as propriedades dos dados.¹⁶²
A análise inicial de dados pode ser dividida nas seguintes etapas: Configuração dos metadados; Limpeza dos dados; Verificação dos dados; Relatório inicial dos dados; Refinamento e atualização do plano de análise estatística; Documentação e relatório da análise inicial de dados.¹⁶²
A análise inicial de dados não deve ser confundida com análise exploratória,²⁷⁴ nem deve ser utilizada para hipotetizar após os dados serem coletados (conhecido como Hypothesizing After Results are Known, HARKing).¹¹⁰

23.1.2 Como conduzir uma análise inicial de dados?

Desenvolva um plano de análise inicial de dados consistente com os objetivos da pesquisa. Por exemplo, verifique a distribuição e escala das variáveis, procure por observações não-usuais ou improváveis, avalie possíveis padrões de dados perdidos.¹⁶²
Não altere diretamente os dados de uma tabela obtida de uma fonte. Use scripts para implementar eventuais alterações, de modo a manter o registro de todas as modificações realizadas no banco de dados.¹⁶²
Use os metadados do estudo para guiar a análise inicial dos dados e compartilhe com os dados para maior transparência e reprodutibilidade.¹⁶²
Representação gráfica dos dados pode ajudar a identificar características e padrões no banco de dados, tais como suposições e tendências.¹⁶²
Verifique a frequência e proporção de dados perdidos em cada variável, e depois examine por padrões de dados perdidos simultaneamente por duas ou mais variáveis.¹⁶²
Exclusão de dados ad hoc baseada no desfecho pode influenciar os resultados do estudo, portanto os critérios de exclusão de dados antes da análise estatística (descritiva e/ou inferencial) devem ser reportados.²⁷⁵

O pacote stats¹⁵⁹ fornece a função na.omit para retornar os dados sem os dados perdidos.

O pacote stats¹⁵⁹ fornece a função complete.cases para identificar os casos completos em um banco de dados.

Registros duplicados, que devem ser excluídos para não inflar a amostra.²⁷⁶

O pacote base³¹ fornece a função duplicated para identificar elementos duplicados de um banco de dados.

Codificação 0 ou 1 para variáveis dicotômicas para representar a direção esperada da associação entre elas.²⁷⁶
Ordenação cronológica de variáveis com registros temporais (retrospectivos ou prospectivos).²⁷⁶
A distribuição das variáveis para verificação das suposições das análises planejadas.²⁷⁶
Ocorrência de efeitos teto e piso nas variáveis.²⁷⁶

Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,

Referências

31.

R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing; 2023. https://www.R-project.org/.

110.

Kerr NL. HARKing: Hypothesizing After the Results are Known. Personality and Social Psychology Review. 1998;2(3):196–217. doi:10.1207/s15327957pspr0203_4

159.

R Core Team. R: A Language and Environment for Statistical Computing.; 2025. https://www.R-project.org/.

162.

Baillie M, Cessie S le, Schmidt CO, Lusa L, Huebner M. Ten simple rules for initial data analysis. PLOS Computational Biology. 2022;18(2):e1009819. doi:10.1371/journal.pcbi.1009819

273.

Chatfield C. Exploratory data analysis. European Journal of Operational Research. 1986;23(1):5–13. doi:10.1016/0377-2217(86)90209-2

274.

Ferketich S, Verran J. Technical Notes. Western Journal of Nursing Research. 1986;8(4):464–466. doi:10.1177/019394598600800409

275.

Landis SC, Amara SG, Asadullah K, et al. A call for transparent reporting to optimize the predictive value of preclinical research. Nature. 2012;490(7419):187–191. doi:10.1038/nature11556

276.

Huebner M, Vach W, Cessie S le. A systematic approach to initial data analysis is good research practice. The Journal of Thoracic and Cardiovascular Surgery. 2016;151(1):25–27. doi:10.1016/j.jtcvs.2015.09.085