Capítulo 15 Análise exploratória de dados


15.1 Análise exploratória de dados


15.1.1 O que é análise exploratória de dados?

  • Análise exploratória de dados consiste em um processo iterativo de elaboração e interpretação da síntese de dados, tabelas e gráficos, considerando os aspectos teóricos do estudo.146

  • Análise exploratória deve ser separada da análise inferencial de testes de hipóteses; a decisão sobre os modelos a testar deve ser feita a priori.143


15.1.2 Por que conduzir a análise exploratória de dados?

  • A condução de análise exploratória de dados pode ajudar a identificar padrões e pode orientar trabalhos futuros, mas os resultados não devem ser interpretados como inferências sobre uma população.143

  • A análise exploratória não deve ser usada para definir as questões e hipóteses científicas do estudo.143








15.1.3 Quais etapas constituem a análise exploratória de dados?

  • Cada combinação de problema de pesquisa e delineamento de estudo pode demandar um plano de análise exploratório distinto.143

  • Verifique a existência e/ou influência de valores discrepantes (“fora da curva” ou outliers):143,145,146

    • Boxplots

    • Gráficos quantil-quantil (Q-Q)



  • Verifique a homocedasticidade (homogeneidade da variância):143

    • Boxplots condicionais (por fator de análise)

    • Análise dos resíduos do modelo de regressão

    • Gráfico resíduos vs. valores ajustados


  • Verifique a normalidade da distribuição dos dados:143,145

    • Histograma das variáveis (por fator de análise)

    • Histograma dos resíduos da regressão


  • Verifique a existência de grande quantidade de valores nulos (=0):143

    • Histograma das variáveis (por fator de análise)


  • Verifique a existência de colinearidade entre variáveis independentes de um modelo de regressão:143

    • Fator de inflação de variância (variance inflation factor, VIF)

    • Coeficiente de correlação de Pearson (\(r\))

    • Gráfico de dispersão entre variáveis


  • Verifique possíveis relações entre as variáveis dependente(s) e independente(s) de um modelo de regressão:143

    • Gráfico de dispersão entre variáveis independente e dependente


  • Verifique possíveis interações entre as variáveis dependente(s) de um modelo de regressão:143

    • Gráfico coplot de dispersão entre variáveis dependentes



  • Verifique por dependência entre variáveis de um modelo de regressão:143

    • Gráfico de série temporal das variáveis

    • Gráfico de autocorrelação entre as variáveis


Referências

131.
R Core Team. R: A language and environment for statistical computing. 2023. https://www.R-project.org/.
143.
Zuur AF, Ieno EN, Elphick CS. A protocol for data exploration to avoid common statistical problems. Methods in Ecology and Evolution. 2009;1(1):3-14. doi:10.1111/j.2041-210x.2009.00001.x
145.
Chatfield C. Exploratory data analysis. European Journal of Operational Research. 1986;23(1):5-13. doi:10.1016/0377-2217(86)90209-2
146.
Ferketich S, Verran J. Technical Notes. Western Journal of Nursing Research. 1986;8(4):464-466. doi:10.1177/019394598600800409
150.
Krasser R. Explore: Simplifies Exploratory Data Analysis.; 2023. https://CRAN.R-project.org/package=explore.
151.
Petersen AH, Ekstrøm CT. dataMaid: Your assistant for documenting supervised data quality screening in r. 2019;90. doi:10.18637/jss.v090.i06
152.
Cui B. DataExplorer: Automate Data Exploration and Treatment.; 2020. https://CRAN.R-project.org/package=DataExplorer.
153.
Dayanand Ubrangala, R K, Prasad Kondapalli R, Putatunda S. SmartEDA: Summarize and Explore the Data.; 2022. https://CRAN.R-project.org/package=SmartEDA.
154.
Mock T. gtExtras: Extending Gt for Beautiful HTML Tables.; 2023. https://CRAN.R-project.org/package=gtExtras.
155.
Nijs V. Radiant: Business Analytics Using r and Shiny.; 2023. https://CRAN.R-project.org/package=radiant.