Capítulo 18 Análise exploratória de dados


18.1 Análise exploratória de dados


18.1.1 O que é análise exploratória de dados?

  • Análise exploratória de dados consiste em um processo iterativo de elaboração e interpretação da síntese de dados, tabelas e gráficos, considerando os aspectos teóricos do estudo.192

  • Análise exploratória deve ser separada da análise inferencial de testes de hipóteses; a decisão sobre os modelos a testar deve ser feita a priori.195


18.1.2 Quais são os objetivos centrais da análise exploratória de dados?

  • A análise exploratória de dados (EDA) tem dois objetivos principais: (a) descrição dos dados e (b) formulação de modelos. A descrição envolve resumir os dados e destacar características essenciais, enquanto a formulação de modelos auxilia na geração de hipóteses e na escolha de procedimentos estatísticos adequados.191


18.1.3 Por que conduzir a análise exploratória de dados?

  • A condução de análise exploratória de dados pode ajudar a identificar padrões e pode orientar trabalhos futuros, mas os resultados não devem ser interpretados como inferências sobre uma população.195

  • A análise exploratória não deve ser usada para definir as questões e hipóteses científicas do estudo.195








18.2 Ingredientes da análise exploratória de dados


18.2.1 Quais são os principais elementos que compõem a análise exploratória de dados?

  • Verificação da qualidade dos dados (erros, ausências, outliers), o cálculo de estatísticas descritivas (média, desvio-padrão, intervalos, correlações) e o uso de representações gráficas como histogramas, diagramas de dispersão, boxplots e gráficos de séries temporais.191

  • Técnicas multivariadas exploratórias, como análise de componentes principais e análise de clusters, podem revelar padrões em dados complexos.191


18.2.2 Quais etapas constituem a análise exploratória de dados?

  • Cada combinação de problema de pesquisa e delineamento de estudo pode demandar um plano de análise exploratório distinto.195

  • Verifique a existência e/ou influência de valores discrepantes (“fora da curva” ou outliers):191,192,195

    • Boxplots

    • Gráficos quantil-quantil (Q-Q)

  • A análise exploratória valoriza o uso de gráficos interativos e técnicas de brushing e linking, que permitem explorar padrões ocultos, relacionar múltiplas variáveis e destacar subconjuntos de observações.202



  • Verifique a homocedasticidade (homogeneidade da variância):195

    • Boxplots condicionais (por fator de análise)

    • Análise dos resíduos do modelo de regressão

    • Gráfico resíduos vs. valores ajustados


  • Verifique a normalidade da distribuição dos dados:191,195

    • Histograma das variáveis (por fator de análise)

    • Histograma dos resíduos da regressão


  • Verifique a existência de grande quantidade de valores nulos (=0):195

    • Histograma das variáveis (por fator de análise)


  • Verifique a existência de colinearidade entre variáveis independentes de um modelo de regressão:195

    • Fator de inflação de variância (variance inflation factor, VIF)

    • Coeficiente de correlação de Pearson (\(r\))

    • Gráfico de dispersão entre variáveis


  • Verifique possíveis relações entre as variáveis dependente(s) e independente(s) de um modelo de regressão:195

    • Gráfico de dispersão entre variáveis independente e dependente


  • Verifique possíveis interações entre as variáveis dependente(s) de um modelo de regressão:195

    • Gráfico coplot de dispersão entre variáveis dependentes



  • Verifique por dependência entre variáveis de um modelo de regressão:195

    • Gráfico de série temporal das variáveis

    • Gráfico de autocorrelação entre as variáveis


Séries temporais e autocorrelação de duas séries simuladas com fraca e forte autocorrelação.

Figura 18.1: Séries temporais e autocorrelação de duas séries simuladas com fraca e forte autocorrelação.


  • Medidas como mediana, trimean, distância absoluta mediana e procedimentos de winsorizing ou trimming são preferidos, pois reduzem a influência de valores extremos e oferecem resumos mais fiéis.202

  • A análise exploratória adota o esquema dados = ajuste + resíduo, no qual o analista ajusta modelos provisórios, examina resíduos e refina os modelos em ciclos sucessivos de aproximação.202

  • Valores discrepantes (outliers) não devem ser ignorados; eles podem indicar erros de coleta ou fenômenos relevantes. Fringeliers, casos menos extremos mas recorrentes, também merecem atenção.202

  • Transformar variáveis em novas formas (por exemplo, log ou inverso) pode revelar simetrias ocultas e tornar relações mais claras e lineares.202



Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,


Referências

173.
Wickham H. ggplot2: Elegant Graphics for Data Analysis. Springer; 2016. https://ggplot2.tidyverse.org.
191.
Chatfield C. Exploratory data analysis. European Journal of Operational Research. 1986;23(1):5–13. doi:10.1016/0377-2217(86)90209-2
192.
Ferketich S, Verran J. Technical Notes. Western Journal of Nursing Research. 1986;8(4):464–466. doi:10.1177/019394598600800409
195.
Zuur AF, Ieno EN, Elphick CS. A protocol for data exploration to avoid common statistical problems. Methods in Ecology and Evolution. 2009;1(1):3–14. doi:10.1111/j.2041-210x.2009.00001.x
196.
Krasser R. explore: Simplifies Exploratory Data Analysis.; 2023. https://CRAN.R-project.org/package=explore.
197.
Petersen AH, Ekstrøm CT. dataMaid: Your Assistant for Documenting Supervised Data Quality Screening in R. Journal of Statistical Software. 2019;90. doi:10.18637/jss.v090.i06
198.
Cui B. DataExplorer: Automate Data Exploration and Treatment.; 2020. https://CRAN.R-project.org/package=DataExplorer.
199.
Dayanand Ubrangala, R K, Prasad Kondapalli R, Putatunda S. SmartEDA: Summarize and Explore the Data.; 2022. https://CRAN.R-project.org/package=SmartEDA.
200.
Mock T. gtExtras: Extending gt for Beautiful HTML Tables.; 2023. https://CRAN.R-project.org/package=gtExtras.
201.
Nijs V. radiant: Business Analytics using R and Shiny.; 2023. https://CRAN.R-project.org/package=radiant.
202.
Behrens JT. Principles and procedures of exploratory data analysis. Psychological Methods. 1997;2(2):131–160. doi:10.1037/1082-989x.2.2.131
203.
Prunello M, Mari G. ggcleveland: Implementation of Plots from Cleveland’s Visualizing Data Book.; 2021. doi:10.32614/CRAN.package.ggcleveland