Capítulo 25 Análise exploratória de dados


25.1 Análise exploratória de dados


25.1.1 O que é análise exploratória de dados?

  • Análise exploratória de dados consiste em um processo iterativo de elaboração e interpretação da síntese de dados, tabelas e gráficos, considerando os aspectos teóricos do estudo.274

  • Análise exploratória deve ser separada da análise inferencial de testes de hipóteses; a decisão sobre os modelos a testar deve ser feita a priori.286


25.1.2 Quais são os objetivos centrais da análise exploratória de dados?

  • A análise exploratória de dados (EDA) tem dois objetivos principais: (a) descrição dos dados e (b) formulação de modelos.273

  • A descrição envolve resumir os dados e destacar características essenciais.273

  • A formulação de modelos auxilia na geração de hipóteses e na escolha de procedimentos estatísticos adequados.273


25.1.3 Por que conduzir a análise exploratória de dados?

  • A condução de análise exploratória de dados pode ajudar a identificar padrões e pode orientar trabalhos futuros, mas os resultados não devem ser interpretados como inferências sobre uma população.286

  • A análise exploratória não deve ser usada para definir as questões e hipóteses científicas do estudo.286








25.2 Quarteto de Anscombe


25.2.1 O que é o Quarteto de Anscombe?

  • O Quarteto de Anscombe é um conjunto de quatro bancos de dados bivariados criado para demonstrar a importância da visualização gráfica na análise estatística.289

  • O conjunto de dados mostra que medidas numéricas isoladas podem ocultar padrões relevantes, outliers e estruturas não lineares.289


Tabela 25.1: Quarteto de Anscombe.
ID x1 x2 x3 x4 y1 y2 y3 y4
1 10 10 10 8 8.04 9.14 7.46 6.58
2 8 8 8 8 6.95 8.14 6.77 5.76
3 13 13 13 8 7.58 8.74 12.74 7.71
4 9 9 9 8 8.81 8.77 7.11 8.84
5 11 11 11 8 8.33 9.26 7.81 8.47
6 14 14 14 8 9.96 8.10 8.84 7.04
7 6 6 6 8 7.24 6.13 6.08 5.25
8 4 4 4 19 4.26 3.10 5.39 12.50
9 12 12 12 8 10.84 9.13 8.15 5.56
10 7 7 7 8 4.82 7.26 6.42 7.91
11 5 5 5 8 5.68 4.74 5.73 6.89


  • Embora os quatro conjuntos apresentem estatísticas descritivas e modelos de regressão praticamente idênticos, seus gráficos de dispersão revelam relações completamente diferentes entre as variáveis.289


Tabela 25.2: Análise descritiva do Quarteto de Anscombe demostrando os conjuntos de dados bivariados com parâmetros quase idênticos.
X1Y1 X2Y2 X3Y3 X4Y4
Observações 11.00 11.00 11.00 11.00
Média x 9.00 9.00 9.00 9.00
Média y 7.50 7.50 7.50 7.50
Variância x 11.00 11.00 11.00 11.00
Variância y 4.13 4.13 4.12 4.12
Correlação 0.82 0.82 0.82 0.82
Coeficiente angular 0.50 0.50 0.50 0.50
Coeficiente linear 3.00 3.00 3.00 3.00
Coeficiente de determinação 0.67 0.67 0.67 0.67


Gráfico de dispersão do Quarteto de Anscombe para representação gráfica de conjuntos de dados bivariados com parâmetros quase idênticos e relações muito distintas.

Figura 25.1: Gráfico de dispersão do Quarteto de Anscombe para representação gráfica de conjuntos de dados bivariados com parâmetros quase idênticos e relações muito distintas.



25.3 Ingredientes da análise exploratória de dados


25.3.1 Quais são os principais elementos que compõem a análise exploratória de dados?

  • Verificação da qualidade dos dados (erros, ausências, outliers).273

  • Representações gráficas como histogramas, diagramas de dispersão, boxplots e gráficos de séries temporais.273

  • Cálculo de estatísticas descritivas (média, desvio-padrão, intervalos, correlações).273

  • Técnicas multivariadas exploratórias, como análise de componentes principais e análise de clusters, podem revelar padrões em dados complexos.273


25.3.2 Quais etapas constituem a análise exploratória de dados?

  • Cada combinação de problema de pesquisa e delineamento de estudo pode demandar um plano de análise exploratório distinto.286

  • Verifique a existência e/ou influência de valores discrepantes (“fora da curva” ou outliers) com boxplots e gráficos quantil-quantil (Q-Q).273,274,286

  • A análise exploratória valoriza o uso de gráficos interativos e técnicas de brushing e linking, que permitem explorar padrões ocultos, relacionar múltiplas variáveis e destacar subconjuntos de observações.291



  • Verifique a homoscedasticidade (homogeneidade da variância):286

    • Boxplots condicionais (por fator de análise)

    • Análise dos resíduos do modelo de regressão

    • Gráfico resíduos vs. valores ajustados


  • Verifique a normalidade da distribuição dos dados:273,286

    • Histograma das variáveis (por fator de análise)

    • Histograma dos resíduos da regressão


  • Verifique a existência de grande quantidade de valores nulos (=0):286

    • Histograma das variáveis (por fator de análise)


  • Verifique a existência de colinearidade entre variáveis independentes de um modelo de regressão:286

    • Fator de inflação de variância (variance inflation factor, VIF)

    • Coeficiente de correlação de Pearson (\(r\))

    • Gráfico de dispersão entre variáveis


  • Verifique possíveis relações entre as variáveis dependente(s) e independente(s) de um modelo de regressão:286

    • Gráfico de dispersão entre variáveis independente e dependente


  • Verifique possíveis interações entre as variáveis dependente(s) de um modelo de regressão:286

    • Gráfico coplot de dispersão entre variáveis dependentes



  • Medidas como mediana, trimean, distância absoluta mediana e procedimentos de winsorizing ou trimming são preferidos, pois reduzem a influência de valores extremos e oferecem resumos mais fiéis.291

  • A análise exploratória adota o esquema dados = ajuste + resíduo, no qual o analista ajusta modelos provisórios, examina resíduos e refina os modelos em ciclos sucessivos de aproximação.291

  • Valores discrepantes (outliers) não devem ser ignorados; eles podem indicar erros de coleta ou fenômenos relevantes.291

  • Transformar variáveis em novas formas (por exemplo, log ou inverso) pode revelar simetrias ocultas e tornar relações mais claras e lineares.291



Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,


Referências

199.
Wickham H. ggplot2: Elegant Graphics for Data Analysis. Springer; 2016. https://ggplot2.tidyverse.org.
273.
Chatfield C. Exploratory data analysis. European Journal of Operational Research. 1986;23(1):5–13. doi:10.1016/0377-2217(86)90209-2
274.
Ferketich S, Verran J. Technical Notes. Western Journal of Nursing Research. 1986;8(4):464–466. doi:10.1177/019394598600800409
278.
Krasser R. explore: Simplifies Exploratory Data Analysis.; 2023. https://CRAN.R-project.org/package=explore.
279.
Petersen AH, Ekstrøm CT. dataMaid: Your Assistant for Documenting Supervised Data Quality Screening in R. Journal of Statistical Software. 2019;90. doi:10.18637/jss.v090.i06
280.
Cui B. DataExplorer: Automate Data Exploration and Treatment.; 2020. https://CRAN.R-project.org/package=DataExplorer.
281.
Dayanand Ubrangala, R K, Prasad Kondapalli R, Putatunda S. SmartEDA: Summarize and Explore the Data.; 2022. https://CRAN.R-project.org/package=SmartEDA.
286.
Zuur AF, Ieno EN, Elphick CS. A protocol for data exploration to avoid common statistical problems. Methods in Ecology and Evolution. 2009;1(1):3–14. doi:10.1111/j.2041-210x.2009.00001.x
287.
Mock T. gtExtras: Extending gt for Beautiful HTML Tables.; 2023. https://CRAN.R-project.org/package=gtExtras.
288.
Nijs V. radiant: Business Analytics using R and Shiny.; 2023. https://CRAN.R-project.org/package=radiant.
289.
Anscombe FJ. Graphs in Statistical Analysis. The American Statistician. 1973;27(1):17–21. doi:10.1080/00031305.1973.10478966
290.
Northrop PJ. anscombiser: Create Datasets with Identical Summary Statistics.; 2022. https://CRAN.R-project.org/package=anscombiser.
291.
Behrens JT. Principles and procedures of exploratory data analysis. Psychological Methods. 1997;2(2):131–160. doi:10.1037/1082-989x.2.2.131
292.
Prunello M, Mari G. ggcleveland: Implementation of Plots from Cleveland’s Visualizing Data Book.; 2021. doi:10.32614/CRAN.package.ggcleveland