Capítulo 19 Análise exploratória de dados


19.1 Análise exploratória de dados


19.1.1 O que é análise exploratória de dados?

  • Análise exploratória de dados consiste em um processo iterativo de elaboração e interpretação da síntese de dados, tabelas e gráficos, considerando os aspectos teóricos do estudo.211

  • Análise exploratória deve ser separada da análise inferencial de testes de hipóteses; a decisão sobre os modelos a testar deve ser feita a priori.214


19.1.2 Quais são os objetivos centrais da análise exploratória de dados?

  • A análise exploratória de dados (EDA) tem dois objetivos principais: (a) descrição dos dados e (b) formulação de modelos. A descrição envolve resumir os dados e destacar características essenciais, enquanto a formulação de modelos auxilia na geração de hipóteses e na escolha de procedimentos estatísticos adequados.210


19.1.3 Por que conduzir a análise exploratória de dados?

  • A condução de análise exploratória de dados pode ajudar a identificar padrões e pode orientar trabalhos futuros, mas os resultados não devem ser interpretados como inferências sobre uma população.214

  • A análise exploratória não deve ser usada para definir as questões e hipóteses científicas do estudo.214








19.2 Quarteto de Anscombe

19.2.1 O que é o Quarteto de Anscombe?


Tabela 19.1: Quarteto de Anscombe.
ID x1 x2 x3 x4 y1 y2 y3 y4
1 10 10 10 8 8.04 9.14 7.46 6.58
2 8 8 8 8 6.95 8.14 6.77 5.76
3 13 13 13 8 7.58 8.74 12.74 7.71
4 9 9 9 8 8.81 8.77 7.11 8.84
5 11 11 11 8 8.33 9.26 7.81 8.47
6 14 14 14 8 9.96 8.10 8.84 7.04
7 6 6 6 8 7.24 6.13 6.08 5.25
8 4 4 4 19 4.26 3.10 5.39 12.50
9 12 12 12 8 10.84 9.13 8.15 5.56
10 7 7 7 8 4.82 7.26 6.42 7.91
11 5 5 5 8 5.68 4.74 5.73 6.89


Tabela 19.2: Análise descritiva do Quarteto de Anscombe demostrando os conjuntos de dados bivariados com parâmetros quase idênticos.
X1Y1 X2Y2 X3Y3 X4Y4
Observações 11.00 11.00 11.00 11.00
Média x 9.00 9.00 9.00 9.00
Média y 7.50 7.50 7.50 7.50
Variância x 11.00 11.00 11.00 11.00
Variância y 4.13 4.13 4.12 4.12
Correlação 0.82 0.82 0.82 0.82
Coeficiente angular 0.50 0.50 0.50 0.50
Coeficiente linear 3.00 3.00 3.00 3.00
Coeficiente de determinação 0.67 0.67 0.67 0.67


Gráfico de dispersão do Quarteto de Anscombe para representação gráfica de conjuntos de dados bivariados com parâmetros quase idênticos e relações muito distintas.

Figura 19.1: Gráfico de dispersão do Quarteto de Anscombe para representação gráfica de conjuntos de dados bivariados com parâmetros quase idênticos e relações muito distintas.



19.3 Ingredientes da análise exploratória de dados


19.3.1 Quais são os principais elementos que compõem a análise exploratória de dados?

  • Verificação da qualidade dos dados (erros, ausências, outliers), o cálculo de estatísticas descritivas (média, desvio-padrão, intervalos, correlações) e o uso de representações gráficas como histogramas, diagramas de dispersão, boxplots e gráficos de séries temporais.210

  • Técnicas multivariadas exploratórias, como análise de componentes principais e análise de clusters, podem revelar padrões em dados complexos.210


19.3.2 Quais etapas constituem a análise exploratória de dados?

  • Cada combinação de problema de pesquisa e delineamento de estudo pode demandar um plano de análise exploratório distinto.214

  • Verifique a existência e/ou influência de valores discrepantes (“fora da curva” ou outliers):210,211,214

    • Boxplots

    • Gráficos quantil-quantil (Q-Q)

  • A análise exploratória valoriza o uso de gráficos interativos e técnicas de brushing e linking, que permitem explorar padrões ocultos, relacionar múltiplas variáveis e destacar subconjuntos de observações.222



  • Verifique a homocedasticidade (homogeneidade da variância):214

    • Boxplots condicionais (por fator de análise)

    • Análise dos resíduos do modelo de regressão

    • Gráfico resíduos vs. valores ajustados


  • Verifique a normalidade da distribuição dos dados:210,214

    • Histograma das variáveis (por fator de análise)

    • Histograma dos resíduos da regressão


  • Verifique a existência de grande quantidade de valores nulos (=0):214

    • Histograma das variáveis (por fator de análise)


  • Verifique a existência de colinearidade entre variáveis independentes de um modelo de regressão:214

    • Fator de inflação de variância (variance inflation factor, VIF)

    • Coeficiente de correlação de Pearson (\(r\))

    • Gráfico de dispersão entre variáveis


  • Verifique possíveis relações entre as variáveis dependente(s) e independente(s) de um modelo de regressão:214

    • Gráfico de dispersão entre variáveis independente e dependente


  • Verifique possíveis interações entre as variáveis dependente(s) de um modelo de regressão:214

    • Gráfico coplot de dispersão entre variáveis dependentes



  • Medidas como mediana, trimean, distância absoluta mediana e procedimentos de winsorizing ou trimming são preferidos, pois reduzem a influência de valores extremos e oferecem resumos mais fiéis.222

  • A análise exploratória adota o esquema dados = ajuste + resíduo, no qual o analista ajusta modelos provisórios, examina resíduos e refina os modelos em ciclos sucessivos de aproximação.222

  • Valores discrepantes (outliers) não devem ser ignorados; eles podem indicar erros de coleta ou fenômenos relevantes. Fringeliers, casos menos extremos mas recorrentes, também merecem atenção.222

  • Transformar variáveis em novas formas (por exemplo, log ou inverso) pode revelar simetrias ocultas e tornar relações mais claras e lineares.222



Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,


Referências

184.
Wickham H. ggplot2: Elegant Graphics for Data Analysis. Springer; 2016. https://ggplot2.tidyverse.org.
210.
Chatfield C. Exploratory data analysis. European Journal of Operational Research. 1986;23(1):5–13. doi:10.1016/0377-2217(86)90209-2
211.
Ferketich S, Verran J. Technical Notes. Western Journal of Nursing Research. 1986;8(4):464–466. doi:10.1177/019394598600800409
214.
Zuur AF, Ieno EN, Elphick CS. A protocol for data exploration to avoid common statistical problems. Methods in Ecology and Evolution. 2009;1(1):3–14. doi:10.1111/j.2041-210x.2009.00001.x
215.
Krasser R. explore: Simplifies Exploratory Data Analysis.; 2023. https://CRAN.R-project.org/package=explore.
216.
Petersen AH, Ekstrøm CT. dataMaid: Your Assistant for Documenting Supervised Data Quality Screening in R. Journal of Statistical Software. 2019;90. doi:10.18637/jss.v090.i06
217.
Cui B. DataExplorer: Automate Data Exploration and Treatment.; 2020. https://CRAN.R-project.org/package=DataExplorer.
218.
Dayanand Ubrangala, R K, Prasad Kondapalli R, Putatunda S. SmartEDA: Summarize and Explore the Data.; 2022. https://CRAN.R-project.org/package=SmartEDA.
219.
Mock T. gtExtras: Extending gt for Beautiful HTML Tables.; 2023. https://CRAN.R-project.org/package=gtExtras.
220.
Nijs V. radiant: Business Analytics using R and Shiny.; 2023. https://CRAN.R-project.org/package=radiant.
221.
Northrop PJ. anscombiser: Create Datasets with Identical Summary Statistics.; 2022. https://CRAN.R-project.org/package=anscombiser.
222.
Behrens JT. Principles and procedures of exploratory data analysis. Psychological Methods. 1997;2(2):131–160. doi:10.1037/1082-989x.2.2.131
223.
Prunello M, Mari G. ggcleveland: Implementation of Plots from Cleveland’s Visualizing Data Book.; 2021. doi:10.32614/CRAN.package.ggcleveland