Capítulo 25 Análise exploratória de dados

25.1 Análise exploratória de dados

25.1.1 O que é análise exploratória de dados?

Análise exploratória de dados consiste em um processo iterativo de elaboração e interpretação da síntese de dados, tabelas e gráficos, considerando os aspectos teóricos do estudo.²⁷⁴
Análise exploratória deve ser separada da análise inferencial de testes de hipóteses; a decisão sobre os modelos a testar deve ser feita a priori.²⁸⁶

25.1.2 Quais são os objetivos centrais da análise exploratória de dados?

A análise exploratória de dados (EDA) tem dois objetivos principais: (a) descrição dos dados e (b) formulação de modelos.²⁷³
A descrição envolve resumir os dados e destacar características essenciais.²⁷³
A formulação de modelos auxilia na geração de hipóteses e na escolha de procedimentos estatísticos adequados.²⁷³

25.1.3 Por que conduzir a análise exploratória de dados?

A condução de análise exploratória de dados pode ajudar a identificar padrões e pode orientar trabalhos futuros, mas os resultados não devem ser interpretados como inferências sobre uma população.²⁸⁶
A análise exploratória não deve ser usada para definir as questões e hipóteses científicas do estudo.²⁸⁶

O pacote explore²⁷⁸ fornece a função explore para análise exploratória de um banco de dados.

O pacote dataMaid²⁷⁹ fornece a função makeDataReport para criar um relatório de análise exploratória de um banco de dados.

O pacote DataExplorer²⁸⁰ fornece a função create_report para criar um relatório de análise exploratória de um banco de dados.

O pacote SmartEDA²⁸¹ fornece a função ExpReport para criar um relatório de análise exploratória de um banco de dados.

O pacote gtExtras²⁸⁷ fornece a função gt_plt_summary para criar uma tabela descritiva síntese com histogramas ou gráficos de barra a partir de um banco de dados.

O pacote radiant²⁸⁸ fornece a função radiant para executar uma interface interativa para análise exploratória de dados.

25.2 Quarteto de Anscombe

25.2.1 O que é o Quarteto de Anscombe?

O Quarteto de Anscombe é um conjunto de quatro bancos de dados bivariados criado para demonstrar a importância da visualização gráfica na análise estatística.²⁸⁹
O conjunto de dados mostra que medidas numéricas isoladas podem ocultar padrões relevantes, outliers e estruturas não lineares.²⁸⁹

Tabela 25.1: Quarteto de Anscombe.
ID	x1	x2	x3	x4	y1	y2	y3	y4
1	10	10	10	8	8.04	9.14	7.46	6.58
2	8	8	8	8	6.95	8.14	6.77	5.76
3	13	13	13	8	7.58	8.74	12.74	7.71
4	9	9	9	8	8.81	8.77	7.11	8.84
5	11	11	11	8	8.33	9.26	7.81	8.47
6	14	14	14	8	9.96	8.10	8.84	7.04
7	6	6	6	8	7.24	6.13	6.08	5.25
8	4	4	4	19	4.26	3.10	5.39	12.50
9	12	12	12	8	10.84	9.13	8.15	5.56
10	7	7	7	8	4.82	7.26	6.42	7.91
11	5	5	5	8	5.68	4.74	5.73	6.89

Embora os quatro conjuntos apresentem estatísticas descritivas e modelos de regressão praticamente idênticos, seus gráficos de dispersão revelam relações completamente diferentes entre as variáveis.²⁸⁹

Tabela 25.2: Análise descritiva do Quarteto de Anscombe demostrando os conjuntos de dados bivariados com parâmetros quase idênticos.
	X1Y1	X2Y2	X3Y3	X4Y4
Observações	11.00	11.00	11.00	11.00
Média x	9.00	9.00	9.00	9.00
Média y	7.50	7.50	7.50	7.50
Variância x	11.00	11.00	11.00	11.00
Variância y	4.13	4.13	4.12	4.12
Correlação	0.82	0.82	0.82	0.82
Coeficiente angular	0.50	0.50	0.50	0.50
Coeficiente linear	3.00	3.00	3.00	3.00
Coeficiente de determinação	0.67	0.67	0.67	0.67

Gráfico de dispersão do Quarteto de Anscombe para representação gráfica de conjuntos de dados bivariados com parâmetros quase idênticos e relações muito distintas.

Figura 25.1: Gráfico de dispersão do Quarteto de Anscombe para representação gráfica de conjuntos de dados bivariados com parâmetros quase idênticos e relações muito distintas.

O pacote anscombiser²⁹⁰ fornece a função anscombise para gerar bancos de dados que compartilham os mesmos valores de parâmetros do Quarteto de Anscombe.

25.3 Ingredientes da análise exploratória de dados

25.3.1 Quais são os principais elementos que compõem a análise exploratória de dados?

Verificação da qualidade dos dados (erros, ausências, outliers).²⁷³
Representações gráficas como histogramas, diagramas de dispersão, boxplots e gráficos de séries temporais.²⁷³
Cálculo de estatísticas descritivas (média, desvio-padrão, intervalos, correlações).²⁷³
Técnicas multivariadas exploratórias, como análise de componentes principais e análise de clusters, podem revelar padrões em dados complexos.²⁷³

25.3.2 Quais etapas constituem a análise exploratória de dados?

Cada combinação de problema de pesquisa e delineamento de estudo pode demandar um plano de análise exploratório distinto.²⁸⁶
Verifique a existência e/ou influência de valores discrepantes (“fora da curva” ou outliers) com boxplots e gráficos quantil-quantil (Q-Q).^273,274,286
A análise exploratória valoriza o uso de gráficos interativos e técnicas de brushing e linking, que permitem explorar padrões ocultos, relacionar múltiplas variáveis e destacar subconjuntos de observações.²⁹¹

O pacote ggplot2¹⁹⁹ fornece a função geom_boxplot para construção de gráficos boxplot.

Verifique a homoscedasticidade (homogeneidade da variância):²⁸⁶
- Boxplots condicionais (por fator de análise)
- Análise dos resíduos do modelo de regressão
- Gráfico resíduos vs. valores ajustados

Verifique a normalidade da distribuição dos dados:^273,286
- Histograma das variáveis (por fator de análise)
- Histograma dos resíduos da regressão

Verifique a existência de grande quantidade de valores nulos (=0):²⁸⁶
- Histograma das variáveis (por fator de análise)

Verifique a existência de colinearidade entre variáveis independentes de um modelo de regressão:²⁸⁶
- Fator de inflação de variância (variance inflation factor, VIF)
- Coeficiente de correlação de Pearson (\(r\))
- Gráfico de dispersão entre variáveis

Verifique possíveis relações entre as variáveis dependente(s) e independente(s) de um modelo de regressão:²⁸⁶
- Gráfico de dispersão entre variáveis independente e dependente

Verifique possíveis interações entre as variáveis dependente(s) de um modelo de regressão:²⁸⁶
- Gráfico coplot de dispersão entre variáveis dependentes

O pacote ggcleveland²⁹² fornece a função gg_coplot para construção de gráficos boxplot condicionais.

Medidas como mediana, trimean, distância absoluta mediana e procedimentos de winsorizing ou trimming são preferidos, pois reduzem a influência de valores extremos e oferecem resumos mais fiéis.²⁹¹
A análise exploratória adota o esquema dados = ajuste + resíduo, no qual o analista ajusta modelos provisórios, examina resíduos e refina os modelos em ciclos sucessivos de aproximação.²⁹¹
Valores discrepantes (outliers) não devem ser ignorados; eles podem indicar erros de coleta ou fenômenos relevantes.²⁹¹
Transformar variáveis em novas formas (por exemplo, log ou inverso) pode revelar simetrias ocultas e tornar relações mais claras e lineares.²⁹¹

Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,

Referências

199.

Wickham H. ggplot2: Elegant Graphics for Data Analysis. Springer; 2016. https://ggplot2.tidyverse.org.

273.

Chatfield C. Exploratory data analysis. European Journal of Operational Research. 1986;23(1):5–13. doi:10.1016/0377-2217(86)90209-2

274.

Ferketich S, Verran J. Technical Notes. Western Journal of Nursing Research. 1986;8(4):464–466. doi:10.1177/019394598600800409

278.

Krasser R. explore: Simplifies Exploratory Data Analysis.; 2023. https://CRAN.R-project.org/package=explore.

279.

Petersen AH, Ekstrøm CT. dataMaid: Your Assistant for Documenting Supervised Data Quality Screening in R. Journal of Statistical Software. 2019;90. doi:10.18637/jss.v090.i06

280.

Cui B. DataExplorer: Automate Data Exploration and Treatment.; 2020. https://CRAN.R-project.org/package=DataExplorer.

281.

Dayanand Ubrangala, R K, Prasad Kondapalli R, Putatunda S. SmartEDA: Summarize and Explore the Data.; 2022. https://CRAN.R-project.org/package=SmartEDA.

286.

Zuur AF, Ieno EN, Elphick CS. A protocol for data exploration to avoid common statistical problems. Methods in Ecology and Evolution. 2009;1(1):3–14. doi:10.1111/j.2041-210x.2009.00001.x

287.

Mock T. gtExtras: Extending gt for Beautiful HTML Tables.; 2023. https://CRAN.R-project.org/package=gtExtras.

288.

Nijs V. radiant: Business Analytics using R and Shiny.; 2023. https://CRAN.R-project.org/package=radiant.

289.

Anscombe FJ. Graphs in Statistical Analysis. The American Statistician. 1973;27(1):17–21. doi:10.1080/00031305.1973.10478966

290.

Northrop PJ. anscombiser: Create Datasets with Identical Summary Statistics.; 2022. https://CRAN.R-project.org/package=anscombiser.

291.

Behrens JT. Principles and procedures of exploratory data analysis. Psychological Methods. 1997;2(2):131–160. doi:10.1037/1082-989x.2.2.131

292.

Prunello M, Mari G. ggcleveland: Implementation of Plots from Cleveland’s Visualizing Data Book.; 2021. doi:10.32614/CRAN.package.ggcleveland