Capítulo 19 Análise exploratória de dados
19.1 Análise exploratória de dados
19.1.1 O que é análise exploratória de dados?
Análise exploratória de dados consiste em um processo iterativo de elaboração e interpretação da síntese de dados, tabelas e gráficos, considerando os aspectos teóricos do estudo.211
Análise exploratória deve ser separada da análise inferencial de testes de hipóteses; a decisão sobre os modelos a testar deve ser feita a priori.214
19.1.2 Quais são os objetivos centrais da análise exploratória de dados?
- A análise exploratória de dados (EDA) tem dois objetivos principais: (a) descrição dos dados e (b) formulação de modelos. A descrição envolve resumir os dados e destacar características essenciais, enquanto a formulação de modelos auxilia na geração de hipóteses e na escolha de procedimentos estatísticos adequados.210
19.1.3 Por que conduzir a análise exploratória de dados?
A condução de análise exploratória de dados pode ajudar a identificar padrões e pode orientar trabalhos futuros, mas os resultados não devem ser interpretados como inferências sobre uma população.214
A análise exploratória não deve ser usada para definir as questões e hipóteses científicas do estudo.214
O pacote dataMaid216 fornece a função makeDataReport para criar um relatório de análise exploratória de um banco de dados.
O pacote DataExplorer217 fornece a função create_report para criar um relatório de análise exploratória de um banco de dados.
O pacote SmartEDA218 fornece a função ExpReport para criar um relatório de análise exploratória de um banco de dados.
O pacote gtExtras219 fornece a função gt_plt_summary para criar uma tabela descritiva síntese com histogramas ou gráficos de barra a partir de um banco de dados.
O pacote radiant220 fornece a função radiant para executar uma interface interativa para análise exploratória de dados.
19.2 Quarteto de Anscombe
19.2.1 O que é o Quarteto de Anscombe?
- .REF?
| ID | x1 | x2 | x3 | x4 | y1 | y2 | y3 | y4 |
|---|---|---|---|---|---|---|---|---|
| 1 | 10 | 10 | 10 | 8 | 8.04 | 9.14 | 7.46 | 6.58 |
| 2 | 8 | 8 | 8 | 8 | 6.95 | 8.14 | 6.77 | 5.76 |
| 3 | 13 | 13 | 13 | 8 | 7.58 | 8.74 | 12.74 | 7.71 |
| 4 | 9 | 9 | 9 | 8 | 8.81 | 8.77 | 7.11 | 8.84 |
| 5 | 11 | 11 | 11 | 8 | 8.33 | 9.26 | 7.81 | 8.47 |
| 6 | 14 | 14 | 14 | 8 | 9.96 | 8.10 | 8.84 | 7.04 |
| 7 | 6 | 6 | 6 | 8 | 7.24 | 6.13 | 6.08 | 5.25 |
| 8 | 4 | 4 | 4 | 19 | 4.26 | 3.10 | 5.39 | 12.50 |
| 9 | 12 | 12 | 12 | 8 | 10.84 | 9.13 | 8.15 | 5.56 |
| 10 | 7 | 7 | 7 | 8 | 4.82 | 7.26 | 6.42 | 7.91 |
| 11 | 5 | 5 | 5 | 8 | 5.68 | 4.74 | 5.73 | 6.89 |
| X1Y1 | X2Y2 | X3Y3 | X4Y4 | |
|---|---|---|---|---|
| Observações | 11.00 | 11.00 | 11.00 | 11.00 |
| Média x | 9.00 | 9.00 | 9.00 | 9.00 |
| Média y | 7.50 | 7.50 | 7.50 | 7.50 |
| Variância x | 11.00 | 11.00 | 11.00 | 11.00 |
| Variância y | 4.13 | 4.13 | 4.12 | 4.12 |
| Correlação | 0.82 | 0.82 | 0.82 | 0.82 |
| Coeficiente angular | 0.50 | 0.50 | 0.50 | 0.50 |
| Coeficiente linear | 3.00 | 3.00 | 3.00 | 3.00 |
| Coeficiente de determinação | 0.67 | 0.67 | 0.67 | 0.67 |
Figura 19.1: Gráfico de dispersão do Quarteto de Anscombe para representação gráfica de conjuntos de dados bivariados com parâmetros quase idênticos e relações muito distintas.
O pacote anscombiser221 fornece a função anscombise para gerar bancos de dados que compartilham os mesmos valores de parâmetros do Quarteto de Anscombe.
19.3 Ingredientes da análise exploratória de dados
19.3.1 Quais são os principais elementos que compõem a análise exploratória de dados?
Verificação da qualidade dos dados (erros, ausências, outliers), o cálculo de estatísticas descritivas (média, desvio-padrão, intervalos, correlações) e o uso de representações gráficas como histogramas, diagramas de dispersão, boxplots e gráficos de séries temporais.210
Técnicas multivariadas exploratórias, como análise de componentes principais e análise de clusters, podem revelar padrões em dados complexos.210
19.3.2 Quais etapas constituem a análise exploratória de dados?
Cada combinação de problema de pesquisa e delineamento de estudo pode demandar um plano de análise exploratório distinto.214
Verifique a existência e/ou influência de valores discrepantes (“fora da curva” ou outliers):210,211,214
Boxplots
Gráficos quantil-quantil (Q-Q)
A análise exploratória valoriza o uso de gráficos interativos e técnicas de brushing e linking, que permitem explorar padrões ocultos, relacionar múltiplas variáveis e destacar subconjuntos de observações.222
O pacote ggplot2184 fornece a função geom_boxplot para construção de gráficos boxplot.
Verifique a homocedasticidade (homogeneidade da variância):214
Boxplots condicionais (por fator de análise)
Análise dos resíduos do modelo de regressão
Gráfico resíduos vs. valores ajustados
Verifique a normalidade da distribuição dos dados:210,214
Histograma das variáveis (por fator de análise)
Histograma dos resíduos da regressão
Verifique a existência de grande quantidade de valores nulos (=0):214
- Histograma das variáveis (por fator de análise)
Verifique a existência de colinearidade entre variáveis independentes de um modelo de regressão:214
Fator de inflação de variância (variance inflation factor, VIF)
Coeficiente de correlação de Pearson (\(r\))
Gráfico de dispersão entre variáveis
Verifique possíveis relações entre as variáveis dependente(s) e independente(s) de um modelo de regressão:214
- Gráfico de dispersão entre variáveis independente e dependente
Verifique possíveis interações entre as variáveis dependente(s) de um modelo de regressão:214
- Gráfico coplot de dispersão entre variáveis dependentes
O pacote ggcleveland223 fornece a função gg_coplot para construção de gráficos boxplot condicionais.
Medidas como mediana, trimean, distância absoluta mediana e procedimentos de winsorizing ou trimming são preferidos, pois reduzem a influência de valores extremos e oferecem resumos mais fiéis.222
A análise exploratória adota o esquema
dados = ajuste + resíduo, no qual o analista ajusta modelos provisórios, examina resíduos e refina os modelos em ciclos sucessivos de aproximação.222Valores discrepantes (outliers) não devem ser ignorados; eles podem indicar erros de coleta ou fenômenos relevantes. Fringeliers, casos menos extremos mas recorrentes, também merecem atenção.222
Transformar variáveis em novas formas (por exemplo, log ou inverso) pode revelar simetrias ocultas e tornar relações mais claras e lineares.222
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,