Capítulo 18 Análise exploratória de dados
18.1 Análise exploratória de dados
18.1.1 O que é análise exploratória de dados?
Análise exploratória de dados consiste em um processo iterativo de elaboração e interpretação da síntese de dados, tabelas e gráficos, considerando os aspectos teóricos do estudo.192
Análise exploratória deve ser separada da análise inferencial de testes de hipóteses; a decisão sobre os modelos a testar deve ser feita a priori.195
18.1.2 Quais são os objetivos centrais da análise exploratória de dados?
- A análise exploratória de dados (EDA) tem dois objetivos principais: (a) descrição dos dados e (b) formulação de modelos. A descrição envolve resumir os dados e destacar características essenciais, enquanto a formulação de modelos auxilia na geração de hipóteses e na escolha de procedimentos estatísticos adequados.191
18.1.3 Por que conduzir a análise exploratória de dados?
A condução de análise exploratória de dados pode ajudar a identificar padrões e pode orientar trabalhos futuros, mas os resultados não devem ser interpretados como inferências sobre uma população.195
A análise exploratória não deve ser usada para definir as questões e hipóteses científicas do estudo.195
O pacote dataMaid197 fornece a função makeDataReport para criar um relatório de análise exploratória de um banco de dados.
O pacote DataExplorer198 fornece a função create_report para criar um relatório de análise exploratória de um banco de dados.
O pacote SmartEDA199 fornece a função ExpReport para criar um relatório de análise exploratória de um banco de dados.
O pacote gtExtras200 fornece a função gt_plt_summary para criar uma tabela descritiva síntese com histogramas ou gráficos de barra a partir de um banco de dados.
O pacote radiant201 fornece a função radiant para executar uma interface interativa para análise exploratória de dados.
18.2 Ingredientes da análise exploratória de dados
18.2.1 Quais são os principais elementos que compõem a análise exploratória de dados?
Verificação da qualidade dos dados (erros, ausências, outliers), o cálculo de estatísticas descritivas (média, desvio-padrão, intervalos, correlações) e o uso de representações gráficas como histogramas, diagramas de dispersão, boxplots e gráficos de séries temporais.191
Técnicas multivariadas exploratórias, como análise de componentes principais e análise de clusters, podem revelar padrões em dados complexos.191
18.2.2 Quais etapas constituem a análise exploratória de dados?
Cada combinação de problema de pesquisa e delineamento de estudo pode demandar um plano de análise exploratório distinto.195
Verifique a existência e/ou influência de valores discrepantes (“fora da curva” ou outliers):191,192,195
Boxplots
Gráficos quantil-quantil (Q-Q)
A análise exploratória valoriza o uso de gráficos interativos e técnicas de brushing e linking, que permitem explorar padrões ocultos, relacionar múltiplas variáveis e destacar subconjuntos de observações.202
O pacote ggplot2173 fornece a função geom_boxplot para construção de gráficos boxplot.
Verifique a homocedasticidade (homogeneidade da variância):195
Boxplots condicionais (por fator de análise)
Análise dos resíduos do modelo de regressão
Gráfico resíduos vs. valores ajustados
Verifique a normalidade da distribuição dos dados:191,195
Histograma das variáveis (por fator de análise)
Histograma dos resíduos da regressão
Verifique a existência de grande quantidade de valores nulos (=0):195
- Histograma das variáveis (por fator de análise)
Verifique a existência de colinearidade entre variáveis independentes de um modelo de regressão:195
Fator de inflação de variância (variance inflation factor, VIF)
Coeficiente de correlação de Pearson (\(r\))
Gráfico de dispersão entre variáveis
Verifique possíveis relações entre as variáveis dependente(s) e independente(s) de um modelo de regressão:195
- Gráfico de dispersão entre variáveis independente e dependente
Verifique possíveis interações entre as variáveis dependente(s) de um modelo de regressão:195
- Gráfico coplot de dispersão entre variáveis dependentes
O pacote ggcleveland203 fornece a função gg_coplot para construção de gráficos boxplot condicionais.
Verifique por dependência entre variáveis de um modelo de regressão:195
Gráfico de série temporal das variáveis
Gráfico de autocorrelação entre as variáveis
Figura 18.1: Séries temporais e autocorrelação de duas séries simuladas com fraca e forte autocorrelação.
Medidas como mediana, trimean, distância absoluta mediana e procedimentos de winsorizing ou trimming são preferidos, pois reduzem a influência de valores extremos e oferecem resumos mais fiéis.202
A análise exploratória adota o esquema
dados = ajuste + resíduo, no qual o analista ajusta modelos provisórios, examina resíduos e refina os modelos em ciclos sucessivos de aproximação.202Valores discrepantes (outliers) não devem ser ignorados; eles podem indicar erros de coleta ou fenômenos relevantes. Fringeliers, casos menos extremos mas recorrentes, também merecem atenção.202
Transformar variáveis em novas formas (por exemplo, log ou inverso) pode revelar simetrias ocultas e tornar relações mais claras e lineares.202
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,