Capítulo 19 Análise exploratória de dados
19.1 Análise exploratória de dados
19.1.1 O que é análise exploratória de dados?
Análise exploratória de dados consiste em um processo iterativo de elaboração e interpretação da síntese de dados, tabelas e gráficos, considerando os aspectos teóricos do estudo.170
Análise exploratória deve ser separada da análise inferencial de testes de hipóteses; a decisão sobre os modelos a testar deve ser feita a priori.178
19.1.2 Por que conduzir a análise exploratória de dados?
A condução de análise exploratória de dados pode ajudar a identificar padrões e pode orientar trabalhos futuros, mas os resultados não devem ser interpretados como inferências sobre uma população.178
A análise exploratória não deve ser usada para definir as questões e hipóteses científicas do estudo.178
O pacote dataMaid174 fornece a função makeDataReport para criar um relatório de análise exploratória de um banco de dados.
O pacote DataExplorer175 fornece a função create_report para criar um relatório de análise exploratória de um banco de dados.
O pacote SmartEDA176 fornece a função ExpReport para criar um relatório de análise exploratória de um banco de dados.
O pacote gtExtras179 fornece a função gt_plt_summary para criar uma tabela descritiva síntese com histogramas ou gráficos de barra a partir de um banco de dados.
O pacote radiant180 fornece a função radiant para executar uma interface interativa para análise exploratória de dados.
19.1.3 Quais etapas constituem a análise exploratória de dados?
Cada combinação de problema de pesquisa e delineamento de estudo pode demandar um plano de análise exploratório distinto.178
Verifique a existência e/ou influência de valores discrepantes (“fora da curva” ou outliers):169,170,178
Boxplots
Gráficos quantil-quantil (Q-Q)
O pacote ggplot2181 fornece a função geom_boxplot para construção de gráficos boxplot.
Verifique a homocedasticidade (homogeneidade da variância):178
Boxplots condicionais (por fator de análise)
Análise dos resíduos do modelo de regressão
Gráfico resíduos vs. valores ajustados
Verifique a normalidade da distribuição dos dados:169,178
Histograma das variáveis (por fator de análise)
Histograma dos resíduos da regressão
Verifique a existência de grande quantidade de valores nulos (=0):178
- Histograma das variáveis (por fator de análise)
Verifique a existência de colinearidade entre variáveis independentes de um modelo de regressão:178
Fator de inflação de variância (variance inflation factor, VIF)
Coeficiente de correlação de Pearson (\(r\))
Gráfico de dispersão entre variáveis
Verifique possíveis relações entre as variáveis dependente(s) e independente(s) de um modelo de regressão:178
- Gráfico de dispersão entre variáveis independente e dependente
Verifique possíveis interações entre as variáveis dependente(s) de um modelo de regressão:178
- Gráfico coplot de dispersão entre variáveis dependentes
O pacote ggcleveland182 fornece a função gg_coplot para construção de gráficos boxplot condicionais.
Verifique por dependência entre variáveis de um modelo de regressão:178
Gráfico de série temporal das variáveis
Gráfico de autocorrelação entre as variáveis
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,