Capítulo 15 Análise exploratória de dados
15.1 Análise exploratória de dados
15.1.1 O que é análise exploratória de dados?
Análise exploratória de dados consiste em um processo iterativo de elaboração e interpretação da síntese de dados, tabelas e gráficos, considerando os aspectos teóricos do estudo.146
Análise exploratória deve ser separada da análise inferencial de testes de hipóteses; a decisão sobre os modelos a testar deve ser feita a priori.143
15.1.2 Por que conduzir a análise exploratória de dados?
A condução de análise exploratória de dados pode ajudar a identificar padrões e pode orientar trabalhos futuros, mas os resultados não devem ser interpretados como inferências sobre uma população.143
A análise exploratória não deve ser usada para definir as questões e hipóteses científicas do estudo.143
O pacote dataMaid151 fornece a função makeDataReport para criar um relatório de análise exploratória de um banco de dados.
O pacote DataExplorer152 fornece a função create_report para criar um relatório de análise exploratória de um banco de dados.
O pacote SmartEDA153 fornece a função ExpReport para criar um relatório de análise exploratória de um banco de dados.
O pacote gtExtras154 fornece a função gt_plt_summary para criar uma tabela descritiva síntese com histogramas ou gráficos de barra a partir de um banco de dados.
O pacote radiant155 fornece a função radiant para executar uma interface interativa para análise exploratória de dados.
15.1.3 Quais etapas constituem a análise exploratória de dados?
Cada combinação de problema de pesquisa e delineamento de estudo pode demandar um plano de análise exploratório distinto.143
Verifique a existência e/ou influência de valores discrepantes (“fora da curva” ou outliers):143,145,146
Boxplots
Gráficos quantil-quantil (Q-Q)
Verifique a homocedasticidade (homogeneidade da variância):143
Boxplots condicionais (por fator de análise)
Análise dos resíduos do modelo de regressão
Gráfico resíduos vs. valores ajustados
Verifique a normalidade da distribuição dos dados:143,145
Histograma das variáveis (por fator de análise)
Histograma dos resíduos da regressão
Verifique a existência de grande quantidade de valores nulos (=0):143
- Histograma das variáveis (por fator de análise)
Verifique a existência de colinearidade entre variáveis independentes de um modelo de regressão:143
Fator de inflação de variância (variance inflation factor, VIF)
Coeficiente de correlação de Pearson (\(r\))
Gráfico de dispersão entre variáveis
Verifique possíveis relações entre as variáveis dependente(s) e independente(s) de um modelo de regressão:143
- Gráfico de dispersão entre variáveis independente e dependente
Verifique possíveis interações entre as variáveis dependente(s) de um modelo de regressão:143
- Gráfico coplot de dispersão entre variáveis dependentes
Verifique por dependência entre variáveis de um modelo de regressão:143
Gráfico de série temporal das variáveis
Gráfico de autocorrelação entre as variáveis