Capítulo 34 Modelos
34.1 Modelos
34.1.1 O que são modelos?
- Modelos são representações simplificadas de um sistema real, usados para entender, prever ou controlar fenômenos complexos.REF?
34.1.2 O que é modelagem?
- Modelagem é o processo de usar dados para selecionar um modelo matemático explícito que represente o processo gerador dos dados.315
34.1.3 Por que a escolha do modelo é complexa?
Há inúmeras combinações possíveis de variáveis, formas funcionais (lineares, quadráticas, transformações), interações e formas do desfecho, o que torna o espaço de possibilidades muito amplo.315
Todos os modelos são errados, mas alguns são úteis.318
O pacote equatiomatic319 fornece a função extract_eq para extrair a equação dos modelos em formato LaTeX para visualização.
34.1.4 O que diferencia modelos clássicos e modernos em predição?
- Modelos clássicos, como a regressão logística e as árvores de decisão, contrastam com os modelos modernos, como máquinas de vetor de suporte, redes neurais e random forests , principalmente pela maior flexibilidade e capacidade destes últimos de capturar não linearidades e interações.320
34.2 Modelos estocásticos
34.2.2 O que são cadeias de Markov?
- As cadeias de Markov descrevem processos em que o estado futuro depende apenas do estado presente, e não da trajetória passada.321
Figura 34.1: Cadeia de Markov com 3 estados (a, b, c) e suas probabilidades de transição.
Figura 34.2: Trajetória de estados e proporção acumulada por estado em uma cadeia de Markov com 3 estados (a, b, c).
O pacote markovchain322 fornece a função markovchainFit ajusta uma cadeia com base em dados observados.
34.4 Suposições dos modelos
34.4.2 Como avaliar as suposições de um modelo?
- .REF?
O pacote performance249 fornece a função check_model para analisar a colinearidade entre variáveis, a normalidade da distribuição das variáveis e a heteroscedasticidade.
34.5 Desempenho e estabilidade de modelos
34.5.1 Como avaliar o desempenho dos modelos?
Pela área sob a curva ROC em conjunto com o otimismo (diferença entre AUC aparente e validada).320
O desempenho melhora com maior tamanho amostral, mas de forma desigual entre técnicas.320
34.5.2 Qual modelo alcança estabilidade mais rapidamente?
Regressão logística é o mais estável e menos data hungry.320
Árvore de decisão para classificação e regressão estabiliza rápido, mas em nível de desempenho baixo.320
Máquina de vetores de suporte, redes neurais e random forests apresentam instabilidade mesmo em amostras muito grandes.320
34.6 Avaliação de modelos
34.6.1 Como avaliar a qualidade de ajuste de um modelo?
- Coeficiente de determinação (\(R^2\)) (34.1) e \(R^2\) ajustado (34.2): Medem a proporção da variabilidade dos dados explicada pelo modelo. O \(R^2\) ajustado penaliza a inclusão de variáveis irrelevantes.REF?
\[\begin{equation} \tag{34.1} R^2 = 1 - \frac{SS_{res}}{SS_{tot}} \end{equation}\]
\[\begin{equation} \tag{34.2} R^2_{ajustado} = 1 - (1 - R^2)\frac{n - 1}{n - p - 1} \end{equation}\]
Figura 34.3: Exemplos de ajuste de modelos de regressão linear simples (y ~ x) com diferentes níveis de ruído (R²). Cada painel mostra a reta ajustada (cinza) e os valores observados (pontos). Os valores anotados indicam o coeficiente angular simulado (β), o coeficiente angular estimado (β̂) e o R² observado.
- Erro quadrático médio (\(RMSE\)) (34.3): Mede a média dos erros ao quadrado entre os valores observados e os valores previstos pelo modelo, onde \(y_i\) são os valores observados, \(\hat{y}_i\) são os valores previstos pelo modelo, e \(n\) é o número de observações. Valores menores indicam melhor ajuste.REF?
\[\begin{equation} \tag{34.3} RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2} \end{equation}\]
- Critério de Informação Akaike (\(AIC\)) (34.4) e Critério de Informação Bayesiano (\(BIC\)) (34.5): Avaliam o ajuste do modelo penalizando a complexidade (número de parâmetros), onde \(k\) é o número de parâmetros do modelo, \(L\) é a verossimilhança máxima do modelo, e \(n\) é o tamanho da amostra. Modelos com menor AIC ou BIC são preferíveis.REF?
\[\begin{equation} \tag{34.4} AIC = 2k - 2\ln(L) \end{equation}\]
\[\begin{equation} \tag{34.5} BIC = \ln(n)k - 2\ln(L) \end{equation}\]
- Desvio residual (\(\sigma\)): Mede a variabilidade dos resíduos do modelo. Valores menores indicam melhor ajuste.REF?
| Métrica | Valor |
|---|---|
| AIC | 513.017 |
| AIC corrigido | 513.267 |
| BIC | 520.833 |
| \(R^2\) | 0.007 |
| \(R^2\) ajustado | -0.003 |
| Erro quadrático médio (RMSE) | 3.053 |
| Desvio residual (sigma) | 3.084 |
O pacote performance249 fornece a função model_performance para calcular as métricas de ajuste da regressão adequadas ao modelo pré-especificado.
O pacote performance249 fornece a função compare_performance para comparar o desempenho e a qualidade do ajuste de diversos modelos de regressão pré-especificados.
34.9 Comparação de modelos
34.9.1 Como comparar modelos de aprendizagem de máquina?
- .REF?
O pacote correctR323 fornece funções para comparar o desempenho e a qualidade do ajuste de diversos modelos de aprendizagem de máquina em amostras correlacionadas.
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,