Capítulo 34 Modelos


34.1 Modelos


34.1.1 O que são modelos?

  • Modelos são representações simplificadas de um sistema real, usados para entender, prever ou controlar fenômenos complexos.REF?


34.1.2 O que é modelagem?

  • Modelagem é o processo de usar dados para selecionar um modelo matemático explícito que represente o processo gerador dos dados.315


34.1.3 Por que a escolha do modelo é complexa?

  • Há inúmeras combinações possíveis de variáveis, formas funcionais (lineares, quadráticas, transformações), interações e formas do desfecho, o que torna o espaço de possibilidades muito amplo.315

  • Todos os modelos são errados, mas alguns são úteis.318



34.1.4 O que diferencia modelos clássicos e modernos em predição?

  • Modelos clássicos, como a regressão logística e as árvores de decisão, contrastam com os modelos modernos, como máquinas de vetor de suporte, redes neurais e random forests , principalmente pela maior flexibilidade e capacidade destes últimos de capturar não linearidades e interações.320


34.2 Modelos estocásticos


34.2.1 O que são modelos estocásticos?


34.2.2 O que são cadeias de Markov?

  • As cadeias de Markov descrevem processos em que o estado futuro depende apenas do estado presente, e não da trajetória passada.321


Cadeia de Markov com 3 estados (a, b, c) e suas probabilidades de transição.

Figura 34.1: Cadeia de Markov com 3 estados (a, b, c) e suas probabilidades de transição.


Trajetória de estados e proporção acumulada por estado em uma cadeia de Markov com 3 estados (a, b, c).

Figura 34.2: Trajetória de estados e proporção acumulada por estado em uma cadeia de Markov com 3 estados (a, b, c).



34.3 Preditores e desfechos


34.3.1 O que são desfechos de um modelo?


34.3.2 O que são preditores de um modelo?


34.3.3 Como selecionar preditores para um modelo?


34.4 Suposições dos modelos


34.4.1 Quais suposições são feitas para modelagem?


34.4.2 Como avaliar as suposições de um modelo?



34.5 Desempenho e estabilidade de modelos


34.5.1 Como avaliar o desempenho dos modelos?

  • Pela área sob a curva ROC em conjunto com o otimismo (diferença entre AUC aparente e validada).320

  • O desempenho melhora com maior tamanho amostral, mas de forma desigual entre técnicas.320


34.5.2 Qual modelo alcança estabilidade mais rapidamente?

  • Regressão logística é o mais estável e menos data hungry.320

  • Árvore de decisão para classificação e regressão estabiliza rápido, mas em nível de desempenho baixo.320

  • Máquina de vetores de suporte, redes neurais e random forests apresentam instabilidade mesmo em amostras muito grandes.320


34.6 Avaliação de modelos


34.6.1 Como avaliar a qualidade de ajuste de um modelo?

  • Coeficiente de determinação (\(R^2\)) (34.1) e \(R^2\) ajustado (34.2): Medem a proporção da variabilidade dos dados explicada pelo modelo. O \(R^2\) ajustado penaliza a inclusão de variáveis irrelevantes.REF?


\[\begin{equation} \tag{34.1} R^2 = 1 - \frac{SS_{res}}{SS_{tot}} \end{equation}\]


\[\begin{equation} \tag{34.2} R^2_{ajustado} = 1 - (1 - R^2)\frac{n - 1}{n - p - 1} \end{equation}\]


Exemplos de ajuste de modelos de regressão linear simples (y ~ x) com diferentes níveis de ruído (R²). Cada painel mostra a reta ajustada (cinza) e os valores observados (pontos). Os valores anotados indicam o coeficiente angular simulado (β), o coeficiente angular estimado (β̂) e o R² observado.

Figura 34.3: Exemplos de ajuste de modelos de regressão linear simples (y ~ x) com diferentes níveis de ruído (R²). Cada painel mostra a reta ajustada (cinza) e os valores observados (pontos). Os valores anotados indicam o coeficiente angular simulado (β), o coeficiente angular estimado (β̂) e o R² observado.


  • Erro quadrático médio (\(RMSE\)) (34.3): Mede a média dos erros ao quadrado entre os valores observados e os valores previstos pelo modelo, onde \(y_i\) são os valores observados, \(\hat{y}_i\) são os valores previstos pelo modelo, e \(n\) é o número de observações. Valores menores indicam melhor ajuste.REF?


\[\begin{equation} \tag{34.3} RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2} \end{equation}\]


  • Critério de Informação Akaike (\(AIC\)) (34.4) e Critério de Informação Bayesiano (\(BIC\)) (34.5): Avaliam o ajuste do modelo penalizando a complexidade (número de parâmetros), onde \(k\) é o número de parâmetros do modelo, \(L\) é a verossimilhança máxima do modelo, e \(n\) é o tamanho da amostra. Modelos com menor AIC ou BIC são preferíveis.REF?


\[\begin{equation} \tag{34.4} AIC = 2k - 2\ln(L) \end{equation}\]


\[\begin{equation} \tag{34.5} BIC = \ln(n)k - 2\ln(L) \end{equation}\]


  • Desvio residual (\(\sigma\)): Mede a variabilidade dos resíduos do modelo. Valores menores indicam melhor ajuste.REF?


Tabela 34.1: Métricas de desempenho do modelo de regressão linear.
Métrica Valor
AIC 513.017
AIC corrigido 513.267
BIC 520.833
\(R^2\) 0.007
\(R^2\) ajustado -0.003
Erro quadrático médio (RMSE) 3.053
Desvio residual (sigma) 3.084




34.7 Validação de modelos


34.7.1 Como validar modelos estatísticos?


34.8 Calibração de modelos


34.8.1 Como calibrar modelos estatísticos?


34.9 Comparação de modelos


34.9.1 Como comparar modelos de aprendizagem de máquina?




Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,


Referências

249.
Lüdecke D, Ben-Shachar MS, Patil I, Waggoner P, Makowski D. performance: An R Package for Assessment, Comparison and Testing of Statistical Models. Journal of Open Source Software. 2021;6:3139. doi:10.21105/joss.03139
315.
Greenland S. Modeling and variable selection in epidemiologic analysis. American Journal of Public Health. 1989;79(3):340–349. doi:10.2105/ajph.79.3.340
318.
Box GEP. Science and Statistics. Journal of the American Statistical Association. 1976;71(356):791–799. doi:10.1080/01621459.1976.10480949
319.
Anderson D, Heiss A, Sumners J. equatiomatic: Transform Models into LaTeX Equations.; 2024. https://CRAN.R-project.org/package=equatiomatic.
320.
Ploeg T van der, Austin PC, Steyerberg EW. Modern modelling techniques are data hungry: a simulation study for predicting dichotomous endpoints. BMC Medical Research Methodology. 2014;14(1). doi:10.1186/1471-2288-14-137
322.
Spedicato GA. Discrete Time Markov Chains with R. The R Journal. 2017;9(2):84–104. doi:10.32614/RJ-2017-036
323.
Henderson T. correctR: Corrected Test Statistics for Comparing Machine Learning Models on Correlated Samples.; 2025. https://CRAN.R-project.org/package=correctR.