Capítulo 36 Modelos


36.1 Modelos


36.1.1 O que são modelos?

  • Modelos são representações simplificadas de um sistema real, usados para entender, prever ou controlar fenômenos complexos.REF?


36.1.2 O que é modelagem?

  • Modelagem é o processo de usar dados para selecionar um modelo matemático explícito que represente o processo gerador dos dados.255


36.1.3 Por que a escolha do modelo é complexa?

  • Há inúmeras combinações possíveis de variáveis, formas funcionais (lineares, quadráticas, transformações), interações e formas do desfecho, o que torna o espaço de possibilidades muito amplo.255

  • Todos os modelos são errados, mas alguns são úteis.325



36.1.4 O que diferencia modelos clássicos e modernos em predição?

  • Modelos clássicos, como a regressão logística e as árvores de decisão, contrastam com os modelos modernos, como máquinas de vetor de suporte, redes neurais e random forests , principalmente pela maior flexibilidade e capacidade destes últimos de capturar não linearidades e interações.327


36.2 Modelos estocásticos


36.2.1 O que são modelos estocásticos?


36.2.2 O que são cadeias de Markov?

  • As cadeias de Markov descrevem processos em que o estado futuro depende apenas do estado presente, e não da trajetória passada.328


Cadeia de Markov com 3 estados (a, b, c) e suas probabilidades de transição.

Figura 36.1: Cadeia de Markov com 3 estados (a, b, c) e suas probabilidades de transição.


Trajetória de estados e proporção acumulada por estado em uma cadeia de Markov com 3 estados (a, b, c).

Figura 36.2: Trajetória de estados e proporção acumulada por estado em uma cadeia de Markov com 3 estados (a, b, c).



36.3 Efeito fixo


36.3.1 O que é efeito fixo?

  • Efeito fixo é a relação média entre variáveis assumida como igual para todos os grupos ou indivíduos, representando o comportamento populacional esperado.REF?

  • Ele descreve tendências sistemáticas e reprodutíveis que não dependem de pertencer a um grupo específico.REF?

  • Em modelos estatísticos, corresponde aos parâmetros estimados globalmente a partir de todos os dados.REF?


36.4 Efeito aleatório


36.4.1 O que é efeito aleatório?

  • Efeito aleatório representa desvios específicos de grupos ou unidades em relação ao efeito fixo.REF?

  • Ele modela a variabilidade entre grupos, assumindo que esses desvios são amostras de uma distribuição comum.REF?

  • Não busca estimar cada grupo isoladamente, mas sim quantificar a variabilidade entre eles.REF?


36.5 Efeito misto


36.5.1 O que é efeito misto?

  • Um modelo de efeitos mistos combina efeitos fixos e aleatórios em uma única estrutura estatística.REF?

  • Ele permite estimar tendências globais ao mesmo tempo em que ajusta variações específicas por grupo.REF?

  • Essa combinação possibilita inferência correta mesmo na presença de heterogeneidade, evitando armadilhas como o Paradoxo de Simpson.REF?


Efeitos fixos, aleatórios e mistos em dados simulados com paradoxo de Simpson. As linhas vermelhas representam os efeitos dentro dos grupos, enquanto as linhas cinza e preta representam os efeitos globais (naive e fixo, respectivamente). O modelo misto (linhas coloridas) captura os efeitos dentro dos grupos sem extrapolar além dos dados observados.

Figura 36.3: Efeitos fixos, aleatórios e mistos em dados simulados com paradoxo de Simpson. As linhas vermelhas representam os efeitos dentro dos grupos, enquanto as linhas cinza e preta representam os efeitos globais (naive e fixo, respectivamente). O modelo misto (linhas coloridas) captura os efeitos dentro dos grupos sem extrapolar além dos dados observados.


36.6 Efeito principal


36.6.1 O que é efeito principal?


36.7 Efeito de interação


36.7.1 O que é efeito de interação?

  • A interação - representada pelo símbolo * - é o termo estatístico empregado para representar a heterogeneidade de um determinado efeito.331

  • .330

Análise de efeito de interação (direta) entre grupos e tempo. Retas paralelas sugerem ausência de efeito de interação.

Figura 36.4: Análise de efeito de interação (direta) entre grupos e tempo. Retas paralelas sugerem ausência de efeito de interação.


Análise de efeito de interação (inversa) entre grupos e tempo. Retas paralelas sugerem ausência de efeito de interação.

Figura 36.5: Análise de efeito de interação (inversa) entre grupos e tempo. Retas paralelas sugerem ausência de efeito de interação.





36.8 Efeito de mediação


36.8.1 O que é um mediador de efeito?


36.8.2 O que é efeito de mediação?


36.8.3 O que é efeito direto?


36.8.4 O que é efeito indireto?


36.8.5 O que é efeito total?


36.9 Efeito de modificação


36.9.1 O que é um modificador de efeito?


36.9.2 O que é efeito de modificação?


36.10 Preditores e desfechos


36.10.1 O que são desfechos de um modelo?


36.10.2 O que são preditores de um modelo?


36.10.3 Como selecionar preditores para um modelo?


36.11 Desempenho e estabilidade de modelos


36.11.1 Como avaliar o desempenho dos modelos?

  • Pela área sob a curva ROC em conjunto com o otimismo (diferença entre AUC aparente e validada).327

  • O desempenho melhora com maior tamanho amostral, mas de forma desigual entre técnicas.327


36.11.2 Qual modelo alcança estabilidade mais rapidamente?

  • Regressão logística é o mais estável e menos data hungry.327

  • Árvore de decisão para classificação e regressão estabiliza rápido, mas em nível de desempenho baixo.327

  • Máquina de vetores de suporte, redes neurais e random forests apresentam instabilidade mesmo em amostras muito grandes.327


36.12 Comparação de modelos


36.12.1 Como comparar modelos estatísticos?


36.12.2 Como comparar modelos de aprendizagem de máquina?



36.13 Avaliação de modelos


36.13.1 Como avaliar a qualidade de ajuste de um modelo?

  • Coeficiente de determinação (\(R^2\)) (36.1) e \(R^2\) ajustado (36.2): Medem a proporção da variabilidade dos dados explicada pelo modelo. O \(R^2\) ajustado penaliza a inclusão de variáveis irrelevantes.REF?


\[\begin{equation} \tag{36.1} R^2 = 1 - \frac{SS_{res}}{SS_{tot}} \end{equation}\]


\[\begin{equation} \tag{36.2} R^2_{ajustado} = 1 - (1 - R^2)\frac{n - 1}{n - p - 1} \end{equation}\]


Exemplos de ajuste de modelos de regressão linear simples ($y \sim x$) com diferentes níveis de ruído ($R^2$). Cada painel mostra a reta ajustada (cinza) e os valores observados (pontos). Os valores anotados indicam o coeficiente angular simulado ($\beta$), o coeficiente angular estimado ($\hat{\beta}$) e o $R^2$ observado.

Figura 36.6: Exemplos de ajuste de modelos de regressão linear simples (\(y \sim x\)) com diferentes níveis de ruído (\(R^2\)). Cada painel mostra a reta ajustada (cinza) e os valores observados (pontos). Os valores anotados indicam o coeficiente angular simulado (\(\beta\)), o coeficiente angular estimado (\(\hat{\beta}\)) e o \(R^2\) observado.


  • Erro quadrático médio (\(RMSE\)) (36.3): Mede a média dos erros ao quadrado entre os valores observados e os valores previstos pelo modelo, onde \(y_i\) são os valores observados, \(\hat{y}_i\) são os valores previstos pelo modelo, e \(n\) é o número de observações. Valores menores indicam melhor ajuste.REF?


\[\begin{equation} \tag{36.3} RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2} \end{equation}\]


  • Critério de Informação Akaike (\(AIC\)) (36.4) e Critério de Informação Bayesiano (\(BIC\)) (36.5): Avaliam o ajuste do modelo penalizando a complexidade (número de parâmetros), onde \(k\) é o número de parâmetros do modelo, \(L\) é a verossimilhança máxima do modelo, e \(n\) é o tamanho da amostra. Modelos com menor AIC ou BIC são preferíveis.REF?


\[\begin{equation} \tag{36.4} AIC = 2k - 2\ln(L) \end{equation}\]


\[\begin{equation} \tag{36.5} BIC = \ln(n)k - 2\ln(L) \end{equation}\]


  • Desvio residual (\(\sigma\)): Mede a variabilidade dos resíduos do modelo. Valores menores indicam melhor ajuste.REF?


Tabela 36.1: Métricas de desempenho do modelo de regressão linear.
Métrica Valor
AIC 513.017
AIC corrigido 513.267
BIC 520.833
\(R^2\) 0.007
\(R^2\) ajustado -0.003
Erro quadrático médio (RMSE) 3.053
Desvio residual (sigma) 3.084




36.14 Validação de modelos


36.14.1 Como validar modelos estatísticos?


36.15 Calibração de modelos


36.15.1 Como calibrar modelos estatísticos?



Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,


Referências

253.
Lüdecke D, Ben-Shachar MS, Patil I, Waggoner P, Makowski D. performance: An R Package for Assessment, Comparison and Testing of Statistical Models. Journal of Open Source Software. 2021;6:3139. doi:10.21105/joss.03139
255.
Greenland S. Modeling and variable selection in epidemiologic analysis. American Journal of Public Health. 1989;79(3):340–349. doi:10.2105/ajph.79.3.340
325.
Box GEP. Science and Statistics. Journal of the American Statistical Association. 1976;71(356):791–799. doi:10.1080/01621459.1976.10480949
326.
Anderson D, Heiss A, Sumners J. equatiomatic: Transform Models into LaTeX Equations.; 2024. https://CRAN.R-project.org/package=equatiomatic.
327.
Ploeg T van der, Austin PC, Steyerberg EW. Modern modelling techniques are data hungry: a simulation study for predicting dichotomous endpoints. BMC Medical Research Methodology. 2014;14(1). doi:10.1186/1471-2288-14-137
329.
Spedicato GA. Discrete Time Markov Chains with R. The R Journal. 2017;9(2):84–104. doi:10.32614/RJ-2017-036
330.
Bours MJL. Using mediators to understand effect modification and interaction. Journal of Clinical Epidemiology. setembro 2023. doi:10.1016/j.jclinepi.2023.09.005
331.
Altman DG, Matthews JNS. Statistics Notes: Interaction 1: heterogeneity of effects. BMJ. 1996;313(7055):486–486. doi:10.1136/bmj.313.7055.486
332.
Pinheiro J, Bates D, R Core Team. nlme: Linear and Nonlinear Mixed Effects Models.; 2023. https://CRAN.R-project.org/package=nlme.
333.
Sabanes Bove D, Dedic J, Kelkhoff D, et al. mmrm: Mixed Models for Repeated Measures.; 2022. https://CRAN.R-project.org/package=mmrm.
334.
Lenth RV. emmeans: Estimated Marginal Means, aka Least-Squares Means.; 2023. https://CRAN.R-project.org/package=emmeans.
335.
Baron RM, Kenny DA. The moderatormediator variable distinction in social psychological research: Conceptual, strategic, and statistical considerations. Journal of Personality and Social Psychology. 1986;51(6):1173–1182. doi:10.1037/0022-3514.51.6.1173
336.
Henderson T. correctR: Corrected Test Statistics for Comparing Machine Learning Models on Correlated Samples.; 2025. https://CRAN.R-project.org/package=correctR.