Capítulo 29 Regressão


29.1 Análise de regressão


29.1.1 O que é regressão?

  • Regressão refere-se a uma equação matemática que permite que uma ou mais variável(is) de desfecho (dependentes) seja(m) prevista(s) a partir de uma ou mais variável(is) independente(s). A regressão implica em uma direção de efeito, mas não garante causalidade.195

  • Para estimar os efeitos imparciais de um fator de exposição primária sobre uma variável de desfecho, frequentemente constroem-se modelos estatísticos de regressão.171




29.1.2 Quais são os algoritmos de regressão?


29.1.3 O que são análises de regressão simples?

  • A análise de regressão simples consiste em modelos estatísticos com 1 variável dependente (desfecho) e 1 variável independente (preditor).240


29.1.4 O que são análises de regressão multivariável?

  • A análise multivariável (ou múltiplo) consiste em modelos estatísticos com 1 variável dependente (desfecho) e duas ou mais variáveis independentes.240


29.1.5 O que são análises de regressão multivariada?

  • A análise multivariada consiste em modelos estatísticos com 2 ou mais variáveis dependente (desfechos) e duas ou mais variáveis independentes.240


29.1.6 O que são análises de regressão linear?


29.1.7 O que são análises de regressão não-linear?


29.1.8 O que são análises de regressão logística?


29.2 Preparação de variáveis para regressão


29.2.1 Como preparar as variáveis categóricas para análise de regressão?

  • Variáveis fictícias (dummy) compreendem variáveis criadas para introduzir, nos modelos de regressão, informações contidas em outras variáveis que não podem ser medidas em escala numérica.241

  • Variáveis categóricas nominais, com 2 ou mais níveis, devem ser subdivididas em variáveis fictícias dicotômicas para ser usada em modelos de regressão.242

  • Cada nível da variável categórica nominal será convertido em uma nova variável fictícias dicotômica, tal que a nova variável dicotômica assume valor 1 para a presença do nível correspondente e 0 em qualquer outro caso.242



29.3 Redução de dimensionalidade para regressão


29.3.1 Correlação bivariada pode ser usada para seleção de variáveis em modelos de regressão multivariável?

  • Seleção bivariada de variáveis - isto é, aplicação de testes de correlação em pares de variáveis candidatas e variável de desfecho afim de selecionar quais serão incluídas no modelo multivariável - é um dos erros mais comuns na literatura.214,244,245

  • A seleção bivariada de variáveis torna o modelo mais suscetível a otimismo no ajuste se as variáveis de confundimento não são adequadamente controladas.244,245


29.3.2 Variáveis sem significância estatística devem ser excluídas do modelo final?

  • Eliminar uma variável de um modelo significa anular o seu coeficiente de regressão (\(\beta = 0\)), mesmo que o valor estimado pelos dados seja outro. Desta forma, os resultados se afasTAM de uma solução de máxima verossimilhança (que tem fundamento teórico) e o modelo resultante é intencionalmente subótimo.214

  • Os coeficientes de regressão geralmente dependem do conjunto de variáveis do modelo e, portanto, podem mudam de valor (“mudança na estimativa” positiva ou negativa) se uma (ou mais) variável(is) for(em) eliminada(s) do modelo.214


29.3.3 Por que métodos de regressão gradual não são recomendados para seleção de variáveis em modelos de regressão multivariável?

  • Métodos diferentes de regressão gradual podem produzir diferentes seleções de variáveis de um mesmo banco de dados.242

  • Nenhum método de regressão gradual garante a seleção ótima de variáveis de um banco de dados.242

  • As regras de término da regressão baseadas em P-valor tendem a ser arbitrárias.242


29.3.4 O que pode ser feito para reduzir o número de variáveis candidatas em modelos de regressão multivariável?

  • Verifique a existência de multicolinearidade entre as variáveis candidatas.245


Multicolinearidade entre variáveis candidatas em modelos de regressão multivariável.

Figura 29.1: Multicolinearidade entre variáveis candidatas em modelos de regressão multivariável.


  • Em caso de uma proporção baixa entre o número de participantes e de variáveis, use o conhecimento prévio da literatura para selecionar um pequeno conjunto de variáveis candidatas.245

  • Colapse categorias com contagem nula (células com valor igual a 0) de variáveis candidatas.245

  • Use simulações de dados para identificar qual(is) variável(is) está(ão) causando problemas de convergência do ajuste do modelo.245

  • A eliminação retroativa tem sido recomendada como a abordagem de regressão gradual mais confiável entre aquelas que podem ser facilmente alcançadas com programas de computador.214


Referências

166.
Sjoberg DD, Whiting K, Curry M, Lavery JA, Larmarange J. Reproducible summary tables with the gtsummary package. 2021;13:570-580. doi:10.32614/RJ-2021-053
171.
Bandoli G, Palmsten K, Chambers CD, Jelliffe-Pawlowski LL, Baer RJ, Thompson CA. Revisiting the Table 2 fallacy: A motivating example examining preeclampsia and preterm birth. Paediatric and Perinatal Epidemiology. 2018;32(4):390-397. doi:10.1111/ppe.12474
195.
Greenhalgh T. How to read a paper: Statistics for the non-statistician. II: ̈Significanẗ relations and their pitfalls. BMJ. 1997;315(7105):422-425. doi:10.1136/bmj.315.7105.422
214.
Heinze G, Dunkler D. Five myths about variable selection. Transplant International. 2016;30(1):6-10. doi:10.1111/tri.12895
239.
Arel-Bundock V. Modelsummary: Data and model summaries in r. 2022;103. doi:10.18637/jss.v103.i01
240.
Hidalgo B, Goodman M. Multivariate or Multivariable Regression? American Journal of Public Health. 2013;103(1):39-40. doi:10.2105/ajph.2012.300897
241.
Suits DB. Use of Dummy Variables in Regression Equations. Journal of the American Statistical Association. 1957;52(280):548-551. doi:10.1080/01621459.1957.10501412
242.
Healy MJ. Statistics from the inside. 16. Multiple regression (2). Archives of Disease in Childhood. 1995;73(3):270-274. doi:10.1136/adc.73.3.270
243.
Kaplan J. fastDummies: Fast Creation of Dummy (Binary) Columns and Rows from Categorical Variables.; 2023. https://CRAN.R-project.org/package=fastDummies.
244.
DALES LG, URY HK. An Improper Use of Statistical Significance Testing in Studying Covariables. International Journal of Epidemiology. 1978;7(4):373-376. doi:10.1093/ije/7.4.373
245.
Sun GW, Shook TL, Kay GL. Inappropriate use of bivariable analysis to screen risk factors for use in multivariable analysis. Journal of Clinical Epidemiology. 1996;49(8):907-916. doi:10.1016/0895-4356(96)00025-x