Capítulo 38 Aprendizado de máquina


38.1 Aprendizado de máquina


38.1.1 O que é aprendizado de máquina?


38.2 Tipos de aprendizado


38.2.1 O que é aprendizado supervisionado?


38.2.2 O que é aprendizado não supervisionado?


38.2.3 O que é aprendizado semi-supervisionado?


38.2.4 O que é aprendizado por reforço?


38.2.5 O que é aprendizado profundo?


38.3 Principais algoritmos


38.3.1 Quais são os principais algoritmos de aprendizado de máquina?

  • Modelos de regressão não penalizados, modelos de regressão penalizados, modelos baseados em árvores, modelos baseados em vizinhos, redes neurais, máquinas de vetores de suporte, Naive Bayes e ensembles do tipo Superlearner.307


Comparação entre modelos de regressão logística e árvore de decisão.

Figura 38.1: Comparação entre modelos de regressão logística e árvore de decisão.






38.4 Desbalanceamento de classes


38.4.1 O que é desbalanceamento de classes (class imbalance)?

  • Ocorre quando as classes do desfecho (por exemplo, presença vs. ausência de um evento) não estão igualmente representadas nos dados de treinamento.REF?


38.4.2 Por que o desbalanceamento é um problema?

  • Modelos podem aprender a priorizar a classe mais frequente, obtendo alta acurácia global, mas baixo desempenho para a classe minoritária.REF?

  • Isso pode comprometer métricas como sensibilidade, especificidade e, em alguns casos, a calibração.REF?


38.4.3 Quais são as abordagens mais comuns para lidar com desbalanceamento de classes?

  • Reamostragem aleatória: superamostragem da classe minoritária; subamostragem da classe majoritária).REF?

  • Ajuste de pesos: penaliza mais os erros na classe menos frequente.REF?

  • Alteração do limiar de decisão: muda o ponto de corte de probabilidade para otimizar métricas específicas.REF?


38.4.4 Qual é o impacto do desbalanceamento de classes na calibração de modelos?

  • Corrigir o desbalanceamento de classes nem sempre melhora a calibração e, em alguns casos, pode piorá-la.308

  • Em simulações computacionais, modelos sem correção tiveram calibração igual ou superior aos corrigidos.308

  • A piora observada foi caracterizada por superestimação do risco, nem sempre reversível com re-calibração.308



Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,


Referências

298.
Henderson T. correctR: Corrected Test Statistics for Comparing Machine Learning Models on Correlated Samples.; 2025. https://CRAN.R-project.org/package=correctR.
307.
Andaur Navarro CL, Damen JAA, Smeden M van, et al. Systematic review identifies the design and methodological conduct of studies on machine learning-based prediction models. Journal of Clinical Epidemiology. 2023;154:8–22. doi:10.1016/j.jclinepi.2022.11.015
308.
Carriero A, Luijken K, Hond A de, Moons KGM, Calster B van, Smeden M van. The Harms of Class Imbalance Corrections for Machine Learning Based Prediction Models: A Simulation Study. Statistics in Medicine. 2025;44(3-4). doi:10.1002/sim.10320