Capítulo 38 Aprendizado de máquina
38.3 Principais algoritmos
38.3.1 Quais são os principais algoritmos de aprendizado de máquina?
- Modelos de regressão não penalizados, modelos de regressão penalizados, modelos baseados em árvores, modelos baseados em vizinhos, redes neurais, máquinas de vetores de suporte, Naive Bayes e ensembles do tipo Superlearner.307

Figura 38.1: Comparação entre modelos de regressão logística e árvore de decisão.
O pacote h2o@correctR fornece funções construir modelos de aprendizado de máquina.
O pacote correctR298 fornece as funções kfold_ttest, repkfold_ttest e resampled_ttest para calcular estatística para comparação de modelos de aprendizado de máquina em amostras dependentes.
O pacote caret@caret fornece um conjunto de funções para pré-processamento, ajuste, avaliação e comparação de modelos de aprendizado de máquina.
O pacote mlr3@mlr3 fornece funções para fluxos de trabalho complexos, incluindo pré-processamento, ajuste de hiperparâmetros e integração com diversos algoritmos.
38.4 Desbalanceamento de classes
38.4.1 O que é desbalanceamento de classes (class imbalance)?
- Ocorre quando as classes do desfecho (por exemplo, presença vs. ausência de um evento) não estão igualmente representadas nos dados de treinamento.REF?
38.4.2 Por que o desbalanceamento é um problema?
Modelos podem aprender a priorizar a classe mais frequente, obtendo alta acurácia global, mas baixo desempenho para a classe minoritária.REF?
Isso pode comprometer métricas como sensibilidade, especificidade e, em alguns casos, a calibração.REF?
38.4.3 Quais são as abordagens mais comuns para lidar com desbalanceamento de classes?
Reamostragem aleatória: superamostragem da classe minoritária; subamostragem da classe majoritária).REF?
Ajuste de pesos: penaliza mais os erros na classe menos frequente.REF?
Alteração do limiar de decisão: muda o ponto de corte de probabilidade para otimizar métricas específicas.REF?
38.4.4 Qual é o impacto do desbalanceamento de classes na calibração de modelos?
Corrigir o desbalanceamento de classes nem sempre melhora a calibração e, em alguns casos, pode piorá-la.308
Em simulações computacionais, modelos sem correção tiveram calibração igual ou superior aos corrigidos.308
A piora observada foi caracterizada por superestimação do risco, nem sempre reversível com re-calibração.308
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,