Capítulo 39 Aprendizado de máquina


39.1 Aprendizado de máquina


39.1.1 O que é aprendizado de máquina?


Mapa mental de algoritmos de aprendizado de máquina.

Figura 39.1: Mapa mental de algoritmos de aprendizado de máquina.


39.2 Tipos de aprendizado


39.2.1 O que é aprendizado supervisionado?


39.2.2 O que é aprendizado não supervisionado?


39.2.3 O que é aprendizado semi-supervisionado?


39.2.4 O que é aprendizado por reforço?


39.2.5 O que é aprendizado profundo?


39.2.6 Quais são os limites do progresso em classificadores supervisionados?

  • Os maiores ganhos de acurácia vêm de modelos simples, como análise discriminante linear; métodos mais sofisticados oferecem apenas ganhos marginais.331

  • O aumento da complexidade do modelo traz retornos decrescentes em termos de redução da taxa de erro.331


39.2.7 Quais problemas práticos limitam a generalização de classificadores?

  • Population drift: mudanças na distribuição dos dados ao longo do tempo degradam a performance de modelos.331

  • Sample selectivity bias: amostras de treino podem não representar a população futura, levando a superestimação de desempenho.331

  • Erros de rótulo e definições arbitrárias de classes comprometem a validade dos modelos.331


39.2.8 Por que estudos comparativos entre classificadores podem ser enganosos?

  • Resultados dependem da experiência do pesquisador com cada método, da escolha dos conjuntos de dados e do critério de avaliação usado.331

  • Diferenças pequenas em acurácia frequentemente desaparecem quando se consideram incertezas reais de aplicação.331


39.3 Principais algoritmos


39.3.1 Quais são os principais algoritmos de aprendizado de máquina?

  • Modelos de regressão não penalizados, modelos de regressão penalizados, modelos baseados em árvores, modelos baseados em vizinhos, redes neurais, máquinas de vetores de suporte, Naive Bayes e ensembles do tipo Superlearner.332


39.4 Regressão logística


39.4.1 O que são é regressão logística?


39.5 Máquina de vetores de suporte


39.5.1 O que são máquinas de vetores de suporte?


39.6 K-nearest neighbours


39.6.1 O que é K-nearest neighbours?


39.7 K-means Clustering


39.7.1 O que é K-means clustering?


39.8 Árvores de decisão


39.8.1 O que são árvores de decisão?

  • São modelos de aprendizado supervisionado que dividem os dados em ramos e folhas, representando regras de decisão de forma hierárquica.239

  • Podem lidar eficientemente com grandes conjuntos de dados sem pressupor estrutura paramétrica complexa.238

  • São aplicáveis a variáveis contínuas e discretas, tanto como preditoras quanto como desfechos.238


Exemplo de árvore de decisão para predizer depressão a partir de idade, tabagismo e sintomas.

Figura 39.2: Exemplo de árvore de decisão para predizer depressão a partir de idade, tabagismo e sintomas.


39.8.2 Quais são os principais usos de árvores de decisão?

  • Seleção de variáveis relevantes em cenários com muitos preditores, como registros clínicos eletrônicos.238

  • Avaliação da importância relativa das variáveis, com base na redução da pureza dos nós ou da acurácia ao remover variáveis.238

  • Tratamento de valores ausentes, seja classificando-os como categoria própria ou imputando-os por previsão dentro da árvore.238

  • Predição de novos casos a partir de dados históricos.238

  • Manipulação de dados, colapsando categorias muito numerosas ou subdividindo variáveis contínuas assimétricas.238


39.8.3 Quais são os componentes básicos de uma árvore de decisão?

  • Nós raiz (ou de decisão): subdividem todos os registros iniciais.238

  • Nós internos (ou de chance): representam subdivisões intermediárias.238

  • Nós folha (ou finais): resultados finais após sucessivas divisões.238

  • Ramos: representam condições “se-então”, ligando nós em sequência até a classificação final.238


39.8.4 Como funcionam splitting, stopping e pruning?

  • Splitting: divide registros em subconjuntos mais homogêneos com base em métricas como entropia, índice de Gini e ganho de informação.238

  • Stopping: evita árvores excessivamente complexas ao definir parâmetros como número mínimo de registros por nó ou profundidade máxima.238

  • Pruning: reduz árvores grandes eliminando ramos pouco informativos, usando validação ou métodos como qui-quadrado.238


39.8.5 Quais são as vantagens e limitações de árvores de decisão?

  • Vantagens: simplificam relações complexas; são intuitivas e fáceis de interpretar; não exigem pressupostos de distribuição; lidam bem com valores ausentes e dados enviesados; são robustas a outliers.238

  • Limitações: podem sofrer overfitting ou underfitting em amostras pequenas; podem selecionar variáveis correlacionadas sem relação causal real.238


39.8.6 Espaço de decisão em árvores de decisão vs. regressão logística

  • A regressão logística assume relações lineares entre variáveis e log-odds.239

  • Árvores de decisão permitem capturar relações não lineares e interações de forma automática.239


Comparação entre modelos de regressão logística e árvore de decisão.

Figura 39.3: Comparação entre modelos de regressão logística e árvore de decisão.






39.9 Análise de componentes principais


39.9.1 O que é análise de componentes principais?


39.10 Random forests


39.10.1 O que são random forests?


39.11 Ensemble


39.11.1 O que são ensemble?


39.12 Desbalanceamento de classes


39.12.1 O que é desbalanceamento de classes (class imbalance)?

  • Ocorre quando as classes do desfecho (por exemplo, presença vs. ausência de um evento) não estão igualmente representadas nos dados de treinamento.REF?


39.12.2 Por que o desbalanceamento é um problema?

  • Modelos podem aprender a priorizar a classe mais frequente, obtendo alta acurácia global, mas baixo desempenho para a classe minoritária.REF?

  • Isso pode comprometer métricas como sensibilidade, especificidade e, em alguns casos, a calibração.REF?


39.12.3 Quais são as abordagens mais comuns para lidar com desbalanceamento de classes?

  • Reamostragem aleatória: superamostragem da classe minoritária; subamostragem da classe majoritária).REF?

  • Ajuste de pesos: penaliza mais os erros na classe menos frequente.REF?

  • Alteração do limiar de decisão: muda o ponto de corte de probabilidade para otimizar métricas específicas.REF?


39.12.4 Qual é o impacto do desbalanceamento de classes na calibração de modelos?

  • Corrigir o desbalanceamento de classes nem sempre melhora a calibração e, em alguns casos, pode piorá-la.333

  • Em simulações computacionais, modelos sem correção tiveram calibração igual ou superior aos corrigidos.333

  • A piora observada foi caracterizada por superestimação do risco, nem sempre reversível com re-calibração.333



Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,


Referências

238.
Song YY, Lu Y. Decision tree methods: applications for classification and prediction. Shanghai archives of psychiatry. 2015;27(2):130–135. doi:10.11919/j.issn.1002-0829.215044
239.
Hozo I, Guyatt G, Djulbegovic B. Decision curve analysis based on summary data. Journal of Evaluation in Clinical Practice. 2023;30(2):281–289. doi:10.1111/jep.13945
323.
Henderson T. correctR: Corrected Test Statistics for Comparing Machine Learning Models on Correlated Samples.; 2025. https://CRAN.R-project.org/package=correctR.
331.
Hand DJ. Classifier Technology and the Illusion of Progress. Statistical Science. 2006;21(1). doi:10.1214/088342306000000060
332.
Andaur Navarro CL, Damen JAA, Smeden M van, et al. Systematic review identifies the design and methodological conduct of studies on machine learning-based prediction models. Journal of Clinical Epidemiology. 2023;154:8–22. doi:10.1016/j.jclinepi.2022.11.015
333.
Carriero A, Luijken K, Hond A de, Moons KGM, Calster B van, Smeden M van. The Harms of Class Imbalance Corrections for Machine Learning Based Prediction Models: A Simulation Study. Statistics in Medicine. 2025;44(3-4). doi:10.1002/sim.10320