Capítulo 42 Aprendizado de máquina

42.1 Aprendizado de máquina

42.1.1 O que é aprendizado de máquina?

Treinar um modelo significa resolver um problema matemático no qual um conjunto de observações (dados) é usado para ajustar um modelo. Esse modelo busca capturar tendências gerais dos dados, ignorando particularidades excessivas para evitar sobreajuste (overfitting).³⁴⁴
O processo deriva do conceito estatístico de regressão e corresponde, em essência, à solução de um problema em que há mais restrições do que graus de liberdade.³⁴⁴

Figura 42.1: Mapa mental de algoritmos de aprendizado de máquina.

O pacote fastml³⁴⁵ fornece a função train_models para treinar algoritmos de aprendizado de máquina em dados de treinamento pré-processados.

42.2 Representação de dados e engenharia de atributos

42.2.1 Como representar texto como vetores?

42.2.2 O que é one-hot, multi-hot e count encoding?

One-hot encoding: cria uma coluna binária para cada categoria de uma variável categórica, indicando a presença (1) ou ausência (0) da categoria em cada observação.^REF?
Multi-hot encoding: semelhante ao one-hot, mas permite que múltiplas categorias sejam representadas simultaneamente em uma única observação, útil para variáveis com múltiplas seleções.^REF?
Count encoding: substitui categorias por contagens de sua ocorrência no conjunto de dados, capturando a frequência relativa de cada categoria.^REF?

Tabela 42.1: Exemplo de codificação one-hot, multi-hot e count encoding para representação de texto.
Termo	avalia	cuidado	equipe	executa	final	planeja	projeto	revisa	tarefas
equipe	0	0	1	0	0	0	0	0	0
planeja	0	0	0	0	0	1	0	0	0
projeto	0	0	0	0	0	0	1	0	0
cuidado	0	1	0	0	0	0	0	0	0
equipe	0	0	1	0	0	0	0	0	0
executa	0	0	0	1	0	0	0	0	0
tarefas	0	0	0	0	0	0	0	0	1
projeto	0	0	0	0	0	0	1	0	0
revisa	0	0	0	0	0	0	0	1	0
tarefas	0	0	0	0	0	0	0	0	1
avalia	1	0	0	0	0	0	0	0	0
projeto	0	0	0	0	0	0	1	0	0
final	0	0	0	0	1	0	0	0	0
One-hot encoding	1	1	1	1	1	1	1	1	1
Multi-hot encoding	1	1	1	1	1	1	1	1	1
Count encoding	1	1	2	1	1	1	3	1	2
Frase original:
A equipe planeja o projeto com cuidado, a equipe executa as tarefas do projeto, revisa as tarefas e avalia o projeto final.

42.3 Tipos de aprendizado

42.3.6 Quais são os limites do progresso em classificadores supervisionados?

Os maiores ganhos de acurácia vêm de modelos simples, como análise discriminante linear; métodos mais sofisticados oferecem apenas ganhos marginais.³⁴⁶
O aumento da complexidade do modelo traz retornos decrescentes em termos de redução da taxa de erro.³⁴⁶

42.3.7 Quais problemas práticos limitam a generalização de classificadores?

Population drift: mudanças na distribuição dos dados ao longo do tempo degradam a performance de modelos.³⁴⁶
Sample selectivity bias: amostras de treino podem não representar a população futura, levando a superestimação de desempenho.³⁴⁶
Erros de rótulo e definições arbitrárias de classes comprometem a validade dos modelos.³⁴⁶

42.3.8 Por que estudos comparativos entre classificadores podem ser enganosos?

Resultados dependem da experiência do pesquisador com cada método, da escolha dos conjuntos de dados e do critério de avaliação usado.³⁴⁶
Diferenças pequenas em acurácia frequentemente desaparecem quando se consideram incertezas reais de aplicação.³⁴⁶

42.4 Principais algoritmos

42.4.1 Quais são os principais algoritmos de aprendizado de máquina?

Modelos de regressão não penalizados, modelos de regressão penalizados, modelos baseados em árvores, modelos baseados em vizinhos, redes neurais, máquinas de vetores de suporte, Naive Bayes e ensembles do tipo Superlearner.³⁴⁷
Do ponto de vista matemático, redes neurais não contradizem a estatística clássica; elas a estendem, substituindo modelos explícitos por representações aprendidas.^REF?

Modelos de regressão	Redes neurais artificiais	Papel conceitual
Variável preditora (x)	Neurônio de entrada	Informação observada fornecida ao modelo
Coeficiente (β)	Peso (w)	Intensidade e direção da influência da variável
Intercepto (β₀)	Viés (b)	Deslocamento da fronteira de decisão
Combinação linear (β₀ + Σ βᵢxᵢ)	Soma ponderada (Σ wᵢxᵢ + b)	Agregação das entradas antes da não linearidade
Função de ligação (link)	Função de ativação	Introdução de não linearidade
Regressão linear	Neurônio linear	Modelo puramente linear
Regressão logística	Perceptron com ativação sigmoide	Classificação binária probabilística
Log-odds	Entrada da função sigmoide	Escala interna antes da probabilidade
Predição (ŷ)	Saída do neurônio	Resposta estimada do modelo
Função de perda	Função de perda (loss)	Quantificação do erro de predição
Máxima verossimilhança	Otimização da função de perda	Ajuste dos parâmetros do modelo
Gradiente da verossimilhança	Retropropagação (backpropagation)	Direção de atualização dos parâmetros
Regularização (L1, L2)	Penalização de pesos (weight decay)	Controle de complexidade e overfitting
Interações explícitas	Interações aprendidas implicitamente	Modelagem de efeitos combinados
Modelo interpretável	Modelo geralmente opaco	Trade-off entre interpretação e flexibilidade

42.5 Regressão logística

42.5.1 O que é regressão logística?

Modelos logísticos são casos de regressão linear generalizada em que a resposta \(Y\) é binária.³¹⁰
A equação (34.5) modela a razão de chances (odds) em função dos preditores.³¹⁰

\[\begin{equation} \tag{34.5} \log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1 X + ... + \beta_n X_n \end{equation}\]

A ligação (link) usada é o logit (34.6).³¹⁰

\[\begin{equation} \tag{34.6} g(p) = \log\left(\frac{p}{1-p}\right) \end{equation}\]

Figura 42.2: Regressão logística.

42.6 Máquina de vetores de suporte

42.6.1 O que são máquinas de vetores de suporte?

.^REF?

42.7 K-nearest neighbours

42.7.1 O que é K-nearest neighbours?

.^REF?

42.8 K-means Clustering

42.8.1 O que é K-means clustering?

.^REF?

42.9 Árvores de decisão

42.9.1 O que são árvores de decisão?

São modelos de aprendizado supervisionado que dividem os dados em ramos e folhas, representando regras de decisão de forma hierárquica.²⁴³
Podem lidar eficientemente com grandes conjuntos de dados sem pressupor estrutura paramétrica complexa.²⁴²
São aplicáveis a variáveis contínuas e discretas, tanto como preditoras quanto como desfechos.²⁴²

Figura 42.3: Exemplo de árvore de decisão para predizer depressão a partir de idade, tabagismo e sintomas.

42.9.2 Quais são os principais usos de árvores de decisão?

Seleção de variáveis relevantes em cenários com muitos preditores, como registros clínicos eletrônicos.²⁴²
Avaliação da importância relativa das variáveis, com base na redução da pureza dos nós ou da acurácia ao remover variáveis.²⁴²
Tratamento de valores ausentes, seja classificando-os como categoria própria ou imputando-os por previsão dentro da árvore.²⁴²
Predição de novos casos a partir de dados históricos.²⁴²
Manipulação de dados, colapsando categorias muito numerosas ou subdividindo variáveis contínuas assimétricas.²⁴²

42.9.3 Quais são os componentes básicos de uma árvore de decisão?

Nós raiz (ou de decisão): subdividem todos os registros iniciais.²⁴²
Nós internos (ou de chance): representam subdivisões intermediárias.²⁴²
Nós folha (ou finais): resultados finais após sucessivas divisões.²⁴²
Ramos: representam condições “se-então”, ligando nós em sequência até a classificação final.²⁴²

42.9.4 Como funcionam splitting, stopping e pruning?

Splitting: divide registros em subconjuntos mais homogêneos com base em métricas como entropia, índice de Gini e ganho de informação.²⁴²
Stopping: evita árvores excessivamente complexas ao definir parâmetros como número mínimo de registros por nó ou profundidade máxima.²⁴²
Pruning: reduz árvores grandes eliminando ramos pouco informativos, usando validação ou métodos como qui-quadrado.²⁴²

42.9.5 Quais são as vantagens e limitações de árvores de decisão?

Vantagens: simplificam relações complexas; são intuitivas e fáceis de interpretar; não exigem pressupostos de distribuição; lidam bem com valores ausentes e dados enviesados; são robustas a outliers.²⁴²
Limitações: podem sofrer overfitting ou underfitting em amostras pequenas; podem selecionar variáveis correlacionadas sem relação causal real.²⁴²

42.9.6 Espaço de decisão em árvores de decisão vs. regressão logística

A regressão logística assume relações lineares entre variáveis e log-odds.²⁴³
Árvores de decisão permitem capturar relações não lineares e interações de forma automática.²⁴³

Figura 42.4: Comparação entre modelos de regressão logística e árvore de decisão.

O pacote h2o@correctR fornece funções construir modelos de aprendizado de máquina.

O pacote correctR³³⁶ fornece as funções kfold_ttest, repkfold_ttest e resampled_ttest para calcular estatística para comparação de modelos de aprendizado de máquina em amostras dependentes.

O pacote caret@caret fornece um conjunto de funções para pré-processamento, ajuste, avaliação e comparação de modelos de aprendizado de máquina.

O pacote mlr3@mlr3 fornece funções para fluxos de trabalho complexos, incluindo pré-processamento, ajuste de hiperparâmetros e integração com diversos algoritmos.

42.10 Análise de componentes principais

42.10.1 O que é análise de componentes principais?

A análise de componentes principais (Principal Component Analysis, PCA) é uma técnica estatística amplamente utilizada para redução de dimensionalidade, para representar dados de alta dimensão por um conjunto menor de variáveis, preservando o máximo possível da variabilidade original.³⁴⁸
O primeiro componente principal é definido como a direção, de comprimento unitário, que maximiza a variância dos dados projetados. Ele corresponde ao eixo ao longo do qual os dados apresentam a maior dispersão, concentrando a maior quantidade de informação estatística disponível.³⁴⁸
O segundo componente principal é a direção que maximiza a variância restante, sob a condição de ser ortogonal ao primeiro componente. Essa restrição garante que cada novo componente adicione informação nova, não redundante, à representação dos dados.³⁴⁸
Esse procedimento é repetido para os componentes subsequentes, de forma que cada componente principal seja ortogonal aos anteriores e capture a maior variância possível ainda não explicada, resultando em uma ordenação natural dos componentes por importância.³⁴⁸
Ao final do processo, a PCA produz uma base ortogonal que impõe uma geometria específica à representação dos dados, restringindo a forma como os dados podem ser reconstruídos a partir dos componentes principais.³⁴⁸
Embora os componentes principais descrevam de maneira eficiente a variabilidade dos dados, eles nem sempre correspondem aos fatores geradores subjacentes do fenômeno estudado. A PCA pode ainda introduzir padrões artificiais, criando uma aparência de estrutura que não reflete necessariamente os processos reais de geração dos dados.³⁴⁸

Figura 42.5: Análise de Componentes Principais (PCA). O PC1 maximiza variância total, mas pode não alinhar com o fator latente real (z1).

O pacote mlr3@mlr3 fornece funções para fluxos de trabalho complexos, incluindo pré-processamento, ajuste de hiperparâmetros e integração com diversos algoritmos.

42.11 Random forests

42.11.1 O que são random forests?

.^REF?

42.12 Ensemble

42.12.1 O que são ensemble?

.^REF?

42.13 Desbalanceamento de classes

42.13.1 O que é desbalanceamento de classes (class imbalance)?

Ocorre quando as classes do desfecho (por exemplo, presença vs. ausência de um evento) não estão igualmente representadas nos dados de treinamento.^REF?

42.13.2 Por que o desbalanceamento é um problema?

Modelos podem aprender a priorizar a classe mais frequente, obtendo alta acurácia global, mas baixo desempenho para a classe minoritária.^REF?
Isso pode comprometer métricas como sensibilidade, especificidade e, em alguns casos, a calibração.^REF?

42.13.3 Quais são as abordagens mais comuns para lidar com desbalanceamento de classes?

Reamostragem aleatória: superamostragem da classe minoritária; subamostragem da classe majoritária).^REF?
Ajuste de pesos: penaliza mais os erros na classe menos frequente.^REF?
Alteração do limiar de decisão: muda o ponto de corte de probabilidade para otimizar métricas específicas.^REF?

42.13.4 Qual é o impacto do desbalanceamento de classes na calibração de modelos?

Corrigir o desbalanceamento de classes nem sempre melhora a calibração e, em alguns casos, pode piorá-la.³⁴⁹
Em simulações computacionais, modelos sem correção tiveram calibração igual ou superior aos corrigidos.³⁴⁹
A piora observada foi caracterizada por superestimação do risco, nem sempre reversível com re-calibração.³⁴⁹

Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,

Referências

242.

Song YY, Lu Y. Decision tree methods: applications for classification and prediction. Shanghai archives of psychiatry. 2015;27(2):130–135. doi:10.11919/j.issn.1002-0829.215044

243.

Hozo I, Guyatt G, Djulbegovic B. Decision curve analysis based on summary data. Journal of Evaluation in Clinical Practice. 2023;30(2):281–289. doi:10.1111/jep.13945

310.

Fernandes AAT, Figueiredo Filho DB, Rocha EC da, Nascimento W da S. Read this paper if you want to learn logistic regression. Revista de Sociologia e Política. 2020;28(74). doi:10.1590/1678-987320287406en

336.

Henderson T. correctR: Corrected Test Statistics for Comparing Machine Learning Models on Correlated Samples.; 2025. https://CRAN.R-project.org/package=correctR.

344.

Burger T. Keeping generative artificial intelligence reliable in omics biology. Patterns. 2026;7(1):101417. doi:10.1016/j.patter.2025.101417

345.

Korkmaz S, Goksuluk D, Karaismailoglu E. fastml: Guarded Resampling Workflows for Safe and Automated Machine Learning in R.; 2026. doi:10.32614/CRAN.package.fastml

346.

Hand DJ. Classifier Technology and the Illusion of Progress. Statistical Science. 2006;21(1). doi:10.1214/088342306000000060

347.

Andaur Navarro CL, Damen JAA, Smeden M van, et al. Systematic review identifies the design and methodological conduct of studies on machine learning-based prediction models. Journal of Clinical Epidemiology. 2023;154:8–22. doi:10.1016/j.jclinepi.2022.11.015

348.

Dyer EL, Kording K. Why the simplest explanation isn’t always the best. Proceedings of the National Academy of Sciences. 2023;120(52). doi:10.1073/pnas.2319169120

349.

Carriero A, Luijken K, Hond A de, Moons KGM, Calster B van, Smeden M van. The Harms of Class Imbalance Corrections for Machine Learning Based Prediction Models: A Simulation Study. Statistics in Medicine. 2025;44(3-4). doi:10.1002/sim.10320