Capítulo 39 Aprendizado de máquina
39.1 Aprendizado de máquina
39.1.1 O que é aprendizado de máquina?
- .REF?
Figura 39.1: Mapa mental de algoritmos de aprendizado de máquina.
39.2 Tipos de aprendizado
39.2.6 Quais são os limites do progresso em classificadores supervisionados?
Os maiores ganhos de acurácia vêm de modelos simples, como análise discriminante linear; métodos mais sofisticados oferecem apenas ganhos marginais.331
O aumento da complexidade do modelo traz retornos decrescentes em termos de redução da taxa de erro.331
39.2.7 Quais problemas práticos limitam a generalização de classificadores?
Population drift: mudanças na distribuição dos dados ao longo do tempo degradam a performance de modelos.331
Sample selectivity bias: amostras de treino podem não representar a população futura, levando a superestimação de desempenho.331
Erros de rótulo e definições arbitrárias de classes comprometem a validade dos modelos.331
39.2.8 Por que estudos comparativos entre classificadores podem ser enganosos?
Resultados dependem da experiência do pesquisador com cada método, da escolha dos conjuntos de dados e do critério de avaliação usado.331
Diferenças pequenas em acurácia frequentemente desaparecem quando se consideram incertezas reais de aplicação.331
39.3 Principais algoritmos
39.3.1 Quais são os principais algoritmos de aprendizado de máquina?
- Modelos de regressão não penalizados, modelos de regressão penalizados, modelos baseados em árvores, modelos baseados em vizinhos, redes neurais, máquinas de vetores de suporte, Naive Bayes e ensembles do tipo Superlearner.332
39.8 Árvores de decisão
39.8.1 O que são árvores de decisão?
São modelos de aprendizado supervisionado que dividem os dados em ramos e folhas, representando regras de decisão de forma hierárquica.239
Podem lidar eficientemente com grandes conjuntos de dados sem pressupor estrutura paramétrica complexa.238
São aplicáveis a variáveis contínuas e discretas, tanto como preditoras quanto como desfechos.238
Figura 39.2: Exemplo de árvore de decisão para predizer depressão a partir de idade, tabagismo e sintomas.
39.8.2 Quais são os principais usos de árvores de decisão?
Seleção de variáveis relevantes em cenários com muitos preditores, como registros clínicos eletrônicos.238
Avaliação da importância relativa das variáveis, com base na redução da pureza dos nós ou da acurácia ao remover variáveis.238
Tratamento de valores ausentes, seja classificando-os como categoria própria ou imputando-os por previsão dentro da árvore.238
Predição de novos casos a partir de dados históricos.238
Manipulação de dados, colapsando categorias muito numerosas ou subdividindo variáveis contínuas assimétricas.238
39.8.3 Quais são os componentes básicos de uma árvore de decisão?
Nós raiz (ou de decisão): subdividem todos os registros iniciais.238
Nós internos (ou de chance): representam subdivisões intermediárias.238
Nós folha (ou finais): resultados finais após sucessivas divisões.238
Ramos: representam condições “se-então”, ligando nós em sequência até a classificação final.238
39.8.4 Como funcionam splitting, stopping e pruning?
Splitting: divide registros em subconjuntos mais homogêneos com base em métricas como entropia, índice de Gini e ganho de informação.238
Stopping: evita árvores excessivamente complexas ao definir parâmetros como número mínimo de registros por nó ou profundidade máxima.238
Pruning: reduz árvores grandes eliminando ramos pouco informativos, usando validação ou métodos como qui-quadrado.238
39.8.5 Quais são as vantagens e limitações de árvores de decisão?
Vantagens: simplificam relações complexas; são intuitivas e fáceis de interpretar; não exigem pressupostos de distribuição; lidam bem com valores ausentes e dados enviesados; são robustas a outliers.238
Limitações: podem sofrer overfitting ou underfitting em amostras pequenas; podem selecionar variáveis correlacionadas sem relação causal real.238
39.8.6 Espaço de decisão em árvores de decisão vs. regressão logística
A regressão logística assume relações lineares entre variáveis e log-odds.239
Árvores de decisão permitem capturar relações não lineares e interações de forma automática.239
Figura 39.3: Comparação entre modelos de regressão logística e árvore de decisão.
O pacote h2o@correctR fornece funções construir modelos de aprendizado de máquina.
O pacote correctR323 fornece as funções kfold_ttest, repkfold_ttest e resampled_ttest para calcular estatística para comparação de modelos de aprendizado de máquina em amostras dependentes.
O pacote caret@caret fornece um conjunto de funções para pré-processamento, ajuste, avaliação e comparação de modelos de aprendizado de máquina.
O pacote mlr3@mlr3 fornece funções para fluxos de trabalho complexos, incluindo pré-processamento, ajuste de hiperparâmetros e integração com diversos algoritmos.
39.12 Desbalanceamento de classes
39.12.1 O que é desbalanceamento de classes (class imbalance)?
- Ocorre quando as classes do desfecho (por exemplo, presença vs. ausência de um evento) não estão igualmente representadas nos dados de treinamento.REF?
39.12.2 Por que o desbalanceamento é um problema?
Modelos podem aprender a priorizar a classe mais frequente, obtendo alta acurácia global, mas baixo desempenho para a classe minoritária.REF?
Isso pode comprometer métricas como sensibilidade, especificidade e, em alguns casos, a calibração.REF?
39.12.3 Quais são as abordagens mais comuns para lidar com desbalanceamento de classes?
Reamostragem aleatória: superamostragem da classe minoritária; subamostragem da classe majoritária).REF?
Ajuste de pesos: penaliza mais os erros na classe menos frequente.REF?
Alteração do limiar de decisão: muda o ponto de corte de probabilidade para otimizar métricas específicas.REF?
39.12.4 Qual é o impacto do desbalanceamento de classes na calibração de modelos?
Corrigir o desbalanceamento de classes nem sempre melhora a calibração e, em alguns casos, pode piorá-la.333
Em simulações computacionais, modelos sem correção tiveram calibração igual ou superior aos corrigidos.333
A piora observada foi caracterizada por superestimação do risco, nem sempre reversível com re-calibração.333
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,