Capítulo 22 Análise robusta


22.1 Raciocínio inferencial robusto


22.1.1 O que é análise robusta?

  • Análise robusta é uma abordagem estatística que busca fornecer resultados confiáveis mesmo quando as suposições clássicas dos modelos estatísticos são violadas, como normalidade e homocedasticidade. Ela utiliza métodos que são menos sensíveis a outliers e outras irregularidades nos dados.227


22.1.2 Por que usar análise robusta?

  • Métodos clássicos como ANOVA e regressão por mínimos quadrados assumem normalidade e homocedasticidade — suposições frequentemente violadas na prática. Violações dessas suposições podem comprometer os resultados, reduzindo o poder estatístico, distorcendo os intervalos de confiança e obscurecendo as reais diferenças entre grupos.227

  • Testar previamente as suposições não é suficiente: testes de homocedasticidade têm baixo poder e não garantem segurança analítica.227

  • Métodos estatísticos robustos oferecem uma solução mais segura e eficaz, lidando melhor com dados não ideais.227


22.1.3 Quando usar análise robusta?


  • Em alguns casos, os métodos robustos confirmam os resultados clássicos; em outros, revelam interpretações completamente diferentes. A única forma de saber o impacto real dos métodos robustos é usá-los e comparar com os métodos tradicionais.227

  • Mínimos e máximos são parâmetros descritivos, mas em certas condições podem se tornar discrepantes ou influentes, distorcendo análises. Nesses casos, a análise robusta oferece alternativas mais seguras.REF?


22.1.4 Por que métodos robustos são preferíveis?

  • Métodos robustos têm a vantagem de resistir à influência de valores extremos, fornecendo medidas de posição e dispersão mais estáveis.226

  • Estimadores robustos oferecem maior segurança na presença de até 50% de contaminação nos dados, o que representa um ganho significativo em relação aos métodos clássicos.226


22.2 Valores discrepantes


22.2.1 O que são valores discrepantes (outliers)?

  • Em termos gerais, um valor discrepante - “fora da curva” ou outlier - é uma observação que possui um valor relativamente grande ou pequeno em comparação com a maioria das observações.178

  • Um valor discrepante é uma observação incomum que exerce influência indevida em uma análise.178

  • Valores discrepantes são dados com valores altos de resíduos.224

  • Nem todo valor extremo é um valor discrepante, e nem todo valor discrepante será influente.REF?

  • Alguns valores discrepantes são apenas pontos incomuns, outros de fato mudam os resultados e por isso são chamados de influentes.REF?


Regressão linear com valores discrepantes

Figura 22.1: Regressão linear com valores discrepantes


22.2.2 Quais são os tipos de valores discrepantes?

  • Valores discrepantes podem ser categorizados em três subtipos: outliers de erro, outliers interessantes e outliers aleatórios.224

  • Os valores discrepantes de erro são observações claramente não legítimas, distantes de outros dados devido a imprecisões por erro de mensuração e/ou codificação.224

  • Os valores discrepantes interessantes não são claramente erros, mas podem refletir um processo/mecanismo potencialmente interessante para futuras pesquisas.224

  • Os valores discrepantes aleatórios são observações que resultam por acaso, sem qualquer padrão ou tendência conhecida.224

  • Valores discrepantes podem ser univariados ou multivariados.224


22.2.3 Por que é importante avaliar valores discrepantes?

  • Excluir o valor discrepante implica em reduzir inadequadamente a variância, ao remover um valor que de fato pertence à distribuição considerada.224

  • Manter os dados inalterados (mantendo o valor discrepante) implica em aumentar inadequadamente a variância, pois a observação não pertence à distribuição que fundamenta o experimento.224

  • Em ambos os casos, uma decisão errada pode influenciar o erro do tipo I (\(\alpha\) — rejeitar uma hipótese verdadeira) ou o erro do tipo II (\(\beta\) — não rejeitar uma hipótese falsa).224


22.2.4 Como detectar valores discrepantes?

  • Na maioria das vezes, não há como saber de qual distribuição uma observação provém. Por isso, não é possível ter certeza se um valor é legítimo ou não dentro do contexto do experimento.224

  • Recomenda-se seguir um procedimento em duas etapas: detectar possíveis candidatos a outliers usando ferramentas quantitativas; e gerenciar os outliers, decidindo manter, remover ou recodificar os valores, com base em informações qualitativas.224

  • A detecção de outliers deve ser aplicada apenas uma vez no conjunto de dados; um erro comum é identificar e tratar os outliers (como remover ou recodificar) e, em seguida, reaplicar o procedimento no conjunto de dados já modificado.224

  • A detecção ou o tratamento dos outliers não deve ser realizada após a análise dos resultados, pois isso introduz viés nos resultados.224


22.2.5 Quais são os métodos para detectar valores discrepantes?

  • Valores univariados são comumente considerados outliers quando são mais extremos do que a média ± (desvio padrão × constante), podenso essa constante ser 3 (99,7% das observações estão dentro de 3 desvios-padrão da média) ou 3,29 (99,9% estão dentro de 3,29 desvios-padrão).224

  • Para detectar outliers univariados, recomenda-se o uso da Mediana da Desviação Absoluta (Median Absolute Deviation, MAD), calculado a partir de um intervalo em torno da mediana, multiplicado por uma constante (valor padrão: 1,4826).224,228

  • Para detectar outliers multivariados, comumente utiliza-se a distância de Mahalanobis, que identifica valores muito distantes do centróide formado pela maioria dos dados (por exemplo, 99%).224

  • Para detectar outliers multivariados, recomenda-se o Determinante de Mínima Covariância (Minimum Covariance Determinant, MCD), pois possui o maior ponto de quebra possível e utiliza a mediana, que é o indicador mais robusto em presença de outliers.224,229


22.2.6 Quais testes são apropriados para detectar valores discrepantes?

  • A escolha do método de detecção depende da natureza do outlier, se univariado ou multivariado.226

  • Para valores univariados, podem ser usados box-plots (com pontos além de 1,5 vezes o intervalo interquartílico), z-scores clássicos (\(|z| > 2.5\) ou \(|z| > 3\)) ou z-scores robustos, que substituem média por mediana e desvio-padrão por estimadores robustos.226

  • Para valores multivariados, recomenda-se a distância de Mahalanobis para medir o afastamento em relação ao centróide, com ajustes robustos de covariância como MCD (Minimum Covariance Determinant) ou MVE (Minimum Volume Ellipsoid).226

  • Técnicas baseadas em PCA robusta (ROBPCA, PP-PCA, SPCA, EPCA) também podem ser aplicadas para reduzir dimensionalidade e expor outliers mascarados.226

  • Métodos de trimming multivariado (MVT) podem iterativamente remover observações mais distantes, mas apresentam limitações em alta dimensionalidade.226

  • Estimadores com alto ponto de quebra, como o MCD, permitem detectar até 50% de outliers antes de comprometer a análise.226


22.2.7 Como manejar os valores discrepantes?

  • Manter outliers pode ser uma boa decisão se a maioria desses valores realmente pertence à distribuição de interesse. Manter outliers que pertencem a uma distribuição alternativa pode ser problemático, pois um teste pode se tornar significativo apenas por causa de um ou poucos outliers.224

  • Remover outliers pode ser eficaz quando eles distorcem a estimativa dos parâmetros da distribuição. Remover outliers que pertencem legitimamente à distribuição pode reduzir artificialmente a estimativa do erro.224

  • Remover outliers leva à perda de observações, especialmente em conjuntos de dados com muitas variáveis, quando outliers univariados são excluídos em cada variável.224

  • Recodificar outliers evita a perda de uma grande quantidade de dados, mas deve ser baseada em argumentos razoáveis e convincentes.224

  • Erros de observação e de medição são uma justificativa válida para descartar observações discrepantes.178


22.2.8 Como conduzir análises com valores discrepantes?

  • É importante reportar se existem valores discrepantes e como foram tratados.178

  • Valores discrepantes na variável de desfecho podem exigir uma abordagem mais refinada, especialmente quando representam uma variação real na variável que está sendo medida.178

  • Valores discrepantes em uma (co)variável podem surgir devido a um projeto experimental inadequado; nesse caso, abandonar a observação ou transformar a covariável são opções adequadas.178

  • Valores discrepantes podem ser recodificados usando a Winsorização,230 que transforma os outliers em valores de percentis específicos (como o 5º e o 95º).224




22.3 Valores influentes


22.3.1 O que são valores influentes?

  • Valores influentes são observações que, se removidas, causariam uma mudança significativa nos resultados da análise estatística.REF?


Code
# Reprodutibilidade
set.seed(123)

# 1) Dados "normais"
n <- 100
X <- rnorm(n, mean = 50, sd = 10)
Y <- 5 + 2 * X + rnorm(n, mean = 0, sd = 5)
data <- data.frame(X, Y, is_extreme = FALSE)

# 2) Injeta valores extremos
#   a) Outliers verticais
X_ext1 <- rnorm(5, mean = 50, sd = 10)
Y_ext1 <- 5 + 2 * X_ext1 + rnorm(5, mean = 0, sd = 25) + 60

#   b) Alta alavancagem
X_ext2 <- c(5, 95, 110, -10, 120)
Y_ext2 <- 5 + 2 * X_ext2 + rnorm(5, mean = 0, sd = 5)

data_ext <- rbind(
  data,
  data.frame(X = X_ext1, Y = Y_ext1, is_extreme = TRUE),
  data.frame(X = X_ext2, Y = Y_ext2, is_extreme = TRUE)
)

# 3) Ajuste do modelo
model <- lm(Y ~ X, data = data_ext)

# 4) Diagnósticos
data_ext$cook_d <- cooks.distance(model)

# Regra prática: Cook > 4/n
thr_cook <- 4 / nrow(data_ext)
data_ext$influente <- data_ext$cook_d > thr_cook

# Classificação apenas em "Normal" e "Influente (Cook)"
data_ext$classe <- ifelse(data_ext$influente,
                          "Influente (Cook)",
                          "Normal")

# 5) Gráfico
ggplot2::ggplot(data_ext, ggplot2::aes(x = X, y = Y)) +
  ggplot2::geom_point(ggplot2::aes(color = classe), size = 2.4) +
  ggplot2::geom_smooth(method = "lm", se = FALSE, color = "blue") +
  ggplot2::scale_color_manual(
    values = c(
      "Normal" = "grey30",
      "Influente (Cook)" = "orange"
    ),
    breaks = c("Normal", "Influente (Cook)")
  ) +
  ggplot2::labs(
    title = "Regressão linear com valores influentes",
    subtitle = paste0("Influente = Cook > ", round(thr_cook, 3)),
    x = "Variável Independente (X)",
    y = "Variável Dependente (Y)",
    color = "Classificação"
  ) +
  ggplot2::theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'


22.3.2 O que é função de influência?

  • A função de influência mede a sensibilidade de um estimador a pequenas contaminações nos dados. Um estimador é considerado robusto se sua função de influência for limitada, indicando que valores extremos não exercem impacto desproporcional.232


22.3.3 O que é ponto de quebra?

  • O ponto de quebra representa a fração mínima de observações contaminadas necessária para distorcer um estimador até o infinito. Por exemplo, a média tem ponto de quebra 0, enquanto a mediana atinge o ponto de quebra máximo (50%).232


22.3.4 Como detectar valores influentes?

  • A alavancagem (leverage) mede o quão distante uma observação está dos valores médios das variáveis independentes. Observações com alta alavancagem têm o potencial de influenciar significativamente a linha de regressão.REF?


Alavancagem vs Resíduos Padronizados com distância de Cook para análise da influência de pontos.

Figura 22.2: Alavancagem vs Resíduos Padronizados com distância de Cook para análise da influência de pontos.


22.4 Métodos robustos de tratamento de outliers


22.4.1 O que é Winsorização?

  • Winsorização é uma técnica que substitui os valores extremos (outliers) por valores menos extremos, preservando a estrutura dos dados. Isso é feito definindo limites superior e inferior e substituindo os valores que ultrapassam esses limites pelos próprios limites.227


22.4.2 Quais são as alternativas à Winsorização?

  • Podar (trimming): remove diretamente uma fração fixa das observações mais extremas.REF?

  • Estimadores robustos (M, S, MM): resistem à influência de outliers sem transformar os dados.REF?

  • Transformações de variáveis: reduzem a assimetria e impacto de valores extremos, mas mudam a escala interpretativa.REF?







Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,


Referências

178.
Zuur AF, Ieno EN, Elphick CS. A protocol for data exploration to avoid common statistical problems. Methods in Ecology and Evolution. 2009;1(1):3–14. doi:10.1111/j.2041-210x.2009.00001.x
224.
Leys C, Delacre M, Mora YL, Lakens D, Ley C. How to Classify, Detect, and Manage Univariate and Multivariate Outliers, With Emphasis on Pre-Registration. International Review of Social Psychology. 2019;32(1). doi:10.5334/irsp.289
226.
Daszykowski M, Kaczmarek K, Vander Heyden Y, Walczak B. Robust statistics in data analysis A review. Chemometrics and Intelligent Laboratory Systems. 2007;85(2):203–219. doi:10.1016/j.chemolab.2006.06.016
227.
Mair P, Wilcox R. Robust Statistical Methods in R Using the WRS2 Package. Behavior Research Methods. 2020;52:464--488. doi:10.3758/s13428-019-01246-w
228.
Leys C, Ley C, Klein O, Bernard P, Licata L. Detecting outliers: Do not use standard deviation around the mean, use absolute deviation around the median. Journal of Experimental Social Psychology. 2013;49(4):764–766. doi:10.1016/j.jesp.2013.03.013
229.
Leys C, Klein O, Dominicy Y, Ley C. Detecting multivariate outliers: Use a robust variant of the Mahalanobis distance. Journal of Experimental Social Psychology. 2018;74:150–156. doi:10.1016/j.jesp.2017.09.011
230.
Tukey JW, McLaughlin DH. Less Vulnerable Confidence and Significance Procedures for Location Based on a Single Sample: Trimming/Winsorization 1. Sankhyā: The Indian Journal of Statistics, Series A (1961-2002). 1963;25(3):331–352. http://www.jstor.org/stable/25049278. Acessado abril 11, 2025.
231.
Komsta L. outliers: Tests for Outliers.; 2022. https://CRAN.R-project.org/package=outliers.
232.
Loh PL. A Theoretical Review of Modern Robust Statistics. Annual Review of Statistics and Its Application. 2025;12(1):477–496. doi:10.1146/annurev-statistics-112723-034446
233.
Mair P, Wilcox R, Indrajeet P. A Collection of Robust Statistical Methods.; 2025. https://CRAN.R-project.org/package=WRS2.