Capítulo 22 Análise robusta

22.1 Raciocínio inferencial robusto

22.1.1 O que é análise robusta?

Análise robusta é uma abordagem estatística que busca fornecer resultados confiáveis mesmo quando as suposições clássicas dos modelos estatísticos são violadas, como normalidade e homocedasticidade. Ela utiliza métodos que são menos sensíveis a outliers e outras irregularidades nos dados.²²⁷

22.1.2 Por que usar análise robusta?

Métodos clássicos como ANOVA e regressão por mínimos quadrados assumem normalidade e homocedasticidade — suposições frequentemente violadas na prática. Violações dessas suposições podem comprometer os resultados, reduzindo o poder estatístico, distorcendo os intervalos de confiança e obscurecendo as reais diferenças entre grupos.²²⁷
Testar previamente as suposições não é suficiente: testes de homocedasticidade têm baixo poder e não garantem segurança analítica.²²⁷
Métodos estatísticos robustos oferecem uma solução mais segura e eficaz, lidando melhor com dados não ideais.²²⁷

22.1.3 Quando usar análise robusta?

Em alguns casos, os métodos robustos confirmam os resultados clássicos; em outros, revelam interpretações completamente diferentes. A única forma de saber o impacto real dos métodos robustos é usá-los e comparar com os métodos tradicionais.²²⁷
Mínimos e máximos são parâmetros descritivos, mas em certas condições podem se tornar discrepantes ou influentes, distorcendo análises. Nesses casos, a análise robusta oferece alternativas mais seguras.^REF?

22.1.4 Por que métodos robustos são preferíveis?

Métodos robustos têm a vantagem de resistir à influência de valores extremos, fornecendo medidas de posição e dispersão mais estáveis.²²⁶
Estimadores robustos oferecem maior segurança na presença de até 50% de contaminação nos dados, o que representa um ganho significativo em relação aos métodos clássicos.²²⁶

22.2 Valores discrepantes

22.2.1 O que são valores discrepantes (outliers)?

Em termos gerais, um valor discrepante - “fora da curva” ou outlier - é uma observação que possui um valor relativamente grande ou pequeno em comparação com a maioria das observações.¹⁷⁸
Um valor discrepante é uma observação incomum que exerce influência indevida em uma análise.¹⁷⁸
Valores discrepantes são dados com valores altos de resíduos.²²⁴
Nem todo valor extremo é um valor discrepante, e nem todo valor discrepante será influente.^REF?
Alguns valores discrepantes são apenas pontos incomuns, outros de fato mudam os resultados e por isso são chamados de influentes.^REF?

Figura 22.1: Regressão linear com valores discrepantes

22.2.2 Quais são os tipos de valores discrepantes?

Valores discrepantes podem ser categorizados em três subtipos: outliers de erro, outliers interessantes e outliers aleatórios.²²⁴
Os valores discrepantes de erro são observações claramente não legítimas, distantes de outros dados devido a imprecisões por erro de mensuração e/ou codificação.²²⁴
Os valores discrepantes interessantes não são claramente erros, mas podem refletir um processo/mecanismo potencialmente interessante para futuras pesquisas.²²⁴
Os valores discrepantes aleatórios são observações que resultam por acaso, sem qualquer padrão ou tendência conhecida.²²⁴
Valores discrepantes podem ser univariados ou multivariados.²²⁴

22.2.3 Por que é importante avaliar valores discrepantes?

Excluir o valor discrepante implica em reduzir inadequadamente a variância, ao remover um valor que de fato pertence à distribuição considerada.²²⁴
Manter os dados inalterados (mantendo o valor discrepante) implica em aumentar inadequadamente a variância, pois a observação não pertence à distribuição que fundamenta o experimento.²²⁴
Em ambos os casos, uma decisão errada pode influenciar o erro do tipo I (\(\alpha\) — rejeitar uma hipótese verdadeira) ou o erro do tipo II (\(\beta\) — não rejeitar uma hipótese falsa).²²⁴

22.2.4 Como detectar valores discrepantes?

Na maioria das vezes, não há como saber de qual distribuição uma observação provém. Por isso, não é possível ter certeza se um valor é legítimo ou não dentro do contexto do experimento.²²⁴
Recomenda-se seguir um procedimento em duas etapas: detectar possíveis candidatos a outliers usando ferramentas quantitativas; e gerenciar os outliers, decidindo manter, remover ou recodificar os valores, com base em informações qualitativas.²²⁴
A detecção de outliers deve ser aplicada apenas uma vez no conjunto de dados; um erro comum é identificar e tratar os outliers (como remover ou recodificar) e, em seguida, reaplicar o procedimento no conjunto de dados já modificado.²²⁴
A detecção ou o tratamento dos outliers não deve ser realizada após a análise dos resultados, pois isso introduz viés nos resultados.²²⁴

22.2.5 Quais são os métodos para detectar valores discrepantes?

Valores univariados são comumente considerados outliers quando são mais extremos do que a média ± (desvio padrão × constante), podenso essa constante ser 3 (99,7% das observações estão dentro de 3 desvios-padrão da média) ou 3,29 (99,9% estão dentro de 3,29 desvios-padrão).²²⁴
Para detectar outliers univariados, recomenda-se o uso da Mediana da Desviação Absoluta (Median Absolute Deviation, MAD), calculado a partir de um intervalo em torno da mediana, multiplicado por uma constante (valor padrão: 1,4826).^224,228
Para detectar outliers multivariados, comumente utiliza-se a distância de Mahalanobis, que identifica valores muito distantes do centróide formado pela maioria dos dados (por exemplo, 99%).²²⁴
Para detectar outliers multivariados, recomenda-se o Determinante de Mínima Covariância (Minimum Covariance Determinant, MCD), pois possui o maior ponto de quebra possível e utiliza a mediana, que é o indicador mais robusto em presença de outliers.^224,229

22.2.6 Quais testes são apropriados para detectar valores discrepantes?

A escolha do método de detecção depende da natureza do outlier, se univariado ou multivariado.²²⁶
Para valores univariados, podem ser usados box-plots (com pontos além de 1,5 vezes o intervalo interquartílico), z-scores clássicos (\(|z| > 2.5\) ou \(|z| > 3\)) ou z-scores robustos, que substituem média por mediana e desvio-padrão por estimadores robustos.²²⁶
Para valores multivariados, recomenda-se a distância de Mahalanobis para medir o afastamento em relação ao centróide, com ajustes robustos de covariância como MCD (Minimum Covariance Determinant) ou MVE (Minimum Volume Ellipsoid).²²⁶
Técnicas baseadas em PCA robusta (ROBPCA, PP-PCA, SPCA, EPCA) também podem ser aplicadas para reduzir dimensionalidade e expor outliers mascarados.²²⁶
Métodos de trimming multivariado (MVT) podem iterativamente remover observações mais distantes, mas apresentam limitações em alta dimensionalidade.²²⁶
Estimadores com alto ponto de quebra, como o MCD, permitem detectar até 50% de outliers antes de comprometer a análise.²²⁶

22.2.7 Como manejar os valores discrepantes?

Manter outliers pode ser uma boa decisão se a maioria desses valores realmente pertence à distribuição de interesse. Manter outliers que pertencem a uma distribuição alternativa pode ser problemático, pois um teste pode se tornar significativo apenas por causa de um ou poucos outliers.²²⁴
Remover outliers pode ser eficaz quando eles distorcem a estimativa dos parâmetros da distribuição. Remover outliers que pertencem legitimamente à distribuição pode reduzir artificialmente a estimativa do erro.²²⁴
Remover outliers leva à perda de observações, especialmente em conjuntos de dados com muitas variáveis, quando outliers univariados são excluídos em cada variável.²²⁴
Recodificar outliers evita a perda de uma grande quantidade de dados, mas deve ser baseada em argumentos razoáveis e convincentes.²²⁴
Erros de observação e de medição são uma justificativa válida para descartar observações discrepantes.¹⁷⁸

22.2.8 Como conduzir análises com valores discrepantes?

É importante reportar se existem valores discrepantes e como foram tratados.¹⁷⁸
Valores discrepantes na variável de desfecho podem exigir uma abordagem mais refinada, especialmente quando representam uma variação real na variável que está sendo medida.¹⁷⁸
Valores discrepantes em uma (co)variável podem surgir devido a um projeto experimental inadequado; nesse caso, abandonar a observação ou transformar a covariável são opções adequadas.¹⁷⁸
Valores discrepantes podem ser recodificados usando a Winsorização,²³⁰ que transforma os outliers em valores de percentis específicos (como o 5º e o 95º).²²⁴

O pacote outliers²³¹ fornece a função outlier para identificar os valores mais distantes da média.

O pacote outliers²³¹ fornece a função rm.outlier para remover os valores mais distantes da média detectados por testes de hipótese e/ou substitui-los pela média ou mediana.

22.3 Valores influentes

22.3.1 O que são valores influentes?

Valores influentes são observações que, se removidas, causariam uma mudança significativa nos resultados da análise estatística.^REF?

Code

# Reprodutibilidade
set.seed(123)

# 1) Dados "normais"
n <- 100
X <- rnorm(n, mean = 50, sd = 10)
Y <- 5 + 2 * X + rnorm(n, mean = 0, sd = 5)
data <- data.frame(X, Y, is_extreme = FALSE)

# 2) Injeta valores extremos
#   a) Outliers verticais
X_ext1 <- rnorm(5, mean = 50, sd = 10)
Y_ext1 <- 5 + 2 * X_ext1 + rnorm(5, mean = 0, sd = 25) + 60

#   b) Alta alavancagem
X_ext2 <- c(5, 95, 110, -10, 120)
Y_ext2 <- 5 + 2 * X_ext2 + rnorm(5, mean = 0, sd = 5)

data_ext <- rbind(
  data,
  data.frame(X = X_ext1, Y = Y_ext1, is_extreme = TRUE),
  data.frame(X = X_ext2, Y = Y_ext2, is_extreme = TRUE)
)

# 3) Ajuste do modelo
model <- lm(Y ~ X, data = data_ext)

# 4) Diagnósticos
data_ext$cook_d <- cooks.distance(model)

# Regra prática: Cook > 4/n
thr_cook <- 4 / nrow(data_ext)
data_ext$influente <- data_ext$cook_d > thr_cook

# Classificação apenas em "Normal" e "Influente (Cook)"
data_ext$classe <- ifelse(data_ext$influente,
                          "Influente (Cook)",
                          "Normal")

# 5) Gráfico
ggplot2::ggplot(data_ext, ggplot2::aes(x = X, y = Y)) +
  ggplot2::geom_point(ggplot2::aes(color = classe), size = 2.4) +
  ggplot2::geom_smooth(method = "lm", se = FALSE, color = "blue") +
  ggplot2::scale_color_manual(
    values = c(
      "Normal" = "grey30",
      "Influente (Cook)" = "orange"
    ),
    breaks = c("Normal", "Influente (Cook)")
  ) +
  ggplot2::labs(
    title = "Regressão linear com valores influentes",
    subtitle = paste0("Influente = Cook > ", round(thr_cook, 3)),
    x = "Variável Independente (X)",
    y = "Variável Dependente (Y)",
    color = "Classificação"
  ) +
  ggplot2::theme_minimal()

## `geom_smooth()` using formula = 'y ~ x'

22.3.2 O que é função de influência?

A função de influência mede a sensibilidade de um estimador a pequenas contaminações nos dados. Um estimador é considerado robusto se sua função de influência for limitada, indicando que valores extremos não exercem impacto desproporcional.²³²

22.3.3 O que é ponto de quebra?

O ponto de quebra representa a fração mínima de observações contaminadas necessária para distorcer um estimador até o infinito. Por exemplo, a média tem ponto de quebra 0, enquanto a mediana atinge o ponto de quebra máximo (50%).²³²

22.3.4 Como detectar valores influentes?

A alavancagem (leverage) mede o quão distante uma observação está dos valores médios das variáveis independentes. Observações com alta alavancagem têm o potencial de influenciar significativamente a linha de regressão.^REF?

Figura 22.2: Alavancagem vs Resíduos Padronizados com distância de Cook para análise da influência de pontos.

22.4 Métodos robustos de tratamento de outliers

22.4.1 O que é Winsorização?

Winsorização é uma técnica que substitui os valores extremos (outliers) por valores menos extremos, preservando a estrutura dos dados. Isso é feito definindo limites superior e inferior e substituindo os valores que ultrapassam esses limites pelos próprios limites.²²⁷

22.4.2 Quais são as alternativas à Winsorização?

Podar (trimming): remove diretamente uma fração fixa das observações mais extremas.^REF?
Estimadores robustos (M, S, MM): resistem à influência de outliers sem transformar os dados.^REF?
Transformações de variáveis: reduzem a assimetria e impacto de valores extremos, mas mudam a escala interpretativa.^REF?

O pacote WRS2²³³ fornece as funções winmean e winvar para calcular a média e variância Winsorizadas.

O pacote WRS2²³³ fornece a função yuen para realizar o teste de comparação de Yuen de médias Winsorizadas para amostras independentes ou dependentes.

O pacote WRS2²³³ fornece a função wincor para calcular a correlação Winsorizada.

O pacote WRS2²³³ fornece as funções t1way, t2way e t3way para realizar testes de comparação de médias Winsorizadas para análise de variância para 1, 2 ou 3 fatores, respectivamente.

Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,

Referências

178.

Zuur AF, Ieno EN, Elphick CS. A protocol for data exploration to avoid common statistical problems. Methods in Ecology and Evolution. 2009;1(1):3–14. doi:10.1111/j.2041-210x.2009.00001.x

224.

Leys C, Delacre M, Mora YL, Lakens D, Ley C. How to Classify, Detect, and Manage Univariate and Multivariate Outliers, With Emphasis on Pre-Registration. International Review of Social Psychology. 2019;32(1). doi:10.5334/irsp.289

226.

Daszykowski M, Kaczmarek K, Vander Heyden Y, Walczak B. Robust statistics in data analysis A review. Chemometrics and Intelligent Laboratory Systems. 2007;85(2):203–219. doi:10.1016/j.chemolab.2006.06.016

227.

Mair P, Wilcox R. Robust Statistical Methods in R Using the WRS2 Package. Behavior Research Methods. 2020;52:464--488. doi:10.3758/s13428-019-01246-w

228.

Leys C, Ley C, Klein O, Bernard P, Licata L. Detecting outliers: Do not use standard deviation around the mean, use absolute deviation around the median. Journal of Experimental Social Psychology. 2013;49(4):764–766. doi:10.1016/j.jesp.2013.03.013

229.

Leys C, Klein O, Dominicy Y, Ley C. Detecting multivariate outliers: Use a robust variant of the Mahalanobis distance. Journal of Experimental Social Psychology. 2018;74:150–156. doi:10.1016/j.jesp.2017.09.011

230.

Tukey JW, McLaughlin DH. Less Vulnerable Confidence and Significance Procedures for Location Based on a Single Sample: Trimming/Winsorization 1. Sankhyā: The Indian Journal of Statistics, Series A (1961-2002). 1963;25(3):331–352. http://www.jstor.org/stable/25049278. Acessado abril 11, 2025.

231.

Komsta L. outliers: Tests for Outliers.; 2022. https://CRAN.R-project.org/package=outliers.

232.

Loh PL. A Theoretical Review of Modern Robust Statistics. Annual Review of Statistics and Its Application. 2025;12(1):477–496. doi:10.1146/annurev-statistics-112723-034446

233.

Mair P, Wilcox R, Indrajeet P. A Collection of Robust Statistical Methods.; 2025. https://CRAN.R-project.org/package=WRS2.