Capítulo 8 Paradoxos estatísticos
8.1 Paradoxos
8.1.1 O que são paradoxos estatísticos?
- Paradoxos podem originar da incompreensão ou mal informação da nossa intuição a respeito do fenômeno.74
8.1.2 O que é o paradoxo de Abelson?
Um baixo percentual de variância explicada não implica que o fator causal seja irrelevante. Em processos cumulativos, efeitos pequenos podem produzir consequências grandes.75
Esse paradoxo alerta contra o uso ingênuo de medidas como \(R^2\) ou “% de explicação” para julgar a importância prática de um fator.REF?
| Variável explicativa | Estimativa | IC 95%1 | P-valor |
|---|---|---|---|
| Nível micro — eventos individuais | |||
| Habilidade | 1.527 | -0.229, 3.282 | 0.088 |
| R² (variância explicada) | 0.001 | ||
| Nível macro — resultado acumulado | |||
| Habilidade | 152.675 | 0.918, 304.432 | 0.049 |
| R² (variância explicada) | 0.199 | ||
| 1 IC = Intervalo de confiança | |||
8.1.10 O que é o paradoxo de Meng?
- Big Data: “Quanto maior a quantidade de dados, maior a certeza de que vamos nos enganar”.74
8.1.12 O que é o paradoxo de Simpson?
O paradoxo de Simpson ocorre quando a associação entre duas variáveis \(X\) e \(Y\) desaparece ou mesmo reverte sua direção quando condicionadas em uma terceira variável \(Z\).84,85
Para decisão do paradoxo de Simpson pode-se utilizar o conceito de ‘back-door’, o qual considera os ‘caminhos’ (isto é, associações) no gráfico acíclio direcionado e assegura que todos as associações espúrias do tratamento \(X\) para o desfecho \(Y\) nesse diagrama causal sejam interceptados pela variável \(Z\).86
Dependendo do contexto em que os dados foram obtidos — delineamento do estudo, escolha dos instrumentos e dos tipos de variáveis — a melhor escolha para a análise pode variar entre a análise da população agregada ou da subpopulação desagregada.86
É possível que em alguns contextos nem a análise agregada ou a desagregada podem oferecer a resposta correta, sendo necessário o uso de outras (mais) covariáveis.86
Figura 8.1: Paradoxo de Simpson representado com dados simulados. Os pontos no gráfico representam observações individuais e as linhas de tendência representam as regressões lineares ajustadas para os dados desagregados da população e agregados por subpopulação.
8.1.13 O que é o paradoxo de James-Stein?
O paradoxo de James-Stein mostra que, ao estimar simultaneamente 3 ou mais médias de variáveis normais independentes (com perda quadrática), o estimador “óbvio” \(X_i\) — que é ótimo para cada média isoladamente — deixa de ser ótimo no conjunto, existindo estimadores que têm erro médio total menor.87,88
O resultado é paradoxal porque essa melhoria exige “misturar” as estimativas entre si (como no estimador de James–Stein), introduzindo um viés controlado que reduz o erro global, algo impossível quando \(n \leq 2\).87,88
Figura 8.2: Simulação do paradoxo de Stein. Comparação do erro médio quadrático entre o estimador clássico (média amostral) e o estimador de James-Stein para diferentes números de médias sendo estimadas simultaneamente. Estimadores aparentemente piores localmente podem ser melhores globalmente quando o objetivo é reduzir o erro total.
8.1.25 O que é o paradoxo da Bela Adormecida?
- .REF?
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,