Capítulo 8 Paradoxos estatísticos


8.1 Paradoxos


8.1.1 O que são paradoxos estatísticos?

  • Paradoxos podem originar da incompreensão ou mal informação da nossa intuição a respeito do fenômeno.74


8.1.2 O que é o paradoxo de Abelson?

  • Um baixo percentual de variância explicada não implica que o fator causal seja irrelevante. Em processos cumulativos, efeitos pequenos podem produzir consequências grandes.75

  • Esse paradoxo alerta contra o uso ingênuo de medidas como \(R^2\) ou “% de explicação” para julgar a importância prática de um fator.REF?


Tabela 8.1: Modelo micro (por tentativa): Desempenho ~ Habilidade
Variável explicativa Estimativa IC 95%1 P-valor
Nível micro — eventos individuais
Habilidade 1.527 -0.229, 3.282 0.088
R² (variância explicada) 0.001

Nível macro — resultado acumulado
Habilidade 152.675 0.918, 304.432 0.049
R² (variância explicada) 0.199

1 IC = Intervalo de confiança


8.1.3 O que é o paradoxo de Berkson?


8.1.4 O que é o paradoxo de Ellsberg?


8.1.5 O que é o paradoxo de Freedman?


8.1.6 O que é o paradoxo de Hand?


8.1.7 O que é o paradoxo de Kelley?


8.1.8 O que é o paradoxo de Lindley?


8.1.9 O que é o paradoxo de Lord?


8.1.10 O que é o paradoxo de Meng?

  • Big Data: “Quanto maior a quantidade de dados, maior a certeza de que vamos nos enganar”.74


8.1.11 O que é o paradoxo de Proebsting?


8.1.12 O que é o paradoxo de Simpson?

  • O paradoxo de Simpson ocorre quando a associação entre duas variáveis \(X\) e \(Y\) desaparece ou mesmo reverte sua direção quando condicionadas em uma terceira variável \(Z\).84,85

  • Para decisão do paradoxo de Simpson pode-se utilizar o conceito de ‘back-door’, o qual considera os ‘caminhos’ (isto é, associações) no gráfico acíclio direcionado e assegura que todos as associações espúrias do tratamento \(X\) para o desfecho \(Y\) nesse diagrama causal sejam interceptados pela variável \(Z\).86

  • Dependendo do contexto em que os dados foram obtidos — delineamento do estudo, escolha dos instrumentos e dos tipos de variáveis — a melhor escolha para a análise pode variar entre a análise da população agregada ou da subpopulação desagregada.86

  • É possível que em alguns contextos nem a análise agregada ou a desagregada podem oferecer a resposta correta, sendo necessário o uso de outras (mais) covariáveis.86


Paradoxo de Simpson representado com dados simulados. Os pontos no gráfico representam observações individuais e as linhas de tendência representam as regressões lineares ajustadas para os dados desagregados da população e agregados por subpopulação.

Figura 8.1: Paradoxo de Simpson representado com dados simulados. Os pontos no gráfico representam observações individuais e as linhas de tendência representam as regressões lineares ajustadas para os dados desagregados da população e agregados por subpopulação.


8.1.13 O que é o paradoxo de James-Stein?

  • O paradoxo de James-Stein mostra que, ao estimar simultaneamente 3 ou mais médias de variáveis normais independentes (com perda quadrática), o estimador “óbvio” \(X_i\) — que é ótimo para cada média isoladamente — deixa de ser ótimo no conjunto, existindo estimadores que têm erro médio total menor.87,88

  • O resultado é paradoxal porque essa melhoria exige “misturar” as estimativas entre si (como no estimador de James–Stein), introduzindo um viés controlado que reduz o erro global, algo impossível quando \(n \leq 2\).87,88


Simulação do paradoxo de Stein. Comparação do erro médio quadrático entre o estimador clássico (média amostral) e o estimador de James-Stein para diferentes números de médias sendo estimadas simultaneamente. Estimadores aparentemente piores localmente podem ser melhores globalmente quando o objetivo é reduzir o erro total.

Figura 8.2: Simulação do paradoxo de Stein. Comparação do erro médio quadrático entre o estimador clássico (média amostral) e o estimador de James-Stein para diferentes números de médias sendo estimadas simultaneamente. Estimadores aparentemente piores localmente podem ser melhores globalmente quando o objetivo é reduzir o erro total.


8.1.14 O que é o paradoxo de Okie?


8.1.15 O que é o paradoxo da acurácia?


8.1.16 O que é o paradoxo do falso positivo?


8.1.17 O que é o paradoxo da caixa de Bertrand?


8.1.18 O que é o paradoxo do elevador?


8.1.19 O que é o paradoxo da amizade?


8.1.20 O que é o paradoxo do menino ou menina?


8.1.21 O que é o paradoxo do aniversário?


8.1.22 O que é o paradoxo do teste surpresa?


8.1.23 O que é o paradoxo do nó da gravata?


8.1.24 O que é o paradoxo de Monty Hall?


8.1.25 O que é o paradoxo da Bela Adormecida?



Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,


Referências

74.
Meng XL. Statistical paradises and paradoxes in big data (I): Law of large populations, big data paradox, and the 2016 US presidential election. The Annals of Applied Statistics. 2018;12(2). doi:10.1214/18-aoas1161sf
75.
Abelson RP. A variance explanation paradox: When a little is a lot. Psychological Bulletin. 1985;97(1):129–133. doi:10.1037/0033-2909.97.1.129
76.
Berkson J. Limitations of the Application of Fourfold Table Analysis to Hospital Data. Biometrics Bulletin. 1946;2(3):47. doi:10.2307/3002000
77.
Ellsberg D. Risk, Ambiguity, and the Savage Axioms. The Quarterly Journal of Economics. 1961;75(4):643. doi:10.2307/1884324
78.
Freedman DA, Freedman DA. A Note on Screening Regression Equations. The American Statistician. 1983;37(2):152–155. doi:10.1080/00031305.1983.10482729
79.
Freedman LS, Pee D. Return to a Note on Screening Regression Equations. The American Statistician. 1989;43(4):279. doi:10.2307/2685389
80.
Hand DJ. On Comparing Two Treatments. The American Statistician. 1992;46(3):190–192. doi:10.1080/00031305.1992.10475881
81.
LINDLEY DV. A STATISTICAL PARADOX. Biometrika. 1957;44(1-2):187–192. doi:10.1093/biomet/44.1-2.187
82.
Lord FM. A paradox in the interpretation of group comparisons. Psychological Bulletin. 1967;68(5):304–305. doi:10.1037/h0025105
83.
Lord FM. Statistical adjustments when comparing preexisting groups. Psychological Bulletin. 1969;72(5):336–337. doi:10.1037/h0028108
84.
Simpson EH. The Interpretation of Interaction in Contingency Tables. Journal of the Royal Statistical Society: Series B (Methodological). 1951;13(2):238–241. doi:10.1111/j.2517-6161.1951.tb00088.x
85.
Blyth CR. On Simpson’s Paradox and the Sure-Thing Principle. Journal of the American Statistical Association. 1972;67(338):364–366. doi:10.1080/01621459.1972.10482387
86.
Pearl J. Comment: Understanding Simpsons Paradox. The American Statistician. 2014;68(1):8–13. doi:10.1080/00031305.2014.876829
87.
Stein C. INADMISSIBILITY OF THE USUAL ESTIMATOR FOR THE MEAN OF A MULTIVARIATE NORMAL DISTRIBUTION. Em: Proceedings of the Third Berkeley Symposium on Mathematical Statistics and Probability, Volume I. University of California Press; 1956:197–206. doi:10.1525/9780520313880-018
88.
James W, Stein C. Estimation with Quadratic Loss. Em: Proceedings of the Fourth Berkeley Symposium on Mathematical Statistics and Probability, Volume 1: Contributions to the Theory of Statistics. Berkeley, Calif.: University of California Press; 1961:361–379. http://projecteuclid.org/euclid.bsmsp/1200512173.
89.
De S, Sen A. The generalised Gamow-Stern problem. The Mathematical Gazette. 1996;80(488):345–348. doi:10.2307/3619568
90.
Feld SL. Why Your Friends Have More Friends Than You Do. American Journal of Sociology. 1991;96(6):1464–1477. doi:10.1086/229693