Capítulo 9 Paradoxos estatísticos


9.1 Paradoxos


9.1.1 O que são paradoxos estatísticos?

  • Paradoxos podem originar da incompreensão ou mal informação da nossa intuição a respeito do fenômeno.89


9.1.2 O que é o paradoxo de Abelson?

  • Um baixo percentual de variância explicada não implica que o fator causal seja irrelevante. Em processos cumulativos, efeitos pequenos podem produzir consequências grandes.90

  • Esse paradoxo alerta contra o uso ingênuo de medidas como \(R^2\) ou “% de explicação” para julgar a importância prática de um fator.REF?


Tabela 9.1: Modelo micro (por tentativa): Desempenho ~ Habilidade
Variável explicativa Estimativa IC 95%1 P-valor
Nível micro — eventos individuais
Habilidade 1.527 -0.229, 3.282 0.088
R² (variância explicada) 0.001

Nível macro — resultado acumulado
Habilidade 152.675 0.918, 304.432 0.049
R² (variância explicada) 0.199

1 IC = Intervalo de confiança


9.1.3 O que é o paradoxo de Berkson?


9.1.4 O que é o paradoxo de Ellsberg?


9.1.5 O que é o paradoxo de Freedman?


9.1.6 O que é o paradoxo de Hand?


9.1.7 O que é o paradoxo de Kelley?


9.1.8 O que é o paradoxo de Lindley?


9.1.9 O que é o paradoxo de Lord?


9.1.10 O que é o paradoxo de Meng?

  • Big Data: “Quanto maior a quantidade de dados, maior a certeza de que vamos nos enganar”.89


9.1.11 O que é o paradoxo de Proebsting?


9.1.12 O que é o paradoxo de Simpson?

  • O paradoxo de Simpson ocorre quando a associação entre duas variáveis \(X\) e \(Y\) desaparece ou mesmo reverte sua direção quando condicionadas em uma terceira variável \(Z\).99,100

  • Para decisão do paradoxo de Simpson pode-se utilizar o conceito de back door, o qual considera os caminhos (isto é, associações) no gráfico acíclico direcionado e assegura que todos as associações espúrias do tratamento \(X\) para o desfecho \(Y\) nesse diagrama causal sejam interceptados pela variável \(Z\).101

  • Dependendo do contexto em que os dados foram obtidos (delineamento do estudo, escolha dos instrumentos e dos tipos de variáveis) a melhor escolha para a análise pode variar entre a análise da população agregada ou da subpopulação desagregada.101

  • É possível que em alguns contextos nem a análise agregada ou a desagregada podem oferecer a resposta correta, sendo necessário o uso de outras (mais) covariáveis.101


Os pontos representam observações individuais e as linhas de tendência representam as regressões lineares ajustadas para os dados desagregados da população e agregados por subpopulação.

Figura 9.1: Os pontos representam observações individuais e as linhas de tendência representam as regressões lineares ajustadas para os dados desagregados da população e agregados por subpopulação.


9.1.13 O que é o paradoxo de James-Stein?

  • Ao estimar simultaneamente 3 ou mais médias de variáveis normais independentes (com perda quadrática), o estimador \(X_i\) (ótimo para cada média isoladamente) deixa de ser ótimo no conjunto, existindo estimadores que têm erro médio total menor.102,103

  • O resultado é paradoxal porque essa melhoria exige “misturar” as estimativas entre si (como no estimador de James–Stein), introduzindo um viés controlado que reduz o erro global, algo impossível quando \(n \leq 2\).102,103


Simulação do paradoxo de Stein. Comparação do erro médio quadrático entre o estimador clássico (média amostral) e o estimador de James-Stein para diferentes números de médias (n=2 e n=5). Estimadores aparentemente piores localmente podem ser melhores globalmente quando o objetivo é reduzir o erro total.

Figura 9.2: Simulação do paradoxo de Stein. Comparação do erro médio quadrático entre o estimador clássico (média amostral) e o estimador de James-Stein para diferentes números de médias (n=2 e n=5). Estimadores aparentemente piores localmente podem ser melhores globalmente quando o objetivo é reduzir o erro total.


9.1.14 O que é o paradoxo de Okie?


9.1.15 O que é o paradoxo da acurácia?


9.1.16 O que é o paradoxo do falso positivo?


9.1.17 O que é o paradoxo da caixa de Bertrand?


9.1.18 O que é o paradoxo do elevador?


9.1.19 O que é o paradoxo da amizade?


9.1.20 O que é o paradoxo do menino ou menina?


9.1.21 O que é o paradoxo do aniversário?


9.1.22 O que é o paradoxo do teste surpresa?


9.1.23 O que é o paradoxo do nó da gravata?


9.1.24 O que é o paradoxo de Monty Hall?


9.1.25 O que é o paradoxo da Bela Adormecida?



Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,


Referências

89.
Meng XL. Statistical paradises and paradoxes in big data (I): Law of large populations, big data paradox, and the 2016 US presidential election. The Annals of Applied Statistics. 2018;12(2). doi:10.1214/18-aoas1161sf
90.
Abelson RP. A variance explanation paradox: When a little is a lot. Psychological Bulletin. 1985;97(1):129–133. doi:10.1037/0033-2909.97.1.129
91.
Berkson J. Limitations of the Application of Fourfold Table Analysis to Hospital Data. Biometrics Bulletin. 1946;2(3):47. doi:10.2307/3002000
92.
Ellsberg D. Risk, Ambiguity, and the Savage Axioms. The Quarterly Journal of Economics. 1961;75(4):643. doi:10.2307/1884324
93.
Freedman DA, Freedman DA. A Note on Screening Regression Equations. The American Statistician. 1983;37(2):152–155. doi:10.1080/00031305.1983.10482729
94.
Freedman LS, Pee D. Return to a Note on Screening Regression Equations. The American Statistician. 1989;43(4):279. doi:10.2307/2685389
95.
Hand DJ. On Comparing Two Treatments. The American Statistician. 1992;46(3):190–192. doi:10.1080/00031305.1992.10475881
96.
LINDLEY DV. A STATISTICAL PARADOX. Biometrika. 1957;44(1-2):187–192. doi:10.1093/biomet/44.1-2.187
97.
Lord FM. A paradox in the interpretation of group comparisons. Psychological Bulletin. 1967;68(5):304–305. doi:10.1037/h0025105
98.
Lord FM. Statistical adjustments when comparing preexisting groups. Psychological Bulletin. 1969;72(5):336–337. doi:10.1037/h0028108
99.
Simpson EH. The Interpretation of Interaction in Contingency Tables. Journal of the Royal Statistical Society: Series B (Methodological). 1951;13(2):238–241. doi:10.1111/j.2517-6161.1951.tb00088.x
100.
Blyth CR. On Simpson’s Paradox and the Sure-Thing Principle. Journal of the American Statistical Association. 1972;67(338):364–366. doi:10.1080/01621459.1972.10482387
101.
Pearl J. Comment: Understanding Simpsons Paradox. The American Statistician. 2014;68(1):8–13. doi:10.1080/00031305.2014.876829
102.
Stein C. INADMISSIBILITY OF THE USUAL ESTIMATOR FOR THE MEAN OF A MULTIVARIATE NORMAL DISTRIBUTION. Em: Proceedings of the Third Berkeley Symposium on Mathematical Statistics and Probability, Volume I. University of California Press; 1956:197–206. doi:10.1525/9780520313880-018
103.
James W, Stein C. Estimation with Quadratic Loss. Em: Proceedings of the Fourth Berkeley Symposium on Mathematical Statistics and Probability, Volume 1: Contributions to the Theory of Statistics. Berkeley, Calif.: University of California Press; 1961:361–379. http://projecteuclid.org/euclid.bsmsp/1200512173.
104.
De S, Sen A. The generalised Gamow-Stern problem. The Mathematical Gazette. 1996;80(488):345–348. doi:10.2307/3619568
105.
Feld SL. Why Your Friends Have More Friends Than You Do. American Journal of Sociology. 1991;96(6):1464–1477. doi:10.1086/229693