Capítulo 24 Suposições inferenciais


24.1 Suposições gerais em análises inferenciais


24.1.1 Quais são as suposições ao nível dos dados (condicionais ao modelo)?

  • Independência (ou dependência corretamente modelada) das observações.REF?

  • Forma da distribuição dos erros ou resíduos (normalidade, assimetria, caudas).REF?

  • Homocedasticidade (igualdade de variâncias condicionais).REF?


24.1.2 Quais são as suposições ao nível do modelo?

  • Linearidade da relação entre variáveis.REF?

  • Multicolinearidade ausente ou controlada.REF?

  • Especificação funcional correta do modelo.REF?


24.1.3 Quais são as suposições ao nível do estudo?

  • Ausência de confundimento relevante não controlado.REF?

  • Estabilidade do processo gerador de dados (invariância temporal, populacional ou contextual).REF?


24.2 Suposições implícitas e explícitas nos testes


24.2.1 Quais suposições implícitas são feitas nos testes estatísticos?

  • Amostragem aleatória ou ignorabilidade condicional.REF?

  • Medição sem erro relevante.REF?

  • Correspondência entre modelo estatístico e processo gerador de dados.REF?

  • Ausência de múltiplas comparações não ajustadas.REF?


24.2.2 Quais suposições explícitas são feitas nos testes estatísticos?

  • Normalidade dos erros ou da estatística de teste.REF?

  • Homocedasticidade.REF?

  • Independência das observações.REF?


24.3 Suposições causais que conectam dados observados a efeitos causais


24.3.1 Quais são as suposições causais que conectam dados observados a efeitos causais?

  • Ausência de correlação espúria: associações observadas refletem relações sistemáticas e não flutuações aleatórias; quanto maior a amostra, mais plausível essa condição.REF?

  • Consistência: os valores observados do tratamento correspondem a intervenções bem definidas e coincidem com os valores dos contrafactuais relevantes.REF?

  • Intercambialidade: condicionalmente às covariáveis medidas, a atribuição do tratamento é independente dos desfechos potenciais.REF?

  • Positividade: para todos os valores das covariáveis consideradas, a probabilidade de receber cada nível do tratamento é maior que zero.REF?

  • Fidelidade: efeitos causais não se cancelam sistematicamente no agregado populacional, de modo que efeitos médios nulos correspondem à ausência de efeito causal relevante.REF?


24.3.2 Qual a relação dessas suposições com as demais suposições inferenciais?

  • Essas suposições operam antes do modelo estatístico.REF?

  • Não são verificáveis por diagnóstico residual ou testes de ajuste.REF?

  • Mesmo com todas as suposições estatísticas satisfeitas, a inferência causal pode falhar se qualquer uma dessas suposições não for atendida.REF?


24.4 Diagnóstico e verificação


24.4.1 O que fazer quando suposições gerais falham?

  • Transformações.REF?

  • Métodos robustos (estimadores e testes).REF?

  • Reamostragem.REF?

  • Modelos alternativos.REF?


24.4.2 O que fazer quando as suposições causais falham?

  • Clarificar o alvo causal: redefinir a população, o tratamento ou o efeito de interesse.[REF]

  • Análise de sensibilidade: avaliar quanto confundimento não medido seria necessário para invalidar as conclusões.[REF]

  • Restringir o suporte: limitar a análise a regiões com positividade plausível (suporte comum).[REF]

  • Estratificação ou ajuste enriquecido: incluir covariáveis adicionais relevantes, quando disponíveis.[REF]

  • Modelagem causal explícita: usar DAGs para tornar suposições transparentes e discutíveis.[REF]

  • Estimativas parciais ou locais: reportar efeitos condicionais ou locais quando o efeito médio não é identificável.[REF]

  • Conclusões mais fracas: interpretar resultados como associações ajustadas, não como efeitos causais.[REF]

  • Relato explícito das falhas: documentar quais suposições não são plausíveis e por quê.[REF]



24.4.3 Como avaliar as suposições de uma regressão?

  • Usando diagnóstico de regressão (ex.: análise de resíduos, gráficos de valores observados vs. preditos) e comparação com análises estratificadas.268


Diagnóstico de regressão para avaliar suposições do modelo: linearidade, normalidade dos resíduos, homocedasticidade e alavancagem.

Figura 24.1: Diagnóstico de regressão para avaliar suposições do modelo: linearidade, normalidade dos resíduos, homocedasticidade e alavancagem.


24.4.4 Como avaliar a independência entre variáveis?

  • Verifique por dependência entre variáveis de um modelo de regressão:225

    • Gráfico de série temporal das variáveis

    • Gráfico de autocorrelação entre as variáveis


Séries temporais e autocorrelação de duas séries simuladas com fraca e forte autocorrelação.

Figura 24.2: Séries temporais e autocorrelação de duas séries simuladas com fraca e forte autocorrelação.


24.5 Normalidade


24.5.1 Devemos testar as suposições de normalidade?

  • Testes preliminares de normalidade não são necessários para a maioria dos testes paramétricos de comparação, pois eles são robustos contra desvios moderados da normalidade. Normalidade da distribuição deve ser estabelecida para a população.269


24.6 Escolha entre métodos paramétricos e não paramétricos


24.6.1 O que é uma análise paramétrica?

  • Testes paramétricos fazem menos suposições sobre a forma da distribuição, as características e/ou parâmetros da distribuição dos dados na população.133

  • Testes paramétricos assumem que: a variável é quantitativa numérica contínua; os dados foram amostrados de uma população com distribuição normal; a variância da(S) amostra(s) é igual à da população; as amostras foram selecionadas de modo aleatório na população; os valores de cada amostra são independentes entre si.133,134

  • Testes paramétricos são baseados na suposição de que os dados amostrais provêm de uma população com parâmetros fixos determinando sua distribuição de probabilidade.10


24.6.2 O que é uma análise não paramétrica?

  • Testes não-paramétricos fazem poucas suposições, ou menos rigorosas, sobre as características e/ou parâmetros da distribuição dos dados na população.133,134

  • Testes não-paramétricos são úteis quando as suposições de normalidade não podem ser sustentadas.134


24.6.3 Por que as análises paramétricas são preferidas?

  • Quando suas suposições são atendidas, testes paramétricos tendem a apresentar maior poder estatístico que seus testes não-paramétricos correspondentes.133,270,271

  • Testes não-paramétricos apresentam menor poder estatístico (maior erro tipo II) comparados aos testes paramétricos correspondentes.134



Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,


Referências

10.
Kwak SG, Kim JH. Central limit theorem: the cornerstone of modern statistics. Korean Journal of Anesthesiology. 2017;70(2):144. doi:10.4097/kjae.2017.70.2.144
133.
Vetter TR. Fundamentals of Research Data and Variables. Anesthesia & Analgesia. 2017;125(4):1375–1380. doi:10.1213/ane.0000000000002370
134.
Ali Z, Bhaskar Sb. Basic statistical tools in research and data analysis. Indian Journal of Anaesthesia. 2016;60(9):662. doi:10.4103/0019-5049.190623
225.
Zuur AF, Ieno EN, Elphick CS. A protocol for data exploration to avoid common statistical problems. Methods in Ecology and Evolution. 2009;1(1):3–14. doi:10.1111/j.2041-210x.2009.00001.x
267.
Lüdecke D, Ben-Shachar MS, Patil I, Waggoner P, Makowski D. performance: An R Package for Assessment, Comparison and Testing of Statistical Models. Journal of Open Source Software. 2021;6:3139. doi:10.21105/joss.03139
268.
Greenland S. Modeling and variable selection in epidemiologic analysis. American Journal of Public Health. 1989;79(3):340–349. doi:10.2105/ajph.79.3.340
269.
Rochon J, Gondan M, Kieser M. To test or not to test: Preliminary assessment of normality when comparing two independent samples. BMC Medical Research Methodology. 2012;12(1). doi:10.1186/1471-2288-12-81
270.
Greenhalgh T. How to read a paper: Statistics for the non-statistician. I: Different types of data need different statistical tests. BMJ. 1997;315(7104):364–366. doi:10.1136/bmj.315.7104.364
271.
Schmider E, Ziegler M, Danay E, Beyer L, Bühner M. Is It Really Robust? Methodology. 2010;6(4):147–151. doi:10.1027/1614-2241/a000016