Capítulo 31 Suposições inferenciais


31.1 Suposições gerais em análises inferenciais


31.1.1 Quais são as suposições gerais em análises inferenciais?



31.1.2 Quais são as suposições ao nível dos dados (condicionais ao modelo)?

  • Independência (ou dependência corretamente modelada) das observações.REF?

  • Forma da distribuição dos erros ou resíduos (normalidade, assimetria, caudas).REF?

  • homoscedasticidade (igualdade de variâncias condicionais).REF?


31.1.3 Quais são as suposições ao nível do modelo?

  • Linearidade da relação entre variáveis.REF?

  • Multicolinearidade ausente ou controlada.REF?

  • Especificação funcional correta do modelo.REF?


31.1.4 Quais são as suposições ao nível do estudo?

  • Ausência de confundimento relevante não controlado.REF?

  • Estabilidade do processo gerador de dados (invariância temporal, populacional ou contextual).REF?


31.2 Suposições implícitas e explícitas nos testes


31.2.1 Quais suposições implícitas são feitas nos testes estatísticos?

  • Amostragem aleatória ou ignorabilidade condicional.REF?

  • Medição sem erro relevante.REF?

  • Correspondência entre modelo estatístico e processo gerador de dados.REF?

  • Ausência de múltiplas comparações não ajustadas.REF?


31.2.2 Quais suposições explícitas são feitas nos testes estatísticos?

  • Normalidade dos erros ou da estatística de teste.REF?

  • homoscedasticidade .REF?

  • Independência das observações.REF?


31.3 Suposições causais que conectam dados observados a efeitos causais


31.3.1 Quais são as suposições causais que conectam dados observados a efeitos causais?

  • Ausência de correlação espúria: associações observadas refletem relações sistemáticas e não flutuações aleatórias; quanto maior a amostra, mais plausível essa condição.REF?

  • Consistência: os valores observados do tratamento correspondem a intervenções bem definidas e coincidem com os valores dos contrafactuais relevantes.REF?

  • Intercambialidade: condicionalmente às covariáveis medidas, a atribuição do tratamento é independente dos desfechos potenciais.REF?

  • Positividade: para todos os valores das covariáveis consideradas, a probabilidade de receber cada nível do tratamento é maior que zero.REF?

  • Fidelidade: efeitos causais não se cancelam sistematicamente no agregado populacional, de modo que efeitos médios nulos correspondem à ausência de efeito causal relevante.REF?


31.3.2 Qual a relação dessas suposições com as demais suposições inferenciais?

  • Essas suposições operam antes do modelo estatístico.REF?

  • Não são verificáveis por diagnóstico residual ou testes de ajuste.REF?

  • Mesmo com todas as suposições estatísticas satisfeitas, a inferência causal pode falhar se qualquer uma dessas suposições não for atendida.REF?


31.4 Diagnóstico e verificação


31.4.1 O que fazer quando suposições gerais falham?

  • Transformações.REF?

  • Métodos robustos (estimadores e testes).REF?

  • Reamostragem.REF?

  • Modelos alternativos.REF?


31.4.2 O que fazer quando as suposições causais falham?

  • Clarificar o alvo causal: redefinir a população, o tratamento ou o efeito de interesse.REF?

  • Análise de sensibilidade: avaliar quanto confundimento não medido seria necessário para invalidar as conclusões.REF?

  • Restringir o suporte: limitar a análise a regiões com positividade plausível (suporte comum).REF?

  • Estratificação ou ajuste enriquecido: incluir covariáveis adicionais relevantes, quando disponíveis.REF?

  • Modelagem causal explícita: usar diagramas acíclicos direcionados para tornar suposições transparentes e discutíveis.REF?

  • Estimativas parciais ou locais: reportar efeitos condicionais ou locais quando o efeito médio não é identificável.REF?

  • Conclusões mais fracas: interpretar resultados como associações ajustadas, não como efeitos causais.REF?

  • Relato explícito das falhas: documentar quais suposições não são plausíveis e por quê.REF?



31.4.3 Como avaliar as suposições de uma regressão?

  • Usando diagnóstico de regressão (ex.: análise de resíduos, gráficos de valores observados vs. preditos) e comparação com análises estratificadas.340


Diagnóstico de regressão para avaliar suposições do modelo: linearidade, normalidade dos resíduos, homoscedasticidade  e alavancagem.

Figura 31.1: Diagnóstico de regressão para avaliar suposições do modelo: linearidade, normalidade dos resíduos, homoscedasticidade e alavancagem.


31.4.4 Como avaliar a independência entre variáveis?

  • Verifique por dependência entre variáveis de um modelo de regressão:286

    • Gráfico de série temporal das variáveis

    • Gráfico de autocorrelação entre as variáveis


Séries temporais e autocorrelação de duas séries simuladas com fraca e forte autocorrelação.

Figura 31.2: Séries temporais e autocorrelação de duas séries simuladas com fraca e forte autocorrelação.


31.5 Normalidade


31.5.1 Devemos testar as suposições de normalidade?

  • Normalidade da distribuição deve ser estabelecida para a população.341

  • Testes preliminares de normalidade não são necessários para a maioria dos testes paramétricos de comparação, pois eles são robustos contra desvios moderados da normalidade.341


31.6 Escolha entre métodos paramétricos e não paramétricos


31.6.1 O que é análise paramétrica?

  • Testes não paramétricos fazem suposições sobre a forma da distribuição, as características e/ou parâmetros da distribuição dos dados na população.136,137

  • Testes paramétricos são baseados na suposição de que os dados amostrais provêm de uma população com parâmetros fixos determinando sua distribuição de probabilidade.60


31.6.2 O que é análise não paramétrica?

  • Testes não-paramétricos fazem poucas suposições, ou menos rigorosas, sobre as características e/ou parâmetros da distribuição dos dados na população.136,137

  • Testes não-paramétricos são úteis quando as suposições de normalidade não podem ser sustentadas.137


31.6.3 Por que análises paramétricas são preferidas?

  • Quando as suposições são atendidas, testes paramétricos tendem a apresentar maior poder estatístico que testes não-paramétricos correspondentes.136,232,342

  • Testes não-paramétricos apresentam menor poder estatístico (maior erro tipo II) comparados aos testes paramétricos correspondentes.137



Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,


Referências

60.
Kwak SG, Kim JH. Central limit theorem: the cornerstone of modern statistics. Korean Journal of Anesthesiology. 2017;70(2):144. doi:10.4097/kjae.2017.70.2.144
136.
Vetter TR. Fundamentals of Research Data and Variables. Anesthesia & Analgesia. 2017;125(4):1375–1380. doi:10.1213/ane.0000000000002370
137.
Ali Z, Bhaskar Sb. Basic statistical tools in research and data analysis. Indian Journal of Anaesthesia. 2016;60(9):662. doi:10.4103/0019-5049.190623
232.
Greenhalgh T. How to read a paper: Statistics for the non-statistician. I: Different types of data need different statistical tests. BMJ. 1997;315(7104):364–366. doi:10.1136/bmj.315.7104.364
286.
Zuur AF, Ieno EN, Elphick CS. A protocol for data exploration to avoid common statistical problems. Methods in Ecology and Evolution. 2009;1(1):3–14. doi:10.1111/j.2041-210x.2009.00001.x
315.
Lüdecke D, Ben-Shachar MS, Patil I, Waggoner P, Makowski D. performance: An R Package for Assessment, Comparison and Testing of Statistical Models. Journal of Open Source Software. 2021;6:3139. doi:10.21105/joss.03139
339.
Bargheet A. AssumpSure: a user-friendly R Shiny package for automated validation of statistical assumptions and appropriate test selection. Journal of Open Source Software. 2025;10:9286. doi:10.21105/joss.09286
340.
Greenland S. Modeling and variable selection in epidemiologic analysis. American Journal of Public Health. 1989;79(3):340–349. doi:10.2105/ajph.79.3.340
341.
Rochon J, Gondan M, Kieser M. To test or not to test: Preliminary assessment of normality when comparing two independent samples. BMC Medical Research Methodology. 2012;12(1). doi:10.1186/1471-2288-12-81
342.
Schmider E, Ziegler M, Danay E, Beyer L, Bühner M. Is It Really Robust? Methodology. 2010;6(4):147–151. doi:10.1027/1614-2241/a000016