Capítulo 24 Suposições inferenciais
24.1 Suposições gerais em análises inferenciais
24.1.1 Quais são as suposições ao nível dos dados (condicionais ao modelo)?
Independência (ou dependência corretamente modelada) das observações.REF?
Forma da distribuição dos erros ou resíduos (normalidade, assimetria, caudas).REF?
Homocedasticidade (igualdade de variâncias condicionais).REF?
24.2 Suposições implícitas e explícitas nos testes
24.3 Suposições causais que conectam dados observados a efeitos causais
24.3.1 Quais são as suposições causais que conectam dados observados a efeitos causais?
Ausência de correlação espúria: associações observadas refletem relações sistemáticas e não flutuações aleatórias; quanto maior a amostra, mais plausível essa condição.REF?
Consistência: os valores observados do tratamento correspondem a intervenções bem definidas e coincidem com os valores dos contrafactuais relevantes.REF?
Intercambialidade: condicionalmente às covariáveis medidas, a atribuição do tratamento é independente dos desfechos potenciais.REF?
Positividade: para todos os valores das covariáveis consideradas, a probabilidade de receber cada nível do tratamento é maior que zero.REF?
Fidelidade: efeitos causais não se cancelam sistematicamente no agregado populacional, de modo que efeitos médios nulos correspondem à ausência de efeito causal relevante.REF?
24.3.2 Qual a relação dessas suposições com as demais suposições inferenciais?
Essas suposições operam antes do modelo estatístico.REF?
Não são verificáveis por diagnóstico residual ou testes de ajuste.REF?
Mesmo com todas as suposições estatísticas satisfeitas, a inferência causal pode falhar se qualquer uma dessas suposições não for atendida.REF?
24.4 Diagnóstico e verificação
24.4.1 O que fazer quando suposições gerais falham?
Transformações.REF?
Métodos robustos (estimadores e testes).REF?
Reamostragem.REF?
Modelos alternativos.REF?
24.4.2 O que fazer quando as suposições causais falham?
Clarificar o alvo causal: redefinir a população, o tratamento ou o efeito de interesse.[REF]
Análise de sensibilidade: avaliar quanto confundimento não medido seria necessário para invalidar as conclusões.[REF]
Restringir o suporte: limitar a análise a regiões com positividade plausível (suporte comum).[REF]
Estratificação ou ajuste enriquecido: incluir covariáveis adicionais relevantes, quando disponíveis.[REF]
Modelagem causal explícita: usar DAGs para tornar suposições transparentes e discutíveis.[REF]
Estimativas parciais ou locais: reportar efeitos condicionais ou locais quando o efeito médio não é identificável.[REF]
Conclusões mais fracas: interpretar resultados como associações ajustadas, não como efeitos causais.[REF]
Relato explícito das falhas: documentar quais suposições não são plausíveis e por quê.[REF]
O pacote performance267 fornece a função check_model para analisar a colinearidade entre variáveis, a normalidade da distribuição das variáveis e a heteroscedasticidade.
24.4.3 Como avaliar as suposições de uma regressão?
- Usando diagnóstico de regressão (ex.: análise de resíduos, gráficos de valores observados vs. preditos) e comparação com análises estratificadas.268
Figura 24.1: Diagnóstico de regressão para avaliar suposições do modelo: linearidade, normalidade dos resíduos, homocedasticidade e alavancagem.
24.4.4 Como avaliar a independência entre variáveis?
Verifique por dependência entre variáveis de um modelo de regressão:225
Gráfico de série temporal das variáveis
Gráfico de autocorrelação entre as variáveis
Figura 24.2: Séries temporais e autocorrelação de duas séries simuladas com fraca e forte autocorrelação.
24.5 Normalidade
24.5.1 Devemos testar as suposições de normalidade?
- Testes preliminares de normalidade não são necessários para a maioria dos testes paramétricos de comparação, pois eles são robustos contra desvios moderados da normalidade. Normalidade da distribuição deve ser estabelecida para a população.269
24.6 Escolha entre métodos paramétricos e não paramétricos
24.6.1 O que é uma análise paramétrica?
Testes paramétricos fazem menos suposições sobre a forma da distribuição, as características e/ou parâmetros da distribuição dos dados na população.133
Testes paramétricos assumem que: a variável é quantitativa numérica contínua; os dados foram amostrados de uma população com distribuição normal; a variância da(S) amostra(s) é igual à da população; as amostras foram selecionadas de modo aleatório na população; os valores de cada amostra são independentes entre si.133,134
Testes paramétricos são baseados na suposição de que os dados amostrais provêm de uma população com parâmetros fixos determinando sua distribuição de probabilidade.10
24.6.2 O que é uma análise não paramétrica?
Testes não-paramétricos fazem poucas suposições, ou menos rigorosas, sobre as características e/ou parâmetros da distribuição dos dados na população.133,134
Testes não-paramétricos são úteis quando as suposições de normalidade não podem ser sustentadas.134
24.6.3 Por que as análises paramétricas são preferidas?
Quando suas suposições são atendidas, testes paramétricos tendem a apresentar maior poder estatístico que seus testes não-paramétricos correspondentes.133,270,271
Testes não-paramétricos apresentam menor poder estatístico (maior erro tipo II) comparados aos testes paramétricos correspondentes.134
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,