Capítulo 26 Tamanho do efeito e P-valor
26.1 Tamanho do efeito
26.1.1 O que é o tamanho do efeito?
- Tamanho do efeito quantifica a magnitude de um efeito real da análise, expressando uma importância descritiva dos resultados.274
26.1.2 Quais são os tipos de tamanho do efeito?
Diferenças padronizadas entre grupos:266,274
Cohen’s d
Glass’s \(\Delta\)
Razão de chances (\(RC\) ou \(OR\))
Risco relativo ou razão de risco (\(RR\))
O pacote epitools275 fornece a função oddsratio.wald para calcular a razão de chances.
O pacote epitools275 fornece a função riskratio.wald para calcular a razão de risco.
-
Coeficiente de correlação de Pearson (\(r\)), ponto-bisserial (\(r_{s}\)), Spearman (\(\rho\)), Kendall (\(\tau\)), Cramér (\(V\)) e \(\phi\).
Coeficiente de determinação (\(R^2\))
26.1.3 Como converter um tamanho de efeito em outro?
- .274
O pacote effectsize276 fornece diversas funções para conversão de diferentes estimativas de tamanhos de efeito.
26.1.4 Como interpretar um tamanho do efeito?
- Tamanhos de efeito podem ser comparadores entre diferentes estudos.266
O pacote effectsize276 fornece a função rules para criar regras de interpretação de tamanhos de efeito.
O pacote effectsize276 fornece a função interpret para interpretar os tamanhos de efeito com base em uma lista de regras pré-definidas.
O pacote pwr277 fornece a função cohen.ES para obter os tamanhos de efeito “pequeno”, “médio” e “grande” para diversos testes de hipóteses.
26.4 Efeito de interação
26.4.1 O que é efeito de interação?
A interação - representada pelo símbolo * - é o termo estatístico empregado para representar a heterogeneidade de um determinado efeito.281
.280
Figura 26.1: Análise de efeito de interação (direta) entre grupos e tempo. Retas paralelas sugerem ausência de efeito de interação.
Figura 26.2: Análise de efeito de interação (inversa) entre grupos e tempo. Retas paralelas sugerem ausência de efeito de interação.
O pacote emmeans284 fornece a função emmeans para calcular as médias marginais dos fatores e suas combinações de um modelo de regressão misto linear.
26.7 P-valor
26.7.1 O que é significância estatística?
- A expressão “significância estatística”286 ou “evidência estatística de significância” sugere apenas que um experimento merece ser repetido, uma vez que um baixo P-valor (calculado a partir dos dados, modelos e demais suposições do estudo) sugere ser improvável que os dados coletados sejam coletados no contexto de que a hipótese nula (\(H_{0}\)) assumida é verdadeira.287
26.7.2 Como justificar o nível de significância estatística de um teste?
- .REF?
O pacote Superpower288 fornece a função optimal_alpha para calcular e justificar o nível de significância \(\alpha\) por balanço dos erros tipo I e II.
O pacote Superpower288 fornece a função ANOVA_compromise para calcular e justificar o nível de significância \(\alpha\) por balanço dos erros tipo I e II em análise de variância (ANOVA).
26.7.3 O que é o P-valor?
P-valor é a probabilidade, assumindo-se um dado modelo estatístico, de que um efeito calculado a partir dos dados seria igual ou mais extremo do que o seu valor observado.289
P-valor é uma variável aleatória que possui distribuição uniforme quando a hipótese nula (\(H_{0}\)) é verdadeira.290
26.7.4 Como interpretar o P-valor?
P-valores abaixo de um nível de significância estatística pré-especificado representam que um experimento merece ser repetido, com a rejeição da hipótese nula (\(H_{0}\)) justificada apenas quando experimentos adicionais frequentemente reportem igualmente resultados positivos (rejeição da hipótese nula (\(H_{0}\)).268
P-valor resulta da coleta e análise de dados, e assim quantifica a plausibilidade dos dados observados sob a hipótese nula (\(H_{0}\)).291
P-valores podem indicar quantitativamente a incompatibilidade entre os dados obtidos e o modelo estatístico especificado a priori (geralmente constituído pela hipótese nula (\(H_{0}\)).289
P-valores menores/maiores do que o nível de significância estatístico pré-estabelecido não devem ser utilizados como única fonte de informação para tomada de decisão em ciência.289
26.7.5 O que o P-valor não é?
P-valor não representa a probabilidade de que a hipótese nula (\(H_{0}\)) seja verdadeira, nem a probabilidade de que os dados tenham sido produzidos pelo acaso.289
P-valor não mede o tamanho do efeito ou a relevância da sua observação.289
P-valor sozinho não provê informação suficiente sobre a evidência sobre um modelo teórico. A sua interpretação correta requer uma descrição ampla sobre o delineamento, métodos e análises estatísticas aplicados no estudo.289
Evidência estatística de significância não provê informação sobre a magnitude do efeito observado e não necessariamente implica que o efeito é robusto.193,290
26.7.6 Qual a origem do ‘P<0,05’?
A origem do P<0,05 remonta aos trabalhos de R. A. Fisher nas décadas de 1920 e 1930. Fisher introduziu o conceito de valor-P dentro de uma abordagem frequentista de inferência estatística.268
O P<0,05 foi sugerido por Ronald A. Fisher como um limiar prático para indicar que um resultado era “estatisticamente significativo”.268
Para Ronald A. Fisher, a significância estatística não era prova definitiva, mas um sinal de que o resultado merecia investigação adicional. A rejeição da hipótese nula só deveria ocorrer após repetidas observações significativas, e não com base em um único teste.268
Figura 26.3: Visualização espacial de p < 0,05 (5 quadrados aleatórios em 100).
26.8 P-valor de 2ª geração
26.8.1 O que é o P-valor de 2ª geração?
O P-valor de 2ª geração (SGPV) resume a fração das hipóteses apoiadas pelos dados que também pertencem à hipótese nula intervalar (intervalo de equivalência previamente especificado). Quantifica quanto do intervalo de estimativa (p.ex., IC95%) recai dentro da zona de indiferença científica/clinicamente irrelevante.292
Essa abordagem exige declarar a hipótese nula como intervalo (e não um ponto), incorporando o que é considerado “efeito sem relevância prática” segundo o contexto científico (precisão de medida, relevância clínica etc.).292
26.8.2 Como definir a hipótese nula intervalar e \(\delta\)?
Especifique \(H_0\) como um intervalo de equivalência \([H_0^{-}, H_0^{+}]\) que contém efeitos considerados praticamente nulos. Defina \(\delta\) como a meia-largura do intervalo de equivalência (\(\delta = (H_0^{+} - H_0^{-})/2\)).292
A escolha deve ser a priori e justificada por critérios científicos (p.ex., MCID, precisão de medida).292
26.8.3 Como calcular o SGPV?
- Seja \(I=[a,b]\) o intervalo apoiado pelos dados (p.ex., IC 95%) e \(H_0\) o intervalo nulo. O SGPV é (26.1), onde \(|I|\) é a largura do intervalo de estimativa, \(|H_0|\) é a largura do intervalo nulo e \(|I \cap H_0|\) é a largura da sobreposição entre os dois intervalos. O SGPV é restrito ao intervalo \([0,1]\).292
\[\begin{equation} \tag{26.1} p_{\delta} = \frac{|\,I \cap H_0\,|}{|\,I\,|} \times \max\!\left\{ \frac{|\,I\,|}{2|\,H_0\,|}, \, 1 \right\} \end{equation}\]
Quando \(|I|<2|H_0|\), \(p_{\delta}\) é apenas a fração de sobreposição \(|I\cap H_0|/|I|\).292
Quando \(|I|>2|H_0|\), o SGPV reduz-se a \(\tfrac{1}{2}\times \dfrac{|,I\cap H_0,|}{|,H_0,|}\le \tfrac{1}{2}\), sinalizando inconclusão por imprecisão.292
| Cenário | \(a\) | \(b\) | \(H_0^{-}\) | \(H_0^{+}\) | \(\hat\theta\) | \(SE\) | p-valor (bicaudal) | \(p_{\delta}\) | Conclusão (SGPV) |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 0.350 | 0.550 | -0.100 | 0.100 | 0.450 | 0.0510 | <0,001 | 0.000 | Apoia alternativas (SGPV=0) |
| 2 | -0.050 | 0.080 | -0.100 | 0.100 | 0.015 | 0.0332 | 0.651 | 1.000 | Equivalência (SGPV=1) |
| 3 | -0.500 | 0.700 | -0.100 | 0.100 | 0.100 | 0.3061 | 0.744 | 0.500 | Inconclusivo (0<pδ<1) < td> </pδ<1)> |
| 4 | 0.050 | 0.250 | -0.100 | 0.100 | 0.150 | 0.0510 | 0.003 | 0.250 | Inconclusivo (0<pδ<1) < td> </pδ<1)> |
| 5 | -0.250 | -0.050 | -0.100 | 0.100 | -0.150 | 0.0510 | 0.003 | 0.250 | Inconclusivo (0<pδ<1) < td> </pδ<1)> |
| 6 | 0.150 | 0.550 | -0.100 | 0.100 | 0.350 | 0.1020 | 0.001 | 0.000 | Apoia alternativas (SGPV=0) |
| 7 | -0.550 | -0.150 | -0.100 | 0.100 | -0.350 | 0.1020 | 0.001 | 0.000 | Apoia alternativas (SGPV=0) |
26.8.4 Como interpretar o SGPV?
\(p_{\delta}=0\): dados apoiam apenas hipóteses alternativas relevantes (IC totalmente fora da equivalência).292
\(p_{\delta}=1\): dados apoiam apenas hipóteses nulas (equivalentes) (IC totalmente dentro da equivalência).292 \(0<p_{\delta}<1\): inconclusivo; o valor expressa o grau de inconclusão. Em particular, \(p_{\delta}=\tfrac{1}{2}\) indica inconclusão estrita.292
O SGPV é descritivo (não é probabilidade posterior de \(H_0\)).292
26.8.5 Relação com testes de equivalência (TOST)
Tanto SGPV quanto TOST comparam o IC com os limites de equivalência. Se o IC \((1-2\alpha)\) (p.ex., 90% quando \(\alpha=0{,}05\)) cai inteiro dentro dos limites, TOST conclui equivalência — situação análoga a \(p_{\delta}=1\).293
Com ICs simétricos, há pontos de ancoragem em que as estatísticas coincidem: quando \(p_{\text{TOST}}=0{,}5\), então \(\mathrm{SGPV}=0{,}5\); quando o IC toca o limite mas fica inteiramente dentro (fronteira), \(p_{\text{TOST}}=0{,}025\) e \(\mathrm{SGPV}=1\); quando o IC fica inteiramente fora tocando o limite, \(p_{\text{TOST}}=0{,}975\) e \(\mathrm{SGPV}=0\).293
Em ICs assimétricos ou quando \(|I|>2|H_0|\), o SGPV fica difícil de interpretar quando \(0<p_{\delta}<1\); nesses cenários, o TOST costuma diferenciar melhor os resultados.293
26.8.6 Propriedades frequenciais e múltiplas comparações
Usando ICs \(100(1-\alpha)%\), sob qualquer hipótese em \(H_0\), \(\Pr(p_{\delta}=0)\le \alpha\) e \(\to 0\) com o aumento de \(n\); fora de \(H_0\), \(\Pr(p_{\delta}=0)\to 1\) quando \(n\) cresce.292
O SGPV mitiga naturalmente inflação de erro Tipo I em muitas comparações e prioriza relevância científica (não requer ajustes ad hoc).292
26.9 Boas práticas
Defina \(H_0\) intervalar e \(\delta\) a priori com justificativa científica.292,293
Reporte: estimativa pontual, IC, limites de equivalência e \(p_{\delta}\); interprete \(p_{\delta}\in{0,1}\) de forma dicotômica e \(0<p_{\delta}<1\) como inconclusivo; quando necessário, complemente com TOST.292,293
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,