Capítulo 25 P-valor

25.1 P-valor

25.1.1 O que é o P-valor?

P-valor é a probabilidade, assumindo-se um dado modelo estatístico, de que um efeito calculado a partir dos dados seria igual ou mais extremo do que o seu valor observado.²⁷²
P-valor é uma variável aleatória que possui distribuição uniforme quando a hipótese nula (\(H_{0}\)) é verdadeira.²⁷³

25.1.2 O que o P-valor não é?

P-valor não representa a probabilidade de que a hipótese nula (\(H_{0}\)) seja verdadeira, nem a probabilidade de que os dados tenham sido produzidos pelo acaso.²⁷²
P-valor não mede o tamanho do efeito ou a relevância da sua observação.²⁷²
P-valor sozinho não provê informação suficiente sobre a evidência sobre um modelo teórico. A sua interpretação correta requer uma descrição ampla sobre o delineamento, métodos e análises estatísticas aplicados no estudo.²⁷²
Evidência estatística de significância não provê informação sobre a magnitude do efeito observado e não necessariamente implica que o efeito é robusto.^223,273

25.2 Significância estatística

25.2.1 O que é significância estatística?

A expressão “significância estatística”²⁷⁴ ou “evidência estatística de significância” sugere apenas que um experimento merece ser repetido, uma vez que um baixo P-valor (calculado a partir dos dados, modelos e demais suposições do estudo) sugere ser improvável que os dados coletados sejam coletados no contexto de que a hipótese nula (\(H_{0}\)) assumida é verdadeira.²⁷⁵

25.3 Interpretação do P-valor

25.3.1 Como interpretar o P-valor?

P-valores abaixo de um nível de significância estatística pré-especificado representam que um experimento merece ser repetido, com a rejeição da hipótese nula (\(H_{0}\)) justificada apenas quando experimentos adicionais frequentemente reportem igualmente resultados positivos (rejeição da hipótese nula (\(H_{0}\)).²⁵⁸
P-valor resulta da coleta e análise de dados, e assim quantifica a plausibilidade dos dados observados sob a hipótese nula (\(H_{0}\)).²⁷⁶
P-valores podem indicar quantitativamente a incompatibilidade entre os dados obtidos e o modelo estatístico especificado a priori (geralmente constituído pela hipótese nula (\(H_{0}\)).²⁷²
P-valores menores/maiores do que o nível de significância estatístico pré-estabelecido não devem ser utilizados como única fonte de informação para tomada de decisão em ciência.²⁷²

25.3.2 Existe uma crítica lógica à significância estatística?

Sim. Parte da crítica contemporânea argumenta que a significância estatística possui uma base lógica frágil, especialmente quando interpretada como “evidência contra” a hipótese nula.²⁷⁷
O raciocínio subjacente ao P-valor pode ser entendido como uma forma probabilística de “prova por contradição”, cuja validade não se sustenta sob incerteza.²⁷⁷

25.3.3 O que é “prova probabilística por contradição”?

Na lógica clássica, se um evento \(B\) é impossível sob \(A\), então observar \(B\) implica que \(A\) é falso.²⁷⁷
Entretanto, quando substituímos “impossível” por “improvável”, a conclusão não é logicamente válida.²⁷⁷
O fato de \(B\) ser improvável sob \(H_0\) não implica que \(H_0\) seja improvável após observar \(B\).²⁷⁷

25.3.4 Qual é o equívoco central?

Confundir \(P(dados \mid H_0)\) com \(P(H_0 \mid dados)\).²⁷⁷
O P-valor mede a improbabilidade dos dados assumindo \(H_0\) verdadeira.²⁷⁷
Ele não mede a probabilidade de \(H_0\) ser verdadeira.²⁷⁷

25.3.5 O que isso implica para a interpretação do P-valor?

A significância estatística não equivale a “improbabilidade da hipótese nula”.²⁷⁷
A expressão “evidência contra \(H_0\)” conceitualmente mais cautelosa do que “\(H_0\) é improvável” ou “dados são improváveis sob \(H_0\)”, mas ainda repousa em uma estrutura lógica debatida.²⁷⁷

O pacote Superpower²⁷⁸ fornece a função optimal_alpha para calcular e justificar o nível de significância \(\alpha\) por balanço dos erros tipo I e II.

O pacote Superpower²⁷⁸ fornece a função ANOVA_compromise para calcular e justificar o nível de significância \(\alpha\) por balanço dos erros tipo I e II em análise de variância (ANOVA).

25.3.6 Qual a origem do ‘P<0,05’?

A origem do P<0,05 remonta aos trabalhos de R. A. Fisher nas décadas de 1920 e 1930. Fisher introduziu o conceito de P-valor dentro de uma abordagem frequentista de inferência estatística.²⁵⁸
O P<0,05 foi sugerido por Ronald A. Fisher como um limiar prático para indicar que um resultado era “estatisticamente significativo”.²⁵⁸
Para Ronald A. Fisher, a significância estatística não era prova definitiva, mas um sinal de que o resultado merecia investigação adicional. A rejeição da hipótese nula só deveria ocorrer após repetidas observações significativas, e não com base em um único teste.²⁵⁸

Figura 25.1: Visualização espacial de p < 0,05 (5 quadrados aleatórios em 100).

25.3.7 Quais são os complementos ou alternativas ao P-valor?

Intervalos de confiança, credibilidade ou predição.²⁷²
Razão de verossimilhança.²⁷²
Métodos Bayesianos, fator Bayes.²⁷²

25.4 P-valor de 2ª geração

25.4.1 O que é o P-valor de 2ª geração?

O P-valor de 2ª geração (SGPV) resume a fração das hipóteses apoiadas pelos dados que também pertencem à hipótese nula intervalar (intervalo de equivalência previamente especificado). Quantifica quanto do intervalo de estimativa (p.ex., IC95%) recai dentro da zona de indiferença científica/clinicamente irrelevante.²⁷⁹
Essa abordagem exige declarar a hipótese nula como intervalo (e não um ponto), incorporando o que é considerado “efeito sem relevância prática” segundo o contexto científico (precisão de medida, relevância clínica etc.).²⁷⁹

25.4.2 Como definir a hipótese nula intervalar e \(\delta\)?

Especifique \(H_0\) como um intervalo de equivalência \([H_0^{-}, H_0^{+}]\) que contém efeitos considerados praticamente nulos. Defina \(\delta\) como a meia-largura do intervalo de equivalência (\(\delta = (H_0^{+} - H_0^{-})/2\)).²⁷⁹
A escolha deve ser a priori e justificada por critérios científicos (p.ex., MCID, precisão de medida).²⁷⁹

25.4.3 Como calcular o SGPV?

Seja \(I=[a,b]\) o intervalo apoiado pelos dados (p.ex., IC 95%) e \(H_0\) o intervalo nulo. O SGPV é (25.1), onde \(|I|\) é a largura do intervalo de estimativa, \(|H_0|\) é a largura do intervalo nulo e \(|I \cap H_0|\) é a largura da sobreposição entre os dois intervalos. O SGPV é restrito ao intervalo \([0,1]\).²⁷⁹

\[\begin{equation} \tag{25.1} p_{\delta} = \frac{|\,I \cap H_0\,|}{|\,I\,|} \times \max\!\left\{ \frac{|\,I\,|}{2|\,H_0\,|}, \, 1 \right\} \end{equation}\]

Quando \(|I|<2|H_0|\), \(p_{\delta}\) é apenas a fração de sobreposição \(|I\cap H_0|/|I|\).²⁷⁹
Quando \(|I|>2|H_0|\), o SGPV reduz-se a \(\tfrac{1}{2}\times \dfrac{|,I\cap H_0,|}{|,H_0,|}\le \tfrac{1}{2}\), sinalizando inconclusão por imprecisão.²⁷⁹

Tabela 25.1: Comparação entre p-valor (bicaudal, inferido do IC95%) e SGPV (\(p_{\delta}\)) nos cenários simulados.
Cenário	\(a\)	\(b\)	\(H_0^{-}\)	\(H_0^{+}\)	\(\hat\theta\)	\(SE\)	p-valor (bicaudal)	\(p_{\delta}\)	Conclusão (SGPV)
1	0.350	0.550	-0.100	0.100	0.450	0.0510	<0,001	0.000	Apoia alternativas (SGPV=0)
2	-0.050	0.080	-0.100	0.100	0.015	0.0332	0.651	1.000	Equivalência (SGPV=1)
3	-0.500	0.700	-0.100	0.100	0.100	0.3061	0.744	0.500	Inconclusivo (0<pδ<1) < td> </pδ<1)>
4	0.050	0.250	-0.100	0.100	0.150	0.0510	0.003	0.250	Inconclusivo (0<pδ<1) < td> </pδ<1)>
5	-0.250	-0.050	-0.100	0.100	-0.150	0.0510	0.003	0.250	Inconclusivo (0<pδ<1) < td> </pδ<1)>
6	0.150	0.550	-0.100	0.100	0.350	0.1020	0.001	0.000	Apoia alternativas (SGPV=0)
7	-0.550	-0.150	-0.100	0.100	-0.350	0.1020	0.001	0.000	Apoia alternativas (SGPV=0)

25.4.4 Como interpretar o SGPV?

\(p_{\delta}=0\): dados apoiam apenas hipóteses alternativas relevantes (IC totalmente fora da equivalência).²⁷⁹
\(p_{\delta}=1\): dados apoiam apenas hipóteses nulas (equivalentes) (IC totalmente dentro da equivalência).²⁷⁹ \(0<p_{\delta}<1\): inconclusivo; o valor expressa o grau de inconclusão. Em particular, \(p_{\delta}=\tfrac{1}{2}\) indica inconclusão estrita.²⁷⁹
O SGPV é descritivo (não é probabilidade posterior de \(H_0\)).²⁷⁹

25.4.5 Relação com testes de equivalência

Tanto SGPV quanto Dois Testes Unicaudais (Two One-Sided Tests, TOST) comparam o IC com os limites de equivalência. Se o IC \((1-2\alpha)\) (p.ex., 90% quando \(\alpha=0{,}05\)) cai inteiro dentro dos limites, TOST conclui equivalência — situação análoga a \(p_{\delta}=1\).²⁸⁰
Com ICs simétricos, há pontos de ancoragem em que as estatísticas coincidem: quando \(p_{\text{TOST}}=0{,}5\), então \(\mathrm{SGPV}=0{,}5\); quando o IC toca o limite mas fica inteiramente dentro (fronteira), \(p_{\text{TOST}}=0{,}025\) e \(\mathrm{SGPV}=1\); quando o IC fica inteiramente fora tocando o limite, \(p_{\text{TOST}}=0{,}975\) e \(\mathrm{SGPV}=0\).²⁸⁰
Em ICs assimétricos ou quando \(|I|>2|H_0|\), o SGPV fica difícil de interpretar quando \(0<p_{\delta}<1\); nesses cenários, o TOST costuma diferenciar melhor os resultados.²⁸⁰

25.4.6 Propriedades frequenciais e múltiplas comparações

Usando ICs \(100(1-\alpha)%\), sob qualquer hipótese em \(H_0\), \(\Pr(p_{\delta}=0)\le \alpha\) e \(\to 0\) com o aumento de \(n\); fora de \(H_0\), \(\Pr(p_{\delta}=0)\to 1\) quando \(n\) cresce.²⁷⁹
O SGPV mitiga naturalmente inflação de erro Tipo I em muitas comparações e prioriza relevância científica (não requer ajustes ad hoc).²⁷⁹

25.5 Distribuição de confiança

25.5.1 O que é distribuição de confiança?

Distribuição de confiança é uma representação contínua da evidência inferencial sobre um parâmetro de interesse. Ela mostra, para cada valor possível do tamanho do efeito, o nível de confiança associado.^REF?

Figura 25.2: Distribuição de confiança para o tamanho do efeito estimado.

25.5.2 Como interpretar a distribuição de confiança?

Defina \(H_0\) intervalar e \(\delta\) a priori com justificativa científica.^279,280
Reporte a estimativa pontual, o intervalo de confiança, os limites de equivalência e \(p_{\delta}\); interprete \(p_{\delta}\in{0,1}\) de forma dicotômica e \(0<p_{\delta}<1\) como inconclusivo; quando necessário, complemente com TOST.^279,280

Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,

Referências

223.

Landis SC, Amara SG, Asadullah K, et al. A call for transparent reporting to optimize the predictive value of preclinical research. Nature. 2012;490(7419):187–191. doi:10.1038/nature11556

258.

Goodman SN. Aligning statistical and scientific reasoning. Science. 2016;352(6290):1180–1181. doi:10.1126/science.aaf5406

272.

Wasserstein RL, Lazar NA. The ASA Statement on p-Values: Context, Process, and Purpose. The American Statistician. 2016;70(2):129–133. doi:10.1080/00031305.2016.1154108

273.

Altman N, Krzywinski M. P values and the search for significance. Nature Methods. 2017;14(1):3–4. doi:10.1038/nmeth.4120

274.

LATTER OH. THE EGG OF CUCULUS CANORUS: AN ENQUIRY INTO THE DIMENSIONS OF THE CUCKOO’S EGO AND THE RELATION OF THE VARIATIONS TO THE SIZE OF THE EGGS OF THE FOSTER-PARENT, WITH NOTES ON COLORATION, &c. Biometrika. 1902;1(2):164–176. doi:10.1093/biomet/1.2.164

275.

Aylmer Fisher R. The arrangement of field experiments. Ministry of Agriculture and Fisheries. 1926. doi:10.23637/ROTHAMSTED.8V61Q

276.

Heinze G, Dunkler D. Five myths about variable selection. Transplant International. 2016;30(1):6–10. doi:10.1111/tri.12895

277.

Zhu M. The rule of three, proof by contradiction, and uncertainty. Math Horizons. 2026;33(3):16–20. doi:10.1080/10724117.2025.2580363

278.

Lakens D, Caldwell A. Simulation-Based Power Analysis for Factorial Analysis of Variance Designs. Advances in Methods and Practices in Psychological Science. 2021;4:251524592095150. doi:10.1177/2515245920951503

279.

Blume JD, D’Agostino McGowan L, Dupont WD, Greevy RA. Second-generation p-values: Improved rigor, reproducibility, & transparency in statistical analyses. Smalheiser NR, org. PLOS ONE. 2018;13(3):e0188299. doi:10.1371/journal.pone.0188299

280.

Lakens D, Delacre M. Equivalence Testing and the Second Generation P-Value. Meta-Psychology. 2020;4. doi:10.15626/mp.2018.933