Capítulo 27 Análise inferencial


27.1 Raciocínio inferencial


27.1.1 O que é análise inferencial?

  • Na análise inferencial são utilizados dados da(s) amostra(s) para fazer uma inferência válida (isto é, estimativa) sobre os parâmetros populacionais desconhecidos.111

  • No paradigma de Jerzy Neyman e Egon Pearson, um teste de hipótese científica envolve a tomada de decisão sobre hipóteses nulas (\(H_{0}\)) e alternativa (\(H_{1}\)) concorrentes e mutuamente exclusivas.265


27.1.2 Quais são os tipos de raciocínio inferencial?

  • Inferência dedutiva: Uma dada hipótese inicial é utilizada para prever o que seria observado caso tal hipótese fosse verdadeira.266

  • Inferência indutiva: Com base nos dados observados, avalia-se qual hipótese é mais defensável (isto é, mais provável).266


27.1.3 Quais são as questões fundamentais da análise inferencial?

  • A direção do efeito267

  • A magnitude do efeito267

  • A importância do efeito267


27.2 Hipóteses científicas


27.2.1 O que é hipótese científica?

  • Hipótese científica é uma ideia que pode ser testada.265

  • Definir claramente os problemas e os objetivos da pesquisa são o ponto de partida de todos os estudos científicos.136

  • Além do papel técnico, os testes de hipótese carregam uma dimensão interpretativa que molda como os pesquisadores comunicam descobertas. Estudos recentes destacam o caráter pragmático e dicotômico dessas decisões.268


27.2.2 Quais são as fontes de ideias para gerar hipóteses científicas?

  • Revisão das práticas atuais.269

  • Desafio a ideias aceitas.269

  • Conflito entre ideias divergentes.269

  • Variações regionais, temporais e populacionais.269

  • Experiências dos próprios pesquisadores.269

  • Imaginação sem fronteiras ou limites convencionais.269


27.3 Hipóteses estatísticas


27.3.1 O que é hipótese nula?

  • A hipótese nula (\(H_{0}\)) é uma expressão que representa o estado atual do conhecimento (status quo), em geral a não existência de um determinado efeito.183


27.3.2 O que é hipótese alternativa?

  • A hipótese alternativa (\(H_{1}\)) é uma expressão que contém as situações que serão testadas, de modo que um resultado positivo indique alguma ação a ser conduzida.183


27.3.3 Qual hipótese está sendo testada?

  • A hipótese nula (\(H_{0}\)) é a hipótese sob teste em análises inferenciais.112

  • Pode-se concluir sobre rejeitar ou não rejeitar a hipótese nula (\(H_{0}\)).112

  • Não se conclui sobre a hipótese alternativa (\(H_{1}\)).183

  • Para testar a hipótese nula, deve-se selecionar o nível de significância crítica (P-valor de corte); a probabilidade de rejeitarmos uma hipótese nula verdadeira (\(\alpha\)); e a probabilidade de não rejeitarmos uma hipótese nula falsa (\(\beta\)).265


27.4 Testes de hipóteses


27.4.1 Quais são os tipos de teste de hipóteses?

  • Teste (clássico) de significância da hipótese nula: verifica evidência contra \(H_{0}\) usando P-valor.270

  • Teste de mínimos efeitos (MOTE/MOST/SESOI): testa se o efeito é pelo menos tão grande quanto um limiar de relevância (SESOI). Rejeitar \(H_{0}\) sugere efeito grande o suficiente.270

  • Teste de equivalência (TOST): testa se o efeito está dentro de uma margem de equivalência clinicamente irrelevante (entre \(\Delta\) e \(-\Delta\)). Rejeitar \(H_{0}\) sugere equivalência prática.270

  • Teste de superioridade: avalia se um tratamento/intervenção supera o controle por uma margem \(>0\) ou \(>\Delta\).270

  • Teste de não-inferioridade: avalia se o tratamento não é pior que o controle por mais do que \(-\Delta\).REF?

  • Teste de inferioridade: avalia se o tratamento é pior que o controle (por exemplo, para checar segurança).REF?


27.4.2 O que reportar após um teste de hipótese?

  • P-valores, como estimativa da significância estatística.271

  • Tamanho do efeito, como estimativa de significância substantiva.271


27.5 Intervalos de confiança e raciocínio de longo prazo


27.5.1 O que é um intervalo de confiança?

  • Um intervalo de confiança é um procedimento inferencial utilizado para estimar um parâmetro populacional desconhecido a partir de dados amostrais, levando em conta a variabilidade inerente ao processo de amostragem.272

  • Diferentemente de uma estatística descritiva, o intervalo de confiança não é uma propriedade fixa do parâmetro, mas uma propriedade do procedimento estatístico utilizado para estimá-lo.273

  • O parâmetro populacional é considerado fixo (embora desconhecido), enquanto o intervalo de confiança é uma quantidade aleatória, pois depende da amostra observada.REF?


27.5.2 Intervalos de confiança e a lógica frequentista

  • No paradigma frequentista, a probabilidade é interpretada como uma frequência relativa observável no longo prazo, associada a um processo repetível.272

  • Um intervalo de confiança de nível \((1-\alpha)\) é construído de modo que, se o mesmo procedimento de amostragem e análise fosse repetido indefinidamente sob as mesmas condições, aproximadamente \((1-\alpha)\times100\%\) dos intervalos assim gerados conteriam o verdadeiro valor do parâmetro populacional.273

  • Portanto, a probabilidade associada ao intervalo de confiança refere-se ao desempenho do procedimento no longo prazo, e não à probabilidade de o parâmetro estar contido em um intervalo específico observado.


Simulação ilustrativa de intervalos de confiança (IC) em 100 experimentos independentes, cada um com 1.000 observações amostradas de uma população normal padrão (média = 0, desvio-padrão = 1). Os ICs são construídos no nível de 95\%. O gráfico superior mostra os ICs individuais para cada experimento, indicando se o IC cobre ou não a média verdadeira ($\mu = 0$). O gráfico inferior apresenta a distribuição das médias amostrais obtidas nos experimentos, juntamente com o IC teórico para a média populacional. Observe que aproximadamente 95\% dos ICs individuais cobrem a média verdadeira, ilustrando o conceito de cobertura no longo prazo associado aos intervalos de confiança.

Figura 27.1: Simulação ilustrativa de intervalos de confiança (IC) em 100 experimentos independentes, cada um com 1.000 observações amostradas de uma população normal padrão (média = 0, desvio-padrão = 1). Os ICs são construídos no nível de 95%. O gráfico superior mostra os ICs individuais para cada experimento, indicando se o IC cobre ou não a média verdadeira (\(\mu = 0\)). O gráfico inferior apresenta a distribuição das médias amostrais obtidas nos experimentos, juntamente com o IC teórico para a média populacional. Observe que aproximadamente 95% dos ICs individuais cobrem a média verdadeira, ilustrando o conceito de cobertura no longo prazo associado aos intervalos de confiança.


27.5.3 O que um intervalo de confiança não representa

  • Um intervalo de confiança não deve ser interpretado como a probabilidade de que o parâmetro esteja contido naquele intervalo específico.274

  • Após os dados terem sido observados e o intervalo calculado, o parâmetro populacional ou está dentro do intervalo ou não está; não há incerteza probabilística sobre isso no sentido frequentista.274

  • A incerteza expressa pelo intervalo de confiança refere-se à variabilidade do processo inferencial, e não a uma distribuição de probabilidade do parâmetro.274


27.5.4 Relação entre intervalos de confiança e testes de hipóteses

  • Intervalos de confiança e testes de hipótese frequentistas são derivados do mesmo modelo probabilístico subjacente e utilizam as mesmas suposições estatísticas.275

  • Em testes bicaudais, qualquer valor hipotético do parâmetro que esteja fora do intervalo de confiança de nível \((1-\alpha)\) corresponde a uma hipótese nula que seria rejeitada ao nível de significância \(\alpha\).275

  • De forma análoga, valores do parâmetro que estejam dentro do intervalo de confiança correspondem a hipóteses nulas para as quais não haveria evidência suficiente para rejeição ao nível \(\alpha\).275

  • Apesar dessa equivalência formal, intervalos de confiança e testes de hipótese respondem a perguntas distintas: testes enfatizam decisões dicotômicas, enquanto intervalos de confiança enfatizam estimação e incerteza.275


27.5.5 Por que intervalos de confiança são centrais na inferência científica

  • Intervalos de confiança permitem avaliar simultaneamente a magnitude do efeito e a incerteza associada à sua estimativa, na mesma unidade de medida da variável de interesse.275

  • Essa abordagem favorece interpretações substantivas e científicas dos resultados, em oposição a decisões puramente dicotômicas baseadas em pontos de corte arbitrários.275

  • Quando corretamente interpretados, intervalos de confiança promovem uma comunicação mais informativa da evidência científica e reduzem interpretações equivocadas associadas ao uso exclusivo de P-valores.274


27.6 Comparações múltiplas


27.6.1 O que é uma família de hipóteses?

  • Família de hipóteses é um conjunto de comparações/inferências que, por desenho ou análise, devem ser consideradas juntas para controle do erro tipo I global (ex.: todas as comparações de um desfecho primário, todos os subgrupos pré-especificados, todos os desfechos coprimários).REF?

  • O controle do family-wise error rate (FWER) ou do false discovery rate (FDR) deve considerar a família pertinente, não comparações isoladas.REF?


27.6.2 O que são testes ad hoc e post hoc?

  • Ad hoc: análises/decisões não planejadas a priori, motivadas por inspeção dos dados. Úteis para gerar hipóteses, não para confirmá-las.REF?

  • Post hoc: procedimentos de comparações múltiplas aplicados após um teste global ter indicado efeito significativo. Visam controlar o erro tipo I em múltiplas comparações.REF?


27.6.3 Como ajustar a análise inferencial para hipóteses múltiplas?

  • Defina a família (o que entra no ajuste) e priorize desfechos (primário, coprimários, secundários).REF?

  • Aplique métodos de controle FWER (Bonferroni, Holm, Hochberg, Dunnett para múltiplos vs. controle) ou controle FDR (Benjamini–Hochberg) conforme o objetivo (confirmação vs. exploração).REF?

  • Em planos confirmatórios, use hierarquização/gatekeeping: testa-se em sequência; a alocação de \(\alpha\) passa adiante apenas se houver significância no nível anterior.REF?



27.6.4 O que são testes unicaudais e bicaudais?

  • Teste unicaudal procura evidência em uma direção específica (ex.: “maior que 0”). Toda a região crítica está numa só cauda; tem maior poder para aquela direção, mas não detecta sinal oposto.REF?


Representação gráfica de um teste de hipótese unicaudal à direita, aplicado quando se busca evidência de efeitos positivos (valores significativamente maiores que o esperado sob $H_0$).

Figura 27.2: Representação gráfica de um teste de hipótese unicaudal à direita, aplicado quando se busca evidência de efeitos positivos (valores significativamente maiores que o esperado sob \(H_0\)).


Representação gráfica de um teste de hipótese unicaudal à esquerda, aplicado quando se busca evidência de efeitos negativos (valores significativamente menores que o esperado sob $H_0$).

Figura 27.3: Representação gráfica de um teste de hipótese unicaudal à esquerda, aplicado quando se busca evidência de efeitos negativos (valores significativamente menores que o esperado sob \(H_0\)).


  • Teste bicaudal procura evidência em qualquer direção (ex.: “diferente de 0”). Divide \(\alpha\) em duas caudas (direita e esquerda). É a escolha padrão quando ambas as direções são plausíveis.REF?


Representação gráfica de um teste de hipótese bicaudal, aplicado quando se busca evidência de efeitos positivos ou negativos (valores significativamente diferentes do esperado sob $H_0$).

Figura 27.4: Representação gráfica de um teste de hipótese bicaudal, aplicado quando se busca evidência de efeitos positivos ou negativos (valores significativamente diferentes do esperado sob \(H_0\)).


27.7 Inferência visual


27.7.1 O que é inferência visual?

  • Inferência visual consiste na interpretação de dados apresentados em gráficos.275

  • Para inferência visual, recomenda-se a apresentação dos dados em gráficos com estimativas de tendência central e seu intervalo (preferencialmete intervalo de confiança no nível de significância \(\alpha\) pré-estabelecido).275


27.7.2 Por que usar intervalos de confiança para inferência visual?

  • Intervalos de confiança fornecem estimativas pontuais e intervalares na mesma unidade de medida da variável.275

  • Existe uma relação entre o intervalo de confiança e o P-valor obtido pelo teste de significância de hipótese nula \(H_{0}\), em que ambos consideram o mesmo nível de significância \(\alpha\) pré-estabelecido.275


27.7.3 Como interpretar intervalos de confiança em uma figura?

  • Identifique o que as tendências centrais e as barras de erro representam. Qual é a variável dependente? É expressa em unidades originais ou é padronizada ? A figura mostra intervalos de confiança, erro-padrão ou desvio-padrão? Qual é o desenho experimental?275

  • Faça uma interpretação substantiva dos valores de tendência central e dos intervalos de confiança.275

  • O intervalo de confiança é uma faixa de valores plausíveis para a tendência central. Valores fora do intervalo são relativamente implausíveis, no nível de significância \(\alpha\) pré-estabelecido.275

  • Qualquer valor fora do intervalo de confiança, quando considerado como hipótese nula (\(H_{0}\)), equivale a \(P < \alpha\) pré-estabelecido (bicaudal).275

  • Qualquer valor dentro do intervalo, quando considerado como hipótese nula (\(H_{0}\)), equivale a \(P > \alpha\) pré-estabelecido (bicaudal).275


27.8 Interpretação de análise inferencial


27.8.1 Como interpretar uma análise inferencial?

  • Testes de hipótese nula (\(H_{0}\)) vs. alternativa (\(H_{1}\)) a partir de um nível de significância (\(\alpha\)) pré-especificado.273

  • P-valor como evidência estatística sobre (\(H_{0}\)).273

  • Estimação de intervalos de confiança de um nível de significância (\(\alpha\)) pré-especificado bicaudal (\(IC_{1-\alpha/2}\)) ou unicaudal (\(IC_{1-\alpha}\)).273

  • Análise Bayesiana.273


27.8.2 O que são resultados positivos” e “negativos” (inconclusivos) em teste de hipótese?

  • Resultados “positivos” compreendem um P-valor dentro da zona crítica estatisticamente significativa (ex.: \(P<0,05\) ou outro ponto de corte) e sugerem que os autores rejeitem a hipótese nula (\(H_{0}\)), confirmando assim sua hipótese científica.276

  • Resultados “negativos” ou inconclusivos compreendem um P-valor fora da zona crítica estatisticamente significativa (ex.: \(P \geq 0,05\) ou outro ponto de corte) e sugerem que os autores não rejeitem a hipótese nula (\(H_{0}\)) porque o efeito observado é nulo (logo, “negativo”), ou porque o estudo não possui poder suficiente para detectá-lo, não permitindo portanto afirmar a hipótese científica (logo, inconclusivo).276


27.8.3 Qual a importância de resultados “negativos”?

  • Conhecer resultados negativos contribui com uma visão mais ampla do campo de estudo junto aos resultados positivos.277

  • Resultados negativos permitem um melhor planejamento das pesquisas futuras e pode aumentar suas chances de sucesso.277


27.8.4 Resultados inconclusivos: Ausência de evidência ou evidência de ausência?

  • Em estudos (geralmente com amostras grandes), resultados estatisticamente significativos (com P-valores menores do limiar pré-estabelecido, \(P<\alpha\)) podem não ser clinicamente relevantes.278

  • Em estudos (geralmente com amostras pequenas), resultados estatisticamente não significativos (com P-valores iguais ou maiores do limiar pré-estabelecido, \(P \geq \alpha\)) não devem ser interpretados como evidência de inexistência do efeito.278

  • Geralmente é razoável aceitar uma nova conclusão apenas quando há dados a seu favor (‘resultados positivos’). Também é razoável questionar se apenas a ausência de dados a seu favor (‘resultados negativos’) justifica suficientemente a rejeição de tal conclusão.278

  • A prática estatística convencional tende a reduzir a incerteza científica a decisões docotômicas. Essa simplificação possui implicações epistemológicas importantes: os testes de hipótese produzem não apenas juízos empíricos, mas também atos pragmáticos que comunicam graus de confiança e orientam ações.268


27.9 Erros de inferência I, II, S e M


27.9.1 O que são erros de inferência estatística?

  • Um erro de inferência é a tomada de decisão incorreta, seja a favor ou contra a hipótese nula (\(H_{0}\)).265


27.9.2 O que são erros Tipo I e Tipo II?

  • Erro Tipo I significa a rejeição de uma hipótese nula (\(H_{0}\)) quando esta é verdadeira.265

  • Erro Tipo II significa a não rejeição de uma hipótese nula (\(H_{0}\)) quando esta é falsa.265


Tabela 27.1: Tabela de erros tipos I e II de inferência estatística.
Hipótese nula \(H_{0}\) é falsa Hipótese nula \(H_{0}\) é verdadeira
Hipótese nula \(H_{0}\) foi rejeitada Decisão correta Decisão incorreta (erro tipo I)
Hipótese nula \(H_{0}\) não foi rejeitada Decisão incorreta (erro tipo II) Decisão correta


Representação gráfica dos erros tipo I e tipo II em um teste de hipótese (bicaudal).

Figura 27.5: Representação gráfica dos erros tipo I e tipo II em um teste de hipótese (bicaudal).


Erro tipo I: Distribuição dos p-valores em 100 testes de hipótese de amostras aleatórias de tamanho 30. A linha vermelha pontilhada indica o nível de significância estatística de 0,05.

Figura 27.6: Erro tipo I: Distribuição dos p-valores em 100 testes de hipótese de amostras aleatórias de tamanho 30. A linha vermelha pontilhada indica o nível de significância estatística de 0,05.


Erro tipo II: Distribuição dos p-valores em 100 testes de hipótese de amostras aleatórias de tamanho 10. A linha vermelha pontilhada indica o nível de significância estatística de 0,05.

Figura 27.7: Erro tipo II: Distribuição dos p-valores em 100 testes de hipótese de amostras aleatórias de tamanho 10. A linha vermelha pontilhada indica o nível de significância estatística de 0,05.


27.9.3 O que são erros Tipo S e Tipo M?

  • Erro Tipo S (do inglês sign) significa a identificação errônea da direção — positiva ou negativa — do efeito observado.279,280


Tabela 27.2: Tabela de erro tipo S de inferência estatística.
Sinal positivo Sinal negativo
Sinal positivo Decisão correta Decisão incorreta (erro tipo S)
Sinal negativo Decisão incorreta (erro tipo S) Decisão correta


Representação gráfica do erro tipo S (sinal) em um teste de hipótese (bicaudal).

Figura 27.8: Representação gráfica do erro tipo S (sinal) em um teste de hipótese (bicaudal).


  • Erro Tipo M (do inglês magnitude) significa a identificação errônea — em geral, exagerada — da magnitude do efeito observado.279,280


Tabela 27.3: Tabela de erro tipo M de inferência estatística.
Magnitude alta Magnitude baixa
Magnitude alta Decisão correta Decisão incorreta (erro tipo M)
Magnitude baixa Decisão incorreta (erro tipo M) Decisão correta


Representação gráfica do erro tipo M (magnitude) em um teste de hipótese (bicaudal).

Figura 27.9: Representação gráfica do erro tipo M (magnitude) em um teste de hipótese (bicaudal).



Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,


Referências

111.
Vetter TR. Fundamentals of Research Data and Variables. Anesthesia & Analgesia. 2017;125(4):1375–1380. doi:10.1213/ane.0000000000002370
112.
Ali Z, Bhaskar Sb. Basic statistical tools in research and data analysis. Indian Journal of Anaesthesia. 2016;60(9):662. doi:10.4103/0019-5049.190623
134.
R Core Team. R: A Language and Environment for Statistical Computing.; 2025. https://www.R-project.org/.
136.
Smeden M van. A Very Short List of Common Pitfalls in Research Design, Data Analysis, and Reporting. PRiMER. 2022;6. doi:10.22454/PRiMER.2022.511416
183.
Kanji G. 100 Statistical Tests. SAGE Publications Ltd; 2006. doi:10.4135/9781849208499
265.
Curran-Everett D. Explorations in statistics: hypothesis tests and P values. Advances in Physiology Education. 2009;33(2):81–86. doi:10.1152/advan.90218.2008
266.
Goodman SN. Toward Evidence-Based Medical Statistics. 1: The P Value Fallacy. Annals of Internal Medicine. 1999;130(12):995. doi:10.7326/0003-4819-130-12-199906150-00008
267.
McCaskey K, Rainey C. Substantive Importance and the Veil of Statistical Significance. Statistics, Politics and Policy. 2015;6(1-2). doi:10.1515/spp-2015-0001
269.
Vandenbroucke JP, Pearce N. From ideas to studies: how to get ideas and sharpen them into research questions. Clinical Epidemiology. 2018;Volume 10:253–264. doi:10.2147/clep.s142940
270.
Lakens D, Scheel AM, Isager PM. Equivalence Testing for Psychological Research: A Tutorial. Advances in Methods and Practices in Psychological Science. 2018;1(2):259–269. doi:10.1177/2515245918770963
271.
Sullivan GM, Feinn R. Using Effect Sizeor Why the P Value Is Not Enough. Journal of Graduate Medical Education. 2012;4(3):279–282. doi:10.4300/jgme-d-12-00156.1
272.
Neyman J. Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability. Philosophical Transactions of the Royal Society of London Series A, Mathematical and Physical Sciences. 1937;236(767):333–380. doi:10.1098/rsta.1937.0005
273.
Goodman SN. Aligning statistical and scientific reasoning. Science. 2016;352(6290):1180–1181. doi:10.1126/science.aaf5406
274.
Greenland S, Senn SJ, Rothman KJ, et al. Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations. European Journal of Epidemiology. 2016;31(4):337–350. doi:10.1007/s10654-016-0149-3
275.
Cumming G, Finch S. Inference by Eye: Confidence Intervals and How to Read Pictures of Data. American Psychologist. 2005;60(2):170–180. doi:10.1037/0003-066x.60.2.170
276.
Greenhalgh T. How to read a paper: Statistics for the non-statistician. II: ̈Significanẗ relations and their pitfalls. BMJ. 1997;315(7105):422–425. doi:10.1136/bmj.315.7105.422
277.
Weintraub PG. The Importance of Publishing Negative Results. Journal of Insect Science. 2016;16(1):109. doi:10.1093/jisesa/iew092
278.
Altman DG, Bland JM. Statistics notes: Absence of evidence is not evidence of absence. BMJ. 1995;311(7003):485–485. doi:10.1136/bmj.311.7003.485
279.
Gelman A, Carlin J. Beyond Power Calculations. Perspectives on Psychological Science. 2014;9(6):641–651. doi:10.1177/1745691614551642
280.
Lu J, Qiu Y, Deng A. A note on Type S/M errors in hypothesis testing. British Journal of Mathematical and Statistical Psychology. 2018;72(1):1–17. doi:10.1111/bmsp.12132