Capítulo 30 Análise inferencial
30.1 Raciocínio inferencial
30.1.1 O que é análise inferencial?
Na análise inferencial são utilizados dados da(s) amostra(s) para fazer uma inferência válida (isto é, estimativa) sobre os parâmetros populacionais desconhecidos.136
No paradigma de Jerzy Neyman e Egon Pearson, um teste de hipótese científica envolve a tomada de decisão sobre hipóteses nulas (\(H_{0}\)) e alternativa (\(H_{1}\)) concorrentes e mutuamente exclusivas.320
30.1.2 Quais são os tipos de raciocínio inferencial?
Inferência dedutiva: Uma dada hipótese inicial é utilizada para prever o que seria observado caso tal hipótese fosse verdadeira.321
Inferência indutiva: Com base nos dados observados, avalia-se qual hipótese é mais defensável (isto é, mais provável).321
30.1.3 Quais são as questões fundamentais da análise inferencial?
O pacote infer323 fornece a função specify para especificar as variáveis ou a relação entre elas.
O pacote infer323 fornece a função hypothesize para especificar a hipótese nula.
O pacote infer323 fornece a função generate para gerar reamostras, permutações ou simulações.
O pacote infer323 fornece a função calculate para calcular estatísticas sumárias.
30.2 Hipóteses científicas
30.2.1 O que é hipótese científica?
Hipótese científica é uma ideia que pode ser testada.320
Definir claramente os problemas e os objetivos da pesquisa são o ponto de partida de todos os estudos científicos.161
Além do papel técnico, os testes de hipótese carregam uma dimensão interpretativa que molda como os pesquisadores comunicam descobertas.324
30.2.2 Quais são as fontes de ideias para gerar hipóteses científicas?
Revisão das práticas atuais.325
Desafio a ideias aceitas.325
Conflito entre ideias divergentes.325
Variações regionais, temporais e populacionais.325
Experiências dos próprios pesquisadores.325
Imaginação sem fronteiras ou limites convencionais.325
30.3 Hipóteses estatísticas
30.3.1 O que é hipótese nula?
- A hipótese nula (\(H_{0}\)) é uma expressão que representa o estado atual do conhecimento (status quo), em geral a não existência de um determinado efeito.203
30.3.2 O que é hipótese alternativa?
- A hipótese alternativa (\(H_{1}\)) é uma expressão que contém as situações que serão testadas, de modo que um resultado positivo indique alguma ação a ser conduzida.203
30.3.3 Qual hipótese está sendo testada?
A hipótese nula (\(H_{0}\)) é a hipótese sob teste em análises inferenciais.137
Pode-se concluir sobre rejeitar ou não rejeitar a hipótese nula (\(H_{0}\)).137
Não se conclui sobre a hipótese alternativa (\(H_{1}\)).203
Para testar a hipótese nula, deve-se selecionar o nível de significância crítica (P-valor de corte); a probabilidade de rejeitarmos uma hipótese nula verdadeira (\(\alpha\)); e a probabilidade de não rejeitarmos uma hipótese nula falsa (\(\beta\)).320
30.4 Testes de hipóteses
30.4.1 Quais são os tipos de teste de hipóteses?
Teste de significância da hipótese nula: verifica evidência contra \(H_{0}\) usando P-valor.326
Teste de mínimos efeitos: testa se o efeito é pelo menos tão grande quanto um limiar de relevância (smallest effect size of interest, SESOI). Rejeitar \(H_{0}\) sugere efeito grande o suficiente.326
Teste de superioridade: avalia se uma intervenção supera outra, podendo testar tanto diferença em relação a zero quanto diferença superior a um menor efeito de interesse (smallest effect size of interest, SESOI).326,327
Teste de equivalência ou dois testes unicaudais (Two One-Sided Tests, TOST): avalia se a diferença entre intervenções está inteiramente dentro de margens de equivalência previamente definidas (\(-\Delta\) e \(\Delta\)). Rejeitar \(H_{0}\) sugere equivalência prática.326,327
Teste de não-inferioridade: avalia se uma intervenção não é pior que uma intervenção de referência por mais do que uma margem previamente definida (\(-\Delta_{NI}\)).327
Figura 30.1: Representação gráfica de diferentes tipos de teste de hipóteses: superioridade, equivalência (TOST) e não-inferioridade. As áreas coloridas indicam as regiões de decisão para cada teste, enquanto as linhas verticais representam os limites críticos.
30.4.2 O que são testes unicaudais e bicaudais?
Teste unicaudal à direita avalia evidência para a hipótese alternativa \(H_A:\mu > \mu_0\). Busca-se verificar se o parâmetro populacional é significativamente maior que o valor especificado pela hipótese nula.328
Teste unicaudal à esquerda avalia evidência para a hipótese alternativa \(H_A:\mu < \mu_0\). Busca-se verificar se o parâmetro populacional é significativamente menor que o valor especificado pela hipótese nula.328
Nos testes unicaudais, toda a região crítica é concentrada em uma única cauda da distribuição. O nível de significância \(\alpha\) é alocado integralmente nessa direção, aumentando o poder estatístico para detectar efeitos no sentido previsto, mas não permitindo concluir significância no sentido oposto.328
Figura 30.2: Representação gráfica de um teste de hipótese unicaudal à direita, aplicado quando se busca evidência de efeitos positivos (valores significativamente maiores que o esperado sob \(H_0\)).
Figura 30.3: Representação gráfica de um teste de hipótese unicaudal à esquerda, aplicado quando se busca evidência de efeitos negativos (valores significativamente menores que o esperado sob \(H_0\)).
Teste bicaudal avalia evidência para a hipótese alternativa \(H_A:\mu \neq \mu_0\), investigando se o parâmetro populacional difere do valor especificado pela hipótese nula, independentemente da direção da diferença.328
Nos testes bicaudais, o nível de significância \(\alpha\) é dividido entre as duas caudas da distribuição, geralmente em \(\alpha/2\) para cada lado. Essa abordagem é apropriada quando diferenças positivas e negativas são igualmente plausíveis.328
O teste bicaudal é não direcional: ao rejeitar \(H_0\), a conclusão formal é apenas que existe uma diferença (\(\mu \neq \mu_0\)), não que o parâmetro seja necessariamente maior ou menor.
Figura 30.4: Representação gráfica de um teste de hipótese bicaudal, aplicado quando se busca evidência de efeitos positivos ou negativos (valores significativamente diferentes do esperado sob \(H_0\)).
30.5 Intervalos de confiança e raciocínio de longo prazo
30.5.1 O que é um intervalo de confiança?
Um intervalo de confiança é um procedimento inferencial utilizado para estimar um parâmetro populacional desconhecido a partir de dados amostrais, levando em conta a variabilidade inerente ao processo de amostragem.330
Diferentemente de uma estatística descritiva, o intervalo de confiança não é uma propriedade fixa do parâmetro, mas uma propriedade do procedimento estatístico utilizado para estimá-lo.331
Intervalo de confiança para variância conhecida (30.1) e desconhecida (30.2) capturam a média correspondente ao nível de significância \(\alpha\) pré-estabelecido137,203,208,240.
\[\begin{equation} \tag{30.1} IC = \bar{x} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \end{equation}\]
\[\begin{equation} \tag{30.2} IC = \bar{x} \pm t_{\alpha/2, n-1} \cdot \frac{s}{\sqrt{n}} \end{equation}\]
30.5.2 O que é raciocínio de longo prazo?
No paradigma frequentista, a probabilidade é interpretada como uma frequência relativa observável no longo prazo, associada a um processo repetível.330
Um intervalo de confiança de nível \((1-\alpha)\) é construído de modo que, se o mesmo procedimento de amostragem e análise fosse repetido indefinidamente sob as mesmas condições, aproximadamente \((1-\alpha)\times100\%\) dos intervalos assim gerados conteriam o verdadeiro valor do parâmetro populacional.331
Figura 30.5: Simulação ilustrativa de intervalos de confiança (IC) em 100 experimentos independentes, cada um com 1.000 observações amostradas de uma população normal padrão (média = 0, desvio-padrão = 1). Os ICs são construídos no nível de 95%. O gráfico superior mostra os ICs individuais para cada experimento, indicando se o IC cobre ou não a média verdadeira (\(\mu = 0\)). O gráfico inferior apresenta a distribuição das médias amostrais obtidas nos experimentos, juntamente com o IC teórico para a média populacional. Observe que aproximadamente 95% dos ICs individuais cobrem a média verdadeira, ilustrando o conceito de cobertura no longo prazo associado aos intervalos de confiança.
30.5.3 O que um intervalo de confiança não representa?
Um intervalo de confiança não deve ser interpretado como a probabilidade de que o parâmetro esteja contido naquele intervalo específico.332
Após os dados terem sido observados e o intervalo calculado, o parâmetro populacional ou está dentro do intervalo ou não está; não há incerteza probabilística sobre isso no sentido frequentista.332
A incerteza expressa pelo intervalo de confiança refere-se à variabilidade do processo inferencial, e não a uma distribuição de probabilidade do parâmetro.332
30.5.4 Qual a relação entre intervalos de confiança e testes de hipóteses?
Intervalos de confiança e testes de hipótese frequentistas são derivados do mesmo modelo probabilístico subjacente e utilizam as mesmas suposições estatísticas.333
Em testes bicaudais, qualquer valor hipotético do parâmetro que esteja fora do intervalo de confiança de nível \((1-\alpha)\) corresponde a uma hipótese nula que seria rejeitada ao nível de significância \(\alpha\).333
De forma análoga, valores do parâmetro que estejam dentro do intervalo de confiança correspondem a hipóteses nulas para as quais não haveria evidência suficiente para rejeição ao nível \(\alpha\).333
Apesar dessa equivalência formal, intervalos de confiança e testes de hipótese respondem a perguntas distintas: testes enfatizam decisões dicotômicas, enquanto intervalos de confiança enfatizam estimação e incerteza.333
30.5.5 Por que intervalos de confiança são centrais na inferência científica?
Intervalos de confiança permitem avaliar simultaneamente a magnitude do efeito e a incerteza associada à sua estimativa, na mesma unidade de medida da variável de interesse.333
Essa abordagem favorece interpretações substantivas e científicas dos resultados, em oposição a decisões puramente dicotômicas baseadas em pontos de corte arbitrários.333
Quando corretamente interpretados, intervalos de confiança promovem uma comunicação mais informativa da evidência científica e reduzem interpretações equivocadas associadas ao uso exclusivo de P-valores.332
30.6 Comparações múltiplas
30.6.1 Como ajustar a análise inferencial para hipóteses múltiplas?
Defina previamente a família de hipóteses (ou seja, quais testes fazem parte do mesmo ajuste) e estabeleça a hierarquia dos desfechos (primários e secundários).
Selecione o método de ajuste de acordo com o objetivo da análise: controle da taxa de erro familiar (FWER), com procedimentos como Bonferroni, Holm, Hochberg ou Dunnett (quando há comparações múltiplas contra um controle); ou controle da taxa de descobertas falsas (FDR), como no método de Benjamini–Hochberg, mais adequado em contextos exploratórios.
Em análises confirmatórias, utilize estratégias de hierarquização: os testes são realizados em sequência, e o nível de significância (\(\alpha\)) só é “transferido” para as hipóteses subsequentes caso haja significância na etapa anterior.
O pacote stats159 fornece a função p.adjust para ajustar o P-valor utilizando diversos métodos.
30.7 Inferência visual
30.7.1 O que é inferência visual?
Inferência visual consiste na interpretação de dados apresentados em gráficos.333
Para inferência visual, recomenda-se a apresentação dos dados em gráficos com estimativas de tendência central e seu intervalo (preferencialmente intervalo de confiança no nível de significância \(\alpha\) pré-estabelecido).333
30.7.2 Por que usar intervalos de confiança para inferência visual?
Intervalos de confiança fornecem estimativas pontuais e intervalares na mesma unidade de medida da variável.333
Existe uma relação entre o intervalo de confiança e o P-valor obtido pelo teste de significância de hipótese nula \(H_{0}\), em que ambos consideram o mesmo nível de significância \(\alpha\) pré-estabelecido.333
30.7.3 Como interpretar intervalos de confiança em uma figura?
Identifique o que as tendências centrais e as barras de erro representam: Qual é a variável dependente? É expressa em unidades originais ou é padronizada? A figura mostra intervalos de confiança, erro-padrão ou desvio-padrão? Qual é o desenho experimental?333
Faça uma interpretação substantiva dos valores de tendência central e dos intervalos de confiança.333
O intervalo de confiança é uma faixa de valores plausíveis para a tendência central. Valores fora do intervalo são relativamente implausíveis, no nível de significância \(\alpha\) pré-estabelecido.333
Qualquer valor fora do intervalo de confiança, quando considerado como hipótese nula (\(H_{0}\)), equivale a \(P < \alpha\) pré-estabelecido (bicaudal).333
Qualquer valor dentro do intervalo, quando considerado como hipótese nula (\(H_{0}\)), equivale a \(P > \alpha\) pré-estabelecido (bicaudal).333
30.8 Interpretação de análise inferencial
30.8.1 Como interpretar uma análise inferencial?
Testes de hipótese nula (\(H_{0}\)) vs. alternativa (\(H_{1}\)) a partir de um nível de significância (\(\alpha\)) pré-especificado.331
P-valor como evidência estatística sobre (\(H_{0}\)).331
Estimação de intervalos de confiança de um nível de significância (\(\alpha\)) pré-especificado bicaudal (\(IC_{1-\alpha/2}\)) ou unicaudal (\(IC_{1-\alpha}\)).331
Análise Bayesiana.331
30.8.2 O que são resultados “positivos” e “negativos” em teste de hipótese?
Resultados “positivos” compreendem um P-valor dentro da zona crítica estatisticamente significativa (ex.: \(P<0,05\) ou outro ponto de corte).334
Resultados “positivos” sugerem que os autores rejeitem a hipótese nula (\(H_{0}\)), confirmando assim sua hipótese científica.334
Resultados “negativos” ou inconclusivos compreendem um P-valor fora da zona crítica estatisticamente significativa (ex.: \(P \geq 0,05\) ou outro ponto de corte).334
Resultados “negativos” sugerem que os autores não rejeitem a hipótese nula (\(H_{0}\)) porque o efeito observado é nulo (negativo) ou o estudo não possui poder suficiente para detectá-lo, não permitindo afirmar a hipótese científica (inconclusivo).334
30.8.3 Qual a importância de resultados “negativos”?
Conhecer resultados negativos contribui com uma visão mais ampla do campo de estudo junto aos resultados positivos.335
Resultados negativos permitem um melhor planejamento das pesquisas futuras e pode aumentar suas chances de sucesso.335
30.8.4 Resultados inconclusivos: Ausência de evidência ou evidência de ausência?
Em estudos (geralmente com amostras grandes), resultados estatisticamente significativos (com P-valores menores do limiar pré-estabelecido, \(P<\alpha\)) podem não ser clinicamente relevantes.336
Em estudos (geralmente com amostras pequenas), resultados estatisticamente não significativos (com P-valores iguais ou maiores do limiar pré-estabelecido, \(P \geq \alpha\)) não devem ser interpretados como evidência de inexistência do efeito.336
Geralmente é razoável aceitar uma nova conclusão apenas quando há dados a seu favor (‘resultados positivos’). Também é razoável questionar se apenas a ausência de dados a seu favor (“resultados negativos”) justifica suficientemente a rejeição de tal conclusão.336
Testes de hipótese tendem a reduzir a incerteza científica a decisões docotômicas.324
Essa simplificação possui implicações epistemológicas importantes: os testes de hipótese produzem não apenas juízos empíricos, mas também atos pragmáticos que comunicam graus de confiança e orientam ações.324
30.9 Erros de inferência I, II, S e M
30.9.1 O que são erros de inferência estatística?
- Um erro de inferência é a tomada de decisão incorreta, seja a favor ou contra a hipótese nula (\(H_{0}\)).320
30.9.2 O que são erros Tipo I e Tipo II?
Erro Tipo I significa a rejeição de uma hipótese nula (\(H_{0}\)) quando esta é verdadeira.320
Erro Tipo II significa a não rejeição de uma hipótese nula (\(H_{0}\)) quando esta é falsa.320
| Hipótese nula \(H_{0}\) é falsa | Hipótese nula \(H_{0}\) é verdadeira | |
|---|---|---|
| Hipótese nula \(H_{0}\) foi rejeitada | Decisão correta | Decisão incorreta (erro tipo I) |
| Hipótese nula \(H_{0}\) não foi rejeitada | Decisão incorreta (erro tipo II) | Decisão correta |
Figura 30.6: Representação gráfica dos erros tipo I e tipo II em um teste de hipótese (bicaudal).
Figura 30.7: Erro tipo I: Distribuição dos p-valores em 100 testes de hipótese de amostras aleatórias de tamanho 30. A linha vermelha pontilhada indica o nível de significância estatística de 0,05.
Figura 30.8: Erro tipo II: Distribuição dos p-valores em 100 testes de hipótese de amostras aleatórias de tamanho 10. A linha vermelha pontilhada indica o nível de significância estatística de 0,05.
30.9.3 O que são erros Tipo S e Tipo M?
- Erro Tipo S (do inglês sign) significa a identificação errônea da direção — positiva ou negativa — do efeito observado.337,338
| Sinal positivo | Sinal negativo | |
|---|---|---|
| Sinal positivo | Decisão correta | Decisão incorreta (erro tipo S) |
| Sinal negativo | Decisão incorreta (erro tipo S) | Decisão correta |
Figura 30.9: Representação gráfica do erro tipo S (sinal) em um teste de hipótese (bicaudal).
- Erro Tipo M (do inglês magnitude) significa a identificação errônea — em geral, exagerada — da magnitude do efeito observado.337,338
| Magnitude alta | Magnitude baixa | |
|---|---|---|
| Magnitude alta | Decisão correta | Decisão incorreta (erro tipo M) |
| Magnitude baixa | Decisão incorreta (erro tipo M) | Decisão correta |
Figura 30.10: Representação gráfica do erro tipo M (magnitude) em um teste de hipótese (bicaudal).
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,