Capítulo 23 Análise inferencial
23.1 Raciocínio inferencial
23.1.1 O que é análise inferencial?
Na análise inferencial são utilizados dados da(s) amostra(s) para fazer uma inferência válida (isto é, estimativa) sobre os parâmetros populacionais desconhecidos.133
No paradigma de Jerzy Neyman e Egon Pearson, um teste de hipótese científica envolve a tomada de decisão sobre hipóteses nulas (\(H_{0}\)) e alternativa (\(H_{1}\)) concorrentes e mutuamente exclusivas.250
23.1.2 Quais são os tipos de raciocínio inferencial?
Inferência dedutiva: Uma dada hipótese inicial é utilizada para prever o que seria observado caso tal hipótese fosse verdadeira.251
Inferência indutiva: Com base nos dados observados, avalia-se qual hipótese é mais defensável (isto é, mais provável).251
23.2 Hipóteses científicas
23.2.1 O que é hipótese científica?
Hipótese científica é uma ideia que pode ser testada.250
Definir claramente os problemas e os objetivos da pesquisa são o ponto de partida de todos os estudos científicos.158
Além do papel técnico, os testes de hipótese carregam uma dimensão interpretativa que molda como os pesquisadores comunicam descobertas. Estudos recentes destacam o caráter pragmático e dicotômico dessas decisões.253
23.2.2 Quais são as fontes de ideias para gerar hipóteses científicas?
Revisão das práticas atuais.254
Desafio a ideias aceitas.254
Conflito entre ideias divergentes.254
Variações regionais, temporais e populacionais.254
Experiências dos próprios pesquisadores.254
Imaginação sem fronteiras ou limites convencionais.254
23.3 Hipóteses estatísticas
23.3.1 O que é hipótese nula?
- A hipótese nula (\(H_{0}\)) é uma expressão que representa o estado atual do conhecimento (status quo), em geral a não existência de um determinado efeito.201
23.3.2 O que é hipótese alternativa?
- A hipótese alternativa (\(H_{1}\)) é uma expressão que contém as situações que serão testadas, de modo que um resultado positivo indique alguma ação a ser conduzida.201
23.3.3 Qual hipótese está sendo testada?
A hipótese nula (\(H_{0}\)) é a hipótese sob teste em análises inferenciais.134
Pode-se concluir sobre rejeitar ou não rejeitar a hipótese nula (\(H_{0}\)).134
Não se conclui sobre a hipótese alternativa (\(H_{1}\)).201
Para testar a hipótese nula, deve-se selecionar o nível de significância crítica (P-valor de corte); a probabilidade de rejeitarmos uma hipótese nula verdadeira (\(\alpha\)); e a probabilidade de não rejeitarmos uma hipótese nula falsa (\(\beta\)).250
23.4 Testes de hipóteses
23.4.1 Quais são os tipos de teste de hipóteses?
Teste (clássico) de significância da hipótese nula: verifica evidência contra \(H_{0}\) usando P-valor.255
Teste de mínimos efeitos (MOTE/MOST/SESOI): testa se o efeito é pelo menos tão grande quanto um limiar de relevância (SESOI). Rejeitar \(H_{0}\) sugere efeito grande o suficiente.255
Teste de equivalência ou Dois Testes Unicaudais (Two One-Sided Tests, TOST): testa se o efeito está dentro de uma margem de equivalência clinicamente irrelevante (entre \(\Delta\) e \(-\Delta\)). Rejeitar \(H_{0}\) sugere equivalência prática.255
Teste de superioridade: avalia se um tratamento/intervenção supera o controle por uma margem \(>0\) ou \(>\Delta\).255
Teste de não-inferioridade: avalia se o tratamento não é pior que o controle por mais do que \(-\Delta\).REF?
Teste de inferioridade: avalia se o tratamento é pior que o controle (por exemplo, para checar segurança).REF?
23.4.2 O que são testes unicaudais e bicaudais?
- Teste unicaudal avalia evidência em apenas uma direção previamente especificada (ex.: “maior que 0” ou “menor que 0”). Concentra toda a região crítica na mesma cauda da distribuição (o nível de significância \(\alpha\) é alocado integralmente a essa cauda), aumentando o poder estatístico nessa direção, mas sem capacidade de detectar efeitos no sentido oposto.REF?
Figura 23.1: Representação gráfica de um teste de hipótese unicaudal à direita, aplicado quando se busca evidência de efeitos positivos (valores significativamente maiores que o esperado sob \(H_0\)).
Figura 23.2: Representação gráfica de um teste de hipótese unicaudal à esquerda, aplicado quando se busca evidência de efeitos negativos (valores significativamente menores que o esperado sob \(H_0\)).
- Teste bicaudal procura evidência em qualquer direção (ex.: “diferente de 0”). Divide \(\alpha\) em duas caudas (direita e esquerda). É a escolha padrão quando ambas as direções são plausíveis.REF?
Figura 23.3: Representação gráfica de um teste de hipótese bicaudal, aplicado quando se busca evidência de efeitos positivos ou negativos (valores significativamente diferentes do esperado sob \(H_0\)).
23.5 Intervalos de confiança e raciocínio de longo prazo
23.5.1 O que é um intervalo de confiança?
Um intervalo de confiança é um procedimento inferencial utilizado para estimar um parâmetro populacional desconhecido a partir de dados amostrais, levando em conta a variabilidade inerente ao processo de amostragem.257
Diferentemente de uma estatística descritiva, o intervalo de confiança não é uma propriedade fixa do parâmetro, mas uma propriedade do procedimento estatístico utilizado para estimá-lo.258
O parâmetro populacional é considerado fixo (embora desconhecido), enquanto o intervalo de confiança é uma quantidade aleatória, pois depende da amostra observada.REF?
Intervalo de confiança para variância conhecida (23.1) e desconhecida (23.2) capturam a média correspondente ao nível de significância \(\alpha\) pré-estabelecido134,201,206,259.
\[\begin{equation} \tag{23.1} IC = \bar{x} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \end{equation}\]
\[\begin{equation} \tag{23.2} IC = \bar{x} \pm t_{\alpha/2, n-1} \cdot \frac{s}{\sqrt{n}} \end{equation}\]
23.5.2 Intervalos de confiança e a lógica frequentista
No paradigma frequentista, a probabilidade é interpretada como uma frequência relativa observável no longo prazo, associada a um processo repetível.257
Um intervalo de confiança de nível \((1-\alpha)\) é construído de modo que, se o mesmo procedimento de amostragem e análise fosse repetido indefinidamente sob as mesmas condições, aproximadamente \((1-\alpha)\times100\%\) dos intervalos assim gerados conteriam o verdadeiro valor do parâmetro populacional.258
Portanto, a probabilidade associada ao intervalo de confiança refere-se ao desempenho do procedimento no longo prazo, e não à probabilidade de o parâmetro estar contido em um intervalo específico observado.
Figura 23.4: Simulação ilustrativa de intervalos de confiança (IC) em 100 experimentos independentes, cada um com 1.000 observações amostradas de uma população normal padrão (média = 0, desvio-padrão = 1). Os ICs são construídos no nível de 95%. O gráfico superior mostra os ICs individuais para cada experimento, indicando se o IC cobre ou não a média verdadeira (\(\mu = 0\)). O gráfico inferior apresenta a distribuição das médias amostrais obtidas nos experimentos, juntamente com o IC teórico para a média populacional. Observe que aproximadamente 95% dos ICs individuais cobrem a média verdadeira, ilustrando o conceito de cobertura no longo prazo associado aos intervalos de confiança.
23.5.3 O que um intervalo de confiança não representa
Um intervalo de confiança não deve ser interpretado como a probabilidade de que o parâmetro esteja contido naquele intervalo específico.260
Após os dados terem sido observados e o intervalo calculado, o parâmetro populacional ou está dentro do intervalo ou não está; não há incerteza probabilística sobre isso no sentido frequentista.260
A incerteza expressa pelo intervalo de confiança refere-se à variabilidade do processo inferencial, e não a uma distribuição de probabilidade do parâmetro.260
23.5.4 Relação entre intervalos de confiança e testes de hipóteses
Intervalos de confiança e testes de hipótese frequentistas são derivados do mesmo modelo probabilístico subjacente e utilizam as mesmas suposições estatísticas.261
Em testes bicaudais, qualquer valor hipotético do parâmetro que esteja fora do intervalo de confiança de nível \((1-\alpha)\) corresponde a uma hipótese nula que seria rejeitada ao nível de significância \(\alpha\).261
De forma análoga, valores do parâmetro que estejam dentro do intervalo de confiança correspondem a hipóteses nulas para as quais não haveria evidência suficiente para rejeição ao nível \(\alpha\).261
Apesar dessa equivalência formal, intervalos de confiança e testes de hipótese respondem a perguntas distintas: testes enfatizam decisões dicotômicas, enquanto intervalos de confiança enfatizam estimação e incerteza.261
23.5.5 Por que intervalos de confiança são centrais na inferência científica
Intervalos de confiança permitem avaliar simultaneamente a magnitude do efeito e a incerteza associada à sua estimativa, na mesma unidade de medida da variável de interesse.261
Essa abordagem favorece interpretações substantivas e científicas dos resultados, em oposição a decisões puramente dicotômicas baseadas em pontos de corte arbitrários.261
Quando corretamente interpretados, intervalos de confiança promovem uma comunicação mais informativa da evidência científica e reduzem interpretações equivocadas associadas ao uso exclusivo de P-valores.260
23.6 Comparações múltiplas
23.6.1 O que é uma família de hipóteses?
Família de hipóteses é um conjunto de comparações/inferências que, por desenho ou análise, devem ser consideradas juntas para controle do erro tipo I global (ex.: todas as comparações de um desfecho primário, todos os subgrupos pré-especificados, todos os desfechos coprimários).REF?
O controle do family-wise error rate (FWER) ou do false discovery rate (FDR) deve considerar a família pertinente, não comparações isoladas.REF?
23.6.2 O que são testes ad hoc e post hoc?
Ad hoc: análises/decisões não planejadas a priori, motivadas por inspeção dos dados. Úteis para gerar hipóteses, não para confirmá-las.REF?
Post hoc: procedimentos de comparações múltiplas aplicados após um teste global ter indicado efeito significativo. Visam controlar o erro tipo I em múltiplas comparações.REF?
23.6.3 Como ajustar a análise inferencial para hipóteses múltiplas?
Defina previamente a família de hipóteses (ou seja, quais testes fazem parte do mesmo ajuste) e estabeleça a hierarquia dos desfechos (primários e secundários).
Selecione o método de ajuste de acordo com o objetivo da análise: controle da taxa de erro familiar (FWER), com procedimentos como Bonferroni, Holm, Hochberg ou Dunnett (quando há comparações múltiplas contra um controle); ou controle da taxa de descobertas falsas (FDR), como no método de Benjamini–Hochberg, mais adequado em contextos exploratórios.
Em análises confirmatórias, utilize estratégias de hierarquização (gatekeeping): os testes são realizados em sequência, e o nível de significância (\(\alpha\)) só é “transferido” para as hipóteses subsequentes caso haja significância na etapa anterior.
23.7 Inferência visual
23.7.1 O que é inferência visual?
Inferência visual consiste na interpretação de dados apresentados em gráficos.261
Para inferência visual, recomenda-se a apresentação dos dados em gráficos com estimativas de tendência central e seu intervalo (preferencialmete intervalo de confiança no nível de significância \(\alpha\) pré-estabelecido).261
23.7.2 Por que usar intervalos de confiança para inferência visual?
Intervalos de confiança fornecem estimativas pontuais e intervalares na mesma unidade de medida da variável.261
Existe uma relação entre o intervalo de confiança e o P-valor obtido pelo teste de significância de hipótese nula \(H_{0}\), em que ambos consideram o mesmo nível de significância \(\alpha\) pré-estabelecido.261
23.7.3 Como interpretar intervalos de confiança em uma figura?
Identifique o que as tendências centrais e as barras de erro representam. Qual é a variável dependente? É expressa em unidades originais ou é padronizada ? A figura mostra intervalos de confiança, erro-padrão ou desvio-padrão? Qual é o desenho experimental?261
Faça uma interpretação substantiva dos valores de tendência central e dos intervalos de confiança.261
O intervalo de confiança é uma faixa de valores plausíveis para a tendência central. Valores fora do intervalo são relativamente implausíveis, no nível de significância \(\alpha\) pré-estabelecido.261
Qualquer valor fora do intervalo de confiança, quando considerado como hipótese nula (\(H_{0}\)), equivale a \(P < \alpha\) pré-estabelecido (bicaudal).261
Qualquer valor dentro do intervalo, quando considerado como hipótese nula (\(H_{0}\)), equivale a \(P > \alpha\) pré-estabelecido (bicaudal).261
23.8 Interpretação de análise inferencial
23.8.1 Como interpretar uma análise inferencial?
Testes de hipótese nula (\(H_{0}\)) vs. alternativa (\(H_{1}\)) a partir de um nível de significância (\(\alpha\)) pré-especificado.258
P-valor como evidência estatística sobre (\(H_{0}\)).258
Estimação de intervalos de confiança de um nível de significância (\(\alpha\)) pré-especificado bicaudal (\(IC_{1-\alpha/2}\)) ou unicaudal (\(IC_{1-\alpha}\)).258
Análise Bayesiana.258
23.8.2 O que são resultados positivos” e “negativos” (inconclusivos) em teste de hipótese?
Resultados “positivos” compreendem um P-valor dentro da zona crítica estatisticamente significativa (ex.: \(P<0,05\) ou outro ponto de corte) e sugerem que os autores rejeitem a hipótese nula (\(H_{0}\)), confirmando assim sua hipótese científica.262
Resultados “negativos” ou inconclusivos compreendem um P-valor fora da zona crítica estatisticamente significativa (ex.: \(P \geq 0,05\) ou outro ponto de corte) e sugerem que os autores não rejeitem a hipótese nula (\(H_{0}\)) porque o efeito observado é nulo (logo, “negativo”), ou porque o estudo não possui poder suficiente para detectá-lo, não permitindo portanto afirmar a hipótese científica (logo, inconclusivo).262
23.8.3 Qual a importância de resultados “negativos”?
Conhecer resultados negativos contribui com uma visão mais ampla do campo de estudo junto aos resultados positivos.263
Resultados negativos permitem um melhor planejamento das pesquisas futuras e pode aumentar suas chances de sucesso.263
23.8.4 Resultados inconclusivos: Ausência de evidência ou evidência de ausência?
Em estudos (geralmente com amostras grandes), resultados estatisticamente significativos (com P-valores menores do limiar pré-estabelecido, \(P<\alpha\)) podem não ser clinicamente relevantes.264
Em estudos (geralmente com amostras pequenas), resultados estatisticamente não significativos (com P-valores iguais ou maiores do limiar pré-estabelecido, \(P \geq \alpha\)) não devem ser interpretados como evidência de inexistência do efeito.264
Geralmente é razoável aceitar uma nova conclusão apenas quando há dados a seu favor (‘resultados positivos’). Também é razoável questionar se apenas a ausência de dados a seu favor (‘resultados negativos’) justifica suficientemente a rejeição de tal conclusão.264
A prática estatística convencional tende a reduzir a incerteza científica a decisões docotômicas. Essa simplificação possui implicações epistemológicas importantes: os testes de hipótese produzem não apenas juízos empíricos, mas também atos pragmáticos que comunicam graus de confiança e orientam ações.253
23.9 Erros de inferência I, II, S e M
23.9.1 O que são erros de inferência estatística?
- Um erro de inferência é a tomada de decisão incorreta, seja a favor ou contra a hipótese nula (\(H_{0}\)).250
23.9.2 O que são erros Tipo I e Tipo II?
Erro Tipo I significa a rejeição de uma hipótese nula (\(H_{0}\)) quando esta é verdadeira.250
Erro Tipo II significa a não rejeição de uma hipótese nula (\(H_{0}\)) quando esta é falsa.250
| Hipótese nula \(H_{0}\) é falsa | Hipótese nula \(H_{0}\) é verdadeira | |
|---|---|---|
| Hipótese nula \(H_{0}\) foi rejeitada | Decisão correta | Decisão incorreta (erro tipo I) |
| Hipótese nula \(H_{0}\) não foi rejeitada | Decisão incorreta (erro tipo II) | Decisão correta |
Figura 23.5: Representação gráfica dos erros tipo I e tipo II em um teste de hipótese (bicaudal).
Figura 23.6: Erro tipo I: Distribuição dos p-valores em 100 testes de hipótese de amostras aleatórias de tamanho 30. A linha vermelha pontilhada indica o nível de significância estatística de 0,05.
Figura 23.7: Erro tipo II: Distribuição dos p-valores em 100 testes de hipótese de amostras aleatórias de tamanho 10. A linha vermelha pontilhada indica o nível de significância estatística de 0,05.
23.9.3 O que são erros Tipo S e Tipo M?
- Erro Tipo S (do inglês sign) significa a identificação errônea da direção — positiva ou negativa — do efeito observado.265,266
| Sinal positivo | Sinal negativo | |
|---|---|---|
| Sinal positivo | Decisão correta | Decisão incorreta (erro tipo S) |
| Sinal negativo | Decisão incorreta (erro tipo S) | Decisão correta |
Figura 23.8: Representação gráfica do erro tipo S (sinal) em um teste de hipótese (bicaudal).
- Erro Tipo M (do inglês magnitude) significa a identificação errônea — em geral, exagerada — da magnitude do efeito observado.265,266
| Magnitude alta | Magnitude baixa | |
|---|---|---|
| Magnitude alta | Decisão correta | Decisão incorreta (erro tipo M) |
| Magnitude baixa | Decisão incorreta (erro tipo M) | Decisão correta |
Figura 23.9: Representação gráfica do erro tipo M (magnitude) em um teste de hipótese (bicaudal).
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,