Capítulo 69 Ensaios experimentais
69.1 Ensaio experimental aleatorizado
69.1.1 Quais são as características de ensaios experimentais aleatorizados?
A característica essencial de um ensaio experimental aleatorizado é a comparação entre grupos.540
Quanto à unidade de alocação:541
Individual
Agrupado
Quanto ao número de braços:541
- Múltiplos
Quanto ao número de centros:541
Único
Múltiplos
Quanto ao cegamento:541
Aberto
Simples-cego
Duplo-cego
Triplo-cego
Quádruplo-cego
Quanto à alocação:541
Sem sorteio
Estratificada (centro apenas)
Estratificada
Minimizada
Estratificada e minimizada
69.1.2 Quais são as estratégias metodológicas para reduzir vieses?
Grupo controle: comparar a intervenção a um cuidado usual ou controle ativo ajuda a isolar o efeito específico do tratamento, reduzindo vieses de confusão e maturação.REF?
Grupo placebo: prepara uma intervenção indistinguível da ativa para mitigar expectativas de participantes e profissionais, reduzindo viés de desempenho e detecção.REF?
Controle sham: em intervenções de procedimento (p.ex., cirúrgicas/fisioterapêuticas), um comparador que reproduz etapas não-específicas do procedimento controla efeitos placebo e da atenção.REF?
Cegamento: mascarar participantes, profissionais, avaliadores e/ou analistas diminui vieses de desempenho e detecção; deve-se explicitar quem foi cegado e como a manutenção do cegamento foi assegurada.REF?
69.2 Modelos de análise de comparação
69.2.1 Que modelos podem ser utilizados para comparações?
As abordagens mais utilizadas consistem em comparar o desfecho medido após a intervenção ou a mudança do desfecho entre os momentos pré e pós-intervenção (\(\Delta\)) entre os grupos.542
Quando as médias da variável de desfecho são equivalentes entre os grupos no início do estudo, ambas as abordagens estimam, em média, o mesmo efeito de tratamento.542
Na presença de diferenças basais, as estimativas passam a depender da correlação entre as medidas pré e pós-intervenção, então a análise baseada na mudança não controla adequadamente os desbalanços iniciais.542
A abordagem mais recomendada é a análise de covariância (ANCOVA) (69.1), que utiliza o desfecho pós-intervenção (\(Y_{ij}\)) como variável resposta e ajusta a comparação entre os grupos pelos valores basais (\(X_{ij}\)) de cada participante (\(i\)).62,542
\[\begin{equation} \tag{69.1} Y_{ij} = \beta_0 + \beta_1 X_{ij} + \beta_2 Z_j + \epsilon_{ij} \end{equation}\]
A ANCOVA aplicada ao desfecho pós-intervenção apresenta menor viés na estimação dos parâmetros, maior precisão das estimativas, melhor cobertura nominal dos intervalos de confiança e maior poder estatístico do que a análise baseada no escore de mudança ou outros métodos de comparação entre grupos.543
Alternativamente, pode-se modelar o escore de mudança (\(\Delta = Y_{ij} - X_{ij}\)) como variável de desfecho, cujomodelo é equivalente a uma regressão linear do escore de mudança sobre o grupo de tratamento (69.2).62,544
\[\begin{equation} \tag{69.2} (Y_{ij} - X_{ij}) = \beta_0 + \beta_1 Z_j + \epsilon_{ij} \end{equation}\]
Embora a análise do escore de mudança seja simples de interpretar, ela tende a apresentar menor precisão e menor poder estatístico do que a ANCOVA quando existe correlação entre as medidas pré e pós-intervenção.542,543
A análise de variância (ANOVA) e os modelos lineares mistos (MLM) constituem alternativas para situações específicas. Em estudos com apenas uma medida pós-intervenção, a ANOVA costuma ser menos eficiente que a ANCOVA por não ajustar os valores basais.543
Em estudos com múltiplas medições por participante, os modelos lineares mistos, incluindo efeitos aleatórios para o indivíduo e, quando pertinente, para o centro de pesquisa, permitem modelar a correlação intraindivíduo e lidar com dados ausentes sob o pressuposto de ausência ao acaso (MAR).545
Para desfechos contínuos longitudinais, os modelos lineares mistos para medidas repetidas (MMRM) dispensam imputação explícita dos dados ausentes e, sob o pressuposto de MAR, tendem a apresentar cobertura dos intervalos de confiança e controle do erro do tipo I satisfatórios.546
69.3 Comparação na linha de base
69.3.1 O que são dados na linha de base?
Dados sociodemográficos, clínicos e funcionais são coletados na linha de base sobre cada participante no momento da aleatorização.547
Os dados de linha de base são usados para caracterizar os pacientes incluídos no estudo e para mostrar que os grupos de tratamento estão bem equilibrados.547
Dados da linha de base podem ser utilizados para a aleatorização de modo a balancear ou estratificar os grupos considerando alguns fatores-chave.547
Dados da linha de base podem ser utilizados como ajuste de covariável para análise do resultado por grupo de tratamento.547
69.3.2 O que é comparação entre grupos na linha de base?
A comparação refere-se ao teste de hipótese nula de não haver diferença (‘balanço’ ou ‘equilíbrio’) entre grupos de tratamento nas (co)variáveis na linha de base.548
A interpretação isolada do P-valor da comparação entre grupos na linha de base não permite identificar as razões para eventuais diferenças.548
69.3.3 Quais são as razões para diferenças entre grupos de tratamento nas (co)variáveis na linha de base?
69.3.4 Para quê comparar grupos na linha de base?
Os P-valores estão relacionados à aleatorização dos participantes em grupos.549
A comparação de (co)variáveis na linha de base é usada para avaliar se aleatorização foi ‘bem sucedida’.549
69.3.5 Quais são as limitações da comparação entre grupos na linha de base?
Em ensaios experimentais aleatorizados agregados, os P-valores possuem interpretação diferente de estudos aleatorizados individualmente.549
Em ensaios experimentais com agrupamento e recrutamento após a aleatorização, os P-valores podem refletir o método de recrutamento, em vez da aleatorização, levando à comparação de amostras não aleatórias.549
69.3.6 Por que não se deve comparar grupos na linha de base?
Se a aleatorização foi conduzida adequadamente, a hipótese nula de que ambos os grupos provêm da mesma população é, por definição, verdadeira.550–552
Espera-se que cerca de 5% das comparações apresentem significância estatística ao nível de 5%, apenas por acaso.550–552
Esses testes avaliam indiretamente a adequação da aleatorização. Eles não verificam se os grupos possuem características semelhantes.550–552
Testes de hipóteses não são uma forma válida de avaliar a similaridade entre grupos.550–552
Essa avaliação deve considerar a importância prognóstica das variáveis e a magnitude dos desequilíbrios observados.550–552
A interpretação equivocada dos P-valores nas comparações da linha de base é conhecida como falácia da Tabela 1.234
Quando a aleatorização é bem-sucedida, a hipótese nula de ausência de diferenças entre os grupos na linha de base é verdadeira.553
Os testes de significância avaliam se as diferenças observadas podem ser atribuídas ao acaso.554
Em um ensaio clínico aleatorizado, sabe-se pelo próprio delineamento que as diferenças na linha de base são decorrentes do acaso.554
69.4 Comparação intragrupos
69.4.1 Por que não se deve comparar intragrupos (pré - pós)??
Testar separadamente as mudanças em relação à linha de base (pré-pós) dentro de cada grupo aleatorizado não permite concluir se existe diferença entre os grupos.540
Comparar os P-valores obtidos em cada grupo não é uma forma válida de inferir diferenças entre os tratamentos.540
69.5 Comparação entre grupos
69.5.1 O que é comparação entre grupos??
- A comparação se refere ao teste de hipótese nula de não haver diferença (‘alteração’ ou ‘mudança’) pós-tratamento entre grupos de tratamento.540
69.5.2 O que pode ser comparado entre grupos?
- Valores pós-tratamento; mudança entre linha de base e pós-tratamento; mudança percentual da linha de base.555
69.5.3 Qual é a comparação entre grupos mais adequada?
Análise de covariância (ANCOVA) que analisa o pós-tratamento com a linha de base como covariável é a opção que possui maior poder estatístico.555
Mudança entre linha de base e pós-tratamento tem poder adequado apenas quando a correlação entre linha de base e pós-tratamento é alta.555
Mudança percentual da linha de base é a opção menos eficiente em termos de poder estatístico.555
69.6 Comparação de subgrupos
69.6.1 O que é comparação de subgrupos?
- Análises de subgrupos podem ser realizadas para avaliar se as diferenças no resultado do tratamento (ou a falta delas) dependem de algumas características na linha de base dos pacientes.547
69.6.2 Como realizar a comparação de subgrupos?
Testes estatísticos de interação (que avaliam se um efeito de tratamento difere entre subgrupos) devem ser usados, e não apenas a inspeção dos P-valores do subgrupo.547,556
Somente se o teste de interação estatística apoiar um efeito de subgrupo as conclusões poderão ser influenciadas.547,556
69.6.3 Como interpretar a comparação de subgrupos?
As análises de subgrupos devem ser consideradas exploratórias. Raramente modificam as conclusões principais do estudo.547,556
Sua credibilidade é maior quando se restringem ao desfecho primário e a um número reduzido de subgrupos predefinidos.547
Também devem ser fundamentadas em hipóteses biologicamente plausíveis.547 É importante verificar se o estudo possui poder estatístico suficiente para detectar efeitos realistas nos subgrupos.547
Diferenças observadas em um subgrupo devem ser interpretadas com cautela quando o efeito global do tratamento não é estatisticamente significativo.547
69.7 Efeito de interação
69.7.1 Por que analisar o efeito de interação?
O principal problema de pesquisa é se há uma diferença pré - pós maior em um grupo do que em outro(s).540
A comparação de subgrupos por meio de testes de significância de hipótese nula separados é enganosa por não testar (comparar) diretamente os tamanhos dos efeitos dos tratamentos.557
Revisões recentes destacam que a interpretação de interações requer parcimônia (predefinição, plausibilidade biológica e controle do error-rate), e recomendam relatar estimativas e intervalos de confiança por subgrupo junto com o teste formal de interação.382
69.7.2 Quando usar o termo de interação?
Análise de efeito de interação pode ser usada para testar se o efeito de um tratamento varia entre dois ou mais subgrupos de indivíduos, ou seja, se um efeito é modificado pelo(s) outros(s) efeito(s).383
A interação entre duas (ou mais) variáveis pode ser utilizada para comparar efeitos do tratamento em subgrupos de ensaios experimentais.558
O poder estatístico para detectar efeitos de interação é limitado.558
69.8 Ajuste de covariáveis
69.8.1 Quais variáveis devem ser utilizadas no ajuste de covariáveis?
- A escolha das características de linha de base pelas quais uma análise é ajustada deve ser determinada pelo conhecimento prévio de uma possível influência no resultado, em vez da evidência de desequilíbrio entre os grupos de tratamento no estudo.553
69.8.2 Quais os benefícios do ajuste de covariáveis?
Ajustar por covariáveis ajuda a estimar os efeitos do tratamento para o indivíduo, assim como aumenta a eficiência dos testes para hipótese nula e a validade externa do estudo.559
Incluir a variável de desfecho medida na linha de base como covariável — independentemente de a análise ser realizada com a medida pós-tratamento da mesma variável ou a diferença para a linha de base — pode aumentar o poder estatístico do estudo.560
Incluir outras variáveis medidas na linha de base, com potencial para serem desbalanceadas entre grupos após a aleatorização, diminui a chance de afetar as estimativas de efeito dos tratamentos.560
69.8.3 Quais os riscos do ajuste de covariáveis?
Incluir covariáveis que não são prognósticas do desfecho pode reduzir o poder estatístico do estudo.560
Incluir covariáveis com dados perdidos pode reduzir o tamanho amostral e consequentemente o poder estatístico do estudo (análise de casos completos) ou levar a desvios do plano de análise por exclusão de covariáveis prognósticas.560
69.9 Imputação de dados perdidos
69.9.1 Como lidar com os dados perdidos em desfechos?
Em dados longitudinais com poucas medidas repetidas e um número reduzido de variáveis, a imputação multivariada por equações encadeadas (multivariate imputation by chained equations, MICE) é uma abordagem adequada.183,561
Além de ser computacionalmente eficiente, a MICE produz estimativas acuradas e precisas dos parâmetros.183,561
Para dados perdidos em desfechos dicotômicos, a imputação por equações encadeadas (MICE)189 e a correspondência média preditiva (predictive mean matching, PMM)190,191 apresentam desempenho semelhante.562
69.9.2 Como lidar com os dados perdidos em covariáveis?
A imputação de valores ausentes de uma covariável pela média do respectivo grupo produz estimativas não enviesadas do efeito do tratamento.560
Essa estratégia preserva o erro do tipo I e aumenta o poder estatístico em comparação com a análise de casos completos.560
Os pacotes mice189 e miceadds192 fornecem funções mice e mi.anova para imputação multivariada por equações encadeadas, respectivamente, para imputação de dados.
69.10 Diretrizes para redação
69.10.1 Quais são as diretrizes para redação de ensaios experimentais?
Visite a rede Enhancing the QUAlity and Transparency Of health Research (EQUATOR Network) para encontrar diretrizes específicas.
CONSORT 2010 Statement: updated guidelines for reporting parallel group randomised trials.563
O pacote consort251 fornece a função consort_plot para elaboração do fluxograma de ensaios experimentais no formato padrão.
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,