Capítulo 69 Ensaios experimentais


69.1 Ensaio experimental aleatorizado


69.1.1 Quais são as características de ensaios experimentais aleatorizados?

  • A característica essencial de um ensaio experimental aleatorizado é a comparação entre grupos.540

  • Quanto à unidade de alocação:541

    • Individual

    • Agrupado

  • Quanto ao número de braços:541

    • Múltiplos
  • Quanto ao número de centros:541

    • Único

    • Múltiplos

  • Quanto ao cegamento:541

    • Aberto

    • Simples-cego

    • Duplo-cego

    • Triplo-cego

    • Quádruplo-cego

  • Quanto à alocação:541

    • Sem sorteio

    • Estratificada (centro apenas)

    • Estratificada

    • Minimizada

    • Estratificada e minimizada


69.1.2 Quais são as estratégias metodológicas para reduzir vieses?

  • Grupo controle: comparar a intervenção a um cuidado usual ou controle ativo ajuda a isolar o efeito específico do tratamento, reduzindo vieses de confusão e maturação.REF?

  • Grupo placebo: prepara uma intervenção indistinguível da ativa para mitigar expectativas de participantes e profissionais, reduzindo viés de desempenho e detecção.REF?

  • Controle sham: em intervenções de procedimento (p.ex., cirúrgicas/fisioterapêuticas), um comparador que reproduz etapas não-específicas do procedimento controla efeitos placebo e da atenção.REF?

  • Cegamento: mascarar participantes, profissionais, avaliadores e/ou analistas diminui vieses de desempenho e detecção; deve-se explicitar quem foi cegado e como a manutenção do cegamento foi assegurada.REF?


69.2 Modelos de análise de comparação


69.2.1 Que modelos podem ser utilizados para comparações?

  • As abordagens mais utilizadas consistem em comparar o desfecho medido após a intervenção ou a mudança do desfecho entre os momentos pré e pós-intervenção (\(\Delta\)) entre os grupos.542

  • Quando as médias da variável de desfecho são equivalentes entre os grupos no início do estudo, ambas as abordagens estimam, em média, o mesmo efeito de tratamento.542

  • Na presença de diferenças basais, as estimativas passam a depender da correlação entre as medidas pré e pós-intervenção, então a análise baseada na mudança não controla adequadamente os desbalanços iniciais.542

  • A abordagem mais recomendada é a análise de covariância (ANCOVA) (69.1), que utiliza o desfecho pós-intervenção (\(Y_{ij}\)) como variável resposta e ajusta a comparação entre os grupos pelos valores basais (\(X_{ij}\)) de cada participante (\(i\)).62,542


\[\begin{equation} \tag{69.1} Y_{ij} = \beta_0 + \beta_1 X_{ij} + \beta_2 Z_j + \epsilon_{ij} \end{equation}\]


  • A ANCOVA aplicada ao desfecho pós-intervenção apresenta menor viés na estimação dos parâmetros, maior precisão das estimativas, melhor cobertura nominal dos intervalos de confiança e maior poder estatístico do que a análise baseada no escore de mudança ou outros métodos de comparação entre grupos.543

  • Alternativamente, pode-se modelar o escore de mudança (\(\Delta = Y_{ij} - X_{ij}\)) como variável de desfecho, cujomodelo é equivalente a uma regressão linear do escore de mudança sobre o grupo de tratamento (69.2).62,544


\[\begin{equation} \tag{69.2} (Y_{ij} - X_{ij}) = \beta_0 + \beta_1 Z_j + \epsilon_{ij} \end{equation}\]


  • Embora a análise do escore de mudança seja simples de interpretar, ela tende a apresentar menor precisão e menor poder estatístico do que a ANCOVA quando existe correlação entre as medidas pré e pós-intervenção.542,543

  • A análise de variância (ANOVA) e os modelos lineares mistos (MLM) constituem alternativas para situações específicas. Em estudos com apenas uma medida pós-intervenção, a ANOVA costuma ser menos eficiente que a ANCOVA por não ajustar os valores basais.543

  • Em estudos com múltiplas medições por participante, os modelos lineares mistos, incluindo efeitos aleatórios para o indivíduo e, quando pertinente, para o centro de pesquisa, permitem modelar a correlação intraindivíduo e lidar com dados ausentes sob o pressuposto de ausência ao acaso (MAR).545

  • Para desfechos contínuos longitudinais, os modelos lineares mistos para medidas repetidas (MMRM) dispensam imputação explícita dos dados ausentes e, sob o pressuposto de MAR, tendem a apresentar cobertura dos intervalos de confiança e controle do erro do tipo I satisfatórios.546


69.3 Comparação na linha de base


69.3.1 O que são dados na linha de base?

  • Dados sociodemográficos, clínicos e funcionais são coletados na linha de base sobre cada participante no momento da aleatorização.547

  • Os dados de linha de base são usados para caracterizar os pacientes incluídos no estudo e para mostrar que os grupos de tratamento estão bem equilibrados.547

  • Dados da linha de base podem ser utilizados para a aleatorização de modo a balancear ou estratificar os grupos considerando alguns fatores-chave.547

  • Dados da linha de base podem ser utilizados como ajuste de covariável para análise do resultado por grupo de tratamento.547


69.3.2 O que é comparação entre grupos na linha de base?

  • A comparação refere-se ao teste de hipótese nula de não haver diferença (‘balanço’ ou ‘equilíbrio’) entre grupos de tratamento nas (co)variáveis na linha de base.548

  • A interpretação isolada do P-valor da comparação entre grupos na linha de base não permite identificar as razões para eventuais diferenças.548


69.3.3 Quais são as razões para diferenças entre grupos de tratamento nas (co)variáveis na linha de base?


69.3.4 Para quê comparar grupos na linha de base?

  • Os P-valores estão relacionados à aleatorização dos participantes em grupos.549

  • A comparação de (co)variáveis na linha de base é usada para avaliar se aleatorização foi ‘bem sucedida’.549


69.3.5 Quais são as limitações da comparação entre grupos na linha de base?

  • Em ensaios experimentais aleatorizados agregados, os P-valores possuem interpretação diferente de estudos aleatorizados individualmente.549

  • Em ensaios experimentais com agrupamento e recrutamento após a aleatorização, os P-valores podem refletir o método de recrutamento, em vez da aleatorização, levando à comparação de amostras não aleatórias.549


69.3.6 Por que não se deve comparar grupos na linha de base?

  • Se a aleatorização foi conduzida adequadamente, a hipótese nula de que ambos os grupos provêm da mesma população é, por definição, verdadeira.550552

  • Espera-se que cerca de 5% das comparações apresentem significância estatística ao nível de 5%, apenas por acaso.550552

  • Esses testes avaliam indiretamente a adequação da aleatorização. Eles não verificam se os grupos possuem características semelhantes.550552

  • Testes de hipóteses não são uma forma válida de avaliar a similaridade entre grupos.550552

  • Essa avaliação deve considerar a importância prognóstica das variáveis e a magnitude dos desequilíbrios observados.550552

  • A interpretação equivocada dos P-valores nas comparações da linha de base é conhecida como falácia da Tabela 1.234

  • Quando a aleatorização é bem-sucedida, a hipótese nula de ausência de diferenças entre os grupos na linha de base é verdadeira.553

  • Os testes de significância avaliam se as diferenças observadas podem ser atribuídas ao acaso.554

  • Em um ensaio clínico aleatorizado, sabe-se pelo próprio delineamento que as diferenças na linha de base são decorrentes do acaso.554


69.3.7 Como lidar com potenciais diferenças entre grupos de tratamento nas (co)variáveis na linha de base?

  • Na fase de projeto: identifique as variáveis prognósticas do desfecho de acordo com a literatura.553

  • Na fase de análise: inclua as variáveis prognósticas nos modelos para ajuste.553


69.4 Comparação intragrupos


69.4.1 Por que não se deve comparar intragrupos (pré - pós)??

  • Testar separadamente as mudanças em relação à linha de base (pré-pós) dentro de cada grupo aleatorizado não permite concluir se existe diferença entre os grupos.540

  • Comparar os P-valores obtidos em cada grupo não é uma forma válida de inferir diferenças entre os tratamentos.540


69.5 Comparação entre grupos


69.5.1 O que é comparação entre grupos??

  • A comparação se refere ao teste de hipótese nula de não haver diferença (‘alteração’ ou ‘mudança’) pós-tratamento entre grupos de tratamento.540


69.5.2 O que pode ser comparado entre grupos?

  • Valores pós-tratamento; mudança entre linha de base e pós-tratamento; mudança percentual da linha de base.555


69.5.3 Qual é a comparação entre grupos mais adequada?

  • Análise de covariância (ANCOVA) que analisa o pós-tratamento com a linha de base como covariável é a opção que possui maior poder estatístico.555

  • Mudança entre linha de base e pós-tratamento tem poder adequado apenas quando a correlação entre linha de base e pós-tratamento é alta.555

  • Mudança percentual da linha de base é a opção menos eficiente em termos de poder estatístico.555


69.6 Comparação de subgrupos


69.6.1 O que é comparação de subgrupos?

  • Análises de subgrupos podem ser realizadas para avaliar se as diferenças no resultado do tratamento (ou a falta delas) dependem de algumas características na linha de base dos pacientes.547


69.6.2 Como realizar a comparação de subgrupos?

  • Testes estatísticos de interação (que avaliam se um efeito de tratamento difere entre subgrupos) devem ser usados, e não apenas a inspeção dos P-valores do subgrupo.547,556

  • Somente se o teste de interação estatística apoiar um efeito de subgrupo as conclusões poderão ser influenciadas.547,556


69.6.3 Como interpretar a comparação de subgrupos?

  • As análises de subgrupos devem ser consideradas exploratórias. Raramente modificam as conclusões principais do estudo.547,556

  • Sua credibilidade é maior quando se restringem ao desfecho primário e a um número reduzido de subgrupos predefinidos.547

  • Também devem ser fundamentadas em hipóteses biologicamente plausíveis.547 É importante verificar se o estudo possui poder estatístico suficiente para detectar efeitos realistas nos subgrupos.547

  • Diferenças observadas em um subgrupo devem ser interpretadas com cautela quando o efeito global do tratamento não é estatisticamente significativo.547


69.7 Efeito de interação


69.7.1 Por que analisar o efeito de interação?

  • O principal problema de pesquisa é se há uma diferença pré - pós maior em um grupo do que em outro(s).540

  • A comparação de subgrupos por meio de testes de significância de hipótese nula separados é enganosa por não testar (comparar) diretamente os tamanhos dos efeitos dos tratamentos.557

  • Revisões recentes destacam que a interpretação de interações requer parcimônia (predefinição, plausibilidade biológica e controle do error-rate), e recomendam relatar estimativas e intervalos de confiança por subgrupo junto com o teste formal de interação.382


69.7.2 Quando usar o termo de interação?

  • Análise de efeito de interação pode ser usada para testar se o efeito de um tratamento varia entre dois ou mais subgrupos de indivíduos, ou seja, se um efeito é modificado pelo(s) outros(s) efeito(s).383

  • A interação entre duas (ou mais) variáveis pode ser utilizada para comparar efeitos do tratamento em subgrupos de ensaios experimentais.558

  • O poder estatístico para detectar efeitos de interação é limitado.558


69.8 Ajuste de covariáveis


69.8.1 Quais variáveis devem ser utilizadas no ajuste de covariáveis?

  • A escolha das características de linha de base pelas quais uma análise é ajustada deve ser determinada pelo conhecimento prévio de uma possível influência no resultado, em vez da evidência de desequilíbrio entre os grupos de tratamento no estudo.553


69.8.2 Quais os benefícios do ajuste de covariáveis?

  • Ajustar por covariáveis ajuda a estimar os efeitos do tratamento para o indivíduo, assim como aumenta a eficiência dos testes para hipótese nula e a validade externa do estudo.559

  • Incluir a variável de desfecho medida na linha de base como covariável — independentemente de a análise ser realizada com a medida pós-tratamento da mesma variável ou a diferença para a linha de base — pode aumentar o poder estatístico do estudo.560

  • Incluir outras variáveis medidas na linha de base, com potencial para serem desbalanceadas entre grupos após a aleatorização, diminui a chance de afetar as estimativas de efeito dos tratamentos.560


69.8.3 Quais os riscos do ajuste de covariáveis?

  • Incluir covariáveis que não são prognósticas do desfecho pode reduzir o poder estatístico do estudo.560

  • Incluir covariáveis com dados perdidos pode reduzir o tamanho amostral e consequentemente o poder estatístico do estudo (análise de casos completos) ou levar a desvios do plano de análise por exclusão de covariáveis prognósticas.560


69.9 Imputação de dados perdidos


69.9.1 Como lidar com os dados perdidos em desfechos?

  • Em dados longitudinais com poucas medidas repetidas e um número reduzido de variáveis, a imputação multivariada por equações encadeadas (multivariate imputation by chained equations, MICE) é uma abordagem adequada.183,561

  • Além de ser computacionalmente eficiente, a MICE produz estimativas acuradas e precisas dos parâmetros.183,561

  • Para dados perdidos em desfechos dicotômicos, a imputação por equações encadeadas (MICE)189 e a correspondência média preditiva (predictive mean matching, PMM)190,191 apresentam desempenho semelhante.562


69.9.2 Como lidar com os dados perdidos em covariáveis?

  • A imputação de valores ausentes de uma covariável pela média do respectivo grupo produz estimativas não enviesadas do efeito do tratamento.560

  • Essa estratégia preserva o erro do tipo I e aumenta o poder estatístico em comparação com a análise de casos completos.560



69.10 Diretrizes para redação


69.10.1 Quais são as diretrizes para redação de ensaios experimentais?

  • Visite a rede Enhancing the QUAlity and Transparency Of health Research (EQUATOR Network) para encontrar diretrizes específicas.

  • CONSORT 2010 Statement: updated guidelines for reporting parallel group randomised trials.563




Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,


Referências

62.
Barnett AG. Regression to the mean: what it is and how to deal with it. International Journal of Epidemiology. 2004;34(1):215–220. doi:10.1093/ije/dyh299
183.
Heymans MW, Twisk JWR. Handling missing data in clinical research. Journal of Clinical Epidemiology. setembro 2022. doi:10.1016/j.jclinepi.2022.08.016
189.
Buuren S van, Groothuis-Oudshoorn K. mice: Multivariate Imputation by Chained Equations in R. Journal of Statistical Software. 2011;45:1–67. doi:10.18637/jss.v045.i03
190.
Rubin DB. Statistical Matching Using File Concatenation with Adjusted Weights and Multiple Imputations. Journal of Business & Economic Statistics. 1986;4(1):87. doi:10.2307/1391390
191.
Little RJA. Missing-Data Adjustments in Large Surveys. Journal of Business & Economic Statistics. 1988;6(3):287–296. doi:10.1080/07350015.1988.10509663
192.
Robitzsch A, Grund S. miceadds: Some Additional Multiple Imputation Functions, Especially for mice.; 2023. https://CRAN.R-project.org/package=miceadds.
231.
Chen H, Lu Y, Slye N. Testing for baseline differences in clinical trials. International Journal of Clinical Trials. 2020;7(2):150. doi:10.18203/2349-3259.ijct20201720
234.
Pijls BG. The Table I Fallacy: P Values in Baseline Tables of Randomized Controlled Trials. Journal of Bone and Joint Surgery. 2022;104(16):e71. doi:10.2106/jbjs.21.01166
251.
Dayim A. consort: Create Consort Diagram.; 2023. https://CRAN.R-project.org/package=consort.
382.
Bours MJL. Using mediators to understand effect modification and interaction. Journal of Clinical Epidemiology. setembro 2023. doi:10.1016/j.jclinepi.2023.09.005
383.
Altman DG, Matthews JNS. Statistics Notes: Interaction 1: heterogeneity of effects. BMJ. 1996;313(7055):486–486. doi:10.1136/bmj.313.7055.486
540.
Bland JM, Altman DG. Comparisons within randomised groups can be very misleading. BMJ. 2011;342(may06 2):d561–d561. doi:10.1136/bmj.d561
541.
Bruce CL, Juszczak E, Ogollah R, Partlett C, Montgomery A. A systematic review of randomisation method use in RCTs and association of trial design characteristics with method selection. BMC Medical Research Methodology. 2022;22(1). doi:10.1186/s12874-022-01786-4
542.
Vickers AJ, Altman DG. Statistics Notes: Analysing controlled trials with baseline and follow up measurements. BMJ. 2001;323(7321):1123–1124. doi:10.1136/bmj.323.7321.1123
543.
O Connell NS, Dai L, Jiang Y, et al. Methods for Analysis of Pre-Post Data in Clinical Research: A Comparison of Five Common Methods. Journal of Biometrics & Biostatistics. 2017;08(01). doi:10.4172/2155-6180.1000334
544.
Laird N. Further Comparative Analyses of Pretest-Posttest Research Designs. The American Statistician. 1983;37(4a):329–330. doi:10.1080/00031305.1983.10483133
545.
Cnaan A, Laird NM, Slasor P. Using the general linear mixed model to analyse unbalanced repeated measures and longitudinal data. Statistics in Medicine. 1997;16(20):2349–2380. doi:10.1002/(sici)1097-0258(19971030)16:20<2349::aid-sim667>3.0.co;2-e
546.
Mallinckrodt CH, Lane PW, Schnell D, Peng Y, Mancuso JP. Recommendations for the Primary Analysis of Continuous Endpoints in Longitudinal Clinical Trials. Drug Information Journal. 2008;42(4):303–319. doi:10.1177/009286150804200402
547.
Assmann SF, Pocock SJ, Enos LE, Kasten LE. Subgroup analysis and other (mis)uses of baseline data in clinical trials. The Lancet. 2000;355(9209):1064–1069. doi:10.1016/s0140-6736(00)02039-0
548.
Stang A, Baethge C. Imbalance <em>p</em> values for baseline covariates in randomized controlled trials: a last resort for the use of <em>p</em> values? A pro and contra debate. Clinical Epidemiology. 2018;Volume 10:531–535. doi:10.2147/clep.s161508
549.
Bolzern JE, Mitchell A, Torgerson DJ. Baseline testing in cluster randomised controlled trials: should this be done? BMC Medical Research Methodology. 2019;19(1). doi:10.1186/s12874-019-0750-8
550.
Lavori PW, Louis TA, Bailar JC, Polansky M. Designs for Experiments Parallel Comparisons of Treatment. New England Journal of Medicine. 1983;309(21):1291–1299. doi:10.1056/nejm198311243092105
552.
Altman DG, Doré CJ. Randomisation and baseline comparisons in clinical trials. The Lancet. 1990;335(8682):149–153. doi:10.1016/0140-6736(90)90014-v
553.
Roberts C, Torgerson DJ. Understanding controlled trials: Baseline imbalance in randomised controlled trials. BMJ. 1999;319(7203):185–185. doi:10.1136/bmj.319.7203.185
554.
Gruijters SLK. Baseline comparisons and covariate fishing: Bad statistical habits we should have broken yesterday. julho 2020. http://dx.doi.org/10.31234/osf.io/qftwg.
555.
Vickers AJ. The use of percentage change from baseline as an outcome in a controlled trial is statistically inefficient: a simulation study. BMC Medical Research Methodology. 2001;1(1). doi:10.1186/1471-2288-1-6
556.
Brookes ST, Whitely E, Egger M, Smith GD, Mulheran PA, Peters TJ. Subgroup analyses in randomized trials: risks of subgroup-specific analyses; Journal of Clinical Epidemiology. 2004;57(3):229–236. doi:10.1016/j.jclinepi.2003.08.009
557.
Matthews JNS, Altman DG. Statistics Notes: Interaction 2: compare effect sizes not P values. BMJ. 1996;313(7060):808–808. doi:10.1136/bmj.313.7060.808
558.
Altman DG. Statistics Notes: Interaction revisited: the difference between two estimates. BMJ. 2003;326(7382):219–219. doi:10.1136/bmj.326.7382.219
559.
Hauck WW, Anderson S, Marcus SM. Should We Adjust for Covariates in Nonlinear Regression Analyses of Randomized Trials? Controlled Clinical Trials. 1998;19(3):249–256. doi:10.1016/s0197-2456(97)00147-5
560.
Kahan BC, Jairath V, Doré CJ, Morris TP. The risks and rewards of covariate adjustment in randomized trials: an assessment of 12 outcomes from 8 studies. Trials. 2014;15(1). doi:10.1186/1745-6215-15-139
561.
Cao Y, Allore H, Vander Wyk B, Gutman R. Review and evaluation of imputation methods for multivariate longitudinal data with mixed-type incomplete variables. Statistics in Medicine. outubro 2022. doi:10.1002/sim.9592
562.
Austin PC, Buuren S van. Logistic regression vs. predictive mean matching for imputing binary covariates. Statistical Methods in Medical Research. setembro 2023. doi:10.1177/09622802231198795
563.
Schulz KF. CONSORT 2010 Statement: Updated Guidelines for Reporting Parallel Group Randomized Trials. Annals of Internal Medicine. 2010;152(11):726. doi:10.7326/0003-4819-152-11-201006010-00232