Capítulo 53 Ensaios experimentais

53.1 Ensaio experimental aleatorizado

53.1.1 Quais são as características de ensaios experimentais aleatorizados?

A característica essencial de um ensaio experimental aleatorizado é a comparação entre grupos.⁴¹⁴
Quanto à unidade de alocação:⁴¹⁵
- Individual
- Agrupado
Quanto ao número de braços:⁴¹⁵
- Múltiplos
Quanto ao número de centros:⁴¹⁵
- Único
- Múltiplos
Quanto ao cegamento:⁴¹⁵
- Aberto
- Simples-cego
- Duplo-cego
- Triplo-cego
- Quádruplo-cego
Quanto à alocação:⁴¹⁵
- Sem sorteio
- Estratificada (centro apenas)
- Estratificada
- Minimizada
- Estratificada e minimizada

53.1.2 Quais são as estratégias metodológicas para reduzir vieses?

Grupo controle: comparar a intervenção a um cuidado usual ou controle ativo ajuda a isolar o efeito específico do tratamento, reduzindo vieses de confusão e maturação.^REF?
Grupo placebo: prepara uma intervenção indistinguível da ativa para mitigar expectativas de participantes e profissionais, reduzindo viés de desempenho e detecção.^REF?
Controle sham: em intervenções de procedimento (p.ex., cirúrgicas/fisioterapêuticas), um comparador que reproduz etapas não-específicas do procedimento controla efeitos placebo e da atenção.^REF?
Cegamento: mascarar participantes, profissionais, avaliadores e/ou analistas diminui vieses de desempenho e detecção; deve-se explicitar quem foi cegado e como a manutenção do cegamento foi assegurada.^REF?

53.2 Modelos de análise de comparação

53.2.1 Que modelos podem ser utilizados para comparações?

As abordagens compreendem a comparação da variável de desfecho medida entre os momentos antes e depois ou da sua mudança (pré - pós) entre os momentos.⁴¹⁶
Se a média da variável é igual entre grupos no início do acompanhamento, ambas abordagens estimam o mesmo efeito. Caso contrário, o efeito será influenciado pela correlação entre as medidas antes e depois. A análise da mudança não controla para desbalanços no início do estudo.⁴¹⁶
A abordagem mais recomendada é a análise de covariância (ANCOVA) (53.1), pois ajusta os valores pós-intervenção (\(Y_{ij}\)) aos valores pré-intervenção (\(X_{ij}\)) para cada participante (\(i\)) de cada grupo {\(Z_{ij}\)}, e portanto não é afetada pelas diferenças entre grupos no início do estudo.^10,416

\[\begin{equation} \tag{53.1} Y_{ij} = \beta_0 + \beta_1 X_{ij} + \beta_2 Z_j + \epsilon_{ij} \end{equation}\]

A ANCOVA modelando seja a mudança (pré - pós: \(\Delta = X_{ij} - Y_{ij}\)) quando o desfecho no pós-tratamento parece ser o método mais efetivo considerando-se o viés de estimação dos parâmetros, a precisão das estimativas, a cobertura nominal (isto é, intervalo de confiança) e o poder do teste.⁴¹⁷
Quando a ANCOVA (53.2) é utilizada com a mudança (pré - pós) com variável de desfecho (\(Y_{ij}\)), o coeficiente de regressão \(\beta_1\) é diminuído em 1 unidade.^10,418

\[\begin{equation} \tag{53.2} (X_{ij} - Y_{ij}) = \beta_0 + \beta_1 Z_j + \epsilon_{ij} \end{equation}\]

Análise de variância (ANOVA) e modelos lineares mistos (MLM) são outras opções de métodos, embora apresentem maior variância, menor poder, e cobertura nominal comparados à ANCOVA.⁴¹⁷
Em desenhos com múltiplas medições por participante, modelos lineares mistos (efeitos aleatórios para indivíduo e, se pertinente, para centro) permitem lidar com correlação intra-sujeito e dados ausentes sob MAR, oferecendo estimativas válidas do efeito de tratamento no tempo.⁴¹⁹
Para dados longitudinais com desfechos contínuos, estratégias de modelo de efeitos mistos com medidas repetidas evitam a imputação explícita e, sob suposições de MAR, tendem a melhor cobertura e controle de erro tipo I do que abordagens tipo “última observação transportada”.⁴²⁰

53.3 Comparação na linha de base

53.3.1 O que são dados na linha de base?

Dados sociodemográficos, clínicos e funcionais são coletados na linha de base sobre cada participante no momento da aleatorização.⁴²¹
Os dados de linha de base são usados para caracterizar os pacientes incluídos no estudo e para mostrar que os grupos de tratamento estão bem equilibrados.⁴²¹
Dados da linha de base podem ser utilizados para a aleatorização de modo a equilíbrar ou estratificar os grupos considerando alguns fatores-chave.⁴²¹
Dados da linha de base podem ser utilizados como ajuste de covariável para análise do resultado por grupo de tratamento.⁴²¹

53.3.2 O que é comparação entre grupos na linha de base em ensaios experimentais aleatorizados?

A comparação se refere ao teste de hipótese nula de não haver diferença (‘balanço’ ou ‘equilíbrio’) entre grupos de tratamento nas (co)variáveis na linha de base, geralmente apresentadas apenas de modo descritivo na ‘Tabela 1’.⁴²²
A interpretação isolada do P-valor da comparação entre grupos na linha de base não permite identificar as razões para eventuais diferenças.⁴²²

53.3.3 Quais são as razões para diferenças entre grupos de tratamento nas (co)variáveis na linha de base?

Acaso.^221,422
Viés.^221,422
Tamanho da amostra.^221,422
Má conduta científica.²²¹

53.3.4 Para quê comparar grupos na linha de base em ensaios experimentais aleatorizados?

Os P-valores estão relacionados à aleatorização dos participantes em grupos.⁴²³
Em ensaios experimentais aleatorizados, a comparação de (co)variáveis na linha de base é usada para avaliar se aleatorização foi ‘bem sucedida’.⁴²³

53.3.5 Quais cenários permitem a comparação entre grupos na linha de base em ensaios experimentais aleatorizados?

Em ensaios experimentais aleatorizados agregados, os P-valores possuem interpretação diferente de estudos aleatorizados individualmente.⁴²³
Em ensaios experimentais com agrupamento, nos quais o recrutamento ocorreu após a aleatorização, os P-valores já não estão inteiramente relacionados ao processo de aleatorização, mas sim ao método de recrutamento, o que pode resultar na comparação de amostras não aleatórias.⁴²³

53.3.6 Por que não se deve comparar grupos na linha de base em ensaios experimentais aleatorizados?

Se a randomização tiver sido conduzida de forma adequada, a hipótese nula de que ambos os grupos provêm da mesma população é, por definição, verdadeira; assim, seria esperado que cerca de 5% dessas comparações apresentassem significância estatística ao nível de 5%.^424–426
Esses testes avaliam indiretamente a adequação do processo de randomização, e não se os dois grupos possuem características semelhantes.^424–426
Testes de hipóteses não são uma forma válida de avaliar a similaridade. Essa avaliação deve basear-se na consideração do força prognóstica das variáveis e a magnitude do desequilíbrio.^424–426
A interpretação errônea dos P-valores na comparação entre grupos, na linha de base, de um ensaio clínico aleatorizado constitui a ‘falácia da Tabela 1’.²²²
Quando a aleatorização é bem-sucedida, a hipótese nula de diferença entre grupos na linha de base é verdadeira.⁴²⁷
Testes de significância estatística na linha de base avaliam a probabilidade de que as diferenças observadas possam ter ocorrido por acaso; no entanto, já sabemos — pelo delineamento do experimento — que quaisquer diferenças são causadas pelo acaso.⁴²⁸

53.3.7 Quais estratégias podem ser adotadas para substituir a comparação entre grupos na linha de base em ensaios experimentais aleatorizados?

Na fase de projeto: identifique as variáveis prognósticas do desfecho de acordo com a literatura.⁴²⁷
Na fase de análise: inclua as variáveis prognósticas nos modelos para ajuste.⁴²⁷

53.4 Comparação intragrupos

53.4.1 Por que não se deve comparar intragrupos (pré - pós) em ensaios experimentais aleatorizados?

Testar por mudanças a partir da linha de base separadamente em cada grupos aleatorizados não permite concluir sobre diferenças entre grupos; não se pode fazer inferências a partir da comparação de P-valores.⁴¹⁴

53.5 Comparação entre grupos

53.5.1 O que é comparação entre grupos em ensaios experimentais aleatorizados?

A comparação se refere ao teste de hipótese nula de não haver diferença (‘alteração’ ou ‘mudança’) pós-tratamento entre grupos de tratamento.⁴¹⁴

53.5.2 O que pode ser comparado entre grupos?

Valores pós-tratamento; mudança entre linha de base e pós-tratamento; mudança percentual da linha de base.⁴²⁹

53.5.3 Qual é a comparação entre grupos mais adequada em ensaios experimentais aleatorizados?

Análise de covariância (ANCOVA) que analisa o pós-tratamento com a linha de base como covariável é a opção que possui maior poder estatístico.⁴²⁹
Mudança entre linha de base e pós-tratamento tem poder adequado apenas quando a correlação entre linha de base e pós-tratamento é alta.⁴²⁹
Mudança percentual da linha de base é a opção menos eficiente em termos de poder estatístico.⁴²⁹

53.6 Comparação de subgrupos

53.6.1 O que é comparação de subgrupos em ensaios experimentais aleatorizados?

Análises de subgrupos podem ser realizadas para avaliar se as diferenças no resultado do tratamento (ou a falta delas) dependem de algumas características na linha de base dos pacientes.⁴²¹

53.6.2 Como realizar a comparação de subgrupos em ensaios experimentais aleatorizados?

Testes estatísticos de interação (que avaliam se um efeito de tratamento difere entre subgrupos) devem ser usados, e não apenas a inspeção dos P-valores do subgrupo. Somente se o teste de interação estatística apoiar um efeito de subgrupo as conclusões poderão ser influenciadas.^421,430

53.6.3 Como interpretar a comparação de subgrupos em ensaios experimentais aleatorizados?

Análises de subgrupos devem ser consideradas de natureza exploratória e raramente elas afetam as conclusões obtidas a partir do estudo.^421,430
A credibilidade das análises de subgrupos é melhor se restrita ao desfecho primário e a alguns subgrupos predefinidos e baseadas em hipóteses biologicamente plausíveis.⁴²¹
Deve-se verificar se o estudo possui poder estatístico suficiente para detectar tamanhos de efeitos realistas em subgrupos e interpretar com cautela uma diferença de tratamento em um subgrupo quando a comparação global do tratamento não é significativa.⁴²¹

53.7 Efeito de interação

53.7.1 Por que analisar o efeito de interação?

Em ensaios experimentais aleatorizados, o principal problema de pesquisa é se há uma diferença pré - pós maior em um grupo do que em outro(s).⁴¹⁴
A comparação de subgrupos por meio de testes de significância de hipótese nula separados é enganosa por não testar (comparar) diretamente os tamanhos dos efeitos dos tratamentos.⁴³¹
Revisões recentes destacam que a interpretação de interações requer parcimônia (predefinição, plausibilidade biológica e controle do error-rate), e recomendam relatar estimativas e intervalos de confiança por subgrupo junto com o teste formal de interação.³³⁰

53.7.2 Quando usar o termo de interação?

Análise de efeito de interação pode ser usada para testar se o efeito de um tratamento varia entre dois ou mais subgrupos de indivíduos, ou seja, se um efeito é modificado pelo(s) outros(s) efeito(s).³³¹
A interação entre duas (ou mais) variáveis pode ser utilizada para comparar efeitos do tratamento em subgrupos de ensaios experimentais.⁴³²
O poder estatístico para detectar efeitos de interação é limitado.⁴³²

53.8 Ajuste de covariáveis

53.8.1 Quais variáveis devem ser utilizadas no ajuste de covariáveis?

A escolha das características de linha de base pelas quais uma análise é ajustada deve ser determinada pelo conhecimento prévio de uma possível influência no resultado, em vez da evidência de desequilíbrio entre os grupos de tratamento no estudo.⁴²⁷

53.8.2 Quais os benefícios do ajuste de covariáveis?

Ajustar por covariáveis ajuda a estimar os efeitos do tratamento para o indivíduo, assim como aumenta a eficiência dos testes para hipótese nula e a validade externa do estudo.⁴³³
Incluir a variável de desfecho medida na linha de base como covariável — independentemente de a análise ser realizada com a medida pós-tratamento da mesma variável ou a diferença para a linha de base — pode aumentar o poder estatístico do estudo.⁴³⁴
Incluir outras variáveis medidas na linha de base, com potencial para serem desbalanceadas entre grupos após a aleatorização, diminui a chance de afetar as estimativas de efeito dos tratamentos.⁴³⁴

53.8.3 Quais os riscos do ajuste de covariáveis?

Incluir covariáveis que não são prognósticas do desfecho pode reduzir o poder estatístico do estudo.⁴³⁴
Incluir covariáveis com dados perdidos pode reduzir o tamanho amostral e consequentemente o poder estatístico do estudo (análise de casos completos) ou levar a desvios do plano de análise por exclusão de covariáveis prognósticas.⁴³⁴

53.9 Imputação de dados perdidos

53.9.1 Como lidar com os dados perdidos em desfechos?

Em dados longitudinais com um pequeno número de ‘ondas’ (medidas repetidas) e poucas variáveis, para análise com modelos de regressão univariados, a imputação paramétrica via especificação condicional completa - também conhecido como imputação multivariada por equações encadeadas (multivariate imputation by chained equations, MICE) — é eficiente do ponto de vista computacional e possui acurácia e precisão para estimação de parâmetros.^156,435
Para dados perdidos em desfechos dicotômicos, o desempenho dos métodos de imputação multivariada por equações encadeadas (multivariate imputation by chained equations, MICE)¹⁶³ e por correspondência média preditiva (predictive mean matching, PMM)^164,165 é similar.¹⁶²

53.9.2 Como lidar com os dados perdidos em covariáveis?

Imputação de dados perdidos de uma covariável pela média dos dados do respectivo grupo permite estimativas não enviesadas dos efeitos do tratamento, preserva o erro tipo I e aumenta o poder estatístico comparado à análise de dados completos.⁴³⁴
Para desfechos ausentes, recomenda-se evitar transportar a última observação e, quando aplicável, preferir modelos lineares mistos ou imputação múltipla consistentes com o estimando de interesse.⁴²⁰

Os pacotes mice¹⁶³ e miceadds¹⁶⁶ fornecem funções mice e mi.anova para imputação multivariada por equações encadeadas, respectivamente, para imputação de dados.

53.10 Diretrizes para redação

53.10.1 Quais são as diretrizes para redação de ensaios experimentais?

Visite a rede Enhancing the QUAlity and Transparency Of health Research (EQUATOR Network) para encontrar diretrizes específicas.
CONSORT 2010 Statement: updated guidelines for reporting parallel group randomised trials:⁴³⁶ https://www.equator-network.org/reporting-guidelines/consort/

O pacote consort⁴³⁷ fornece a função consort_plot para elaboração do fluxograma de ensaios experimentais no formato padrão.

Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,

Referências

10.

Barnett AG. Regression to the mean: what it is and how to deal with it. International Journal of Epidemiology. 2004;34(1):215–220. doi:10.1093/ije/dyh299

156.

Heymans MW, Twisk JWR. Handling missing data in clinical research. Journal of Clinical Epidemiology. setembro 2022. doi:10.1016/j.jclinepi.2022.08.016

162.

Austin PC, Buuren S van. Logistic regression vs. predictive mean matching for imputing binary covariates. Statistical Methods in Medical Research. setembro 2023. doi:10.1177/09622802231198795

163.

Buuren S van, Groothuis-Oudshoorn K. mice: Multivariate Imputation by Chained Equations in R. Journal of Statistical Software. 2011;45:1–67. doi:10.18637/jss.v045.i03

164.

Rubin DB. Statistical Matching Using File Concatenation with Adjusted Weights and Multiple Imputations. Journal of Business & Economic Statistics. 1986;4(1):87. doi:10.2307/1391390

165.

Little RJA. Missing-Data Adjustments in Large Surveys. Journal of Business & Economic Statistics. 1988;6(3):287–296. doi:10.1080/07350015.1988.10509663

166.

Robitzsch A, Grund S. miceadds: Some Additional Multiple Imputation Functions, Especially for mice.; 2023. https://CRAN.R-project.org/package=miceadds.

221.

Chen H, Lu Y, Slye N. Testing for baseline differences in clinical trials. International Journal of Clinical Trials. 2020;7(2):150. doi:10.18203/2349-3259.ijct20201720

222.

Pijls BG. The Table I Fallacy: P Values in Baseline Tables of Randomized Controlled Trials. Journal of Bone and Joint Surgery. 2022;104(16):e71. doi:10.2106/jbjs.21.01166

330.

Bours MJL. Using mediators to understand effect modification and interaction. Journal of Clinical Epidemiology. setembro 2023. doi:10.1016/j.jclinepi.2023.09.005

331.

Altman DG, Matthews JNS. Statistics Notes: Interaction 1: heterogeneity of effects. BMJ. 1996;313(7055):486–486. doi:10.1136/bmj.313.7055.486

414.

Bland JM, Altman DG. Comparisons within randomised groups can be very misleading. BMJ. 2011;342(may06 2):d561–d561. doi:10.1136/bmj.d561

415.

Bruce CL, Juszczak E, Ogollah R, Partlett C, Montgomery A. A systematic review of randomisation method use in RCTs and association of trial design characteristics with method selection. BMC Medical Research Methodology. 2022;22(1). doi:10.1186/s12874-022-01786-4

416.

Vickers AJ, Altman DG. Statistics Notes: Analysing controlled trials with baseline and follow up measurements. BMJ. 2001;323(7321):1123–1124. doi:10.1136/bmj.323.7321.1123

417.

O Connell NS, Dai L, Jiang Y, et al. Methods for Analysis of Pre-Post Data in Clinical Research: A Comparison of Five Common Methods. Journal of Biometrics & Biostatistics. 2017;08(01). doi:10.4172/2155-6180.1000334

418.

Laird N. Further Comparative Analyses of Pretest-Posttest Research Designs. The American Statistician. 1983;37(4a):329–330. doi:10.1080/00031305.1983.10483133

419.

Cnaan A, Laird NM, Slasor P. Using the general linear mixed model to analyse unbalanced repeated measures and longitudinal data. Statistics in Medicine. 1997;16(20):2349–2380. doi:10.1002/(sici)1097-0258(19971030)16:20<2349::aid-sim667>3.0.co;2-e

420.

Mallinckrodt CH, Lane PW, Schnell D, Peng Y, Mancuso JP. Recommendations for the Primary Analysis of Continuous Endpoints in Longitudinal Clinical Trials. Drug Information Journal. 2008;42(4):303–319. doi:10.1177/009286150804200402

421.

Assmann SF, Pocock SJ, Enos LE, Kasten LE. Subgroup analysis and other (mis)uses of baseline data in clinical trials. The Lancet. 2000;355(9209):1064–1069. doi:10.1016/s0140-6736(00)02039-0

422.

Stang A, Baethge C. Imbalance <em>p</em> values for baseline covariates in randomized controlled trials: a last resort for the use of <em>p</em> values? A pro and contra debate. Clinical Epidemiology. 2018;Volume 10:531–535. doi:10.2147/clep.s161508

423.

Bolzern JE, Mitchell A, Torgerson DJ. Baseline testing in cluster randomised controlled trials: should this be done? BMC Medical Research Methodology. 2019;19(1). doi:10.1186/s12874-019-0750-8

424.

Lavori PW, Louis TA, Bailar JC, Polansky M. Designs for Experiments Parallel Comparisons of Treatment. New England Journal of Medicine. 1983;309(21):1291–1299. doi:10.1056/nejm198311243092105

426.

Altman DG, Doré CJ. Randomisation and baseline comparisons in clinical trials. The Lancet. 1990;335(8682):149–153. doi:10.1016/0140-6736(90)90014-v

427.

Roberts C, Torgerson DJ. Understanding controlled trials: Baseline imbalance in randomised controlled trials. BMJ. 1999;319(7203):185–185. doi:10.1136/bmj.319.7203.185

428.

Gruijters SLK. Baseline comparisons and covariate fishing: Bad statistical habits we should have broken yesterday. julho 2020. http://dx.doi.org/10.31234/osf.io/qftwg.

429.

Vickers AJ. The use of percentage change from baseline as an outcome in a controlled trial is statistically inefficient: a simulation study. BMC Medical Research Methodology. 2001;1(1). doi:10.1186/1471-2288-1-6

430.

Brookes ST, Whitely E, Egger M, Smith GD, Mulheran PA, Peters TJ. Subgroup analyses in randomized trials: risks of subgroup-specific analyses; Journal of Clinical Epidemiology. 2004;57(3):229–236. doi:10.1016/j.jclinepi.2003.08.009

431.

Matthews JNS, Altman DG. Statistics Notes: Interaction 2: compare effect sizes not P values. BMJ. 1996;313(7060):808–808. doi:10.1136/bmj.313.7060.808

432.

Altman DG. Statistics Notes: Interaction revisited: the difference between two estimates. BMJ. 2003;326(7382):219–219. doi:10.1136/bmj.326.7382.219

433.

Hauck WW, Anderson S, Marcus SM. Should We Adjust for Covariates in Nonlinear Regression Analyses of Randomized Trials? Controlled Clinical Trials. 1998;19(3):249–256. doi:10.1016/s0197-2456(97)00147-5

434.

Kahan BC, Jairath V, Doré CJ, Morris TP. The risks and rewards of covariate adjustment in randomized trials: an assessment of 12 outcomes from 8 studies. Trials. 2014;15(1). doi:10.1186/1745-6215-15-139

435.

Cao Y, Allore H, Vander Wyk B, Gutman R. Review and evaluation of imputation methods for multivariate longitudinal data with mixed-type incomplete variables. Statistics in Medicine. outubro 2022. doi:10.1002/sim.9592

436.

Schulz KF. CONSORT 2010 Statement: Updated Guidelines for Reporting Parallel Group Randomized Trials. Annals of Internal Medicine. 2010;152(11):726. doi:10.7326/0003-4819-152-11-201006010-00232

437.

Dayim A. consort: Create Consort Diagram.; 2023. https://CRAN.R-project.org/package=consort.