Capítulo 36 Desempenho diagnóstico


36.1 Características


36.1.1 Quais são as características de estudos de desempenho diagnóstico?


36.2 Tabelas 2x2


36.2.1 O que é uma tabela de confusão 2x2?

  • Tabela de confusão é uma matriz de 2 linhas por 2 colunas que permite analisar o desempenho de classificação de uma variável dicotômica (padrão-ouro ou referência) versus outra variável dicotômica (novo teste).279


36.2.2 Como analisar o desempenho diagnóstico em tabelas 2x2?

  • Verdadeiro-positivo (\(VP\)): caso com a condição presente e corretamente identificado como tal.280

  • Falso-negativo (\(FN\)): caso com a condição presente e erroneamente identificado como ausente.280

  • Verdadeiro-negativo (\(VN\)): controle sem a condição presente e corretamente identificados como tal.280

  • Falso-positivo (\(FP\)): controle sem a condição presente e erroneamente identificado como presente.280


Tabela 36.1: Tabela de confusão 2x2 para análise de desempenho diagnóstico de testes e variáveis dicotômicas.
Condição presente Condição ausente Total
Teste positivo \(VP\) \(FP\) \(VP+FP\)
Teste negativo \(FN\) \(VN\) \(FN+VN\)
Total \(VP+FN\) \(FP+VN\) \(N=VP+VN+FP+FN\)


  • Tabelas de confusão também podem ser visualizadas em formato de árvores de frequência.279
Árvore de frequência do desempenho diagnóstico de uma tabela de confusão 2x2 representando um método novo (dicotômico) comparado ao método padrão-ouro ou referência (dicotômico).

Figura 36.1: Árvore de frequência do desempenho diagnóstico de uma tabela de confusão 2x2 representando um método novo (dicotômico) comparado ao método padrão-ouro ou referência (dicotômico).



36.2.3 Quais probabilidades caracterizam o desempenho diagnóstico de um teste em tabelas 2x2?

  • Sensibilidade (\(SEN\)), equação (36.1): Proporção de verdadeiro-positivos dentre aqueles com a condição.280
\[\begin{equation} \tag{36.1} SEN = \dfrac{VP}{VP+FN} \end{equation}\]
  • Especificidade (\(ESP\)), equação (36.2): Proporção de verdadeiro-negativos dentre aqueles sem a condição.280


\[\begin{equation} \tag{36.2} ESP = \dfrac{VN}{VN+FP} \end{equation}\]


  • Acurácia (\(ACU\)), equação (36.3): Proporção de casos e controle corretamente identificados.280


\[\begin{equation} \tag{36.3} ACU = \dfrac{VP+VN}{VP+VN+FP+FN} \end{equation}\]


  • Valor preditivo positivo (\(VPP\)), equação (36.4): Proporção de casos corretamente identificados como verdadeiro-positivos.280


\[\begin{equation} \tag{36.4} VPP = \dfrac{VP}{VP+FP} \end{equation}\]


  • Valor preditivo negativo (\(VPN\)), equação (36.5): Proporção de controles corretamente identificados como verdadeiro-negativos.280


\[\begin{equation} \tag{36.5} VPN = \dfrac{VN}{VN+FN} \end{equation}\]


Tabela 36.2: Probabilidades calculados a partir da tabela de confusão 2x2 para análise de desempenho diagnóstico de testes e variáveis dicotômicas.
Condição presente Condição ausente Total Probabilidades
Teste positivo \(VP\) \(FP\) \(VP+FP\) \(VPP = \frac{VP}{VP+FP}\)
Teste negativo \(FN\) \(VN\) \(FN+VN\) \(VPN = \frac{VN}{VN+FN}\)
Total \(VP+FN\) \(FP+VN\) \(N=VP+VN+FP+FN\)
Probabilidades \(SEN = \frac{VP}{VP+FN}\) \(ESP = \frac{VN}{VN+FP}\) \(ACU = \frac{VP+VN}{VP+VN+FP+FN}\)




36.3 Gráficos crosshair


36.3.1 O que um gráfico crosshair?



36.4 Curvas ROC


36.4.1 O que é a área sob a curva (AUROC)?

  • A área sob a curva ROC (AUC ou AUROC) quantifica o poder de discriminação ou desempenho diagnóstico na classificação de uma variável dicotômica.285



36.4.2 Como interpretar a área sob a curva (ROC)?

  • A área sob a curva AUC varia no intervalo \([0.5; 1]\), com valores mais elevados indicando melhor discriminação ou desempenho do modelo de classificação.285

  • As interpretações qualitativas (isto é: pobre/fraca/baixa, moderada/razoável/aceitável, boa ou muito boa/alta/excelente) dos valores de área sob a curva são arbitrários e não devem ser considerados isoladamente.285

  • Modelos de classificação com valores altos de área sob a curva podem ser enganosos se os valores preditos por esses modelos não estiverem adequadamente calibrados.285


36.4.3 Como analisar o desempenho diagnóstico em desfechos com distribuição trimodal na população?

  • Limiares duplos podem ser utilizados para análise de desempenho diagnóstico de testes com distribuição trimodal.287


36.5 Interpretação da validade de um teste


36.5.1 Que itens devem ser verificados na interpretação de um estudo de validade?

  • O novo teste foi comparado junto ao método padrão-ouro.280

  • As probabilidades pontuais estimadas que caracterizam o desempenho diagnóstico do novo teste são altas e adequadas para sua aplicação clínica.280

  • Os intervalos de confiança estimados para as probabilidades do novo teste são estreitos e adequadas para sua aplicação clínica.280

  • O novo teste possui adequada confiabilidade intra/inter examinadores.280

  • O estudo de validação incluiu um espectro adequado da amostra.280

  • Todos os participantes realizaram ambos o novo teste e o padrão-ouro no estudo de validação.280

  • Os examinadores do novo teste estavam cegados para o resultado do teste padrão-ouro.280


36.6 Diretrizes para redação


36.6.1 Quais são as diretrizes para redação de estudos diagnósticos?


Referências

279.
Steckelberg A, Balgenorth A, Berger J, Mühlhauser I. Explaining computation of predictive values: 2 × 2 table versus frequency tree. A randomized controlled trial [ISRCTN74278823]. BMC Medical Education. 2004;4(1). doi:10.1186/1472-6920-4-13
280.
Greenhalgh T. How to read a paper: Papers that report diagnostic or screening tests. BMJ. 1997;315(7107):540-543. doi:10.1136/bmj.315.7107.540
281.
Neth H, Gaisbauer F, Gradwohl N, Gaissmaier W. Riskyr: Rendering Risk Literacy More Transparent.; 2022. https://CRAN.R-project.org/package=riskyr.
282.
Kuhn, Max. Building predictive models in r using the caret package. Journal of Statistical Software. 2008;28(5):1-26. doi:10.18637/jss.v028.i05
283.
Phillips B, Stewart LA, Sutton AJ. Cross hairs plots for diagnostic meta-analysis. Research Synthesis Methods. 2010;1(3-4):308-315. doi:10.1002/jrsm.26
284.
Sousa-Pinto PD with contributions from B. Mada: Meta-Analysis of Diagnostic Accuracy.; 2022. https://CRAN.R-project.org/package=mada.
285.
Hond AAH de, Steyerberg EW, Calster B van. Interpreting area under the receiver operating characteristic curve. The Lancet Digital Health. 2022;4(12):e853-e855. doi:10.1016/s2589-7500(22)00188-1
286.
Robin X, Turck N, Hainard A, et al. pROC: An open-source package for r and s+ to analyze and compare ROC curves. 2011;12:77.
287.
Ferreira ADS, Meziat-Filho N, Ferreira APA. Double threshold receiver operating characteristic plot for three-modal continuous predictors. Computational Statistics. 2021;36(3):2231-2245. doi:10.1007/s00180-021-01080-9
288.
Bossuyt PM, Reitsma JB, Bruns DE, et al. STARD 2015: an updated list of essential items for reporting diagnostic accuracy studies. BMJ. October 2015:h5527. doi:10.1136/bmj.h5527