Capítulo 38 Desempenho diagnóstico


38.1 Características


38.1.1 Quais são as características de estudos de desempenho diagnóstico?


38.2 Tabelas 2x2


38.2.1 O que é uma tabela de confusão 2x2?

  • Tabela de confusão é uma matriz de 2 linhas por 2 colunas que permite analisar o desempenho de classificação de uma variável dicotômica (padrão-ouro ou referência) versus outra variável dicotômica (novo teste).287


38.2.2 Como analisar o desempenho diagnóstico em tabelas 2x2?

  • Verdadeiro-positivo (\(VP\)): caso com a condição presente e corretamente identificado como tal.288

  • Falso-negativo (\(FN\)): caso com a condição presente e erroneamente identificado como ausente.288

  • Verdadeiro-negativo (\(VN\)): controle sem a condição presente e corretamente identificados como tal.288

  • Falso-positivo (\(FP\)): controle sem a condição presente e erroneamente identificado como presente.288


Tabela 38.1: Tabela de confusão 2x2 para análise de desempenho diagnóstico de testes e variáveis dicotômicas.
Condição presente Condição ausente Total
Teste positivo \(VP\) \(FP\) \(VP+FP\)
Teste negativo \(FN\) \(VN\) \(FN+VN\)
Total \(VP+FN\) \(FP+VN\) \(N=VP+VN+FP+FN\)


  • Tabelas de confusão também podem ser visualizadas em formato de árvores de frequência.287
Árvore de frequência do desempenho diagnóstico de uma tabela de confusão 2x2 representando um método novo (dicotômico) comparado ao método padrão-ouro ou referência (dicotômico).

Figura 38.1: Árvore de frequência do desempenho diagnóstico de uma tabela de confusão 2x2 representando um método novo (dicotômico) comparado ao método padrão-ouro ou referência (dicotômico).



38.2.3 Quais probabilidades caracterizam o desempenho diagnóstico de um teste em tabelas 2x2?

  • Sensibilidade (\(SEN\)), equação (38.1): Proporção de verdadeiro-positivos dentre aqueles com a condição.288
\[\begin{equation} \tag{38.1} SEN = \dfrac{VP}{VP+FN} \end{equation}\]
  • Especificidade (\(ESP\)), equação (38.2): Proporção de verdadeiro-negativos dentre aqueles sem a condição.288


\[\begin{equation} \tag{38.2} ESP = \dfrac{VN}{VN+FP} \end{equation}\]


  • Acurácia (\(ACU\)), equação (38.3): Proporção de casos e controle corretamente identificados.288


\[\begin{equation} \tag{38.3} ACU = \dfrac{VP+VN}{VP+VN+FP+FN} \end{equation}\]


  • Valor preditivo positivo (\(VPP\)), equação (38.4): Proporção de casos corretamente identificados como verdadeiro-positivos.288


\[\begin{equation} \tag{38.4} VPP = \dfrac{VP}{VP+FP} \end{equation}\]


  • Valor preditivo negativo (\(VPN\)), equação (38.5): Proporção de controles corretamente identificados como verdadeiro-negativos.288


\[\begin{equation} \tag{38.5} VPN = \dfrac{VN}{VN+FN} \end{equation}\]


Tabela 38.2: Probabilidades calculados a partir da tabela de confusão 2x2 para análise de desempenho diagnóstico de testes e variáveis dicotômicas.
Condição presente Condição ausente Total Probabilidades
Teste positivo \(VP\) \(FP\) \(VP+FP\) \(VPP = \frac{VP}{VP+FP}\)
Teste negativo \(FN\) \(VN\) \(FN+VN\) \(VPN = \frac{VN}{VN+FN}\)
Total \(VP+FN\) \(FP+VN\) \(N=VP+VN+FP+FN\)
Probabilidades \(SEN = \frac{VP}{VP+FN}\) \(ESP = \frac{VN}{VN+FP}\) \(ACU = \frac{VP+VN}{VP+VN+FP+FN}\)




38.3 Gráficos crosshair


38.3.1 O que um gráfico crosshair?



38.4 Curvas ROC


38.4.1 O que é a área sob a curva (AUROC)?

  • A área sob a curva ROC (AUC ou AUROC) quantifica o poder de discriminação ou desempenho diagnóstico na classificação de uma variável dicotômica.293



38.4.2 Como interpretar a área sob a curva (ROC)?

  • A área sob a curva AUC varia no intervalo \([0.5; 1]\), com valores mais elevados indicando melhor discriminação ou desempenho do modelo de classificação.293

  • As interpretações qualitativas (isto é: pobre/fraca/baixa, moderada/razoável/aceitável, boa ou muito boa/alta/excelente) dos valores de área sob a curva são arbitrários e não devem ser considerados isoladamente.293

  • Modelos de classificação com valores altos de área sob a curva podem ser enganosos se os valores preditos por esses modelos não estiverem adequadamente calibrados.293


38.4.3 Como analisar o desempenho diagnóstico em desfechos com distribuição trimodal na população?

  • Limiares duplos podem ser utilizados para análise de desempenho diagnóstico de testes com distribuição trimodal.295


38.5 Interpretação da validade de um teste


38.5.1 Que itens devem ser verificados na interpretação de um estudo de validade?

  • O novo teste foi comparado junto ao método padrão-ouro.288

  • As probabilidades pontuais estimadas que caracterizam o desempenho diagnóstico do novo teste são altas e adequadas para sua aplicação clínica.288

  • Os intervalos de confiança estimados para as probabilidades do novo teste são estreitos e adequadas para sua aplicação clínica.288

  • O novo teste possui adequada confiabilidade intra/inter examinadores.288

  • O estudo de validação incluiu um espectro adequado da amostra.288

  • Todos os participantes realizaram ambos o novo teste e o padrão-ouro no estudo de validação.288

  • Os examinadores do novo teste estavam cegados para o resultado do teste padrão-ouro.288


38.6 Diretrizes para redação


38.6.1 Quais são as diretrizes para redação de estudos diagnósticos?


Referências

287.
Steckelberg A, Balgenorth A, Berger J, Mühlhauser I. Explaining computation of predictive values: 2 × 2 table versus frequency tree. A randomized controlled trial [ISRCTN74278823]. BMC Medical Education. 2004;4(1). doi:10.1186/1472-6920-4-13
288.
Greenhalgh T. How to read a paper: Papers that report diagnostic or screening tests. BMJ. 1997;315(7107):540-543. doi:10.1136/bmj.315.7107.540
289.
Neth H, Gaisbauer F, Gradwohl N, Gaissmaier W. Riskyr: Rendering Risk Literacy More Transparent.; 2022. https://CRAN.R-project.org/package=riskyr.
290.
Kuhn, Max. Building predictive models in r using the caret package. Journal of Statistical Software. 2008;28(5):1-26. doi:10.18637/jss.v028.i05
291.
Phillips B, Stewart LA, Sutton AJ. Cross hairs plots for diagnostic meta-analysis. Research Synthesis Methods. 2010;1(3-4):308-315. doi:10.1002/jrsm.26
292.
Sousa-Pinto PD with contributions from B. Mada: Meta-Analysis of Diagnostic Accuracy.; 2022. https://CRAN.R-project.org/package=mada.
293.
Hond AAH de, Steyerberg EW, Calster B van. Interpreting area under the receiver operating characteristic curve. The Lancet Digital Health. 2022;4(12):e853-e855. doi:10.1016/s2589-7500(22)00188-1
294.
Robin X, Turck N, Hainard A, et al. pROC: An open-source package for r and s+ to analyze and compare ROC curves. 2011;12:77.
295.
Ferreira ADS, Meziat-Filho N, Ferreira APA. Double threshold receiver operating characteristic plot for three-modal continuous predictors. Computational Statistics. 2021;36(3):2231-2245. doi:10.1007/s00180-021-01080-9
296.
Bossuyt PM, Reitsma JB, Bruns DE, et al. STARD 2015: an updated list of essential items for reporting diagnostic accuracy studies. BMJ. October 2015:h5527. doi:10.1136/bmj.h5527