Capítulo 38 Desempenho diagnóstico

38.1 Características

38.1.1 Quais são as características de estudos de desempenho diagnóstico?

.^REF?

38.2 Tabelas 2x2

38.2.1 O que é uma tabela de confusão 2x2?

Tabela de confusão é uma matriz de 2 linhas por 2 colunas que permite analisar o desempenho de classificação de uma variável dicotômica (padrão-ouro ou referência) versus outra variável dicotômica (novo teste).²⁸⁷

38.2.2 Como analisar o desempenho diagnóstico em tabelas 2x2?

Verdadeiro-positivo (\(VP\)): caso com a condição presente e corretamente identificado como tal.²⁸⁸
Falso-negativo (\(FN\)): caso com a condição presente e erroneamente identificado como ausente.²⁸⁸
Verdadeiro-negativo (\(VN\)): controle sem a condição presente e corretamente identificados como tal.²⁸⁸
Falso-positivo (\(FP\)): controle sem a condição presente e erroneamente identificado como presente.²⁸⁸

Tabela 38.1: Tabela de confusão 2x2 para análise de desempenho diagnóstico de testes e variáveis dicotômicas.
	Condição presente	Condição ausente	Total
Teste positivo	\(VP\)	\(FP\)	\(VP+FP\)
Teste negativo	\(FN\)	\(VN\)	\(FN+VN\)
Total	\(VP+FN\)	\(FP+VN\)	\(N=VP+VN+FP+FN\)

Tabelas de confusão também podem ser visualizadas em formato de árvores de frequência.²⁸⁷

Árvore de frequência do desempenho diagnóstico de uma tabela de confusão 2x2 representando um método novo (dicotômico) comparado ao método padrão-ouro ou referência (dicotômico).

Figura 38.1: Árvore de frequência do desempenho diagnóstico de uma tabela de confusão 2x2 representando um método novo (dicotômico) comparado ao método padrão-ouro ou referência (dicotômico).

O pacote riskyr²⁸⁹ fornece a função plot_prism para construir árvores de frequência a partir de diferentes cenários.

38.2.3 Quais probabilidades caracterizam o desempenho diagnóstico de um teste em tabelas 2x2?

Sensibilidade (\(SEN\)), equação (38.1): Proporção de verdadeiro-positivos dentre aqueles com a condição.²⁸⁸

\[\begin{equation} \tag{38.1} SEN = \dfrac{VP}{VP+FN} \end{equation}\]

Especificidade (\(ESP\)), equação (38.2): Proporção de verdadeiro-negativos dentre aqueles sem a condição.²⁸⁸

\[\begin{equation} \tag{38.2} ESP = \dfrac{VN}{VN+FP} \end{equation}\]

Acurácia (\(ACU\)), equação (38.3): Proporção de casos e controle corretamente identificados.²⁸⁸

\[\begin{equation} \tag{38.3} ACU = \dfrac{VP+VN}{VP+VN+FP+FN} \end{equation}\]

Valor preditivo positivo (\(VPP\)), equação (38.4): Proporção de casos corretamente identificados como verdadeiro-positivos.²⁸⁸

\[\begin{equation} \tag{38.4} VPP = \dfrac{VP}{VP+FP} \end{equation}\]

Valor preditivo negativo (\(VPN\)), equação (38.5): Proporção de controles corretamente identificados como verdadeiro-negativos.²⁸⁸

\[\begin{equation} \tag{38.5} VPN = \dfrac{VN}{VN+FN} \end{equation}\]

Tabela 38.2: Probabilidades calculados a partir da tabela de confusão 2x2 para análise de desempenho diagnóstico de testes e variáveis dicotômicas.
	Condição presente	Condição ausente	Total	Probabilidades
Teste positivo	\(VP\)	\(FP\)	\(VP+FP\)	\(VPP = \frac{VP}{VP+FP}\)
Teste negativo	\(FN\)	\(VN\)	\(FN+VN\)	\(VPN = \frac{VN}{VN+FN}\)
Total	\(VP+FN\)	\(FP+VN\)	\(N=VP+VN+FP+FN\)
Probabilidades	\(SEN = \frac{VP}{VP+FN}\)	\(ESP = \frac{VN}{VN+FP}\)		\(ACU = \frac{VP+VN}{VP+VN+FP+FN}\)

O pacote riskyr²⁸⁹ fornece a função comp_prob para estimar 13 probabilidades relacionadas ao desempenho diagnóstico em tabelas 2x2.

O pacote caret²⁹⁰ fornece a função confusionMatrix para estimar 11 probabilidades relacionadas ao desempenho diagnóstico em tabelas 2x2.

38.3 Gráficos crosshair

38.3.1 O que um gráfico crosshair?

.²⁹¹

O pacote mada²⁹² fornece a função crosshair para criar um gráfico crosshair²⁹¹ a partir de dados de verdadeiro-positivo, falso-positivo, verdadeiro-negativo e verdadeiro-positivo de tabelas de confusão 2x2.

38.4 Curvas ROC

38.4.1 O que é a área sob a curva (AUROC)?

A área sob a curva ROC (AUC ou AUROC) quantifica o poder de discriminação ou desempenho diagnóstico na classificação de uma variável dicotômica.²⁹³

O pacote proc²⁹⁴ fornece a função plot.roc para criar uma curva ROC.

38.4.2 Como interpretar a área sob a curva (ROC)?

A área sob a curva AUC varia no intervalo \([0.5; 1]\), com valores mais elevados indicando melhor discriminação ou desempenho do modelo de classificação.²⁹³
As interpretações qualitativas (isto é: pobre/fraca/baixa, moderada/razoável/aceitável, boa ou muito boa/alta/excelente) dos valores de área sob a curva são arbitrários e não devem ser considerados isoladamente.²⁹³
Modelos de classificação com valores altos de área sob a curva podem ser enganosos se os valores preditos por esses modelos não estiverem adequadamente calibrados.²⁹³

38.4.3 Como analisar o desempenho diagnóstico em desfechos com distribuição trimodal na população?

Limiares duplos podem ser utilizados para análise de desempenho diagnóstico de testes com distribuição trimodal.²⁹⁵

38.5 Interpretação da validade de um teste

38.5.1 Que itens devem ser verificados na interpretação de um estudo de validade?

O novo teste foi comparado junto ao método padrão-ouro.²⁸⁸
As probabilidades pontuais estimadas que caracterizam o desempenho diagnóstico do novo teste são altas e adequadas para sua aplicação clínica.²⁸⁸
Os intervalos de confiança estimados para as probabilidades do novo teste são estreitos e adequadas para sua aplicação clínica.²⁸⁸
O novo teste possui adequada confiabilidade intra/inter examinadores.²⁸⁸
O estudo de validação incluiu um espectro adequado da amostra.²⁸⁸
Todos os participantes realizaram ambos o novo teste e o padrão-ouro no estudo de validação.²⁸⁸
Os examinadores do novo teste estavam cegados para o resultado do teste padrão-ouro.²⁸⁸

38.6 Diretrizes para redação

38.6.1 Quais são as diretrizes para redação de estudos diagnósticos?

Visite a rede Enhancing the QUAlity and Transparency Of health Research EQUATOR Network para encontrar diretrizes específicas para cada tipo de estudo de desempenho diagnóstico.
- STARD 2015: An Updated List of Essential Items for Reporting Diagnostic Accuracy Studies:²⁹⁶ https://www.equator-network.org/reporting-guidelines/stard/

Referências

287.

Steckelberg A, Balgenorth A, Berger J, Mühlhauser I. Explaining computation of predictive values: 2 × 2 table versus frequency tree. A randomized controlled trial [ISRCTN74278823]. BMC Medical Education. 2004;4(1). doi:10.1186/1472-6920-4-13

288.

Greenhalgh T. How to read a paper: Papers that report diagnostic or screening tests. BMJ. 1997;315(7107):540-543. doi:10.1136/bmj.315.7107.540

289.

Neth H, Gaisbauer F, Gradwohl N, Gaissmaier W. Riskyr: Rendering Risk Literacy More Transparent.; 2022. https://CRAN.R-project.org/package=riskyr.

290.

Kuhn, Max. Building predictive models in r using the caret package. Journal of Statistical Software. 2008;28(5):1-26. doi:10.18637/jss.v028.i05

291.

Phillips B, Stewart LA, Sutton AJ. ‘Cross hairs’ plots for diagnostic meta-analysis. Research Synthesis Methods. 2010;1(3-4):308-315. doi:10.1002/jrsm.26

292.

Sousa-Pinto PD with contributions from B. Mada: Meta-Analysis of Diagnostic Accuracy.; 2022. https://CRAN.R-project.org/package=mada.

293.

Hond AAH de, Steyerberg EW, Calster B van. Interpreting area under the receiver operating characteristic curve. The Lancet Digital Health. 2022;4(12):e853-e855. doi:10.1016/s2589-7500(22)00188-1

294.

Robin X, Turck N, Hainard A, et al. pROC: An open-source package for r and s+ to analyze and compare ROC curves. 2011;12:77.

295.

Ferreira ADS, Meziat-Filho N, Ferreira APA. Double threshold receiver operating characteristic plot for three-modal continuous predictors. Computational Statistics. 2021;36(3):2231-2245. doi:10.1007/s00180-021-01080-9

296.

Bossuyt PM, Reitsma JB, Bruns DE, et al. STARD 2015: an updated list of essential items for reporting diagnostic accuracy studies. BMJ. October 2015:h5527. doi:10.1136/bmj.h5527