Capítulo 48 Desempenho diagnóstico
48.2 Tabelas 2x2
48.2.1 O que é uma tabela de confusão 2x2?
- Tabela de confusão é uma matriz de 2 linhas por 2 colunas que permite analisar o desempenho de classificação de uma variável dicotômica (padrão-ouro ou referência) versus outra variável dicotômica (novo teste).379
48.2.2 Como analisar o desempenho diagnóstico em tabelas 2x2?
Verdadeiro-positivo (\(VP\)): caso com a condição presente e corretamente identificado como tal.380
Falso-negativo (\(FN\)): caso com a condição presente e erroneamente identificado como ausente.380
Verdadeiro-negativo (\(VN\)): controle sem a condição presente e corretamente identificados como tal.380
Falso-positivo (\(FP\)): controle sem a condição presente e erroneamente identificado como presente.380
| Condição presente | Condição ausente | Total | |
|---|---|---|---|
| Teste positivo | \(VP\) | \(FP\) | \(VP+FP\) |
| Teste negativo | \(FN\) | \(VN\) | \(FN+VN\) |
| Total | \(VP+FN\) | \(FP+VN\) | \(N=VP+VN+FP+FN\) |
- Tabelas de confusão também podem ser visualizadas em formato de árvores de frequência.379
Figura 48.1: Árvore de frequência do desempenho diagnóstico de uma tabela de confusão 2x2 representando um método novo (dicotômico) comparado ao método padrão-ouro ou referência (dicotômico).
O pacote riskyr381 fornece a função plot_prism para construir árvores de frequência a partir de diferentes cenários.
48.2.3 Quais probabilidades caracterizam o desempenho diagnóstico de um teste em tabelas 2x2?
\[\begin{equation} \tag{48.1} SEN = \dfrac{VP}{VP+FN} \end{equation}\]
- Especificidade (\(ESP\)) (48.2): Proporção de verdadeiro-negativos dentre aqueles sem a condição.380
\[\begin{equation} \tag{48.2} ESP = \dfrac{VN}{VN+FP} \end{equation}\]
Figura 48.2: Trade-off entre sensibilidade e especificidade em função do limiar de probabilidade (t) para um modelo de classificação.
- Valor preditivo positivo (\(VPP\)) (48.3): Proporção de casos corretamente identificados como verdadeiro-positivos.380
\[\begin{equation} \tag{48.3} VPP = \dfrac{VP}{VP+FP} \end{equation}\]
- Valor preditivo negativo (\(VPN\)) (48.4): Proporção de controles corretamente identificados como verdadeiro-negativos.380
\[\begin{equation} \tag{48.4} VPN = \dfrac{VN}{VN+FN} \end{equation}\]
- Razão de verossimilhança positiva (\(LR+\)) (48.5): Quantifica o quanto a probabilidade de a condição estar presente aumenta quando o teste é positivo.REF?
\[\begin{equation} \tag{48.5} LR+ = \dfrac{SEN}{1 - ESP} = \dfrac{VP/(VP+FN)}{FP/(FP+VN)} \end{equation}\]
- Razão de verossimilhança negativa (\(LR-\)) (48.6): Quantifica o quanto a probabilidade de a condição estar presente diminui quando o teste é negativo.REF?
\[\begin{equation} \tag{48.6} LR- = \dfrac{1 - SEN}{ESP} = \dfrac{FN/(VP+FN)}{VN/(FP+VN)} \end{equation}\]
\[\begin{equation} \tag{48.7} ACU = \dfrac{VP+VN}{VP+VN+FP+FN} \end{equation}\]
- Razão de chances diagnóstica (\(DOR\)) (48.8), (48.9) e (48.10): Razão entre a chance de um teste ser positivo quando a condição está presente e a chance de um teste ser positivo quando a condição está ausente.382
\[\begin{equation} \tag{48.8} DOR = \dfrac{VP}{FN} \div \dfrac{FP}{VN} = \dfrac{VP \cdot VN}{FP \cdot FN} \end{equation}\]
\[\begin{equation}
\tag{48.9}
DOR = \dfrac{SEN/(1-SEN)}{(1-ESP)/ESP} = \dfrac{SEN \cdot ESP}{(1-SEN) \cdot (1-ESP)}
\end{equation}\]
\[\begin{equation} \tag{48.10} DOR = \dfrac{LR+}{LR-} \end{equation}\]
| Condição presente | Condição ausente | Total | Probabilidades | |
|---|---|---|---|---|
| Teste positivo | \(VP\) | \(FP\) | \(VP+FP\) | \(VPP = \frac{VP}{VP+FP}\) |
| Teste negativo | \(FN\) | \(VN\) | \(FN+VN\) | \(VPN = \frac{VN}{VN+FN}\) |
| Total | \(VP+FN\) | \(FP+VN\) | \(N=VP+VN+FP+FN\) | |
| Probabilidades | \(SEN = \frac{VP}{VP+FN}\) | \(ESP = \frac{VN}{VN+FP}\) | \(ACU = \frac{VP+VN}{VP+VN+FP+FN}\) \(DOR = \frac{VP \cdot VN}{FP \cdot FN}\) |
O pacote riskyr381 fornece a função comp_prob para estimar 13 probabilidades relacionadas ao desempenho diagnóstico em tabelas 2x2.
O pacote caret383 fornece a função confusionMatrix para estimar 11 probabilidades relacionadas ao desempenho diagnóstico em tabelas 2x2.
48.3 Tabelas 2x3
48.3.1 O que é uma tabela de confusão 2x3?
É a extensão da tabela 2×2 que inclui uma terceira decisão (deferimento/boundary) além de aceitar (positivo) e rejeitar (negativo).384
As colunas** representam as decisões** (\(POS\), \(BND\), \(NEG\)) e as linhas representam a verdade de referência (condição presente vs ausente).384
Essa formulação vem do arcabouço de Three-Way Decisions (3WD), que particiona o universo em três regiões por dois limiares \(\alpha\) e \(\beta\).384
48.3.2 Como as regiões POS, BND e NEG são definidas?
- Dado um escore ou probabilidade condicional \(Pr(C\mid[x])\) para a classe \(C\), classifica-se como \(POS\) (aceitar) quando \(Pr(C\mid[x]) \ge \alpha\), como \(BND\) (deferir) quando \(\beta < Pr(C\mid[x]) < \alpha\) e como \(NEG\) (rejeitar) quando \(Pr(C\mid[x]) \le \beta\), sendo que os limiares \((\alpha,\beta)\) determinam simultaneamente as três regiões e os trade-offs entre acurácia e comprometimento.384
48.3.3 Qual é o formato de uma tabela 2×3?
- Estrutura geral (linhas = condição real; colunas = decisão):
| POS (aceitar) | BND (deferir) | NEG (rejeitar) | Total | |
|---|---|---|---|---|
| Condição presente (C) | \(|POS\cap C|\) | \(|BND\cap C|\) | \(|NEG\cap C|\) | \(|POS\cap C|+|BND\cap C|+|NEG\cap C|\) |
| Condição ausente (\(C^c\)) | \(|POS\cap C^c|\) | \(|BND\cap C^c|\) | \(|NEG\cap C^c|\) | \(|POS\cap C^c|+|BND\cap C^c|+|NEG\cap C^c|\) |
| Total | \(|POS\cap C|+|POS\cap C^c|\) | \(|BND\cap C|+|BND\cap C^c|\) | \(|NEG\cap C|+|NEG\cap C^c|\) | \(N\) |
48.3.4 Quais são as medidas básicas na 2×3?
- Acurácia em POS (\(M_{PT}\)), equação (48.11): Proporção de positivos corretamente identificados na região POS.384
\[\begin{equation} \tag{48.11} M_{PT} = \dfrac{|POS \cap C|}{|POS|} \end{equation}\]
- Erro em POS (\(M_{PF}\)), equação (48.12): Proporção de negativos incorretamente classificados na região POS.384
\[\begin{equation} \tag{48.12} M_{PF} = \dfrac{|POS \cap C^{c}|}{|POS|} \end{equation}\]
- Acurácia em NEG (\(M_{NF}\)), equação (48.13): Proporção de negativos corretamente identificados na região NEG.384
\[\begin{equation} \tag{48.13} M_{NF} = \dfrac{|NEG \cap C^{c}|}{|NEG|} \end{equation}\]
- Erro em NEG (\(M_{NT}\)), equação (48.14): Proporção de positivos incorretamente classificados na região NEG.384
\[\begin{equation} \tag{48.14} M_{NT} = \dfrac{|NEG \cap C|}{|NEG|} \end{equation}\]
- Frações em BND (\(M_{BT}\) e \(M_{BF}\)), equações (48.15) e (48.16): Proporção de deferimentos verdadeiros e falsos.384
\[\begin{equation} \tag{48.15} M_{BT} = \dfrac{|BND \cap C|}{|BND|} \end{equation}\] \[\begin{equation} \tag{48.16} M_{BF} = \dfrac{|BND \cap C^{c}|}{|BND|} \end{equation}\]
48.3.5 Como escolher os limiares \(\alpha\) e \(\beta\)?
- Os limiares \((\alpha,\beta)\) controlam o tamanho das regiões \(POS\), \(NEG\) e \(BND\) e, portanto, os trade-offs entre “acertar mais” (acurácia nas regiões) e “decidir mais” (comprometimento; menos deferimentos).384
48.3.6 Quando preferir 3-vias em vez de 2×2?
Quando o custo de erro é assimétrico e/ou há incerteza relevante.384
O deferimento (\(BND\)) evita decisões precipitadas e permite avaliação adicional, equilibrando acurácia e cobertura.384
É particularmente útil em triagens diagnósticas com etapas confirmatórias.384
48.4 Curvas ROC
48.4.1 O que representa a curva ROC?
A relação entre sensibilidade (\(SEN\)) no eixo vertical e \(1 - ESP\) no eixo horizontal.385
Cada ponto na curva corresponde a um ponto de corte possível do teste.385
48.4.2 Quais são os tipos de curva ROC?
Curva empírica: conecta diretamente os pontos obtidos a partir dos diferentes pontos de corte observados.386
Curva suavizada (paramétrica): assume uma distribuição binormal e gera uma curva ajustada por máxima verossimilhança.386
48.4.3 Como definir o melhor ponto de corte?
O ponto de corte em uma curva ROC representa um balanço entre sensibilidade e especificidade, ou seja, a taxa de verdadeiros positivos e a taxa de falsos positivos.385,386
O método de Youden (equação (48.17) maximiza a diferença entre a taxa de verdadeiros positivos e a taxa de falsos positivos. O ponto de corte ideal será aquele com maior valor de \(Y\).126
\[\begin{equation} \tag{48.17} Y = SEN + ESP - 1 \end{equation}\]
- O método da distância Euclidiana ((48.18) minimiza a distância entre um ponto da curva ROC e o ponto (0,1), que representa sensibilidade perfeita (\(SEN = 100%\)) e especificidade perfeita (\(ESP = 100%\)). O ponto de corte ideal será aquele com menor valor de \(D\).387
\[\begin{equation} \tag{48.18} D = \sqrt{(1 - SEN)^2 + (1 - ESP)^2} \end{equation}\]
48.4.4 O que é a área sob a curva (AUROC)?
A área sob a curva ROC (AUC ou AUROC) quantifica o poder de discriminação ou desempenho diagnóstico na classificação de uma variável dicotômica.388
A área sob a curva (\(AUC\)) resume o desempenho global e representa a probabilidade de o teste classificar corretamente um caso positivo selecionado aleatoriamente em relação a um caso negativo selecionado aleatoriamente.385
48.4.5 Como calcular a AUC?
- Método não paramétrico: soma das áreas trapezoidais sob a curva empírica (48.19). Pode subestimar AUC quando os dados são discretos.386
\[\begin{equation} \tag{48.19} AUC = \sum_{i=1}^{n-1} (x_{i+1} - x_i) \cdot \dfrac{y_i + y_{i+1}}{2} \end{equation}\]
- Método paramétrico (binormal): mais robusto para dados em escala ordinal, com viés reduzido (48.20), onde\(\Phi\) é a função de distribuição acumulada da Normal padrão, \(\mu_1\) e \(\mu_0\) são as médias dos escores para os grupos positivo e negativo, respectivamente, e \(\sigma_1^2\) e \(\sigma_0^2\) são as variâncias dos escores para os grupos positivo e negativo, respectivamente.386
\[\begin{equation} \tag{48.20} AUC = \Phi\left(\dfrac{\mu_1 - \mu_0}{\sqrt{\sigma_1^2 + \sigma_0^2}}\right) \end{equation}\]
- AUC deve sempre vir acompanhada de intervalo de confiança (IC95%).386
48.4.6 Como interpretar a área sob a curva (ROC)?
A área sob a curva AUC varia no intervalo \([0.5; 1]\), com valores mais elevados indicando melhor discriminação ou desempenho do modelo de classificação.388
As interpretações qualitativas (isto é: pobre/fraca/baixa, moderada/razoável/aceitável, boa ou muito boa/alta/excelente) dos valores de área sob a curva são arbitrários e não devem ser considerados isoladamente.388
Modelos de classificação com valores altos de área sob a curva podem ser enganosos se os valores preditos por esses modelos não estiverem adequadamente calibrados.388
Diferenças pequenas entre AUCs podem não ser estatisticamente significativas.385
A interpretação clínica pode ser equivocada se não houver teste estatístico adequado.385
Se as curvas vêm do mesmo conjunto de pacientes, aplique o teste de DeLong.385
Se as curvas vêm de amostras independentes, use métodos como Dorfman-Alf.385
48.4.7 Por que uma AUC menor que 0.5 está errada?
Porque indica desempenho pior que o acaso.385
Geralmente decorre de seleção incorreta da direção do teste ou da variável de estado.385
Verifique se o software está configurado para maiores valores indicam presença do evento ou o inverso.385
Ajuste a direção do teste para que \(AUC ≥ 0.5\).385
Figura 48.3: Curva ROC (Receiver Operating Characteristic) para um modelos de classificação com diferentes desempenhos diagnósticos.
48.4.8 Como analisar o desempenho diagnóstico em desfechos com distribuição trimodal na população?
- Limiares duplos podem ser utilizados para análise de desempenho diagnóstico de testes com distribuição trimodal.390
48.5 Gráficos crosshair
48.5.1 O que um gráfico crosshair?
- .391
Figura 48.4: Gráfico crosshair em espaço ROC (Receiver Operating Characteristic) para 15 estudos simulados de desempenho diagnóstico.
O pacote mada392 fornece a função crosshair para criar um gráfico crosshair391 a partir de dados de verdadeiro-positivo, falso-positivo, verdadeiro-negativo e verdadeiro-positivo de tabelas de confusão 2x2.
48.6 Interpretação da validade de um teste
48.6.1 Que itens devem ser verificados na interpretação de um estudo de validade?
O novo teste foi comparado junto ao método padrão-ouro.380
As probabilidades pontuais estimadas que caracterizam o desempenho diagnóstico do novo teste são altas e adequadas para sua aplicação clínica.380
Os intervalos de confiança estimados para as probabilidades do novo teste são estreitos e adequadas para sua aplicação clínica.380
O novo teste possui adequada confiabilidade intra/inter examinadores.380
O estudo de validação incluiu um espectro adequado da amostra.380
Todos os participantes realizaram ambos o novo teste e o padrão-ouro no estudo de validação.380
Os examinadores do novo teste estavam cegados para o resultado do teste padrão-ouro.380
48.7 Diretrizes para redação
48.7.1 Quais são as diretrizes para redação de estudos diagnósticos?
Visite a rede Enhancing the QUAlity and Transparency Of health Research (EQUATOR Network) para encontrar diretrizes específicas.
STARD 2015: An Updated List of Essential Items for Reporting Diagnostic Accuracy Studies:393 https://www.equator-network.org/reporting-guidelines/stard/
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,