Capítulo 38 Desempenho diagnóstico
38.2 Tabelas 2x2
38.2.1 O que é uma tabela de confusão 2x2?
- Tabela de confusão é uma matriz de 2 linhas por 2 colunas que permite analisar o desempenho de classificação de uma variável dicotômica (padrão-ouro ou referência) versus outra variável dicotômica (novo teste).287
38.2.2 Como analisar o desempenho diagnóstico em tabelas 2x2?
Verdadeiro-positivo (\(VP\)): caso com a condição presente e corretamente identificado como tal.288
Falso-negativo (\(FN\)): caso com a condição presente e erroneamente identificado como ausente.288
Verdadeiro-negativo (\(VN\)): controle sem a condição presente e corretamente identificados como tal.288
Falso-positivo (\(FP\)): controle sem a condição presente e erroneamente identificado como presente.288
Condição presente | Condição ausente | Total | |
---|---|---|---|
Teste positivo | \(VP\) | \(FP\) | \(VP+FP\) |
Teste negativo | \(FN\) | \(VN\) | \(FN+VN\) |
Total | \(VP+FN\) | \(FP+VN\) | \(N=VP+VN+FP+FN\) |
- Tabelas de confusão também podem ser visualizadas em formato de árvores de frequência.287

Figura 38.1: Árvore de frequência do desempenho diagnóstico de uma tabela de confusão 2x2 representando um método novo (dicotômico) comparado ao método padrão-ouro ou referência (dicotômico).
O pacote riskyr289 fornece a função plot_prism para construir árvores de frequência a partir de diferentes cenários.
38.2.3 Quais probabilidades caracterizam o desempenho diagnóstico de um teste em tabelas 2x2?
- Sensibilidade (\(SEN\)), equação (38.1): Proporção de verdadeiro-positivos dentre aqueles com a condição.288
- Especificidade (\(ESP\)), equação (38.2): Proporção de verdadeiro-negativos dentre aqueles sem a condição.288
- Valor preditivo positivo (\(VPP\)), equação (38.4): Proporção de casos corretamente identificados como verdadeiro-positivos.288
- Valor preditivo negativo (\(VPN\)), equação (38.5): Proporção de controles corretamente identificados como verdadeiro-negativos.288
Condição presente | Condição ausente | Total | Probabilidades | |
---|---|---|---|---|
Teste positivo | \(VP\) | \(FP\) | \(VP+FP\) | \(VPP = \frac{VP}{VP+FP}\) |
Teste negativo | \(FN\) | \(VN\) | \(FN+VN\) | \(VPN = \frac{VN}{VN+FN}\) |
Total | \(VP+FN\) | \(FP+VN\) | \(N=VP+VN+FP+FN\) | |
Probabilidades | \(SEN = \frac{VP}{VP+FN}\) | \(ESP = \frac{VN}{VN+FP}\) | \(ACU = \frac{VP+VN}{VP+VN+FP+FN}\) |
O pacote riskyr289 fornece a função comp_prob para estimar 13 probabilidades relacionadas ao desempenho diagnóstico em tabelas 2x2.
O pacote caret290 fornece a função confusionMatrix para estimar 11 probabilidades relacionadas ao desempenho diagnóstico em tabelas 2x2.
38.4 Curvas ROC
38.4.1 O que é a área sob a curva (AUROC)?
- A área sob a curva ROC (AUC ou AUROC) quantifica o poder de discriminação ou desempenho diagnóstico na classificação de uma variável dicotômica.293
38.4.2 Como interpretar a área sob a curva (ROC)?
A área sob a curva AUC varia no intervalo \([0.5; 1]\), com valores mais elevados indicando melhor discriminação ou desempenho do modelo de classificação.293
As interpretações qualitativas (isto é: pobre/fraca/baixa, moderada/razoável/aceitável, boa ou muito boa/alta/excelente) dos valores de área sob a curva são arbitrários e não devem ser considerados isoladamente.293
Modelos de classificação com valores altos de área sob a curva podem ser enganosos se os valores preditos por esses modelos não estiverem adequadamente calibrados.293
38.4.3 Como analisar o desempenho diagnóstico em desfechos com distribuição trimodal na população?
- Limiares duplos podem ser utilizados para análise de desempenho diagnóstico de testes com distribuição trimodal.295
38.5 Interpretação da validade de um teste
38.5.1 Que itens devem ser verificados na interpretação de um estudo de validade?
O novo teste foi comparado junto ao método padrão-ouro.288
As probabilidades pontuais estimadas que caracterizam o desempenho diagnóstico do novo teste são altas e adequadas para sua aplicação clínica.288
Os intervalos de confiança estimados para as probabilidades do novo teste são estreitos e adequadas para sua aplicação clínica.288
O novo teste possui adequada confiabilidade intra/inter examinadores.288
O estudo de validação incluiu um espectro adequado da amostra.288
Todos os participantes realizaram ambos o novo teste e o padrão-ouro no estudo de validação.288
Os examinadores do novo teste estavam cegados para o resultado do teste padrão-ouro.288
38.6 Diretrizes para redação
38.6.1 Quais são as diretrizes para redação de estudos diagnósticos?
Visite a rede Enhancing the QUAlity and Transparency Of health Research EQUATOR Network para encontrar diretrizes específicas para cada tipo de estudo de desempenho diagnóstico.
- STARD 2015: An Updated List of Essential Items for Reporting Diagnostic Accuracy Studies:296 https://www.equator-network.org/reporting-guidelines/stard/