Capítulo 36 Desempenho diagnóstico
36.2 Tabelas 2x2
36.2.1 O que é uma tabela de confusão 2x2?
- Tabela de confusão é uma matriz de 2 linhas por 2 colunas que permite analisar o desempenho de classificação de uma variável dicotômica (padrão-ouro ou referência) versus outra variável dicotômica (novo teste).279
36.2.2 Como analisar o desempenho diagnóstico em tabelas 2x2?
Verdadeiro-positivo (\(VP\)): caso com a condição presente e corretamente identificado como tal.280
Falso-negativo (\(FN\)): caso com a condição presente e erroneamente identificado como ausente.280
Verdadeiro-negativo (\(VN\)): controle sem a condição presente e corretamente identificados como tal.280
Falso-positivo (\(FP\)): controle sem a condição presente e erroneamente identificado como presente.280
Condição presente | Condição ausente | Total | |
---|---|---|---|
Teste positivo | \(VP\) | \(FP\) | \(VP+FP\) |
Teste negativo | \(FN\) | \(VN\) | \(FN+VN\) |
Total | \(VP+FN\) | \(FP+VN\) | \(N=VP+VN+FP+FN\) |
- Tabelas de confusão também podem ser visualizadas em formato de árvores de frequência.279

Figura 36.1: Árvore de frequência do desempenho diagnóstico de uma tabela de confusão 2x2 representando um método novo (dicotômico) comparado ao método padrão-ouro ou referência (dicotômico).
O pacote riskyr281 fornece a função plot_prism para construir árvores de frequência a partir de diferentes cenários.
36.2.3 Quais probabilidades caracterizam o desempenho diagnóstico de um teste em tabelas 2x2?
- Sensibilidade (\(SEN\)), equação (36.1): Proporção de verdadeiro-positivos dentre aqueles com a condição.280
- Especificidade (\(ESP\)), equação (36.2): Proporção de verdadeiro-negativos dentre aqueles sem a condição.280
- Valor preditivo positivo (\(VPP\)), equação (36.4): Proporção de casos corretamente identificados como verdadeiro-positivos.280
- Valor preditivo negativo (\(VPN\)), equação (36.5): Proporção de controles corretamente identificados como verdadeiro-negativos.280
Condição presente | Condição ausente | Total | Probabilidades | |
---|---|---|---|---|
Teste positivo | \(VP\) | \(FP\) | \(VP+FP\) | \(VPP = \frac{VP}{VP+FP}\) |
Teste negativo | \(FN\) | \(VN\) | \(FN+VN\) | \(VPN = \frac{VN}{VN+FN}\) |
Total | \(VP+FN\) | \(FP+VN\) | \(N=VP+VN+FP+FN\) | |
Probabilidades | \(SEN = \frac{VP}{VP+FN}\) | \(ESP = \frac{VN}{VN+FP}\) | \(ACU = \frac{VP+VN}{VP+VN+FP+FN}\) |
O pacote riskyr281 fornece a função comp_prob para estimar 13 probabilidades relacionadas ao desempenho diagnóstico em tabelas 2x2.
O pacote caret282 fornece a função confusionMatrix para estimar 11 probabilidades relacionadas ao desempenho diagnóstico em tabelas 2x2.
36.4 Curvas ROC
36.4.1 O que é a área sob a curva (AUROC)?
- A área sob a curva ROC (AUC ou AUROC) quantifica o poder de discriminação ou desempenho diagnóstico na classificação de uma variável dicotômica.285
36.4.2 Como interpretar a área sob a curva (ROC)?
A área sob a curva AUC varia no intervalo \([0.5; 1]\), com valores mais elevados indicando melhor discriminação ou desempenho do modelo de classificação.285
As interpretações qualitativas (isto é: pobre/fraca/baixa, moderada/razoável/aceitável, boa ou muito boa/alta/excelente) dos valores de área sob a curva são arbitrários e não devem ser considerados isoladamente.285
Modelos de classificação com valores altos de área sob a curva podem ser enganosos se os valores preditos por esses modelos não estiverem adequadamente calibrados.285
36.4.3 Como analisar o desempenho diagnóstico em desfechos com distribuição trimodal na população?
- Limiares duplos podem ser utilizados para análise de desempenho diagnóstico de testes com distribuição trimodal.287
36.5 Interpretação da validade de um teste
36.5.1 Que itens devem ser verificados na interpretação de um estudo de validade?
O novo teste foi comparado junto ao método padrão-ouro.280
As probabilidades pontuais estimadas que caracterizam o desempenho diagnóstico do novo teste são altas e adequadas para sua aplicação clínica.280
Os intervalos de confiança estimados para as probabilidades do novo teste são estreitos e adequadas para sua aplicação clínica.280
O novo teste possui adequada confiabilidade intra/inter examinadores.280
O estudo de validação incluiu um espectro adequado da amostra.280
Todos os participantes realizaram ambos o novo teste e o padrão-ouro no estudo de validação.280
Os examinadores do novo teste estavam cegados para o resultado do teste padrão-ouro.280
36.6 Diretrizes para redação
36.6.1 Quais são as diretrizes para redação de estudos diagnósticos?
Visite a rede Enhancing the QUAlity and Transparency Of health Research EQUATOR Network para encontrar diretrizes específicas para cada tipo de estudo de desempenho diagnóstico.
- STARD 2015: An Updated List of Essential Items for Reporting Diagnostic Accuracy Studies:288 https://www.equator-network.org/reporting-guidelines/stard/