Capítulo 37 Desempenho diagnóstico
37.2 Tabelas 2x2
37.2.1 O que é uma tabela de confusão 2x2?
- Tabela de confusão é uma matriz de 2 linhas por 2 colunas que permite analisar o desempenho de classificação de uma variável dicotômica (padrão-ouro ou referência) versus outra variável dicotômica (novo teste).288
37.2.2 Como analisar o desempenho diagnóstico em tabelas 2x2?
Verdadeiro-positivo (\(VP\)): caso com a condição presente e corretamente identificado como tal.289
Falso-negativo (\(FN\)): caso com a condição presente e erroneamente identificado como ausente.289
Verdadeiro-negativo (\(VN\)): controle sem a condição presente e corretamente identificados como tal.289
Falso-positivo (\(FP\)): controle sem a condição presente e erroneamente identificado como presente.289
Condição presente | Condição ausente | Total | |
---|---|---|---|
Teste positivo | \(VP\) | \(FP\) | \(VP+FP\) |
Teste negativo | \(FN\) | \(VN\) | \(FN+VN\) |
Total | \(VP+FN\) | \(FP+VN\) | \(N=VP+VN+FP+FN\) |
- Tabelas de confusão também podem ser visualizadas em formato de árvores de frequência.288

Figura 37.1: Árvore de frequência do desempenho diagnóstico de uma tabela de confusão 2x2 representando um método novo (dicotômico) comparado ao método padrão-ouro ou referência (dicotômico).
O pacote riskyr290 fornece a função plot_prism para construir árvores de frequência a partir de diferentes cenários.
37.2.3 Quais probabilidades caracterizam o desempenho diagnóstico de um teste em tabelas 2x2?
- Sensibilidade (\(SEN\)), equação (37.1): Proporção de verdadeiro-positivos dentre aqueles com a condição.289
- Especificidade (\(ESP\)), equação (37.2): Proporção de verdadeiro-negativos dentre aqueles sem a condição.289
- Valor preditivo positivo (\(VPP\)), equação (37.4): Proporção de casos corretamente identificados como verdadeiro-positivos.289
- Valor preditivo negativo (\(VPN\)), equação (37.5): Proporção de controles corretamente identificados como verdadeiro-negativos.289
Condição presente | Condição ausente | Total | Probabilidades | |
---|---|---|---|---|
Teste positivo | \(VP\) | \(FP\) | \(VP+FP\) | \(VPP = \frac{VP}{VP+FP}\) |
Teste negativo | \(FN\) | \(VN\) | \(FN+VN\) | \(VPN = \frac{VN}{VN+FN}\) |
Total | \(VP+FN\) | \(FP+VN\) | \(N=VP+VN+FP+FN\) | |
Probabilidades | \(SEN = \frac{VP}{VP+FN}\) | \(ESP = \frac{VN}{VN+FP}\) | \(ACU = \frac{VP+VN}{VP+VN+FP+FN}\) |
O pacote riskyr290 fornece a função comp_prob para estimar 13 probabilidades relacionadas ao desempenho diagnóstico em tabelas 2x2.
O pacote caret291 fornece a função confusionMatrix para estimar 11 probabilidades relacionadas ao desempenho diagnóstico em tabelas 2x2.
37.4 Curvas ROC
37.4.1 O que é a área sob a curva (AUROC)?
- A área sob a curva ROC (AUC ou AUROC) quantifica o poder de discriminação ou desempenho diagnóstico na classificação de uma variável dicotômica.294
37.4.2 Como interpretar a área sob a curva (ROC)?
A área sob a curva AUC varia no intervalo \([0.5; 1]\), com valores mais elevados indicando melhor discriminação ou desempenho do modelo de classificação.294
As interpretações qualitativas (isto é: pobre/fraca/baixa, moderada/razoável/aceitável, boa ou muito boa/alta/excelente) dos valores de área sob a curva são arbitrários e não devem ser considerados isoladamente.294
Modelos de classificação com valores altos de área sob a curva podem ser enganosos se os valores preditos por esses modelos não estiverem adequadamente calibrados.294
37.4.3 Como analisar o desempenho diagnóstico em desfechos com distribuição trimodal na população?
- Limiares duplos podem ser utilizados para análise de desempenho diagnóstico de testes com distribuição trimodal.296
37.5 Interpretação da validade de um teste
37.5.1 Que itens devem ser verificados na interpretação de um estudo de validade?
O novo teste foi comparado junto ao método padrão-ouro.289
As probabilidades pontuais estimadas que caracterizam o desempenho diagnóstico do novo teste são altas e adequadas para sua aplicação clínica.289
Os intervalos de confiança estimados para as probabilidades do novo teste são estreitos e adequadas para sua aplicação clínica.289
O novo teste possui adequada confiabilidade intra/inter examinadores.289
O estudo de validação incluiu um espectro adequado da amostra.289
Todos os participantes realizaram ambos o novo teste e o padrão-ouro no estudo de validação.289
Os examinadores do novo teste estavam cegados para o resultado do teste padrão-ouro.289
37.6 Diretrizes para redação
37.6.1 Quais são as diretrizes para redação de estudos diagnósticos?
Visite a rede Enhancing the QUAlity and Transparency Of health Research EQUATOR Network para encontrar diretrizes específicas para cada tipo de estudo de desempenho diagnóstico.
- STARD 2015: An Updated List of Essential Items for Reporting Diagnostic Accuracy Studies:297 https://www.equator-network.org/reporting-guidelines/stard/
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,