Quando um novo teste diagnóstico é desenvolvido em Medicina, é necessário avaliar de forma objetiva o seu poder discriminativo em relação à doença ou condição a que se destina detectar[1]. Essa avaliação é fundamental, pois o parâmetro de desempenho mais comumente utilizado, que é a porcentagem de testes cuja discriminação foi realizada corretamente (parâmetro esse denominado de acurácia) não é suficiente para descrever completamente como o método de decisão se comporta em relação aos falso-positivos (pacientes que não tem a condição patológica, mas que o método de decisão aponta como tendo), e aos falso-negativos (o oposto do anterior). Evidentemente, um teste com boa acurácia, mas que produz um número inaceitável de falso-positivos ou falso-negativos, pode causar problemas.
O método mais comum para avaliação de decisões de testes médicos com dois resultados possíveis (como presença ou ausência de um anticorpo, por e-xemplo) é ilustrado na Figura 1.
Como os resultados de testes médicos geralmente são contínuos, ou seja, eles produzem um valor situado em um determinado intervalo contínuo (por e-xemplo, um teste de glicemia em jejum), é necessário definir-se um ponto de corte para poder-se contar o número de diagnósticos verdadeiras e falsos (por e-xemplo, diagnóstico de diabetes mellitus), visando construir a tabela de contigência 2 x 2 mencionada. Como esta definição é essencialmente arbitrária, o melhor procedimento é estudar os efeitos de diversos pontos de corte sobre as estatísticas de desempenho (por exemplo, para valores de saída de 0,1, 0,2, 0,3, etc.) Para cada ponto de corte, a sensibilidade e a especificidade são calculadas e colocadas uma em cada eixo de um gráfico bidimensional (Fig. 2), produzindo uma curva chamada ROC (Receiver Operating Characteristics) [2]. Uma curva ROC perfeita corres-ponde a uma linha horizontal no topo do gráfico (0 % de especificidade e 100 % de sensibilidade), o qual percorre até o ponto de 100 % de especificidade e depois desce em direção ao eixo horizontal (100 % de especificidade e 0 % de sensibilidade). Curvas abaixo deste nível indicam métodos de decisão menos que perfeitos, mas qualquer curva situada acima da reta diagonal que atravessa o gráfico entre os pontos [0,0] e [100,100] pode ser considerada como boa (ela corresponde aos testes em que há igualdade entre sensibilidade e especificidade). A área sob a curva (AUC), obtida por integração, é outra medida normalmente usada para comparar diferentes curvas ROC entre si [3]. Neste contexto, a AUC pode ser interpretada matematicamente como a probabilidade que, dados dois indivíduos, um que apresenta a patologia, e outro que não a apresenta, a predição feita pelo teste será a maior possível para o indivíduo que tem a patologia.
O problema final é: dada uma curva ROC qualquer, como determinar o melhor ponto de corte ? Uma maneira simples de fazer isto é calcular uma nova medida, chamada eficiência, que é a média aritmética da sensibilidade e especificidade. O <F128>c<F255M>2calculado para a tabela de contingência 2 x 2 também pode ser utilizado como um indicador da significância estatística da melhor combinação de especificidade e sensibilidade ao longo da curva ROC.
O programa aqui apresentado calcula, a partir das tabelas de contingência, os valores de acurácia, especificidade, sensibilidade, preditividade positiva e negativa, eficiência e <F128>c<F255M>2e significância estatística deste. Para os quatro primeiros valores, são usadas as fórmulas especificadas na Figura 1. A eficiência é calculada pela média aritmética simples da especificidade e da sensibilidade. O <F128>c<F255>2 é calculado através da fórmula simplificada para tabelas de contingência de 2 x 2 (sem correção de Yates), e a sua significância testada para um alfa de 0.05. A utilização do programa é auto-explicativa. Foi utilizada a linguagem Turbo BASIC 1.1 (Borland International), mas pode ser usado também em Quick BASIC (Microsoft Corp.), para microcomputadores da linha IBM-PC.