Molina Arias M, Ochoa Sangrador C. Pruebas diagnósticas con resultados continuos o politómicos. Curvas ROC. Evid Pediatr. 2017;13:12.
En números anteriores vimos cómo se valoraba el comportamiento de las pruebas diagnósticas cuando estas tenían como resultado un valor positivo o negativo. Calculábamos la sensibilidad (S) y especificidad (E) de la prueba1, los valores predictivos2 y los cocientes de probabilidades3, todo ello encaminado a saber la probabilidad posprueba.
Pues bien, existen pruebas diagnósticas en las que el resultado no es positivo o negativo, sino un valor cuantitativo de tipo continuo. Pensemos, por ejemplo, en la glucemia, el colesterol sérico, el número de neutrófilos totales, etc. En estos casos, la S y E de la prueba van a depender del punto de corte que consideremos por encima del cual la prueba será positiva y por debajo del cual será negativa.
Veamos un ejemplo. Pensemos que utilizamos el valor de la procalcitonina (PCT) para distinguir si un lactante con fiebre sin foco tiene una infección vírica o bacteriana. Si elegimos un punto de corte muy bajo, a partir del cual consideremos que la infección es bacteriana, detectaremos la mayor parte de los niños con infección bacteriana (pocos tendrán la PCT por debajo de ese valor), pero estaremos diagnosticando de infección bacteriana muchos niños con infección vírica (falsos positivos [FP]). En este caso, la prueba será muy sensible, pero poco específica.
Por el contrario, si elegimos un punto de corte muy alto, nos equivocaremos muy poco cuando diagnostiquemos una infección bacteriana (pocas tendrán valores por debajo del punto de corte), pero se nos pasarán muchas que diagnosticaremos como víricas (falsos negativos [FN]). En este caso, la prueba tendrá poca sensibilidad y mucha especificidad.
Para solucionar el problema de saber cuál es el punto de corte que más nos conviene disponemos de una herramienta denominada curva de características operativas para el receptor, conocidas como curvas ROC4 por sus siglas en inglés (receiver operating characteristic).
En la figura 1 se representa en ordenadas (eje y) la S y en abscisas el complementario de la E (1-E) y se traza una curva según la S y E de cada valor que se tome como posible punto de corte. Así, cada punto representa la probabilidad de diagnosticar correctamente a sanos y enfermos. La diagonal del gráfico representaría la “curva” si la prueba no tuviese capacidad discriminatoria.
Figura 1. Representación de una curva ROC. Mostrar/ocultar
Veamos cómo construir una curva ROC con un ejemplo ficticio del uso de PCT para distinguir entre infección vírica y bacteriana, cuyos resultados aparecen en la tabla incluida en la figura 2. Para visualizar de forma gráfica cómo hacer una curva ROC, dentro de cada intervalo de los valores de PCT comenzamos a colocar los casos de infección bacteriana (verdaderos positivos) sobre el eje vertical (hacia arriba en el gráfico) y los casos de infección viral (falsos positivos) hacia la derecha en horizontal, tal como se muestra en la figura 2. En cada intervalo, los verdaderos positivos nos acercan a la esquina superior izquierda del gráfico, mientras que los falsos positivos nos alejan. Obtenemos así la curva para este ejemplo.
Figura 2. Ejemplo gráfico de construcción de la curva ROC a partir del diagnóstico de los pacientes para los diferentes puntos de corte de la prueba. Mostrar/ocultar
Desde un punto de vista numérico calcularíamos las parejas de S y E para cada uno de los posibles puntos de corte y los representaríamos gráficamente, tal como se muestra en la figura 3.
Figura 3. Representación gráfica de las parejas de S y E para construir la curva ROC de la prueba diagnóstica. Mostrar/ocultar
Como puede verse en el gráfico, la curva suele tener un segmento de gran pendiente donde aumenta rápidamente la S sin que apenas varíe la E: si nos desplazamos hacia arriba podemos aumentar la S sin que prácticamente nos aumenten los FP. Pero llega un momento en que nos acercamos a la parte plana. Si seguimos desplazándonos hacia la derecha llegará un punto a partir del cual la S ya no aumentará más, pero comenzarán a aumentar los FP.
Así, podemos utilizar esta curva para calcular cuál es el punto de S y E que más nos convenga según nos interese primar una u otra. En general, en aquellos casos en que los inconvenientes de los FP sean menores que los de los FN nos interesará una prueba muy sensible, por lo que elegiremos puntos de corte situados más a la derecha de la curva. Por otro lado, cuando sea preferible tener FN que FP nos interesará que la prueba sea más específica, por lo que elegiremos puntos de corte más a la izquierda (menos FP). Por último, en los casos en que queramos maximizar S y E, el mejor punto de corte será el punto más próximo al ángulo superior izquierdo de la gráfica5.
Un parámetro de interés es el área bajo la curva (ABC), que nos representa el comportamiento global de la prueba diagnóstica, la probabilidad de que clasifique correctamente al paciente al que se le practique, considerando todos los puntos de corte posibles. Las curvas ROC se representan siempre como un cuadrado de 1 × 1 de lado. Una prueba ideal con S y E del 100% sigue el marco del gráfico y tiene un área bajo la curva de 1: siempre acierta. Sin embargo, esta situación no suele verse en la práctica habitual, ya que es excepcional encontrar una prueba con S y E de 100%. En clínica, una prueba cuya curva ROC tenga un ABC > 0,9 se considera muy exacta, entre 0,7-0,9 de exactitud moderada y entre 0,5-0,7 de exactitud baja. Así, la capacidad discriminatoria de la prueba disminuye al disminuir el ABC. Cuando la curva coincide con la diagonal, el ABC es igual a 0,5, lo que significa que la capacidad discriminatoria es nula: obtendríamos la misma probabilidad de acertar realizando la prueba o tirando una moneda al aire. Valores por debajo de la diagonal (ABC < 0,5) se corresponden con un error de clasificación de sanos y enfermos: la capacidad de la prueba es tan baja que toma a los sanos por enfermos, y viceversa. En la figura 4 podemos ver ejemplos de curvas con distintas ABC.
Figura 4. Tres ejemplos de curva ROC. Discriminación perfecta (área bajo la curva [ABC] = 1), buena discriminación (ABC = 0,8) y capacidad de discriminación similar al azar (ABC = 0,5). Mostrar/ocultar
De manera ideal, debemos obtener el intervalo de confianza del ABC y comprobar que no incluye el valor 0,5, ya que en este caso la diferencia no sería estadísticamente significativa y la prueba no tendría mayor capacidad discriminatoria que el azar. De manera alternativa, puede hacerse un contraste de hipótesis mediante el test de Mann-Whitney, que nos proporcionará el valor de p correspondiente. El problema es que estos procedimientos son matemáticamente complejos y no están al alcance de todos los programas de estadística habitualmente empleados6.
El ABC puede servir también para comparar el rendimiento de dos pruebas diagnósticas7. En estos casos comparamos las curvas y el ABC de cada una. Aquella que tenga un ABC mayor será la que más potencia diagnóstica tendrá. Así, lo correcto es calcular los intervalos de confianza del 95% y comprobar si existe solapamiento (en cuyo caso la potencia de las dos pruebas será similar) o si uno es mayor que el otro (indicándonos cuál es la prueba más potente). La comparación de las curvas puede ser difícil en algunas ocasiones, por lo que existen métodos matemáticos para realizar los contrastes estadísticos y determinar si existe diferencia significativa entre las dos curvas8-9.
En cualquier caso, con independencia de la diferencia en las ABC de dos pruebas diagnósticas, la forma de las curvas puede darnos también información de interés. En la figura 5 podemos ver superpuestas las curvas ROC de dos técnicas diagnósticas, A y B. Aunque la B tiene un ABC mayor y podría considerarse como una prueba diagnóstica más potente que A, podemos fijarnos en que, a valores muy bajos de S, la prueba A tiene un valor de E más alto que la B. De esta manera, si nos interesa maximizar S y E, escogeremos la prueba B, pero si lo que realmente nos interesa es un valor alto de E, quizás nos sea más interesante utilizar la prueba A.
Figura 5. Comparación de las curvas de dos pruebas diagnósticas. La prueba B es más potente (mayor área bajo la curva), pero puede observarse que la prueba A es más específica para valores bajos de sensibilidad. Mostrar/ocultar
Para finalizar, comentar también que las curvas ROC pueden utilizarse, además de para la valoración de pruebas diagnósticas, para valorar la capacidad de un modelo de regresión logística para discriminar entre dos grupos, casos y no casos10. De manera similar a lo que hablamos anteriormente sobre pruebas diagnósticas, un ABC de 1 indica una capacidad discriminatoria perfecta del modelo. Cuanto menor sea el ABC, tanto menor será el poder de discriminación, hasta llegar al ABC de 0,5, momento en que la capacidad de discriminación es similar a la del azar.
Molina Arias M, Ochoa Sangrador C. Pruebas diagnósticas con resultados continuos o politómicos. Curvas ROC. Evid Pediatr. 2017;13:12.