Ochoa Sangrador C, González de Dios J, Buñuel Álvarez JC. Evaluación de artículos científicos sobre pruebas diagnósticas. Evid Pediatr. 2007;3:24.
El diagnóstico médico es un proceso dinámico en el que se intenta tomar decisiones idóneas en presencia de incertidumbre. Desde un punto de vista funcional, consideramos prueba diagnóstica a cualquier procedimiento realizado para confirmar o descartar un diagnóstico o incrementar o disminuir su verosimilitud.
El área de investigación en pruebas diagnósticas es, junto con el de innovaciones terapéuticas, una de las áreas con mayor y más rápido desarrollo en la medicina actual. Es posible que este rápido desarrollo de nuevos procedimientos diagnósticos no haya tenido un paralelismo en el desarrollo de las más adecuadas estrategias de evaluación.
Los rápidos avances en los métodos diagnósticos implican la necesidad de que los profesionales dispongan de la información correcta sobre sus características y la aplicabilidad en su ámbito de trabajo. Así pues, la investigación sobre pruebas diagnósticas tiene como objetivos estimar la capacidad discriminatoria de una prueba diagnóstica entre enfermos y no enfermos (sensibilidad-especificidad), determinar el rendimiento de la misma (valores predictivos) o evaluar la utilidad y satisfacción de un procedimiento diagnóstico. La utilidad de una prueba diagnóstica depende de su capacidad de producir los mismos resultados cada vez que se aplica en similares condiciones (fiabilidad) y de que sus mediciones reflejen exactamente el fenómeno que se intenta medir (validez o exactitud), pero también de su rendimiento clínico y de su coste1-3.
Si evaluamos nuestra práctica clínica observaremos que a menudo empleamos procedimientos diagnósticos de los que desconocemos estos parámetros. Para conocer esta información debemos recurrir a los estudios de evaluación de pruebas diagnósticas publicados. Sin embargo, en muchos de estos estudios no siempre encontramos información válida, relevante o aplicable a nuestro entorno clínico4-7.
En esencia, realizar el diagnóstico es asignar con razonable incertidumbre (es decir, con razonable probabilidad) un paciente a una clase (o grupo) constituida por sujetos con una enfermedad o entidad nosológica. Por lo tanto, el diagnóstico es el primer paso, sin duda crucial, que nos permite la utilización de otras evidencias en la toma de decisiones sobre el paciente. El diagnóstico no es un fin en sí mismo, sino un instrumento en la toma de decisiones clínicas; de hecho no es preciso tener una seguridad diagnóstica absoluta para adoptar la decisión terapéutica correcta8,9.
El modelo de razonamiento que subyace en un estudio sobre pruebas diagnósticas podría esquematizarse del siguiente modo: existe un fenómeno clínico que puede ser medido de forma fiable y válida por un procedimiento que se llamará diagnóstico o gold standard. En este marco nos planteamos dos tipos de pregunta: ¿hay un segundo procedimiento de medida, que llamaremos test o prueba, que podría medir también este fenómeno, de modo fiable y válido? y ¿ese segundo procedimiento tiene algún tipo de ventaja respecto al primero? Las ventajas del segundo método podrán ser teóricas, es decir, que mejore la validez y precisión del primer procedimiento (en cuyo caso estamos buscando un nuevo gold standard) o prácticas, es decir, que sea más fácil o económico, con menos riesgo o molestias, etc (en cuyo caso estamos buscando un procedimiento que evite realizar el gold standard). Cualquier medición tiene dos componentes básicos, un concepto a medir y un procedimiento del que cabe destacar tres elementos: el protocolo para proceder a la medición, el resultado expresable en alguna escala y los criterios de interpretación.
Existe un planteamiento erróneo al realizar estudios de evaluación de pruebas diagnósticas: al aplicar una prueba diagnóstica en mi paciente, si es (+) estará enfermo y si es (-) estará sano. El planteamiento real sería el siguiente: mi paciente tiene ya una probabilidad de estar enfermo (probabilidad preprueba, que influye mucho en el resultado); al aplicar una prueba diagnóstica, si es (+) está probabilidad de enfermedad será mayor y si es (-) será menor (probabilidad postprueba). Para el cálculo de estas probabilidades emplearemos los cocientes de probabilidades (CP), que en el escenario más simple serán los CP positivo (mayor de 1) y negativo (menor de 1). En la figura 1 exponemos los aspectos fundamentales de los estudios sobre evaluación de pruebas diagnósticas.
Figura 1. Esquema de los estudios de evaluación de pruebas diagnósticas Mostrar/ocultar
Existen determinados aspectos en el diseño de un estudio sobre pruebas diagnósticas que pueden afectar a la precisión (errores aleatorios) o a la validez (errores sistemáticos) de las estimaciones realizadas, y de este modo pueden amenazar la calidad de la evidencia que aporta el estudio10. En la tabla 1 se resumen los sesgos potenciales en los estudios sobre pruebas diagnósticas8.
Tabla1. Sesgos potenciales de los estudios sobre pruebas diagnósticas Mostrar/ocultar
Si queremos tomar las mejores decisiones en la elección y aplicación de pruebas diagnósticas para nuestros pacientes, tenemos que estar preparados para integrar nuestros conocimientos y experiencia previos con la información científica de los trabajos que continuamente vienen incorporándose a la literatura médica. Para ello, necesitamos estar familiarizados con los parámetros que describen la validez y fiabilidad de las pruebas diagnósticas y aprender a evaluar la validez, relevancia y aplicabilidad de los estudios donde son estimados11,12.
Siguiendo las recomendaciones del Evidence-Based Medicine Working Group13,14 analizaremos los tres pasos a seguir para analizar la VALIDEZ, la IMPORTANCIA y la APLICABILIDAD (Tabla 2) de los artículos sobre pruebas diagnósticas, planteando diversas cuestiones1,15,16.
Tabla2. Preguntas para valoración crítica de artículos sobre diagnóstico* Mostrar/ocultar
1.- ¿Son válidos los resultados del estudio?
Cabe contestar a una serie de preguntas, clasificadas en criterios primarios (son preguntas de eliminación: si no se cumplen estos criterios primarios quizá no valga la pena continuar con la lectura) y secundarios (son preguntas más detalladas, que cabe realizar si se continúa con la lectura del artículo tras cumplir con los criterios primarios).
Si después de considerar todos estos aspectos hemos decidido que el estudio es suficientemente válido, procederemos a examinar las propiedades de la prueba diagnóstica.
2- ¿Cuáles son los resultados del estudio?
El proceso diagnóstico es en esencia un cálculo de probabilidades. La utilidad de una prueba diagnóstica depende de su validez y de su fiabilidad. La finalidad del análisis es cuantificar la capacidad de una prueba diagnóstica para clasificar correcta o incorrectamente a una persona según la presencia o ausencia de una enfermedad.
El punto de partida del proceso diagnóstico es habitualmente un paciente, con unas características de gravedad y comorbilidad concretas, que le confieren una probabilidad determinada de tener la entidad a diagnosticar (probabilidad preprueba). El objetivo de la realización de la prueba diagnóstica es, una vez conocido el resultado, modificar esa probabilidad hasta obtener una probabilidad postprueba. La magnitud y dirección de ese cambio va a depender de las características operativas de la prueba diagnóstica, pero en todo caso debemos tener en cuenta que el punto de partida, la probabilidad preprueba, va a resultar muy importante en ese proceso.
Tabla3. Interpretación de los cocientes de probabilidad Mostrar/ocultar
Consideremos el escenario diagnóstico más simple, en el que tanto el patrón de referencia como la prueba diagnóstica clasifican a los pacientes en dos grupos, en función de la presencia o ausencia de un síntoma, signo o enfermedad. Utilizando los CP se pueden calcular las probabilidades postprueba (valores predictivos) a partir de la probabilidad preprueba de cada paciente individual, que habitualmente no es la misma que la existente en los estudios publicados. La relevancia de la prueba va a depender de cuánto sea capaz de incrementar o disminuir esa probabilidad, una vez aplicados los CP positivo o negativo. Generalmente CP positivos cercanos a 10 y negativos cercanos a 0,1 resultan clínicamente relevantes, aunque finalmente serán las probabilidades postpruebas ajustadas a mi paciente las que indicarán el grado de relevancia diagnóstica.
El CP es una medida de gran utilidad en la práctica clínica, ya que la principal utilidad es que permite calcular la probabilidad postprueba (Ppost = probabilidad de que un sujeto tenga la enfermedad si obtiene un resultado positivo en la prueba o VPP ajustado) a partir de cualquier probabilidad preprueba (Ppre = probabilidad de que un sujeto tenga la enfermedad antes de aplicarle la prueba) o prevalencia, y de esta forma evaluar cuánto puede ganarse si se realiza. El objetivo de la realización de la prueba diagnóstica es, una vez conocido el resultado, modificar esta Ppre hasta obtener una Ppost; la magnitud y dirección de ese cambio va a depender de las características operativas de la prueba diagnóstica, pero en todo caso debemos tener en cuenta que el punto de partida, la Ppre, va a resultar muy importante en ese proceso.
Para poder operar con los CP en el cálculo de probabilidades, éstas deben transformarse en ventajas (odds); los pasos a seguir son: 1) transformar la Ppre en odds preprueba = Ppre/1-Ppre; 2) obtener la odds postprueba = CP+ x odds preprueba; 3) obtener la Ppost= odds postprueba/1 + odds postprueba. La diferencia que exista entre la Ppre y Ppost informa de la utilidad que tiene una determinada prueba diagnóstica; a mayor diferencia entre una y otra probabilidad mayor contribución de la prueba al proceso diagnóstico. Afortunadamente existen un modo más simple de realizar estos cálculos (nomograma de Fagan- ver figura 2).
Figura 2. Nomograma de Fagan Mostrar/ocultar
Una de las ventajas de los CP es que si la prueba tiene más de dos resultados posibles, se puede calcular un CP para cada uno de ellos, permitiéndonos interpretar la contribución al diagnóstico de cada resultado. Otra de las ventajas radica en que los CP facilitan el cálculo de las modificaciones de probabilidad obtenidas al aplicar en serie varias pruebas diagnósticas, recurso frecuentemente empleado en la práctica clínica y en los estudios de análisis de decisión.
En la tabla 4 se expresan los indicadores de validez de una prueba diagnóstica, a través de los resultados de un estudio hipotético sobre la utilidad de una prueba diagnóstica, utilizando su patrón de referencia.
Tabla 4. Medidas de utilidad de una prueba diagnóstica Mostrar/ocultar
En este proceso de cálculo, puede resultar problemático estimar adecuadamente la Ppre o prevalencia; debería hacerse a partir de la propia experiencia acumulada, de forma que sea específica del entorno de trabajo; sin embargo, habitualmente se dispone de poca información sobre estos aspectos; cuando no se está muy seguro de la fiabilidad de la estimación, puede ser conveniente analizar las implicaciones sobre la práctica que puede tener el considerar diferentes valores plausibles de las Ppre.
¿Cuán precisos son los resultados?: la fiabilidad de una prueba viene determinada por la estabilidad de sus mediciones cuando se repite en condiciones similares. La variabilidad de las mediciones va a estar influida por múltiples factores que interesa conocer y controlar. Entre ellos, tiene especial importancia distinguir las variaciones de interpretación intraobservador e interobservador. La fiabilidad puede ser evaluada para resultados discretos nominales mediante el índice kappa (IK), para resultados discretos ordinales mediante el índice kappa ponderado y para resultados continuos mediante el coeficiente de correlación intraclase y el método de Bland-Altman. El IK nos ofrece una estimación del grado de acuerdo no debido al azar a partir de la proporción de acuerdo observado (Po) y la proporción de acuerdo esperado (Pe)= Po-Pe/ 1-Pe.
El IK puede adoptar valores entre -1 y + 1: es 1 si existe un acuerdo total, 0 si Po es igual a Pe y menor de 0 si Po es inferior a Pe por azar. La interpretación más aceptada de los rangos de valores del IK son: 0,81-1 = excelente, 0,61 – 0,80 = buena, 0,41 – 0,60 = moderada, 0,21 – 0,40 = ligera, <=0,20 = mala.
¿Cuán precisos son los resultados?: al igual que en otros tipos de estudios, la valoración de la validez de las pruebas diagnósticas se hace sobre muestras, por lo que los resultados obtenidos son sólo estimaciones puntuales, sujetas a variabilidad aleatoria, y por lo tanto deben expresarse con sus intervalos de confianza (IC); estos IC tendrán que ser aplicados en el cálculo de la Ppost para poder juzgar la utilidad de la prueba diagnóstica.
Los estudios de evaluación de pruebas diagnósticas proporcionan conocimiento imprescindible para el uso de la probabilidad en el diagnóstico. Para que este conocimiento sea válido e importante se requiere saber los posibles errores a evitar y un diseño específico que optimice el esfuerzo investigador, y para que se incorpore este conocimiento a la práctica clínica es preciso disponer de la capacidad de juicio que permita una lectura crítica de las publicaciones sobre pruebas diagnósticas, tal como se ha pretendido en este capítulo.
3- ¿Son aplicables en tu medio?
El hecho de que una prueba diagnóstica determinada sea apropiada, no significa que todos los pacientes puedan utilizar el diagnóstico. Para ellos nos podemos preguntar17:
Pero el criterio último de la utilidad de una prueba, al margen de que ésta ofrezca información diagnóstica no disponible previamente o de que modifique nuestro comportamiento clínico, es si el paciente obtiene algún beneficio. Existen escenarios en los que la prueba diagnóstica no resulta coste-efectiva, conlleva riesgos, o conduce a decisiones terapéuticas sin repercusión sobre el paciente.
A la hora de decidir qué prueba diagnóstica se va a utilizar, es conveniente tener en cuenta los valores y preferencias del paciente, ya que algunas pruebas implican procedimientos invasivos o molestos, por lo que es básico que el paciente esté informado y dispuesto a colaborar.
El objetivo de aplicar una nueva prueba diagnóstica es obtener información diferente a la ya disponible que sea beneficiosa para mi paciente. La utilidad de una prueba es indiscutible cuando la enfermedad, si no se diagnostica, comporta un peligro para la vida del paciente, la prueba no produce efectos adversos importantes y existe un tratamiento efectivo para esa enfermedad.
Ochoa Sangrador C, González de Dios J, Buñuel Álvarez JC. Evaluación de artículos científicos sobre pruebas diagnósticas. Evid Pediatr. 2007;3:24.