González Rodríguez MP, Velarde Mayol C. Listas guía de comprobación de estudios sobre pruebas diagnósticas incluidos en las revisiones sistemáticas: declaración QUADAS. Evid Pediatr. 2012;8:20.
Cuando un clínico se enfrenta a la labor de interpretar una prueba diagnóstica, está tratando de dilucidar si un paciente tiene una determinada enfermedad o situación clínica, en qué estado evolutivo se encuentra y la gravedad que tiene1. El conocimiento de los resultados de las pruebas diagnósticas, en combinación con la historia clínica y la exploración del paciente, le orientará en la toma de decisiones acerca del pronóstico y del tratamiento.
Por ello, determinar en qué medida la prueba diagnóstica utilizada mide lo que dice medir (validez) y si se puede utilizar en diferentes situaciones (fiabilidad) es de vital importancia.
El término prueba diagnóstica se refiere a cualquier procedimiento que puede proporcionar información acerca de la salud de una persona. Puede incluir análisis de laboratorio, exploraciones quirúrgicas, exámenes clínicos, pruebas de imagen, cuestionarios y estudios de anatomía patológica. Ante una nueva prueba diagnóstica y antes de utilizarla en la práctica clínica, es necesario conocer su validez.
Los estudios de validez de pruebas diagnósticas tienen el objetivo de determinar la exactitud o precisión de las pruebas diagnósticas que se evalúan y permitir el cálculo de variables estadísticas que proporcionan información de la eficacia y rendimiento de la prueba. Es decir, de lo apropiado que es la prueba en cuestión para detectar una enfermedad determinada. Así pues, para determinar la exactitud de una prueba diagnóstica, el resultado de la misma se compara con el resultado de la prueba de referencia, y se expresa en forma de sensibilidad, especificidad o combinaciones de estos índices, como los cocientes de probabilidad o los valores predictivos. En aquellas pruebas en que los resultados se pueden utilizar con distintos puntos de corte, el resultado se expresa como una curva ROC (curva de rendimiento diagnóstico), que refleja la sensibilidad y la especificidad para distintos puntos de corte.
Los criterios de validez en un estudio de un test diagnóstico se resumen en tres preguntas básicas, sobre las cuales se construirán los criterios de calidad:
Al hablar de calidad de un estudio acerca de una prueba diagnóstica, podemos referirnos a varios aspectos. Para que los estudios de pruebas diagnósticas sean validos es preciso que estén basados en un rigor metodológico en cuanto al diseño y a la aplicabilidad.
En primer lugar interesa conocer si existen sesgos en la en la estimación de la validez de la prueba diagnóstica1. Numerosos sesgos como el de verificación, incorporación o modificación del estado de la enfermedad, entre otros, son importantes a la hora de valorar la calidad de un estudio.
El segundo aspecto es acerca de cómo se realizó el estudio, en cuanto a tamaño de la muestra, análisis de subgrupos, si existía un protocolo preestablecido del estudio.
Un tercer aspecto es la calidad de la aplicabilidad de los resultados, también llamado validez externa, es decir, en qué medida se pueden generalizar a otros pacientes y en otros lugares. Dependerá de qué características tenían los pacientes incluidos en el estudio, el tipo de prueba utilizada y del ámbito en el que se desarrolló.
Otro aspecto es el de la descripción de los resultados, quiénes se incluyeron, cómo se hizo la prueba y la precisión de la misma, entre otros.
Existen numerosas herramientas de evaluación de la calidad de los estudios de pruebas diagnósticas. Entre las más utilizadas están las guías de usuario de la literatura médica3, basadas en las recomendaciones del Evidence-Based Medicine Working Group donde se describen los pasos a seguir para analizar la validez, la importancia y la aplicabilidad de los estudios sobre pruebas diagnósticas. Estos criterios han sido descritos en un artículo de Evidencias Pediatría4.
En una revisión sistemática acerca de las herramientas disponibles para evaluar los estudios de exactitud de pruebas diagnósticas, se encontraron hasta 91 escalas de valoración2. Sin embargo, la mayoría de las escalas no incluían una definición de calidad y no habían sido evaluadas de forma sistemática.
Con el objetivo de establecer una herramienta para valorar la precisión de las pruebas diagnósticas se desarrolló la declaración STARD5 (Standard for Reporting of Diagnostic Accuracy). En 1999, el grupo de trabajo de la Cochrane de pruebas diagnósticas se reunió en Roma. El grupo diseñó una lista de 25 ítems mediante el consenso de expertos, con el objetivo de mejorar el diseño de los estudios que investigan la precisión diagnóstica de los test o pruebas. El grupo de trabajo siguió el ejemplo de la iniciativa CONSORT en el área de los ensayos clínicos, como se describió en la serie Fundamentos de Evidencias en Pediatría6 . Es por así decirlo, en el área de la investigación sobre diagnóstico lo que CONSORT es en el área de ensayos clínicos.
Define un listado de 25 preguntas y un diagrama de flujo que debería seguirse para que el diseño de un estudio fuese adecuado, teniendo en cuenta la inclusión de los pacientes, el orden de la realización de la prueba, el número de pacientes que reciben la prueba y la prueba de referencia seleccionada. La iniciativa STARD está dirigida a editores de revistas y a los autores de artículos, con el objetivo de poder valorar los sesgos potenciales del estudio (validez interna) y la generalización o aplicabilidad de los resultados (validez externa). Se puede consultar en: http://www.stard-statement.org/
En las revisiones sistemáticas es importante la evaluación de la calidad de los estudios incluidos. Las revisiones sistemáticas de estudios de pruebas diagnósticas tienen una dificultad añadida a las de los estudios acerca de tratamientos. Los estudios son observacionales, susceptibles de introducir sesgos. Además, puede existir variabilidad en los métodos, proveedores, procedimientos y en las escalas que se utilizan para valorar la precisión de las pruebas7. En los estudios que analizan la precisión de las pruebas diagnósticas, se ha descrito la escasez de herramientas validadas para valorar la calidad de los mismos8. Con el objetivo de evaluar la calidad de los estudios de precisión de pruebas diagnósticas incluidos en las revisiones sistemáticas, se ha desarrollado la escala de valoración QUADAS9 .
La herramienta QUADAS (Quality Assessment Diagnostic Accuracy Studies) se desarrolló como un proyecto colaborativo entre el Centre for Reviews and Dissemination, University of York, y la Academic Medical Centre de la Universidad de Amsterdam. Fue financiado por el programa Health Tecnology Assessment (HTA) y se publicó en el año 2003 .
Desde entonces ha sido utilizado en un gran número de revisiones sistemáticas. Una versión modificada del QUADAS ha sido utilizada por la Colaboración Cochrane en las revisiones de la precisión de pruebas diagnósticas (Diagnostic Test Accuracy Working Group)11. Otros organismos que recomiendan su utilización son NICE y AHRQ. Un grupo de expertos diseñaron una lista de ítems relevantes, recogidos en la literatura médica. Utilizando el método Delphi seleccionaron 14 ítems. Cada uno se puntuaba como “sí”, “no” o “dudoso”. El “sí” indicaba siempre una buena respuesta. El QUADAS incluye el riesgo de sesgo, aplicabilidad y calidad en la descripción del estudio. La versión Cochrane de la herramienta omitió los ítems relacionados con la calidad en la descripción del estudio.
A partir de la experiencia de los autores y las aportaciones de la Cochrane en cuanto a dificultades con la utilización de QUADAS, se procedió a revisar la primera versión y a desarrollar el QUADAS-212 en el año 2010.
El QUADAS-213 está formado por cuatro áreas fundamentales que incluyen:
En cada una de las áreas se evalúa el riesgo de sesgo y las dudas acerca de su aplicabilidad. Esta evaluación se realiza con una serie de preguntas orientadas a evaluar existencia de un sesgo.
El QUADAS-2 se aplica en cuatro fases:
La versión de QUADAS-2 se puede descargar de la página web de la University of Bristol: http://www.bris.ac.uk/quadas/quadas-2/
La valoración del riesgo de sesgo y de la aplicabilidad se puede consultar en formato de tabla en: http://www.bris.ac.uk/quadas/quadas-2/
Tabla. Evaluación de la calidad (rigor metodológico) de los estudios de pruebas diagnósticas. Mostrar/ocultar
Áreas fundamentales
La selección de los pacientesPrueba de estudio
Prueba de referencia
Flujo y cronograma
Como consideraciones finales, QUADAS-2 no debe utilizarse para generar una escala de puntuación de la calidad. Si un estudio se considera como “bajo” en todas las áreas pues el estudio se describe como “bajo riesgo de sesgo”. Si “alto” o “dudoso” pues se describe como “riesgo de sesgo” o “dudas acerca de la aplicabilidad”.
Los resultados se pueden describir en forma de resumen o de tabla, describiendo cuantos estudios tienen bajo, alto o dudoso riesgo de sesgo y aplicabilidad en cada área.
Los autores pueden elegir incluir únicamente los estudios de pruebas diagnósticas con bajo riesgo de sesgo en todas las áreas. También pueden realizar análisis de subgrupos y análisis de sensibilidad.
Así pues, a la hora de realizar una revisión sistemática de estudios de pruebas diagnósticas, es preciso realizar una valoración detallada de la calidad de los estudios incluidos. La herramienta QUADAS-2 se utiliza para valorar la calidad de los estudios.
Aunque no es el objetivo de este artículo el realizar una comparación entre QUADAS y STARD, a continuación se describen algunos aspectos que pueden ser de utilidad para el lector. Ambas iniciativas coinciden en la búsqueda de un instrumento que detecte la variación y el sesgo de los estudios de pruebas diagnósticas utilizando la Medicina basada en la evidencia.
Difieren entre sí en la intención del instrumento: STARD tiene como objetivo el proporcionar una lista que sirva de guía para la publicación de los estudios de precisión de pruebas diagnósticas. Es una herramienta que se utiliza de forma prospectiva para realizar un diseño adecuado de un estudio; por tanto, interesan a los investigadores en la fase de diseño del estudio y a los editores. QUADAS-2 es una herramienta para valorar la calidad de los estudios primarios en las revisiones sistemáticas y metaanálisis. Se utiliza de forma retrospectiva para realizar un análisis crítico del rigor metodológico de un estudio de pruebas diagnósticas.
Los puntos críticos del QUADAS recaen en su reproductibilidad, sobre todo los ítems relativos a los resultados indeterminados o no concluyentes, las pérdidas y retiradas del estudio
No obstante, algunos autores recomiendan utilizar ambas escalas a la hora de evaluar la calidad de los estudios de pruebas diagnósticas15. Este tema será tratado en otro artículo de la sección de Fundamentos de Evidencias en Pediatría.
González Rodríguez MP, Velarde Mayol C. Listas guía de comprobación de estudios sobre pruebas diagnósticas incluidos en las revisiones sistemáticas: declaración QUADAS. Evid Pediatr. 2012;8:20.