Martín Muñoz P, González de Dios J. Valoración de la calidad de la evidencia y fuerza de las recomendaciones (I). El sistema GRADE. Evid Pediatr. 20010;6:63.
Una aspiración irrenunciable de la medicina actual, reclamada por todos sus protagonistas (enfermos, profesionales y administraciones), es que los actos médicos se sustenten en conocimientos científicos obtenidos de procesos de investigación clínica rigurosa. Decidir si una intervención clínica resulta adecuada para un paciente determinado equivale a establecer si existe un grado razonable de certeza de que el balance entre los beneficios, por un lado, y los riesgos, los inconvenientes y los costes, por el otro, de dicha intervención resulta lo suficientemente favorable como para que merezca la pena aplicarla. Los conceptos de calidad (nivel) de la evidencia y fuerza (grado) de las recomendaciones constituyen un pilar fundamental de la práctica basada en la evidencia, en su intento por estandarizar y proporcionar a los clínicos reglas para analizar la literatura científica, determinar su validez y considerar su utilidad en la asistencia sanitaria.
Cada vez toma más cuerpo el tomar decisiones médicas que estén fundamentadas en el mejor nivel de evidencia (indica hasta qué punto nuestra confianza en la estimación de un efecto es adecuada para apoyar una recomendación) y la mayor fuerza de recomendación (indica hasta qué punto podemos confiar si poner en práctica la recomendación conllevará más beneficios que riesgos).
La calidad (nivel) de evidencia se ha relacionado, generalmente, con el diseño del estudio (estudios descriptivos o analíticos, observacionales o experimentales) y la calidad de los mismos. La meta de la investigación es la agudeza en la medición, lo que implica precisión (limitar el error aleatorio) y validez (limitar el error sistemático). En este sentido, por las características propias de cada diseño, el “nivel” de evidencia será mayor en los estudios analíticos que en los descriptivos, y superior en los estudios experimentales (ejemplo, ensayo clínico) que en los observacionales (ejemplo, estudios de cohortes y estudios de casos y controles). Sin embargo, no toda pregunta clínica se puede abordar con el mismo diseño científico: el ensayo clínico es el patrón oro para intervenciones terapéuticas, pero no será el diseño apropiado para preguntas sobre diagnóstico o pronóstico.
Se establecen unos criterios de calidad propios para cada tipo de diseño. Así, podemos considerar cinco criterios de calidad en el ensayo clínico (definición clara de la población de estudio, intervención y resultado de interés; correcta aleatorización; adecuado enmascaramiento; seguimiento completo - menos del 20% de pérdidas -; análisis correcto - análisis por intención de tratar y control de covariables no equilibradas con la aleatorización -), que serán diferentes a los criterios de calidad barajados en el caso de estudios de valoración de pruebas diagnósticas (comparación con un patrón de referencia válido; muestra representativa; descripción completa de los métodos de realización de la prueba diagnóstica; control de sesgos - comparación ciega e independiente -; control de sesgos de incorporación, verificación diagnóstica y revisión; análisis correcto - datos que permitan calcular indicadores de validez -) o de cohortes (cohortes representativas de la población con y sin exposición, libres del efecto o enfermedad de interés; medición independiente, ciega y válida de exposición y efecto; seguimiento suficiente - superior al 80% -, completo y no diferencial; control de la relación temporal de los acontecimientos – exposición/efecto - y de la relación entre nivel de exposición y grado de efecto - dosis/respuesta -; análisis correcto - control de factores de confusión y modificadores de efecto -), por ejemplo.
La fuerza (grado) de las recomendaciones indica hasta qué punto podemos confiar en que poner en práctica la recomendación conllevará más beneficio que riesgo. En la elaboración de las recomendaciones se debe tener en cuenta, en primer lugar, el nivel de evidencia, pero también otras consideraciones: balance entre beneficios y riesgos, consistencia de los estudios, aplicabilidad práctica en mi paciente o población (incluyendo el riesgo basal en mi población), valores y preferencias de la población diana a la cual va dirigida, costes, etc. Establecer una recomendación, a favor o en contra de una intervención, no significa que todos los pacientes deban ser tratados de la misma manera, pues en la toma de decisión la evidencia procedente de la investigación es sólo uno de los cuatro círculos en una toma de decisiones basada en pruebas (figura 1).
Figura 1. Modelo actualizado en la toma de decisiones basada en pruebas. Mostrar/ocultar
Ambos conceptos, aunque relacionados y complementarios, se ocupan de aspectos distintos. Aunque la fuerza de una recomendación se apoya, decisivamente, en la calidad de la evidencia que la sustenta, ello puede no resultar suficiente de ser por ejemplo muy pequeña la magnitud del efecto sobre las variables primarias, tener poca precisión la estimación realizada o ser irrelevante desde el punto de vista clínico el resultado medido (diferencia entre significación estadística e importancia clínica). Por último, el elemento clave para decidir el grado de recomendación se obtiene al considerar el binomio beneficio/perjuicio neto para la salud, consecuencia del análisis de varios factores (magnitud del efecto y daño, disponibilidad social y coste).
El primer intento serio de introducir rigor y transparencia en la jerarquización de la evidencia fue realizado hace ya más de 30 años por la Canadian Task Force on Preventive Health Care (CTFPHC)1, adaptado posteriormente por la United State Preventive Services Task Force (USPSTF)2. Desde entonces numerosas organizaciones e instituciones, entre las que destacan el Centre for Evidence-Based Medicine (CEBM) de Oxford3, el Scottish Intercollegiate Guidelines Network (SIGN)4, el National Institute for Health and Clinical Excellence (NICE)5 o la U.S. Agency for Health Research and Quality (AHRQ)6, han ido desarrollando sus propios sistemas jerárquicos y, actualmente, se contabilizan más de cien herramientas, 19 sistemas para evaluar la calidad y 7 para graduar las recomendaciones7. En síntesis, las escalas pueden utilizar letras (ej. A, B, C, etc.), números (ej. I, II, III, etc.) o una combinación de ambos (ej. Ia, Ib, IIa, etc.). Sin embargo, la situación a la que se ha llegado dista de ser satisfactoria8,9. La comparación entre las distintas propuestas existentes (tabla 1) pone de manifiesto diferencias sustanciales en los criterios de gradación, con una baja sensibilidad y reproducibilidad de los mismos, múltiples posibilidades para evaluar y estructurar la evidencia y diferentes interpretaciones de los grados de recomendación. Además, la proliferación de escalas genera confusión y dudas en los usuarios, constatándose la inexistencia, hasta ese momento, de un modelo adecuado que pudiera ser universalmente aceptado10-12.
Tabla 1. Nivel de evidencia y fuerza de la recomendación. Mostrar/ocultar
Por ello, desde el año 2000, un grupo internacional integrado por más de 60 expertos, en su mayoría metodólogos y clínicos, muchos de ellos procedentes de las organizaciones antes mencionadas, constituyeron la iniciativa GRADE (The Grading of Recommendations Assessment, Development and Evaluation: Clasificación de la evaluación, desarrollo y valoración de las recomendaciones)13. Su objetivo principal era desarrollar un método común y razonable para calificar la calidad de la evidencia y la fuerza de las recomendaciones. Desde entonces han mantenido más de 40 encuentros, con una sistemática clara:
De manera sintética, el sistema GRADE de juicios secuenciales presenta algunos aspectos diferenciales que se pueden resumir en tres14,15:
En la etapa inicial del sistema GRADE deben establecerse de forma explícita las variables de resultado que realmente tienen interés para los pacientes y clasificarlas según su importancia relativa, diferenciando aquellas decisivas de otras importantes aunque no críticas. Se recomienda utilizar la siguiente escala de nueve puntos:
La evaluación de la calidad se realiza para cada una de las variables de resultado seleccionadas. Al igual que con los sistemas iniciales de clasificación de la calidad de la evidencia, la estrategia GRADE empieza considerando el diseño del estudio y su adecuación para responder a cada tipo de pregunta.
En principio, los ensayos aleatorizados sin limitaciones importantes constituyen evidencias de alta calidad, mientras que los estudios observacionales sin especiales puntos fuertes o limitaciones importantes son considerados evidencias de baja calidad.No obstante, existen determinados factores que pueden incidir directamente en nuestra decisión sobre la calidad de la evidencia, modificando la valoración inicial:
Una vez determinada la calidad de la evidencia para cada una de las variables consideradas, son las variables clínicas clave las que determinan la calidad de la evidencia global. En el caso de que la calidad sea diferente, la estrategia GRADE sugiere que los responsables de formular las recomendaciones tengan en cuenta la calidad más baja de todas las variables decisivas.
Finalmente, se distinguen cuatro categorías jerárquicas que clasifican con este sistema la evidencia disponible para formular las recomendaciones:
La fuerza de la recomendación refleja el grado de confianza que tiene el panel que la formula en que los efectos deseables de la intervención superan a los no deseables (o viceversa). El sistema GRADE solo tiene dos categorías para designar la fuerza de las recomendaciones:
Cada tipo de recomendación conlleva una serie de implicaciones, tanto para los profesionales como para los pacientes y gestores, que pueden resumirse en la tabla 2.
Tabla 2. Implicaciones de las recomendaciones. Mostrar/ocultar
Finalmente, resulta obligado conocer y tener en cuenta una serie de factores que van a determinar la fuerza de la recomendación, y que pueden resumirse en:
En la tabla 3 se expone una comparación entre el sistema GRADE y otros sistemas de clasificación de la calidad de la evidencia y fuerza de las recomendaciones, basada en los artículos que ha publicado el GRADE Working Group en British Medical Journal 16-20. En la figura 2 se expresa gráficamente la sistemática de cómo utilizar GRADE.
Tabla 3. Comparación de GRADE y otros sistemas (GRADE Working Group). Mostrar/ocultar
Figura 2. Propuesta de esquema de utilización de GRADE. Mostrar/ocultar
Martín Muñoz P, González de Dios J. Valoración de la calidad de la evidencia y fuerza de las recomendaciones (I). El sistema GRADE. Evid Pediatr. 20010;6:63.