González de Dios J, Balaguer Santamaría. Revisión sistemática y metanalisis (II): evaluación crítica de la revisión sistemática y metánalisis. Evid Pediatr. 2008;4:19.
En el artículo previo de esta serie se han analizado las características y metodología de elaboración de los principales métodos de síntesis de la información (revisión sistemática -RS- y metaanálisis -MA-)1.
Difícilmente un estudio aislado puede aportar la solución definitiva de un problema médico, aunque este estudio tenga la calidad científica de un ensayo clínico (EC) aleatorizado. Se acepta que el avance científico se consigue con la acumulación de los resultados procedentes de varios estudios, pero que es habitual que los resultados sean discrepantes2,3. Para resolver tales discrepancias se ha recurridos a los métodos de síntesis de información sobre un mismo tema, bien cualitativa (RS) o cuantitativa (MA).
Sin embargo, todas las RS y/o MA no son sinónimo de calidad y estos métodos de síntesis de información son mejorables: como toda investigación retrospectiva tienen limitaciones, principalmente por la calidad de la información disponible; además la reproductibilidad de algunas RS no es buena4 y, a veces, los resultados no coinciden con los de los grandes EC5. Lo que es peor, a menudo no está claro qué es más cierto: el resultado de la RS de pequeños EC (que suele tener alguna validez externa, porque se han realizado con poblaciones y métodos variados) o el de un gran EC (posiblemente con mayor validez interna)5,6.
En el presente artículo realizaremos una valoración de las listas-guías para la correcta presentación e interpretación de las RS y/o MA, así como la evaluación de la lectura crítica de estos documentos científicos.
Debido al creciente número de RS y/o MA que se publican, puede ser de una gran utilidad contar con métodos que ayuden a evaluar de forma rápida y sistemática su calidad: son las listas-guía, cuestionarios o check-lists. Además de su objetivo fundamental, que es valorar si los métodos utilizados y los resultados obtenidos son adecuados para producir información útil, las listas-guía cumplen también una importante labor informativa, tanto en la evaluación crítica de distintos tipos de estudios publicados como en la evaluación de protocolos. Existen dos tipos fundamentales de listas-guía: cuantitativas (se asigna una puntuación a cada apartado) y cualitativas (se analiza globalmente cada apartado, lo que permite un análisis más matizado).
Al plantearse llevar a cabo una RS y/o MA, o para revisar una ya realizada por otros autores, es útil emplear una lista de verificación como guía para descubrir errores importantes, como la propuesta en la tabla 1. En dicha tabla se presenta una lista de preguntas clave para valorar una RS y/o MA, lo que puede ser útil tanto al posible autor como al lector. La evaluación sistemática de estas preguntas ayuda a interpretar de forma crítica y objetiva las RS y/o MA.
Tabla 1. Lista de verificación (check-list) que permite la detección de errores importantes en una revisión sistemática y/o metaanálisis Mostrar/ocultar
Para impulsar la mejora y uniformidad de las RS y MA un grupo de investigadores publicaron en 1999 en Lancet unas recomendaciones identificadas por el acrónimo QUOROM - Quality Of Reporting Of Meta-analysis-. En ellas, con el ánimo de mejorar y homogeneizar la calidad de la presentación de este tipo de estudios con alta “evidencia” científica, se destacan los puntos que deberían exigirse7-9. Si esta iniciativa tiene éxito y es asumida por las revistas científicas más importantes, tal como ocurrió con su antecedente para los EC (el conocido CONSORT)10, dichas recomendaciones pueden convertirse en norma para publicar nuestras RS y/o MA. Esta propuesta contiene una lista-guía que “obliga” a los autores a ofrecer información explícita sobre cada uno de los apartados, incluyendo la estrategia de búsqueda, los criterios para la selección de estudios, la evaluación de la validez de éstos, el modo en que se extrajeron los datos, las características de los diversos estudios y la síntesis cuantitativa de los datos (tabla 2).
Tabla 2. Propuesta QUOROM para la presentación de una revisión sistemática y metaanálisis Mostrar/ocultar
Según este grupo, existen seis áreas temáticas importantes para la realización y presentación de los resultados de cualquier RS y/o MA de EC aleatorizados: diseño del estudio, combinación adecuada de diversos estudios, control del sesgo, análisis estadístico, análisis de sensibilidad y problemas de aplicabilidad. Además, la propuesta QUOROM destaca la necesidad de incluir un diagrama de flujo (figura 1) en el que se deberá aportar información detallada sobre el número de EC aleatorizados identificados, incluidos y excluidos, y los motivos por los que estos últimos lo fueron.
Los “Requisitos de uniformidad para manuscritos enviados a revistas biomédicas” en su última edición de 2007 recoge las recomendaciones para la publicación de estudios con diseños específicos (EC bajo la Declaración CONSORT, RS y/o MA bajo la Declaración QUOROM, estudios sobre pruebas diagnósticas bajo la Declaración STARD, guías de práctica clínica bajo la Declaración AGREE, etc), y algunas revistas pueden exigir a los autores en sus instrucciones que atiendan dichos criterios11.
En las revisiones narrativas (tradicionales o de autor) alguien, normalmente un experto, expone los datos científicos existentes sobre un tema determinado; por lo que, en su mayor parte, constituyen simples resúmenes actualizados de la literatura. Las RS, a diferencia de las anteriores, utilizan de manera sistemática métodos para identificar, evaluar y sintetizar si es posible toda la información existente sobre un problema determinado. Cuando se integran resultados de los estudios incluidos en una revisión, se habla de MA. Pero un MA puede no estar basado en una revisión sistemática de la literatura; o puede que una RS de la evidencia no conlleve ninguna técnica estadística para integrar los resultados de los estudios primarios incluidos en ella.
La lectura crítica de de documentos científicos es un proceso fundamental en el contexto de la Medicina basada en la evidencia, en la que existen tres preguntas fundamentales a contestar en cualquier artículo12,13: juzgar si son válidas desde el punto de vista científico (próximas a la verdad y con rigor científico), decidir si son importantes (y, en consecuencia, valiosas y relevantes en potencia para el lector en su condición de clínico) y aplicables a la práctica clínica habitual (trasladar los resultados de la evidencia científica a la práctica clínica en nuestro(s) paciente(s)). Una buena manera de abordar una lectura crítica puede encontrarse en los artículos publicados en JAMA por el Evidence-Based Medicine Working Group, en este caso en el artículo “sobre cómo utilizar una revisión” 14.
Otro modo alternativo para la evaluación crítica de una RS es la propuesta por el grupo CASP (Critical Appraisal Skills Programme), que es un programa del Servicio Inglés de Salud que ayuda a adquirir habilidades para hacer lectura crítica y obtener así la “evidencia” científica necesaria para las decisiones clínicas13. En España existe un grupo CASP, que se denomina CASPe (Programa de habilidades en lectura crítica), y desde el que podemos descargar también las preguntas orientadas para realizar lectura crítica de documentos científicos, entre ellos la RS15.
Siguiendo las recomendaciones del Evidence Based Medicine Working Group14,15 analizaremos los pasos a seguir para analizar la VALIDEZ, la IMPORTANCIA y la APLICABILIDAD (tabla 3) de los artículos sobre pronóstico, planteando diversas cuestiones:
En base a estas fuentes, los aspectos fundamentales a valorar en una RS y/o MA, para que ésta sea considerada de calidad (libre de los sesgos más importantes), son los siguientes14-17:
Tabla 3. Preguntas para valoración crítica de artículos sobre revisiones sistmáticas y/o metaanálisis Mostrar/ocultar
1.- ¿Són válidos los resultados de la revisión ?
Estas preguntas definen los criterios que se utilizan para evaluar la validez interna (o rigor científico) de las RS y/o MA, lo que permitirá estar razonablemente convencidos de que sus resultados no están sesgados y proporcionan una respuesta correcta a la pregunta planteada en su objetivo.
a.- Criterios primarios o preguntas “de eliminación”:
El primer criterio para valorar una RS es si aborda una pregunta clínica concreta e importante, que debe estar definida con mucha claridad, para poder evaluar si los estudios que se han incluido son relevantes. La mayor parte de problemas clínicos pueden formularse en términos de una simple relación entre condición de interés (patología de estudio), población, alguna exposición (a un tratamiento, prueba diagnóstica, potencial efecto adversos, etc), y uno o más resultados de interés.
Los criterios utilizados para la identificación y selección de los artículos candidatos a ser incluidos deben estar definidos explícitamente y ser apropiados a la pregunta planteada. El mejor tipo de estudio es el que: se dirige a la pregunta objeto de la revisión (pacientes, intervenciones y resultados) y tiene un diseño apropiado. El lector debe conocer los criterios que los autores utilizaron para seleccionar los estudios incluidos en la revisión. Asimismo es preciso que especifiquen los estándares metodológicos utilizados para seleccionar los estudios (ej. para RS de cuestiones terapéuticas deben utilizarse preferentemente EC controlados) y estos patrones deben ser similares a los criterios de validez primaria que hemos descrito para los artículos originales de investigación18-22 (tabla 4) Además del tipo de diseño, deben valorarse el tipo de personas y ámbito de las intervenciones evaluadas y las de comparación, los grupos control y los resultados clínicos que interesa estudiar, de forma que se incluyan estudios relativamente homogéneos en cuanto al problema de salud y al abordaje metodológico que realizan del mismo. Hay que tener en cuenta que diferencias en estos criterios podría llevar a diferentes resultados en estudios de revisión que inicialmente se planteaban una misma pregunta clínica. También debe tenerse presente que diferencias en los tres elementos esenciales de todo estudio clínico: pacientes, intervenciones y resultados, pueden conducir a conclusiones diferentes en revisiones que parecen abordar el mismo problema clínico23.
Las dos primeras preguntas son de “eliminación” y se pueden responder rápidamente, con lo que es probable que desechemos la mayor parte de las revisiones (entre otros motivos, porque la mayoría de las publicadas hasta una época muy reciente son narrativas y no sistemáticas); sólo si la respuesta es afirmativa en ambas merece la pena continuar con la tercera pregunta. Tal como sugieren Oxman et al14, si el principal problema que aborda una revisión no está claro a partir del título o del resumen, y no se utiliza el tipo adecuado de estudios, probablemente es buena idea dejar de leer y pasar al siguiente artículo de revisión.
Tabla 4. Guía para la selección de artículos con mayores probabilidades de proporcionar resultados válidos Mostrar/ocultar
b.- Criterios secundarios o preguntas “de detalle”:
La validez de una revisión depende de que se hayan evaluado todas las pruebas científicas disponibles y que no han quedado excluidos estudios relevantes. Una búsqueda global y no sesgada de la literatura biomédica es una de las diferencias clave entre una RS y una revisión narrativa. Es importante que los autores lleven a cabo una búsqueda completa de los estudios que cumplan sus criterios de inclusión. La recuperación de artículos de las bases de datos bibliográficos electrónicas puede variar mucho en función de la estrategia de búsqueda utilizada24. Es preciso, por tanto, que los autores especifiquen cómo han identificado los artículos seleccionados, así como las bases de datos consultadas (idealmente Cochrane Library, Medline y Embase). La búsqueda realizada exclusivamente por medios electrónicos con frecuencia es insuficiente, por lo que los autores deberían hacer un seguimiento de las referencias de los estudios identificados y, si fuera necesario, contactar con expertos para la identificación de estudios no publicados. La inclusión de estudios no publicados disminuye las posibilidades de “sesgo de publicación” (probabilidad más elevada de ser publicados los estudios con resultados positivos y el riesgo que esto comporta de sobrestimar la eficacia)25. El diagrama de flujo propuesto por el grupo QUOROM (figura 1) permite evaluar gráficamente cómo se han seleccionado los estudios8.
Es importante conocer la calidad de los estudios primarios incluidos en la revisión porque la revisión de expertos no garantiza la validez de la investigación publicada. Las diferencias metodológicas de los estudios pueden explicar importantes diferencias entre los resultados (los estudios menos rigurosos tienen tendencia a sobreestimar la efectividad de las intervenciones terapéuticas)26. No existe una única forma correcta de evaluar la validez de los estudios, sino que existen multitud de métodos y debe utilizarse alguno de ellos27-31. Los criterios utilizados deben ser explícitos y referidos tanto a aspectos generales, comunes a todos los estudios, como específicos del tema de investigación. Dado que esta evaluación está sujeta a variabilidad, es importante que se haya realizado de forma independiente por más de un observador y que se haya evaluado su grado de concordancia en cuanto a qué estudios incluir y qué datos extraer de ellos. Cada una de estas decisiones requiere la opinión de los revisores y cada una de ellas está sujeta tanto a errores aleatorios como a sesgos o errores sistemáticos.
Para poder obtener una estimación global del efecto de interés a partir de diversos estudios, debe poderse asumir que las diferencias entre ellos son debidas exclusivamente al azar, es decir, que los resultados de los diferentes estudios son homogéneos. La mayor parte de las revisiones documentan diferencias importantes de los pacientes, exposiciones, parámetros de resultados y métodos de investigación de un estudio a otro. Es necesario que el lector sepa cuándo estos factores son tan diferentes que deja de tener sentido integrar los resultados de los estudios para hacer un MA. Un criterio para decidir combinar los resultados cuantitativamente es si los estudios parecen medir la misma magnitud del efecto. Los revisores deben de haber analizado estas posibles diferencias mediante las llamadas «pruebas de homogeneidad». Por homogeneidad estadística entendemos que los resultados de cada estudio individual son matemáticamente compatibles con los resultados de los otros estudios primarios. Cuanto más homogénea es una prueba, más probable es que las posibles diferencias sean fruto de la casualidad. Por contra, cuanto existe «heterogeneidad» estadísticamente significativa, hay una posibilidad muy elevada de que haya diferencias y podría dejar de tener sentido integrar los resultados.
Figura 1 Mostrar/ocultar
2.- ¿Cuáles son los resultados de la revisión?
Una RS y/o MA busca proporcionar una estimación global del efecto de una intervención basada en un promedio ponderado de los resultados de todos los estudios de calidad disponibles. Generalmente, los resultados de cada estudio se ponderan por el inverso de su variancia, de forma que se concede un mayor peso a los estudios de mayor tamaño que proporcionan estimaciones más precisas. A veces, la ponderación también tiene en cuenta la calidad metodológica de los estudios.
Los resultados suelen expresarse como una medida relativa (odds ratio -OR-, riesgo relativo -RR-, reducción relativa del riesgo -RRR-), aunque sería conveniente complementarla con una medida absoluta (reducción absoluta del riesgo -RAR-, número necesario de pacientes a tratar -NNT-), Un buen MA debe ser más fácil de interpretar que el conjunto de EC que contiene. Aparte de sintetizar los datos numéricos, la información relevante relativa a los estudios primarios incluidos debe estar correctamente tabulada (criterios de inclusión, tamaños de muestra, características de los pacientes, características fundamentales de los EC, resultados principales y secundarios). Actualmente los resultados de los MA tienden a presentarse de manera estandarizada. El resultado principal de cada uno de los estudios incluidos en la revisión se indica como una línea horizontal, cuya anchura representa el intervalo de confianza (IC) del 95% de la estimación de la medida del efecto (lo que indica la precisión del resultado), y en la que una señal indica la estimación puntual observada. La línea vertical en el centro del gráfico representa la "línea de efecto nulo", con una OR igual a 1 o una diferencias de medias igual a 0. En caso de que la línea horizontal (intervalo de confianza) se cruce con la línea vertical, esto puede significar que, o bien no existen diferencias significativas entre los tratamientos, o que el tamaño de la muestra es insuficiente para detectar dichas diferencias. Cada uno de los estudios individuales tiene su OR y su intervalo de confianza, pero el diamante de la parte inferior de las líneas horizontales representa la suma de los OR de todos los EC, con un nuevo intervalo de confianza mucho más estrecho o preciso. Si el diamante sobrepasara claramente la línea de efecto nulo, no podríamos afirmar con seguridad que un tratamiento es mejor que otro. Cuanto más estrecho sea el diamante, más preciso será el resultado final, y cuanto más alejado esté de la línea de efecto nulo, más clara será la diferencia entre los tratamientos comparados.
Es importante señalar que, por muy favorable que sea el resultado final del MA, esto no significa que debamos ofrecer indiscriminadamente el tratamiento estudiado, pues el uso de la mejor de las evidencias no puede pasar por encima del conocimiento personal del paciente, es decir, es necesario conocer sus características individuales y preferencias.
La principal asunción de un MA para obtener una estimación conjunta es que las diferencias entre los diferentes estudios son debidas exclusivamente al azar, es decir, que son estudios homogéneos. Por lo tanto, en primer lugar, debe analizarse la homogeneidad tanto clínica como estadística de los estudios, tanto con métodos gráficos como con las pruebas estadísticas adecuadas.
También es oportuno en la RS y/o MA evaluar si sus resultados son sensibles a la forma en que se han realizado, en función de distintos criterios, lo que se conoce como análisis de sensibilidad.
La magnitud del resultado observado en un estudio no es más que una estimación puntual de la verdadera magnitud del efecto o asociación de interés. Si se hubiera estudiado una muestra diferente de sujetos (o de estudios en el caso de la RS y/o MA), podría haberse obtenido un resultado distinto, aunque es de esperar que no demasiado diferente. Por ello, es importante determinar la precisión con que se ha realizado la estimación mediante el IC del 95%, que es aquel intervalo entre cuyos límites se tiene el 95% de confianza de que se encuentre la verdadera magnitud del efecto.
El IC presenta grandes ventajas respecto al grado de significación estadística32-34. Un resultado estadísticamente significativo no implica de forma inequívoca que sea clínicamente relevante. Cuando se utiliza como medida del efecto una diferencia, si el IC del 95% incluye el valor 0, que es el valor correspondiente a la hipótesis nula estadística (Ho) de que no existe diferencia entre ambos grupos, se concluirá que el resultado no es estadísticamente significativo. Cuando se utiliza como medida del efecto una medida relativa basada en un cociente (RR, OR, etc), si el IC del 95% incluye el valor 1, que el valor correspondiente a la Ho de que no existe diferencia entre ambos grupos, se concluirá que el resultado no es estadísticamente significativo.
3.- ¿Son los resultados aplicables al escenario?
Cualquier resultado numérico, por más preciso y "estadísticamente significativo" que sea, es decir, incontrovertible, debe situarse en el contexto práctico de la pregunta a la que la revisión pretende dar respuesta. El clínico debe decidir cómo va a influir este resultado numérico en la atención sanitaria que va a dispensarse a un paciente concreto. Un aspecto fundamental a considerar cuando se lee críticamente una RS es la validez externa de los EC que contiene. Es decir, ¿están descritas las características de los pacientes incluidos en los estudios primarios?, ¿son parecidos a los nuestros?
Una de las ventajas de una RS es que, dado que incluye numerosos estudios, los resultados proceden de una variedad muy diversa de pacientes. Incluso así, el clínico puede seguir teniendo dudas sobre la aplicabilidad de los resultados a nuestro(s) paciente(s), con aspectos como edad, tipo de enfermedad, tipo de tratamiento, etc. Estas preguntas suscitan el problema del análisis de subgrupo; en cualquier caso están disponibles guías detalladas para decidir si son creíbles los análisis de subgrupo35,36.
Aunque es conveniente buscar RS focalizados a una pregunta clínica (variable principal), porque es más probable que ofrezca resultados válidos, esto no significa que no requiera la consideración de otros parámetros de interés (variables secundarias).
Explícita o implícitamente, cuando se toma una decisión clínica es preciso sobrepasar los beneficios frente a los posibles riesgos y costes. Un artículo válido y relevante de RS y/o MA ofrece la mejor base posible para cuantificar los resultados previstos, pero estos resultados deben seguir considerándose en el contexto de los valorares y preocupaciones de sus pacientes por los resultados previstos de una decisión.
González de Dios J, Balaguer Santamaría. Revisión sistemática y metanalisis (II): evaluación crítica de la revisión sistemática y metánalisis. Evid Pediatr. 2008;4:19.