González de Dios J, González Rodríguez P. Evaluación de artículos científicos sobre intervenciones terapéuticas. Evid Pediatr. 2006;2:90
El ensayo clínico (EC) es un estudio experimental y prospectivo en el cual el investigador provoca y controla las variables y los pacientes son asignados de forma aleatoria a los distintos tratamientos que se comparan. Dado que es el tipo de estudio epidemiológico que presenta menores errores sistemáticos o sesgos, el EC constituye la mejor prueba científica para apoyar la eficacia de las intervenciones terapéuticas, ya directamente por la información proporcionada por un EC, o indirectamente a través de las revisiones sistemáticas y/o metanálisis de distintos EC.
Los EC aleatorizados y controlados permiten evaluar los beneficios de los tratamientos o programas de intervención, ponderando sus riesgos y efectos indeseables. Con ellos podemos controlar los sesgos existentes en otros tipos de estudio y obtener información sólida sobre la relación causal entre una exposición (intervención) y un efecto (inferencia causal). Los EC tienen importantes ventajas: son los estudios que aportan mayor control sobre los distintos factores implicados en el diseño, por lo que son repetibles y comparables; a menudo ofrecen el único diseño posible para contestar a determinadas preguntas de investigación; además, proporcionan la mejor evidencia sobre inferencia causal y generalización de los resultados. Como contrapunto presentan diversos inconvenientes: son estudios costosos en tiempo y dinero, pueden verse limitados por problemas éticos o de factibilidad y en ocasiones la aplicación de sus resultados se ve cuestionada porque la muestra de estudio no representa a la población donde quieren aplicarse1-3. En la figura 1 se indican los pasos fundamentales en su planteamiento.
Figura 1. Esquema del ensayo clínico controlado aleatorizado Mostrar/ocultar
1. Definir una pregunta clínica estructurada: plantear una hipótesis de estudio, que debe ser buena, relevante y ética; se debe realizar una prueba de hipótesis a priori en la que se plantee una hipótesis nula y una hipótesis alternativa. En general el EC debe estar encaminado a contestar una sola pregunta (variable principal de valoración -end point-), que tenga interés desde el punto de vista clínico y en el que se incluyen los tres componentes principales de una pregunta clínica estructurada, bajo el acrónimo PIO (pacientes-intervención-outcomes o variables de resultado). Los estudios que pretenden dar respuesta a varias preguntas suelen ser excesivamente complicados y responden habitualmente de forma parcial a todas ellas.
2. Comparabilidad de los grupos de tratamiento: la aleatorización se define como el procedimiento sistemático y reproducible por el que los sujetos participantes en un EC son distribuidos al azar en los distintos grupos de tratamiento, por lo que disminuye la probabilidad de incurrir en un sesgo de selección y así, la única causa que pudiera justificar las diferencias encontradas, si existe, sería el tratamiento recibido. Las características que debe cumplir un buen método de aleatorización son: la asignación a los grupos de tratamiento debe ser desconocida e imprevisible; el proceso de asignación debe ser reproducible y estar documentado; debe basarse en propiedades matemáticas conocidas; no debe permitir que se prevenga la consecuencia de los tratamientos; los fallos en la asignación de tratamientos pueden ser detectados. Lo ideal es disponer de una secuencia oculta de aleatorización con una comunicación indirecta o a distancia entre el investigador y la secuencia de aleatorización
3. Medición objetiva de los resultados: así como la aleatorización es imprescindible en un EC controlado, el enmascaramiento puede ser obligado (principalmente en caso de valoraciones subjetivas), sólo deseable o, incluso, inaceptable desde el punto de vista ético (si sometemos al paciente a algún tipo de riesgo). El enmascaramiento o carácter ciego de un EC consiste en toda una serie de precauciones o medidas que se toman con el fin de que, a lo largo del estudio, bien el paciente, el médico o ambos, desconozcan la asignación de los tratamientos. El objetivo perseguido al enmascarar los tratamientos utilizados es evitar los sesgos de valoración por parte de todos los implicados en el EC, pero principalmente en el paciente (efecto placebo, efecto nocivo, sesgo de retirada) y el investigador (sesgo de evaluación, sesgo de retirada). Los tipos de enmascaramiento son: simple ciego (el sujeto desconoce el grupo de tratamiento al que pertenece, aunque es a veces el investigador quien desconoce la asignación aleatoria de tratamientos), doble ciego (sujeto e investigador desconocen el tratamiento administrado), triple ciego (también el monitor del EC) y cuádruple ciego (también el análisis estadístico se realiza sin revelar los códigos de los tratamientos); pero se debe tener en cuenta que tratar de conseguir un enmascaramiento perfecto nunca debe suponer un aumento de riesgo para los sujetos.
4. Seguimiento completo: lo que implica considerar las pérdidas (pre y postaleatorización). Las pérdidas prealeatorización, es decir la de los sujetos elegibles producidas antes de su inclusión en el EC (por la negativa de los pacientes a entrar en el estudio o por ser considerados no elegibles de acuerdo a los criterios de inclusión/exclusión), condicionan fundamentalmente la capacidad de generalización de los resultados. Como norma se considera que si un estudio incluye entre el 80 y el 90% de los sujetos elegibles es representativo de la población estudiada. Las pérdidas postaleatorización (abandonos -drop out- y retiradas -withdrawal- de paciente durante el estudio) tienen un significado diferente. En principio las retiradas o abandonos no deben suponer más del 20% de los sujetos puesto que podrían alterar la certeza de los resultados, y en todo caso deben estar previstos cuando se calcula el número de pacientes necesarios para demostrar la hipótesis de trabajo. Lo correcto es reemplazarles, elaborando una lista de aleatorización que contemple estas posibles pérdidas. En cualquier caso es aconsejable realizar el seguimiento de todos los sujetos hasta finalizar el EC.
5.-Análisis de los datos: debe tenerse en cuenta que hay tres áreas del EC en donde se deberá contar con la asesoría de un bioestadístico: en la elección del método de aleatorización, la predeterminación del tamaño de la muestra y el cálculo estadístico de los datos. El no tener, desde el principio, unas ideas claramente definidas de cómo abordar correctamente estas tres áreas, puede convertir los resultados y conclusiones derivadas de él en errores sobre la interpretación del efecto terapéutico.
En el correcto análisis estadístico debe tenerse en cuenta el tamaño muestral, la significación estadística (cuanto mayor sea la p, más fuerte será la evidencia en favor de la hipótesis nula) y la precisión (cuanto menor sea el intervalo de confianza [IC], mayor es la precisión estadística). Es preciso indicar cuáles son las pruebas estadísticas utilizadas para el análisis de los resultados, si éstos son las previstas inicialmente, y si se han obtenido los valores que permitan concluir diferencias estadísticamente significativas para una o dos colas o mediante IC. Especial mención merece el concepto de análisis por intención de tratar (intention to treat): incluye a todos los sujetos que han sido aleatorizados a los grupos de tratamiento, independientemente de que hayan recibido o no alguna dosis del tratamiento asignado o se haya producido algún error en la administración; es por intención de tratamiento, no por tratamiento administrado.
El análisis por intención de tratar tiene dos ventajas fundamentales: 1) es la única estrategia que conserva las ventajas que se adquieren mediante la asignación aleatoria de los participantes; y 2) se aproxima a la realidad de la práctica clínica diaria: en un EC controlado las condiciones de administración de un tratamiento son demasiado rigurosas y los controles de seguimiento muy estrictos, lo que resulta algo artificial en la práctica diaria, donde muchos pacientes no cumplen de manera íntegra el tratamiento o lo rechazan. El análisis por tratamiento, al excluir a los pacientes perdidos, no preserva las ventajas de la aleatorización e implica una disminución de la potencia del estudio. Una manera de intentar resolver las pérdidas en un EC es la estrategia de análisis del peor de los casos: consiste en suponer que todos los pacientes perdidos del grupo donde la mayor parte de los miembros han registrado un resultado favorable han presentado un resultado desfavorable, y todos los pacientes del grupo donde la mayor parte de sus miembros han obtenido un resultado desfavorable evolucionan de forma favorable. Tras hacer esta suposición se vuelven a calcular los resultados del estudio; si tras realizar dicho supuesto, los resultados no varían podemos concluir que las pérdidas no han sido lo suficientemente numerosas como para introducir un sesgo que invalide los resultados de la investigación (si las pérdidas son > 20% es difícil que los resultados superen la estrategia de análisis del peor de los casos).
La descripción deficiente del diseño estadístico del EC es uno de los errores más habituales. No se suele especificar por qué se ha elegido un número determinado de sujetos, ni las razones para elegir un tipo de diseño (en paralelo o cruzado) o aleatorización (en bloques o estratificación) o las diferencias estadísticas que se consideran relevantes desde el punto de vista clínico.
Para calcular a priori el número de sujetos que se necesitan para demostrar con una probabilidad determinada que existen o no diferencias estadísticamente significativas entre los grupos de tratamiento se deben considerar una serie de factores: la probabilidad de un resultado positivo o error alfa (arbitrariamente inferior al 5%), la probabilidad de un resultado negativo o error beta (generalmente inferior al 20%), la diferencia clínicamente significativa que se espera encontrar y las posibles pérdidas después de la aleatorización a lo largo del estudio. No hay que olvidar que con una muestra pequeña resulta difícil detectar diferencias reales, mientras que con una muestra suficientemente grande se puede detectar casi cualquier diferencia por pequeña que sea. Durante los últimos años se insiste en que resulta preferible expresar los resultados en forma de IC que como valor de p, ya que dichos intervalos permiten obtener una idea más real de la magnitud de las diferencias observadas. En la tabla 1 se presenta un ejemplo hipotético respecto al cálculo de las medidas del efecto de una intervención terapéutica.
Tabla 1. Sesgos potenciales en el ensayo clínico Mostrar/ocultar
Se ha de tener en cuenta que en ocasiones se deben realizar análisis intermedios de los datos, ya que por motivos éticos puede evitarse la prolongación innecesaria del EC; por lo tanto se debe establecer una regla de interrupción, consistente en fijar la variable a analizar, así como el número y momento de realización de los análisis estadísticos intermedios que se llevarán a cabo a lo largo del estudio. Los análisis intermedios deben ser ciegos para el investigador, con el propósito de evitar futuros sesgos en el caso de que el EC prosiga; el investigador sólo debe conocer el resultado del análisis si se decide interrumpir el estudio.
6. Recogida de acontecimientos adversos: aunque no condiciona la credibilidad de los resultados y/o generalización de los mismos, es importante puesto que su conocimiento permite valorar la relación riesgo/beneficio del fármaco en estudio y su posición frente a otras alternativas disponibles. Debería indicarse también el método utilizado para su detección (notificación espontánea o pregunta orientada) y el algoritmo seguido para establecer la relación de causalidad.
7. Aspectos éticos: las normas de Buena Práctica Clínica (Good Clinical Practice) consideran estos aspectos éticos, en base a cuatro principios básicos ya enunciados en el informe Belmont en 1978, principalmente los de no maleficencia y autonomía.
8. Extraer conclusiones: interpretación correcta de los resultados, en el que lo importante es valorar la relevancia clínica de las diferencias estadísticamente significativas.
Siguiendo las recomendaciones del Evidence-Based Medicine Working Group4,5 analizaremos los tres pasos a seguir para analizar la VALIDEZ, la IMPORTANCIA y la APLICABILIDAD (Tabla 3) de los artículos sobre intervenciones terapéuticas, planteando diversas cuestiones3,6,7.
Tabla 3. Criterios para la valoración de un artículo sobre tratamiento Mostrar/ocultar
1. ¿Son válidos los resultados del estudio?
Se debe responder a la siguiente cuestión: ¿corresponden los resultados del estudio a una estimación no sesgada del efecto del tratamiento, o se han visto influidos de forma sistemática para conducir a una conclusión falsa?. Y para ello cabe contestar a una serie de preguntas, clasificadas en:
La valoración secuencial de estos criterios (previamente estudiados en el primer apartado de este artículo) nos permitirá juzgar si el estudio es válido y, por lo tanto, si merece la pena seguir adelante examinando la importancia de los resultados y su aplicabilidad.
2. ¿Cuáles son los resultados del estudio?
Si los resultados son válidos el siguiente paso es realizar un análisis detallado de los resultados: aquí se considera la magnitud y la precisión del efecto del tratamiento8
La fuerza de la asociación es la principal medida que indica la validez de una evidencia y existen dos conceptos según el tipo de estudio: el riesgo relativo (RR), que es la medida epidemiológica que se utiliza principalmente en el EC y el estudio de cohortes, y la odds ratio (OR), que se utiliza principalmente en el estudio de casos y controles y en el metanálisis.
El RR es el cociente entre el riesgo de sufrir un determinado evento en el grupo expuesto a un determinado tratamiento o factor de riesgo y el riesgo de sufrir el mismo evento en el grupo control (no expuesto al tratamiento o factor de riesgo). La OR es el cociente entre la odds (razón entre la probabilidad de que un evento suceda y la probabilidad de que no suceda) de exposición observado en el grupo tratado (o expuesto) y la odds de exposición en el grupo de controles (o no expuesto).
¿Cómo interpretar el RR y OR?: si = 1 indican que no existe asociación; si >1 indican que existe una asociación positiva y deben ir acompañadas de su IC; aunque todo RR u OR cuyo IC no comprenda el 1 se considera estadísticamente significativo, su importancia clínica depende del tipo de estudio de donde proceda. Debido a los sesgos en los estudios de casos y controles es deseable que la OR alcance un valor > 4 para deducir su relevancia en la práctica clínica; puesto que los estudios de cohortes son menos propensos a los sesgos puede ser convincente para el clínico con RR >3; debido a que los EC aleatorizados están relativamente exentos de sesgos, cualquier RR cuyo IC excluya 1 es convincente.
La reducción relativa del riesgo (RRR) es la diferencia entre el porcentaje de eventos en el grupo control y el porcentaje de eventos en el grupo experimental, dividido por el porcentaje de eventos en el grupo control. Tiene una limitación: no es capaz de diferenciar entre los grandes efectos absolutos de un tratamiento de los efectos más pequeños; para solventar este problema está la reducción absoluta del riesgo (RAR) que es la diferencia entre el porcentaje de eventos en el grupo control y el porcentaje de eventos en el grupo experimental. La RAR sí que tiene en cuanta la susceptibilidad basal de los pacientes y da más información detallada que la RRR.
Una vez que el clínico está convencido tanto de la validez como de la asociación, necesita convertir estos datos en alguna medida de impacto, siendo la medida principal el Número Necesario de pacientes a Tratar (NNT), que se obtiene como el inverso de la RAR. El NNT mide el “esfuerzo” terapéutico que debe realizarse para prevenir un suceso indeseable adicional. Pero el NNT obtenido, ¿es grande o pequeño?: como en muchas otras cuestiones en medicina la expuesta está relacionada con el significado clínico (depende del precio, facilidad de cumplimiento e inocuidad del tratamiento) y no con el significado estadístico, y deberán emplearse IC en torno al NNT. Es una medida muy útil del esfuerzo clínico que deberemos hacer para ayudar a evitar un resultado adverso. Por ello se deben mostrar (o calcular) los NNT en los resultados de los artículos sobre tratamiento, siempre que sea posible.
Otra característica útil del NNT, es la facilidad con la que los lectores pueden convertir a NNT los datos dentro de la práctica habitual. Lo que hay que hace es estimar el riesgo basal del propio paciente en relación con el paciente control promedio de EC estudiado, y expresar esta estimación como una fracción decimal, que llamaremos F: si el lector juzga que su paciente es dos veces más susceptible que el paciente control promedio de la publicación, entonces F = 2, y si su paciente le parece la mitad de susceptible, entonces F = 0,5, y si le parece tan susceptible como los pacientes de la publicación, entonces F = 1: Si el tratamiento produce una RRR constante en todo el espectro de susceptibilidades el NNT de su paciente es calculado dividiendo el NNT entre F.
Las expresiones RRR, RAR y NNT valoran la magnitud de una intervención para producir un efecto beneficioso. Las expresiones que valoran la magnitud de una intervención para producir un efecto indeseable son el incremento relativo del riesgo (IRR), incremento absoluto del riesgo (IRA) y número necesario de pacientes a dañar (NND).
En la tabla 2 se presenta un ejemplo hipotético respecto la cálculo de las medidas del efecto de una intervención terapéutica.
Tabla 2. Medidas del efecto de una intervención terapéutica Mostrar/ocultar
El IC nos ofrece una medida de precisión con la que se ha estimado el parámetro poblacional a partir de la simple estimación puntual obtenida a partir de una muestra de pacientes. Los dos valores que definen el IC se llaman límites de confianza, y se suele utilizar arbitrariamente el valor del 95%; un IC es más preciso cuanto más estrecho es. Pueden elaborarse IC para la mayoría de estimaciones o comparaciones estadísticas (OR, RR, RRR, RAR, NNT) y si los autores no aportan los IC, a menudo estos pueden obtenerse de los resultados expuestos en el estudio.
3. ¿Son aplicables en tu medio?
El hecho de que un tratamiento determinado sea apropiado, no significa que todos los pacientes deban recibir el tratamiento. Para ellos nos podemos preguntar9:
González de Dios J, González Rodríguez P. Evaluación de artículos científicos sobre intervenciones terapéuticas. Evid Pediatr. 2006;2:90