Dilla T, González de Dios J, Sacristán JA. Evaluación Económica en Medicina (I): Fundamentos y Metodología. Evid Pediatr. 2009;5:71.
En documentos previos de esta serie hemos abordado cómo evaluar la validez de una prueba diagnóstica respecto a un patrón de referencia. Si una prueba mide realmente lo que queremos medir, la consideramos lo suficientemente válida como para confiar en sus resultados, porque hemos comprobado que concuerdan con los de pruebas más agresivas, caras o no disponibles, o bien con la confirmación clínica del diagnóstico, tras comprobar la evolución del paciente1.
Sin embargo, la confianza que asignamos a una prueba diagnóstica no depende solo de su validez, también depende de su precisión o fiabilidad, esto es, de la estabilidad que muestran sus mediciones cuando se repiten en condiciones similares. La fiabilidad es un requisito previo al de validez, ya que es necesario saber que una prueba es capaz de medir “algo”, antes de plantearse contrastar su validez. Si mediciones repetidas de una característica con un mismo instrumento son inconsistentes, la información resultante no va a poder aportar nada al diagnóstico. No obstante, una prueba muy fiable en sus mediciones, pero en la que estas no sean válidas, tampoco tiene ninguna utilidad.
La fiabilidad o precisión de una prueba es su capacidad para producir los mismos resultados cada vez que se aplica en similares condiciones. La fiabilidad implica falta de variabilidad. Sin embargo, las mediciones realizadas por las pruebas diagnósticas están sujetas a múltiples fuentes de variabilidad. Esta variabilidad puede encontrarse en el propio sujeto objeto de la medición (variabilidad biológica), en el instrumento de medida propiamente dicho o en el observador que la ejecuta o interpreta. A la hora de analizar y controlar la fiabilidad de las pruebas diagnósticas tiene especial interés estudiar la variabilidad encontrada entre las mediciones realizadas por dos o más observadores o instrumentos y la variabilidad encontrada entre mediciones repetidas realizadas por el mismo observador o instrumento.
Existen diversos métodos para la valoración de la fiabilidad de las mediciones clínicas. Los más adecuados en función del tipo de dato a medir son los siguientes: 1) índice kappa, para datos discretos nominales; 2) índice kappa ponderado, para resultados discretos ordinales, y 3) desviación estándar intrasujetos, coeficiente de correlación intraclase y método de Bland-Altman para datos continuos. En este primer documento abordaremos los métodos para variables discretas.
El índice kappa puede aplicarse a pruebas cuyos resultados solo tengan dos categorías posibles o más de dos sin un orden jerárquico entre ellas. En la tabla 1 se presentan los resultados de un estudio en el que dos médicos evaluaron, de forma ciega, las radiografías de tórax de 100 niños con sospecha de neumonía (datos figurados). La tabla de contingencia refleja los recuentos de casos en que hay acuerdo (casillas a y d) y desacuerdo (casillas b y c).
Tabla 1. Evaluación por parte de dos médicos de las radiografías de tórax de 100 niño con sospecha de neumonía (datos figurados). Las casillas reflejan el recuento de casos en que hay acuerdo y desacuerdo. Mostrar/ocultar
La forma más sencilla de expresar la concordancia entre las dos evaluaciones es mediante el porcentaje o proporción de acuerdo o concordancia simple (Po), que corresponde a la proporción de observaciones concordantes:
$$P_o = \frac{a + d}{Total} = \frac{4 + 80}{100} = 0,84 \ (84\%)$$Una concordancia del 84% podría ser interpretada como buena; sin embargo, es preciso tener en cuenta que parte del acuerdo encontrado puede ser debido al azar (si el médico sabe que solo uno de cada diez pacientes con sospecha de neumonía la tiene, ajustará consciente o inconscientemente sus diagnósticos a esa frecuencia). Las observaciones esperadas por azar en cada casilla de la tabla de contingencia se pueden calcular a partir del producto de los marginales de la fila y columna correspondientes, dividido por el total. En la tabla 2 se presentan los cálculos para cada una de las casillas del ejemplo de la tabla 1. Considerando estos recuentos estimados, la proporción de acuerdo esperada por azar sería:
$$P_e = \frac{a' + d'}{N} = \frac{\frac{10 × 14}{100} + \frac{90 × 86}{100}}{100} = \frac{14,4 + 77,4}{100}=0,79 \ (0,79\%)$$ Tabla 2. Estimación de las observaciones esperadas por azar en la tabla de contingencia del ejemplo de la tabla 1. Mostrar/ocultar
Podemos constatar que existe acuerdo por azar en una elevada proporción de observaciones (79%). Si excluimos del análisis dichas observaciones, solo quedarán cinco observaciones concordantes (84-79=5) en un total de 21 observaciones (100-79=21), lo que supone un grado de acuerdo no debido al azar del 24% (5/21=0,24). Si formulamos este cálculo como probabilidades en vez de recuentos obtendremos el índice kappa.
El índice kappa nos ofrece una estimación del grado de acuerdo no debido al azar a partir de la proporción de acuerdo observado (Po) y la proporción de acuerdo esperado (Pe):
$$Κ = \frac{P_o + P_e}{1 - P_e} $$Aplicando esta fórmula en nuestro ejemplo (tabla 1) obtenemos:
$$Κ = \frac{P_o + P_e}{1 - P_e} = \frac{0,84 - 0,75}{1 - 0,75} = 0.36 $$lo que supone un grado de concordancia no debido al azar del 36%, considerablemente más bajo que la proporción de acuerdo observado.
El índice kappa puede adoptar valores entre -1 y 1. Es 1 si existe un acuerdo total, 0 si el acuerdo observado es igual al esperado y menor de 0 si el acuerdo observado es inferior al esperado por azar. La interpretación más aceptada de los rangos de valores situados entre 0 y 1 se expone en la tabla 32,3. Al igual que otros estimadores poblacionales, los índices kappa se deben calcular con sus intervalos de confianza3.
Tabla 3. Interpretación de los valores del índice kappa. Mostrar/ocultar
El índice kappa también puede ser aplicado a pruebas cuyos resultados tengan más de dos categorías nominales, utilizando la misma metodología para el cálculo del acuerdo esperado por azar.
El índice kappa ponderado debe emplearse cuando el resultado de la prueba analizada puede adoptar más de dos categorías, entre las que existe cierto orden jerárquico (resultados discretos ordinales). En esta situación, pueden existir distintos grados de acuerdo o desacuerdo entre las evaluaciones repetidas. Veamos un ejemplo. En la tabla 4 se presentan los resultados de dos evaluaciones sucesivas de un cuestionario (test-retest), diseñado para detectar el consumo problemático de alcohol en adolescentes (datos figurados). Los resultados se expresan en tres categorías: riesgo bajo, medio y alto. Es evidente que no puede considerarse igual una discrepancia entre riesgo bajo y medio que entre bajo y alto.
Tabla 4. Resultados de dos evaluaciones sucesivas, separadas por un corto periodo de tiempo (test-retest), de un cuestionario diseñado para detectar el consumo problemático de alcohol, en 100 adolescentes (datos figurados). Los resultados se expresan en tres categorías: riesgo bajo, medio y alto. Las casillas reflejan el recuento de casos en que hay acuerdo y desacuerdo. Mostrar/ocultar
El índice kappa ponderado nos permite estimar el grado de acuerdo, considerando de forma diferente esas discrepancias. Para ello, debemos asignar diferentes pesos a cada nivel de concordancia. Habitualmente se asignará un peso 1 al acuerdo total (100% de acuerdo) y un peso 0 al desacuerdo extremo. A los desacuerdos intermedios se les asignarán pesos intermedios, en función del significado que tengan las distintas discordancias en el atributo estudiado. Así, si en nuestro ejemplo hemos optado por asignar un peso de 0,25 a las discordancias riesgo alto-medio, ello significa que cuando una de las evaluaciones clasifica el riesgo como alto y la otra como medio, el grado de acuerdo entre ambas es solo del 25%.
El índice kappa ponderado se calcula de forma similar al índice kappa, con la diferencia de que, en las fórmulas de las proporciones de acuerdo observado y esperado, las frecuencias de las distintas casillas se deben multiplicar por sus pesos respectivos. En la tabla 5 podemos ver los pesos asignados en el ejemplo de la tabla 4 y los cálculos de las observaciones esperadas por azar en cada casilla. Las proporciones de acuerdo observado (Po), esperado (Pe) y el índice kappa ponderado (kw) para este ejemplo serán las siguientes (Po y Pe calculados respectivamente con los valores de las tablas 4 y 5):
Tabla 5. Pesos asignados a los distintos grados de acuerdo entre evaluaciones (en negrita en la esquina superior derecha de cada casilla) y recuentos esperados por azar en cada una de las casillas de la tabla 4 (ecuaciones de cada casilla). Mostrar/ocultar
$$P_o = \frac{1 × (35 + 10 + 11) + 0,25 × (8 + 9 + 12 + 5)}{100} = 0,64 $$ $$P_e = \frac{1 × (24,9 + 7,1 + 5,2) + 0,25 × (16,1 + 4,8 + 11 + 7,7)}{100} = 0,47 $$ $$Κ_w = \frac{P_o + P_e}{1 - P_e} = \frac{0,64 - 0,47}{1 - 0,47} = 0,32$$Es preciso señalar que las estimaciones de concordancia pueden variar de forma importante en función de los pesos elegidos. Una forma de estandarizar estos índices cuando no tenemos una hipótesis clara del grado de discordancia es utilizar un sistema de ponderación proporcional a la distancia entre categorías: los pesos bicuadrados. A cada casilla se le asigna un peso (wi,j) igual a:
$$W_{i,j} = 1 - \biggl(\frac{i - j}{k - 1}\biggr)^2 ,$$donde i es el número de columna en la tabla de contingencia, j el número de fila y k el número total de categorías (ver tabla 6). Los pesos bicuadrados, calculados con esta fórmula, de los acuerdos intermedios de nuestro ejemplo (alto-medio y medio-bajo) serían de 0,75.
Tabla 6. Pesos bicuadrados (en negrita) según el grado de concordancia. Mostrar/ocultar
Es interesante señalar que si se emplean estos pesos el valor del índice kappa ponderado se aproxima al del coeficiente de correlación intraclase, que veremos en un próximo documento de esta serie, cuando revisemos las medidas de concordancia para variables continuas.
Dilla T, González de Dios J, Sacristán JA. Evaluación Económica en Medicina (I): Fundamentos y Metodología. Evid Pediatr. 2009;5:71.