Ortega Páez E, Ochoa Sangrador C, Molina Arias M. Comparación de proporciones. Pruebas de χ2. Evid Pediatr. 2020;16:38.
En Ciencias de la Salud es frecuente encontrar variables cualitativas o categóricas donde los datos se pueden expresar como proporciones o porcentajes de valores determinados de la variable en dos o más grupos de pacientes. Este análisis equivale al contraste de dos variables con escala de medida nominal; por ejemplo, proporción de pacientes que precisan ingreso (sí o no) en función del tipo de tratamiento recibido (por ejemplo, tratamiento o placebo). El contraste de hipótesis más utilizado para analizar la relación entre estas variables se basa en la prueba de la Ji-cuadrado de Pearson (χ2), que compara la divergencia entre los porcentajes observados y los esperados bajo el supuesto de la hipótesis nula de igualdad. Es aplicable tanto a las variables nominales dicotómicas como a las politómicas no ordinales. Tiene la particularidad de que el contraste es siempre bilateral, la hipótesis nula (Ho) es la igualdad de la distribución de los datos en las dos variables y la alternativa (H1) es la ausencia de igualdad. Este mismo test puede emplearse para comparar un porcentaje respecto a un valor teórico.
Para la comparación de proporciones podemos utilizar, además de la χ2, otras pruebas de contraste, como las pruebas z, aplicables a muestras con suficiente tamaño muestral como para emplear la aproximación de la distribución binomial a la normal, y para cualquier circunstancia, pruebas exactas, basadas en la distribución binomial.
Clásicamente se diferencian en pruebas de homogeneidad y de independencia, diferenciables desde el punto de vista epidemiológico, ya que estadísticamente el fundamento es el mismo:
Para comprender la mecánica de la prueba χ2, la ilustraremos con un ejemplo. En un estudio de cohortes ficticio, se investiga si el ambiente tabáquico en el domicilio (variable: tabaquismo) es un factor de riesgo de ingreso hospitalario (variable: Ing_asma) en los pacientes asmáticos. Para ello hemos seleccionado 30 asmáticos, 16 expuestos al tabaco (16/30 = 53,3%) y 14 no expuestos (14/30 = 46,7%). Supongamos que obtenemos los siguientes resultados: de los 16 expuestos ingresan en el hospital 14 (87,5%) y de los 14 no expuestos ingresan 3 (21,4%). Se trata de saber si la variable ingreso hospitalario se distribuye de distinta forma entre los expuestos al tabaco y no expuestos al tabaco.
Para ello, lo mejor es hacerlo por pasos:
Tabla 1. Tabla de contingencia entre tabaquismo e ingreso por asma. Mostrar/ocultar
Hipótesis nula (H0)⋮ π ingresos por tabaquismo = π ingresos por no tabaquismo.
Hipótesis alternativa (H1)⋮ π ingresos por tabaquismo ≠ π ingresos por no tabaquismo.
Valor esperado = (n.º total observados fila) × (n.º total observados columna) / n.º total de observados.
Ejemplo: calculemos el valor esperado de los que ingresan por asma y no presentan antecedentes de tabaquismo familiar. Esperadoscasos expuestos = 14 × 17 / 30 = 7,93. Y así sucesivamente calculamos todos (tabla 2).
Tabla 2. Valores observados y esperados. Mostrar/ocultar
$$X^2 = \sum (\frac {(observados - esperados)^2}{esperados})$$
Obtenemos:
$$ X^2 = \sum (\frac {(observados - esperados)^2}{esperados})= \frac {(11-6,07)^2}{6,07} + \frac {(3-7,93)^2}{7,93} + \frac {(2-6,93)^2}{6,93} + \frac {(14-9,07)^2}{9,07} = 13,27.$$
El valor de la χ2 exp (experimental) = 13,27.
Figura 1. Distribución χ2 con gl=1. Prueba comparación de dos proporciones entre Tabaquismo/ingreso por asma. Mostrar/ocultar
En nuestro caso se cumplen las dos condiciones, las dos variables son nominales y el valor esperado más pequeño es de 6,07. Cuando no se cumplen estos requisitos hay que recurrir a las pruebas exactas o de aproximación.
En las muestras pequeñas, es común que no se cumplan las condiciones de aplicación de la Ji-cuadrado (número de valores esperados sea mayor de 5 en menos del 20% de las casillas), la solución es emplear métodos exactos o aproximados.
Aunque hemos visto que el cálculo es relativamente sencillo, aconsejamos utilizar un programa estadístico. Veamos el ejemplo utilizando un programa de acceso libre, el software estadístico R (https://www.r-project.org/) con el plugin RCommander. Si necesita saber cómo instalar RCommander, puede consultar el siguiente tutorial en línea (http://sct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/files/instalacion_r_commander_0.pdf).
Abrimos RCommander, nos vamos al menú de opciones seleccionamos estadísticos → tablas de contingencia → tablas de doble entrada. En la pestaña tabla introducimos el nombre de la variable en la fila = tabaquismo y el nombre de la variable en la columna = ing_asma. En el número de filas y columnas seleccionamos 2. A continuación introducimos la tabla 2 × 2 de frecuencias. En pestaña estadísticos seleccionamos porcentajes totales y en test de hipótesis test independencia χ2, imprimir las frecuencias esperadas, test exacto de Fisher y clicamos en aceptar (figura 2).
Figura 2. Tabla de contingencia en Rcommander. Mostrar/ocultar
En la ventana de resultados, R nos muestra la tabla de contingencia con los porcentajes totales, El valor de la χ2 con un grado de libertad (df = 1) y la probabilidad exacta (χ2 = 13,274, df = 1, valor p = 0,0002691). A continuación, los valores esperados, donde podemos comprobar que el valor mínimo coincide con el que hicimos manualmente (6,06). El valor de la prueba exacta de Fisher unilateral (p-value = 0,0005944) bilateral (p = 0,0011), en el que podemos observar que es más conservador que la probabilidad exacta, en nuestro ejemplo, como se cumplen los requisitos de la prueba podemos obviarlo. Por último, se nos muestra el resultado de la odds ratio (OR) con el intervalo de confianza al 95% y el contraste de hipótesis bajo la hipótesis nula OR = 1 (figura 3).
Figura 3. Ventana de resultados de RCommader. Mostrar/ocultar
En caso de muestras grandes la comparación entre dos proporciones puede realizarse mediante la aproximación de la distribución muestral de la diferencia de las dos proporciones a una distribución normal estandarizada de media 0 y desviación estándar 1 [N(0:1)]. Se acepta como muestra “suficientemente grande” si se cumple que el valor de los esperados es ≥5, esto es igual a multiplicar la proporción total o marginal de ambos grupos y su complementario por el tamaño muestral de cada grupo. Tomemos el ejemplo anterior sobre la relación entre tabaquismo e ingreso hospitalario. Los pasos son los siguientes:
p × na = 0,56 × 14= 7,84; q × na = 0,44 × 14= 6,16; p × nb = 0,56 × 16= 8,96; q × nb=7,04, todos ≥ 5, luego se cumplen las condiciones.
H0⋮ p1-p2 = 0.
H1⋮ p1-p2 ≠0.
$$EEdp = \sqrt {\frac {(p_1\space x\space q_1)}{n_a} + \frac {(p_2\space x\space q_2)}{n_b}}$$$$
$$z = \frac {d}{EEdp} = \frac {p_1 - p_2}{\sqrt {\frac{p_1\space x\space q_1}{n_a} + \frac{p_2\space x\space q_2}{n_b}}} = \frac {0,875 - 0,214}{\sqrt {\frac{p_1\space x\space q_1}{14} + \frac {p_2\space x\space q_2}{16}}} = \frac {0,661}{\sqrt {\frac{p_1\space x\space q_1}{14} + \frac{p_2\space x\space q_2}{16}}} = \frac {0,661}{0,1816} =3,639$$
Figura 4. Equivalencia Distribución Normal y χ2. Mostrar/ocultar
Una vez abierto Epidat, vamos a la pestaña de módulos → inferencia sobre parámetros → dos poblaciones → proporciones independientes. Se nos abre un cuadro de diálogo en el que introducimos el número de casos y el tamaño de muestra, elegimos el nivel de confianza (95%), intervalo de confianza y contraste de hipótesis bilateral y clicamos en calcular. En la ventana de resultados obtenemos: la tabla con el número de casos y el tamaño muestral, las proporciones de los dos grupos (0,875, 0,214), la diferencia de proporciones (0,661), el valor z (3,64) y el nivel de significación (p = 0,0000). Este valor de p debe interpretarse como p <0,001, ya que Epidat no ofrece resultados de más de cuatro decimales. Para terminar, nos ofrece un dato más, que es el intervalo de confianza al 95% (IC 95) de la diferencia de proporciones que nos puede servir también para ver su significación estadística, y en este caso como no incluye el valor 0 rechazamos la hipótesis de nula de igualdad de proporciones (IC 95: 0,392 a 0,93) (figura 5).
Figura 5. Prueba z para diferencias de proporciones. Mostrar/ocultar
Se utiliza cuando en una muestra aleatoria de sujetos queremos conocer si la distribución de los datos observada se ajusta a una distribución teórica conocida. Como se mencionó anteriormente podemos usar el test de χ2.
En un estudio transversal ficticio realizado en asmáticos se encontró que la prevalencia del sexo femenino fue del 60% y el masculino del 40%. Se trata de conocer si la distribución observada del sexo femenino está de acuerdo con la teórica del 50% en la población general.
El contraste de hipótesis sería: hipótesis nula (H0) la proporción (p) esperada de sexo femenino (0,5) será igual a la observada (0,6), por tanto, la hipótesis alternativa será que las proporción esperada y observada serán distintas.
Hipótesis nula (H0)⋮ π esperada (0,6) = π observada (0,5).
Hipótesis alternativa (H1)⋮ π esperada (0,6) ≭ π observada (0,5).
Veamos el ejemplo utilizando R y la base de datos Fundamentos_graficos.RData, disponible en la web de Evidencias en Pediatría.
Abrimos RCommander. Una vez cargada la base de datos, nos vamos al menú de opciones y seleccionamos estadísticos → proporciones → test de proporciones de una muestra. En la pestaña datos elegimos la variable Sexo. En opciones elegimos en hipótesis alternativa proporción de las poblaciones iguales, en tipo de prueba aproximación a la normal (es el modo que tiene R de realizar una χ2), en hipótesis nula p = 0,5 y en intervalo de confianza 0,95 y seleccionamos aceptar. En la ventana de resultados se muestra las frecuencias observadas, la prueba que se ha realizado para una muestra (lo que equivale a test de bondad de ajuste), la hipótesis nula = 0,5 y el valor de la χ2 con su probabilidad (χ2 = 1,2, df = 1, valor de p = 0,2733) sin corrección de continuidad, el intervalo de confianza al 95% de la proporción esperada (figura 6). El lector puede comprobar que, si en la pestaña de opciones elegimos aproximación normal con continuidad de Yates y binomial exacto, obtenemos el valor por corrección de continuidad de Yates (p = 0,3613) y el de la prueba exacta de Fisher unilateral (p = 0,3616), ambos valores más conservadores que el valor de p obtenido con la prueba χ2 (figura 6).
Figura 6. Prueba de Bondad de ajuste de la variable sexo en Rcommander. Mostrar/ocultar
Podemos comprobar que se cumplen las condiciones de aplicación de la prueba:
Conclusión: el valor de p obtenido (0,273), es lo suficientemente grande (p>0,05) para no poder rechazar la hipótesis nula de que la proporción de individuos del sexo femenino en el estudio es igual a la de la población general.
Ortega Páez E, Ochoa Sangrador C, Molina Arias M. Comparación de proporciones. Pruebas de χ2. Evid Pediatr. 2020;16:38.