Medicina Basada en la Evidencia
Estadística básica – 594 – Para utilizar el coeficiente de correlación de Pearson entre dos variables continuas deben cumplirse los si- guientes supuestos: a) La relación entre las dos variables debe ser lineal. Esto puede comprobarse de forma sencilla con un diagrama de dispersión, observando que la forma de la nube de puntos sigue la dirección de una recta. b) Ambas variables deben seguir una distribución normal. Podemos comprobarlo con una prueba de hipótesis, como la de Shapiro-Wilk o la de Kolmo- gorov-Smirnov, o con un método gráfico, como el histograma o el gráfico de cuantiles teóricos. c) Debe existir homocedasticidad, es decir, que la varianza de la variable “y” debe ser constante a lo largo de los valores de la variable “x”. Podemos confirmar si se cumple este supuesto de forma sencilla comprobando que la nube de puntos se dispersa de forma similar a lo largo de los valores de la variable “x”. Para utilizar el coeficiente de correlación de Pearson la relación entre las variables debe ser lineal, deben distribuirse de forma normal en la población y deben cumplir el criterio de homocedasticidad Por último, debemos saber que el valor de este coefi- ciente es sensible a la presencia de valores extremos en la distribución, que pueden sesgar la magnitud del efecto estimado. En estos casos, nos plantearemos si lo más idóneo es utilizar alguna alternativa al coeficiente de correlación de Pearson. Veamos un ejemplo: Podemos calcular el coeficiente de correlación de Pearson utilizando un programa de acceso libre, el software estadístico R ( https://www.r-project.org/ ) con el plugin RCommander y esta base de datos . En la base de datos se recogen una serie de regis- tros con información sobre niños asmáticos. Vamos a determinar si existe correlación entre los valores de peso y talla estandarizados (Z.Peso, Z.Talla). En el Anexo 1 de este capítulo se muestran las instrucciones para realizar este ejercicio. Si lo necesita, puede revi- sar e l capítulo 6.18 c orrespondiente a la instalación de R y RCommander. Una vez cargados los datos, representamos el dia- grama de dispersión ( Figura 1 ), con el que podemos asumir que ambas variables se relacionan de forma lineal. Seguidamente, comprobamos la asunción de norma- lidad de la variable Z.Peso, mediante una prueba de Shapiro-Wilk. El programa nos ofrece el resultado, con un estadístico W = 0,948 y un valor de significación de p = 0,158. No podemos rechazar la hipótesis nula, por lo que asumimos que la variable peso estandarizado sigue una distribución normal. Podemos repetir el proceso para la variable Z.Talla, llegando a la misma conclusión (W = 0,982, p = 0,882). Por último, vamos a comprobar el supuesto de homo- cedasticidad. Si observamos el diagrama de puntos de la Figura 1 , podemos asumir que la nube se dispersa de forma similar en todo el rango de valores de la va- riable representada en el eje x. Una vez comprobado que se cumplen los tres requisi- tos necesarios, calculamos el coeficiente de correla- ción de Pearson. El programa nos ofrece un valor de r = 0,82, con un valor de significación estadística p <0,05. Por lo tanto, podemos concluir que existe una asociación alta entre las dos variables. El programa R nos ofrece también el intervalo de con- fianza del 95% del coeficiente, que es de 0,66 a 0,91. El intervalo no incluye el valor nulo (0), por lo que ya sabemos que alcanza significación estadística sin ne- cesidad de conocer el valor de p . 2. Coeficiente de correlación de Spearman El coeficiente de correlación por rangos, más conocido como coeficiente de correlación de Spearman ( ρ ) es el equivalente no paramétrico del coeficiente de Pearson. Figura 1. Diagrama de dispersión entre las variables peso estandarizado (Z.Peso) y talla estandarizada (Z.Talla) Z.Peso Z.Talla 0 0 1 1 2 2 2 -1 -1
RkJQdWJsaXNoZXIy MTAwMjkz