Medicina Basada en la Evidencia
Estadística básica – 616 – si la distribución de los puntos tiene lugar, de forma aproximada, a lo largo de una línea recta. Un método numérico que permite comprobar el supues- to de linealidad es la prueba RESET de Ramsey. Para que el modelo sea correcto, la mediana de los residuos debe estar próxima a cero y los valores absolutos de los resi- duos deben distribuirse de manera uniforme entre los cuartiles (similar entre máximo y mínimo y entre primer y tercer cuartil). Si esto se cumple significará que los resi- duos siguen una distribución normal cuya media es cero, condición necesaria para la validez del modelo. 2. Supuesto de homocedasticidad Esto significa que los residuos deben distribuirse de for- ma homogénea para todos los valores de la variable de predicción. Podemos comprobarlo de forma sencilla con un diagrama de dispersión que represente, en el eje de abscisas, las estimaciones de la variable dependiente para los distintos valores de la variable independiente y, en el eje de ordenadas, los residuos correspondien- tes. Se aceptará el supuesto de homocedasticidad si los residuos se distribuyen de forma aleatoria, en cuyo caso veremos una nube de puntos de forma similar en todo el rango de las observaciones de la variable independiente. Antes de aplicar un modelo de regresión lineal debe comprobarse que se cumplen los supuestos de linealidad entre las variables, y de normalidad, homocedasticidad e independencia de los residuos También existen métodos numéricos para comprobar el supuesto de homocedasticidad, como la prueba de Breusch-Pagan-Godfrey, cuya hipótesis nula supone que se cumple este supuesto. 3. Supuesto de normalidad Como ya hemos mencionado, los residuos deben distri- buirse de forma normal. Una forma sencilla de comprobarlo sería representar el histograma o el gráfico de cuantiles teóricos de los residuos, en el que deberíamos ver su distribución a lo largo de la diagonal del gráfico. También podremos aplicar un método numérico, como la prueba de Kolmogorov-Smirnov o la de Shapiro-Wilk. 4. Supuesto de independencia Para comprobar este supuesto, es necesario comprobar que los residuos sean independientes entre sí y que no haya ningún tipo de correlación entre ellos. Esto puede contrastarse realizando la prueba de Dur- bin-Watson, cuya hipótesis nula supone, precisamente, que los residuos son independientes. Volvamos al ejemplo anterior: Podemos realizar un diagnóstico del modelo utili- zando el programa R y su interfaz RCommander. En el Anexo 1 se indican las instrucciones para realizarlo. Ya vimos con el diagrama de dispersión ( Figura 2 ) que, gráficamente, era razonable asumir que existe una re- lación lineal entre las dos variables. Podemos com- pletar esta valoración mediante una prueba de RESET. El programa nos da un valor RESET = 0,64, con una p = 0,52. Como p >0,05, no podemos rechazar la hipótesis nula de que el modelo es lineal, con lo que corrobora- mos la impresión que obtuvimos con el método gráfico. Pasemos a comprobar el supuesto de homocedastici- dad, para lo que nos fijaremos en gráfico de la Figura 4 , que representa los valores de la variable dependiente predichos por el modelo frente a los residuos. Podemos ver que la distribución de los residuos es bastante homogénea, aunque quizás haya una ma- yor dispersión en los valores centrales de la variable dependiente. Para tratar de aclararnos, realizamos la prueba de Breusch-Pagan para heterocedasticidad. El valor del estadístico BP que nos proporciona R es de 0,10, con un valor de p = 0,74. Como p >0,05 no pode- mos rechazar la hipótesis nula, así que asumimos que se cumple el supuesto de homocedasticidad. Comprobemos ahora el supuesto de normalidad de los residuos, observando para ello el gráfico de com- paración de cuantiles de los residuos ( Figura 5 ). Com- probamos que los puntos se distribuyen a lo largo de la diagonal, por lo que asumimos que siguen una dis- tribución normal. Figura 4. Método gráfico para el estudio de la homocedasticidad Residuals vs Fitted -1.5 -0.5 -1 0 1 2 -3 -2 28 11 2 0.5 1.0 2.0 Residuals Fitted values 1.5 0.0 -1.0
RkJQdWJsaXNoZXIy MTAwMjkz