Medicina Basada en la Evidencia

Estadística básica – 614 – CÁLCULO DE LOS COEFICIENTES DE REGRESIÓN El método más empleado para calcular el valor de los coeficientes de regresión es el denominado método de los mínimos cuadrados . Veamos someramente el razo- namiento matemático que subyace a este método. Hemos visto la ecuación de la recta del modelo de re- gresión. El problema es que, una vez que tenemos re- presentado el diagrama de dispersión, ninguna recta se va a ajustar de manera perfecta a la nube de puntos. Sabemos que la recta pasará por el punto que mar- can las coordenadas de las medias de “x” e “y”, pero el problema es que pueden trazarse infinitas rectas que pasen por un punto dado. ¿Cuál será la recta que nos interesa? Imaginemos cualquiera de estas posibles rectas de re- gresión. Si intentamos calcular un valor de “y” deter- minado (y i ) a partir de un valor de “x” (x i ), habrá una diferencia entre el valor real de y i y el que obtengamos con la fórmula de la recta (el valor estimado, represen- tado como ŷ i ): y i = β 0 + β 1 x i + e i Fijémonos en el valor de ε i . Representa esta diferencia entre el valor real de y i en nuestra nube de puntos y el que nos proporcionaría la ecuación de la recta. Podemos representarlo matemáticamente de la siguiente forma: e i = y i – ŷ i Esta diferencia se conoce con el nombre de residuo y su valor depende del azar. Por tanto, nos interesará calcu- lar los coeficientes de la recta de regresión que minimi- ce estas diferencias. Los residuos siguen una distribución normal con una media de cero, por lo que no podemos sumarlos direc- tamente, ya que los positivos se cancelarían con los ne- gativos. Por este motivo recurrimos a la suma de los cua- drados de las diferencias y buscamos la recta con el valor más bajo de esta suma de los cuadrados de los residuos. De ahí el nombre del método de los mínimos cuadrados. El método de los mínimos cuadrados estima la ecuación de la recta de regresión que minimiza el error entre los valores reales de la variable dependiente y los valores predichos por el modelo. Obviando la demostración matemática, a partir de este razonamiento calcularemos el valor del coeficiente, se- gún la siguiente fórmula: donde tenemos, en el numerador, la covarianza de las dos variables y, en el denominador, la varianza de la variable independiente. A partir de aquí, el cálculo de β 0 es sencillo, despejándolo de la recta de regresión: Veamos un ejemplo práctico de regresión lineal simple: Para ello utilizaremos un programa de acceso libre, el software estadístico R ( www.r-project.org/ ) con el plu- gin RCommander y esta base de datos . Esta base de datos recoge algunos datos antropomé- tricos de una serie de 58 niños, que incluyen dos varia- bles que se asocian a riesgo cardiovascular: el índice de cintura-talla (IndCT) y el índice de masa corporal estandarizado por edad y sexo (IMC_DS). Estamos inte- resados en estimar el IMC_DS (que tiene valores entre -2,2 y +2,7) a partir de la medición del IndCT (que tiene valores entre 0,36 y 0,58), por lo que nos proponemos calcular un modelo de regresión lineal simple entre las dos variables, siendo IndCT la variable independiente o explicativa e IMC_DS la variable dependiente o criterio. En primer lugar, representaremos los datos de las dos variables en un gráfico de dispersión para comprobar la forma de la nube de puntos y la tendencia que si- guen las variables ( Figura 2 ). Si observamos el gráfico, vemos que los puntos tien- den a distribuirse, aproximadamente, a lo largo de una recta en sentido ascendente hacia la derecha. Viendo la forma de la nube de puntos, parece razo- nable suponer que exista una relación lineal entre las dos variables. Figura 2. Diagrama de dispersión Índice cintura-talla Índice de masa corporal estandarizado 0.40 0.45 0.50 0.55 0 1 2 3 2 -1

RkJQdWJsaXNoZXIy MTAwMjkz