Medicina Basada en la Evidencia

Análisis multivariante… – 667 – 3. Elección de la estrategia de modelización. De las posibles estrategias disponibles, optamos por una estrategia “hacia atrás”, introducimos todas las va- riables del modelo máximo y vamos eliminándolas de una en una, en función de los cambios que se producen en la significación estadística de las va- riables, indicada en el estadístico t correspondien- te, y del modelo en su conjunto, representada en el estadístico F. Aunque podríamos usar un nivel de significación estándar (0,05) a la hora de eliminar variables, es habitual aumentar el umbral hasta 0,10, para evitar prescindir de variables potencial- mente predictoras. En la Figura 3 presentamos una salida de resultados de la regresión lineal múltiple, realizada en RCom- mander, para tres modelos: el primero con las tres variables del modelo máximo y los siguientes, con la eliminación de las variables con menor signifi- cación. Podemos ver las variables de cada mode- lo, los coeficientes (Estimate), los errores estándar (Std. Error), el estadístico de contraste (t value) y su significación (Pr(>|t|)); junto a cada modelo se representa su estadístico F, su nivel de significación y los coeficientes de determinación múltiple, R 2 (“Multiple R-squared”), y sus estimadores ajustados al número de variables (“Adjusted R-squared”). Los coeficientes de determinación son los cuadrados de los coeficientes de correlación entre los valores observados de la variable dependiente y los pre- dichos a partir de los coeficientes y valores de las variables independientes. R 2 equivale al porcentaje de varianza que el modelo explica: cuanto mayor sea este porcentaje, mejor será el modelo. Comprobamos que la variable edad tiene un co- eficiente 0,08969, aproximadamente 0,09, que es similar al anteriormente observado en la Figura 2 . Se interpreta como que por cada año de edad el peso aumenta 0,09 desviaciones estándar. Además, vemos que lleva asociado un contraste t significati- vo (0,00004). También vemos el coeficiente de Sexo, que se asemeja a la estimación de la diferencia de medias realizada anteriormente (0,093); sin embar- go, su contraste t no es significativo ( p = 0,484), con un valor superior al de las otras variables. Por ello, es la primera variable a eliminar, lo que se observa en el modelo 2. Su eliminación no afecta a la va- lidez del modelo, sin afectar a la significación del contraste F y mejorando discretamente el R 2 ajus- tado, a pesar de haber prescindido de una variable (de 0,07079 a 0,07266). En el modelo 2 permanece la variable número de deposiciones (más de 3), que presenta un coeficiente negativo -0,23812 (a mayor número de deposiciones, menor peso) y un nivel de significación 0,0767; como es <0,10 la variable per- manece en el modelo. Aunque podríamos finalizar > LinearModel.1 <- lm(dspeso ~ edaddec + Sexo1_0 + Heces3mas, data=GeaPed) > summary(LinearModel.1) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -0.62661 0.13745 -4.559 <0.00001 edaddec 0.08969 0.02147 4.178 0.00004 Sexo1_0 0.09396 0.13430 0.700 0.4848 Heces3mas -0.23888 0.13413 -1.781 0.0761 Residual standard error: 1.062 on 252 degrees of freedom Multiple R-squared: 0.08172,Adjusted R-squared: 0.07079 F-statistic: 7.475 on 3 and 252 DF, p-value: 0.00008185 > LinearModel.2 <- lm(dspeso ~ edaddec + Heces3mas, data=GeaPed) > summary(LinearModel.2) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -0.57032 0.11133 -5.123 <0.00001 edaddec 0.08809 0.02132 4.131 0.00004 Heces3mas -0.23812 0.13399 -1.777 0.0767 Residual standard error: 1.061 on 253 degrees of freedom Multiple R-squared: 0.07994,Adjusted R-squared: 0.07266 F-statistic: 10.99 on 2 and 253 DF, p-value: 0.00002648 > Confint(LinearModel.2, level=0.95) Estimate 2.5 % 97.5 % (Intercept) -0.57031646 -0.78956320 -0.35106972 edaddec 0.08808917 0.04609393 0.13008441 Heces3mas -0.23812387 -0.50200110 0.02575336 > LinearModel.3 <- lm(dspeso ~ edaddec, data=GeaPed) > summary(LinearModel.3) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -0.68838 0.08971 -7.673 <0.00001 edaddec 0.09202 0.02130 4.320 <0.00001 Residual standard error: 1.065 on 254 degrees of freedom Multiple R-squared: 0.06845,Adjusted R-squared: 0.06478 F-statistic: 18.66 on 1 and 254 DF, p-value: 0.00002238 Figura 3. Regresión lineal múltiple para peso estandarizado la modelización aquí, hemos procedido a explorar el potencial efecto de su eliminación, lo que se ob- serva en el modelo 3. Podemos ver que el contraste del estadístico F apenas cambia y que la R 2 ajusta- da desciende (de 0,07266 a 0,06478), por lo que nos quedaremos con el modelo 2. En la parte inferior del mismo se muestran los intervalos de confianza de los coeficientes de las variables (2,5% y 97,5%). 4. Evaluación de la fiabilidad del modelo. Nuestro modelo final, que incluye las variables edad y nú- mero de deposiciones, presenta un R 2 ajustado de 0,07266, lo que implica que el 7,2% de la varianza de peso se explica por el modelo; es el mejor porcen- taje obtenido, aunque es bajo, por lo que podría haber otras variables que expliquen mejor la varia- ble dependiente. El último paso sería comprobar la fiabilidad del modelo en otra muestra de pacientes. Se harían estimaciones de la variable dependiente a partir de los coeficientes estimados en la mues-

RkJQdWJsaXNoZXIy MTAwMjkz