Ajuste e interpretación

Una vez que se eliminan coeficientes no significativos se debe proceder a la interpretación de los coeficientes, según sea el caso. Recordemos que algunas veces el interés está sobre las pruebas de hipótesis (problemas tipo Anova).

Observación: Entender los coeficientes nos llevará a entender de mejor manera el modelo.

Comencemos por cargar los datos

Datos=read.csv("ejemplo2RLM.csv", header=TRUE )
summary(Datos)
##        y                X1              X2          
##  Min.   : 7.041   Min.   :10.38   Min.   :-0.05325  
##  1st Qu.: 8.757   1st Qu.:14.01   1st Qu.: 1.19890  
##  Median : 9.373   Median :15.12   Median : 1.77417  
##  Mean   : 9.353   Mean   :15.18   Mean   : 1.89245  
##  3rd Qu.: 9.978   3rd Qu.:16.38   3rd Qu.: 2.46784  
##  Max.   :11.821   Max.   :19.37   Max.   : 5.24104

Vemos que

par(mfrow=c(1,2),mar=c(4.5,4.5,1,1))
pairs(Datos)

# E(y|x1,x2)=b0+b1x1+b2x2

fit=lm(y~X1+X2, data=Datos)

Checamos prueba F

summary(fit)
## 
## Call:
## lm(formula = y ~ X1 + X2, data = Datos)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -0.093651 -0.033037 -0.006222  0.031068  0.103991 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1.054311   0.041609   25.34   <2e-16 ***
## X1          0.496671   0.002622  189.44   <2e-16 ***
## X2          0.401191   0.004950   81.05   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.04756 on 97 degrees of freedom
## Multiple R-squared:  0.9976, Adjusted R-squared:  0.9976 
## F-statistic: 2.052e+04 on 2 and 97 DF,  p-value: < 2.2e-16

donde el \(p-value=2.2e-6\), entonces al menos uno de los coeficientes es distinto de cero. Además, haciendo el análisis renglón a renglón de los \(p-values's\) de la prueba \(t\) vemos que no podemos reducir el modelo. Además, si analizamos la prueba t para el coeficiente b1, se rechaza \(H_0\). Aquí el contraste es \(H_0: \beta_1=0\) vs \(H_a: \beta_1 \neq 0\). Esto nos indica, que aún considerando a la variable \(X_2\) en el modelo, la variable \(X_1\) nos está agregando información para modelar \(\mathbb{E}(Y|X_1,X_2\)).

Por otro lado, si analizamos la prueba t para el coeficiente \(\beta_2\), se rechaza \(H_0\). Aquí el contraste es \(H0: \beta_2=0 \ \ vs \ \ H_a: \beta_2 \neq 0\). Esto nos indica, que aún considerando a la variable \(X_1\) en el modelo, la variable \(X_2\) nos está agregando información para modelar \(\mathbb{}E(Y|X_1,X_2)\).

Con base en lo anterior, parece que no podríamos reducir el modelo, es decir todos los coeficientes parecen significativos.

Dado que \(R^{2}\) es cercano a uno tenemos que al parecer el modelo es muy bueno.

Pasamos después a la interpretación. Considerando fijo el valor de \(\hat{\beta}_{2}\) y notando que \(\hat{\beta}_{1}=0.49\), tenemos que al aumentar una unidad el valor de \(X_{1}\) aumentará en 0.5 unidades la esperanza de \(y\). Análogo cuando se fija \(\hat{\beta}_{1}\).

Notemos además que al incluir dos variables en el modelo se puede tener un mejor ajuste con base en el coeficiente de determinación y que ambas variables resultan significativas

fitred1=lm(y~X2, data=Datos)
summary(fitred1)
## 
## Call:
## lm(formula = y ~ X2, data = Datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.34965 -0.59583 -0.06255  0.52775  2.21630 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  8.68207    0.20112  43.169  < 2e-16 ***
## X2           0.35474    0.09473   3.745 0.000305 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.9115 on 98 degrees of freedom
## Multiple R-squared:  0.1252, Adjusted R-squared:  0.1163 
## F-statistic: 14.02 on 1 and 98 DF,  p-value: 0.0003049

vemos que la \(R^{2}\) ha disminuido drásticamente.

fitred2=lm(y~X1, data=Datos)
summary(fitred2)
## 
## Call:
## lm(formula = y ~ X1, data = Datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.79276 -0.30847 -0.02798  0.24051  1.36769 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   1.9733     0.3302   5.976  3.7e-08 ***
## X1            0.4862     0.0216  22.510  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.3923 on 98 degrees of freedom
## Multiple R-squared:  0.8379, Adjusted R-squared:  0.8363 
## F-statistic: 506.7 on 1 and 98 DF,  p-value: < 2.2e-16

En este caso la \(R^{2}\) no ha disminuido tanto pero aún así \(X_{1}\) por sí sola si nos ayudaba a explicar.