El examen se deberá subir al classroom antes de las 11:59 PM del 1 de diciembre de 2021. Todas las preguntas tienen el mismo valor.

Favor de argumentar con detalle las respuestas.

NOTA. En caso de que se identifiquen respuestas iguales en otros examenes, se procederá a la anulación de los examenes involucrados.

NOTA. Incluir el(los) nombre(s) completo(s) de la(s) persona(s) que está(n) resolviendo los ejercicios. Equipos de máximo tres integrantes.

Usar una confianza de 95% o una significancia de .05 en los casos en donde no se requiera otro nivel de forma explícita. En el caso de realizar alguna transformación de las variables, se tiene que hacer explícita la variable que se usa y la interpretación en las pruebas de hipótesis o intervalos de confianza.

1. Regresión a través del origen.

Ocasionalmente, un modelo en donde el valor del intercepto es conocido a priori y es igual a cero puede ser apropiado. Este modelo está dado por:

\[y_{i}=\beta x_{i}+\varepsilon_{i}, \qquad i=1,...,n,\]

donde \(\varepsilon_1, \varepsilon_2, ..., \varepsilon_n\) son variables independientes tal que \(\varepsilon_i \sim N(0, \sigma^2) \;\; \forall \; \; i= 1,...,n.\)

En general \(\sigma^2\) es desconocida, pero en lo que sigue suponga que es conocida.

  1. Encuentre el estimador de \(\beta\) obtenido por el método de máxima verosimilitud, \(\widehat{\beta}\).
  2. Encuentre la expresión de la varianza de \(\widehat{\beta}\).
  3. Demuestre que \(\widehat{\beta}\) es el UMVUE de \(\beta\), es decir, que es el mejor estimador insesgado de \(\beta\).

2.

Considere el modelo de regresión \[y_i=\beta_0 + \beta_1 x_i + \varepsilon_i,\]

donde \(E(\varepsilon_i)=0, \; V(\varepsilon_i)=\sigma^2 \;\; \text{y} \;\; Cov(\varepsilon_i, \varepsilon_j)=0 \; \forall \; i\neq j; \; \; i,j = 1,...,n\).

Calcular \(Cov(e_i, \widehat{\beta}_0)\), donde \(e_i=y_i-\widehat{y}_i\) y \(\widehat{y}_i=\widehat{\beta}_0+\widehat{\beta}_1x_i\), con \(\widehat{\beta}_0\) y \(\widehat{\beta}_1\) los estimadores de los parámetros del modelo.

Hint: Recordar que \(\widehat{y}_i\), \(\widehat{\beta}_0\) y \(\widehat{\beta}_1\) se pueden escribir como una combinación lineal de las \(y_{i's}\).

3. Problema Anova. Equivalencia con la prueba t para comparar dos poblaciones.

Sea \(X_{1},...,X_{n}\) una m.a. de la distribución \(N(\mu_x,\sigma^2)\) y \(Y_{1},...,Y_{m}\) una m.a. de la distribución \(N(\mu_y,\sigma^2)\), ambas muestras aleatorias son independientes entre sí. La prueba t se usa bajo este contexto para contrastar, por ejemplo:

\[H_0: \mu_x=\mu_y \quad \quad vs \quad \quad H_a: \mu_x \neq \mu_y.\] Sea \(t\) la estadística asociada a la prueba t antes mencionada.

  1. Considere una variable \(Z\) tal que \(Z=1\) si la observación es de la población con distribución \(N(\mu_x,\sigma^2)\) y \(Z=0\) si la observación es de la población con distribución \(N(\mu_y,\sigma^2)\). Considere el modelo de regresión lineal simple: \[w_j=\beta_0 + \beta_1 z_j + \varepsilon_j,\] donde \(\varepsilon_1, \varepsilon_2, ..., \varepsilon_{n+m}\) son variables independientes tal que \(\varepsilon_j \sim N(0, \sigma^2) \;\; \forall \; \; j= 1,...,n+m.\) Asuma que las primeras \(n\) observaciones son las que tienen valor \(Z=1\) y el resto son las que tienen valor \(Z=0\). Indique cuál es la distribución de \(W\) para cada valor de la variable \(Z\), haciendo énfasis en indicar la relación que esto implica entre \(\mu_x\) y \(\mu_y\) con \(\beta_0\) y \(\beta_1\).

  2. En términos de los parámetros del modelo de regresión lineal simple en I), indique cómo se deben escribir las hipótesis \[H_0: \mu_x=\mu_y \quad \quad vs \quad \quad H_a: \mu_x \neq \mu_y.\] Además dé la expresión de la estadística asociada a la prueba que se usaría para contrastar estas hipótesis en el contexto del modelo de regresión lineal simple.

  3. Demuestre que la estadística encontrada en II) es equivalente (en valor absoluto) a la estadística \(t\) asociada a la prueba t.

Hint: Puede usar todas las expresiones ya encontradas en clase para los estimadores y pruebas de hipótesis. Encuentre una expresión para \(\widehat{\beta}_1\) en términos de \(X_{i}\) y \(Y_{i}\) tomando ventaja de que \(z_j\) sólo toma el valor 0 o 1; además use una expresión para \(\widehat{w}_j\) que sólo depende de \(\widehat{\beta}_1\), en particular identificar \(\widehat{E}(W|Z=1)\) y \(\widehat{E}(W|Z=0)\) en términos de \(X_{i}\) y \(Y_{i}\).

4. Expresión alternativa para \(R^2\)

Considere el coeficiente de correlación muestral o de Pearson para dos variables \(X\) y \(Y\):

\[\begin{alignat}{4} r_{xy}=&\dfrac{\sum_{i=1}^{n}(x_i-\overline{X})(y_i-\overline{Y})}{(\sum_{i=1}^{n}(x_i-\overline{X})^2\sum_{i=1}^{n}(y_i-\overline{Y})^2)^{1/2}}, \label{eqn:reglinsimrxy} \end{alignat}\]

Demuestre que \[\begin{alignat}{4} R^2=& r^2_{y\widehat{y}}, \label{eqn:reglinsimR2ryyhat} \end{alignat}\] donde,

\[\begin{alignat}{4} r_{y\widehat{y}}=&\dfrac{\sum_{i=1}^{n}(y_i-\overline{Y})(\widehat{y}_i-\overline{\widehat{y}})}{(\sum_{i=1}^{n}(y_i-\overline{Y})^2\sum_{i=1}^{n}(\widehat{y}_i-\overline{\widehat{y}})^2)^{1/2}}. \label{eqn:reglinsimryyhat} \end{alignat}\]

Hint: Puede usar las propiedades a) a d) que se obtienen de las ecuaciones normales, expresiones (25) y (26) de las notas.

Claim: \(R^{2}=r^{2}_{y\hat{y}}\)

Demostración:

Para cualquier \(i\in\{1,\ldots,n\}\) podemos observar que

\[\begin{align*} \hat{y_{i}}-\bar{\hat{y}}&=\hat{y_{i}}-\frac{1}{n}\sum_{i=1}^{n}\hat{y_{i}}=\hat{y_{i}}-\frac{1}{n}\sum_{i=1}^{n}(\hat{\beta_{0}}+\hat{\beta_{1}}x_{i})\\ &=\hat{\beta_{0}}+\hat{\beta_{1}}x_{i}-\hat{\beta_{0}}-\hat{\beta_{1}}\cdot\frac{1}{n}\sum_{i=1}^{n}x_{i}\\ &=\hat{\beta_{1}}x_{i}-\hat{\beta_{1}}\cdot\bar{x}\\ &=\hat{\beta_{1}}(x_{i}-\bar{x}) \end{align*}\]

donde utilizamos que \(\hat{y_{i}}=\hat{\beta_{0}}+\hat{\beta_{1}}x_{i}\) por ecuación (11) en (Pérez [1], 2021, p.7). Luego, con base en el resultado de la ecuación anterior se tiene que

\[\begin{align*} r^{2}_{y\hat{y}}&=\frac{\left(\sum_{i=1}^{n} (y_{i}-\bar{y})(\hat{y_{i}}-\bar{\hat{y}})\right)^{2}}{\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}\sum_{i=1}^{n}(\hat{y_{i}}-\bar{\hat{y}})^{2}}=\frac{\left(\sum_{i=1}^{n} (y_{i}-\bar{y})[\hat{\beta_{1}}(x_{i}-\bar{x})]\right)^{2}}{\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}\sum_{i=1}^{n}[\hat{\beta_{1}}(x_{i}-\bar{x})]^{2}}\\ &=\frac{\hat{\beta_{1}}^{2}\left(\sum_{i=1}^{n} (y_{i}-\bar{y})(x_{i}-\bar{x})\right)^{2}}{\hat{\beta_{1}}^{2}\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}}=\frac{\sum_{i=1}^{n} (y_{i}-\bar{y})(x_{i}-\bar{x})}{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}}\cdot \frac{\sum_{i=1}^{n} (y_{i}-\bar{y})(x_{i}-\bar{x})}{\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}}\\ &\overset{(21)}{=}\hat{\beta_{1}}\cdot \frac{\sum_{i=1}^{n} (y_{i}-\bar{y})(x_{i}-\bar{x})}{\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}} \end{align*}\]

Por lo tanto

\[\begin{equation} r^{2}_{y\hat{y}}=\hat{\beta_{1}}\cdot \frac{\sum_{i=1}^{n} (y_{i}-\bar{y})(x_{i}-\bar{x})}{\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}} \ \ \ \ \ \ \ \ \ (\ast) \end{equation}\]

Por otro lado veamos que

\[\begin{align*} \sum_{i=1}^{n}(\hat{y_{i}}-\bar{y})^{2}\overset{(11)}{=}\sum_{i=1}^{n}(\hat{\beta_{0}}+\hat{\beta_{1}}x_{i}-\bar{y})^{2}\overset{(19)}{=}\sum_{i=1}^{n}[(\bar{y}-\hat{\beta_{1}}\bar{x})+\hat{\beta_{1}}x_{i}-\bar{y}]^{2}=\hat{\beta_{1}}^{2}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2} \end{align*}\]

Así, la expresión para \(R^{2}\) es ahora de la forma

\[\begin{equation} R^{2}=\frac{\sum_{i=1}^{n}(\hat{y_{i}}-\bar{y})^{2}}{\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}}=\frac{\hat{\beta_{1}}^{2}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}}{\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}} \ \ \ \ \ \ (\ast\ast) \end{equation}\]

Comparando las ecuaciones \((\ast)\) y \((\ast\ast)\) deducimos que basta con probar la igualdad

\[ \sum_{i=1}^{n} (y_{i}-\bar{y})(x_{i}-\bar{x})=\hat{\beta_{1}}\cdot \sum_{i=1}^{n}(x_{i}-\bar{x})^{2} \]

la cual trivialmente se cumple por la mera definición de la \(\hat{\beta_{1}}\) (por ecuación (21) en (Pérez [1], 2021, p.8)), esto es

\[ \hat{\beta_{1}}\cdot \sum_{i=1}^{n}(x_{i}-\bar{x})^{2}=\frac{\sum_{i=1}^{n} (y_{i}-\bar{y})(x_{i}-\bar{x})}{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}}\cdot\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}=\sum_{i=1}^{n} (y_{i}-\bar{y})(x_{i}-\bar{x}) \]

En conclusión \(R^{2}=r^{2}_{y\hat{y}}\). \(\hspace{17cm} \square\)

Referencias

5. Problema ANOVA. Medicamentos

Suponga que un grupo de investigadores está probando un nuevo medicamento para tratar a pacientes con la enfermedad Covid-19. El estudio es muy importante pues teóricamente se espera que ese medicamento reduzca la carga viral y este estudio podría servir para cambiar la forma en la que se trata la enfermedad. El archivo Ejercicio5B.csv contiene la información que se ha obtenido en un grupo de pacientes que han dado positivo al virus: \(Y\) es la carga viral observada después de 48 hrs de aplicar el medicamento y \(Med\) es una variable con dos niveles dependiendo si se aplicó o no el nuevo medicamento. Se sabe que tener una menor carga viral evita que se desarrolle una versión grave de la enfermedad y los investigadores están concentrados en probar que los pacientes que recibieron el medicamento tienen menor carga viral que los que sólo recibieron placebo.

  1. Realice un análisis descriptivo y/o la visualización de los datos
  2. Escriba la prueba asociada para argumentar en favor o no de la afirmación de los investigadores. Para esto deberá indicar qué modelo podría usar y cuales son los supuestos de éste.
  3. Lleve a cabo la prueba de hipótesis, justificando que los supuestos del modelo que está usando son válidos. Dé la interpretación de los resultados.
  4. Suponga ahora que dada la importancia del estudio, le han vuelto a preguntar si los resultados en el inciso III) son contundentes. Para esto, usted ha decidido analizar más el proceso de generación de los datos y ha platicado con los investigadores, logrando que le compartan una nueva variable \(Edad\). Realice un análisis descriptivo y/o la visualización de los datos incluyendo esta nueva información. Comente lo que observe analizando si las conclusiones en III) se pueden atribuir al medicamento.
  5. Dependiendo de lo observado en IV) y si considera necesario, repita los incisos II) y III) y concluya.

–Solución:–

  1. Realice un análisis descriptivo y/o la visualización de los datos:

Comenzamos por ver gráficamente el comportamiento de nuestros datos:

Notamos a primera instancia que el rango intercuartílico del primer boxplot es mayor respecto al segundo, además los bigotes del primero son más largos respecto al segundo. Así, tenemos que hay más variabilidad en los datos de los pacientes que recibieron el placebo respecto a los datos de los pacientes que recibieron el medicamento.

Además de notar cierta simetría en los datos, puede observarse que la mediana de la carga viral \(Y\) es mayor en aquellos pacientes que recibieron el placebo versus la mediana de la carga viral de los que recibieron el medicamento. Para fines prácticos puede decirse que en promedio la carga viral es mayor en los pacientes que recibieron el placebo respecto a los que recibieron el medicamento, lo cual representa un argumento a favor de la hipótesis de los investigadores.

  1. Escriba la prueba asociada para argumentar en favor o no de la afirmación de los investigadores. Para esto deberá indicar qué modelo podría usar y cuales son los supuestos de éste:

Consideraremos el ajuste del modelo

## 
## Call:
## lm(formula = Y ~ Med, data = Datos)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -4.736 -1.132 -0.223  1.381  4.220 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      15.759      0.276   57.13   <2e-16 ***
## MedMedicamento   -0.640      0.390   -1.64      0.1    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.9 on 98 degrees of freedom
## Multiple R-squared:  0.0268, Adjusted R-squared:  0.0168 
## F-statistic:  2.7 on 1 and 98 DF,  p-value: 0.104

del cual se extraen los valores \(\hat{\beta_{0}}=15.759\) y \(\hat{\beta_{1}}=-0.640\), de donde

  • \(\mathbb{E}[\textrm{carga viral};\textrm{placebo}]=\mathbb{E}[z=0]=\hat{\beta_{0}}=15.759=\mu_{1}\)

  • \(\mathbb{E}[\textrm{carga viral};\textrm{Medicamento}]=\mathbb{E}[z=1]=\hat{\beta_{0}}+\hat{\beta_{1}}=15.759-0.640=15.119=\mu_{2}\)

Se tiene entonces, bajo este ajuste del modelo, que \(\mu_{1}>\mu_{2}\). No obstente, el hecho anterior no puede contemplarse si los supuesto del modelo propuesto no se están cumpliendo. Por ello efectuaremos un análisis de supuestos:

  • Homocedasticidad: Comenzamos por visualizar la gráfica que R trae por defecto

    observándose una “nube de puntos” muy parecida en ambos casos, lo que representa un indicio a favor de este supuesto. Complementamos realizando dos pruebas de hipótesis

    ## 
    ##  studentized Breusch-Pagan test
    ## 
    ## data:  fit
    ## BP = 1, df = 1, p-value = 0.2
    ## Non-constant Variance Score Test 
    ## Variance formula: ~ fitted.values 
    ## Chisquare = 1.2, Df = 1, p = 0.3

    en ambos casos no se rechaza \(H_{0}\), \(i.e.\) no hay evidencia suficiente en contra de la homocedasticidad. Finalmente complementamos realizando una prueba por grupos donde se contrasta

    \[ H_{0}: \sigma_{1}^{2}=\sigma_{2}^{2}\ \ vs \ \ H_{a}: \sigma_{1}^{2}\neq\sigma_{2}^{2} \]

    Usamos

    ## 
    ##  Bartlett test of homogeneity of variances
    ## 
    ## data:  Y by Med
    ## Bartlett's K-squared = 1, df = 1, p-value = 0.3
    ## 
    ##  Fligner-Killeen test of homogeneity of variances
    ## 
    ## data:  Y by Med
    ## Fligner-Killeen:med chi-squared = 1, df = 1, p-value = 0.3
    no rechazándose \(H_{0}\) en las pruebas. Por tanto, es plausible asumir que este supuesto es válido dentro del modelo.
  • Normalidad: Visualizamos inicialmente la Q-Qplot que R trae por defecto

    observándose un comportamiento muy próximo de los datos a la diagonal, lo cual parece indicar que el supuesto de la normalidad es válido. Complementamos realizando pruebas de hipótesis

    ## 
    ##  Shapiro-Wilk normality test
    ## 
    ## data:  Datosfit$.std.resid
    ## W = 1, p-value = 0.6
    ## 
    ##  Lilliefors (Kolmogorov-Smirnov) normality test
    ## 
    ## data:  Datosfit$.std.resid
    ## D = 0.06, p-value = 0.5
    ## 
    ##  Jarque-Bera test for normality
    ## 
    ## data:  Datosfit$.std.resid
    ## JB = 0.4, p-value = 0.8

    en las tres se consigue no rechazar \(H_{0}\), \(i.e\) es admisible asumir la normalidad de los datos. Finalmente complementamos efectuando la prueba de normalidad por grupos, esto es, realizaremos las tres pruebas anteriores para cada grupo en particular. Resumimos lo obtenido en las pruebas:

    ##             [,1]           [,2]                 [,3]         
    ## Prueba      "Shapiro-Wilk" "Kolmogorov-Smirnov" "Jarque-Bera"
    ## Medicamento "p-value=1"    "p-value=0.9"        "p-value=1"  
    ## Placebo     "p-value=0.6"  "p-value=0.8"        "p-value=0.6"

    en todas y cada una no se rechaza \(H_{0}\). Tomamos pues como válido el supuesto de la normalidad.

    En conclusión tenemos que los supuestos son válidos en el modelo propuesto. Por lo tanto, puede considerarse que \(\mu_{1}>\mu_{2}\) de acuerdo a los valores de \(\hat{\beta_{0}}\) y \(\hat{\beta_{1}}\) obtenidos por el modelo propuesto, lo cual argumenta en favor de la afirmación de los investigadores
  1. Lleve a cabo la prueba de hipótesis, justificando que los supuestos del modelo que está usando son válidos. Dé la interpretación de los resultados

Por inciso anterior sabemos que los supuestos del modelo pueden asumirse como válidos, por ello es posible considerar la prueba

\[ H_{0}: \mu_{1}\geq \mu_{2}\ \ \ \ \ vs\ \ \ \ \ H_{a}: \mu_{1}<\mu_{2} \]

que equivalentemente

\[ H_{0}: 0\geq \hat{\beta_{1}}\ \ \ \ \ vs\ \ \ \ \ H_{a}: \hat{\beta_{1}}>0 \]

De tal manera considerando en el modelo \(\theta=Z_{0}\beta_{0}+Z_{1}\beta_{1}\) para \(Z_{0}=0\) y \(Z_{1}=1\) obtenemos que

## 
##   Simultaneous Tests for General Linear Hypotheses
## 
## Fit: lm(formula = Y ~ Med, data = Datos)
## 
## Linear Hypotheses:
##        Estimate Std. Error t value Pr(>t)
## 1 <= 0    -0.64       0.39   -1.64   0.95
## (Adjusted p values reported -- single-step method)

donde no se rechaza \(H_{0}\), es decir, no hay suficiente evidencia en contra de que \(0\geq \hat{\beta_{1}}\) o equivalentemente \(\mu_{1}\geq \mu_{2}\). Completamos realizando dos pruebas donde se contrasta directamente

\[ H_{0}: \mu_{1}\geq \mu_{2}\ \ \ \ \ vs\ \ \ \ \ H_{a}: \mu_{1}<\mu_{2} \]

Para ello:

## 
##  Two Sample t-test
## 
## data:  Y by Med
## t = 2, df = 98, p-value = 0.9
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
##  -Inf  1.3
## sample estimates:
##     mean in group Placebo mean in group Medicamento 
##                        16                        15
## 
##  Two Sample t-test
## 
## data:  Datos$Y[Datos$Med == "Placebo"] and Datos$Y[Datos$Med == "Medicamento"]
## t = 2, df = 98, p-value = 0.9
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
##  -Inf  1.3
## sample estimates:
## mean of x mean of y 
##        16        15

no rechazándose en ambas \(H_{0}\). Donde se colocó var.equal = TRUE pues en el análisis de los supuesto se concluyó que es admisible asumir que la varianza de los grupos es la misma, además es admisible asumir que la media de los grupos es diferente. Por tanto, de acuerdo a las tres pruebas de hipótesis realizadas anteriormente se concluye que no hay evidencia suficiente para argumentar en contra de que \(\mu_{1}>\mu_{2}\).

Interpretación:

Se concluye que no hay suficiente evidencia en contra, con una significancia de \(\alpha=0.05\), de que en promedio la carga viral es mayor en aquellos pacientes que recibieron el placebo versus los pacientes que recibieron el medicamento.

  1. Suponga ahora que dada la importancia del estudio, le han vuelto a preguntar si los resultados en el inciso III) son contundentes. Para esto, usted ha decidido analizar más el proceso de generación de los datos y ha platicado con los investigadores, logrando que le compartan una nueva variable \(Edad\). Realice un análisis descriptivo y/o la visualización de los datos incluyendo esta nueva información. Comente lo que observe analizando si las conclusiones en III) se pueden atribuir al medicamento.

Dado que en nuestros datos tenemos los valores >60 y `<=60 en la columna Edad, podemos realizar dos boxplots contrastando la carga viral con los datos de Edad , así como le hicimos al inicio del análisis descriptivo al contrastar la carga viral con el medicamento y el placebo. Por ende

donde parace ser que hay una relación entre la carga viral y la edad, siendo que la población de más de sesenta años tomada en la muestra de los datos parece presenta mayor carga viral respecto a la población de menos de sesenta. Por ello, no podemos tener la certeza de que las conclusiones obtenidas en el inciso anterior se puedan atribuir sólo al medicamento, pues el factor edad también juega un papel importante, lo cual se ve reflejado en los boxplots anteriores.

  1. Dependiendo de lo observado en IV) y si considera necesario, repita los incisos II) y III) y concluya.

Recordemos que la hipótesis de los investigadores es que los pacientes que recibieron el medicamento tienen menor carga viral que los que sólo recibieron placebo. Sin embargo, por lo observado en el inciso anterior parece ser que la carga viral no sólo depende del medicamento sino también de la edad. Para comprobar esto último repetiremos el inciso II) y III) realizando ahora un ajuste del modelo contrastando la carga viral con la edad.

Por consiguiente, al ver los boxplots anteriores se observa cierta simetría en los datos, además de que los rangos intercuartílicos no son muy distintos y los bigotes presentan una longitud similar. Así, parece ser que los supuestos de la normalidad y la homocedasticidad se están cumpliendo.

Para corroborrar procedemos rápidamente al análisis de los supuestos:

  • Homocedasticidad: Observamos la gráfica que R trae por defecto

    A pesar que el primer grupo no tiene tantos datos, puede verse un comportamiento un tanto similar en los datos de ambos grupos. Complementamos lo anterior realizando pruebas de hipótesis

    ## 
    ##  studentized Breusch-Pagan test
    ## 
    ## data:  fit2
    ## BP = 0.09, df = 1, p-value = 0.8
    ## Non-constant Variance Score Test 
    ## Variance formula: ~ fitted.values 
    ## Chisquare = 0.086, Df = 1, p = 0.8

    en ambos casos no se rechaza \(H_{0}\) por lo que no hay suficiente evidencia en contra de la homocedasticidad. Veamos también en la prueba por grupos que

    ## 
    ##  Bartlett test of homogeneity of variances
    ## 
    ## data:  Y by Med
    ## Bartlett's K-squared = 1, df = 1, p-value = 0.3
    ## 
    ##  Fligner-Killeen test of homogeneity of variances
    ## 
    ## data:  Y by Med
    ## Fligner-Killeen:med chi-squared = 1, df = 1, p-value = 0.3
    tampoco se rechaza \(H_{0}\), por lo que es plausible asumir la igualdad entre varianzas. Se concluye pues que este supuesto es válido.
  • Normalidad: Observamos la Q-Qplot

    en la que parece que el supuesto de la normalidad es válido, sin embargo podemos ver varios puntos que resaltan al no estar tan próximos a la recta. Complementamos realizando pruebas de hipótesis.

    ## 
    ##  Shapiro-Wilk normality test
    ## 
    ## data:  Datosfit2$.std.resid
    ## W = 1, p-value = 0.7
    ## 
    ##  Lilliefors (Kolmogorov-Smirnov) normality test
    ## 
    ## data:  Datosfit2$.std.resid
    ## D = 0.05, p-value = 0.7
    ## 
    ##  Jarque-Bera test for normality
    ## 
    ## data:  Datosfit2$.std.resid
    ## JB = 0.7, p-value = 0.7

    donde no se rechaza \(H_{0}\) en las tres pruebas. Hasta el momento todo parece indicar que el supuesto de la normalidad se está dando. Vemos los valores de los p_values obtenidos en las pruebas por grupos

    ##                [,1]           [,2]                 [,3]         
    ## Prueba2        "Shapiro-Wilk" "Kolmogorov-Smirnov" "Jarque-Bera"
    ## Menor_igual_60 "p-value=0.9"  "p-value=0.7"        "p-value=0.6"
    ## Mayor_60       "p-value=0.7"  "p-value=0.6"        "p-value=0.9"
    rechándose en todas y cada una \(H_{0}\). Concluimos que el supuesto de la normalidad se cumple.

Observemos ahora que

## 
## Call:
## lm(formula = Y ~ Edad, data = Datos)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
##  -5.18  -1.34  -0.12   1.24   4.53 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    14.938      0.438   34.07   <2e-16 ***
## EdadMayor_60    0.626      0.490    1.28      0.2    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2 on 98 degrees of freedom
## Multiple R-squared:  0.0164, Adjusted R-squared:  0.00632 
## F-statistic: 1.63 on 1 and 98 DF,  p-value: 0.205
  • \(\mathbb{E}[\textrm{Carga viral}; \textrm{Edad menor a 60}]=\mathbb{E}[z=0]=\hat{\beta_{0}}=14.938=\mu_{1}\)

  • \(\mathbb{E}[\textrm{Carga viral}; \textrm{Edad mayor a 60}]=\mathbb{E}[z=1]=\hat{\beta_{0}}+\hat{\beta_{1}}=14.938+0.626=15.564=\mu_{2}\)

donde puede verse que las medias son distintas y \(\mu_{1}<\mu_{2}\) de acuerdo al modelo propuesto.

Consideramos entonces la hipotesis de que la carga viral de la población con edad menor o igual a 60 es menor a la carga viral de la población con edad mayor a 60. De tal suerte es de nuestro interés contrastar

\[ H_{0}: \mu_{1}\leq \mu_{2}\ \ \ vs \ \ \ H_{a}: \mu_{1}>\mu_{2} \]

o equivalentemente

\[ H_{0}: 0\leq \hat{\beta_{1}}\ \ \ vs \ \ \ H_{a}: 0>\hat{\beta_{1}} \]

Para ello

## 
##   Simultaneous Tests for General Linear Hypotheses
## 
## Fit: lm(formula = Y ~ Edad, data = Datos)
## 
## Linear Hypotheses:
##        Estimate Std. Error t value Pr(<t)
## 1 >= 0    0.626      0.490    1.28    0.9
## (Adjusted p values reported -- single-step method)

en la que no se rechaza \(H_{0}\). O contrastamos directamente

\[ H_{0}: \mu_{1}\leq \mu_{2}\ \ \ vs \ \ \ H_{a}: \mu_{1}>\mu_{2} \]

empleando

## 
##  Two Sample t-test
## 
## data:  Y by Edad
## t = -1, df = 98, p-value = 0.9
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  -1.4  Inf
## sample estimates:
## mean in group Menor_igual_60       mean in group Mayor_60 
##                           15                           16
## 
##  Two Sample t-test
## 
## data:  Datos$Y[Datos$Edad == "Menor_igual_60"] and Datos$Y[Datos$Edad == "Mayor_60"]
## t = -1, df = 98, p-value = 0.9
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  -1.4  Inf
## sample estimates:
## mean of x mean of y 
##        15        16

en las que también no se rechaza \(H_{0}\). Consideramos que no hay evidencia suficiente en contra de que \(\mu_{1}<\mu_{2}\) por lo que es admisible asumir que la carga viral de la población con edad menor o igual a 60 es menor que la carga viral de la población con edad mayor a 60.

Conclusión:

Los resultados obtenidos en \(iii\) no son contundentes pues, de acuerdo a lo hecho en el inciso \(iv\) y \(v\), notamos que la baja carga viral no sólo puede atribuirse al medicamento, pues ésta también depende de la edad de la población.

6. Uso del modelo de regresión lineal simple

Los \(ping\ddot{u}inos\) \(Macaroni\) ponen nidadas de dos huevos de tamaño diferente. El peso en gramos de los huevos de 11 nidadas se presenta en la tabla de abajo.

  1. Ajuste la recta de regresión del peso del huevo mayor (\(y\)) en el peso del huevo menor (\(x\)). Comente sobre el ajuste del modelo, es decir, si parece correcto y si se cumplen los supuestos.
  2. Los investigadores tienen la sospecha de que en promedio se puede decir que la diferencia entre el peso mayor y el peso menor es constante (es decir, no depende del peso del huevo menor observado). Usando el modelo en I) realice una prueba de hipótesis para responder la pregunta de los investigadores.
  3. Posteriormente se observa el peso de los huevos de una nueva nidada, observándose un peso de 75 y 130 gramos. Usando un intervalo adecuado, comente sobre la sospecha de que la nidada de huevos sí proviene de pinguinos \(Macaroni.\)
x=c(79, 93, 100, 105, 101, 96, 96, 109, 70, 71, 87)
y=c(133, 148, 164, 171, 165, 159, 162, 170, 127, 133, 148 )

Datos5=data.frame(cbind(x,y))
kable(Datos5)
x y
79 133
93 148
100 164
105 171
101 165
96 159
96 162
109 170
70 127
71 133
87 148

7.

Considere los datos en la base infectionrisk.txt y las variables: \(y =\) riesgo de infección (InfctRsk) y \(x =\) promedio de estancia en un hospital (Stay), sólo los datos de las regiones 1 y 2 (Region==1 | Region==2). Después de una investigación minuciosa, los responsables de la base de datos indican que todos los valores parecen reflejar la esperanza del riesgo de infección para los diferentes valores de \(x\), es decir, que no se debe eliminar ninguna observación.

  1. Ajustar un modelo de regresión lineal simple. Verificar los supuestos a partir de este modelo. Deberá indicar para cada supuesto qué gráfica o prueba sirve para argumentar el cumplimiento o no del supuesto.

  2. En caso de que alguno de los supuestos no se satisfaga en I), realizar modificaciones a las variables para encontrar un modelo en donde sí se satisfagan los supuestos.

    1. Para transformar la variable Y, probar con transformaciones Box-Cox
    2. Para transformar la variable X, probar con transformaciones Box-Tidwell u otras conocidas como log() o exp().

Al finalizar, deberá indicar el modelo de regresión lineal simple que se ajustará, haciendo explícito qué variables fueron transformadas y cómo. También deberá indicar para cada supuesto del modelo de regresión qué gráfica o prueba sirve para argumentar su cumplimiento.

  1. En una misma gráfica incluir los puntos en escala original, la recta de regresión del modelo en I) y la curva del modelo en II).
  2. Interpretar \(R^2\) y la prueba anova del modelo en II).
  3. Con el modelo final ayude a un investigador a argumentar a favor o en contra de la hipótesis: “El riesgo de infección de los pacientes cuando tienen una estancia de 10 es en general mayor a 3”.