Examen 3, versión B. Pruebas no paramétricas.

La solución del examen se deberá subir al classroom antes de las 11:59 PM del 30 de enero de 2021. La pregunta 1 vale 2 puntos, mientras que el resto de preguntas valen 1.5 puntos cada una.

Cuando no se especifique, considere una significancia de $\alpha=$.05 y que no es necesario verificar los supuestos del modelo o prueba.

Favor de argumentar con detalle las respuestas.

NOTA. En caso de que se identifiquen respuestas iguales en otros examenes, se procederá a la anulación de los examenes involucrados.

NOTA. Incluir el(los) nombre(s) completo(s) de la(s) persona(s) que está(n) resolviendo los ejercicios.

1.

Los datos de la siguiente tabla muestran las mediciones de “low density lipid (LDL) cholesterol”, también conocido como colesterol malo por las consecuencias asociadas a tener altos niveles de este colesterol. Cuatro tratamientos (treat:1,2,3,4) se probaron con la finalidad de reducir los niveles de LDL, los datos de 39 observaciones aleatorias se muestran en la tabla siguiente (datos “quail” en paquete “Rfit”).

Low density lipid (LDL) cholesterol para 39 observaciones independientes
n=39

treat	ldl	treat	ldl	treat	ldl	treat	ldl
1	52	2	36	3	52	4	62
1	67	2	34	3	55	4	71
1	54	2	47	3	66	4	41
1	69	2	125	3	50	4	118
1	116	2	30	3	58	4	48
1	79	2	31	3	176	4	82
1	68	2	30	3	91	4	65
1	47	2	59	3	66	4	72
1	120	2	33	3	61	4	49
1	73	2	98	3	63

Presente el boxplot de la variable LDL para cada tratamiento (grupo) y comente.

Solución: Comenzamos por cargar los datos

rm(list = ls(all.names = TRUE))
gc()

##           used  (Mb) gc trigger  (Mb) max used  (Mb)
## Ncells 2112575 112.9    3467912 185.3  3467912 185.3
## Vcells 3566317  27.3    8388608  64.0  5097142  38.9

treat <- factor(append(rep(c(1,2,3), each = 10), rep(4, times = 9)))
datos1 <- c(52, 67, 54, 69, 116, 79, 68, 47, 120, 73, 36, 34, 47, 125, 30,
         31, 30, 59, 33, 98, 52, 55, 66, 50, 58, 176, 91, 66, 61, 63,
         62, 71, 41, 118, 48, 82, 65, 72, 49)
datos <- data.frame(treat, datos1)

Procedemos a construir el boxplot para cada tratamiento

with(datos, boxplot(datos1 ~ treat, col = 'skyblue'))

De aqui podemos notar que en general el tratamiento 2, en mediana, fue más efectivo que los demás tratamientos, por lo que nos gustaría saber si con toda la población tendría el mismo resultado.

Indique si se puede asumir que los datos en cada grupo provienen de una distribución Normal.

Solución: Basándonos en el boxplot viendo el comportamiento del tratamiento 1 y el 2, podemos ver que no parece factible asumir una distribución normal ya que se puede observar una clara asimetría entre ambas. Para comprobar esta suposición realizaremos una prueba Kolmogorov-Smirnoff con la corrección de Lilliefors:

nortest::lillie.test(datos[datos$treat == '1', 2])

## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  datos[datos$treat == "1", 2]
## D = 0.229, p-value = 0.15

nortest::lillie.test(datos[datos$treat == '2', 2])

## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  datos[datos$treat == "2", 2]
## D = 0.289, p-value = 0.018

Con esto podemos ver que para el tratamiento uno, con una significancia de 0.05, no tenemos suficiente evidencia para rechazar la hipótesis nula, por lo que podemos asumir una distribución normal, mientras que para el tratamiento 2 tenemos que hay suficiente evidencia para rechazar la hipótesis nula por lo que nopodríamos afirmar que tiene una distribución normal.

Dado que no hay claridad suficiente para hacer suposiciones con el boxplot, realizaremos la misma prueba para los tratamientos 3 y 4.

nortest::lillie.test(datos[datos$treat == '3', 2])

## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  datos[datos$treat == "3", 2]
## D = 0.382, p-value = 0.00018

nortest::lillie.test(datos[datos$treat == '4', 2])

## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  datos[datos$treat == "4", 2]
## D = 0.201, p-value = 0.37

Con esto podemos ver que para el tratamiento 3 tenemos suficiente evidencia para rechazar la hipótesis nula, por lo que podemos afirmar que no tiene una distribución normal. A su vez, para el tratamiento 4 no tenemos suficiente evidencia para hacer esta afirmación, por lo que concluimos que tiene una distribución normal.

Por lo tanto, en general, no podemos afirmar que los datos provengan de una distribución normal para cada grupo.

Dependiendo de la respuesta anterior, realice una prueba adecuada para indicar si es plausible asumir que la varianza es similar en los cuatro grupos.

Solución: Del inciso anterior podemos ver que para los grupos 2 y 3 no podíamos asumir una distribución normal, sin embargo, hay que verificar si podemos asumir si los cuatro grupos podrían venir de la misma distribución. Para realizar esto usaremos la prueba Fligner-Killeen para verificar si la varianza en los cuatro grupos es la misma.

fligner.test(datos1 ~ treat, data = datos)

## 
##  Fligner-Killeen test of homogeneity of variances
## 
## data:  datos1 by treat
## Fligner-Killeen:med chi-squared = 0.18, df = 3, p-value = 0.98

con esto podemos ver que no contamos con suficiente evidencia para rechazar la hipótesis nula, por lo que podríamos asumir que la varianza es la misma para los cuatro grupos.

¿Los cuatro tratamientos proporcionan los mismos valores de LDL? Realice la prueba adecuada con $\alpha=$.1.

Solución: Hemos visto que no podemos asumir que los cuatro grupos provienen de una normal, sin embargo, vimos que tienen una varianza similar, por lo que habría que ver con una prueba de Kruskal-Wallis para encontrar si las medianas en los cuatro grupos son las mismas.

kruskal.test(datos1 ~ treat, data = datos)

## 
##  Kruskal-Wallis rank sum test
## 
## data:  datos1 by treat
## Kruskal-Wallis chi-squared = 7.19, df = 3, p-value = 0.066

Con lo que tenemos dada una significancia de 0.1 es que tenemos suficiente evidencia para rechazar la hipótesis nula, por lo que con una confianza del 90% podemos asumir que al menos un grupo da un valor distinto de LDL.

Si la respuesta a la pregunta del inciso iv) es negativa, indique si hay algún grupo que reduzca más los niveles de colesterol en comparación con el resto de tratamientos. Use $\alpha=$.1.

Solución: Dado el resultado del inciso anterior, nos interesa conocer si algún grupo que reduzca más los niveles de esta variable en comparación. Para conocer esta información realizaremos la prueba de pares basada en rangos de Dunn

x <- PMCMRplus :: kwAllPairsDunnTest (datos1~treat , data=datos)
summary(x)

##            z value Pr(>|z|)  
## 2 - 1 == 0   2.521   0.0703 .
## 3 - 1 == 0   0.598   1.0000  
## 4 - 1 == 0   0.598   1.0000  
## 3 - 2 == 0   1.922   0.2728  
## 4 - 2 == 0   1.855   0.2728  
## 4 - 3 == 0   0.016   1.0000

Con una significancia de 0.1 podemos afirmar que hay suficiente evidencia para afirmar que el tratamiento 2 reduce los niveles de colesterol de la población.

2.

Los datos de la tabla de abajo muestran los resultados en la escala de depresión “Hamilton Depression Scale Factor IV” para nueve pacientes con depresión, antes de recibir un tratamiento (x) y después de recibir el tratamiento (y). A menor valor en la escala se observa una mejoría. En este sentido ¿se puede concluir que el tratamiento ha tenido éxito? Realice.

Paciente	1	2	3	4	5	6	7	8	9
x	1.83	0.5	1.62	2.48	1.68	1.88	1.55	3.06	1.3
y	0.878	0.647	0.598	2.05	1.06	1.29	1.06	3.14	1.29

La prueba paramétrica asociada.

Solución: Para ello utilizaremos la variable $w=x_{i}-y_{i}$ que nos permitirá calcular la estadística $t$

# Calculamos la variable W
W = x - y

# Ajustamos el modelo
fit = lm(W~1, data=Datos3a)
summary(fit)

## 
## Call:
## lm(formula = W ~ 1, data = Datos3a)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.5789 -0.4219  0.0581  0.1881  0.5901 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)  
## (Intercept)    0.432      0.142    3.04    0.016 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.427 on 8 degrees of freedom

Recordemos que buscamos responder la pregunta: ¿El tratamiento ha tenido éxito?. Lo cual puede traducirse a verificar si el tratamiento ha servido para bajar los niveles de depresión en los pacientes. Lo anterior puede plantearse como una prueba de hipótesis:

$H_{0}:$ los niveles de depresión son mayores al usar el tratamiento vs
$H_{a}:$ los niveles de depresión son menores al usar el tratamiento

lo cual podemos escribir como

\[ H_{0}:\mu_{x} \leq \mu_{y} \ \ \ vs \ \ \ H_{a}: \mu_{x}>\mu_{y} \]

y dado que $\mu_{w}=\mu_{x}-\mu_{y}$, entonces la prueba anterior es equivalente a la siguiente prueba

\[ H_{0}: \mu_{w}\leq 0 \ \ \ vs \ \ \ \mu_{w}>0 \ \ \ \Leftrightarrow \ \ \ H_{0}: \beta_{0}\leq 0 \ \ \ vs \ \ \ H_{a}: \beta_{0}>0 \]

Por consiguiente:

# Cargamos la librería necesaria
library(multcomp)

# Hacemos la prueba
K=matrix(c(1), ncol=1, nrow=1, byrow=TRUE)
m=c(0)
summary(glht(fit, linfct=K, rhs=m, alternative="greater"))

## 
##   Simultaneous Tests for General Linear Hypotheses
## 
## Fit: lm(formula = W ~ 1, data = Datos3a)
## 
## Linear Hypotheses:
##        Estimate Std. Error t value Pr(>t)   
## 1 <= 0    0.432      0.142    3.04 0.0081 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## (Adjusted p values reported -- single-step method)

donde $p-value<0.05$ por lo que se rechaza $H_{0}$, es decir, es plausible asumir que los niveles de depresión disminuyen (en promedio) utilizando el tratamiento.

La prueba no paramétrica asociada.

Solución: Se utilizará en este caso la prueba Wilcoxon signed test.

Primero haremos uso de la distribución exacta a una normal:

wilcox.test(x, y, paired = TRUE,
alternative = c("greater"), exact = TRUE, correct = FALSE)

## 
##  Wilcoxon signed rank exact test
## 
## data:  x and y
## V = 40, p-value = 0.02
## alternative hypothesis: true location shift is greater than 0

donde $p-value<0.05$ rechazándose $H_{0}$.

Después usamos la distribución aproximada a una normal

wilcox.test(x, y, paired = TRUE,
alternative = c("greater"), exact = FALSE, correct = TRUE)

## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  x and y
## V = 40, p-value = 0.022
## alternative hypothesis: true location shift is greater than 0

Siendo así que en ambos casos se rechaza $H_{0}$. Por ende es plausible asumir que $\theta>0$, es decir, nuevamente puede asumirse que los niveles de depresión en los pacientes es menor después de haberse suministrado el tratamiento.

3.

Considere los datos de la tabla de abajo. Calcule las medidas de asociación

x	1.83	0.50	1.62	2.48	1.68	1.88	1.55	3.06	1.30
y	0.88	0.65	0.60	2.05	1.06	1.29	1.06	3.14	1.29

Coeficiente de correlación de Pearson.

Solución: Comenzamos por cargar los datos y realizar el gráfico de dispersión

# Datos
x2=c(1.1,   6.2,    6.09,   6.2,    8.6,    6.4,    0.09,   2.3,    6.66,   5.1,    41.9,   33, 17.7,   55.5,   18.25,  50.40,  17.9,   16.74,  12.0,   14.70)
y2=c(-1.3,  -1.2,   -0.52,  2.0,    5.0,    1.5,    -3.89,  -1.9,   -0.62,  8.9,    4.1,    2,  1.6,    5.4,    0.82,   -0.42,  4.6,    -0.25,  2.4,    -0.12)

# Creamos un dataframe
Datos4=data.frame(cbind(x,y))

# Graficamos
plot(x2, y2, main = 'y vs x', col = 'blue')

donde parece verse cierto nivel de asociación entre las variables involucradas.

Se procede después a calcular el coeficiente de correlación de Pearson (bajo el supuesto de normalidad bivariada):

cor.test(x2, y2 , method = "pearson", alternative = "two.sided")

## 
##  Pearson's product-moment correlation
## 
## data:  x2 and y2
## t = 1.41, df = 18, p-value = 0.18
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.14782  0.66505
## sample estimates:
##     cor 
## 0.31533

Siendo el coeficiente de correlación de Pearson igual a $0.3153$ por lo que tenemos relación lineal positiva en caso de que se rechace $H_{0}$, no obstante notamos que el $p-value=0.2$ por lo que no se rechaza $H_{0}$, es decir, no hay sufiente evidencia para rechazar que las variables sean independientes a partir del coeficiente de correlación de Pearson.

Coeficiente tau b de Kendall, $\tau_b$.

Solución: Para ello

cor.test(x2, y2 , method = "kendall", alternative = "two.sided")

## 
##  Kendall's rank correlation tau
## 
## data:  x2 and y2
## z = 2.34, p-value = 0.019
## alternative hypothesis: true tau is not equal to 0
## sample estimates:
##     tau 
## 0.38095

tenemos que el coeficiente de correlación de Kendall es igual a 0.381>0 con un $p-value$ igual a 0.02<0.05. De este modo rechazamos $H_{0}$ y por ende es plausible asumir una asociación monótona creciente entre las variables.

Coeficiente rho de Spearman, $r_s$.

SOlución: Finalmente calculamos el coeficiente de correlación de Spearman:

cor.test(x2, y2 , method = "spearman", alternative = "two.sided")

## 
##  Spearman's rank correlation rho
## 
## data:  x2 and y2
## S = 659, p-value = 0.023
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##     rho 
## 0.50451

obteniéndo un valor de 0.5 en este coeficiente. Además el $p-value=0.02<0.05$ por lo que se rechaza $H_{0}$, es decir, decimos que hay evidencia de una relación monótona entre los datos a partir del coeficiente de Spearman.

Concluimos pues con base en los coeficientes calculados y en la gráfica de dispersión que sí hay una asociacón monótona no lineal entre la variable $x$ y $y$. Además, a partir del coeficiente de correlación de Pearson podemos asumir que las variables son independientes.

Nota. El coeficiente de correlación de Pearson se interpreta bajo el supuesto de normalidad bivariada en términos de la asociación lineal entre las dos variables; en ocasiones su medición se ve afectada de forma considerable ante presencia de observaciones extremas. Por otro lado, los coeficientes Kendall’s tau y Spearman’s rho se interpretan en términos de asociaciones monótonas entre dos variables y son más robustos ante la presencia de observaciones extremas, además de que se pueden usar para variables continuas u ordinales.

4.

Los datos en el archivo Ejercicio4Ex3.csv corresponden a una encuesta aleatoria levantada a 1000 personas. En esta encuesta se les preguntó el nivel de escolaridad (NivEdu) y además se analizó el impacto de un conjunto de Fake News actuales (FakeNews), clasificando éste en cuatro niveles: Muy Poco, Poco, Regular y Mucho. ¿Se puede decir que a mayor nivel educativo hay menor impacto por las Fake News?

Solución: Comenzamos por cargar y ver los datos

# Cargamos los datos
Datos = read.csv("./Ejercicio4Ex3.csv", header=T, sep=",")

# Vemos los primeros datos
head(Datos)

str(Datos)

## 'data.frame':    1000 obs. of  2 variables:
##  $ NivEdu  : chr  "Secundaria" "Secundaria" "Profesional" "Bachillerato" ...
##  $ FakeNews: chr  "Muy Poco" "Muy Poco" "Muy Poco" "Poco" ...

vemos que las variables de interés no son del tipo factor, por ello realizamos la conversión correspondiente

Datos$NivEdu <- as.factor(Datos$NivEdu)
Datos$FakeNews <- as.factor(Datos$FakeNews)

Vemos que en los datos tenemos dos variables ordinales, de tal manera utilizaremos las pruebas de Kendall y Spearman. Notemos primero que

levels(Datos$NivEdu)

## [1] "Bachillerato" "Primaria"     "Profesional"  "Secundaria"

nos gustaría tener en levels primero a Primaria, después a Secundaria, etc. En consecuencia efectuamos

Datos$NivEdu <- factor(Datos$NivEdu, levels=c("Primaria","Secundaria",
"Bachillerato","Profesional"))
levels(Datos$NivEdu)

## [1] "Primaria"     "Secundaria"   "Bachillerato" "Profesional"

Hacemos lo mismo con la columna FakeNews:

levels(Datos$FakeNews)

## [1] "Mucho"    "Muy Poco" "Poco"     "Regular"

Datos$FakeNews <- factor(Datos$FakeNews, levels=c("Mucho","Regular","Poco","Muy Poco"))
levels(Datos$FakeNews)

## [1] "Mucho"    "Regular"  "Poco"     "Muy Poco"

rangos_Niv <- rank(Datos$NivEdu)

# Vemos los primeros 100
rangos_Niv[1:100]

##   [1] 374.0 374.0 868.0 615.5 615.5 868.0 615.5 126.5 126.5 374.0 868.0 615.5
##  [13] 615.5 615.5 374.0 868.0 615.5 126.5 868.0 374.0 126.5 374.0 126.5 126.5
##  [25] 126.5 126.5 868.0 615.5 126.5 868.0 615.5 374.0 868.0 868.0 868.0 868.0
##  [37] 615.5 374.0 374.0 374.0 126.5 374.0 126.5 868.0 868.0 126.5 374.0 374.0
##  [49] 868.0 374.0 615.5 374.0 374.0 868.0 374.0 868.0 126.5 615.5 615.5 615.5
##  [61] 615.5 374.0 374.0 126.5 126.5 615.5 615.5 615.5 868.0 868.0 374.0 126.5
##  [73] 868.0 126.5 126.5 868.0 374.0 126.5 615.5 374.0 615.5 615.5 374.0 868.0
##  [85] 374.0 615.5 868.0 615.5 374.0 868.0 868.0 615.5 615.5 126.5 868.0 374.0
##  [97] 868.0 868.0 374.0 126.5

Notamos que hay muchos empates, por ello los rangos se hacen con el promedio de los rangos originales asociados y se asignan a todos los casos de empate. Asimismo

rangos_Fake <- rank(Datos$FakeNews)

# Vemos los primeros 100
rangos_Fake[1:100]

##   [1] 876.0 876.0 876.0 623.5 876.0 357.0 623.5 109.5 109.5 623.5 109.5 109.5
##  [13] 876.0 357.0 623.5 623.5 623.5 623.5 623.5 109.5 357.0 623.5 109.5 109.5
##  [25] 876.0 109.5 109.5 109.5 109.5 357.0 876.0 357.0 876.0 876.0 357.0 876.0
##  [37] 623.5 357.0 357.0 109.5 876.0 357.0 357.0 876.0 623.5 623.5 876.0 623.5
##  [49] 109.5 357.0 357.0 623.5 357.0 876.0 109.5 623.5 623.5 623.5 357.0 357.0
##  [61] 109.5 623.5 109.5 109.5 357.0 876.0 876.0 357.0 623.5 357.0 357.0 357.0
##  [73] 876.0 623.5 357.0 876.0 357.0 357.0 623.5 876.0 109.5 357.0 357.0 876.0
##  [85] 357.0 876.0 876.0 357.0 623.5 876.0 109.5 876.0 357.0 109.5 876.0 357.0
##  [97] 623.5 357.0 357.0 357.0

también tenemos muchos empates por lo que procederemos de forma análoga al caso de NivEdu.

Ahora bien, procedemos a realizar las pruebas de hipótesis de interés:

# Coeficiente de Kendall

cor.test(rangos_Niv,rangos_Fake,method = "kendall",
alternative = "greater")

## 
##  Kendall's rank correlation tau
## 
## data:  rangos_Niv and rangos_Fake
## z = 9.45, p-value <2e-16
## alternative hypothesis: true tau is greater than 0
## sample estimates:
##     tau 
## 0.24919

donde $p-value=2e-16<0.05$ y $\tau_{b}>0$ por lo que podemos asumir que hay una relación monótona creciente entre las variables.

Luego

cor.test(rangos_Niv, rangos_Fake, method = "spearman",
alternative = "greater")

## 
##  Spearman's rank correlation rho
## 
## data:  rangos_Niv and rangos_Fake
## S = 1.17e+08, p-value <2e-16
## alternative hypothesis: true rho is greater than 0
## sample estimates:
##     rho 
## 0.29582

donde el coeficiente de Spearman es $0.29>0$ y $p-value=2e-16$. Entonces se rechaza $H_{0}$ y por ende decimos que hay evidencia de una relación monótona entre los datos a partir del coeficiente de Spearman.

Concluimos que en ambas prueba se rechazó $H_{0}$ siendo así plausible asumir que a mayor nivel educativo existe un menor impacto por las Fake News.

5.

La sustancia Sulphinpyrazone fue usada para la reducción de muerte cardíaca después de un infarto. Para saber si realmente funcionaba, investigadores recolectaron información de 1475 pacientes que sufrieron un paro cardíaco. A cada paciente, de forma aleatoria, se le recetó tomar tabletas con Sulphinpyrazone o bien un placebo por un período de dos años (733 lo recibieron y 742 no). Durante este tiempo se tomó registro de los pacientes que habían sobrevivido y de los que habían muerto. El número de pacientes (Frec) de acuerdo a si tomó o no el medicamento y su condición después del paro se presenta en la siguiente tabla.

Frec	Tratamiento	Vivo
692	Sulphinpyrazone	Sí
41	Sulphinpyrazone	No
682	Placebo	Sí
60	Placebo	No

Realice una prueba de hipótesis para indicar si la condición de muerte después de un paro cardíaco es diferente de acuerdo a si se recibió o no el tratamiento con Sulphinpyrazone. Considere $\alpha=.01$.

Solución: Para este problema nos interesa conocer si existe dependencia entre si recibió o no el tratamiento y el estado de la persona.

Procedemos a cargar los datos:

Frec <- c(692, 41, 682, 60)
Tratamiento <- c("Sulphinpyrazone", "Sulphinpyrazone", "Placebo", "Placebo")
Vivo <- c("Si", "No", "Si", "No")

# Declaramos nuestro dataframe
Datos <- as.data.frame(cbind(Frec, Tratamiento, Vivo))

# Cambiamos las clases:
Datos$Frec <- as.numeric(as.character(Datos$Frec))
Datos$Tratamiento <- factor(Datos$Tratamiento)
Datos$Vivo <- factor(Datos$Vivo)
Datos

Procedemos a ocupar la función loglm del paquete MASS para corroborar la siguiente prueba:

$H_{0}$ : Hay independencia entre el tratamiento y el estado de la persona vs
$H_{a}$ : No hay independencia.

Entonces:

prueba <- MASS::loglm(Frec ~ Tratamiento + Vivo, data=Datos)
prueba

## Call:
## MASS::loglm(formula = Frec ~ Tratamiento + Vivo, data = Datos)
## 
## Statistics:
##                     X^2 df P(> X^2)
## Likelihood Ratio 3.6135  1 0.057312
## Pearson          3.5923  1 0.058049

Podemos notar que para ambas pruebas el p-value es mayor que nuestra significancia de 0.01 por lo tanto no hay suficiente evidencia para rechazar la hipótesis nula, por lo tanto podemos asumir que hay independencia entre el tratamiento y el estado de la persona. Por lo tanto podemos concluir que si la persona murió o no después de un paro cardiáco NO cambia si la persona recibió o no el tratamiento.

6.

Se reportan 40 números aleatorios presentados en orden creciente.

0.0023, 0.0150, 0.0298, 0.0337, 0.0729, 0.0943, 0.0950, 0.1080, 0.1180, 0.1300, 0.1500, 0.1592, 0.1617, 0.2016, 0.2083, 0.2316, 0.2403, 0.2863, 0.3427, 0.3766, 0.4384, 0.4715, 0.4895, 0.5544, 0.5575, 0.5910, 0.5960, 0.6224, 0.6517, 0.6602, 0.7197, 0.7317, 0.7687, 0.8212, 0.9439, 1.1242, 1.2681, 1.2885, 1.3626, 2.6055

Suponga que se desea contrastar las hipótesis:

$H_0:$ los datos provienen de la distribución con función de densidad $f(x)=2e^{-2x}, \; x>0$

$H_a:$ los datos no provienen de esa distribución.

Usando la prueba de bondad de ajuste ji-cuadrada, con $\alpha=.05$, pruebe la hipótesis nula usando $k=4$, donde las clases están determinadas por: $(0,0.4], (0.4,0.8], (0.8,1.2], (1.2,\infty)$.

Solución: Antes de empezar carguemos los datos;

datos <- c(0.0023, 0.0150, 0.0298, 0.0337, 0.0729, 0.0943, 0.0950, 0.1080, 0.1180, 0.1300, 0.1500, 0.1592, 0.1617, 0.2016, 0.2083, 0.2316, 0.2403, 0.2863, 0.3427, 0.3766, 0.4384, 0.4715, 0.4895, 0.5544, 0.5575, 0.5910,0.5960, 0.6224, 0.6517, 0.6602, 0.7197, 0.7317, 0.7687, 0.8212, 0.9439, 1.1242, 1.2681, 1.2885, 1.3626, 2.6055)

Veamos que \[f(x) = 2e^{-2x} \thicksim Exp(2) \]

Así que realizamos la prueba de la siguiente manera:

prueba <- EnvStats::gofTest(datos, test = "chisq", distribution = "exp", param.list = list(rate = 2), cut.points = c(0, 0.4, 0.8, 1.2, Inf))
prueba$p.value

## [1] 0.64406

Esto con una significancia de 0.05, y viendo que el $p-value > 0.05 $ podemos decir que nohay evidencia suficiente para rechazar $H_{0}$, y de esta manera podemos concluir que los datos siguen una distribucion con funcion de densidad $f(x) = 2e^{-2x} Exp(2) $

7.

Use los datos del ejercicio 6 y usando la prueba adecuada tipo Kolmogorov–Smirnov haga la prueba de hipótesis siguiente.

$H_0:$ los datos provienen de una distribución $Exp(\lambda)$

$H_a:$ los datos no provienen de una distribución $Exp(\lambda)$

Solución: Cargamos los datos de nuevo;

datos <- c(0.0023, 0.0150, 0.0298, 0.0337, 0.0729, 0.0943, 0.0950, 0.1080,
0.1180, 0.1300, 0.1500, 0.1592, 0.1617, 0.2016, 0.2083, 0.2316, 0.2403, 0.2863, 0.3427, 0.3766, 0.4384, 0.4715, 0.4895, 0.5544, 0.5575, 0.5910,0.5960, 0.6224, 0.6517, 0.6602, 0.7197, 0.7317, 0.7687, 0.8212, 0.9439, 1.1242, 1.2681, 1.2885, 1.3626, 2.6055)

Como no tenemos un posible valos para $\lambda$ ocuparemos la prueba LcKS del paquete KScorrect:

Test = KScorrect::LcKS(datos, cdf = "pexp", nreps = 1000)
Test$p.value

## [1] 0.75125

Como p-value > 0.05, no podemos decir que se recgaza H₀. Por lo que se puede afirmar que los datos provienen de una distribucion $Exp(\lambda)$

Ahora teniendo en cuenta el resultado del ejercicio 6 vamos a hacer la prueba con $\lambda = 2$:

ks.test(datos, "pexp", 2)

## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  datos
## D = 0.095, p-value = 0.83
## alternative hypothesis: two-sided

De aqui tambie pbtenemos un p-value > 0.05, por lo tanto tambien podemos decir que los datos provienen de una distribucion Exp(2)

Examen 3, versión B. Pruebas no paramétricas.

22 de enero de 2021

1.

2.

3.

4.

5.

6.

7.