Práctica 2 (2016)

Pràctica Español
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Estadística Aplicada - 3º curso
Asignatura Simulació, Remostreig i Aplicacions
Año del apunte 2016
Páginas 6
Fecha de subida 27/04/2016
Descargas 4
Subido por

Vista previa del texto

Pra´ctica 2: Monte Carlo Anna Olmo, 1363013 February 28, 2016 1 1.1 Introducci´ on a la simulaci´ on de Monte Carlo Simular muestras de dos variables independientes Supongamos las variables A y B cuyas probabilidades de sus sucesos son P = (p1 , ..., pk ) y Q = (q1 , ..., qm ) respectivamente.
Al formar una tabla de contingencia, si A y B fueran independientes, la probabilidad de cada casilla deber´ıa ser el producto de las marginales implicadas (P (A1 , B1 ) = p1 q1 , etc).
Lo mismo ocurre en el caso de usar individuos en vez de probabilidades para rellenar la tabla.
Para saber si A y B son independientes, por tanto, hay que hacer el test: H0 : pij = pi qj para todo i = 1, ..., k y j = 1, ..., m.
Esto se puede hacer f´ acilmente con el test Chi-cuadrado, mediante la f´ormula eij = ni. n.j n y el estad´ıstico χ2 = (eij − nij )2 ∼ χ2(k−1)(m−1) eij .
1.2 Funciones para el test de independencia • rcont Esta funci´ on sirve para crear una tablaa de contingencia a partir del tama˜ no de la muestra (n) y de las probabilidades conjuntas de las variables (pT ).
> rcont <- function(n,pT){ + matrix(rmultinom(1,n,pT), ncol=ncol(pT)) + } • pval4x3 Esta funci´ on requiere el tama˜ no de la muestra y las probabilidades de ambas variables, y se divide en 3 partes: 1. Crear la tabla de valores observados (nij ).
Primero forma una matrix con las probabilidades conjuntas (tab), y luego le aplica la funci´on rcont para que contenga una muestra de individuos de tama˜ no n.
2. Crear la tabla de valores esperados (eij ).
A partir de la tabla nij , usando la f´ ormula anterior del test de Chi-cuadrado.
3. Calcular el p-valor del test de independencia.
Usa el estad´ıstico del test de Chi-cuadrado para compararlo con dicha distribuci´on.
Finalmente, dado que la funci´ on crea un total de 10000 muestras, podria ser que en alguna ocasi´ on eij fuese cero (en cuyo caso el c´ alculo del estad´ıstico produciria errores). Para evitarlo, se le a˜ nade un sort al vector que guarda los p − valores, y solucionado.
1 > pval4x3 <- function(n,P,Q){ + + tab <- matrix(c(P%*%t(Q)),ncol=3,nrow=4) + + p.val <- numeric() + + for(i in 1:10000){ + + nij <- rcont(n,tab) + + eij <- matrix(rep(0,12),ncol=3) + eij[1,1] <- sum(nij[1,])*sum(nij[,1])/n + eij[1,2] <- sum(nij[1,])*sum(nij[,2])/n + eij[1,3] <- sum(nij[1,])*sum(nij[,3])/n + eij[2,1] <- sum(nij[2,])*sum(nij[,1])/n + eij[2,2] <- sum(nij[2,])*sum(nij[,2])/n + eij[2,3] <- sum(nij[2,])*sum(nij[,3])/n + eij[3,1] <- sum(nij[3,])*sum(nij[,1])/n + eij[3,2] <- sum(nij[3,])*sum(nij[,2])/n + eij[3,3] <- sum(nij[3,])*sum(nij[,3])/n + eij[4,1] <- sum(nij[4,])*sum(nij[,1])/n + eij[4,2] <- sum(nij[4,])*sum(nij[,2])/n + eij[4,3] <- sum(nij[4,])*sum(nij[,3])/n + + X2 <- sum((eij-nij)^2/eij) + p.val[i] <- 1-pchisq(X2,df=(ncol(eij)-1)*(nrow(eij)-1)) + + } + + p.val<-sort(p.val) + p.val + + } • pval2x2 Como dentro de la funci´ on va implicito las largadas de A y B, esa funci´on solo sirve si sus tama˜ nos son 4 y 3 respectivamente. Para la segunda parte del ejercicio es necesario hacer tablas 2x2 as´ı que la idea es crear otra funci´ on igual que la anterior pero modificada en esos puntos.
> pval2x2 <- function(n,P,Q){ + + tab <- matrix(c(P%*%t(Q)),ncol=2,nrow=2) + + p.val <- numeric() + for(i in 1:10000){ + + nij <- rcont(n,tab) + + eij <- matrix(rep(0,4),ncol=2) + eij[1,1] <- sum(nij[1,])*sum(nij[,1])/n + eij[1,2] <- sum(nij[1,])*sum(nij[,2])/n + eij[2,1] <- sum(nij[2,])*sum(nij[,1])/n 2 + eij[2,2] <- sum(nij[2,])*sum(nij[,2])/n + + X2 <- sum((eij-nij)^2/eij) + p.val[i] <- 1-pchisq(X2,df=(ncol(eij)-1)*(nrow(eij)-1)) + + } + + p.val<-sort(p.val) + p.val + + } 2 Ejercicio 1 Usando las probabilidades P = (0.10, 0.30, 0.40, 0.20) para A y Q = (0.25, 0.60, 0.15) para B, determina la proporci´ on de aceptaci´ on/rechazo del test de independencia. Usa muestras n = 10, 30, 100.
2.1 n=10 Dado que P tiene tama˜ no 4 y Q tiene tama˜ no 3, la funci´on necesaria es pval4x3.
Para saber el porcentaje de muestras que aceptan la hip´otesis de independencia, lo u ´nico que hay que hacer es sumar todos los p − valores mayores a α = 0.05 y dividirlos por 10000 (total de muestras simuladas).
> > > > > P <- c(0.10,0.30,0.40,0.20) Q <- c(0.25,0.60,0.15) n <- 10 p.valor<-pval4x3(n,P,Q) sum(p.valor>0.05)/10000 # % de muestras que aceptan H0 [1] 0.3989 S´ olo un 39% de muestras aceptan la hip´otesis, eso es debido a que el tama˜ no muestral es muy peque˜ no.
2.2 n=30 Del mismo modo que el anterior, la funci´ on necesaria es pval4x3.
Para saber el porcentaje de muestras que aceptan la hip´otesis de independencia, lo u ´nico que hay que hacer es sumar todos los p − valores mayores a α = 0.05 y dividirlos por 10000 (total de muestras simuladas).
> > > > > P <- c(0.10,0.30,0.40,0.20) Q <- c(0.25,0.60,0.15) n <- 30 p.valor<-pval4x3(n,P,Q) sum(p.valor>0.05)/10000 # % de muestras que aceptan H0 [1] 0.9063 Aproximadamente el 90% de muestras aceptan la hip´otesis, eso es debido a que ahora hay un tama˜ no muestral m´ as apropiado.
3 2.3 n=100 Del mismo modo que el anterior, la funci´ on necesaria es pval4x3.
Para saber el porcentaje de muestras que aceptan la hip´otesis de independencia, lo u ´nico que hay que hacer es sumar todos los p − valores mayores a α = 0.05 y dividirlos por 10000 (total de muestras simuladas).
> > > > > P <- c(0.10,0.30,0.40,0.20) Q <- c(0.25,0.60,0.15) n <- 100 p.valor<-pval4x3(n,P,Q) sum(p.valor>0.05)/10000 # % de muestras que aceptan H0 [1] 0.9541 El 95% de muestras aceptan la hip´ otesis, eso es debido a que ahora el tama˜ no de la muestra es elevado, y cuanto mayor es n m´ as f´ acil es que la muestra de observados coincida con la de esperados.
3 Ejercicio 2 Usando las probabilidades P = (0.10, 0.90) para A y Q = (0.25, 0.75) para B, determina la proporci´ on de aceptaci´ on/rechazo del test de independencia. Usa muestras n = 10, 30, 100.
3.1 n=10 Dado que P tiene tama˜ no 2 y Q tiene tama˜ no 2, la funci´on necesaria es pval2x2.
Para saber el porcentaje de muestras que aceptan la hip´otesis de independencia, lo u ´nico que hay que hacer es sumar todos los p − valores mayores a α = 0.05 y dividirlos por 10000 (total de muestras simuladas).
> > > > > P <- c(0.10,0.90) Q <- c(0.25,0.75) n <- 10 p.valor<-pval2x2(n,P,Q) sum(p.valor>0.05)/10000 # % de muestras que aceptan H0 [1] 0.5745 Un 57% de muestras aceptan la hip´ otesis, eso es debido a que el tama˜ no muestral es muy peque˜ no.
El motivo de que sea mayor que en el ejercicio 1 es que la muestra es peque˜ na, pero la tabla de contingencia tambi´en, as´ı que es m´ as f´ acil rellenar las casillas correctamente al hacer una simulaci´on.
3.2 n=30 Del mismo modo que el anterior, la funci´ on necesaria es pval2x2.
Para saber el porcentaje de muestras que aceptan la hip´otesis de independencia, lo u ´nico que hay que hacer es sumar todos los p − valores mayores a α = 0.05 y dividirlos por 10000 (total de muestras simuladas).
4 > > > > > P <- c(0.10,0.90) Q <- c(0.25,0.75) n <- 30 p.valor<-pval2x2(n,P,Q) sum(p.valor>0.05)/10000 # % de muestras que aceptan H0 [1] 0.9184 Aproximadamente el 91% de muestras aceptan la hip´otesis, eso es debido a que ahora hay un tama˜ no muestral m´ as apropiado.
3.3 n=100 Del mismo modo que el anterior, la funci´ on necesaria es pval2x2.
Para saber el porcentaje de muestras que aceptan la hip´otesis de independencia, lo u ´nico que hay que hacer es sumar todos los p − valores mayores a α = 0.05 y dividirlos por 10000 (total de muestras simuladas).
> > > > > P <- c(0.10,0.90) Q <- c(0.25,0.75) n <- 100 p.valor<-pval2x2(n,P,Q) sum(p.valor>0.05)/10000 # % de muestras que aceptan H0 [1] 0.9595 El 95% de muestras aceptan la hip´ otesis, eso es debido a que ahora el tama˜ no de la muestra es elevado, y cuanto mayor es n m´ as f´ acil es que la muestra de observados coincida con la de esperados.
5 ...

Tags: