Estadística (Apunts) (2016)

Apunte Español
Universidad Universidad Pompeu Fabra (UPF)
Grado Ciencias políticas y de la Administración - 2º curso
Asignatura Estadística
Año del apunte 2016
Páginas 113
Fecha de subida 01/04/2016
Descargas 23
Subido por

Vista previa del texto

ESTADÍSTICA Ciències Polítiques i de l'Administració – 2n Curs, trimestre 2 Universitat Pompeu Fabra Eva Rodríguez López Març/Abril, 2016 Professor: Joan Serra UPF, Estadística CC. Políticas 1 1. An´ alisis de relaciones 1.1 Introducci´ on La Estad´ıstica es la ciencia que trata sobre la obtenci´on de informaci´ on a partir de los datos num´ericos.
- Descriptiva: conjunto de m´etodos que se utiliza para describir y resumir datos - Obtenci´on de datos - Estad´ıstica Inferencial: conjunto de m´etodos que se utiliza para generalizar, hacer estimaci´ on y predicci´on.
Afirmaciones descriptivas: comprobables con la informaci´ on que tenemos.
Afirmaciones inferenciales: no verificables con la informaci´ on disponible.
UPF, Estadística CC. Políticas 2 Ejemplo 1. [estad´ıstica descriptiva / inferencia estad´ıstica] Puntos en el entrenamiento de la semana pasada del Jugador J, Do Lu Ma Mi Jue Vie Sab 18 15 10 8 0 13 6 ¿Descriptiva / Inferencia? 1. En la semana pasada, J marco un promedio de 10 puntos por juego 2. J marca un n´ umero promedio de 10 puntos por juego 3. El domingo marco menos puntos que durante los d´ıas (juntos) de jueves, viernes y s´abado.
4. J nunca va a marcar m´as de 18 puntos en un juego 5. J marc´ o 0 puntos el jueves porque estuvo enfermo UPF, Estadística CC. Políticas 3 Notaciones Poblaci´ on - cjto. homog´eneo elementos estudia caracter´ıstica dada Muestra - cjto. representativo elementos poblaci´on Individuos - personas, animales, objetos, fen´omenos descritos en un conjunto de datos Estimador (puntual) / Estad´ıstico de un par´ametro poblacional cantidad que depende de la informaci´ on de la muestra y para la que sus observaciones dan aproximaciones de este par´ametro poblacional Par´ametro ↔ Poblaci´ on ; Estad´ıstico ↔ Muestra Ejemplo 2. par´ametro: promedio puntos / juego toda la temporada.
estimador: promedio puntos entre Lu/Jue/Sab.
UPF, Estadística CC. Políticas Variables - caracter´ıstica observable en un individuo cualitativas - miden cualidades, categor´ıas a las que pertenece un individuo - nominales (no orden) [sexo] - ordinales (si orden) [ ] cuantitativas - toman valores num´ericos para los que tiene sentido hacer operaciones aritm´eticas - discretos (contar) [no. hermanos, no. viajes - mes zona 1 ATM] - continuos (medir) [altura individuo, peso paquete cereales] 4 UPF, Estadística CC. Políticas 5 Ejemplo 3. Clasificar los siguientes datos en una de las 2 categor´ıas: discretos o continuos: 1. n´ umero de maletas perdidas por una l´ınea a´erea 2. altura (en cm) de las plantas de ma´ız 3. n´ umero de votantes de un pa´ıs 4. n´ umero de M&M de color verde en un paquete 5. tiempo (en horas) de funcionamiento de una bater´ıa de coche 6. producci´ on (en peso - kg) de tomates UPF, Estadística CC. Políticas Algunas indicaciones, ¿Qu´e prop´ osito se persigue con los datos? ¿Qu´e individuos describen los datos? ¿Cu´antos individuos aparecen en los datos? ¿Cu´antas variables hay? ¿Cu´ales son las definiciones exactas de las variables? ¿En qu´e unidades se ha registrado cada variable? 6 UPF, Estadística CC. Políticas 7 1.2. Distribuciones Tablas de Frecuencias ’gen´erica’ - No agrupaci´ on en intervalos xi ni fi (%) Ni Fi (%) x1 n1 f1 N1 F1 x2 ..
.
n2 ..
.
f2 ..
.
N2 ..
.
F2 ..
.
xk nk fk Nk Fk n 100 Frecuencia absoluta ni := no veces se observa xi en la muestra.
Frecuencia relativa fi := ni n Frecuencia absoluta acumulada Nj := Frecuencia relativa acumulada Fj := j i=1 j i=1 ni fi UPF, Estadística CC. Políticas 8 Tablas de Frecuencias - Agrupaci´ on en intervalos Intervalos Marca de clase ni fi (%) Ni Fi (%) [l0 , l1 ) x1 n1 f1 N1 F1 [l1 , l2 ) ..
.
x2 ..
.
n2 ..
.
f2 ..
.
N2 ..
.
F2 ..
.
[lk−1 , lk ) xk nk fk Nk Fk n 100 UPF, Estadística CC. Políticas 9 Representaci´on gr´afica cualitativas - nominales: diagrama pastel - ordinales: diagrama barras (diagrama pastel) D. pastel: importancia de una categor´ıa dentro del total; D. barras: comparaci´ on entre distribuciones; cuantitativas - discretos: diagrama barras; gr´afico de tallo y hojas - continuos: histograma; diagrama de caja.
UPF, Estadística CC. Políticas 10 Cualitativas nominales Ejemplo 4. 25 estudiantes declaran sus preferencias en cerveza: (1): lata dom´estica; (2): botella dom´estica; (3): barril ; (4): importaci´ on xi ni fi (%) Lata dom´estica 10 40 Botella dom´estica 4 16 Barril 8 32 Importaci´on 3 12 25 100 UPF, Estadística CC. Políticas 11 Ej. 4 Preferencia Cerveza Lata Botella Importación Barril UPF, Estadística CC. Políticas 12 Cualitativas ordinales / Cuantitativas discretas Ejemplo 5. Un corrector de textos contabiliza el n´ umero de errores que encuentra en cada p´agina. Despu´es de pasar el corrector por un texto de 50 p´aginas se obtiene el siguiente n´ umero de errores, 2 3 5 0 1 4 0 6 2 1 1 0 2 4 5 3 1 2 3 2 2 5 4 1 3 2 6 8 2 0 1 0 2 3 1 5 10 2 1 3 3 1 2 4 4 6 2 0 1 3 UPF, Estadística CC. Políticas 13 La tabla de frecuencias de correspondiente a estas observaciones es, xi ni fi (%) Ni Fi (%) x1 = 0 6 12 6 12 x2 = 1 10 20 16 32 x3 = 2 12 24 28 56 x4 = 3 8 16 36 72 x5 = 4 5 10 41 82 x6 = 5 4 8 45 90 x7 = 6 3 6 48 96 x8 = 8 1 2 49 98 x9 = 10 1 2 50 100 50 100 UPF, Estadística CC. Políticas 14 0.20 0.15 0.10 Porcentaje 8 6 0.05 4 0 0.00 2 Frecuencia observada 10 12 0.25 Ej. 5 0 1 2 3 4 5 6 Errores tipográficos 8 10 0 1 2 3 4 5 6 8 10 Errores tipográficos ¡La forma es la misma! Las proporciones / frecuencias relativas permiten comparar diferentes distribuciones UPF, Estadística CC. Políticas 15 Cuantitativas continuas - pocos datos Ejemplo 6. A continuaci´ on se listan el n´ umero de goles por temporada que marc´o Paulino Alc´antara mientras fue jugador del FC.Barcelona, desde la temporada 1911/12 hasta la temporada 1926/27, 6 , 15 , 21 , 25 , 33 , 0 , 5 , 42 , 47 , 19 , 42 , 34 , 39 , 6 , 15 , 8 El diagrama de tallo y hoja de estos datos es, The 0 | 1 | 2 | 3 | 4 | decimal point is 1 digit(s) to the right of the | 05668 559 15 349 227 UPF, Estadística CC. Políticas 16 Ejemplo 7. Se ha contabilizado el tiempo de espera (d´ıas) entre las erupciones consecutivas de un volc´an. Agrupando los resultados en intervalos de clase se ha obtenido la tabla siguiente, Intervalos Observaciones (42, 52] 37 (52, 62] 50 (62, 72] 26 (72, 82] 100 (82, 92] 55 (92, 102] 4 272 UPF, Estadística CC. Políticas 17 La tabla de frecuencias de la variable ser´a, Intervalos Marca de clase ni fi (%) Ni Fi (42, 52] 47 37 14 37 14 (52, 62] 57 50 18 87 32 (62, 72] 67 26 10 113 42 (72, 82] 77 100 37 213 78 (82, 92] 87 55 20 268 99 (92, 102] 97 4 1 272 100 272 100 UPF, Estadística CC. Políticas 18 Ej. 7 30 20 10 0 Frecuencia 40 50 Tiempo de espera 40 50 60 70 80 90 100 UPF, Estadística CC. Políticas 19 Tiempo de espera 0.03 0.00 0.00 0.01 0.02 Proporción 0.02 0.01 Proporción 0.03 0.04 0.04 Tiempo de espera 40 50 60 70 80 90 100 40 50 60 70 80 90 100 UPF, Estadística CC. Políticas An´alisis de un gr´afico cuantitativo, Centro es un valor que divide las observaciones de tal manera que aproximadamente la mitad de ellas toma valores menores que este punto y la mitad valores superiores Forma sim´etrica / asim´etrica ( a la derecha o a la izquierda) Derecha: si el lado derecho del gr´afico, el que contiene las observaciones mayores se extiende m´as lejos que el lado izquierdo.
Izquierda: si el lado izquierdo del gr´afico, el que contiene las observaciones menores se extiende m´as lejos que el lado derecho.
Dispersi´ on la diferencia entre los valores m´aximo y m´ınimo ignorando las observaciones at´ıpicas Observaciones at´ıpicas de un gr´afico es una observaci´ on individual que no queda descrita por el aspecto general del gr´afico 20 UPF, Estadística CC. Políticas 21 1.3. Descripci´ on de las variables con n´ umeros Medidas de tendencia central Estas medidas pretenden informar sobre el ‘centro’ de la distribuci´ on.
Las m´as utilizadas son la media y la mediana.
La media muestral x se define como, x= 1 (x1 · n1 + x2 · n2 + . . . + xk · nk ) n Ej5. En el caso de los errores por p´agina, x= 1 (0 · 6 + 1 · 10 + . . . + 6 · 3 + 8 · 1 + 10 · 1) = 2, 68 50 Ej7. En el ejemplo del tiempo de espera, x= 1 (47 · 37 + 57 · 50 + 67 · 26 + 77 · 100 + 87 · 55 + 97 · 4) = 70, 6029 272 UPF, Estadística CC. Políticas La mediana M es el punto medio de una distribuci´ on, es decir un n´ umero tal que la mitad de las observaciones son mayores y la otra mitad son menores.
Los datos no est´an agrupados 1. Ordena todas las observaciones de la m´ınima a la m´axima 2. Si el n´ umero de observaciones n es impar, entonces la mediana M es la observaci´on central de la lista ordenada. La determinamos contando (n+1) observaciones desde el comienzo de la lista 2 3. Si el n´ umero de observaciones n es par, la mediana M es la media de las dos observaciones centrales de la lista 22 UPF, Estadística CC. Políticas 23 Los datos est´an agrupados 1. Si n2 , coincide con alguna frecuencia acumulada Ni , entonces la mediana M es el extremo superior del intervalo correspondiente a Ni 2. Si n2 , no coincide con alguna frecuencia acumulada Ni , entonces la mediana M se encontrar´a en un intervalo [li , li+1 ) de tal manera que la frecuencia acumulada hasta ese intervalo (Ni+1 ) es Ni+1 > n2 pero la frecuencia acumulada en el intervalo justamente anterior (Ni ) es Ni < n2 . Posicionaremos la mediana en el intervalo de inter´es seg´ un M = li + (li+1 − li ) · 50 − Fi Fi+1 − Fi UPF, Estadística CC. Políticas Ej5. Para los errores por p´agina tenemos n = 50. Entonces la mediana es el punto medio entre las observaciones centrales (caso = 25 y caso = 26). De la tabla de frecuencias vemos que ambas son 2 con lo que M = 2.
Ej6. Goles de P. Alc´antara, tenemos 16 observaciones: la mediana ser´a el punto medio entre el caso =8, que es 19 goles, y el caso = 9, que es 21 goles, M = 19+21 = 20 goles.
2 24 UPF, Estadística CC. Políticas 25 Comparaci´ on entre la media y la mediana La media es sensible a la existencia de observaciones extremas mientras que la mediana no lo es.
Ejemplo 8. Resultados en prueba SSHA (Survey of Study Habits and Attitudes) 154 109 137 115 152 140 154 178 101 103 126 126 137 165 165 129 200 148 200 es observaci´on at´ıpica. x ¯ y M con y sin caso = 200? Con la puntuaci´ on = 200: x = 141, 06, M = 138, 5 Sin la puntuaci´ on = 200: x = 137, 59, M = 137 La observaci´on at´ıpica ↑ ambas medidas de centralidad pero M en menor magnitud: la mediana es m´as robusta.
UPF, Estadística CC. Políticas Medidas de dispersi´ on Proporcionan informaci´ on sobre la concentraci´on de los datos respecto a alguna de las caracter´ısticas de tendencia central.
La varianza muestral s2 mide la dispersi´on de los datos respecto de la media muestral.
s2 = 1 x1 − x)2 · n1 + (x2 − x)2 · n2 + . . . + (xk − x)2 · nk n−1 La desviaci´ on t´ıpica es la ra´ız cuadrada de la varianza muestral.
26 UPF, Estadística CC. Políticas 27 Los cuartiles tienen como objetivo dividir las observaciones en 4 partes iguales, 1er cuartil Q1 separa el primer 25% de las observaciones 2o cuartil Q2 (= M ) separa el primer 50% de las observaciones 3er cuartil Q3 separa el primer 75% de las observaciones Para calcular los cuartiles, 1. Ordenar las observaciones en orden creciente y detreminar la mediana.
2. El primer cuartil es la mediana de las observaciones que quedan a la izquierda de la mediana global.
3. El tercer cuartil es la mediana de las observaciones que quedan a la derecha de la mediana global.
UPF, Estadística CC. Políticas Ej6. Goles de Alc´antara en orden creciente son, 0 5 6 6 8 15 15 19 21 25 33 34 39 42 42 47 M = 20; Q1 = 7 (= (6 + 8)/2) ; Q3 = 36, 5 (= (34 + 39)/2) El rango es la diferencia entre la observaci´ on m´axima y la m´ınima No es la medida m´ as utilizada para cuantificar la dispersi´ on porque s´ olo tiene en cuenta dos valores; aunque las observaciones m´ axima y m´ınima dicen poco sobre la distribuci´ on en conjunto, proporcionan informaci´ on sobre sus colas El rango intercuart´ılico se define como la diferencia Q3 − Q1 El rango intercuart´ılico proporciona informaci´ on sobre la dispersi´ on del 50% central de las observaciones 28 UPF, Estadística CC. Políticas 29 Los cinco n´ umeros resumen son min Ej6. Goles de Alc´antara: 0 Q1 M Q3 max 7 20 36, 5 47 0 10 20 30 40 Un diagrama de caja muestra gr´aficamente los cinco n´ umeros resumen.
Goles Temporada 1910−1911 UPF, Estadística CC. Políticas Diagrama de caja, -Simetria: en una distribuci´ on sim´etrica, Q1 y Q3 est´an aproximadamente a la misma distancia de M -Outliers: v alores at´ıpicos (≥ 1, 5 · RIQ desde Q1 o desde Q3 v alores extremos (≥ 3 · RIQ desde Q1 o desde Q3 Elecci´on de un resumen num´erico Para distribuciones asim´etricas o con observaciones at´ıpicas muy claras, utilizaremos los 5 n´ umeros resumen.
Para distribuciones razonablemente sim´etricas utilizaremos x y s.
30 UPF, Estadística CC. Políticas 1 1. An´ alisis de relaciones 1.4. Relaciones entre variables Estudiar la influencia de una variable (estad´ıstica) sobre otra.
Ejemplo 1. Un grupo asegurador informa que con coches grandes se producen menos muertes / 10.000 veh´ıculos que con coches peque˜ nos.
Ejemplo 2. Una compa˜ n´ıa pone a la venta un nuevo equipo de sonido en 8 regiones del pa´ıs asignando precios diferentes seg´ un la regi´ on. El precio (en euros) y n´ umero de unidades vendidas: Precio 330 360 390 360 300 390 270 300 Ventas 420 380 350 400 440 380 450 420 ¡¡¡Como la variaci´ on est´a siempre presente, las relaciones estad´ısticas son tendencias generales, no reglas blindadas!!! UPF, Estadística CC. Políticas Una variable respuesta mide el resultado de un estudio. Una variable explicativa influye o explica cambios en la variable respuesta .
Variable explicativa - Variable respuesta: cuantitativa - cuantitativa: Correlaci´ on Lineal / Regresi´on cualitativa - cuantitativa: ANOVA cualitativa - cualitativa: Test χ2 2 UPF, Estadística CC. Políticas 1.5. Diagrama de dispersi´ on Un diagrama de dispersi´ on muestra la relaci´ on entre dos variables cuantitativas medidas en los mismos individuos.
Los valores de una variable aparecen en el eje de las abscisas y los de la otra en el eje de las ordenadas.
SPSS: Gr´ aficos > Dispersi´ on/Puntos > Dispersi´ on Simple > Definir > X = Variable explicativa Y = Variable respuesta > Establecer marcas por = categor´ ıa 3 UPF, Estadística CC. Políticas 1. Forma: los puntos del diagrama de dispersi´ on se situan, aproximadamente alrededor de una recta; par´abola; exponencial...
2. Direcci´ on (a) Positiva: cuando valores superiores a la media de una de ellas tienden a ir acompa˜ nados de valores tambi´en situados por encima de la media de la otra variable, y cuando valores inferiores a la media tambi´en tienden a ocurrir conjuntamente.
(b) Negativa: cuando valores superiores a la media de una de ellas tienden a ir acompa˜ nados de valores inferiores a la media de la otra variable, y viceversa.
3. Fuerza de la relaci´ on: medida como la proximidad de los puntos del diagrama a una recta (o curva) detectada en la forma 4. Localizar observaciones at´ıpicas, esto es valores individuales que quedan fuera del aspecto general de la relaci´ on 4 UPF, Estadística CC. Políticas 5 1.6. El coeficiente de correlaci´ on Relaci´ on lineal fuerte: si los puntos del diagrama de dispersi´ on se sit´ uan cerca de la recta (d´ebil: si los puntos se hallan muy esparcidos respecto de la recta) A simple vista, es dif´ıcil determinar la fuerza de una relaci´ on lineal...
La correlaci´ on r entre dos grupos de datos {x1 , . . . , xn } e {y1 , . . . , yn }, medidos sobre los mismos individuos se define como, 1 r= n−1 n i=1 xi − x ¯ sx yi − y¯ sy = n i=1 ( n i=1 xi yi − n¯ xy¯ x2i − n¯ x2 )( n i=1 SPSS: Analizar + Correlaciones + Bivariadas + Pearson yi2 − n¯ y2 ) UPF, Estadística CC. Políticas Observaciones 1. La correlaci´ on no hace ninguna distinci´ on entre variables explicativas y variables respuesta. Da lo mismo llamar x o y a una variable o a otra.
2. La correlaci´ on exige que las dos variables sean cuantitativas para que tenga sentido hacer los c´alculos de la f´ ormula de r.
No podemos calcular la correlaci´ on entre los ingresos de un grupo de personas y la ciudad en la que viven, ya que la ciudad es una variable categ´ orica.
3. Como r utiliza los valores estandarizados de las observaciones, no var´ıa cuando cambiamos las unidades de medida de x, de y o de ambas.
Si en vez de medir la altura en cent´ımetros lo hubi´ eramos hecho en pulgadas, o si en lugar de medir el peso en kilogramos lo hubi´ eramos hecho en libras, el valor de r ser´ıa el mismo. La correlaci´ on no tiene unidad de medida.
6 UPF, Estadística CC. Políticas 4. r > 0 indica asociaci´ on positiva; r < 0 indica una asociaci´ on negativa.
5. La correlaci´ on r siempre toma valores entre -1 y 1.
Valores de r cercanos a 0 indican una relaci´ on lineal muy d´ ebil. La fuerza de la relaci´ on lineal aumenta a medida que r se aleja de 0 y se acerca a 1 o a -1. Los valores de r cercanos a -1 o a 1 indican que los puntos se hallan cercanos a una recta.
Los valores extremos r = -1 o r = 1 s´ olo se dan cuando existe una relaci´ on lineal perfecta y los puntos del diagrama de dispersi´ on est´ an exactamente sobre una recta.
6. La correlaci´ on s´ olo mide la fuerza de una relaci´ on lineal entre dos variables. r no describe las relaciones curvil´ıneas entre variables aunque sean muy fuertes.
7. Al igual que con la media y la desviaci´ on t´ıpica, la correlaci´ on se ve fuertemente afectada por unas pocas observaciones at´ıpicas.
Observaciones at´ıpicas en el diagrama de dispersi´ on? ¡utilizar r con precauci´ on! 7 UPF, Estadística CC. Políticas 8 Ej.2 -equipos de sonido- Determina la correlaci´ on lineal n=8 n i=1 xi yi = 1083600 n i=1 n i=1 xi = 2700 x2i = 925200 n i=1 n i=1 yi = 3240 yi2 = 1320200 Aix´ı, r= 3240 1083600 − 8 2700 8 8 925200 − 8 2700 2 8 1320200 − 8 = −0.9371 3240 2 8 SPSS: Para obtener valores tipificados, Analizar > Estad´ ısticos Descriptivos > Descriptivos > Guardar valores tipificados = OK UPF, Estadística CC. Políticas 1.7. La Regresi´ on M´ınimo Cuadr´ atica Correlaci´ on: fuerza y la direcci´ on de la relaci´ on lineal Un diagrama de dispersi´ on muestra una relaci´on lineal: resumirla dibujando una recta a trav´es de la nube de puntos? La recta de regresi´ on es una recta que describe c´ omo cambia una variable respuesta y a medida que cambia una variable explicativa x.
Es la recta que hace que la suma de los cuadrados de las distancias verticales de los puntos observados a la recta sea lo m´as peque˜ na posible.
9 UPF, Estadística CC. Políticas 10 La recta de regresi´ on MC de y con relaci´ on a x se obtiene seg´ un, yˆ = a + bx b=r sy sx a = y − bx yˆ es la predicci´ on para y seg´ un la regresi´ on MC.
Ej.2 (equipos de sonido) sx = 44.6414 y sy = 33.8062, b = −0.9371 · a= 2700 8 33.8062 44.6414 = −0.7097 − (−0.7097) 3240 8 = 644.5161 UPF, Estadística CC. Políticas SPSS: Analizar > Regresi´ on > Lineal > Dependiente = Y Independiente = X >Gr´ aficos = Residuos tip. + Valores pronosticados tip.
(para contrastar linealidad e igualdad de varianzas) > Guardar = Residuos no tipificados 11 UPF, Estadística CC. Políticas La pendiente b de una recta de regresi´ on es la tasa de cambio, la cantidad en que var´ıa yˆ cuando x aumenta en una unidad.
Ej.2 (equipos de sonido) b = −0.7097.
Si precio ↑ 1 euro, se espera ventas var´ıen en −0.7097 unidades.
Si precio ↑ 100 euros, se espera ventas ↓ en 709.7 ≈ 710 unidades.
La ordenada en el origen a de la recta de regresi´ on es el valor de yˆ cuando en el origen x = 0.
Aunque necesitamos el valor de la ordenada en el origen para dibujar la recta de regresi´ on, s´ olo tiene significado estad´ıstico cuando x toma valores cercanos a 0.
12 UPF, Estadística CC. Políticas 13 Utilizamos las rectas de regresi´ on para efectuar predicciones, La predicci´ on de la variable respuesta para el valor x = x∗ de la variable explicativa se define como, yˆ∗ = a + b · x∗ Ej.2 (equipos de sonido) El n´ umero de unidades esperadas si precio=240, 644.5161 + (−0.7097) · 240 = 474.1820 ≈ 475 unidades.
Si precio= 300 euros el n´ umero de unidades esperadas, 644.5161 + (−0.7097) · 300 = 431.6061 ≈ 432 unidades.
que podemos comparar con las 440 que fueron vendidas.
Predicci´ on con SPSS? escribir los valores de la explicativa en la columna correspondiente y dejar los de la explicada en blanco. En Guardar > Valores pronosticados.
UPF, Estadística CC. Políticas 14 Un residuo es la diferencia entre el valor observado de la variable respuesta y el valor predicho por la recta de regresi´ on. Es decir, residuoi = yi − yˆi Ej.2 (equipos de sonido) Para precio=300, el residuo es 440 − 432 = 8 Un diagrama de residuos es un diagrama de dispersi´ on de los residuos de la regresi´ on con relaci´ on a la variable explicativa.
Ayudan a valorar el ajuste de la recta de regresi´ on.
UPF, Estadística CC. Políticas A la hora de examinar un diagrama de residuos X = X e Y = Residuos no tipificados se debe tener en cuenta, 1. Una forma curva de la distribuci´ on de los residuos indica que la relaci´ on no es lineal.
2. Un crecimiento o decrecimiento de la dispersi´ on de los residuos a medida que aumentan las x: la predicci´ on de y ser´a menos precisa para valores de x mayores si se observa un crecimiento en los residuos (y viceversa) 3. Los puntos individuales con residuos grandes son observaciones at´ıpicas, ya que no encajan en el aspecto lineal de la nube de puntos.
4. Los puntos individuales que son extremos en el eje de las abscisas, pero pueden observaciones influyentes en el sentido que considerarlos o no hacerlo cambia la posici´ on de la recta de regresi´ on.
15 UPF, Estadística CC. Políticas 16 1.8. Precauciones con la correlaci´ o y la regresi´ on 1.- La distinci´ on entre variable explicativa y variable respuesta es b´asica en regresi´ on.
La regresi´ on m´ınimo-cuadr´ atica considera s´ olo las distancias verticales de los puntos a la recta. Si cambiamos los papeles de las dos variables, obtenemos una recta de regresi´ on-m´ınimo cuadr´ atica distinta.
2.- Existe una estrecha conexi´ on entre la correlaci´ on y la regresi´ on. La pendiente de la recta de regresi´ on m´ınimo-cuadr´atica es b=r sy sx a un cambio de una desviaci´ on t´ıpica de x le corresponde un cambio de r desviaciones t´ıpicas de y UPF, Estadística CC. Políticas 17 3.- La recta de regresi´ on m´ınimo-cuadr´atica siempre pasa por (x, y) 4.- La correlaci´ on r describe la fuerza de la relaci´ on lineal.
En este contexto se expresa de la siguiente manera: el cuadrado de la correlaci´ on, r2 , que definimos como coeficiente de variaci´ on (R2 ) , es la fracci´ on de la variaci´ on de las y que explica la recta de regresi´ on m´ınimo-cuadr´ atica (de y con relaci´ on a x).
r2 = variaci´ on explicada variaci´ on total de y Relación Lineal Positiva 80 Male life expectancy 1992 70 60 50 40 40 50 60 70 80 90 F e m a le life e x p e c ta nc y 1 9 9 2 2.2. Diagrama dispersión Relación Lineal Negativa Y -1,5 -2,0 -2,5 0,8 0,9 1,0 1,1 1,2 X 2.2. Diagrama dispersión Ausencia de relación 10 Y 0 -10 -1 0 1 2 X 2.2. Diagrama dispersión Relación no-lineal (forma curvilínea) Y 200 100 0 -10 0 10 X 2.2. Diagrama dispersión Relación no-Lineal (forma curvilínea) 100,00 temp 80,00 60,00 40,00 20,00 0,00 10,00 20,00 30,00 40,00 ozono 2.2. Diagrama dispersión Relación lineal negativa (Precio versus Ventas) Ventas 450 400 350 300 350 400 Precio 2.2. Diagrama dispersión Recta de regresión mínimo cuadrática 80 Male life expectancy 1992 70 60 50 40 40 50 60 70 80 90 F e m a le life e x p e c ta nc y 1 9 9 2 2.4. Regresión M-Q Diagrama de residuos Residuals Versus the Order of the Data (response is Ventas) Residual 10 0 -10 -20 1 2 3 4 5 6 7 Observation Order 2.5. Residuos 8 Tabla de contingencia 25-34 35-44 45-54 55-64 >=65 total no completaron los estudios de secundaria 5.965 4.755 4.829 5.999 12.702 34.250 completaron los estudios de secundaria 17.505 14.498 10.300 8.645 10.310 61.258 de 1 a 3 cursos en la universidad 9.267 8.777 4.598 3.094 3.428 29.164 4 o más cursos en la universidad 10.168 10.633 5.959 3.607 3.652 34.019 total 42.905 38.663 25.686 21.345 30.092 158.691 2.6. Relaciones entre variables categóricas Distribuciones marginales (frecuencias observadas) 25-34 35-44 45-54 55-64 >=65 total no completaron los estudios de secundaria 5.965 4.755 4.829 5.999 12.702 34.250 completaron los estudios de secundaria 17.505 14.498 10.300 8.645 10.310 61.258 de 1 a 3 cursos en la universidad 9.267 8.777 4.598 3.094 3.428 29.164 4 o más cursos en la universidad 10.168 10.633 5.959 3.607 3.652 34.019 total 42.905 38.663 25.686 21.345 30.092 158.691 2.6. Relaciones entre variables categóricas Distribuciones marginales (frecuencias relativas) 25-34 35-44 45-54 55-64 >=65 total porcentajes no completaron los estudios de secundaria 5.965 4.755 4.829 5.999 12.702 34.250 21,58% completaron los estudios de secundaria 17.505 14.498 10.300 8.645 10.310 61.258 38,60% de 1 a 3 cursos en la universidad 9.267 8.777 4.598 3.094 3.428 29.164 18,38% 4 o más cursos en la universidad 10.168 10.633 5.959 3.607 3.652 34.019 21,44% total 42.905 38.663 25.686 21.345 30.092 158.691 porcentajes 27,04% 24,36% 16,19% 13,45% 18,96% 100,00% 2.6. Relaciones entre variables categóricas SPSS Edat * Educació Crosstabulation Count Edat Total 25-34 35-44 45-54 55-64 >=65 No ESO 5965 4755 4829 5999 12702 34250 Educació Completada 1 a 3 cursos ESO univ 17505 9267 14498 8777 10300 4598 8645 3094 10310 3420 61258 29156 >= 4 cursos univ 10168 10633 5959 3607 3652 34019 Total 42905 38663 25686 21345 30084 158683 2.6. Relaciones entre variables categóricas Marginal fila Edat Valid 25-34 35-44 45-54 55-64 >=65 Total Frequency 42905 38663 25686 21345 30084 158683 Percent 27,0 24,4 16,2 13,5 19,0 100,0 Valid Percent 27,0 24,4 16,2 13,5 19,0 100,0 Cumulative Percent 27,0 51,4 67,6 81,0 100,0 2.6. Relaciones entre variables categóricas Marginal columna Educació Valid No ESO Completada ESO 1 a 3 cursos univ >= 4 cursos univ Total Frequency 34250 61258 29156 34019 158683 Percent 21,6 38,6 18,4 21,4 100,0 Valid Percent 21,6 38,6 18,4 21,4 100,0 Cumulative Percent 21,6 60,2 78,6 100,0 2.6. Relaciones entre variables categóricas Condicional fila Edat * Educació Crosstabulation Edat 25-34 35-44 45-54 55-64 >=65 Total Count % within Edat Count % within Edat Count % within Edat Count % within Edat Count % within Edat Count % within Edat No ESO 5965 13,9% 4755 12,3% 4829 18,8% 5999 28,1% 12702 42,2% 34250 21,6% Educació Completada 1 a 3 cursos ESO univ 17505 9267 40,8% 21,6% 14498 8777 37,5% 22,7% 10300 4598 40,1% 17,9% 8645 3094 40,5% 14,5% 10310 3420 34,3% 11,4% 61258 29156 38,6% 18,4% >= 4 cursos univ 10168 23,7% 10633 27,5% 5959 23,2% 3607 16,9% 3652 12,1% 34019 21,4% Total 42905 100,0% 38663 100,0% 25686 100,0% 21345 100,0% 30084 100,0% 158683 100,0% 2.6. Relaciones entre variables categóricas Condicional fila – Diagrama barras panel 2.6. Relaciones entre variables categóricas Paradoja de Simpson 100% PARADOJA DE SIMPSON 90% Hombre Mujer Aceptados No Aceptados 490 210 280 220 770 430 Aceptados: Hombres 0,7 Aceptados: Mujeres 0,56 80% 700 500 1200 70% 60% No Aceptados 50% 70% Aceptados 40% 30% 56% 20% 10% 0% DISCRIMINACIÓN? Hombre Mujer 2.6. Relaciones entre variables categóricas Por departamentos? 100% 90% Direcció d'Empresa 80% 70% Hombre Mujer Aceptados No aceptados 480 120 600 180 20 200 660 140 800 Aceptados: hombres 0,8 80% Aceptados: Mujeres 0,9 90% 60% 50% 40% No aceptados 30% Aceptados 20% 10% 0% Hombre Mujer Dret 100% Hombre Mujer Aceptados No aceptados 10 90 100 200 110 290 Aceptados: hombres 0,1 10% Aceptados: Mujeres 0,33 33% 90% 100 300 400 80% 70% 60% No aceptados 50% Aceptados 40% 30% 20% 10% 0% Hombre Mujer 2.6. Relaciones entre variables categóricas 2.6. Relaciones entre variables categóricas 2.6. Relaciones entre variables categóricas 2.6. Relaciones entre variables categóricas Un ejemplo de relación entre variables categóricas: Titanic http://ssi.umh.ac.be/titanic.html Variables categóricas, 1.
2.
3.
4.
Clase Edad Sexo Supervivencia Asociación entre, Género – Sobrevivir Género – Clase Clase – Sobrevivir 2.6. Relaciones entre variables categóricas 2.6. Relaciones entre variables categóricas Asociación: Género - Supervivencia mujer hombre total no 126 1364 1490 si 344 366 710 mujer hombre no 26,81% 78,84% si 73,19% 21,16% total 470 1730 2200 total 100,00% 100,00% 2.6. Relaciones entre variables categóricas Asociación: Clase - Género 1a clase 2a clase 3a clase personal total mujeres 145 106 196 23 470 hombres 179 179 510 862 1730 total 324 285 706 885 2200 1a clase 2a clase 3a clase personal mujeres 44,75% 37,19% 27,76% 2,60% hombres 55,25% 62,81% 72,24% 97,40% total 100,00% 100,00% 100,00% 100,00% En 1ª clase hay una proporción similar de mujeres y hombres.
En 3ª clase los hombres ¡¡¡ > duplican a las mujeres !!! 2.6. Relaciones entre variables categóricas Asociación: Clase - Supervivencia 1a clase 2a clase 3a clase personal no 37.7 58.6 74.8 76.0 si 62.3 41.4 25.2 24.0 2.6. Relaciones entre variables categóricas Asociación: Género & Clase - Sobrevivir 1st no si 2.8 97.2 hombre 65.9 34.1 mujer 12.3 87.7 hombre 86.0 14.0 mujer 54.1 45.9 hombre 82.7 17.3 mujer 13.0 87.0 hombre 77.7 22.3 mujer 2nd 3rd personal 2.6. Relaciones entre variables categóricas Tema 2. Obtención de datos 1. Estadística descriptiva Análisis de distribuciones (capítulo 1 - Moore) Análisis de relaciones (capítulo 2 - Moore) 2. Obtención de datos Diseño de muestras Diseño de experimentos 3. Inferencia estadística Estadística descriptiva Es un conjunto de métodos que se utiliza para describir y resumir datos.
Las afirmaciones descriptivas se pueden comprobar con la información que tenemos.
Inferencia estadística Es un conjunto de métodos que se utiliza para generalizar, hacer estimación y predicción.
Las afirmaciones no se pueden verificar con la información que tenemos.
Diseño de muestras Población - conjunto homogéneo de elementos en los que se estudia una característica dada Muestra - conjunto representativo de los elementos de una población El diseño de un estudio es sesgado si favorece sistemáticamente ciertos resultados -muestreo de voluntarios -muestreo de conveniencia Una muestra probabilística da a cada individuo de la población una posibilidad conocida (mayor que cero) de ser seleccionado 3.1 Diseño de muestras Muestreo aleatorio simple Una muestra aleatoria simple de tamaño n consta de n individuos de una población escogidos de manera que cualquier conjunto de individuos de la población tenga las mismas posibilidades de ser la muestra realmente seleccionada -censo -números aleatorios ¡Sin reposición! 3.2 Muestreo aleatorio simple Otros tipos de muestreo Ejemplo. Siniestralidad en la construcción, Encofradores 20% Paletas 70% Técnicos 10% Homogeneidad dentro de los grupos Heterogeneidad entre grupos Selección de la muestra manteniendo porcentajes Muestreo por estratos Muestreo por conglomerados 3.3 Otros tipos de muestreo Muestreo poli-etápico Selección de muestras en diferentes unidades de la población Ejemplo. Consumo 1. muestra de municipios 3. muestra de barrios dentro de cada uno de los municipios escogidos.
4. muestra de hogares dentro de cada barrio.
3.3 Otros diseños muestrales Diseño EPA - 2005 http://www.ine.es/docutrab/epa05_disenc/epa05_disenc.pdf Muestreo bietápico Estratificación: -criterio geográfico: agrupación en estratos dentro de cada provincia, de acuerdo con la importancia demográfica del municipio al que pertenecen -criterio socioeconómico: agrupación en subestratos dentro de cada uno de los estratos, según las características socioeconómicas de las secciones 3.3 Otros diseños muestrales 1. Municipios autorrepresentados: Son aquellos que dada su categoría dentro de la provincia deben tener siempre unidades en la muestra.
2. Municipios correpresentados: Son aquellos que dentro de la misma provincia forman parte de un grupo de municipios demográficamente similares y que son representados en común.
Estrato 1: Municipio capital de provincia.
Estrato 2: Municipios autorrepresentados, importantes en relación con la capital.
Estrato 3: Otros municipios autorrepresentados, importantes en relación con la capital o municipios mayores de 100.000 habitantes.
Estrato 4: Municipios entre 50.000 y 100.000 habitantes.
Estrato 5: Municipios entre 20.000 y 50.000 habitantes.
Estrato 6: Municipios entre 10.000 y 20.000 habitantes.
Estrato 7: Municipios entre 5.000 y 10.000 habitantes.
Estrato 8: Municipios entre 2.000 y 5.000 habitantes.
Estrato 9: Municipios menores de 2.000 habitantes 3.3 Otros diseños muestrales UPF, Estadística CC. Políticas 1 Tema 3. Introducci´ o a la infer` encia estad´ıstica 3.1. La distribuci´ o normal Es un modelo te´orico para describir un conjunto de experimentos observables en la naturaleza.
Algunos histogramas con grandes conjuntos de datos, a medida que aumentamos el n´ umero de clases, la distribuci´on subyacente es Normal.
Todas las distribuciones Normales tienen el mismo aspecto, de forma acampanada.
UPF, Estadística CC. Políticas Una distribuci´ on Normal N (μ, σ 2 ) queda totalmente determinada por la media μ y la desviaci´ on σ, 1. La campana se sit´ ua sim´etricamente alrededor de μ.
2. σ es una medida de dispersi´ on de las distribuciones normales: a μ ± σ se produce el cambio de curvatura de la campana.
Variaci´ on en μ por una traslaci´ on ±a: la campana se traslada en la recta real en ±a unidades, sin que la forma quede alterada.
Variaci´ on en σ por la multiplicaci´ on de una constante ·a: m´as apuntamiento cuando a → 0 y de menos apuntamiento cuando a → +∞.
2 UPF, Estadística CC. Políticas 3 Ejemplo 1. La distribuci´on de las alturas de los hombres adultos es aproximadamente normal con una media de 1,75 m y desviaci´ on t´ıpica de 0,06 m. Usa la regla del 68-95-99,7 para responder a las siguientes preguntas: 1. ¿Qu´e porcentaje de hombres son m´as altos que 1,87 m? Como 1, 87 es igual a μ + 2σ, el porcentaje de hombres son m´as altos que 1,87 m es del 2, 5%.
2. ¿Entre qu´e alturas se encuentra el 95% central de la poblaci´ on de hombres? Entre μ ± 2σ es decir entre 1, 63 y 1, 87 metros 3. ¿Qu´e porcentaje de hombres tiene una altura inferior a 1,69 m? Como 1, 69 es igual a μ − σ, el porcentaje de hombres con altura inferior a 1,69 m es del 17%.
UPF, Estadística CC. Políticas Ejemplo 2. Meritxell obtuvo 680 puntos en el examen de Matem´aticas de la prueba SAT∼ N (500, 1002 ).
Clara obtuvo 27 puntos en el examen de Matem´aticas de otra prueba de acceso a la universidad tambi´en en EE UU, la prueba ACT ∼ N (518, 62 ).
Halla las notas estandarizadas de ambas estudiantes. Suponiendo que los dos ex´amenes sean similares, ¿qu´e estudiante obtuvo mayor puntuaci´ on? 4 UPF, Estadística CC. Políticas 5 Meritxel: Nota estandarizada es = (680 - 500)/100 = 1.8 Clara: Nota estandarizada es = (27 - 18)/6 =1.5 Inicialmente sabemos que Meritxel se encuentra en mejor posici´on con respecto a Clara.
Si calculamos las probabilidades acumuladas de ambas notas estandarizada tendremos: P (N (0, 1) < 1.8) = 0.96407 = 96.41% P (N (0, 1) < 1.5) = 0.933193 = 93.32% Meritxel se encuentra en el 5% mejor puntuaciones SAT.
Clara se encuentre en el 10% mejor puntuaci´ on ACT.
UPF, Estadística CC. Políticas Ejemplo 3. Una m´aquina de bebidas est´a regulada de manera que sirva una media de 200 ml por vaso. Si la cantidad de l´ıquido por vaso se distribuye seg´ un una Normal de desviaci´ on standard 15 ml, calculad.
a) La probabilidad que un vaso contenga entre 191 y 209 ml.
b) El porcentaje de vasos que continene m´as de 224 ml.
c) El valor x0 bajo el que est´an el 25% de los vaso m´as vac´ıos 6 UPF, Estadística CC. Políticas 7 Sea X:=“ v.a. que mide la cantida de l´ıquido por vaso” ∼ N (200, 152 ).
Denotemos per Z una variable aleatoria con distribuci´on N (0, 1) a) P (191 < X < 209) = P (−0, 6 < Z < 0, 6) = 0, 4514 b) P (X > 224) = P (Z > 1, 6) = 0, 0548 ≈ 5, 5% de los vasos c) Queremos x0 tal que P (X < x0 ) = 0, 25 ⇔ P (Z < x0 −200 ) = 0, 25.
15 x0 −200 Ha de ser 15 ≈ 0, 675 y as´ı x0 ≈ 200 − 15 · 0, 675 = 189, 875 ml.
UPF, Estadística CC. Políticas 3.2. Distribucions mostrals Ω Conjunt (nombre finit o infinit d’elements); EA: s’agafa a l’atzar un element del conjunt, s’enregistra el valor d’una certa caracter´ıstica X i se’l torna al conjunt. Suposem que l’experiment s’organitza de manera que tots els individus s´ on igualment susceptibles de ser escollits.
En aquest context, 1. Ω s’anomena poblaci´ o 2. Els elements reben el nom d’individus 3. El grup d’individus mesurats en n repeticions del EA s’anomena mostra aleat` oria (mostreig aleatori simple ) 4. n ´es la mida de la mostra 8 UPF, Estadística CC. Políticas 9 Exemple 4. Diners? Ω: grup dels estudiants de Probabilitat Individus: estudiants X:= diners en efectiu {10.50; 5.73 ; 25.68; 4.70; 58.25} Mostra de mida 5 de X, que podem modelar com, X 1 , X 2 , X 3 , X 4 , X5 on X1 , X2 , X3 , X4 , X5 s´on c`opies independents de X, ´es a dir v.a.
independents i id`enticament distribu¨ıdes segons X Extreure la informaci´ o continguda a la mostra!! UPF, Estadística CC. Políticas 10 S’anomena estad´ıstic a una funci´ o a valors reals de la mostra, ´es a dir a una quantitat construida de la forma, U = φ(X1 , X2 , ·, Xn ) La distribuci´o de probabilitats de la variable aleat` oria U = φ(X1 , X2 , ·, Xn ) s’anomena distribuci´ o mostral de l’estad´ıstic U Estad´ıstics, Mitjana mostral: X n = 1 n n i=1 Xi Vari`ancia mostral (corregida): S 2 = Proporci´o mostral: pˆ = .../...
1 n n i=1 1 n−1 n i=1 (Xi − X n )2 Xi [Xi , i.i.d ∼ Bern(p)] UPF, Estadística CC. Políticas 11 3.3. Teorema del L´ımit Central Teorema. Siguin X1 , X2 , ·, Xn v.a. i.id. de mitjana μ i vari`ancia σ 2 .
Aleshores, quan n augmenta, la distribuci´ o de X√nσ−μ tendeix a la n N (0, 1). Escriurem Xn − μ √σ n ∼ AN (0, 1) Qualsevol que sigui la distribuci´ o comuna d’un conjunt de v.a.a el promig d’un nombre gran d’elles ser`a una v.a. amb distribuci´ o semblant a la normal.
√ σ/ n s’anomena error est`andard a suposant que la seva vari` ancia ´es finita UPF, Estadística CC. Políticas Exemple 5. Considerem una mostra aleat` oria de 100 estudiants d’ una poblaci´ o amb coeficient d’intel.lig`encia de mitja 110 i desviaci´o t´ıpica 12.
Quina ´es la probabilitat que la mitja mostral estigui entre 109 i 111? X :=coeficient d’intel.lig`encia d’un estudiant triat a l’atzar.
E[X] = 110 i var[X] = 122 . Sigui Z ∼ N (0, 1) 109 − 110 X 100 − 110 111 − 110 ≤ ≤ )≈ 1.2 1.2 1.2 ≈ P (−0.83 ≤ Z ≤ 0.83) = 0.7967 − (1 − 0.7967) = 0.5934 P (109 ≤ X 100 ≤ 111) = P ( 12 UPF, Estadística CC. Políticas 13 Exemple 6. Si repetim l’exemple anterior per` o amb mostra de tamany 400 el resultat ´es, P (109 ≤ X 400 ≤ 111) ≈ 0.9050 La ra´o que sigui m´es alta ´es per que el tamany de mostra ´es m´es gran i per tant la mitja mostral tindr`a menys variabilitat: ser`a m´es precisa.
Exemple 3. Es considera que les mesures en pes d’unes peces fabricades en un cert proc´es productiu tenen valor esperat 12 grams i desviaci´ o t´ıpica 1.1 grams. Quina ´es la probabilitat que la mitja mostral de 100 observacions es trobi fora dels l´ımits de (11.8, 12.2)? UPF, Estadística CC. Políticas X :=pes d’una pe¸ca triada a l’atzar. E[X] = 12 i var[X] = (1.1)2 .
12.2 − 12 11.8 − 12 X 100 − 12 ≤ ≤ )≈ 0.11 0.11 0.11 ≈ P (−1.8182 ≤ N (0, 1) ≤ 1.8182) = 0.9656 − (1 − 0.9656) = 0.9312 P (11.8 ≤ X 100 ≤ 12.2) = P ( Per tant, P (X 100 ≤ 11.8 ´o X ≥ 12.2) ≈ 1 − 0.9312 = 0.0688 14 UPF, Estadística CC. Políticas 15 Proporci´ o mostral Suposem que tenim una poblaci´ o per a la que la caracter´ıstica en estudi, que anomenarem X, ve donada per, ⎧ ⎨ 1 Vertader X= ⎩ 0 Fals En altres paraules, X ∼ Bern(p) sent p la proporci´ o poblacional d’individus que presentan ”Vertader” a la poblaci´ o.
El par`ametre d’inter´es ´es ara p.
UPF, Estadística CC. Políticas 16 Coneixem, E[X] = p var[X] = p(1 − p) Donat que p ´es el promig poblacional d’aquest variable aleat` oria en particular, podem aplicar els resultats anteriors! Considerem una mostra de mida n de X. Anomenarem, 1 pˆ = n n Xi i=1 Segons el TLC pˆ ∼ AN (p, p(1 − p) ) n UPF, Estadística CC. Políticas 17 Exemple 4. Es coneix que el percentage de catalano-parlants a Barcelona ´es del 59%. Es selecciona una mostra aleat`oria de 1000 ciutadans de Barcelona.
Quina ´es la probabilitat que el percentage de catalano parlants a la mostra estigui entre 58% i el 60%? (en altres paraules, que el percentage mostral estimi al poblacional amb una precisi´ o del ±1%) X ∼ Bern(0.59) ´es la variable aleatoria, ⎧ ⎨ 1 Si ´es catalano parlant X= ⎩ 0 Si no ´es catalano parlant 0.58 − 0.59 pˆ − 0.59 0.60 − 0.59 ≤ ≤ )≈ 0.01555 0.01555 0.01555 ≈ P (−0.64 ≤ Z ≤ 0.64) = 0.7389 − (1 − 0.7389) = 0.4778 P (0.58 ≤ pˆ ≤ 0.60) = P ( UPF, Estadística CC. Políticas 18 Problema de la setmana Quina ha de ser la grand`aria de la mostra per tal de poder obtenir el percentage correcte amb un error del 2% en un 95% dels casos? Ara l’error est`andard ´es p(1−p) n = 0.4918 √ .
n Segons l’enunciat, 0.95 = P (0.57 ≤ pˆ ≤ 0.61) = = P( 0.57 − 0.59 0.4918 √ n ≤ pˆ − 0.59 0.4918 √ n ≤ 0.61 − 0.59 0.4918 √ n √ √ ≈ P (−0.0407 n ≤ Z ≤ 0.0407 n) √ i per tant 0.0407 n ≥ 1, 96 ⇔ n ≥ 2320.
)≈ UPF, Estadística CC. Polítiques 1 Tema 3. Introducci´ o a la infer` encia estad´ıstica 3.8. Tests de significaci´ o Els test de significaci´o valoren l’evid`encia a favor d’una determinada afirmaci´o.
Ex1. Un fabricant de detergent afirma que, en promig, les seves ampolles s´on de 2 kg.
H0 : μ = 2 H1 : μ < 2 Direm que una hip` otesi ´es simple si fa refer`encia a un u ´nic valor i composta si fa refer`encia a un rang de valors.
UPF, Estadística CC. Polítiques 2 3.9 Tests de significaci´ o per a μ; σ0 coneguda 1. X ∼ N (μ, σ02 ), T = X −μ σ0 √ n ∼ N (0, 1) 2. n ↑, T = X −μ σ0 √ n ∼ AN (0, 1) UPF, Estadística CC. Polítiques 3 Ejemplo 2. Una companyia rep c`arregas de piles analitzant una mostra de nou d’elles abans d’acceptar una comanda.
La companyia considera que el temps mig de vida de les piles ha de ser de 50 hores i per estudis previs ´es acceptat que el temps de vida de les piles ´es normal amb desviaci´ o t´ıpica 3 hores.
Per una mostra aleat` oria de 9 piles el temps mig calculat va ser de 49.2 hores. Contrastar al 10% que el temps de vida ´es de 50 hores contra que ´es inferior a 50.
UPF, Estadística CC. Polítiques 4 Sigui X:= la variable aleat`oria que mesura el temps de vida d’una pila triada a l’atzar d’entre els fabricats pel prove¨ıdor. Segons l’enunciat, X ∼ N (μ, 3) Les hip` otesi nul.la i alternativa s´ on, H0 : μ = 50 H1 : μ = 50 Si la veritable mitja de la poblaci´ o fos 50, aleshores T = Tobs = 49.2 − 50 √3 9 = −0.8 p-valor = 2 · P (Z < −0, 8) = 2 · 0, 2119 = 0, 4238 X−50 √3 n ∼ N (0, 1) UPF, Estadística CC. Polítiques 5 3.10. Tests de significaci´ o per a μ; σ desconeguda 1. X ∼ N (μ, σ 2 ), T = X −μ √S n ∼ tn−1 2. n ↑, T = X −μ √S n ∼ AN (0, 1) UPF, Estadística CC. Polítiques Ex 3. Una pe¸ca de recanvi per als frens d’un cotxe t´e la forma d’un disc amb un di`ametre de 35 mm.
Es fa un control de qualitat per veure si el di`ametre mitj`a dels discos segueix el valor desitjat o b´e si ha augmentat.
Per una mostra de 40 discos, la mitjana mostral ´es x = 35, 05 mm, i s = 0.12 mm. Realitza una prova de significaci´ o al respecte de l’actual qualitat de la producci´ o.
6 UPF, Estadística CC. Polítiques 7 Sigui X:= la variable aleat`oria que mesura di`ametre d’una pe¸ca triada a l’atzar; μ = E[X].
H0 : μ = 35 H1 : μ > 35 Si la veritable mitja fos 35, aleshores T = X−35 S √ n ∼ AN (0, 1) El valor observat ´es, Tobs = 35.05 − 35 0.12 √ 40 = 2, 64 El p–valor corresponent ´es P {N (0, 1) > 2, 64} = 1 − 0, 9959 = 0, 0041.
´ doncs poc probable que el valor observat de T hagi passat nom´es per Es atzar: decidim refusar la hip` otesi nul.la i concloure que el di`ametre ha augmentat.
UPF, Estadística CC. Polítiques 8 3.11. Tests de significaci´ o per a p; n ↑ T = pˆ − p0 p0 (1−p0 ) n on p0 ´es el valor postulat per la H0 .
∼ AN (0, 1) UPF, Estadística CC. Polítiques 9 Ex 4. Una organitzaci´ o de la salut est`a interessada a actualitzar la seva informaci´ o sobre la proporci´ o d’homes que fumen. Basant-se en estudis anteriors es creu que aquesta proporci´o ´es del 40%.
L’organitzaci´ o prepara una enquesta: es seleccionen 1200 homes i d’aquests 420 s´on fumadors.
Creieu que aquestes dades abonen la idea que la proporci´ o d’homes que fuma ´es diferent del 40%? Utilitzeu un nivell de significaci´ o α = 0, 01.
UPF, Estadística CC. Polítiques 10 X ∼ Bern(p); p proporci´ o de fumadors a la poblaci´ o.
⎧ ⎨ H : p = 0, 4 0 ⎩ H1 : p = 0, 4 Si H0 fos certa, T = pˆ−0,4 0,4(1−0,4) n Tobs = ∼ AN (0, 1) 420 1200 − 0.4 0.4(1−0.4) 1200 = −3.5355 p–valor= 2 · P {N (0, 1) < −3, 54} < 2 · 0, 0002 = 0, 0004, la conclusi´ o amb α = 0.01 ´es que: Hem observat evid`encies a la mostra a favor de que la proporci´ o de fumadors a la poblaci´ o ´es diferent de 0,4.
UPF, Estadística CC. Polítiques 11 3.12. Comparaci´ o de dues proporcions p1 i p2 Si volem contrastar H0 : p1 = p2 i denotem per p0 aquest valor com´ u, pˆ0 = n1 pˆ1 + n2 pˆ2 n1 + n2 L’estad´ıstic de constrast ´es T = (pˆ1 − pˆ2 ) − 0 pˆ0 (1−pˆ0 ) n1 + pˆ0 (1−pˆ0 ) n2 ∼ AN (0, 1) UPF, Estadística CC. Polítiques Ex. 5 Es realitza un estudi sobre la situaci´ o actual de les empreses de serveis, pel que fa als plans elaborats per facilitar l’expansi´ o de la UE a 25 pa¨ısos. Hi ha indicis per pensar que la regi´ o B est`a menys adaptada que la regi´o A.
De les 250 empreses de serveis enquestades a la regi´o A, 95 tenien preparat un pla d’adaptaci´ o. A la regi´o B, 56 de 240.
Creieu que les dades evidencien que la proporci´ o d’empreses de serveis que tenen enllestit un pla d’adaptaci´ o ´es mes alta en la regi´ o A que en la regi´ o B? (Utilitzeu un nivell de significaci´o de 10%, ´es a dir α = 0, 10).
12 UPF, Estadística CC. Polítiques 13 Sigui pA la proporci´ o d’empreses a la zona A que tenen preparat un pla d’adaptaci´ o i pB a la zona B.
Es contrasta, ⎧ ⎨ H :p −p =0 0 A B ⎩ H1 : pA − pB > 0 95 56 Es t´e pˆA = 250 i pˆB = 240 . L’estimaci´o de la proporci´ o poblacional comuna ´es pˆ0 = 0.3082 i per tant Tobs = 3.5149 amb la qual cosa refusem la hip` otesi nul.la a pr`acticament qualsevol nivell de significaci´o.
La zona B est`a menys preparada que la zona A.
UPF, CC. Polítiques 1 Difer` encia de dues proporcions. Mostres independents Recordem que, ⎧ ⎨ H :p =p 0 1 2 ⎩ Ha : p1 = p2 Estad´ıstic de contrast, T = (pˆ1 − pˆ2 ) − (p1 − p2 ) pˆ(1 − pˆ) 1 n1 + ≈ N (0, 1) 1 n2 on pˆ = n1 pˆ1 + n2 pˆ2 n1 + n2 UPF, CC. Polítiques 2 4. Infer` encia per a taules de conting` encia 4.1. Difer` encia entre proporcions p1 + p2 + . . . pk = 1 Resoldrem amb prova χ2 d’ajust a una distribuci´ o (par`ametres coneguts) ⎧ ⎨ H : p = p = ... = p 0 1 2 k ⎩ Ha : N’hi ha alguna de diferent Estad´ıstic pivot, 2 k χ = i=1 on Ei = npi (Oi − Ei )2 ≈ χ2k−1 Ei UPF, CC. Polítiques 3 Ex. En 600 tirades d’un dau s’obt´e i ni 1 45 2 116 3 96 4 94 5 137 6 112 Hi ha evid`encia que el dau est`a trucat? (α = 0, 05).
UPF, CC. Polítiques 4 ⎧ ⎨ H : p(1) = p(2) = . . . = p(6) = 0 ⎩ Ha : ∃ i ∈ {1, . . . , 6} : p(i) = 1 1 6 6 χ2obs = 48, 46 i Oi Ei Oi − Ei (Oi − Ei )2 /Ei 1 45 100 −55 30, 2500 2 116 100 16 2, 5600 3 96 100 −4 0, 1600 4 94 100 −6 0, 3600 5 137 100 37 13, 6900 6 112 100 12 1, 4400 p–valor=2, 86113 10−9 : El dau est`a trucat.
UPF, CC. Polítiques 5 Tamb´e podem resoldre, ⎧ ⎨ H : p = p0 ; p = p0 . . . p = p0 0 1 k 1 2 2 k ⎩ Ha : N’hi ha alguna de diferent Estad´ıstic pivot, 2 k χ = i=1 (Oi − Ei )2 ≈ χ2k−1 Ei on Ei = npi UPF, CC. Polítiques En la darrera elecci´o general, la distribuci´ o de votants al pa´ıs P ha estat 13,8% dels votants ho fan per E, 21,5% per N, 37,4% per A i el 27.3% per S.
S’ha fet una enquesta a 320 persones sobre la intenci´ o de vot per a les properes eleccions on s’havia de triar entre un dels partits. D’aquests 48 trien E, 86 seleccionen N, 102 A i 84 trien S. Feu una prova khi-quadrat, al nivell del 10%, per constatar si aquests resultats segueixen el perfil de la passada elecci´o general.
6 UPF, CC. Polítiques 7 Tenim el model, ⎧ ⎪ ⎪ ⎨ H0 : p(E) = 0.138; p(N ) = 0.215; p(A) = 0.374; p(S) = 0.273 ⎪ ⎪ ⎩ H1 : El model ´es un altre Calculem l’estad´ıstic χ2 , i Oi pi Ei Oi − Ei (Oi − Ei )2 /Ei E 48 0, 138 44, 16 3, 84 0, 333945 N 86 0, 215 68, 8 17, 2 4, 3000 A 102 0, 374 119, 68 −17, 68 2, 6118 S 84 −3, 36 0, 1292 0, 273 87, 36 L’estad´ıstic de prova ´es 7,3750 que t´e un p–valor de 0,0609 i per tant UPF, CC. Polítiques aquest any el perfil dels resultats ´es diferent del dels anteriors.
8 UPF, CC. Polítiques 9 4.2. Taules de conting` encia (r files i c columnes) H0 : No associaci´o entre els dos atributs en la poblaci´ o Oij := nombre d’observacions a la fila i i a la columna j Sota H0 el nombre d’observacions esperada a la cel.la (i, j) ´es ˆij = Ri Cj E n on Ri i Cj s´on totals per fila i per columna.
Estad´ıstic de contrast, 2 r c χ = i=1 j=1 ˆij )2 (Oij − E ≈ χ2(r−1)(c−1) ˆij E UPF, CC. Polítiques 10 Ex. A random sample of 1000 inhabitants of a city is selected to study the difference between men and women in terms of their participation or non-participation in the past elections. The results are summarized in the following table of frequencies: M en W omen V oted 270 350 620 N ovoted 179 201 380 449 551 Perform the chi-squared test which tests the hypothesis of independence between the rows and columns of the table (use a 0.05 level significance).
UPF, CC. Polítiques 11 En primer lloc calculem la taula de freq¨ u`encies esperades M en W omen V oted 278, 38 341, 62 N ovoted 170, 62 209, 38 M en W omen V oted 0, 2523 0, 2056 N ovoted 0, 4116 0, 3354 Contribucions a l’estad´ıstic χ2 , χ2obs = 1, 2048; P (χ21 > 1, 2048) = 1 − 0, 727636 = 0, 272364 No hem observat evid`encia a les dades que indiqui que els atributs no s´on independents.
UPF, CC. Polítiques 12 5. Model Lineal 5.1. An` alisi de la Vari` ancia Contrasta, la igualtat de mitjanes per a diferents grups H0 : μ1 = μ2 = . . . = μK Ha : N’hi ha alguna de diferent Les dades, Grups 1 X11 X12 ...
X1n1 X1 ∼ N (μ1 , σ 2 ) 2 X21 X22 ...
X2n2 X2 ∼ N (μ2 , σ 2 ) ...
...
...
...
...
...
K XK1 XK2 . . . XKnK XK ∼ N (μK , σ 2 ) UPF, CC. Polítiques 13 Ex. Dotze parcel.les de terreny es distribueixen aleat` oriament en tres grups.
Grup 1 i 2: fertilitzant 1 i 2 Grup 3: unitat de control (cap fertilitzant) G1 75 70 66 69 G2 74 78 72 68 G3 60 64 65 55 Es pot parlar de difer`encies significatives entre els tractaments aplicats? UPF, CC. Polítiques 14 Pas 1. Representar gr` aficament les dades 55 60 65 70 75 Diagrama de caixa / Diagrama de punts 1 2 3 UPF, CC. Polítiques 15 Pas 2. Comparaci´ o de la variabilitat Entre els grups, (Between) Mesurem les difer`encies entre les mitges individuals a cada grup i la mitja global, (X 1 − X)2 , (X 2 − X)2 , . . . , (X K − X)2 Suma de quadrats, K SQG = ni (X i − X)2 i=1 Quadrat mig, QM G = SQG K −1 UPF, CC. Polítiques 16 Dins dels grups, (Within) SQ1 = n1 2 (X1j − X 1 ) , j=1 SQ2 = n2 2 (X2j − X 2 ) . . .
j=1 SQK = nK (XKj − X K )2 j=1 Suma de quadrats, K SQD = SQi i=1 Quadrat mig, QM D = SQD n−K UPF, CC. Polítiques 17 Pas 3. Taula Anova (SPSS) Font de Suma de Graus de Quadrats variaci´ o quadrats llibertat migs Entre grups SQG K −1 QM G = Dins grups SQD n−K QM D = Total SQT n−1 Sota la hip` otesi nul.la,a ⎧ ⎨ H : μ = μ = ... = μ 0 1 2 K ⎩ Ha : N’hi ha alguna de diferent ; F = F -ratio SQG K−1 SQD n−K QM G QM D QM G QM D ∼ FK−1,n−K a Es ´ necessari que les variables Xi siguin normalment distribu¨ıdes i la igualtat de vari` ancies UPF, CC. Polítiques 18 Continuaci´ o exemple Mitja conjunta: X = 68 Mitges mostrals a cada grup: X 1 = 70 X 2 = 73 X 3 = 61 Variabilitat entre grups: SCG = 4(70 − 68)2 + 4(73 − 68)2 + 4(61 − 68)2 = 312 Variabilitat dins els grups: SQD=42+52+62=156 A B C (75 − 70)2 (74 − 73)2 (60 − 61)2 (70 − 70)2 (78 − 73)2 (64 − 61)2 (66 − 70)2 (72 − 73)2 (65 − 61)2 (69 − 70)2 (68 − 73)2 (55 − 61)2 42 52 62 UPF, CC. Polítiques 19 Taula Anova Font de Suma de Graus de Quadrats variaci´ o quadrats llibertat migs Entre grups 312 3−1=2 Dins grups 156 12 − 3 = 9 312 2 = 156 156 9 = 17, 33 Total 312 + 156 12 − 1 = 11 F -ratio 156 17,33 =9 p – valor=P (F2,9 > 9) < P (F2,9 > 8, 02) = 0, 01 L’´ us de fertilitzant influeix en la quantitat de la collita.
UPF, CC. Polítiques 20 Un altre exemple Es vol verificar si certs canvis en el proc´es de fabricaci´o del ciment afecten a la seva resist`encia a la compressi´o. Es mesura la resist`encia en 5 observacions fabricades pel m`etode tradicional A, a 5 fabricades pel m`etode B i a 5 fabricades pel C, que s´ on els dos nous m`etodes que s’est`a considerant implantar.
A 16 14 32 28 23 B 37 30 26 30 46 C 61 33 37 63 65 UPF, CC. Polítiques Variaci´ o 21 SQ g.ll QM Entre grups 2170, 1333 2 Dins grups 1441, 6076 12 Total 3611, 7409 15 2170,1333 2 1441,6076 12 F -ratio = 1085, 0667 1085,0667 120,1340 = 9, 0321 = 120, 1340 p–valor=P (F2,12 > 9, 0321) < P (F2,12 > 12, 97) = 0, 001 Les resist`encies mitges s´ on diferents si es considera un m`etode o un altre 5.2. Correlación lineal _ _ ( x, y ) Inferencia en Regresión Lineal Diagrama de dispersión para diferentes valores de la correlación Inferencia en Regresión Lineal Regresión lineal – análisis univariante Esperanza de vida mujeres – Esperanza vida hombres [country.sav] Error estándar Descriptives Male life expectancy 1992 Female life expectancy 1992 Mean 95% Confidence Interval for Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Mean 95% Confidence Interval for Mean Lower Bound Upper Bound Statistic 61,90 60,12 Lower Bound Upper Bound 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Std. Error ,901 63,69 62,25 64,00 99,098 9,955 39 77 38 18 -,416 -,974 66,31 64,29 ,219 ,435 1,022 68,33 66,65 68,00 127,357 11,285 41 83 42 20 -,354 -1,106 ,219 ,435 Inferencia en Regresión Lineal Analizar > Correlaciones > Bivariadas > Pearson > Prueba bilateral Esperanza de vida mujeres – Esperanza vida hombres [country.sav] Correlaciones Female life Male life expectancy expectancy 1992 1992 Female life expectancy Correlación de Pearson 1 ,988** 1992 Sig. (bilateral) ,000 N 122 122 Male life expectancy 1992 Correlación de Pearson ,988** 1 Sig. (bilateral) ,000 N 122 122 **. La correlación es significativa al nivel 0,01 (bilateral).
Inferencia en Regresión Lineal 5.3. Estimación por MCO ) y = a +b⋅x b =r ⋅ sy sx ; a = y −b⋅ x Inferencia en Regresión Lineal Analizar > Regresión > Lineal ) y = a +b⋅x y =α + β ⋅x Inferencia en Regresión Lineal 5.4. Contraste para la pendiente H0 : β = 0 Ha : β ≠ 0 (No hay relación entre las variables) Estadístico de contraste, b − β ~ t n -2 s . e .( b ) T = Donde s.e.(b) es el error estándar de la pendiente en SPSS.
Se calcula según, s . e .( b ) = s / ∑ s = e ∑ ( x i − x )2 2 i n − 2 Inferencia en Regresión Lineal Ejemplo, H0: β=0 Model Summary Model 1 R ,988a R Square ,976 Adjusted R Square ,975 Std. Error of the Estimate 1,561 a. Predictors: (Constant), Female life expectancy 1992 error estándar Coefficientsa Model 1 (Constant) Female life expectancy 1992 Unstandardized Coefficients B Std. Error 4,125 ,845 ,871 Standardized Coefficients Beta ,013 ,988 t 4,879 Sig.
,000 69,311 ,000 a. Dependent Variable: Male life expectancy 1992 P – valor < 0,05 ; RH0 Inferencia en Regresión Lineal R. lineal / IC pendiente Estadístico pivote, T = b − β ~ t n -2 s . e .( b ) IC para β, b − t n − 2 , α s . e .( b ) < β < b + t n − 2 , α 2 s . e .( b ) 2 Inferencia en Regresión Lineal Ejemplo, IC pendiente Coefficientsa Model 1 (Constant) Female life expectancy 1992 Unstandardized Coefficients B Std. Error 4,125 ,845 ,871 ,013 Standardized Coefficients Beta ,988 t 4,879 Sig.
,000 69,311 ,000 95% Confidence Interval for B Lower Bound Upper Bound 2,451 5,799 ,846 ,896 a. Dependent Variable: Male life expectancy 1992 Iβ= (0,846; 0,896) es un IC al 95% para β Inferencia en Regresión Lineal 5.5. Análisis de los residuos Analizar > Regresión > Lineal > Guardar Inferencia en Regresión Lineal Análisis de los residuos (ejemplo) !!!!! Inferencia en Regresión Lineal Variables (???): GDP Inferencia en Regresión Lineal Ln(GDP) - Esperanza vida mujeres Resumen del modelob Modelo 1 R R cuadrado ,832a ,693 R cuadrado corregida ,690 Error típ. de la estimación 6,282 a. Variables predictoras: (Constante), Natural log of GDP b. Variable dependiente: Female life expectancy 1992 Coeficientesa Modelo 1 (Constante) Natural log of GDP Coeficientes no estandarizados B Error típ.
21,529 2,782 6,178 ,376 Coeficientes estandarizad os Beta ,832 t 7,739 16,445 Sig.
,000 ,000 a. Variable dependiente: Female life expectancy 1992 Inferencia en Regresión Lineal Ln(GDP) - Esperanza vida mujeres Inferencia en Regresión Lineal 5.6. Bondad ajuste H0: R2 = 0 ANOVAb Modelo 1 Regresión Residual Total Suma de cuadrados 10674,048 4736,116 15410,164 gl 1 120 121 Media cuadrática 10674,048 39,468 F 270,451 Sig.
,000a a. Variables predictoras: (Constante), Natural log of GDP b. Variable dependiente: Female life expectancy 1992 RH0 Inferencia en Regresión Lineal Los ejercicios son del libro de Moore (segunda edición).
a) Si designamos por X a la duración (en días) Según el enunciado, X 266 días y desviación la variable aleatoria que mide de un embarazo humano.
se distribuye normalmente con media típica 16 días, esto es X ~ N (266,16).
Nos piden determinar P(X<240).
Denotamos por Z a una variable aleatoria normal estándar, es decir Z ~ N (0,1).
Tenemos, P(X<240)=P ( X − 266 240 − 266 < ) = P (Z<-1,625) ≈ 0,0521 16 16 El valor 0,0521 se ha obtenido como punto medio entre las probabilidades acumuladas respecto de la N (0,1) para z = -1,62 y z = -1,63.
De esta manera, aproximadamente el 5’21% de los embarazos duran menos de 240 días.
b) P (240<X<270)= P ( 240 − 266 X − 266 270 − 266 < < )=P (-1,625<Z<0,25)= 16 16 16 0,5987-0,0521 = = 0,5466 El 54,66% de los embarazos tienen una duración entre 240 y 270 días.
1 c) Buscamos un valor “a” tal que, P(X>a)=0,2. Denotemos X − 266 a − 266 > )= 16 16 a − 266 a − 266 P(Z> ) ⇔ P(Z ≤ )=0,8 16 16 0,2 = P(X>a)= P( De la tabla de la normal estándar obtenemos que P(Z<0,84)=0,7995 ≈ 0,8. Así, 0,84 ≈ a − 266 16 con lo que a ≈ 279,44 Así, el 20% de los embarazos más largos duran más de 279 días.
a) Si designamos por X el X~N(3,8,0,2) P(X<3,5)= P( P(X<3,5)= P( Z La probabilidad es de 6.68%.
nivel de potasio en la sangre, entonces X − 3,8 3,5 − 3,8 < ), 0,2 0,2 < Z~N(0,1) 3,5 − 3,8 ) = P( Z < −1,5) = 6.68% 0,2 de que se diagnostique hipocaliemia a Dolores 2 b) X = nivel de potasio medio en sangre, X ~N( µ , x ~N( 3,8, N ) 0,2 ) 2 ⎛ X − 3.8 3.5 − 3.8 ⎞ ⎟ , P X < 3.5 = P⎜⎜ < ⎟ 0 .
1 0 .
1 ⎝ ⎠ ( σ ) Z~N(0,1) 3,5 − 3,8 ⎞ ⎛ P X < 3.5 = P⎜ Z < ⎟ = P( Z < −3) = 0.135 0,1 ⎠ ⎝ ( La probabilidad ) de que la media de potasio en la sangre de Dolores sea menor que 3,5 es de 13,5%.
3 EXEMPLES VARIS 1. Identifiqueu la població estadística, el paràmetre que interessa estimar i l'estadístic i en el text següent: "A partir d'una mostra representativa del cens (mostra aleatòria de 250 casos), s'ha estimat que la mitjana mensual d'ingressos dels joves espanyols de 21-35 anys és de 1.300 Euros. " Població en estudi: Joves entre 21-35 anys dels quals s’estudia la variable ingresos Paràmetre: mitjana mensual (µ) d’ingressos de la població _ Estadístic: mitjana mostral d’ingressos mensuals x : 1.300€ 2. A partir de les dades de l’exercici anterior i sabent que la desviació estàndard de les dades de la mostra és de 310 Euros, construïu un interval de confiança del 95% per mitjana mensual d'ingressos dels joves espanyols de 21-35 anys. Especifiqueu el marge d’error corresponent.
Marge d’error = t 24 * s n Marge d’error = 1,97 * 310 = 38,6 250 Interval de confiança per la mitjana mensual (µ) d’ingressos de la població: 1.300 ± 38,6 = [1.261,4 ; 1.338,6] Resolució alternativa: donat que la mida de la mostra és molt gran (250), els resultats no canviaran gaire si en lloc de prendre el valor de “t”=1,97 prenem el corresponent de “z”= 1,96 pel nivell de confiança del 95%. En aquest segon cas el valor del marge d’erro seria de 38,4.
3. Un fabricant de bateries (per reproductors de mp3) afirma que la durada mitjana de les bateries que ell fabrica és de 400 hores amb una desviació estàndard de 30 hores. Un inspector de qualitat pren una mostra aleatòria de 25 bateries i les posa a prova obtenint una durada mitjana de 370 hores.
a) Si l’afirmació del fabricant fos correcta, quina seria la probabilitat de trobar una mitjana mostral tan o més petita que aquesta? Representa la distribució de probabilitat de l’estadístic mitjana mostral suposant que el fabricant no menteix i marca en aquest gràfic la probabilitat que es demana.
µ = 400H σ = 30H P( X <370) = P(Z < X ~a N ( 400, 30 25 n = 25 bateries => x = 370h 370 − 400 − 30 ) = P(Z < ) = P(Z < -5) ≈ 0 30 6 25 ) 1 b) Què suggereix el resultat anterior? Els resultats de la mostra posen en dubte la paraula del fabricant. Si la durada mitjana fos de 400h seria molt poc probable (pràcticament impossible) trobar una mostra amb una mitjana tan baixa (de 370h). Les dades de la mostra suggereixen que la duració mitjana de les bateries d’aquest fabricant deu ser inferior a les 400h.
4. Un fabricant de productes farmacèutics fa analitzar una mostra de comprimits d’un lot per tal de verificar que la concentració de matèria activa dels comprimits és la desitjada. Les anàlisis de 8 comprimits han donat com a resultat: 0,843; 0,842; 0,850; 0,839; 0,844; 0,838; 0,844; 0,839. Es coneix que la desviació estàndard dels comprimits (la poblacional) és 0,004. Podem suposar normalitat.
1 0,843 2 0,842 3 0,85 4 0,839 5 0,844 6 0,838 7 0,844 8 0,839 a) Construïu un interval de confiança del 95% per la vertadera concentració activa establerta µ. Doneu el marge d’error en aquesta estimació i els extrems de l’interval de confiança. Interpreteu el resultat.
X ≈ N (µ ; σ) = N(µ ; 0,004). Ja que l’enunciat del problema diu que podem suposar normalitat. En conseqüència, tot i que la mida de la mostra no és gaire gran, podem comptar amb l’aproximació de la distribució de la mitjana mostral a la llei normal.
x =0,8424 n=8 σx n = 0.004 8 = 0,001414 Interval de Confiança del 95% per la concentració mitjana µ 0,8424 ± 1,96 * 0.004 8 = 0,8424± 0,00278= [0,8396 ; 0,8452] b) Suposeu que el fabricant no està content amb el marge d’error obtingut en l’apartat anterior i demana que sigui inferior a 0,002. Quina hauria de ser la mida de la mostra de comprimits que garantís una marge d’error inferior a 0,002 mantenint el nivell de confiança del 95%? Marge d’error = Z * σx n 2 n= n= ( n=( Z *σ x Marge d' Error Z *σ x )2 Marge d' Error 1.96 * 0.004 2 ) = 15,3664 ≈ 16 0.002 Resposta: Per garantir un marge d’error inferior a 0,002 mantenint el nivell de confiança del 95%, s’hauria de fer l’estudi amb una mostra de 16 unitats com a mínim.
5. Un sondeig d'opinió previ a unes eleccions municipals revela que 1400 persones d'un total de 2500 seleccionades aleatòriament tenen preferència pel candidat A en front del candidat B.
a) Obteniu un interval de confiança del 95% per la vertadera proporció de votants a favor del candidat A. Basant-nos en aquest resultat, podríem afirmar que és probable que A guanyi les eleccions ? Per què ? Proporció d’enquestats que prefereixen el candidat A: pˆ = pˆ ~a N (µ = p, EE( pˆ ) = 1400 = 0,56 2500 p * (1 − p) ) 2500 Aproximarem l’error estàndard substituïnt p per l’estadístic pˆ Així, l’error estàndard serà: 0,56 * 0,44 = 0,0099 2500 IC del 95% per la verdadera proproció de vots que obtindrà el candidat A: 0,56 ± 1,96 * 0.0099 = [0,5406; 0,5794] Resposta: Si es fessin les eleccions en el moment de l’enquesta, el candidat A tindria moltes possibilitats ja que l’interval de confiança se situa per damunt del 50%. Es pot dir que tindria la majoria assegurada (amb una confiança del 95%). Sempre que la mostra sigui representativa de la població.
b) Suposeu que se selecciona aleatòriament una mostra de 225 persones i s'obté la mateixa proporció mostral a favor del candidat A ¿Són els resultats diferents als de l'apartat anterior ? En aquest segon cas, l’error estàndard és: 0,56 * 0.44 = 0,03108 255 I per tant, el marge d’error en l’estimació és superior m=0,0609 i l’interval de confiança és: [0,56 ± 0,0609] = [0,4991; 0,6209] 3 Conclusió: Hi ha una gran probabilitat que guanyi el candidat A, però podria ser que no tingués majoria ja que l’interval de confiança per la verdadera proporció conté valors per sota del 50%. Sempre que la mostra sigui representativa de la població.
6. Sigui X la variable “contingut dels cartrons de llet en litres”.
Suposant que X ~ N (µ = 1,01 ; σ = 0,01), P(X < 1)= P(Z < (1-1,01)/0,01) = P(Z < -1) = 0,1587 Si el procés d’envasar funciona segons diuen les especificacions, un 16% dels cartrons de llet tindran un contingut per sota d’un litre. Aquest percentatge correspon a l’àrea sota la corba de densitat a l’esquerra del valor 1 en el gràfic següent.
Distribució de probabilitat 60 40 20 0 0,96 0,98 1 1,02 1,04 contingut X dels cartrons de llet b) Si volem que, aproximadament, només un 5% dels cartrons de llet tinguin un contingut inferior a un litre haurem d’incrementar la mitjana especificada (la desviació estàndard seguirà sent 0,01). La nova mitjana µ haurà de satisfer la següent relació: P(X < 1) = P(Z < (1-µ)/0,01) = 0,05 Les taules de Z~ N (µ =0; σ =1) ens diuen que P(Z < -1,645)=0,05 Igualant (1-µ)/0,01) = -1,645 resulta que µ = 1,01645 litres 4 Problema 1. Segons unes dades relatives a una mostra de 10 dies, referents al nivell d’audiència (en milers de persones) d'una selecció aleatòria de programes emesos per una certa cadena de televisió. Es pot considerar que les tres variables que mesuren el nivell d’audiència (en nombre de televidents) es distribueixen segons una llei normal.
1. Calcular un interval de confiança al 95% per l'audiència mitjana dels programes informatius. Interpretació del resultat obtingut.
s = 282,5 ± 2,262 ⋅ 3,253 = 282,5 ± 7,4 10 x ± t9 ⋅ La audiència mitjana dels programes informatius és de 282.500 persones amb un marge d’error se 7.400 persones, és a dir, amb una confiança del 95% podem dir que la mitjana de l’audiència diària dels programes informatius es troba entre 275.100 i 289.900 persones.
2. Una revista especialitzada en temes de televisió, afirma: “Que la audiència mitjana dels programes de telesèries és superior a la de l’any anterior (que va ser de 260.000 persones)”. A partir de les dades es pot recolzar aquesta afirmació? Es tracta de contrastar la hipòtesi nul·la H0: µ =260 en front de la hipòtesi alternativa Ha: µ > 260 en relació al paràmetre audiència mitjana µ de telesèries en la població.
L’estadístic de contrast és t9 = 264,9 − 260 = 1,63 3,009 Consultant les taules de la llei t-Student de 9 graus de llibertat, trobem que el valor crític de t per un nivell de significació del 5% és t*=1,83 i la zona de refús de Ho tots els t>1,83. El nostre estadístic és inferior a aquest valor. En conseqüència, direm que les dades de la mostra NO recolzen l’afirmació de la revista. L’augment d’audiència en les telesèries tot i ser superior en la mostra, no ho és suficientment com per ser significatiu des del punt de vista estadístic (per un nivell de significació del 5%).
Estadísticos para una muestra N Media Desviación típ.
Error típ. de la media informatius 10 282,50 10,288 3,253 concursos 10 301,20 9,796 3,098 telesèries 10 264,90 9,515 3,009 Problema 2. Es articles rebuts en castellà son traduïts al català. Una empresa dedicada a software de traducció automàtica ofereix un d’ells amb una garantia de que el nombre d’errors és com màxim del 2%. En una prova amb 825 paraules el nombre d’errors ha estat de 20. Es pot acceptar la garantia de la empresa per un nivell de significació de l’1%?.
1 Es tracta de contrastar la hipòtesi nul·la que estableix que la proporció d’errors és menor o igual a 0,02 en front de l’alternativa que estableix que p és major que 0,02.
L’estadístic de contrast és Z= (0,025-0,02)/0,0049=1,01. El valor-P corresponent a a quest contrast és P(Z>1,01)=0,156 que NO és inferior al nivell de significació prefixat de 0,01. En conseqüència, NO podem refusar la hipòtesi nul·la. I hem d’acceptar el que diu l’empresa. No tenim cap evidència per posar-ho en dubte.
Problema 3. Una empresa de energia selecciona un habitatge típic per desenvolupar un model de consum energètic (en Kilowatts dia) en funció de la temperatura. Les dades corresponen a una mostra aleatòria de 15 dies d’hivern (temperatura mitjana de cada dia i consum al llarg del dia) temperatura 0 8 7 13 10 8 4 -11 -7 -8 1 0 2 -6 -4 consum 70 57 60 63 60 66 67 107 96 88 80 64 79 82 97 Es demana: a) A partir de la sortida de regressió de SPSS determineu el valor del coeficient de determinació. Com s’interpreta aquest valor? 0,7744, el 77,4% de la variació en el consum s’explica per les diferències en la temperatura.
b) Determineu el valor del coeficient de correlació lineal. Què indica? -0,88, indica una associació lineal negativa.
c) Identifiqueu l’equació de la recta de mínims quadrats, els dos coeficients en el context del problema. Doneu el residu corresponent al darrer dia. Com s’interpreta? Predicció de consum =77,88 – 1,90·temperatura Residu = 97 – (77,88-1,90·(-4))= 97- 85,47 = 11, 53.
Interpretació: el consum d’aquest dia va ser superior al que correspondria per la temperatura d’aquell dia.
d) Contrasteu la hipòtesi de no relació lineal ( β = 0).
Estadístic de contrast t= -1,896/0,284= -6,67 Valor-P corresponent = 2·P(t<-6,67) ∼0 pràcticament igual a 0. En conseqüència queda confirmada la relació lineal entre les dues variables.
e) Quina és la predicció de consum diari per una temperatura de 3 graus i per una de 15? Són igualment fiables ambdues prediccions? Predicció de consum =77,88 – 1,90·temperatura Predicció de consum =77,88 – 1,90·3=72,18 Predicció de consum =77,88 – 1,90·15=49,38 2 No, no són igualment fiables, la predicció per una temperatura de 3 és més fiable que la predicció per una temperatura de 15. En la mostra el mínim és -11 i el màxim 13, 15 graus es troba fora d’aquest interval, per tant la seva predicció serà menys fiable que la predicció feta per 3 graus.
Temperatura Temperatura Correlación de Pearson 1 Sig. (bilateral) Correlación de Pearson Sig. (bilateral) 15 15 -,880(**) 1 ,000 N 15 Coeficientes no estandarizados Modelo B 1 -,880(**) ,000 N Consum Consum Error típ.
15 t Sig.
B Error típ.
(Constante) 77,883 2,013 38,685 ,000 temperatura -1,896 ,284 -6,674 ,000 Variable dependiente: consum 3 Problema 1 - Solución.
En un estudio sobre la elección de la carrera universitaria, se envió un cuestionarios a todos los seleccionados en una muestra aleatoria simple de estudiantes preguntando la carrera que estarían interesados en estudiar. La información obtenida fue: 203 estudiantes eligen “Economía” y de éstos 125 son hombres; 120 estudiantes eligen “Matemáticas” y de éstos 75 son hombres; 13 estudiantes eligen “Literatura” y de éstos 5 son hombres; finalmente 120 eligen “Biología” y de éstos 90 son hombres.
1. Ordena los datos en una tabla de contingencia.
RECUENTOS Economía Matemáticas Literatura Biología hombres mujeres 125 78 75 45 5 8 90 30 295 161 203 120 13 120 456 2. Contrasta la hipótesis nula que no existe relación entre el sexo de los estudiantes y la carrera elegida contra la alternativa que si hay relación. (Sugerencia: halla una tabla de recuentos esperados y una tabla con todas las contribuciones del test de referencia; indica los grados de libertad).
RECUENTOS ESPERADOS Economía Matemáticas Literatura Biología hombres 131.3268 77.63158 8.410088 77.63158 mujeres 71.67325 42.36842 4.589912 42.36842 CONTRIBUCIONES CHICUADRADO Economía Matemáticas Literatura Biología hombres 0.304796 0.089206 1.382708 1.970562 mujeres 0.558476 0.163452 2.533534 3.610657 chi-cuadrado grados de libertad 10.61339 3 Rechazo al 5 % pero no puedo rechazar al 1% 3. ¿Se puede rechazar la hipótesis nula al 5%? ¿Y al 1%? Se tiene que, P-valor = P(χ3>10.6) Como, 0.01 = P(χ3 > 11.34) < P-valor < P(χ3 > 7.81)=0.05 rechazamos la hipótesis nula de independencia del sexo en la elección de la carrera universitaria al nivel de significación del 5% pero no la podemos rechazar al 1%.
1 Problema En un estudio sobre la polución que provocan los automóviles se examina la potencia de diferentes marcas de automóviles, medida en unidades CV.
Se ha anotado también el país de origen del modelo, pues se sospecha que, como el precio medio de la gasolina es claramente diferente en EEUU, que en Europa y que en Japón, esto influencia en que los consumidores prefieran coches con más potencia provocándose de esta manera más polución.
Para la variable potencia en cada uno de los grupos se tiene, Resumen del procesamiento de los casos Casos Válidos Potencia (CV) País de origen EE.UU.
N Perdidos Porcentaje N Total Porcentaje N Porcentaje 249 98,4% 4 1,6% 253 100,0% Europa 71 97,3% 2 2,7% 73 100,0% Japón 79 100,0% 0 ,0% 79 100,0% Hemos realizado un Análisis de la Varianza para esta variable, obteniendo los siguientes resultados (sabiendo que se cumplen las condiciones de aplicabilidad), ANOVA Potencia (CV) Suma de cuadrados gl Media cuadrática Inter-grupos (1) XXX (2) XXX (5) XXX Intra-grupos 447916,290 (3) XXX (6) XXX Total 591955,419 (4) XXX F Sig.
(7) XXX XXX ¿Cuál serían la hipótesis nula y la alternativa asociadas al contraste propuesto en el Análisis de la Varianza? Sean µ1, µ2 y µ3 la potencia media en EEUU, Europa y Japón respectivamente. Se contrasta, H 0: µ 1 = µ 2 = µ 3 Ha: Existe alguna diferente 1. Completa los puntos (1) a (7) de la tabla anterior.
(1)= (2)= (5)= (7)= 591955,419- 447916,290 = 3-1 = 144039,1290 / 2= 72019,56 / 1131,102= 144039,1290 2 (3)= 72019,56 (6)= 63,6721 399-3= 447916,290 / 396 = 396 (4)= 1131,102 447916,290 591955,419 399-1= 398 1 ¿Cuál es el p-valor correspondiente al contraste planteado en el Análisis de la Varianza? Justifica tu respuesta.
p-valor = P ( F 2, 396 > 63,6721 ) ≈ 0 pues, P ( F 2, 200 > 5,63 ) = 0,001 y P ( F también.
2, 1000 > 5,46 ) = 0,001 2. Para el Análisis de la Varianza planteado, ¿cuál es tu decisión? Rechazamos la hipótesis nula, esto es se han observado evidencias en la muestra de que las medias de la potencia de los coches son diferentes para los tres grupos.
2 Taula pels exercicis 1 a 8.
Volem estudiar si hi ha relació entre 4 estudis determinats i el sexe de les persones. Les freqüències observades són: homes 125 75 5 90 295 Economia Matemàtiques Literatura Biologia dones 78 45 8 30 161 203 120 13 120 456 Les freqüències esperades són: homes dones 131.3268 71.67325 77.63158 42.36842 8.410088 4.589912 77.63158 XXXXX Economia Matemàtiques Literatura Biologia Els valors (O − E ) 2 /E: homes dones 0.304796 0.558476 0.089206 0.163452 1.382708 2.533534 1.970562 XXXXX Economia Matemàtiques Literatura Biologia xi-cuadrat observat graus de llibertat 10.61339 XXXXX 1) Quina és la hipòtesi nul·la del test anterior? a)No hi ha relació entre les variables. * b)No hi ha independència entre les variables.
c)La mitjana és la mateixa en tots els grups.
2) Quina és la freqüència esperada que manca? a) 19320 b) 42,36842 * c) 0,09291 3) Quin és el valor (O − E ) 2 / E que manca? a) 152,9773 b) 5,099243 c) 3.610657 * 4) Quants graus de llibertat té la funció distribució que s’ha de fer servir per calcular el p_valor? a) 8 b) 3 * c) 6 1 5) Com calculem el p_valor? a) P(χ6>10.6) b) P(χ3<10.6) c) P(χ3>10.6)* 6) Entre quins valors podem trobar el p_valor? a) 0,01 > p_valor > 0,05 b) 0,01 < p_valor < 0,05 * c) 0,01 < p_valor < 0,005 7) Si treballem amb un nivell de significació del 5% aleshores: a) Podem dir que no hi ha relació entre les variables.
b) Podem dir que hi ha relació entre les variables. * c) Les variables són independents.
8) Si treballem amb un nivell de significació del 1% aleshores: a) Podem dir que no hi ha relació entre les variables.* b) Podem dir que hi ha relació entre les variables.
c) Les variables no són independents.
2 Taula pels exercicis del 1 al 4.
ANOVA Suma de quadrats Mitja quadràtica gl Inter-grups 144039,129 2 72019,56 Intra-grups 447916,290 396 1131,102 Total 591955,419 398 F Sig.
63,6721 XXX 1) Hem fet una ANOVA, amb quina distribució de probabilitat calcularíem el p_valor? a) Amb una F de Fisher. * b) Amb una t Student.
c) Amb una Xi-cuadrat.
2) Hem fet una ANOVA.
Quants graus de llibertat té la nostra probabilitat? distribució de a) 2 en el numerador i 396 en el denominador. * b) 396 en el numerador i 2 en el denominador.
c) 2 graus de llibertat.
3) Hem fet una ANOVA.
Quina hipòtesi no rebutjaríem? a) Les mitjanes són iguals.
b) Hi ha alguna mitjana diferent.* c) Manca informació per poder-ho fer.
4) Hem fet una ANOVA.
El p_valor: a) p_valor < 0,001 * b) p_valor > 0,001 c) No ho podem saber, no hi ha prou informació a les taules 1 Taules exercicis 1 a 6.
Volem estudiar si existeix una relació lineal entre la temperatura (en graus) i el consum energètic (en Kilowatts dia) temperatura 0 8 7 13 10 8 4 -11 -7 -8 1 0 2 -6 -4 consum 70 57 60 63 60 66 67 107 96 88 80 64 79 82 97 Temperatura Correlació de Pearson 1 Sig. (bilateral) Correlació de Pearson Sig. (bilateral) 15 1 15 Coeficients no estandaritzats B 1 15 -,880(**) ,000 N Model -,880(**) ,000 N Consum Consum Error típ.
15 t Sig.
B Error típ.
(Constant) 77,883 2,013 38,685 ,000 temperatura -1,896 ,284 -6,674 ,000 1) A partir de la sortida de regressió de SPSS, quin és el valor del coeficient de Determinació? a) -0,880 b) -0,774 c) 0,774 * 2) Quin valor té el valor del coeficient de correlació lineal? a) -0,880 * b) -0,774 c) 0,774 3) Quina és la recta de mínims quadrats? a) a=77,883 b=-1,896 * b) a=77,883 b=1,896 c) a=-1,896 b=77,883 1 4) Que ens diu el test de linealitat? a) Que β = 0 b) Que β és diferent de 0 * c) Que β = 77,883 5) Quina és la recta de regressió y = a + bx? a) a=0 b=-1,896 b) a=77,883 b=-1,896 * c) No existeix recta de regressió.
6) Quina és la predicció per una temperatura de 3 graus? a) Predicció de consum =77,88 – 1,90·3=72,18 * b) Predicció de consum =77,88 c) Predicció de consum =77,88 +1,90·3=83,58 2 ESTADÍSTICA – QÜESTIONARIS PER PRACTICAR (RESOLTS) QÜESTIONARI 2 (No SPSS) 1. Quin valor té P(Z > 0)? a) -0,5 b) 0 c) 0,5 2. Quin valor té P(Z = 0)? a) -0,5 b) 0 c) 0,5 3. La probabilitat de P(-2 < Z < 2) és del: a) 95,5% b) 90% c) 68% 4. Quina és la probabilitat de P(Z > 3)? a) 0,3% b) 2,5% c) 0,15% 5. Quina és la probabilitat de P(Z < -3)? a) 0,15% b) 0,3% c) 2,5% 6. Quina és la probabilitat de P(-1,03 < Z < 2,17)? a) 0,1515 b) 0,8335 c) 0,9850 7. Segons la informació de la empresa envasadora, les ampolles d’aigua de 5 litres són envasades segons una distribució normal de mitjana 5 litres i desviació típica 0,012 litres. Quin % de les ampolles contindran menys de 5 litres? a) 0 b) 0,5 c) 0,05 8. Segons la informació de la empresa envasadora, les ampolles d’aigua de 5 litres són envasades segons una distribució normal de mitjana 5 litres i desviació típica 0,012 litres. Quin % de les ampolles contindran 5 litres? a) 0 b) 0,5 c) 0,05 9. Segons la informació de la empresa envasadora, les ampolles d’aigua de 5 litres són envasades segons una distribució normal de mitjana 5 litres i desviació típica 0,012 litres. Quin % de les ampolles contindran més de 5,036 litres? a) 0,0015 b) 0 c) 0,5 10. Segons la informació de la empresa envasadora, les ampolles d’aigua de 5 litres són envasades segons una distribució normal de mitjana 5 litres i desviació típica 0,012 litres. Quin % de les ampolles contindran més de 5 litres? a) 0,5 b) 0,05 c) 0 11. Segons la informació de la empresa envasadora, les ampolles d’aigua de 5 litres són envasades segons una distribució normal de mitjana 5 litres i desviació típica 0,012 litres. Quin % d’ampolles contindran entre 4,988 i 5,036 litres? a) 95% b) 84% c) 99,7% 12. Una associació de consumidors vol saber si realment l’empresa compleix amb el que diu. Per aquest motiu selecciona 16 ampolles i calcula la mitjana del seu contingut. Quina és la distribució de la mitjana del contingut de les 16 ampolles? a) N ( 5 , 0,003), on 0,003 és la desviació típica b) N ( 5, 0,012), on 0,012 és la desviació típica c) N ( 1, 0,012), on 0,012 és la desviació típica 13. Segons la informació de l’empresa envasadora, les ampolles d’aigua de 5 litres són envasades segons una distribució normal de mitjana 5 litres i desviació típica 0,012 litres. Una associació de consumidors vol saber si realment l’empresa compleix amb el que diu, per aquest motiu selecciona 16 ampolles i calcula la mitjana del seu contingut. Quina és la probabilitat de que la mitjana sigui inferior a 4,99 litres? a) 0,2033 b) 0,9996 c) 0,0004 14. Segons la informació de l’empresa envasadora, les ampolles d’aigua de 5 litres són envasades segons una distribució normal de mitjana 5 litres i desviació típica 0,012 litres. Una associació de consumidors vol saber si realment l’empresa compleix amb el que diu, per aquest motiu selecciona 16 ampolles i calcula la mitjana del seu contingut. L’interval de probabilitat, per la mitjana al 95%, per a mostres de 16 ampolles és: a) 5 ± 2,57*0,003 b) 5 ± 1,96*0,003 c) 5 ± 1,64*0,012 15. Segons la informació de l’empresa envasadora, les ampolles d’aigua de 5 litres són envasades segons una distribució normal de mitjana 5 litres i desviació típica 0,012 litres. Una associació de consumidors vol saber si realment l’empresa compleix amb el que diu, per aquest motiu selecciona 16 ampolles i calcula la mitjana del seu contingut. L’interval de probabilitat, per la mitjana al 95%, per a mostres de 16 ampolles és: a) [4,9803 ; 5,0197] b) [4,9941 ; 5,0059] c) [4,9923 ; 5,0077] 16. La proporció d’estudiants que a l’estiu treballen és del 43%. Si seleccionem a un estudiant a l’atzar, quina és la probabilitat de que a l’estiu treballi? a) 0 b) 0,43 c) 0,57 17. La proporció d’estudiants que a l’estiu treballen és del 43%. Si seleccionem a un estudiant a l’atzar, quina és la probabilitat de que a l’estiu no treballi? a) 0 b) 0,43 c) 0,57 18. La proporció d’estudiants que a l’estiu treballen és del 43%. Si seleccionem una mostra de 25 estudiants, quina és la probabilitat de que la proporció que treballen a l’estiu superi el 44%? a) 0,4602 b) 0,5398 c) 0,4920 19. La proporció d’estudiants que a l’estiu treballen és del 43%. El marge d’error al 99%, per mostres de 9 estudiants, per la proporció d’estudiants que treballen és: a) 0,4241 b) 0,3234 c) 0,2706 20. La proporció d’estudiants que a l’estiu treballen és del 43%. El marge d’error al 99%, per mostres de 9 estudiants, per la proporció d’estudiants que no treballen és: a) 0,4241 b) 0,3234 c) 0,2706 21. La proporció d’estudiants que a l’estiu treballen és del 43%. L’interval de probabilitat al 99%, per mostres de 9 estudiants, per la proporció d’estudiants que treballen és: a) 0,57 ± 0,4241 b) 0,43 ± 0,4241 c) 0,43 ± 0,3234 22. En els intervals de confiança: a) No coneixem els paràmetres de la població i sí els estadístics de la mostra b) No coneixem ni els paràmetres de la població ni els estadístics de la mostra c) Coneixem els paràmetres de la població i volem saber el comportament de les mostres 23. En els intervals de probabilitat: a) No coneixem els paràmetres de la població i sí els estadístics de la mostra b) No coneixem ni els paràmetres de la població ni els estadístics de la mostra c) Coneixem els paràmetres de la població i volem saber el comportament de les mostres QÜESTIONARI 3 (No SPSS) 1. Volem estudiar la proporció de gent que està a favor d’un canvi en una llei. Quina ha de ser la mida de la mostra mínima que hem d’escollir per tal que el marge d’error no superi el 0,001 amb un nivell de confiança del 95%? a) 1.000 b) 1.000.000 c) 10.000 2. Volem estudiar la proporció de gent que està a favor d’un canvi en una llei. Quina ha de ser la mida de la mostra mínima que hem d’escollir per tal que el marge d’error no superi el 0,01 amb un nivell de confiança del 99%? a) 16.513 b) 6.724 c) 9.604 3. Si estem fent un test d’hipòtesis i el p_valor és 0,001 i el nivell de significació 0,01, aleshores: a) Refutem la hipòtesi nul·la c) No refutem la hipòtesi nul·la c) Cap de les anteriors, manca informació 4. Si estem fent un test d’hipòtesis i el p_valor és 0,1 i el nivell de significació 0,05, aleshores: a) Refutem la hipòtesi nul·la c) No refutem la hipòtesi nul·la c) Cap de les anteriors, manca informació ...