Tema 1 i 2 (2015)

Apunte Catalán
Universidad Universidad Pompeu Fabra (UPF)
Grado Criminología y Políticas Públicas de Prevención - 2º curso
Asignatura Estadística inferencial
Profesor A.C.
Año del apunte 2015
Páginas 21
Fecha de subida 31/03/2015
Descargas 20
Subido por

Vista previa del texto

Tema 1: Introducció a la Inferència estadística Què és la Inferència estadística? És la ciència (o l’art) d’extreure conclusions sobre una població a partir de la informació que subministra una mostra Anàlisi de dades i inferència estadística (distinció) Estadística descriptiva (Anàlisi de dades) Estadística inferencial Objectiu: Exploració de les dades a la recerca de resums i patrons de comportament.
Conclusions: Només s'apliquen als individus i circumstàncies en què s'han obtingut les dades.
Objectiu: Respondre a preguntes concretes plantejades abans de la obtenció de les dades (mostra).
Estimació del valor d’un paràmetre o contrast empíric d’una hipòtesi.
Conclusions: S'apliquen a un grup més ampli d'individus (població).
Les conclusions s'acompanyen del grau de confiança que tenim en elles.
Fases en la planificació d’una investigació estadística:  Definició d'objectius, plantejament d’una teoria, concreció d’una hipòtesi,...
 Especificació d’un model (si s’escau)  Obtenció de dades  Anàlisi  Inferència (si s’escau)  Elaboració de conclusions, (increment de coneixement del fenomen, suport a la presa de decisions) EL LLENGUATGE DE LA INFERÈNCIA ESTADÍSTICA Població i mostra Anomenem “població” al grup de persones o unitats que són motiu del nostre interès. Els membres individuals de la població s’anomenen unitats.
Una mostra és una part de la població que s’examina per obtenir informació.
Paràmetre i estadístic Paràmetre És un número concret que descriu una població. La població que ens interessa estudiar està caracteritzada per un o més paràmetres. Cada paràmetres és un número fix .
Estadístic És un número que calculem a partir d’una mostra. Un estadístic descriu la mostra.
El valor de l’estadístic pot canviar de mostra a mostra perquè depèn dels integrants que hi ha a la mostra. Sovint utilitzem un estadístic per estimar un paràmetre desconegut.
Exercici: Identifica el paràmetre, l’estadístic i la població en el context següent: “El 2012, una mostra aleatòria de 1410 estudiants catalans de 15 anys varen participar en l’estudi PISA. Pel que fa a comprensió lectora, la nota mitjana dels 1410 estudiants va ser de 501 punts.” Mostra: 1410 Mitjana: 501 Població: Joves catalans Paràmetre: Mitjana de la comprensió lectora de la població Estadístic: Mitjana de la comprensió lectora de la mostra Probabilitat: conceptes, regles i altres eines de càlcul La teoria de la probabilitat és una part de la matemàtica que estudia els resultats dels fenòmens aleatoris .
Característiques dels fenòmens aleatoris  Abans de fer l’experiment no sabem que sortirà.
 Coneixement del conjunt de possibles resultats.
 Existeix un patró de comportament.
Exemple del dau Exercici: identifiqueu l’espai de resultats associat a cadascun dels següents fenòmens aleatoris 1. Tirem una moneda fins que surt cara. Anotem el nombre de tirades necessàries Ω= {1,2,3... } 2. Tirem una dau i anotem la cara superior Ω= {1,2,3,4,5,6} 3. Tirem dos daus i anotem el resultat Ω= {(1,1), (1,2), (1,3)...(2,1), (2,2)...(6,6)} 4. Tirem dos daus i anotem la suma Ω={2,3,4,5,6,7,8,9,10,11,12} P(S=2): P(1,1): 1/36 P(S=3): P{(1,2), (2,1)}: 2/36 Suposeu que llancem un dau perfecte i observem la cara superior.
• Probabilitat del succés A =“obtenir un número senar”? P(A): {1,3,5} P(A): 3/61/2 • Probabilitat del succés B=“ que el número sigui ≥ 5”? P(B): {5,6} P(B): 2/61/3 Suposeu que llancem dos daus perfectes a l’atzar • Probabilitat d’obtenir una suma de 10? I una suma d’11? P(S=10) P{(4,6), (6,4), (5,5)} 3/36 P(S=11){(5,6), (6,5)}2/36 Exemple: Tirem 2 cops una moneda perfecta i observem els resultats.
- Quin és l’espai mostral? Ω= {CC,C+,+C,++} - Quin és el succés A=”que com a mínim surti una cara” A= {CC,+C,C+} - Calcula la probabilitat d’A.
CC: 0,5x0,5=0,25 C+: 0,5x0,5=0,25 1 +C: 0,5x0,5=0,25 ++: 0,5x0,5=0,25 P(A)=0,25+0,25+0,25=0,75 ó 1-P(++)=1-0,25=0,75 Diagrama de Venn Ac= {++} Llenguatge Univers o conjunt de resultats Notació Ω Succés o esdeveniment A,B,C...
Succés impossible Ø Succés complementari a A Ac, Ā, no A Diagrama Ac=/// Succés intersecció (que passi Ai B A∩B, AB, A i B a la vegada) A∩B=/// Succés unió, que passi A o B AB=/// AB, A o B A i B són mútuament excloents Condició A∩B=Ø (no es poden donar a la vegada) REGLES DE LA PROBABILITAT Sigui A un succés relatiu a un fenomen aleatori Regles (o axiomes) de la probabilitat:  P(A) serà una quantitat entre 0 (succés impossible) i 1 (succés segur), 0≤ P(A) ≤1  El conjunt de tots els possibles resultats té probabilitat igual a 1, P(Ω)= 1  Sempre que A i B no tinguin cap resultat en comú (siguin mútuament excloents o incompatibles), P(AB) = P(A) + P(B). Regla de la suma restringida.
A=Senars B= ≥ 5 AB= {1,3,5,6} A∩B= {5} ∩: Intersecció : Unió Regla del complementari Pregunta: Coneguda la probabilitat del succés A, podem deduir la del succés complementari Ac? P(Ac)= 1 – P(A) Regla de la suma en general Pregunta: Si A i B són dos esdeveniments qualsevol, quina serà la probabilitat del succés AB? P(AB)= P(A)+ P(B) En canvi, quan no són mútuament excloents: P(AB)= P(A)+P(B)- P(A∩B) Demostració: P(AB)= P(A)+P(B∩Ac)= P(A)+P(B)- P(B∩A) AB= A (B∩Ac) Probabilitat d’un succés: És el succés intersecció amb un altre + el succés intersecció amb el seu complementari.
B= (BA) (B∩Ac)P(B)=P(B∩A) + P(B∩Ac) Exercici: Tenim una bossa amb 5 boles, 3 són blanques i 2 vermelles. Considerem el següent experiment aleatori: es fa extracció d’una bola a l’atzar i s’observa. Considerem els successos A= “que surti 1” i B=“bola blanca”. Algunes boles porten un 1 i altres un 3 (Com en el dibuix).
Determineu el valor de: P(A), P(B), P(AB), P(A∩B).
Hem tret una bola i hem vist que és blanca, quina és la probabilitat de que porti un 1? Succés A= “que surti 1” Succés B= “que la bola sigui blanca” P(AB)= “que surti 1 o que sigui blanca” P(A)= P(AB)= P(B)= P(A∩B)= P(A│B)= P(A│B)= Probabilitat d’A sabent que ha succeït B, o sota la condició de B.
En aquest cas: P(A│B)=P(A sabent que la bola és blanca), per tant A depèn de B.
Si hem tret una bola i és vermella, quina és la probabilitat de que porti un 1? ½=50% P(A│Bc).
Regla del producte Pensem ara en el succés “que passin A i B a la vegada”, que representem per símbol A∩B i també per AB.
P(A∩B) = P(B)·P(A│B) P(A∩B) = P(A)·P(B│A) Exercici: Tenim una baralla i hi ha 4 pals, 12 cartes a cada pal i 48 cartes en total. Primer treiem una carta i ens la quedem i després agafem una altre. Quina és la probabilitat d’obtenir 2 reis? P(R1∩R2)= = P(R1)·P(R2│R1) Exercici: Traiem 2 cartes d’una baralla amb reposició. Quina és la probabilitat de doble rei? P(R1∩R2)= = P(R1)·P(R2│R1) La probabilitat de rei la segona vegada que agafes carta no ve condicionada per la probabilitat R1.
CONCEPTE D’INDEPENDENCIA Direm que dos esdeveniments són independents quan el fet de saber que un dels dos ha succeït no modifica la probabilitat de l’altre, és a dir, quan la probabilitat d’un és el mateix que la probabilitat condicionada.
P(A)= P(A│B) o P(B)= P(B│A) Una manera alternativa de comprovar la independència, és veure si: P(A∩B)= P(A)·P(B) Quan dos esdeveniments són independents, la probabilitat de que passin els dos a la vegada és igual al producte de probabilitats: Així obtenim una regla del producte restringida.
Exercici: Tenim una urna amb 3 boles blanques, 4 verdes i 2 blaves. Quina és la probabilitat: A,V,B, A│V i A│B? Successos: A=”Que surti 1” V=”Que surti bola vermella” G=”Que surti bola verda” B=”Que surti bola blava” P(A)=6/9 P(A│V)=  Probabilitat d’A sabent que ha succeït V P(A│B)= Probabilitat d’A sabent que ha succeït B P(V)= 3/9 P(B)= 2/9 Com són A i V? [Comprovem si P(A)= P(A│V)] P(A)= 6/9=2/3 i P(A│V)=2/3 Com que P(A) i P(A│V) són iguals, aleshores són independents.
Com són A i B? [Comprovem si P(A)= P(A│B)] P(A)= 2/3 i P(A│B)= 1/2 Com que P(A) ≠ P(A│B) aleshores són dependents.
VARIABLES ALEATÒRIES Variable aleatòria És tota variable que té per valors els possibles resultats numèrics d’un experiment aleatori. Les variables aleatòries es representaran en majúscules, X, Y, Z,... i els valors que prenen en minúscules.
Variables aleatòries discretes X és una v. a. discreta si pren un nombre finit o infinit numerable de valors x 1, x2,..x3,... amb probabilitats pi que verifiquen les propietats següents: • 0  pi  1 • ∑i pi = p1 + p2+... = 1 Notació: pi = P [ X = xi ] Exemple: Tirem una moneda amb probabilitat de cara igual a 0,7 dos cops i observem el resultat.
Considereu la variable X=“número de cares”. Trobeu la distribució de probabilitat de X.
Variable aleatòria X=núm. de cares Resultats Valors d’X Distribució de probabilitat CC 2 P(X=2)= 0,7x0,7= 0,49 C+ 1 P(X=1)= 0,7x0,3+0,7x0,3=0,42 +C ++ 0 P(X=0)=0,3x0,3= 0,09 Suma total = 1,00 Distribució de la probabilitat (esquema) Esperança d’una v.a. discreta X Definició: E (X) = x1p1+x2p2+... = ∑ x1p1 EsperançaÉs el mateix que dir mitjana o valor esperat d’X.
interpretació geomètrica: centre de gravetat de la distribució, punt d’equilibri en el diagrama de barres corresponent Freq. absoluta x1 f1 x2 f2 x3 f3 Exemple: En una capsa hi ha quatre boles {1, 1, 2, 4}. En traiem una a l’atzar. Guanyem en euros el valor X de la bola. Quina és l’esperança de X? Com s’interpreta aquest valor? Si es tractés d’un joc d’atzar que ofereix un casino, quin seria el preu just per participar en aquest joc? Calculem l’esperança 1 2/4 2 1/4 4 1/4 Resposta: El guany just seria 2 €.
Exercici: Suposem que Ai B són dos successos independents i sabem P(A)= 0,6 i P(B)= 0,2. Quant és P(A│B), P(A∩B) i P(AB).
P(A∩B)= 0,6x0,2= 0,12 P(AB)= P(A)+ P(B)- P(A∩B)= 0,6 + 0,2 – 0,12= 0,68 P(A│B)= Independents El fet que passi un no condiciona la probabilitat de l’altre.
És a dir, quan hi ha independència P(A∩B)= P(A) · P(B) quan no hi ha independènciaP(A∩B)= P(A) · P(B│A) Situacions d’independència - Llançaments successius d’una moneda o d’un dau - Extraccions successives de cartes d’una baralla finita amb reposició.
- Extraccions successives de cartes sense reposició d’un gran col·lectiu (quan hi ha milers d’individus) Si el producte P(A) i P(B) és el mateix que P(A∩B) aleshores són independents.
Propietats de l’operador esperança Si una variable és constant la seva variable és ella mateixa, és a dir: Si X = a constant, llavors E(X)=a Quan la variable es desplaça, aleshores: E (X+a) = EX + a Quan multipliquem tots els valor d’X per un número, l’esperança queda multiplicada E (aX) = a·EX Variància i Desviació Estàndard d’una variable aleatòria X La variància d’una variable aleatòria [(2) o V(x)] vol informar de la dispersió de la variable aleatòria. És l’esperança de (x-µ)2 E(x-µ)2. Per tant, la variància és la mitjana dels quadrats de les desviacions de X respecte de .
La desviació estàndard (DE(x) o SD(x)) és l’arrel quadrada de la variància.
σx = √V(x) La variància i la desviació estàndard (o típica) són mesures de la variabilitat de X al voltant del valor esperat .
Només quan la variable sigui constant la variància por ser igual a 0.
Exercici: Com calculem la mitjana de les desviacions(x-µ)? (x1-µ1)·p1= -1x0,5= 0,5 (x2-µ2)·p2= 0x0,25= 0 0 (x3-µ3)·p3= 4x0,25= 0,5 Propietats de la variància 1) V(X)  0 2) V(X)=0  X=a constant 3) V(X+a) = V(X) 4) V(aX)=a2V(X) 5) V(X) = E(X-)2 =E(X2)-(EX)2 La variància en l’àmbit de la criminologia i la justícia: una mesura de la variabilitat en resultats quantitatius, un element informatiu importantíssim a tenir en compte en l’elaboració de conclusions.
El paper de la desviació estàndard Z= Nombre de desviacions estàndards que separen el valor original de la mitjana.
VARIABLES ALEATÒRIES CONTÍNUES. LES LLEIS NORMALS. LA LLEI NORMAL ESTÀNDARD Z.
Variables aleatòries continues Una variable aleatòria contínua és aquella que pot prendre tots els valors d’un interval de la recta real.
La distribució o llei “normal” (corba de Gauss amb forma de campana) és un exemple de variable aleatòria contínua.
En una variable contínua ˂ és igual que ≤, perquè no pot ser que cada valor tingués una probabilitat ja que el ventall de números possibles és infinit. Sinó la suma de probabilitats mai donaria 1.
La probabilitat d’x en m<x<n és l’àrea sota la corba entre el valor de la m i de la n.
La família de les variables aleatòries normals Z normal estàndard Z ~N (µ=0, =1) ~= Segueix el model N= normal Exercici: Quina és l’àrea sobre la corba a l’esquerra del 3? P(Z<3)= 0,9987 Quina és l’àrea sobre la corba a la dreta de l’1? P(Z>1)= 1-P(Z>1)= 1- 0,8413= 0,1587 Exercici. Tirem a l’atzar 2 daus. Sigui S la variable aleatòria suma de les dues cares. Quina és la probabilitat de: P(S=4) P[(1,3), (3,1), (2,2)]3/36 P(S<4)P[(1,1), (1,2), (2,1)]3/36 P(S≤4)P[(1,1), (1,2), (2,1), (1,3), (3,1), (2,2)] 6/36 Exercici. Sigui Z la variable aleatòria normal estàndard Z~N(µ=0, σ=1), o sigui, Z~N(0,1). Es demana la representació gràfica de: P(Z>1,96)= 1- 0,9750= 0,025 P(1<Z<2)P(Z< 2)- P(Z< 1)= 0,9772 – 0,8413= 0,1359 Hi ha un 13,59% de probabilitats d’estar entre l’1 i el 2.
P(-1< Z< 1)P(Z<1) – P(Z<-1)= 0,8413 – 0,1587= 0,6826 Hi ha un 68,26% de probabilitats d’estar entre el -1 i el 1.
P(-2< Z< 2) P(Z<2) – P(Z<-2)= 0,9772 – 0,0228= 0,9544 Hi ha un 95,44% de probabilitats d’estar entre el -2 i el 2.
P(-3< Z< 3)P(Z<3) – P(Z<-3)= 0,9987 – 0,0013= 0,9974 Hi ha un 99,74% de probabilitats d’estar entre el -3 i el 3.
P(-1,96< Z< 1,96)P(Z<1,96) – P(Z<-1,96)= 0,95 Hi ha un 95% de probabilitats d’estar entre el -1,96 i el 1,96.
Exercici. Suposeu ara una distribució normal X de mitjana 5 i de desviació estàndard 2.
a) Representeu aquesta distribució b) Penseu en algun conjunt de dades reals que pugui tenir aquest “patró” de distribució.
c) Trobeu les probabilitats següents relatives a X. Representeu les probabilitats calculades.
P(x<5)=0,5 En aquest cas es veu clarament, ja que 5 es la mitjana de la distribució i per tant, el 50%. Això, també es pot calcular estandarditzant: Fórmula de la estandardització: Aleshores, P(x<5)= P = P(Z<0)= 0,50 Quan tinguem una incògnita (com en el cas P(x>1) = P ) serà Z.
= P (Z>-2)= P(1- P(x<-2))= 1-0,0228= 0,9772.
Nomes estandarditzem quan µ no sigui igual a 0, és a dir, quan µ≠0.
LA LLEI DELS GRANS NOMBRES alçades en cm 155 160 165 170 175 180 185 f 6 14 15 20 19 16 10 100 fr 0,06 0,14 0,15 0,20 0,19 0,16 0,1 1 x·fr 9,3 22,4 24,75 34 33,25 28,8 18,5 171 mitjana µ (x-µ)^2 256 121 36 1 16 81 196 ((x-µ)^2)·fr 15,36 16,94 5,4 0,2 3,04 12,96 19,6 73,5 variància σ^2 σ = 8 , 6 Distribució d'alçades freqüència 25 20 15 10 5 0 155 160 165 170 175 180 185 alçada en cm Suposem que en una caixa hi posem 100 fitxes, una per cada persona amb la seva alçada i que fem extracció a l’atzar de 5 fitxes. Suposem que la mostra de 5 resulta ser: 175, 170, 165, 185, 170. L’alçada mitjana d’aquestes cinc persones és 865/5=173 cm.
Ens preguntem: Pot ser que en fer extracció a l’atzar de 5 persones, la mitjana de les alçades sigui un valor extrem, per ex. 185? Si que és possible però molt poc probable (0,00001%).
Llei dels grans nombres Si fem extracció a l’atzar de n observacions independents d’una població X de mitjana µ, com més gran és n més probable és que la mitjana d’aquestes n observacions s’apropi a µ. Les mitjanes són menys variables que les observacions individuals perquè tenen menys dispersió. És a dir, els valors centrals són els més probable de que surtin.
Exercici. Representa i calcula: P(-1,96 <Z< 1,96) si Z~N(0,1) 0,9750-0,0250=0,95 P(µ-1,96σ <x <µ+1,96σ) si x~N(µ,σ) Estandarditzem: P(-1,96<Z<1,96)=0,95 Tema 2. Estadístics i distribucions mostrals. Estimació de la mitjana i de la proporció poblacionals.
TEOREMA DEL LÍMIT CENTRAL I DISTRIBUCIÓ DE LA MITJANA MOSTRAL Suposem Població X (numèrica) amb distribució de forma qualsevol, mitjana μ i variància σ2 finita. S’extreu una mostra aleatòria de X (n observacions independents) i es calcula la corresponent mitjana mostral. Suposant que repetíssim aquest procés moltes i moltes vegades, què es pot dir dels valors de la mitjana mostral? 1) Els valors de se situen al voltant de la mitjana μ.
2) La variància de és igual a σ2/n 3) Quan n és gran, la distribució de la mitjana mostral és aproximadament normal Aquests resultats es poden demostrar matemàticament i es coneixen com el Teorema del Límit central (TLC).
Vegem gràficament què volen dir aquests resultats: llavors, es pot demostrar que és aprox. normal Inclús de manera més general, el TLC estableix que tota variable que resulti de la suma de moltes petites influències independents és aproximadament normal.
Aleshores, el teorema del límit central indica que la distribució de la suma estandarditzada de variables aleatòries independents que tenen una variància finita tendeix a una distribució normal estàndard quan el nombre de termes de la suma creix indefinidament. Com a conseqüència d'aquest teorema, s'explica el fet que moltes variables aleatòries siguin aproximadament normals i justifica la importància teòrica i pràctica de la distribució normal.
Aplicació. Volem estimar μ. Hem tret una mostra aleatòria de X població i hem calculat . Què val μ? Amb una confiança del 95% es troba entre P(la distancia entre μ i sigui inferior a )= 0,95 A la llarga, de cada 100 mostres que escollim, per 95 d’elles la diferència entre el valor del paràmetre μ i el valor de l’estimació serà inferior a 1,96 vegades l’error estàndard.
Per tant, un cop hem escollit una mostra en concret i hem calculat el valor de l’estadístic x corresponent, si fem: [ x - 1.96σ/√n ; x +1.96σ/√n].
Tindrem una garantia del 95% que el verdader valor de μ es trobarà entre aquests dos extrems. Hem construït el que es coneix com a Interval de confiança del 95% per a μ.
Observació: en la construcció d’aquest interval es pressuposa que σ (la desviació estàndard de X) és coneguda.
Observació: aquest interval és exacte si la població X és normal i aproximat si no ho és però n és gran (n>30).
Estimació de la mitjana μ quan σ és coneguda Exemple: Segons dades relatives a Espanya de la ESS5, la mitjana d’anys de formació de les persones nascudes entre 1945 i 1954 (els que s’estan jubilant ara) és de 10,3 anys. En aquest estudi hi van participar 316 residents a Espanya. Suposem σ coneguda, igual a 5 anys (supòsit poc realista). Llavors l’interval de confiança del 95% per μ serà: Per tant, l’interval de confiança del 95% per l’estimació de μ: μ∈  µ [9,75; 10,85] El 95% de les vegades, µ estarà entre el 9,75 i el 10,85. El 5% de les vegades es trobarà fora d’aquest interval.
Recordem uns quans fets sobre la variable aleatòria Suposant que la població X té mitjana μ i desviació estàndard σ, i que escollim una mostra aleatòria de mida n i en calculem la seva mitjana, i que repetim aquest procés moltes vegades, llavors: és una variable aleatòria.
- té mijana μ i desviació estàndard (també anomenat error estàndard)= segueix una distribució aproximadament normal Ja sigui perquè la població X és normal o perquè n és suficientment gran (n>30).
Per a altres nivells de confiança El marge d’error es: Determinació de la mida de la mostra Tornem a l’exercici anterior. Suposem que seguim fixant el nivell de confiança en el 95%. Suposem σ coneguda, igual a 5 anys (supòsit poc realista). Aleshores, quina hauria d’haver estat la mida de la mostra per tal que el marge d’error no superés 0,5 anys? Quan volem que l’error sigui inferior a 0,05: Resposta: Quan la mostra sigui de 385 persones el marge d’error serà inferior a 0,5. Es recomanaria, doncs, una mostra de 385 ciutadans per tal que el marge d’error en l’estimació de μ fos inferior a mig any.
Determinació de la mida de la mostra n per a un nivell de confiança i un marge d’error establerts.
Exemple. Les anàlisis del nivell de potassi en la sang no són del tot precises. A més, per una mateixa persona aquest nivell varia d’un dia a l’altre. Suposem que es coneix la variabilitat en les anàlisis de potassi d’una mateixa persona (aproximadament normal, amb σ=0,2). En tres dies diferents una noia s’ha fet un anàlisis de potassi i la mitjana dels 3 nivells ha estat de 3,2.
Quin és l’interval de confiança del 90% per l’estimació del nivell mig de potassi en la sang d’aquesta noia? Per un nivell de confiança del 90%, el valor de z* és igual a 1,645. Aleshores, µ es troba entre 3,2+0,19 i 3,2-0,19. El 90% de les vegades el valor de potassi es trobarà dins de l’interval : µ[3,01; 3,39].
Si els metges alerten de que concentracions per sota de 3,8 es consideren preocupants (indici de pèrdua excessiva, de mal funcionament del ronyó,...) què se’n deriva de les nostres dades? Podem dir que aquesta noia té uns nivells de potassis rellevants ja que els seus nivells de potassis es troben per sota de 3,8.
Estimació de la mitjana μ quan σ és desconeguda D’una població X de la qual es desconeix tant la mitjana µ com la desviació estàndard σ, s’extreu una mostra aleatòria x1, x2,…,xn. A partir d’aquestes dades es calculen els estadístics mitjana i variància mostrals. és un estimador de µ mentre que S2 ho és de σ2.
Si no coneixem σ (de la població) la podem substituir per S (desviació estàndard de la mostra).
S és un estimador de σ (sigma). Per tant, l’equació queda així: És l’interval de confiança per µ on t és el valor que substitueix z i que depèn de la mida de la mostra i del nivell de confiança escollit.
Resum. L’interval de confiança per l’estimació de µ L’interval de confiança del 95% per l’estimació de µ és: Analitzant els termes de l’estimació s’observa: El marge d’error que sumem i restem a l’estimació puntual es calcula multiplicant un valor “crític” de Z per l’Error Estàndard de l’estimador.
Per altres nivells de confiança l’expressió de l’interval de confiança és: En cas de que σ sigui desconegut i sota la hipòtesis que la població X és normal, podem substituir en la fórmula el valor de σ pel de S, la desviació estàndard de la mostra, i construir un interval de confiança per µ a partir de la distribució de T-Student: Exercici. Determinem (fer amb taula fotocopia): P(T10>3)= el resultat és un número major de 0,005 però menor de 0,01.
P(T10>?)= 0,01 El resultat és 2,764 Resum.
Quan coneixem σ: X~N(µ?,σ coneguda). Gràcies al TLC sabem que µ= La mateixa µ que la població x.
= σ/√n .
Seleccionem una mostra aleatòria de mida n (x1,x2,x3...xn). Calculem: és una estimació puntual de µ. Amb un interval de confiança del 95% per µ: . Un 5% de les vegades hi hauria un interval que no contendria la mitjana poblacional.
Conclusió: µ pertany a l’interval [ ] Per a altres nivells de confiança: Quan no coneixem σ. Per tant, X~N(µ?,σ?). És un requisit que N sigui normal quan la mostra és petita, sinó no és estrictament necessari. Calculem l’interval de confiança serà: Si la mida de la mostra és molt gran aleshores la t és robusta (= la construcció és correcta).
ESTIMACIÓ D’UNA PROPORCIÓ P DE LA POBLACIÓ: A) DISTRIBUCIÓ DE L’ESTADÍSTIC PROPORCIÓ MOSTRAL Fins aquest punt hem abordat l’estimació del paràmetre mitjana μ per una variable aleatòria contínua X. Dedicarem el que segueix a un altre tipus de variables aleatòries: les anomenades categòriques i, entre aquestes, en particular, les dicotòmiques, aquelles que prenen solament dos valors. L’objectiu d’aquest tema és arribar a estimar el paràmetre proporció p.
Exercici. D’una població estadística X ens interessa la proporció d’individus o unitats que presenten una certa característica o propietat. Per exemple, volem conèixer la proporció de ciutadans que utilitzen preferentment el transport públic, o la intenció directa de vot a cert partit polític en les properes eleccions, o el percentatge de ciutadans que han patit alguna agressió a la via pública,...
Per simplificar podem classificar els ciutadans en dos grups: aquells que sí utilitzen amb preferència transport públic i la resta. Podem imaginar que a cada ciutadà li fem correspondre un codi: 1 per la resposta afirmativa i 0 per la negativa. Així, la variable X en la població pren els valors:1(Si) i 0(No) amb probabilitats respectives p i 1-p.
L’esperança o mitjana de X és: E(X)=1p+0·(1-p)=p µ=E(x)=p σ2= V(x)= E(x2)-µ2=02(1-p)+12·p-p2= p-p2= p·(1-p) σ= Per tant, la variància és: V(x)= E(x2)-µ2=02(1-p)+12·p-p2= p-p2= p·(1-p) I la desviació estàndard és: A la vida real fem una selecció a l’atzar d’una mostra d’individus (x1,x2,x3...xn).
Per exemple: Tenim una mostra de 5 persones.
n Si, No, Si, Si, Si.
La probabilitat de que surti un si és: Quina és la distribució de probabilitat de l’estadístic Observacions:  Cal que la grandària de la mostra sigui suficient per garantir que “actuï” el Teorema del límit central.
 Al mateix temps, en la majoria de situacions, cal garantir una certa precisió, fet que comporta que n’hagi de ser elevat.
 És recomanable que: B) ESTIMACIÓ PUNTUAL I INTERVAL DE CONFIANÇA PER A P Si volem estimar la proporció p d’individus (o unitats) en una població que tenen una certa característica i hem fet extracció d’una mostra aleatòria de mida n, llavors:  Calcularem la proporció d’individus que tenen aquesta característica en la mostra.
Aquest valor representa una estimació puntual de p  L’interval de confiança del 95% per l’estimació de p vindrà donat per: Exemple. A una mostra aleatòria de 2500 barcelonins se’ls ha preguntat si utilitzen preferentment transport públic. Els resultats de l’enquesta són:870 responen que SI, 1630 responen que NO i Es demana: •Proporció de ciutadans que utilitzen preferentment el transport públic entre els enquestats •Estimació de la “verdadera” proporció p de barcelonins que utilitzen preferentment el transport públic (per un nivell de confiança del 95%) Interval de confiança =  •Interpretació de l’interval construït per a p p en percentatge es troba entre [32,9% i 36,7%]. El % de persones que usen transport públic és del 34,8% amb un marge d’error de 1,86% i un IC del 95%.
Fórmula general per IC per p Hem de tenir en compte que: Exercici. Quina és la proporció d’estudiants de la UPF que utilitzen la biblioteca el cap de setmana.
La mostra és de 1000 estudiants. 240 diuen que Si, mentre que 760 diuen que No.
•Proporció d’estudiants que van a la biblioteca el cap de setmana  Estimació de la “verdadera” proporció p d’estudiants que van a la biblioteca el cap de setmana (per un nivell de confiança del 95%)  Interval de confiança = •Interpretació de l’interval construït per a p p en percentatge es troba entre [26,6 i 21,4%]. El % de persones que van a la biblioteca el cap de setmana és del 24% amb un marge d’error de 2,6% i un IC del 95%.
Hem de saber si es compleix:      Si  Si Si ...