Tema 3 (2015)

Apunte Catalán
Universidad Universidad Pompeu Fabra (UPF)
Grado Criminología y Políticas Públicas de Prevención - 2º curso
Asignatura Estadística inferencial
Profesor A.C.
Año del apunte 2015
Páginas 6
Fecha de subida 31/03/2015
Descargas 6
Subido por

Vista previa del texto

Tema 3: Contrast d’hipòtesis estadístiques (proves de significació) INTRODUCCIÓ Els intervals de confiança estudiats en el Tema anterior són una de les dues tècniques d’inferència estadística més utilitzades. Quan interessa estimar un paràmetre de la població la tècnica més adequada és l’interval de confiança. La segona tècnica més àmpliament utilitzada s’anomena “prova de significació estadística” i té un altre objectiu: valorar l’evidència proporcionada per una mostra de dades a favor d’una hipòtesi o afirmació sobre la població Exemple. Soc molt bon jugador de bàsquet: encerto un 80% dels tirs a cistella! Aquesta és l’afirmació que fa un noi (o noia) que acabes de conèixer. Tu li respons: Ah, sí? A veure com m’ho demostres...
aquí tens una pilota, fes 20 tirs perquè jo ho vegi... Fa els 20 tirs a cistella, dels quals només n’encerta 8. En veure el resultat, tu li dius: I tu vols que m’ho cregui que ets tan bo, que tens una mitjana del 80%? Si tan bo fossis, n’encertaries moltes més, és molt poc probable que un jugador d’aquest nivell només n’encerti 8 de 20. Per tant, el que he vist em fa dubtar de que siguis tan bo com tu dius... No et puc creure.
Un càlcul més formal ens portaria a pensar en la variable X= nº d’encerts entre un total de 20 tirs suposant que el noi diu la veritat (P(èxit) = 0,8) Sota aquesta suposició, el càlcul de la probabilitat de 8 encerts donaria: P(X=8)= 0,0001 Interpretació: Si el que diu el noi fos veritat, només una de cada 10.000 vegades obtindria un resultat tan minso (8 de 20)! Prova z sobre el valor de la mitjana μ d’una població X (numèrica) quan σ és coneguda Les proves de significació utilitzen una terminologia pròpia força elaborada però la idea bàsica que hi ha al darrera és molt senzilla: “si, suposant que una determinada afirmació és certa, observem un fet molt poc probable, això ens indica que la afirmació no deu ser certa” Els raonaments que fem servir en les proves de significació es basen en preguntar-nos què passaria si repetíssim molt cops el mateix experiment i en calcular la probabilitat de l’esdeveniment observat.
Una prova de significació és un procediment formal que compara les dades observades obtingudes per mostreig o experiment) amb una hipòtesi (afirmació).
L’afirmació que es contrasta s’anomena hipòtesi nul·la H0. L’afirmació de la qual es vol trobar evidència a favor és la hipòtesi alternativa Ha. Les hipòtesis es formulen en termes de paràmetres de la població en estudi.
Una prova de significació intenta valorar l’evidència que proporcionen les dades en contra de la hipòtesi nul·la i a favor d’una hipòtesi alternativa.
La hipòtesi nul·la acostuma a reflectir “les coses són com sempre”, “les coses són com han de ser”, “no hi ha canvi”, “no hi ha diferències”,...
Exemple: Un fabricant de bateries (per reproductors de mp3) afirma que la durada mitjana de les bateries que ell fabrica és de 400 hores amb una desviació estàndard de 30 hores.
Una associació de consumidors ha rebut diverses cartes de clients queixant-se de que la durada de la bateria va ser inferior al que deia la propaganda. Per aclarir els fets, s’endega un estudi. Un inspector de qualitat pren una mostra aleatòria de 25 bateries i les posa a prova obtenint uns temps de durada de 386, 402, 397,...amb una mitjana de 370 hores. Ens preguntem: les dades de la mostra ens aporten evidència suficient en contra de l’afirmació del fabricant i a favor dels consumidors? a)Formulem les hipòtesis H0 : μ = 400 Ha : μ < 400 Si l’afirmació del fabricant fos correcta, quina seria la probabilitat de trobar una mitjana mostral tan o més petita que 370? b) Si l’afirmació μ = 400 fos certa, la distribució de la v. a. mitjana mostral per mostres de grandària n= 25 seria normal (aprox.), amb mitjana μ = 400 hores i error estàndard 6 hores.
Aleshores, com que és 370, i suposant que H0 és certa, la distribució que pren és:  Resultat. El valor observat (370) és poc corrent (és extrem, rar, atípic, anòmal, outlier...) en aquesta distribució: 370 es troba lluny de la mitjana 400, a 5 errors estàndard per sota de 400.
Suposant que l’afirmació del fabricant fos certa, un valor de la mitjana mostral com aquest (370) no s’obtindria per atzar pràcticament mai. Si, en lloc de 370, la mitjana mostral hagués estat de 395, hauríem dit que era un resultat compatible amb l’afirmació del fabricant, podia ser explicat per l’atzar, no el contradeia. Però 370 és excessivament allunyat de 400, en la direcció de la hipòtesi alternativa. Aquest resultat és una evidencia a favor de que la durada mitjana de les bateries d’aquesta marca és inferior al valor que postula el fabricant.
Si prenem el nivell de significació :P refusem Ho. P>0,05 no podem refusar H0.
Definició: La probabilitat, calculada suposant que H0 és certa, de que l’estadístic prengui un valor tan o més extrem (extrem en el sentit de Ha) que el que s’ha observat s’anomena Valor P de la prova de significació. Un valor P petit, prop de 0, aporta evidència en contra de H 0 i a favor de Ha.
Més detalls en la realització d’una prova de significació Estadístic de contrast, Valor P i significació estadística Una prova de significació es basa en el càlcul d’un estadístic que anomenem estadístic de contrast. En l’exemple anterior l’estadístic de contrast utilitzat ha estat la mitjana mostral (que un cop estandaritzada ha esdevingut un valor de la llei Z, normal estàndard).
Quan el valor de l’estadístic de contrast se situa lluny del valor proposat en la hipòtesi nul·la H0 i en la direcció que expressa la hipòtesi Ha, constitueix una evidència en contra de H0 i a favor de Ha.
Si l’estadístic no aporta suficient evidència en contra de H0 vol dir que les dades de la mostra són compatibles amb H0.
El càlcul del Valor P demana conèixer la distribució de l’estadístic de contrast Sovint es compara el valor P amb un valor determinat que es suposa decisiu i que es fixa abans de fer el contrast. Aquest valor de referència s’anomena nivell de significació i es simbolitza amb la lletra grega . Si escollim = 0,05 estem exigint que només una de cada 20 vegades es pugui trobar per atzar el resultat del valor de l’estadístic.
Definició: Si el Valor P és més petit o igual que el nivell de significació que les dades són estadísticament significatives per aquest nivell .
fixat prèviament, direm Prova de significació estadística: procediment i passos Un cop plantejat el problema: objectius, context, població en estudi, paràmetre que interessa contrastar...
1. Formulació d’hipòtesis en termes d’algun paràmetre de la població (mai en termes d’un estadístístic!) 2. Càlcul de l’estadístic de contrast suposant que H0 és certa 3. Càlcul del valor P i conclusions 4. Revisió dels supòsits necessaris per l’aplicació de la tècnica i redacció de conclusions formulades en el context del problema Prova z per una mitjana poblacional (The one-sample z test) Per contrastar la hipòtesi H0: µ =µ0 a partir d’una MAS de grandària n d’una població X amb mitjana µ desconeguda i desviació estàndard σ coneguda, calcularem l’estadístic de contrast z i el corresponent Valor P (en funció de Ha).
Resumint, el contrast o prova Z pressuposa: - mostra aleatòria simple (MAS) de mida n - desviació estàndard poblacional σ coneguda - població X normal o bé n gran La inferència com una decisió La inferència com una decisió: nivell de significació i zona de refús de H 0.
El nivell de significació i el tipus d’hipòtesi alternativa defineixen un valor crític de z i una zona de refús de H0. Per l’exemple, en l’exercici anterior, si α=0,05 i tenint en compte la hipòtesi alternativa (Ha : μ < 400), el valor crític és -1,645.
Llavors, si z ≤ -1,645 refusarem H0 si z > -1,645 no podrem refusar H0 La inferència com una decisió: error tipus I i error tipus II Un cop fixat el nivell de significació també es pot interpretar una prova de significació com un mètode per prendre decisions.
Esperem que la nostra decisió (refusar H0 o no refusar-la sigui correcta, però algunes vegades no ho serà, és inevitable, no tenim una confiança del 100% en el procediment.
Si acceptem H0 quan de fet la hipòtesi alternativa Ha és la correcta, llavors estarem cometent un error tipus II.
Prova t sobre el valor de la mitjana μ d’una població X (numèrica) quan σ és desconeguda Supòsits per l’aplicació de la tècnica: - La mostra ha de ser aleatòria i superior a 30.
- La població ha de ser normal.
Exercici: el gerent de la empresa multinacional que va obrir una botiga a BCN es pregunta si la mitjana d’edat dels clients en aquesta ciutat coincideix o no amb la mitjana en altres seus (µ=40).
Per respondre a aquesta pregunta: a) Formuleu les hipòtesis nul·la i alternativa.
b) Calculeu l’estadístic de contrast c) Calculeu el valor-p d) Reviseu els supòsits per aplicar la tècnica e) A quina conclusió s’arriba? H0: µ=40 Ha: µ≠40 b) . Ens preguntem per distribució X~N(µ=40;σx= c) Càlcul del valor P: P( <37,8)= 2P = 2,04) EE estimat =2,04.
= 2P Aleshores, el resultat no és significatiu per a aquest valor de significació.
P= Probabilitat d’obtenir un estadístic de contrast tant o més allunyat del centre que el que hem optés.
Prova z sobre el valor de la proporció poblacional p Exercici. El Conde de Buffon (1707-1788), naturalista francès, va llençar una moneda a l’aire 4.040 vegades i va obtenir 2.048 cares. Creieu que aquestes dades evidencien que la moneda de Buffon estava trucada? a) Formuleu les hipòtesis nul·la i alternativa.
H0: p=0,5 La moneda no està trucada Ha: P≠0,5 La moneda està trucada b) Calculeu l’estadístic de contrast Suposant H0 certa: ~N (p=0,5; ) c) Calculeu el valor-p Suposant H0 certa troba un valor tant o més allunyat del que hem trobat: e) A quina conclusió s’arriba? No podem refusar la H0 perquè p(0,3844) és molt gran, és a dir, és més gran que 0,05 (0.3844<0,05).
Les nostres dades no evidencien que la moneda està trucada.
Supòsits per l’aplicació d’inferència per una proporció - Les dades són una mostra aleatòria simple de la població d’interès - La població és molt més gran que la mostra (mínim 10 vegades) . Els valors n i p (o la seva estimació) satisfan n·p>10 i n·(1-p)>10 - La mostra és gran (n > 100) Prova de significació per una proporció Per contrastar la hipòtesi H0: p = p0 l’estadístic de contrast és: El càlcul del Valor P segueix la mateixa pauta que en les proves de significació per a la mitjana TEMA 4: Tècniques aplicades a la recerca 4.1.3. Exercici d’aplicació . La reincidència penitenciària a Catalunya Població 1µ1,σ1 Població 2µ2, σ2 EE de H0: µ1= µ2 o µ1 - µ2=0 Per tant, l’estadístic que agafem es: Distribució de 1 2~N 1 1 2 2 (amb mitjana µ1 - µ2 i desviació estàndard ) TEMA 4 pàgina 3 PDF.
En segon lloc, ens preguntem si el grau de confiança en el sistema legal és el mateix pels nascuts a Espanya que pels que han nascut fora. Observem el gràfic següent on apareixen els dos intervals de confiança.
a) Formuleu les hipòtesi nul·la (igualtat) i alternativa (desigualtat) especificant que vol dir cada hipòtesi.
H0: µF = µE; µF - µE=0 (no hi ha diferencia d’opinions sobre el sistema legal a Espanya) Ha: µF ≠ µE; µF - µE≠0 (Hi ha diferencia d’opinions sobre el sistema legal a Espanya) b) mostra aleatòria de XF i XE.
c) Identifiqueu l’error estàndard de l’estadístic diferència de mitjanes. Comproveu que el valor de l’estadístic t és el que dóna la taula. Raoneu si el valor p corresponent al contrast és el que surt a la taula. A quina conclusió s’arriba? – El valor P=2P( – ) Pràcticament igual a 0.
...