Tema 3. Inferència estadística (I): Estimació de paràmetres (2017)

Apunte Catalán
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Psicología - 2º curso
Asignatura Analisi de dades
Profesor J.F.
Año del apunte 2017
Páginas 8
Fecha de subida 21/10/2017
Descargas 0
Subido por

Vista previa del texto

Anàlisi de Dades Oliwia Ciurlej Tema 3. Inferència estadística (I): estimació de paràmetres 3.1. Definicions - Població: Grup d’unitats d’observació (ex. Persones) definit a partir de criteris d’interès (ex. Criteris sanitaris).
Mostra: Subconjunt d’unitats d’observació de la població seleccionats segons un criteri definit i establert.
Població - Mostra Paràmetre: Qualsevol índex (proporció, mitjana...) calculat amb les dades d’una població.
Estimador o estadístic: Valor desconegut d’un paràmetre de la població estimat (calculat) a partir d’una mostra mitjançant una funció dels valors observats.
• El valor que pren la funció estimador amb les dades d’una mostra determinada s’anomena estimació.
• Tots els estimadors presenten diverses propietats (no biaix, eficiència, consistència i suficiència).
• Un estadístic és una funció de les variables aleatòries que poden observar-se en una mostra i de les constants conegudes.
3.2. Concepte d’inferència estadística A partir de la població, coneixent els seus paràmetres, es prediran informacions a les mostres que s’hi hagin extret. La predicció és un tipus de raonament que permet extreure conclusions.
La inferència (teoria estadística o inferència estadística) funciona al revés: a partir d’una mostra s’intenten extraure conclusions sobre els paràmetres d’una població. La inferència estadística es basa en: - Estimació de paràmetres: Procés consistent en assignar un valor numèric a un paràmetre d’una població a partir de la informació recollida en una mostra.
Contrast d’hipòtesis: Terme genèric emprat per designar el procés de jutjar si les dades d’una mostra són “conseqüents” o no amb enunciats (hipòtesis) plantejats sobre la població. Representa un conjunt de procediments que ens ajuden a decidir si una informació sobre una població pot ser mantinguda o s’ha de rebutjar, a partir de les dades d’una o més mostres.
1 Anàlisi de Dades Oliwia Ciurlej 3.3. La distribució mostral ➢ Concepte de distribució mostral - Els estadístics són variables aleatòries i, per tant, tenen la seva funció de probabilitat.
- Amb la distribució mostral es designa la funció de probabilitat d’un estadístic.
- Representa una distribució teòrica que assigna un determinat valor de probabilitat (o densitat de probabilitat) a cadascun dels valors que pot prendre un estadístic, observat en totes les mostres possibles que és possible extraure d’una població.
• Anàlogament: Distribució de freqüències dels valors observats de l’estadístic a totes les mostres possibles amb una mateixa mida n, que s’han extret aleatòriament d’una població.
• En la distribució mostral l’interès són les mostres, no els subjectes.
- Objectiu: Avaluació quantitativa de l’error aleatori associat al mostreig → Variabilitat en les mostres (error de mostreig). Exemple: Mitjana total = 20 → Mitjana mostra 1 = 15, mitjana mostra 2 = 25, etc. Hi ha molta diferència entre les mitjanes entre les diferents mostres comparat a la mitjana total.
• La dispersió de la distribució mostral disminueix en augmentar la mida n de les mostres, donat que els estadístics θi estan molt afectats per l’error aleatori del mostreig. La distribució mostral es va tornant cada cop més simètrica. En mostres grans, s’aproxima a la distribució normal.
• Quan la mida de les mostres sigui tan gran que coincideix amb la mida de la població no hi haurà error de mostreig.
2 Anàlisi de Dades • Oliwia Ciurlej La desviació estàndard de la distribució mostral s’anomena error estàndard.
x → Mitjana de totes les mitjanes. Sota determinades condicions, aquesta mitjana coincideix amb la mitjana de la població inicial.
Si, per exemple, la mitjana d’anàlisi de dades en tota la població és de 6’3, la mitjana d’una mostra representativa tindrà un valor semblant.
➢ Distribució mostral de les proporcions i les mitjanes - Distribució mostral de les proporcions: Representa la distribució de freqüències de l’estadístic proporció (pi) observat en totes les mostres possibles de mida n, extretes a l’atzar d’una població amb paràmetre π (mitjana).
- Distribució mostral de les mitjanes: Representa la distribució de freqüències de l’estadístic mitjana observat en totes les mostres possibles de mida n, extretes a l’atzar d’una població amb mitjana µ i variància ơ2.
➢ Mida de la mostra i error de mostreig L’error aleatori propi del mostreig fa que algunes mostres presentin estadístics allunyats del paràmetre. En augmentar la mida n de les mostres decreix la variabilitat dels estadístics al voltant del paràmetre, la distribució mostral és més simètrica i s’aproxima a la forma de campana pròpia de la llei normal. El teorema central del límit és el que justifica aquesta aproximació a la llei normal.
3 Anàlisi de Dades Oliwia Ciurlej ➢ Teorema central del límit - La distribució de probabilitat de la distribució mostral segueix el model de la llei normal si: • La distribució de la variable X en la població segueix una llei normal.
• La mida n de les mostres és gran, independentment del model de probabilitat que segueix la variable X en la població.
A partir de quant la mostra es pot considerar gran? - Condicions de mostra gran: • Variables quantitatives (o contínues): Han de ser iguals o majors a 30 subjectes.
• Variables categòriques: Si 𝑛 × 𝜋 i 𝑛 × (1 − 𝜋) ≥ 5 ➢ Interval de predicció (o probabilitat) d’un estadístic - Coneguts els paràmetres d’una població és possible predir el valor de l’estadístic per una mostra de mida n extreta aleatòriament d’aquesta població.
- La predicció s’efectua amb l’interval de predicció (1 – α). El valor α representa l’error de predicció i és un valor arbitrari fixat pel investigador (habitualment, α = 0.05). El valor (1 – α) s’anomena nivell de confiança.
- Per construir els intervals, cal que la mostra segueixi la llei normal.
On θ és la mitjana.
4 Anàlisi de Dades Oliwia Ciurlej ➢ Interval de predicció de les mitjanes La variable X en la població ha de seguir el model de la llei normal o les mostres són més grans que 30.
En mostres petites, l’aproximació normal de l’interval de predicció de les mitjanes és vàlida si la variable en la població segueix una llei normal.
➢ Interval de predicció de les proporcions Si es satisfà la condició de mostres grans, la distribució mostral de proporcions pot aproximar-se a una llei normal de mitjana π i variància 𝜋 ×(1− 𝜋) 𝑛 .
En cas de mostres petites, l’interval de predicció de les proporcions s’ha de calcular a partir de la distribució binominal.
3.4. Estimació de paràmetres L’estimació de paràmetres consisteix en assignar un valor numèric a un paràmetre poblacional. Aquest procés permet conèixer diverses característiques poblacionals a partir de les dades d’una mostra.
➢ Estimació puntual Si es calcula un únic valor numèric per al paràmetre desconegut, aleshores el procés s’anomena estimació puntual.
Propietats d’un estimador: - - Absència de biaix (centrat): En extraure un gran número de mostres, la mitjana dels estadístics obtinguts en totes les mostres coincideix amb el valor del paràmetre.
Eficiència (precisió): En extraure un gran número de mostres, la dispersió dels estadístics obtinguts en totes les mostres és petita. Es formalitza com l’invers de la variància de la distribució mostral i és especialment important en la 5 Anàlisi de Dades - Oliwia Ciurlej comparació d’estimadors centrats. Entre dos estimadors centrats escollirem el més eficient, és a dir, el de mínima variància.
D’altres propietats: consistència, suficiència, robustesa.
➢ Estimació per interval Si es calcula un interval per al que s’assumeix un determinat nivell de confiança de contenir el paràmetre poblacional, aleshores el procés s’anomena estimació per interval.
L’estimació per interval consisteix en assignar al paràmetre que es vol estimar un rang de valors entre els que s’espera que pugui trobar-se el veritable valor del paràmetre amb una probabilitat coneguda.
- Al rang de valors assignat al paràmetre s’anomena interval de confiança i als extrems del interval se’ls anomena límits de confiança.
Una mesura de la precisió de l’estimador és la seva desviació estàndard en el mostreig (error estàndard).
3.5. Intervals de confiança Exemple: S’agafa una mostra de 60 persones. El 40% d’aquestes persones, vota un partit X. Quanta gent votarà al partit X en la població? → Se pressuposa que el mateix percentatge votarà a la població. És un mètode imperfecte: hi ha incertesa. Per tan, cal construir intervals. → Estimació per interval → Construcció d’interval de confiança Un interval de confiança és un interval calculat a partir de les dades d’una mostra per un mètode que té una probabilitat (1 – α) de produir un interval que contingui el veritable valor del paràmetre.
Qualsevol interval de confiança té dues parts: - Un interval calculat a partir de les dades de la mostra.
Un nivell de confiança (1 – α) que dóna la probabilitat de que el mètode produeixi un interval que contingui el paràmetre.
La precisió (amplitud) del interval depèn del nivell (1 – α) i de la mida n de la mostra.
Per a qualsevol interval de confiança en particular, el nivell de confiança mai és igual a la probabilitat de que aquest interval contingui el paràmetre d’interès.
Quan es calcula l’interval a partir de l’estadístic obtingut en una mostra, aquest interval inclou a θ (paràmetre) o no. Però la qüestió important és reconèixer que estem aplicant 6 Anàlisi de Dades Oliwia Ciurlej un mètode amb una probabilitat de 95% d’èxit; a la llarga, el 95% dels intervals que es construeixin d’aquesta manera inclouran a θ.
No contenen el paràmetre Cada punt vermell representa un paràmetre (en aquest cas la mitjana) que es troba dins de la distribució mostral. Hi queda inclosa la mitjana (el valor de la mitjana).
Les mitjanes que cauen fora de l’interval central, no inclouen el paràmetre (mitjana).
Un 95% inclouen el paràmetre i un 5% no. Es confia en que l’interval conté el paràmetre.
➢ Interval de confiança de la mitjana - Variància poblacional coneguda → S’utilitza poc perquè pressuposa que coneixem ơ, el qual és una dada que pocs cops la donen.
- Variància poblacional desconeguda → A la mitjana es suma una distància: t de Student multiplicada per l’error estàndard. La t de Student depèn dels graus de llibertat (n-1). En incrementar els graus de llibertat (mida de la mostra), s’aproxima a la llei normal.
7 Anàlisi de Dades Oliwia Ciurlej La distribució mostral de les mitjanes segueix el model de la llei normal (la variable, en la població, segueix una llei normal o la mostra és gran n ≥ 30).
Taules t de Student → 1a columna = graus de llibertat.
➢ Interval de confiança de la proporció Condicions d’aplicació: Mostres grans → Aproximació a la llei normal. Considerem que una mostra és gran quan es compleixen 4 productes que han de ser iguals o més grans que 5. Si són inferiors a 5, la mostra és petita i l’interval no es considera vàlid. Els productes són: - πi x n ≥ 5 (1-πi) x n ≥ 5 πs x n ≥ 5 (1-πs) x n ≥ 5 8 ...

Tags:
Comprar Previsualizar