Tema 6. Estimadors dels paràmetres estadístics (2015)

Apunte Catalán
Universidad Universidad Pompeu Fabra (UPF)
Grado Medicina - 2º curso
Asignatura Bioestadística
Año del apunte 2015
Páginas 7
Fecha de subida 03/02/2015
Descargas 6
Subido por

Vista previa del texto

Tema 6. Estimadors de paràmetres estadístics poblacionals Si bé la major part d’estudis estadístics tenen com a objectiu l’estudi del total de la població, rarament s’estudia aquesta en la seva totalitat, normalment per motius ètics, econòmics o per falta de temps. Habitualment s’estudia una mostra representativa a partir de la qual s’extreu informació amb la pretensió d’aplicar-la a la població de la que s’ha extret.
Els mètodes estadístics descriptius permeten fer més comprensible la informació continguda en una mostra mentre que els mètodes estadístics inferencials analitzen l’aplicació a la població de la informació obtinguda en la mostra.
1. MÈTODES ESTADÍSTICS INFERENCIALS. CLASSIFICACIÓ.
Hi ha dos grans grups de mètodes estadístics inferencials. L’estimació de paràmetres poblacionals aporten una aproximació a un paràmetre estadístic de la població a partir de l’estudi d’una mostra representativa. Per exemple, el nivell mig de colesterol de la població catalana és de 210 mg/ml.
Per altra banda, les proves de contrast d’hipòtesis permeten comprovar la versemblança d’una hipòtesi formulada sobre la població a partir d’un estudi dut a terme en una o més mostres representatives. Per exemple, el nivell mig de colesterol en la població catalana masculina és superior al de la població catalana femenina.
2. CONCEPTE D’ESTIMADOR PUNTUALS Els estimadors puntuals són valors aproximats de paràmetres de la població obtinguts a partir de l’estudi d’una mostra representativa.
Els paràmetres poblacionals rarament es poden determinar directament, sinó que s’obtenen a través dels seus estimadors. S’expressen mitjançant lletres gregues, mentre que els paràmetres mostrals s’expressen amb lletres de l’alfabet romà.
Si bé la fórmula dels estimadors sol se semblant als paràmetres, no sempre és així. Per exemple, s’ha d’utilitzar (n-1) en lloc de N en el càlcul dels estimadors poblacionals de la variància i la desviació estàndard.
Si per exemple es pretén obtenir l’alçada mitjana dels universitaris espanyols, cal tenir en compte que difícilment es pot obtenir l’alçada de tots els estudiants. No obstant, sí que es pot obtenir una mostra representativa per aconseguir una idea bastant aproximada de l’alçada mitjana d’aquesta població. Aquesta alçada és l’estimador puntual del paràmetre poblacional.
3. INTERVAL DE CONFIANÇA El valor de l’estimador puntual determinat sobre una mostra s’assembla normalment al valor del paràmetre poblacional, però rarament coincideix. El principal problema és que, al no conèixer el valor poblacional, no podem saber com s’hi assembla el nostre estimador.
L’estadística inferencial proporciona una solució al problema permetent el càlcul d’un interval de confiança (IC) per aquests estimadors. Aquest interval defineix un rang de valors que conté amb una certa probabilitat el paràmetre poblacional desitjat.
Imaginem que es vol saber quin és el contingut de principi actiu d’un lot de medicaments: El contingut mig en la població és de 303, però aquest és un valor desconegut ja que no es pot analitzar tot el lot. Analitzant la mostra s’obté una mitjana de 300 i l’interval de confiança dóna una idea de quant s’assembla el valor estimat al valor poblacional.
L’interval de confiança, per tant, és un mètode per acotar el grau de coneixement dels paràmetres estadístics poblacionals expressant un interval dins del qual és molt probable que estigui el valor del paràmetre poblacional. Aquesta probabilitat es denomina nivell de confiança i s’ha d’especificar sempre quan es descriu el IC.
L’interval de confiança pot expressar-se com: 95% = 300 ± 5 95% = 295; 305 → → ç = ç = í ± ; í "# Així doncs, quan es diu 95% = 300 ± 5 s’ha d’entendre que existeix una probabilitat del 0.95 de que el contingut mig de AAS les aspirines estigui comprès entre 295 i 305. MAI s’ha d’entendre com que el 95% de les aspirines tenen entre 295 i 305 mg d’AAS.
Repetint la determinació de l’IC en diferents mostres representatives s’obtenen valors diferents, però si el procés ha estat adequat almenys en un 95% dels casos (o el nivell de confiança escollit en el cas concret) el valor del paràmetre poblacional estarà fins de l’IC. En el 5% restant el valor poblacional no estarà dins però no es tracta d’un error sinó que va implícit en la definició de l’IC.
El risc (α) és la probabilitat de que l’IC no contingui el valor poblacional i és complementari a la confiança (ICµ + α = 1).
En biologia s’acostumen a utilitzar nivells de confiança de 0.95 (95%). Si volem estar més segurs de que l’interval de confiança contingui el valor poblacional pot calcular-se l’IC amb un major nivell de confiança, més ample. La mesura amb què s’augmenten els extrems dependrà de la variabilitat de la mostra.
L’amplada de l’interval de confiança d’un estimador expressa la incertesa deguda a treballar amb una informació incompleta, és a dir, treballar amb una mostra en lloc de fer-ho amb tota la població. En general com major sigui la mostra més estrets i informatius seran els IC’s.
Per exemple, afirmar que el contingut mig d’AAS en les aspirines és 300 ± 5 mg (95%) és una estimació raonable, mentre que és una estimació de molta menys qualitat afirmar que el contingut mig és de 300 ± 200 mg (95%).
4. CÀLCUL DE MITJANES I DEL SEU INTERVAL DE CONFIANÇA L’estimació puntual de la mitjana poblacional és igual a la mitjana mostral.
A més de l’estimador puntual de la mitjana poblacional poden calcular-se intervals de confiança en base a les propietats de les distribucions de probabilitat vistes en temes anteriors.
Imaginem que es calcula la mitjana mostral $̅ moltes vegades utilitzant diferents mostres de mida n extretes de la mateixa població. Els valors de les mitjanes $̅ obtinguts en les diferents mostres acostumen a seguir una distribució normal: Aquesta distribució té dues propietats interessants: 1. El centre de la distribució és la mitjana de les mitjanes i coincideix amb el valor del paràmetre poblacional que es vol estimar (µ).
& = $̅ 2. La variància de les mitjanes és igual a la variància de la variable original dividida per la mida de la mostra. Pot expressar-se també en termes de desviació estàndard (arrel de la variància).
'(̅) = '() '(̅ = '( √ La desviació estàndard de les mitjanes s’anomena també error estàndard (EE o SEM de Standard Error of the Mean). La dispersió de les mitjanes està relacionada amb l’error de l’estimador que es produeix com a conseqüència del mostreig.
++,$̅ - = ' √ Aquesta fórmula indica que el SEM és menor quan la desviació estàndard dels valors originals és petita i quan la mida de la mostra és gran.
L’amplada de l’interval de confiança al 95% de confiança s’obté a partir dels valors que inclouen el 95% de l’AUC en una distribució normal, és a dir, 1.96 vegades l’error estàndard.
±1,96 · ++ · $̅ = ±1,96 · En general per un nivell de confiança (1 – α) tenim que: $̅ ± 23/) · ' √ ' √ On z(α/2) correspon al valor en què en la distribució de probabilitats deixa la meitat del risc a la dreta (2.5% per un nivell de confiança del 95%).
Exemple La distribució de nivells de colesterol en una certa població té una desviació estàndard (σ) de 46mg/100ml. La mitjana en una mostra de 12 pacients és de 217mg/100ml. Calcula l’interval de confiança del 95%.
$̅ ± 1,96 · ' √ → 217 ± 1,96 · 46 √12 = 217 ± 26 Els valors que s’obtenen en R o en taules de distribució normal solen ser de distribució acumulada, és a dir, el valor z correspon a un sol extrem de la cua de distribució. Cal tenir en compte que per buscar la z corresponent a un nivell de confiança (1 – α) en una taula unilateral s’ha de consultar el valor α/2 o 1 – α/2. Per un IC 95% el valor és 1,96 i pot aproximar-se a 2. En R el valor s’obté utilitzant el comandament qnorm (1-α/2), per exemple: qnorm (0,975).
En conclusió, pot observar-se que l’amplada de l’interval depèn directament de: • El nivell de confiança Com més segurs vulguem estar de que l’interval engloba el valor poblacional z serà major i l’interval serà més ample.
• La desviació estàndard de la variable A major desviació estàndard en la població original major serà l’interval.
I inversament de: • La mida de la mostra Com més individus s’estudiïn menor serà l’amplada de l’interval.
En la pràctica mai es coneix el valor de la desviació estàndard poblacional (σ), de manera que cal modificar el procediment. σ es substitueix per l’estimador mostral de la desviació estàndard (s) i es substitueix la distribució normal per la distribució t d’Student, amb n-1 grau de llibertat, on n és la mida de la mostra. En general, per un nivell de confiança (1 – α), l’interval de confiança es calcula com: $̅ ± ,3⁄),789- " √ El valor de t es consulta en taules o en R amb la instrucció qt(1-α/2, gl). En SPSS l’interval de confiança 95% de les mitjanes apareix per defecte quan s’obté la mitjana. En els tres s’obtindrà la distribució acumulativa de T, és a dir, el valor de t que deixa el 2,5% d’àrea a la dreta.
Exemple Es mesuren els nivells d’alumini en plasma de 10 nens que han pres antiàcids. La mitjana mostral és de 37,2 µg/L i la desviació estàndard de la mostra és de 7,13 µg/L.
$̅ ± ,3⁄),789- " √ → 37,2 · 2,262 · 7,13 √10 = 37,2 ± 5,1 5. ESTIMACIÓ DE PROPORCIONS I DEL SEU INTERVAL DE CONFIANÇA L’estimador puntual de la proporció poblacional és la proporció mostral. La proporció expressa la relació entre el número d’individus amb una certa característica (a) i el número total d’individus.
;= < → Π= >< > De manera anàloga a les mitjanes, els valors de les proporcions obtinguts en diferents mostres normalment segueixen aproximadament una distribució normal, on la mitjana es correspon a la proporció poblacional (Π).
En aquest cas la desviació estàndard és igual a: Π,1 − Π"=? En la pràctica pot utilitzar-se l’estimador puntual de la desviació estàndard o error estàndard de la proporció: P,1 − P++,;- = ? Per calcular l’interval de confiança es segueix el mateix raonament que per la mitjana, en base a les probabilitats de la distribució dels estimadors de la proporció.
;,1 − ;95% = ; ± 1,96 · ++,;- = ; ± 1,96? En general, per un nivell de confiança (1 – α): ;,1 − ;,1 − B- = ; ± 2,3⁄)- · ? On 2,3⁄)- correspon al valor que en la distribució de probabilitats deixa la meitat del risc a la dreta (2,5% per un nivell de confiança del 95%).
Exemple La proporció de fumadors en una mostra de 50 alumnes de la UPF és del 28%. Calcula l’interval de confiança.
;,1 − ;0,28,1 − 0,2895% = ; ± 1,96? = 0,28 ± 1,96? = D, EF ± D, GE 50 Amb una probabilitat del 95%, entre el 16% i el 40% dels alumnes de la UPF fumen.
L’aplicació de la distribució normal pel càlcul d’intervals de confiança per proporcions només pot realitzar-se en unes condicions determinades. Els valors n·P i n(1-P) han de ser majors que 5 i en cap cas els límits dels intervals poden ser menors a 0% (negatius) o superiors a 100%.
6. CÀLCUL DEL RIC RELATIU I DEL SEU INTERVAL DE CONFIANÇA El risc relatiu (RR) expressa la relació entre dues proporcions: • Proporció d’individus malalts entre tots els exposats a un factor • Proporció d’individus malalts entre tots els NO exposats a aquest factor I I + HH = K K+L Un valor del risc relatiu RR = 1 indica que no hi ha associació entre el factor i la malaltia, RR < 1 indica una associació negativa (factor protector) i RR > 1 indica associació positiva (factor de risc).
El valor del obtingut a partir d’una mostra expressa només la importància del factor en la mostra estudiada, per estendre la informació a la població podem calcular un interval de confiança.
L’error típic del risc relatiu no és tan fàcil d’estudiar com en els casos anteriors però el càlcul es simplifica si es treballa en escala logarítmica: 1 1 1 1 ++, HH- = ? + + + I K L A partir d’aquí pot calcular-se aproximadament l’interval de confiança amb un nivell de confiança del 95% del logaritme del risc relatiu com en els casos anteriors: 95% = 1 1 1 1 HH ± 1,96 · ? + + + I K L Amb aquest càlcul obtenim els límits de l’interval de confiança en una escala logarítmica (ln(RR – x) i ln (RR + x)). Per traslladar aquests valors a l’escala del risc relatiu es fa l’operació contrària al logaritme neperià, s’eleva e al nostre valor.
ln x = z x = ez La utilització dels intervals de confiança en el cas del risc relatiu permet comprovar si l’interval de confiança conté o no el valor 1 o altres valors de referència que indiquin rellevància clínica.
7. UTILITAT DELS ESTIMADORS És important no confondre mai els intervals de confiança d’un estimador amb l’expressió de la dispersió de la mostra. Imaginem que diem “els nivells de colesterol són de 120 ± 10 mg/ml”.
L’interval podria interpretar-se com: a) L’error estàndard de la mitjana "⁄√ b) L’interval de confiança al 95% de la mitjana · " ⁄√ c) La desviació estàndard de la variable s d) L’interval que engloba el 95% dels individus t · s És molt important, per tant, deixar sempre clar què estem expressant i intentar proporcionar la informació més útil per la situació estudiada.
...