Tema 5. Probabilitat II (2015)

Apunte Catalán
Universidad Universidad Pompeu Fabra (UPF)
Grado Medicina - 2º curso
Asignatura Bioestadística
Año del apunte 2015
Páginas 7
Fecha de subida 03/02/2015
Descargas 9
Subido por

Vista previa del texto

Tema 5. Probabilitat II 1. VARIABLES ALEATÒRIES Un fenomen o experiment aleatori és una situació el resultat de la qual depèn de l’atzar i no és predictible. El resultat d’un experiment aleatori pot recollir-se en una variable que es denomina variable aleatòria.
Les variables aleatòries poden ser qualitatives o quantitatives, i dins d’aquestes últimes poden ser discretes o continues.
2. DISTRIBUCIÓ DE PROBABILITAT La distribució de probabilitat és una funció que descriu la probabilitat que té una variable aleatòria de prendre un cert valor o rang de valors.
Les distribucions de probabilitat es poden estimar experimentalment. Per exemple, si tirem repetidament un dau de sis cares i anotem el resultat podem obtenir una aproximació de la distribució teòrica, però serà necessària una llarga experimentació.
Per algunes variables, sense necessitat d’experimentació, pot determinar-se matemàticament la distribució de probabilitat. Per exemple, la variable que recull el resultat de tirar un dau de sis cares és una distribució plana: P(cara) = 1/6 Imaginem una variable aleatòria que representa el número de dones en una família de quatre fills.
Si la probabilitat de que un fill sigui dona és de 0,51: Probabilitat de no tenir cap dona (Var = 0): La probabilitat de tenir una dona (Var = 1): P(0) = 0.49 x 0.49 x 0.49 x 0.49 = 0.58 P(1)= 4 x (0,51 x 0,49 x 0,49 x 0,49) = 0,24 *El succés (número de dones = 1) conté quatre successos elementals i s’aplica la regla de la suma.
Probabilitat de tenir dues dones (Var = 2): P(2) = 6 x (0,51 x 0,51 x 0,49 x 0,49) = 0,37 Al final la probabilitat de cada un dels possibles valors de la variable es pot representar en un gràfic de barres que és la representació d’una distribució de probabilitat, és a dir, la probabilitat associada a cada un dels valors possibles de la variable.
En funció del tipus de variable hi ha diferents tipus de distribucions de probabilitat: Variables discretes - Binominal - De Poisson Variables continues - Normal - T de Student - Chi quadrat - F de Fisher 3. DISTRIBUCIÓ DE PROBABILITAT. VARIABLES QUANTITATIVES DISCRETES Distribució binominal La distribució binominal s’utilitza per calcular les probabilitats d’obtenir r èxits en n intents en un experiment que només pot obtenir dos resultats (èxit / fracàs), sent π la probabilitat d’èxit.
S’aplica quan tenim experiments que només poden produir dos resultats, coneixem la probabilitat d’obtenir un resultat en un sol experiment, els experiments es repeteixen de manera idèntica i independent i volem saber la probabilitat d’obtenir r “èxits” en n intents.
La probabilitat es calcula a partir de la fórmula: = 1− En R el valor de P es calcula amb la funció dbinom (n, r, p) Existeix una taula que relaciona n, r i π i permet calcular la probabilitat.
Exemple1 Una certa característica hereditària apareix en un 25% de la progènie. Si una parella té 5 fills, quina és la probabilitat de que els 5 l’heredin? Busquem la probabilitat associada a l’aparició de 5 “fracassos” (r = 5) en 5 experiments idèntics i independents (n = 5) coneixent la probabilitat de fracàs (π = 0,25).
Consultant la taula obtenim que: P = 0,0010 Exemple2 Es planten 20 llavors que, segons el fabricant, germinen en un 90%. Només germinen 15.
Hi ha motius per dubtar del fabricant? Busquem la probabilitat associada a l’aparició de 15 èxits (r = 15) en 20 experiments idèntics i independents (n = 20) coneixent la probabilitat d’èxit (π = 0,90) Hi haurà motius per dubtar de fabricant si amb aquests valors obtenim un valor de P baix.
Distribució de Poisson La distribució de Poisson permet calcular la probabilitat associada a un número de possibles aparicions x d’un cert resultat, a partir de la dada d’aparicions mitjanes µ, en un cert interval de temps o espai.
S’aplica quan coneixem la freqüència en què apareix un cert resultat, ens trobem amb una certa dada de freqüència d’aparició i volem conèixer-ne la probabilitat associada.
· = ! Les aparicions mitjanes (µ) s’obtenen amb el producte del número de vegades que es realitza l’experiment (n) per la probabilitat d’èxit en cada assaig (p).
En R, el valor P es calcula amb la funció dpois (x, µ) Exemple1 Un de cada 20000 nens nascuts pateix albinisme. Si en un hospital es donen 5000 naixements a l’any, quina és la probabilitat de que neixin dos nens albins el mateix any? μ = El número d’aparicions és 2 · = 5000 · 1 = 0,25 20000 x=2 .
2 = 0.25 2! = 0.024 Exemple2 E. coli té una tassa de mutació de 109per la resistència a l’estreptomicina. Si es treballa amb 2x109 bacteris, quina és la probabilitat de que almenys una sigui resistent? = 1; = 2 · 10" · 1 = 2 1! 1 =2 10" = 0.54 Exemple3 El número mitjà de leucòcits en sang humana és de 6000 leucòcits/mm3. Es compten el número d’aparicions en una gota de 0.001 mm3 i se’n troben només 2. Podem dir que pateix una deficiència? = 2; = 0,001 · 6000 = 6 2 = $ 6 2! = 0,04 La probabilitat de torbar 2 leucòcits en 0,001 mm3 és del 4%, per tant la persona no pateix una deficiència.
4. DISTRIBUCIÓ DE PROBABILITAT. VARIABLES QUANTITATIVES CONTINUES Quan es treballa amb variables continues, la probabilitat de que la variable prengui un cert valor és sempre 0, per tant interessa conèixer les probabilitats de que una variable prengui valors dins un interval determinat.
Les distribucions de probabilitat de variables continues poden representar-se mitjançant funcions de densitat de probabilitat, semblants a les gràfiques de barres utilitzades per les variables discretes. En aquests gràfics la probabilitat no es representa per l’alçada sinó per l’àrea dins la corba (“area under the curve”, AUC) en un cert interval.
La probabilitat de que x prengui un valor entre xa i xb és proporcional a la superfície vermella.
L’àrea total sota la corba sempre és igual a 1.
Poden utilitzar-se també les funcions de probabilitat acumulada o funcions de distribució, que representen l’àrea sota la corba des de “menys infinit” fins un cert valor. En aquest cas la probabilitat és representada per l’alçada.
En funció del problema pot interessar obtenir diferent informació a partir d’una funció de densitat de probabilitat.
P (valors < x), P (valors > x), P(x1 <valors < x2) o P(x1 > valors > x2) En les variables continues poden estudiar-se quatre tipus de distribució: la distribució normal, la t d’Student, la Khi quadrat i la F de Fisher.
Distribució normal En una distribució normal la funció de probabilitat és simètrica, amb forma de campana i dues cues que s’aproximen asimptòticament a l’eix sense tallar-lo.
El centre de la funció coincideix amb la mitjana (µ) i la seva amplada depèn de la dispersió, caracteritzada per la desviació estàndard (σ). Es coneix que aproximadament el 68% de l’àrea sota la corba (AUC) està en el rang µ-σ i µ+σ i que el aproximadament el 95% del AUC està en el rang µ2σ i µ+2σ.
Quan una variable segueix una distribució normal, el AUC es pot calcular com la probabilitat d’obtenir valors dins d’un cert interval. El mètode més fàcil per treballar és normalitzar les variables perquè totes tinguin exactament la mateixa funció: %= − & Els valors d’AUC per variables normalitzades estan tabulats, per tant es poden calcular els valors de probabilitat directament.
Exemple Si l’alçada mitjana en una població és de 172,5 cm i la desviació estàndard és 6,25, quina és la probabilitat de que algú mesuri exactament 180 cm? La probabilitat és 0.
I que algú mesuri menys de 185 cm? %= − & = 185 − 172,5 =2 6,25 L’AUC per valors superiors a 2 està tabulada i és de 0,023, per tant la probabilitat de que una persona mesuri menys de 185 cm és de 1-0,023 = 0,977; el 97,7% de les persones mesuren menys de 185 cm.
I que mesuri entre 165 i 175? z per 165 = -1,2; z per 175 = 0,40 L’AUC per valors majors de 0,4 és 0,345 mentre que l’AUC per valors majors de 1,2 és 0,115.
Aprofitem que AUC (x > 1,2) = AUC (x < 1,2) P(165<x<175) = 1 – 0,345 – 0,115 = 0,54 La distribució normal és molt utilitzada en programes d’estadística, que donen directament els valors de probabilitat sense necessitat d’utilitzar les taules. En R la instrucció pnorm (z) dóna el valor de l’AUC (P acumulada) pel valor de z.
Aquesta distribució és molt important donat que moltes variables quantitatives continues determinades experimentalment segueixen aquesta distribució.
Distribució t d’Student Quan una variable segueix una distribució normal en la població, les mostres que s’extreuen d’aquesta població es comporten de manera similar. No obstant, la campana en aquestes mostres, sobretot en les més petites, és més estreta que en la població.
La distribució t d’Student s’utilitza per caracteritzar variables aleatòries determinades a partir de mostres, quan en la població la variable segueix una distribució normal. Geomètricament és molt semblant a la distribució normal: és simètrica, amb forma de campana i dues cues que s’aproximen asimptòticament als eixos.
No existeix una única distribució de t d’Student sinó que existeix una per cada tamany de mostra.
Formalment depenen del grau de llibertat (degrees of freedom, DOF), un valor molt utilitzat que caracteritza el número d’elements d’informació independents que conté la mostra. Una mostra de tamany n segueix una distribució t d’Student de n-1 DOF.
El valor de l’AUC per distribucions de t d’Student també està tabulat i les taules solen tenir dues entrades: el número de graus de llibertat i la probabilitat. Els valors tabulats són valors de t i el seu significat depèn de si la taula mostra la probabilitat acumulada o la probabilitat de la cua de distribució. La probabilitat acumulada és la probabilitat d’obtenir valors menors que t, mentre que probabilitat de la cua cua és la probabilitat d’obtenir valors majors que t.
És una distribució molt utilitzada en programes d’estadística, que donen directament els valors de probabilitat sense necessitat d’utilitzar taules. En R s’utilitza la instrució pt (t, DOF) i el programa indica el valor de la AUC (P acumulada).
Khi quadrat L’estadístic Khi quadrat és aplicable únicament a valors positius i té una forma asimètrica, creix molt ràpidament i decreix amb una forma de corba exponencial. Existeixen també diferents funcions depenent dels graus de llibertat de la mostra.
F de Fisher És també aplicable únicament a valors positius i té forma asimètrica. En aquest cas les diferents corbes depenen de dos valors de grau de llibertat.
...