Tema 12. Estadística no paramètrica (2015)

Apunte Catalán
Universidad Universidad Pompeu Fabra (UPF)
Grado Medicina - 2º curso
Asignatura Bioestadística
Año del apunte 2015
Páginas 8
Fecha de subida 03/02/2015
Descargas 8
Subido por

Vista previa del texto

Tema 12. Estadística no paramètrica 1. NECESSITAT DE L’ESTADÍSTICA NO PARAMÈTRICA La majoria de proves de contrast d’hipòtesi per variables quantitatives estudiades fins ara són proves paramètriques que assumeixen que les mostres han estat extretes d’una població on la variable a estudiar segueix una distribució normal.
És correcte, però, assumir aquesta distribució normal? • Pros de fer l’assumpció Nombroses variables experimentals segueixen distribucions aproximadament normals i assumir la normalitat porta a resultats aproximadament correctes en molts casos on no existeix normalitat.
• Contres de fer l’assumpció En alguns casos les dades de partida no són normals, i per tant l’aplicació de proves paramètriques porta a resultats completament erronis.
Alguns exemples de distribució no normal serien: (a) Distribució rectangular amb cues curtes (b) Distribució amb dues cues exponencials llargues (c) Distribució amb cues extremadament llargues 2. DETECCIÓ DE VARIABLES NO NORMALS Per decidir si una variable quantitativa segueix una distribució normal existeixen diferents tècniques.
Gràfiques de normalitat - Gràfica Q-Q Índexs - Asimetria i Curtosis Proves de contrast d’hipòtesi - Kolmogorov-Smirnov - Shapiro-Wilk Gràfiques de normalitat. Gràfica quantil-quantil normal (Q-Q normal) Si una variable segueix una distribució normal la representació de les seves puntuacions típiques teòriques enfront les observades s’ajustarà a una línia recta.
Les puntuacions típiques s’obtenen calculant el rang acumulat en forma percentual i transformantlo en el valor z que tanca aquell percentatge de probabilitat en una distribució normal.
Exemple1 1. En una mostra de 100 individus, a l’individu 25 se li assigna el valor 0.25.
2. El valor 0.25 es converteix en -0.6745, perquè el 25% del AUC en la distribució normal està entre menys infinit i -0.6745.
Exemple2 Q-Q plot edat mares en una mostra de parts en SPSS i R Les gràfiques mostren que la mostra no segueix una distribució normal, i això es pot explicar perquè hi ha edats en què és fisiològicament inviable tenir fills.
Índexs d’asimetria i curtosis L’índex d’asimetria indica el grau d’asimetria de la distribució. Valors pròxims a zero són indicatius de que la distribució és simètrica.
L’índex de curtosis compara si la distribució acumula valors en les cues de la distribució de la mateixa manera que en una distribució normal. Valors positius indiquen que acumula més valors que una distribució normal i valors negatius indiquen el contrari. Valors pròxims a zero indiquen que la distribució és similar a la normal.
Per definir una mosta com paramètrica o no paramètrica cal observar els dos índexs, no es pot definir una variable com a paramètrica si només s’ha estudiat un dels dos.
Exemple Asimetria i curtosis per l’edat de les mares en una mostra de parts.
S’observa una curtosis negativa, per tant les cues inclouen menys valors que els que hi hauria en una distribució normal.
Proves de contrast d’hipòtesi Les proves de contrast d’hipòtesi més utilitzades són les de Kolmogorov-Smirnov i la de ShapiroWilk. De manera contrària a la resta de proves de contrast d’hipòtesi, les hipòtesis són: H0 Les dades mostrals s’han extret d’una distribució normal.
Ha Les dades mostrals s’han extret d’una distribució no normal.
El principal problema d’aquestes proves és que solen ser massa sensibles a desviacions de la normalitat i s’han d’interpretar amb precaució, perquè molt sovint indicaran que la distribució no és normal.
3. PRINCIPALS PROVES NO PARAMÈTRIQUES Quan no pot assumir-se normalitat s’apliquen proves no paramètriques, també anomenades de distribució lliure. Són més robustes davant el problema de l’absència de normalitat però tenen menor potència estadística que les proves equivalents basades en l’assumpció de normalitat.
La majoria de proves no paramètriques comencen obtenint rangs o números d’ordre per les diferents observacions. Això vol dir que es dóna valor 1 la observació menor, 2 a la següent, i així consecutivament. Generalment solen ser proves bastant senzilles que poden resoldre’s a ma.
Els programes d’estadística permeten fer moltes proves no paramètriques, que se solen ordenar segons si s’estudia un o k grups independents o relacionats (casos aparellats): Prova de Mann-Whitney La prova de Mann-Whitney s’utilitza per comparar la tendència mostral en dues mostres independents tenint en compte que els casos són independents. És l’equivalent no paramètric de la prova T d’Student.
Exemple S’injecta un producte tòxic a dos grups de ratolins i es mesura el temps de supervivència en hores.
H0 Els ratolins dels dos grups tenen el mateix temps de supervivència.
Ha Els ratolins dels dos grups tenen diferent temps de supervivència.
En primer lloc s’assigna a cada cas un valor de rang utilitzant les dues mostres. En cas d’empat s’utilitza un valor intermedi que s’assigna als dos valors.
Els valors obtinguts per cada mostra es sumen per separat: R1 = 19 + 14.5 + 9 + 10 + 3.5 + 7 + 6 +12 +17 + 20 = 118 R2 = 16 + 8 + 2 + 11 + 1 + 5 + 3.5 + 13 + 14.5 + 18 = 92 I s’utilitzen per calcular uns valors de U segons la fórmula següent: = + 2 +1 − ; = + 2 +1 − El mínim de U1 i U2, és a dir, el més petit dels dos, s’utilitza com estadígraf en unes taules de valors de “U”, que estan calculades per uns valors de risc α de 0,05 i 0,01 en funció dels valors de n1 i n2.
U ≥ Uα, n1, n2 No es refusa la hipòtesi nul·la U < Uα, n1, n2 Es refusa la hipòtesi nul·la i s’accepta l’alternativa, els dos grups tenen diferent temps de supervivència.
Seguint el cas anterior, R1 = 118 i R2 = 92, s’obté que U1 = 37 i U2 = 67, per tant s’utilitza U = 37. En la taula el valor per U amb α = 0,05 i n1 = n2 = 10 és 23.
37 > 23, per tant no es pot refusar la hipòtesi nul·la i es conclou amb un 95% de confiança que les diferències observades entre els dos grups no són estadísticament significatives.
Prova de Kruskal-Wallis La prova de Kruskal-Wallis serveix per comparar la tendència central en n mostres independents i és l’equivalent no paramètric d’ANOVA. Igual que en la prova de Mann-Whitney, es comença per assignar rangs a les observacions i calcular els Ri.
Exemple S’estudia l’efecte de la diàlisi en la mida del fetge. S’inclouen en l’estudi tres grups: individus sans, pacients dialitzats i no dialitzats.
H0 La mida del fetge és la mateixa en els tres grups.
Ha La mida del fetge és diferent en els diferents grups.
R1 = 54 R2 = 55 R3 = 191 L’estadígraf H es calcula amb la fórmula següent: = 12 +1 −3 +1 El valor obtingut es compara amb una distribució Khi quadrat amb k-1 graus de llibertat, sent k el número de grups. En l’exemple numèric anterior, H = 14.94 i la probabilitat associada en una distribució Khi quadrat amb 2 graus de llibertat és menor de 0.05, per tant es conclou que les diferències són estadísticament significatives amb un nivell de confiança del 95%.
Wilcoxon dels rangs amb signe Aquesta prova s’utilitza per comparar la tendència central en dades aparellades i és l’equivalent no paramètric de la T d’Student aparellada. De nou es treballa assignant rangs, però aquest cas s’assigna en funció de les diferències i sense tenir en compte el signe.
Després d’assignar els rangs es calculen els índexs T(+) i T(-), que indiquen la suma dels rangs positius i negatius. Com a estadígraf T de contrast s’utilitza el menor dels dos valors i a partir d’una taula s’obté el valor crític per un risc (α) i un nombre d’individus determinat (n).
T ≥ Tα, n No es refusa H0 T < Tα, n Es refusa H0 i s’accepta Ha Exemple Es vol provar l’efecte d’un fàrmac tòpic que presumiblement accelera la cicatrització. Es practiquen dues incisions en un animal d’experimentació i s’aplica en una d’elles el producte. Es valora el temps de curació.
T(+) = 51 T(-) = 4 Com a estadígraf T de contrast s’utilitza el menor dels dos valors (T = 4) i a partir d’una taula s’obté el valor crític per un risc del 5% (α = 0.05) i 10 individus, obtenint-se un valor crític de 8.
4 < 8, per tant es refusa la hipòtesi nul·la i s’accepta la contrastada. Es conclou per tant que existeixen diferències significatives en el temps de curació si s’aplica o n el producte.
Coeficient de correlació de Spearman Igual que en els casos anteriors es treballa assignant un valor de rang a cada cas, utilitzant primer una variable i després l’altra. Si les dues variables estan correlacionades les observacions tindran rangs similars per ambdues variables.
Exemple Es busca comprovar si existeix correlació entre el contingut de nicotina en sang en un grup d’individus (nmol/L) i el contingut de nicotina de la marca de cigarretes que consumeixen (mg/cigarreta).
El coeficient de correlació es calcula amb una fórmula similar a l’utilitzada pel coeficient de correlació de Pearson, però utilitzant rangs (rx i ry) en lloc dels valors x i y.
= ∑ ∑ − ∑ −∑ · ∑ ∑ − ∑ Quan no existeixen valors coincidents i els rangs són nombres enters pot utilitzar-se una fórmula simplificada on d¡ és la diferència entre rx i ry per l’observació i.
=1− 6∑ −1 La correlació de Spearman pren valors que oscil·len entre -1 i +1, igual que la correlació de Pearson.
+1 Correlació lineal directa perfecta 0 Sense correlació lineal aparent -1 Correlació lineal inversa perfecta És important tenir en compte que la correlació de Spearman està comparant els rangs dels valors.
La correlació en aquest cas és 1, doncs els valors a mida que es fan més grans per X es fan també més grans per Y.
Rs és un estimador del paràmetre poblacional de ρs i cal comprovar la seva significança estadística mitjançant una prova de contrast d’hipòtesi.
H0 ρs = 0 Ha ρs ≠ 0 El valor de rs es compara amb valors crítics tabulats, de manera que quan rs < rgdl, α no és possible refusar la hipòtesi nul·la. Els graus de llibertat es calculen com n-2 individus.
En l’exemple numèric anterior s’obté una lleugera correlació positiva, rs = 0.27 i per 10 – 2 graus de llibertat i una confiança del 95% s’obté un valor crític de 0.55. Es conclou que no es pot refusar la hipòtesi nul·la i que per tant no existeix cap associació.
Exemple S’estudia la correlació entre l’edat i la capacitat respiratòria (CVR) en 10 individus sans: En aquest cas s’observa una clara correlació i el resultat és pràcticament idèntic per la correlació de Pearson i la correlació de Spearman.
RPearson = -0.929 rSpearman = - 0.930 El resultat és estadísticament significatiu en els dos casos (ρ ≠ 0 i ρs ≠ 0) a un nivell de confiança de 99%. El signe negatiu indica que la relació és inversa, és a dir, que a l’augmentar l’edat disminueix la capacitat respiratòria.
4. CONCLUSIONS La majoria de les proves no paramètriques es basen en convertir les variables quantitatives originals en valors de rang. Són una alternativa a les proves paramètriques en situacions en què la condició de normalitat no es compleix, però el preu a pagar és una menor potència estadística.
...