Tema 10. Correlació i anàlisi de regressió (2015)

Apunte Catalán
Universidad Universidad Pompeu Fabra (UPF)
Grado Medicina - 2º curso
Asignatura Bioestadística
Año del apunte 2015
Páginas 11
Fecha de subida 03/02/2015
Descargas 8
Subido por

Vista previa del texto

Tema 10. Correlació i anàlisi de regressió Les proves de contrast d’hipòtesi s’utilitzen per estudiar la possible relació entre dues variables.
Segons el tipus de variables s’utilitzen proves diferents.
− Dues variables qualitatives • Prova exacta de Fisher • Khi-quadrat • McNemar − Variable qualitativa i variable quantitativa • Proves de la T d’Student • ANOVA d’un factor − Dues variables quantitatives • Anàlisis de correlació En aquest tema s’estudiarà la correlació de dues variables quantitatives. Si existeix associació entre les dues variables, els canvis en una variable s’acompanyaran sistemàticament de canvis en l’altra variable, i aquests canvis podran ser o no lineals.
Relació no-lineal Relació lineal No hi ha relació aparent La relació lineal entre dues variables pot ser directa o inversa.
La intensitat d’una associació lineal en una mostra pot quantificar-se utilitzant paràmetres estadístics com la covariància i el coeficient de correlació de Pearson. Aquests índexs quantifiquen únicament associació lineal, per tant no reflexaran per exemple una associació parabòlica.
1. CONCEPTE DE COVARIÀNCIA I COEFICIENT DE CORRELACIÓ DE PEARSON La fórmula de la covariància és molt similar a la variància, però els quadrats que s’acumulen s’obtenen multiplicant les contribucions de les dues variables implicades.
= ∑ ∑ ( ̅− ) = −1 ( ̅− )·( ̅ − −1 ) → = ∑ ( ̅− )·( − −1 ) De la fórmula es dedueix el producte del numerador de la covariància pren valors positius quan el signe de ambdues diferències respecte la mitjana coincideixen i valors negatius quan són diferents.
En general la forma del núvol de punts indica el signe i la magnitud aproximada de la covariància.
Això s’observa en les imatges següents, on els dos eixos representarien les dues variables.
Cov ≈ 0 Cov > 0 Cov < 0 En el sumatori hi ha aproximadament tants valors + com - En el sumatori hi ha més valors + que – En el sumatori hi ha més valors – que + El coeficient de correlació de Pearson (r) estandarditza la covariància proporcionant un indicador de l’associació lineal que pren valors entre -1 i 1.
= ( )·( ) = · - r = 0 No hi ha correlació entre X i Y - r = 1 Correlació positiva perfecta entre X i Y - r = -1 Correlació negativa perfecta entre X i Y Tant la covariància com la correlació definides són estimadors mostrals amb els seus corresponents paràmetres poblacionals σXY i ρ.
= ∑ ( ̅− = )·( − −1 ) ( )·( ) → → = != ∑ ( ( − )·( ) )·( − ) 2. PROVES DE CONTRAST D’HIPÒTESI SOBRE LA CORRELACIÓ Les proves de contrast d’hipòtesi permeten comprovar si la correlació observada en una mostra reflexa de forma estadísticament significativa una associació lineal existent en la població. Les dues hipòtesi per realitzar una prova de contrast d’hipòtesi, per tant són: H0: ρ = 0 No existeix associació lineal en la població H0: ρ ≠ 0 Existeix associació lineal en la població La hipòtesi pot contrastar-se utilitzant una distribució t d’Student amb n-2 graus de llibertat i el següent estadígraf.
−2 "= # 1− És important tenir en compte que a l’estudiar l’associació lineal entre dues variables quantitatives s’estudien dos aspectes diferents i independents: la intensitat i la significació estadística. La intensitat pot descriure’s mitjançant el valor de r mentre que per obtenir la significació estadística cal realitzar una prova de contrast d’hipòtesi.
La prova de contrast d’hipòtesi sobre la correlació s’obté en R amb el comandament cor.test (e.h) i el programa aporta el valor de r (cor) i de p.
Exemple1 S’estudia la correlació entre l’obesitat i la resposta al dolor i s’obtenen dades de 10 individus.
H0: ρ = 0 No existeix associació lineal entre les variables H0: ρ ≠ 0 Existeix associació lineal entre les variables En la mostra s’observa una dèbil correlació negativa r = -0,33 Es calcula l’estadígraf t i es contrasta amb una distribució t d’Student amb 8 graus de llibertat, obtenint-se un valor de p = 0,35 que no permet descartar la hipòtesi nul·la.
Exemple 2 Existeix relació entre l’edat i el volum relatiu del fetge (ml/kg) en nens? S’obté una mostra en 15 nens sangs entre 6 mesos i 15 anys.
H0: ρ = 0 No existeix associació lineal entre les variables H0: ρ ≠ 0 Existeix associació lineal entre les variables En la mostra s’observa una correlació lineal inversa moderadament intensa r = -0,79 i es pot descartar la hipòtesi nul·la i concloure que existeix una correlació en la població p = 0,0005.
3. ANÀLISI DE REGRESSIÓ En algunes situacions interessa trobar una funció matemàtica que descrigui la relació estudiada mitjançant el coeficient de correlació. La funció descriu una manera d’obtenir valors Y a partir de valors X.
% = &(') Cal tenir en compte que X i Y no són variables conceptualment equivalents, sinó que X és la variable independent o predictora mentre que Y és la variable dependent o predita. La funció f permetrà calcular valors de Y a partir dels valors de X, però mai a l’inversa, i s’obté a partir d’una mostra intentant que els valors experimentals (yi) i els proporcionats pel model (yi’) siguin el més similars possible.
Cal tenir en compte que el model de regressió és un exemple de model empíric i que per tant no té el mateix valor que els models teòrics.
Model teòric – Llei científica Model empíric Validesa universal Validesa local per objectes similars als de la mostra Descriu la causa i el mecanisme dels fenòmens No implica causalitat ni explica mecanismes F=m·a IMC = a + b · t L’any 1988, per exemple, Sies va publicar a Nature una excel·lent correlació entre el nombre de naixements i el nombre de parelles cigonyes. És un exemple de que una correlació estadística no implica cap tipus de causalitat.
Sobre els models empírics cal tenir en compte també que no són certs o falsos sinó que són útils o inútils. Un model de regressió ben utilitzat permet obtenir valors d’una variable difícil d’obtenir (Y) a partir d’altres valors fàcils d’obtenir (X). La decisió de quina variable és X i quina és Y, per tant, dependrà dels interessos de l’investigador i no del fenomen en si. Com que la validesa del model és únicament local la qualitat del model dependrà de manera crítica de l’elecció de la mostra, és a dir, del disseny experimental.
L’anàlisi de regressió és un àrea molt extensa de l’estadística i estudiarem únicament els models lineals bivariants i la regressió mínima quadràtica.
Els models lineals bivariants aporten una funció que és l’equació de la recta i té una sola variable X.
% = &(') → =(+* En la regressió mínima quadràtica els valors d’α i β s’estimen de manera que es minimitzi la suma de quadrats dels errors de la variable dependent.
Existeixen també altres mètodes de regressió com el no-lineal, el multivariant i basats en criteris de màxima versemblança entre d’altres.
Regressió lineal mínima quadràtica L’equació lineal consisteix en una línia recta que conté una constant a, que defineix on talla l’eix Y, i un coeficient b que multiplica X i defineix la pendent de la recta, és a dir, la tangent de l’angle.
=++,· A partir d’una mostra és possible traçar múltiples rectes amb valors d’a i b diferents, per tant cal definir un criteri objectiu per definir quina és millor.
Per cada recta poden calcular-se les distàncies entre els valors del model i els valors observats en la mostra, obtenint així els errors. El conjunt d’errors es poden acumular en un únic valor sumant els seus quadrats.
- = ′ − → / = 0 - = 0( ′ − ) El criteri dels mínims quadrats consisteix en escollir aquella recta que presenta un valor d’E més petit, es a dir, aquella recta en què es minimitza la suma del quadrat dels errors de la variable dependent.
A partir d’aquí poden obtenir-se els valors a i b, que proporcionen la recta que millor s’ajusta a la mostra. Si s’obtingués una altra mostra s’obtindrien altres valors d’a i b lleugerament diferents, doncs a i b són estimadors mostrals dels paràmetres poblacionals α i β.
4. AVALUACIÓ DEL MODEL DE REGRESSIÓ En la pràctica sempre és possible ajustar una recta a una núvol de punts, però el resultat no és sempre acceptable. Després d’obtenir els valors d’a i b cal avaluar la qualitat del model en funció de la bondat d’ajust, que es calcula mitjançant el coeficient de determinació (r2), i la significació estadística, que pot obtenir-se mitjançant un contrast d’hipòtesi sobre la pendent o mitjançant una prova ANOVA de la regressió.
Avaluació de la bondat d’ajust. Coeficient de determinació r2 El coeficient de determinació, r2, permet estudiar la bondat d’ajust i determina el percentatge de variació de Y que és explicada pel model. Es tracta d’un valor adimensional que varia entre 0 i 1.
= 11 − 112 ∑( − ) − ∑ = ∑( − ) 11 SSY indica la dispersió total i SSE indica la dispersió de l’error, per tant s’està calculant la diferència de la dispersió total menys la dispersió de l’error dividit entre la dispersió total. El valor de r2 és adimensional i pot oscil·lar entre 0 i 1. Coincideix amb el coeficient de correlació de Pearson.
• 0,00 El 0% de la variació de la Y es pot predir mitjançant la de X • 1,00 El 100% de la variació de la Y es pot predir mitjançant la de X El coeficient de determinació, doncs, indica com de ben ajustada està una recta a la mostra i permet conèixer el percentatge de variabilitat de Y que es pot predir a través de la variable X. En la gràfica de l’esquerra s’obté que es pot predir un 32% de la variabilitat de Y a través de X mentre que és d’un 97% en la gràfica de l’esquerra.
Significança estadística. Contrast d’hipòtesi de la pendent El contrast d’hipòtesi sobre la pendent permet obtenir la significació estadística. Quan les variables no estan associades linealment el valor poblacional de la pendent és nul, encara que el valor mostral no ho sigui, per tant: H0: β = 0 La pendent poblacional és 0 Ha: β ≠ 0 La pendent poblacional és diferent de 0 La prova de contrast d’hipòtesi es realitza mitjançant una distribució de probabilitat de t d’Student amb n-2 graus de llibertat i l’estadígraf següent: "= , 11 # 3112 − , −2 Significança estadística. ANOVA de la regressió Al tema anterior s’ha explicat la comparació de dos o més grups mitjançant la prova ANOVA, que comparava dispersió intragrup amb la dispersió intergrup. S’utilitzava la taula següent.
En el cas de l’anàlisi de regressió, ANOVA divideix la variabilitat total de Y (SSY) en dos components: SSR, que és la variabilitat explicada pel model, i SSE, que és la variabilitat que el model no pot explicar i s’anomena també variabilitat residual.
11 = 445 + 446 Si el model és estadísticament significatiu la variabilitat explicada pel model serà significativament major que la no explicada, per tant SSR > SSE. Les hipòtesis nul·la i contrastada serien que la pendent és 0 (β=0) i que no ho és (β≠0) respectivament.
H0: β = 0 La pendent poblacional és 0 Ha: β ≠ 0 La pendent poblacional és diferent de 0 La taula té un aspecte molt similar al cas d’ANOVA d’un factor i és: SSR = b · SSXY ; SSE = SSY – b · SSXY El quocient entre les variàncies F expressa quantes vegades és major la variància explicada respecte la residual. Si és molt major la probabilitat de que succeeixi únicament per atzar serà molt petita i es podrà considerar el model com estadísticament significatiu.
Els valors de F obtinguts en la taula ANOVA es contrasten utilitzant una distribució de probabilitat de Fisher. Els dos graus de llibertat corresponen als de la taula: 1 i n-2.
És important tenir en compte que un resultat significatiu d’ANOVA mostra que el model explica únicament que una part de la variació de la Y que no pot ser atribuïda exclusivament a l’atzar, per tant no s’han de sobre-intrepretar els resultats. Un ANOVA de regressió amb p<0.05 no demostra que: • • • • El model utilitzat sigui útil i permeti predir molt bé Y a partir de X, això s’avalua amb r2.
El model lineal utilitzat sigui el millor dels models possibles.
Existeixi una relació causal de qualsevol tipus entre X i Y.
No existeixin altres possibles variables predictores que expliquin la part de variància de Y que no ha estat explicada pel model.
Intervals de confiança per les prediccions Els paràmetres a i b són estimadors mostrals d’α i β, per tant poden variar si l’anàlisi es repeteix amb mostres diferents. Per aquest motiu es pot calcular l’interval de confiança pel valor mig d’Y per un cert valor de X (xi).
Aquests IC es poden calcular al llarg de tot l’interval de X obtenint-se així les bandes de confiança.
L’amplada d’aquestes bandes serà major o menor en funció del valor de X. A prop del centre només afectarà la variabilitat del valor d’a mentre que als extrems l’efecte de la variabilitat en la pendent serà més acusat.
També es pot calcular l’interval de confiança per la predicció del valor d’Y (yi) corresponent a un cert valor de X (xi). No s’ha de confondre amb l’IC de la mitja per un cert valor de X.
Aquests IC també es poden calcular per tot el rang de X obtenit-se així les bandes de predicció, que són més amples que les bandes de confiança.
5. CONSIDERACIONS PRÀCTIQUES DELS ANÀLISIS DE REGRESSIÓ En la pràctica poden aparèixer alguns problemes associats a l’anàlisi de regressió com: • Presència de punts singulars (outliers) Depenent de la seva posició els punts singulars poden exercir una enorme influència en l’anàlisi de la regressió, especialment si es troben als extrems.
Freqüentment representen errors experimentals i la seva eliminació estaria justificada, però és recomanable investigar per què es produeixen.
• Agrupament d’observacions A vegades les dades no es distribueixen homogèniament en l’eix X sinó que es distribueixen en grups o clusters. El model de regressió tendeix a unir els centres dels dos grups, però la presència d’aquests grups pot venir donada per l’existència de diferents famílies d’objectes. En aquest cas s’haurien de realitzar models de regressió per cada grup per separat.
• Dubtes sobre la linealitat del model La observació dels gràfics de dispersió a vegades pot fer sospitar de l’existència d’un model no-lineal, però la utilització d’una equació més complexa pot intentar modelar l’error experimental, obtenint-se el que es denomina sobreajustament (overfiting). Els models de regressió no-lineal només s’han d’utilitzar quan existeixi una justificació adequada. Sinó el sobreajustament provoca la generació de models que s’ajusten molt bé als punts de la mostra però no als de la població.
Cap prova estadística pot substituir la informació que s’obté simplement observant les dades, per tant és de vital importància observar sempre els gràfics de dispersió (scatterplots) per detectar possibles irregularitats.
6. ANÀLISI DE REGRESSIÓ AMB VARIABLES QUALITATIVES. REGRESSIÓ LOGÍSTICA UNIVARIANT.
Freqüentment la variable Y no és una variable continua sinó que és una variable categòrica dicotòmica. En aquesta situació interessa obtenir un model que representi la relació d’aquesta variable, anomenada variable resultat, amb una sèrie de variables qualitatives o quantitatives que sospitem que poden afectar al resultat. Aquestes s’anomenen variables predictores. La curació, per exemple, pot estar relacionada amb l’edat, el sexe i el tractament.
Curació = f(edat, sexe, tractament) En una situació on es vol relacionar l’edat amb la presència o no d’una malaltia coronària (CHD) no es pot utilitzar el model lineal perquè l’edat no determina exactament tenir CHD, sinó que a certes edats hi ha més proporció de CHD. Un model lineal prediria valors impossibles, doncs només tenen sentit els valors 0 (no afectat) i 1 (afectat).
En aquests casos s’acostuma a dur a terme un anàlisi de regressió logística que consisteix en categoritza les edats i calcular la proporció de malalts i sans per cada un dels rangs.
La funció resultant no tendeix a assemblar-se a una recta sinó a una corba sigmoide, ja que està limitada a prendre valors entre 0 i 1, indicant 0 que no hi ha cap malalt i 1 que tots els individus ho estan. La funció que ho representa és: 1 7( ) = 1 ) 8(9:; 1+- P(x) representa P(Malalt = 1lx), és a dir, que representa la probabilitat d’estar malalt en funció de l’edat x, sent malalt el valor 1.
Sobre aquesta funció sigmoide s’aplica una equació de transformació logit o logística als dos cantons de la funció amb l’objectiu de trobar una relació lineal entre X i Y.
7( ) < =>"(?) = ln B C=(+* 1 − 7( ) Les dues equacions són equivalents i són simplement maneres diferents d’expressar la relació entre P(x) i x.
Els coeficients α i β no es poden obtenir, doncs són valors poblacionals. Computacionalment s’obtenen els coeficients a i b mitjançant el mètode de màxima versemblança. En SPSS els resultats es mostren com: Aquest model indica que, per exemple, per un pacient de 65 anys: 7(65) ln B C = −5,331 + 0,111 · 65 = 1,88 1 − 7(65) Aquesta equació calcula el logaritme neperià de la probabilitat de patir CHD respecte la probabilitat de no patir-ho quan té 65 anys, per tant es pot obtenir aquesta relació.
B 7(65) C=1 − 7(65) ,JJ = K, LL Interpretació dels coeficients Els coeficients α i β (a i b) poden interpretar-se també de manera aïllada.
En primer lloc els coeficients β, en forma exponencial, tenen el mateix sent que els odds ratio (OR).
- ; = MN • Si X és una variable dicotòmica exp(β) indica l’augment del risc de patir CHD al canviar el valor de la variable dicotòmica X • Si X és una variable continua exp(β) indica quant augmenta el risc de patir CHD per cada unitat d’X.
Seguint el cas anterior, on β = 0,111 i exp(β) = 1,117, exp(β) és el factor de risc i indica com canvia el risc de patir CHD per cada any que augmenta l’edat del pacient.
Els odds AGE = n+1 (A/B) són 1,117 vegades els odds de AGE = n (C/D), per tant per cada any d’edat els odds augmenten un 11,7%.
P OO PQ/ = + 1 R = = 1,117 OO PQ/ = S El coeficient α, per altra banda, és un indicador del risc basal de patir la malaltia i el seu valor depèn de que la mostra estudiada tingui una proporció de sans i malalts similar a la existent en la població.
En estudis de cohorts el valor d’α es pot estimar i el model es pot utilitzar per fer prediccions de probabilitat. En estudis de casos i controls, però, el valor d’α no es pot estimar i el model no permet fer prediccions de probabilitat.
Significança estadística Igual que amb la regressió lineal, els parametres que s’obtenen amb els càlculs són estimadors dels paràmetres poblacionals α i β, per tant cal estudiar la significació estadística del model. Els contrasts d’hipòtesi més utilitzats són l’estadígraf de Wald i la likelihood ratio. Un valor de p inferior a 0,05 serà indicatiu de que el factor estudiat té un efecte estadísticament significatiu sobre el succés.
...