Tema 11. Anàlisis multivariant (2015)

Apunte Catalán
Universidad Universidad Pompeu Fabra (UPF)
Grado Medicina - 2º curso
Asignatura Bioestadística
Año del apunte 2015
Páginas 10
Fecha de subida 03/02/2015
Descargas 8
Subido por

Vista previa del texto

Tema 11. Anàlisis multivariant 1. NECESSITAT DE L’ESTADÍSTICA MULTIVARIANT L’estadística multivariant permet l’estudi de múltiples variables a la vegada. Això és necessari en estudis observacionals perquè normalment sobre els subjectes no opera un sol efecte sinó múltiples. És també important en estudis experimentals perquè en determinades situacions pot no ser possible o convenient controlar les variables individualment.
Exemple Paradoja de Meehl. Imaginem que volem distingir entre individus esquizofrènics i normals mitjançant un qüestionari de preguntes.
Si es segueix una aproximació univariant es dedueix que cap de les dues preguntes permet distingir sans de malalts: No obstant, si es realitza una aproximació multivariant s’observa que els pacients sans responen igual a les dues preguntes, mentre que els malalts donen respostes diferent.
2. CLASSIFICACIÓ DELS MÈTODES ESTADÍSTICS MULTIVARIANTS Els mètodes estadístics multivariants poden classificar-se en funció de l’objectiu de la tècnica o segons si s’utilitza inferència estadística.
Objectiu Reduir dimensionalitat Obtenir models de regressió Classificar Els principals mètodes estadístics multivariants són: Inferència estadística Tècniques descriptives Tècniques inferencials A més d’aquesta classificació, la tria del mètode estadístic a utilitzar per una mostra concreta depèn també de la forma de la matriu.
Així doncs, per matrius amb bandes altes i primes, és a dir, amb més objectes que variables, s’utilitza la regressió lineal múltiple (MLR) i la regressió per passes (stepwise regresion). Per matrius baixes i amples, és a dir, amb més variables que objectes, s’utilitza la regressió de components principals (PCR) i les estructures en projecció latent (PLS).
3. MÈTODES DE REDUCCIÓ DE LA DIMENSIONALITAT Anàlisi de components principal (PCA) L’anàlisi de component principals és un mètode descriptiu que s’utilitza per reduir la dimensionalitat d’un conjunt de dades i té com a objectiu visualitzar, classificar i diagnosticar.
Imaginem que tenim uns animals experimentals en els que mesurem edat, pes i longitud. Pot ser que aquestes variables puguin estar correlacionades, obtenint-se: Aquests dos eixos poden combinar-se: Per últim es realitza el procés de projecció que és el que permet la reducció de la dimensionalitat.
La posició relativa dels objectes es descriu amb un nou sistema de coordenades, PC1 i PC2. Els animals, doncs, es descriuen després de la projecció amb dues noves variables que es denominen components principals.
La reducció de la dimensionalitat d’una matriu dependrà del nombre d’objectes que s’estiguin estudiant. Així doncs, el nombre màxim de components principals després de la projecció serà un menys que el nombre de subjectes (n-1). No obstant, normalment interessarà obtenir una gràfica que representi els punts en dues o tres dimensions.
Els mètodes de projecció es poden expressar també de manera aritmètica com la descomposició d’una matriu original en el producte de dues matrius. Caldrà sumar a aquest producte la variabilitat que queda sense explicar.
X Matriu original T Scores – descriuen els objectes utilitzant unes noves variables P’ Loadings – descriuen la relació entre X i els nous PC E Variabilitat que queda sense explicar Tant la matriu T com la matriu P’ tenen interès i poden representar-se gràficament: • Scores Plot (T) representa els objectes en el nou espai de PC i es pot interpretar com un mapa, on la proximitat indica semblança entre els punts per les variables estudiades.
• Loading Plot (P) representa la contribució de cada una de les variables originals als nous PC Exemple Classificació de carcinomes de pulmó. S’utilitzen 203 mostres, 186 de tumors de pulmó i 17 de teixits pulmonars normals a partir dels quals s’obtenen 12.600 seqüències de transcripció.
A partir d’aquesta mostra es realitza una PCA i s’observa que de manera natural s’agrupen els diferents tumors i els teixits normals.
4. MÈTODES D’ OBTENCIÓ DE MODELS. REGRESSIÓ MULTIVARIANT Un anàlisi de regressió té com a objectiu trobar una funció que permeti obtenir valors de Y a partir de valors de X.
Y = f(X) Entre tots els mètodes existents, en aquest tema s’explicaran els tres següents: • Regressió logística multivariant • Regressió lineal múltiple - MLR • ANOVA multifactorial Regressió lineal múltiple La regressió lineal múltiple (multiple linear regresion, MLR) és un mètode estadístic que permet definir la relació entre una variable dependent i diferents variables independents. És l’extensió a una situació multivariant de la regressió lineal i en la seva formulació general les dades s’ajusten en un hiperplà, és a dir, en més de tres dimensions.
= + + → = + + + ⋯+ + La formulació en forma de matrius mostra que el vector Y és igual al producte de la matriu X per β més l’error.
Y=Xβ+e Per definir l’estimador puntual de β, b, s’utilitza el criteri dels mínims quadrats: b = (XtX)-1Xty Per una variable determinada b és el punt de tall (b0) i una pendent (b1), mentre que per n variables b és el punt de tall (b0) i les pendents d’un hiperplà de n dimensions (b1, b2 ... bn). En la regressió lineal univariant anomenàvem “a” a aquest punt b0.
Igual que es feia en la regressió lineal, cal avaluar el model estudiant la bondat d’ajust i la significança estadística.
La bondat d’ajust es quantifica amb el coeficient de determinació (r2) igual que en el cas univariant. El valor de r2 expressa la quantitat de variació total de Y que és explicada pel model.
− −∑ ∑ − La significança estadística del model es pot provar amb ANOVA, que compara la variància explicada pel model amb la no explicada (F).
= − = ∑ MLR assumeix que totes les variable són rellevants per descriure Y. És per aquest motiu que incloure variables no rellevants en l’estudi provoca un augment de r2, fent pensar que el model és més bo. No obstant, aquest augment del nombre de variables implica també un augment del nombre de graus de llibertat, k, que ve determinat pel nombre de variables predictores. Com que no augmenta SSR hi ha una disminució de F i amb ella de la significança estadística.
Existeixen mètodes de selecció de variables que permeten inserir en el model únicament aquelles variables que contribueixin a explicar la variable dependent. Alguns d’aquests models són forward regression, backwards regression i stepwise regression.
Amb ANOVA es comprova la significança del model com a global, però és possible també estudiar la significança estadística de les diferents variables per separat.
El primer valor de significança és el punt de tall, per tant normalment l’obviarem. Pel que fa al pes i l’exercici veiem que tots dos tenen un efecte estadísticament significatiu, però pel valor de B veiem que l’efecte del pes és positiu i el de l’exercici és negatiu.
b0 = 142,1; b1 = 7,5; b2 = - 13,7 COLESTER = 142,1 + 7,5 PESO – 13,7 EJERC El model de regressió lineal múltiple és un model molt bo quan es compleixen determinades condicions, però en cas contrari es veu condicionada la qualitat dels resultats. Les condicions que ha de complir són: • Linealitat Entre la variable dependent i les predictores.
• Ortogonalitat La correlació de les variables predictores no ha de ser estadísticament significativa, no han d’estar correlacionades.
• Independència Els residuals no han de mostrar auto-correlació i no han de dependre dels residuals anteriors, com és el cas d’estudis en sèries temporals.
• Normalitat Els residuals han d’estar distribuïts normalment.
• Homoscedasticitat Els residuals no han d’augmentar o disminuir al llarg de la línia de regressió (la variància dels errors estadístics és sempre la mateixa), com és el cas quan s’utilitzen transformacions logarítmiques.
Independència, normalitat i homoscedasticitat fan referència als residuals i poden mesurar-se mitjançant una gràfica on es comparen els valors obtinguts experimentalment i els calculats. Si, per exemple, no hi ha homoscedasticitat s’observarà que els errors són majors a mida que s’avança en la línia de regressió.
Regressió logística multivariant. Variable dependent qualitativa La regressió logística multivariant s’aplica quan la variable Y no és una variable continua sinó categòrica dicotòmica i depèn de múltiples variables X. Interessa, doncs, obtenir un model que representi la relació d’aquesta variable (variable dependent) amb una sèrie de factors que puguin afectar al resultat (variables predictores). Les variables x podran ser qualitatives, quantitatives o una barreja d’ambdues.
Curació = f(edat, sexe, tractament) =1 ln $ 1− 1+ %= 1 + → → =1 ln $ 1− 1 1+ %= & + ⋯ ! ! +⋯+ Cal tenir en compte que el resultat d’un model logístic multivariant no és equivalent a múltiples models logístics univariants, doncs en un model multivariant els coeficients de cada variable tenen en compte els efectes de la resta de variables i proporcionen una estimació més realista del efecte de variables, aportant així una major potència estadística.
La interpretació del model es fa igual que en la regressió logística univariant: • Interpretació de cada un dels coeficients β (exp β) o Si X és una variable dicotòmica indica l’augment del risc al modificar-se la variable.
o Si X és una variable continua indica l’augment del risc per cada unitat de X.
LWT – Pes mare abans de l’embaraç SMOKE - Hàbit de fumar Variable quantitativa Variable quantitativa dicotòmica Factor de protecció (<1) Factor de risc (>1) Per cada lliura que augmenti el pes de la Fumar augmenta el risc de que el nen tingui mare el risc de que el nen tingui un pes baix un pes baix en un 96,7%.
disminueix en un 1,3% L’avaluació de la qualitat del model s’ha de realitzar sobre el model complet i sobre cada una de les variables.
La qualitat del model complet es pot comprovar amb likelihood ratio (test de raó de versemblança), -2 log Q o -2 log likelihood. La introducció d’una nova variable podrà millorar o empitjorar l’estudi. Una millora implicarà un menor valor de -2 Log Likelihood.
Alguns programes aporten també altres índexs de la qualitat global del model com AIC (Akaike’s Information Criterion), que permet comparar models després d’introduir canvis mitjançant l’addició o eliminació de variables.
Per últim, la significança estadística dels coeficients es comprova mitjançant l’estadígraf de Wald.
ANOVA de dues vies L’anàlisi ANOVA d’un factor permet comparar la mitjana d’una variable quantitativa en n grups definits per una variable qualitativa i analitzar si les diferències observades són estadísticament significatives. Altres variants d’ANOVA permeten avaluar simultàniament l’efecte de dos factors amb l’ANOVA de dues vies o two-way ANOVA o més de dos factors amb ANOVA multifactorial.
En terminologia ANOVA s’anomena factor a la variable que defineix els grups i aquest té un cert efecte sobre la variable quantitativa.
Exemple Es vol estudiar l’efecte d’un fàrmac i d’un tipus de dieta sobre l’augment de pes d’un grup de voluntaris. S’estudia una mostra de 20 pacients als que s’administra el fàrmac 1 o 2 i la dieta 1 o 2.
Si es mira l’efecte dels fàrmacs i les dietes per separat comparant les mitjanes d’augment de pes, s’observa que l’efecte del fàrmac 2 és major que el fàrmac 1 i que les dues dietes tenen efectes similars.
Si es mira l’efecte dels fàrmacs en funció de la dieta, però, s’observa que l’efecte dels fàrmacs no és igual per pacients amb diferent dieta.
I de la mateixa manera, s’observa que l’efecte de les dietes tampoc és igual per pacients tractats amb diferents fàrmacs.
La conclusió per tant és que ANOVA d’un factor amaga com influeixen conjuntament diferents factors, per tant quan existeix més d’un factor és important realitzar un anàlisi multivariant.
La taula d’ANOVA de dos vies es construeix de manera que es comprovi la significança estadística de cada un dels dos efectes i la seva interacció. La resta de variància no explicada queda com variància residual. Cada una de les contribucions a les variàncies es comprova en comparació amb la residual.
A partir de les dades de l’exemple s’obté la següent taula: Els valors de F i la suma de quadrats indiquen que tant l’efecte del fàrmac com de la interacció fàrmac - dieta són estadísticament significatius a un nivell de confiança del 95% i tenen un efecte positiu que és considerablement major quan es comparen els dos factors.
Per poder aplicar ANOVA de dues vies cal investigar una mostra adequada en què els factors prenguin diferents valors seguint un cert disseny. Si es volen investigar dues variables qualitatives A i B amb valors i i j respectivament, la mostra hauria de contenir n = i x j x r individus, és a dir, la mostra conté r individus amb cada valor ij possible.
El model matemàtic per aquest tipus d’ANOVA seria: =)+ + ' + * ' + + '( Qualitativa Quantitativa Qualitativa dicotòmica X Regressió logística Regressió logística Quantitativa '( µ = efecte mitjà αi = efecte factor 1 βj = efecte factor 2 γij = efecte interacció εijk = residual ANOVA MLR Y 5. MÈTODES DE CLASSIFICACIÓ L’objectiu dels mètodes de classificació és agrupar els individus d’una mostra en dues o més categories mitjançant n variables. Aquesta agrupació pot realitzar-se mitjançant diferents estratègies.
• • Clustering Formació de grups d’individus i grups de grups en funció de criteris de similitud.
Anàlisis discriminant Es busca una funció que creï una divisió entre els grups.
La principal diferència entre les dues estratègies és que el clustering és un mètode no supervisat i a priori no se sap quants grups hi haurà ni quins seran aquests .
Cluster Analysis (CA), anàlisis de conglomerats L’anàlisi de conglomerats es basa en l’anàlisi de la similitud entre els individus, normalment a partir de les distàncies en l’espai dels n descriptors.
Existeixen mètodes aglomeradors i divisius segons si es treballa agrupant els més similars o separant els més diferents i els resultats se solen presentar en forma de gràfiques denominades diagrames d’arbre o dendrogrames.
Es parla de proximitat entre dos individus quan els valors de les seves variables estan pròxims en l’espai. Això pot representar-se i observar-se en gràfiques 2D i 3D, però no poden realitzar-se gràfiques si hi ha més variables. En tots els casos, però, el concepte de distància és el mateix, tot i que aquesta distància pugui obtenir-se en funció de diferents definicions.
a) Euclidiana És la generalització a n dimensions del concepte intuïtiu de distància (Teorema de Pitàgores) 2- . = 4 0 − 1 + 0 − 1 → 2- . = 53 0 − 1 b) Manhatan o city-block Consisteix en sumar les diferències de valors entre les n variables.
2- . = | 0 − 1| + | 0 − 1| → 2- . = 3| 0 − 1| c) Mahalanobish Equival a la distància euclidiana en l’espai de components principals (PC). És un mètode molt utilitzat quan es vol fer una valoració no redundant de les diferències entre els objectes.
Una cop conegudes les distàncies entre tots els individus, els mètodes aglomeradors comencen per agrupar els dos individus més pròxims en un clúster. A continuació s’agrupen els següents dos individus més similars i es continua fins que tots els individus estan agrupats. El resultat és un dendrograma, en el qual es defineix un nivell de similitud o dissimilitud per poder definir el nombre de grups.
Un dels principals problemes del clustering és que existeix una gran diversitat de mètodes que difereixen fonamentalment en com es defineixen els valors de les variables per un nou clúster.
Una aplicació dels mètodes de clustering en biologia és el tractament de dades d’expressió gènica.
Els dendrogrames s’utilitzen per trobar gens que es co-expressin, ressaltant així la seva relació funcional. L’anàlisi de conglomerats també pot utilitzar-se per comparar diferents objectes i demostrar, per exemple, que una proteïna determinada és tant similar a les altres com els altres entre si.
Altres mètodes Existeixen també altres mètodes i el principal problema sol ser com escollir el més adequat.
L’aproximació correcta és definir bé el problema i a partir d’aquí buscar el mètode adequat, mentre que seria una aproximació incorrecta aplicar la tècnica que més ens agrada o ens sentim més còmodes per problemes pels quals no estan indicats.
...