Anàlisi multivariable de dades. Resum 1 cara per davant i darrere tercer examen (2015)

Apunte Catalán
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Sociología - 3º curso
Asignatura Anàlisi multivariable de dades
Año del apunte 2015
Páginas 2
Fecha de subida 26/01/2015
Descargas 6

Vista previa del texto

TEMA 5.
Condició per crear factors: concordança amb variables. Factors com a eixos de diferenciació. Model d’anàlisi  anàlisi factorial > anàlisi de classificació. Vector (forma de representar els individus en l’espai. Anàlisi de components principals  busca els factors comuns que correlacionen les variables. Factors independents linealment. Correlació 0. Perpendiculars. Expressen les correlacions entre les variables. Gràfic de dispersió (h1, v2, p3). Veiem a quin factor estan properes les variables. Polaritat positiva = bons resultats. Factors com a variables sense col·linealitat (era un anàlisi de components principals). L’ACP s’inscriu en l’Anàlisi factorial (AF). Busca factors latents a partir de variables manifestes, permet la construcció d’índex / tipologies, es complementa amb el de classificació i resol els problemes de col·linealitat. Els factors marquen les direccions dels núvols. El conjunt de variables engendra l’espai vectorial. Base (conjunt de factors). Cal aconseguir que la projecció dels individus sobre els eixos sigui la màxima possible. Variància = Inèrcia. El + important és l’amplària de la figura. X (variables) = Y (factors) * A (matriu, transformacions). Matriu com espai vectorial euclidià amb p variables i n individus. Relació de dependència lineal entre variables inicials i factors. Etapes ACP (selecció i tria de variables, extracció de factors, interpretació, càlcul de puntuacions factorials). Condicions d’aplicació: mida mostral suficient: 50 casos (mida pobre) fins a 200-300 casos (mida desitjable). Mínim de cinc casos per variable., suma dels quadrats de les diferències entre les matrius de correlació observada i reproduïda, ignorant les diagonals. Normalitat – exploratori. No és una condició restrictiva. Si es realitza inferència estadística s’assumeix normalitat.
Linealitat – relacions lineals entre parells de variables. Relació lineal mínim 0’3 entre factors i variables. Absència de casos extrems. Matriu quadrada simètrica – càlcul de totes les correlacions amb totes. La diagonal expressa la de sí mateixes. A partir de 0,3 rellevants. Indicadors de bondat: a) determinant: valor proper a 0. B) Bartlett: compara amb matriu d’identitat (no s’ha d’acostar a 1). C) KMO: s’ha d’aproximar a 1. 0’9 maravilloso, 0’8 meritorio; 0,7 intermedi, 0’6 mediocre, 0’5 miserable, -0,5 inacceptable. Es construeix en la idea del coeficient de correlació parcial. KMO = suma de totes les correlacions/ suma de les correlacions + suma correlacions parcials. Mesura Adequació Mostral (MSA) – mínim 0,5 per variable. Valors de la diagonal.
Variables linealment independents – 90º, cosinus 0. Vectors unitaris = distància 1. Condicions: màxima inèrcia possible. Que s’extregui de manera successiva / jeràrquica / linealment independents / unitaris. Vector (sèrie ordenada de números).
Multiplicació de vectors: Si a = 2 i E (4,3)  2 x (4,3) = (8,6). Suma de vectors. Si E1 (2,7) i E2 (4,3) = (6,10). Producte escalar = suma dels productes dels components. Quan un espai vectorial es defineix per aquest s’anomena mètric. El PE multiplica el primer element pel primer element i = amb el segon. Ex. (4,2) i (1,3) = 4+6=10. Producte escalar per si mateix. Suma dels quadrats. La norma d’un vector és el què mesura. PE per si mateix = (4,2) i (4,2) = 16+4 = 20. Distància euclidiana: extensió de pitàgores. H2 = a2 + b2 = (8-3)2 + (7-2)2 = 50. H = arrel de 50. Aquesta distància veu la dissonància física entre dos punts. El conjunt de les interdistàncies genera la matriu de distància. Distància (4,2) i (1,3)  arrel de (4-1)2 + (2-3)2 = arrel de 10. El producte escalar de dos vectors. E = E1 * E2 * cosinus d’alpha. El producte escalar de dos vectors és la correlació. Les variables tenen nous eixos de referència. Variables de mesura 1. A) Mitjana aritmètica : mitjana de les variables. B) Variable centrada: Estandarditzar – perquè siguin comparables. Observació – Mitjana / Desviació. Agafem el centre i el movem al 0 (la mitjana anterior). Tots es mesuren en funció del nou centre. Això ho fem per tantes dimensions com tinguem. Les variables estandarditzades tenen mitjana 0 i desviació 1. El producte escalar per si mateix = SQD. El producte escalar de dos vectors o variables per si mateix és el SPD. Variància = SQD / n. Covariància = SPD /n. El cosinus de l’angle que formen els vectors (amb les variables centrades) és igual al coeficient de correlació. Si l’angle és de 0º el r és de 1. Es busquen 90º perquè llavors r=0 / independència en l’espai. Angles de més de 90º = r negatiu. El producte escalar entre dos vectors és igual al producte del mòdul d’un dels vectors per la projecció d’aquest vector sobre l’altre. El seu producte escalar és de 0, són perpendiculars, formen angles de 90º, cosinus i correlació de 0 – sistema ortogonal. Rang (menor número de files o columnes linealment independents). Matrius: Quadrada (=nºfiles i columnes), Simètrica (diagonal com a eix a partir del qual són =), Diagonal (concentra els elements en la diagonal), Identitat (matriu diagonal de 1’s), Nula (de zeros). Traça = suma dels elements de la diagonal d’una matriu quadrada. Transposada d’una matriu = intercanviar files x columnes per facilitar multiplicar-les. Variància / Inèrcia = distància dels individus al centre. La suma = variància / inèrcia total. El primer factor té + inèrcia. He d’aconseguir que els punts estiguin el + prop possible. ACP basat en el repartiment de la inèrcia entre els factors. Si tenim 20 individus, la traça serà resultat de sumar 20 unitats d’informació. En el AF concentrem la informació. Valor propi o autovalor = variància explicada. Taula de comunalitats. Cada variable, en principi, aporta una unitat d’informació. Et diu quines variables et donen + o – informació. Criteris per retenir factors: a) valor propi superior a 1; b) variància total de 70% aprox, c) gràfic de sedimentació i d) interpretabilitat. X= Y *A. A factor de càrrega / matriu de saturacions. Cosinus de l’angle que formen x (variable) i la y (factors). Matriu de components. Interpretacions: 1) els resultats són correlacions, 2) són les coordenades del gràfic de components, 3) són dues lectures en vertical (valor propi) i horitzontal, 4) si elevéssim al quadrat tindríem la comunalitat que és la distància de la variable a l’origen, 5) la p vol dir els factors. Rotació.
Mantenir el centre. Puc girar els eixos. Passem inèrcia del primer i/o segon factor a la resta. Rotació varimax. Matriu de components rotats. Valora el pes de cada eix, considera les variables (sobretot), les que tenen més comunalitat, estableix escala de variables que recorren l’eix i s’ha d’interpretar el gràfic. Si estan a prop del centre (neutrals = propers a la mitjana). Més propers al factor millor – més correlació. Puntuacions factorials. Dades tipificades en unitats de desviació i mitjana 0. Un dels procediments és la regressió. Consisteix en calcular tantes regressions com factors (rotats). Aquests actuen de variables dependents i les variables d’independents. Els coeficients de regressió parcial per cada variable generen la matriu de coeficient de puntuacions factorials.
Tema 6. Anàlisi de classificació.
Anàlisi tipològica – capacitat d’estructurar la realitat. Dinàmiques: deductives (forta teoria darrere) o inductives (més obert, la teoria orienta les dades). Anàlisi de classificació (ACL) es diu també Cluster. Distingim entre: A) Operacions de classificació.
Classificacions a) intensives: un concepte es subdivideix en dos o + extensions a un nivell menor. Capacitat general i després concretar, molta càrrega teòrica i b) extensives: objectes d’un conjunt s’agrupen en dos o més subconjunts segons similitud.
Cada cop anar a allò més general. B) Productes derivats de l’activitat classificatòria: a) classificacions: subdivisió d’un concepte composat de diverses categories o classes. Unidimensional, b) tipologies: quan s’opera a la vegada amb diversos principis classificatoris (simultanis), exemples (tipus de societats, de capital...) i c)taxonomies: diversos criteris classificatoris com a criteris successius / jeràrquics – diversos taxons; característiques de les biològiques. L’ACL pretén crear grups el més semblants internament i molt diferents entre ells. Forma automatitzada i tenint en compte mesures de similitud / dissimilitud. Passos: (elecció variables, elecció mesura de proximitat, elecció mètode de classificació, classificació determinant el nº de grups, validació). Jeràrquic ascendent (els ajuntem amb els què més s’assemblen). Elecció de variables: Quanti o quali dicotòmiques.
Homogèniesi comparables. Estandarditzades. Incorrelacionades. Contínues. Que siguin les què més discriminin. El x2 mesura qualsevol distribució de freqüències. Ex. perfils. Base de l’anàlisi de correspondències. La distància del x2 = alternativa. Farem servir la distància euclidiana (mesura de dissimilitud). Sense fer l’arrel seria distància quadràtica. Triarem el mètode jeràrquic ascendent, un dels més de 100 mètodes. Els jeràrquics van afegint unitats simples – de baix a dalt – ascendent. El mètode pot afectar als resultats. Seguirem el criteri de la variància (mínima pèrdua d’inèrcia). Agafo aquell que té menor variància.
Representat al dendrograma. A mesura que s’ajunten grups, puja la variància intragrups i baixa la entregrups. Partició / classificar – dividir en parts. Cadena de particions = successives. + Creixem en l’arbre, major coeficient. Parem d’agrupar allà on salta molt. Jerarquia indexada – valor numèric a qualsevol partició (distància ultramètrica). Gràfic de “tempanos” – procés d’agregació. Mètode Ward – mínima pèrdua d’inèrcia (intergrups). La variància es considera equivalent a la suma. Centre de cada grup – mitjana. Hem de mantenir la variància intergrups. A l’inici la intra és 0 , a la que unim variables va creixent, a costa de la entregrups. Mètode dels centres mòbils – fa referència a que els centres van canviant. Mètode dels grups estables – generar una taula de contingència creant dues particions. Els grups estables són aquestes agrupacions. El nombre de grups pot estar fixat a priori/posteriori segons el mètode. Criteris per reduir el nombre de grups: a) proporció de la variància explicada per cada partició, distàncies entregrups, taula de conglomeració, salts del dendrograma, automatitzat, contingut teòric... En la taula de conglomeració es veuen els salts del dendrograma expressats en l’increment del coeficient. Acceleració – indicador de què tot corre. És preferible fer + grups que unir diversitat. Descripció dels grups. Creuant tipologia amb variables factorials, taules de contingència o mitjanes, representacions gràfiques. Validació. Estabilitat dels resultats. Canviant variables / codificació. Càlcul de mitjanes d’avaluació, índex diversos, simulació de Montecarlo, interpretació. Els factors són les característiques amb les què definim els grups.
...