Resum de mètodes quantitatius (2014)

Resumen Catalán
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Sociología - 2º curso
Asignatura Mètodes quantitatius
Año del apunte 2014
Páginas 7
Fecha de subida 30/10/2014
Descargas 29

Vista previa del texto

RESUM APUNTS.
p (proporció mostra); P (proporció població). Les majúscules fan referència a la població, (extrapolar / inferència).
Quan busquem el 95% de confiança busquem el 95% central; tal que: 𝐸𝑝 = + 𝑧 − 𝑁−𝑛 𝑝𝑞 )∗(𝑛) 𝑛 √( FÒRMULA DE L’ERROR. N (població); n (mostra); pq (0’75*0’25).
Tipus de variables. (Nominal/Ordinal/Escala). Les dues primeres quali, l’escala, quanti. Nominal (= o no =); ordinal (=, no =, < i >) i escala (=, no =, < , >, +, -) . Les quantitatives poden ser alhora; contínues (infinits valors) o discretes (valors finits).
TÈCNIQUES: QUALI – QUALI  TAULA DE CONTINGÈNCIA (TAULES DE DOBLE ENTRADA) QUALI (INDEPENDENT) – QUANTI (DEPENDENT)  ANOVA / COMPARACIÓ DE MITJANES.
QUANTI – QUANTI  REGRESSIÓ.
Model de dependència quan una variable depèn de l’altre i interdependència quan totes dues s’influencien. Treballem amb models de dependència.
Test d’hipòtesis.
DUES VARIABLES QUALITATIVES: Plantejament de dues hipòtesis complementàries / contradictòries.
H0 – termes d’igualtat. La disposició de x en les tres CSE és =. No diferències significatives.
H1 – termes de diferència. La disposició de x en les tres CSE és no =. Sí diferències significatives.
L’alpha és el risc d’equivocar-me en escollir una hipòtesi. (nivell de significació).
Taules de doble entrada. Variable independent columnes , dependent files. Es creuen.
Recordar a baix total de columnes, costats total files i a l’extrem dret, total de tota la taula.
(Fer ús de la independent).
Podem assegurar que tals diferències no són degudes a l’atzar? PASSOS: A) Formulació d’hipòtesis (nul·la H0 i alternativa H1); B)Condicions d’aplicació; C)Càlcul de l’estadístic de contrast; D) Càlcul d’alpha. E) Conclusions.
Taula de freqüències observades. (la taula base on es creuen les variables).
La de freqüències esperades es calcula de per a cada casella: 𝑥= 𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑓𝑖𝑙𝑎 𝑥 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑐𝑜𝑙𝑢𝑚𝑛𝑎 𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑙𝑒𝑠 𝑑𝑎𝑑𝑒𝑠 El total de la columna i fila varia segons la casella. El total de les dades és sempre el mateix.
Per seguir endavant cal que totes les caselles siguin superiors a 5. Si no ho són podem agrupar variables i crear-ne de noves, però han de sumar 5. Si en una taula 2x2 hi ha alguna menor a 5 però totes són majors a 3, apliquem la fórmula de correcció per continuïtat de Yates: 𝑥2𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑒𝑠 (𝑐𝑜𝑛𝑡𝑖𝑛𝑢ï𝑡𝑎𝑡 𝑑𝑒 𝑌𝑎𝑡𝑒𝑠) (ǀn observades − n esperadesǀ − 0,5)² = ∑ ∑ n esperades Les barres aquestes ǀ fan referència a què agafem el resultat positiu.
Després es resta cada esperada a la observada i es divideix entre les esperades.
𝑥2𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑒𝑠 = ∑ ∑ (n observades − n esperades)² n esperades X2 = (i-1) (j-1) on i és el total de files i j el total de columnes. Es resta 1 perquè l’última no cal saber-la. Per saber els graus de llibertat es multipliquen els resultats d’ambdós parèntesis.
La x2observades es busca en les taules de la khi-quadrat.
Intensitat de la relació [0-1]. (V de Cramer). On 0 és no relació i 1 és relació. 0.0-0.1  Poca relació; 0.1-0.2  Certa relació; 0.2-0.3  Relació bastant important.
𝑉= x2observades 𝑛(𝑚í𝑛𝑖𝑚(𝑖 − 1)(𝑗 − 1) Mínim vol dir que s’agafa el valor més baix d’entre i o j.
La alpha que ens dóna la taula del khi-quadrat és la significació, de tal manera que un 0.05 és un 95% de confiança.
Per explicar el sentit, cal fer els percentatges en funció de la independent. Es divideix la casella pel total de la columna, ja que la independent es col·loca a les columnes.
Els residus els calcularem via spss no a mà. Però hem de saber que si és major a 1,96 hi ha més casos dels esperats, si és menor a -1,96 n’hi ha menys dels esperats i si es troba entre ambdós valors no hi ha diferència.
Per construir un IC s’ha de fer el següent: 𝐼𝐶 = 𝑚𝑖𝑡𝑗𝑎𝑛𝑎 𝑑𝑒 𝑙𝑎 𝑚𝑜𝑠𝑡𝑟𝑎 ± 𝑒𝑟𝑟𝑜𝑟 = mitjana mostra ± t √𝑆² n La t es calcula de la següent manera: t(n-1; alpha). La alpha dependrà del nivell de confiança.
Un 95% és 0,05. DESPRÉS HO BUSQUEM A LA T-D’STUDENT.
La S2 és el quadrat de la desviació típica (s). Un cop tens l’error el sumes i restes a la mitjana i ja tens l’interval de confiança. S’ha de contestar parlant en mitjana... ex. En un 95% de confiança, la mitjana d’assistència dels joves des dels nadals fins ara és entre 0,9-2,5.
QUALI-QUANTI.
Per comparar mitjanes per exemple d’homes i dones: mitjana mostral homes − mitjana mostral dones 1 1 √𝑆𝑝² ( + ) ˜ 𝑡 (𝑛 ℎ𝑜𝑚𝑒𝑠 + 𝑛 𝑑𝑜𝑛𝑒𝑠 − 2) 𝑛 ℎ𝑜𝑚𝑒𝑠 𝑛 𝑑𝑜𝑛𝑒𝑠 Cal calcular la Sp² que és la variància ponderada.
𝑆𝑝² = Shomes ² (nhomes − 1) + 𝑆𝑑𝑜𝑛𝑒𝑠²(𝑛𝑑𝑜𝑛𝑒𝑠 − 1) 𝑛ℎ𝑜𝑚𝑒𝑠 + 𝑛𝑑𝑜𝑛𝑒𝑠 − 2 La S² te la donen o la pots calcular via SPSS.
La t que et surti fa referència a la t d’student. Busques el número de la operació a les taules. En el cas del T31 sent -0,812 si t’hi fixes és inferior al valor que et donen amb el valor de significació 0,3 per tant, l’alpha és superior a 0,3, tal que més creix alpha, més petit és el valor i si l’alpha del 0,3 que és el tope és superior a la nostra t... doncs això. En canvi, una t18 de 2,358, es trobaria entre el 0,03 i el 0,02, és a dir, entre els valors 2,356 i 2,552 sent 0,03 > alpha > 0,02.
Si alpha és gran no podem assegurar H1, si és petita sí que ho podem fer i mesurar el sentit de les diferències (comparar mitjanes) i la intensitat de la relació (𝜀²) Quan tenim variables quali- quanti, si tenim dos grups fem comparació de dues mitjanes i si en tenim tres, ANOVA. Condicions: A) Dades aleatòries independents; B) VI qualitativa i VD quantitativa; C) Distribucions normals (per a cada grup la VD ha de seguir una normal); D) igualtat de variàncies – homocedasticistat.
H0 és normal. H1 no ho és. Per avaluar la normalitat, l’SPSS: test Kolmogorov-Smirmir i Test de Shaphiro-Wilk. Si alpha és inferior o igual a 0,05 no hi ha normalitat i si és superior, sí. Per veure si les variàncies són iguals fem el test de Levene per a la igualtat de variàncies. Si és inferior o igual a 0,05 són diferents (heterocedasticitat; test de variàncies diferents); si és superior a 0,05 tenen variàncies iguals, homocedasticitat i test de variàncies iguals).
Parlem de variabilitat referint-nos als diversos valors que trobem entre dos grups o dins dels mateixos grups. Ex. Dins dels ingressos dels homes, hi ha molts valors i entre aquests i els de les dones també hi ha x valors. (parlem de mitjanes poblacionals en tot cas).
Comparant les mitjanes el que fem és: Variabilitat entre grups Variabilitat interna dels grups Diferències significatives hi ha quan hi ha una distància entre els grups i no diferències significatives quan es superposen.
𝐹𝑜𝑏 = MQE 𝑆𝑄𝐸/ (𝑘 − 1 ) = MQI 𝑆𝑄𝐼/ (𝑛 − 𝑘 ) On MQ és la mitjana quadràtica; la E és extern; la I és intern; la SQ és la suma quadràtica; la k és el nombre de grups (ex. Joves, adults, vells; k=3) ; la n és el total de dades.
GRUPS (k=3) Dades n (nombre dades) t (és sumen els números) JOVES ADULTS VELLS 8,8,9,7,6 8,6,5,8,4,1,3 3,8,0,0,1,3 5 7 6 18 38 35 25 78 R (quadrat de les observacions) 294 215 83 592 EXEMPLE. AQUÍ ES VEURAN LES FÒRMULES.
Necessitem el SQE i el SQI, per tant: 𝑆𝑄𝐸 = ∑ ( 𝑡𝑖 2 𝑡2 38² 35² 15² 88² − = (( = 71,08 ) )+( )+( )) − 2 𝑛𝑖 𝑛 5 7 6 18 ti i ni vol dir des del primer número fins a l’últim, és a dir, tots per separat, en comptes del t que vol dir la suma de les t.
𝑆𝑄𝐼 = SQT − SQE = 161,78 − 71,08 = 90,70 I d’on surt el SQT? D’aquí!: 𝑆𝑄𝑇 = R − 𝑡2 882 = 592 − = 161,78 𝑛 18 La R que aquí ens referim és la R global.
Amb tot això ja podem calcular el Fob, tal que: 𝐹𝑜𝑏 = 𝑀𝑄𝐸 𝑆𝑄𝐸/ (𝑘 − 1 ) 71,08/(3 − 1) = = = 5,88 𝑀𝑄𝐼 𝑆𝑄𝐼/ (𝑛 − 𝑘 ) 90,70/(18 − 3) 𝐹𝑜𝑏 = 5,88 ˜ 𝐹 (𝑘 − 1, 𝑛 − 𝑘) = 5,88 ˜ 𝐹(2,15) Aquest 5,88 amb dos graus de llibertat del numerador i 15 del denominador s’ha de buscar a les taules de Fisher-Snedecor; mirar a les tres columnes els números que surtin i mirar entre quins està el nostre. A partir d’això podem dir que : 0,05 > alpha (5,88) > 0,01. Amb un 95% de confiança puc dir que l’edat incideix en l’assistència al teatre.
La intensitat es mesura amb la eta² (ɳ²). Sentit amb la comparació de mitjanes de la mostra. A més edat, menys van al teatre. La mitjana, en aquest exemple es pot dividir la t (suma observacions) / n (nombre d’observacions). La eta² és una mica més sofisticada: 𝑒𝑡𝑎² = ɳ² = 𝑆𝑄𝐸 71,08 = = 0,439 𝑆𝑄𝑇 161,78 La eta explica el percentatge de variabilitat. L’edat explica, per tant, el 43,9% de la variable assistència.
LES DUES VARIABLES QUANTITATIVES.
Regressió lineal.
𝑦 = 𝑎 + 𝑏𝑥 Es mira com varia una variable en funció de l’altre. Amb la regressió podem estimar quin valor serà y per una determinada x.
La coorrelació ens dirà si el sentit és positiu, negatiu... i la regressió pretén fer prediccions, parla en termes dependent-independent.
1)Núvol de punts. 2)Mesures de coorrelació (r de Pearson, coeficient de determinació) 3)Recta de regressió.
La r de Pearson [-1, 1]. El sentit del signe pot dir-nos si és una relació inversa (negatiu), no relació (=0); o directa (positiu). I en funció del nombre, veurem si passa de 0,7 o no arriba a 0,7 és intensa; si està entre 0,4 i 0,7 i els seus negatius, és moderada i si està entre 0 i 0,4 o els seus negatius és feble.
Es calcula així: 𝑟= 𝑆𝑥𝑦 √𝑆²𝑥 ∗ 𝑆²𝑦 = 𝐶𝑜𝑣𝑎𝑟𝑖à𝑛𝑐𝑖𝑎 𝐴𝑟𝑟𝑒𝑙 𝑑𝑒𝑙 𝑝𝑟𝑜𝑑𝑢𝑐𝑡𝑒 𝑑′ 𝑎𝑚𝑏𝑑𝑢𝑒𝑠𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 Primer hem de veure com calculem la covariància: 𝑆𝑥𝑦 = 1 ∑(𝑥𝑖 − 𝑚𝑖𝑡𝑗𝑎𝑛𝑎 𝑑𝑒 𝑥) ∗ (𝑦𝑖 − 𝑚𝑖𝑡𝑗𝑎𝑛𝑎 𝑑𝑒 𝑦) 𝑛 1 = ∑(𝑥𝑖 ∗ 𝑦𝑖) − (𝑚𝑖𝑡𝑗𝑎𝑛𝑎 𝑑𝑒 𝑥 ∗ 𝑚𝑖𝑡𝑗𝑎𝑛𝑎 𝑑𝑒 𝑦) = 𝐸𝑋𝐸𝑀𝑃𝐿𝐸 𝑛 1 = ( ∗ 351.600) − (31,5 ∗ 1060) = 1770 10 Per poder dur a terme aquestes formules necessitem una columna amb les x² i les y², alhora que una columna on es multipliquin cadascuna de les x per cadascuna de les y que les corresponen. El xi * yi per tant, el traiem de la suma de tots els valors de la columna on es multipliquen les x*y (aquesta sense elevar-la al quadrat). El 351.600 és aquesta suma. El 10 és el total de les observacions.
A més de la covariància necessitem les variàncies de x i de y que es calculen de la següent forma: 𝑆²𝑥 = 1 1 1 ∑(𝑥𝑖 − 𝑚𝑖𝑡𝑗𝑎𝑛𝑎 𝑑𝑒 𝑥)2 = ∑ 𝑥𝑖 2 − 𝑚𝑖𝑡𝑗𝑎𝑛𝑎 𝑑𝑒 𝑥 2 = ( ∗ 10.621) − 31,52 𝑛 𝑛 10 = 69,85 Això comporta fer la suma de totes les x² (la columna de les x²), multiplicar-ho per 1, dividir-ho entre 10 i després restar-li la mitjana al quadrat de x.
I amb les y igual però amb la columna de les y² i amb la seva mitjana al quadrat.
𝑆²𝑦 = 1 1 ∑(𝑦𝑖 − 𝑚𝑖𝑡𝑗𝑎𝑛𝑎 𝑑𝑒 𝑦)2 = ∑ 𝑦𝑖 2 − 𝑚𝑖𝑡𝑗𝑎𝑛𝑎 𝑑𝑒 𝑦 2 𝑛 𝑛 1 = ( ∗ 11.780.000) − 1.0602 = 54.400 10 Ara ja tenim totes les dades necessàries. Podem procedir amb la r de Pearson: 𝑟= 𝑆𝑥𝑦 √𝑆²𝑥 ∗ 𝑆²𝑦 = 1770 √69,85 ∗ 54.400 = 0,908. 𝑅𝑒𝑙𝑎𝑐𝑖ó 𝑑𝑖𝑟𝑒𝑐𝑡𝑎 𝑖𝑛𝑡𝑒𝑛𝑠𝑎 Coeficient de determinació (r²) El percentatge d’una variable que ve explicat per l’altre.
𝑟² = 0,908² = 0,8245.
La r² va de 0 a 1. Gràcies a la variable edat, redueixo en un 82,45% la incertesa de la variable ingressos. La relació intensa és quan almenys expliquem un 50% de l’altre variable, tal que r² és superior a 0,5.
Coeficient d’alienació.
1 − 𝑟 2 = 0,1755 Recta de regressió.
Es fa a partir del mètode dels mínims quadrats; y = a + bx és a dir, en aquest cas, ingressos = a + b(edat).
Hem de descobrir la a i la b.
𝑏= 𝑆𝑥𝑦 1770 = = 25,34 69,85 𝑆²𝑥 La b és el pendent de la recta. Els increments de la variable y en augmentar una unitat a x.
I ara la a: (la a és el valor de la y quan x és 0) 𝑎 = 𝑚𝑖𝑡𝑗𝑎𝑛𝑎 𝑑𝑒 𝑦 − 𝑏 ∗ 𝑚𝑖𝑡𝑗𝑎𝑛𝑎 𝑑𝑒 𝑥 = 1060 − (25,34 ∗ 31,5) = 261,79 Així queda configurada la recta; Ingressos = 261,79 + 25,34 * Edat Si substituïm edat per qualsevol nombre podem fer tota mena de prediccions.
El pendent (b) té el mateix signe que la r de Pearson. Estimar coses fora del rang d’informació no té gaire sentit.
Condicions: a)la mostra ha de ser aleatòria; b)la relació ha de ser lineal; c)les variables incloses són rellevants i no hi falta cap variable important; d)la mesura sense error; e)les mitjanes de la variable x s’han de situar sobre la recta.
Condicions per fer inferència: a)hi ha d’haver homocedasticitat; b)els errors han de ser independents els uns dels altres; c) els errors s’han de distribuir segons una normal de mitjana zero. (Ei N(0, variància).
= Error quadrat ajustat.
𝑟² − 𝑝(1 − 𝑟 2 ) 𝑜𝑛 𝑝 é𝑠 𝑒𝑙 𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑡 𝑛−𝑝−1 Que no hi hagi relació vol dir: r=0; r²=0; b= 0 (en la mesura que disminueix una variable, l’altra no canvia).
Test d’hipòtesis. H0 R² = 0; H1 R² no igual a 0.
Estadístic de contrast: 𝐹𝑜𝑏 = 𝑟²/𝑝 ˜ 𝐹(𝑝, 𝑛 − 𝑝 − 1)𝑜𝑛 𝑝 é𝑠 𝑒𝑙 𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑡 1 − 𝑟2 𝑛−𝑝−1 = 0,541 ˜ 𝐹(1, 10 − 2) = 9,415 ˜ 𝐹(1,8) (1 − 0,541)/(10 − 2) Taula de F. 0,01 < alpha < 0,05. Podem assegurar com a mínim amb un 95% de confiança que la nota ve influenciada per les hores de Tv.
Test d’hipòtesis sobre el pendent (B) H0 B=0 ; H1 B no = 0. L’alpha del test dos és la mateixa que la del test 1. No són el mateix quan hi ha moltes variables.
...