Resum de mètodes quantitatius (2014)
Resumen CatalánUniversidad | Universidad Autónoma de Barcelona (UAB) |
Grado | Sociología - 2º curso |
Asignatura | Mètodes quantitatius |
Año del apunte | 2014 |
Páginas | 7 |
Fecha de subida | 30/10/2014 |
Descargas | 29 |
Vista previa del texto
RESUM APUNTS.
p (proporció mostra); P (proporció població). Les majúscules fan referència a la població,
(extrapolar / inferència).
Quan busquem el 95% de confiança busquem el 95% central; tal que:
𝐸𝑝 =
+
𝑧
−
𝑁−𝑛
𝑝𝑞
)∗(𝑛)
𝑛
√(
FÒRMULA DE L’ERROR. N (població); n (mostra); pq (0’75*0’25).
Tipus de variables. (Nominal/Ordinal/Escala). Les dues primeres quali, l’escala, quanti. Nominal
(= o no =); ordinal (=, no =, < i >) i escala (=, no =, < , >, +, -) . Les quantitatives poden ser alhora;
contínues (infinits valors) o discretes (valors finits).
TÈCNIQUES:
QUALI – QUALI TAULA DE CONTINGÈNCIA (TAULES DE DOBLE ENTRADA)
QUALI (INDEPENDENT) – QUANTI (DEPENDENT) ANOVA / COMPARACIÓ DE MITJANES.
QUANTI – QUANTI REGRESSIÓ.
Model de dependència quan una variable depèn de l’altre i interdependència quan totes dues
s’influencien. Treballem amb models de dependència.
Test d’hipòtesis.
DUES VARIABLES QUALITATIVES:
Plantejament de dues hipòtesis complementàries / contradictòries.
H0 – termes d’igualtat. La disposició de x en les tres CSE és =. No diferències significatives.
H1 – termes de diferència. La disposició de x en les tres CSE és no =. Sí diferències
significatives.
L’alpha és el risc d’equivocar-me en escollir una hipòtesi. (nivell de significació).
Taules de doble entrada. Variable independent columnes , dependent files. Es creuen.
Recordar a baix total de columnes, costats total files i a l’extrem dret, total de tota la taula.
(Fer ús de la independent).
Podem assegurar que tals diferències no són degudes a l’atzar? PASSOS: A) Formulació
d’hipòtesis (nul·la H0 i alternativa H1); B)Condicions d’aplicació; C)Càlcul de l’estadístic de
contrast; D) Càlcul d’alpha. E) Conclusions.
Taula de freqüències observades. (la taula base on es creuen les variables).
La de freqüències esperades es calcula de per a cada casella:
𝑥=
𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑓𝑖𝑙𝑎 𝑥 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑐𝑜𝑙𝑢𝑚𝑛𝑎
𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑙𝑒𝑠 𝑑𝑎𝑑𝑒𝑠
El total de la columna i fila varia segons la casella. El total de les dades és sempre el mateix.
Per seguir endavant cal que totes les caselles siguin superiors a 5. Si no ho són podem agrupar
variables i crear-ne de noves, però han de sumar 5. Si en una taula 2x2 hi ha alguna menor a 5
però totes són majors a 3, apliquem la fórmula de correcció per continuïtat de Yates:
𝑥2𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑒𝑠 (𝑐𝑜𝑛𝑡𝑖𝑛𝑢ï𝑡𝑎𝑡 𝑑𝑒 𝑌𝑎𝑡𝑒𝑠)
(ǀn observades − n esperadesǀ − 0,5)²
= ∑ ∑
n esperades
Les barres aquestes ǀ fan referència a què agafem el resultat positiu.
Després es resta cada esperada a la observada i es divideix entre les esperades.
𝑥2𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑒𝑠 = ∑
∑
(n observades − n esperades)²
n esperades
X2 = (i-1) (j-1) on i és el total de files i j el total de columnes. Es resta 1 perquè l’última no cal
saber-la. Per saber els graus de llibertat es multipliquen els resultats d’ambdós parèntesis.
La x2observades es busca en les taules de la khi-quadrat.
Intensitat de la relació [0-1]. (V de Cramer). On 0 és no relació i 1 és relació. 0.0-0.1 Poca
relació; 0.1-0.2 Certa relació; 0.2-0.3 Relació bastant important.
𝑉=
x2observades
𝑛(𝑚í𝑛𝑖𝑚(𝑖 − 1)(𝑗 − 1)
Mínim vol dir que s’agafa el valor més baix d’entre i o j.
La alpha que ens dóna la taula del khi-quadrat és la significació, de tal manera que un 0.05 és
un 95% de confiança.
Per explicar el sentit, cal fer els percentatges en funció de la independent. Es divideix la casella
pel total de la columna, ja que la independent es col·loca a les columnes.
Els residus els calcularem via spss no a mà. Però hem de saber que si és major a 1,96 hi ha més
casos dels esperats, si és menor a -1,96 n’hi ha menys dels esperats i si es troba entre ambdós
valors no hi ha diferència.
Per construir un IC s’ha de fer el següent:
𝐼𝐶 = 𝑚𝑖𝑡𝑗𝑎𝑛𝑎 𝑑𝑒 𝑙𝑎 𝑚𝑜𝑠𝑡𝑟𝑎 ± 𝑒𝑟𝑟𝑜𝑟 = mitjana mostra ± t
√𝑆²
n
La t es calcula de la següent manera: t(n-1; alpha). La alpha dependrà del nivell de confiança.
Un 95% és 0,05. DESPRÉS HO BUSQUEM A LA T-D’STUDENT.
La S2 és el quadrat de la desviació típica (s). Un cop tens l’error el sumes i restes a la mitjana i
ja tens l’interval de confiança. S’ha de contestar parlant en mitjana... ex. En un 95% de
confiança, la mitjana d’assistència dels joves des dels nadals fins ara és entre 0,9-2,5.
QUALI-QUANTI.
Per comparar mitjanes per exemple d’homes i dones:
mitjana mostral homes − mitjana mostral dones
1
1
√𝑆𝑝² (
+
) ˜ 𝑡 (𝑛 ℎ𝑜𝑚𝑒𝑠 + 𝑛 𝑑𝑜𝑛𝑒𝑠 − 2)
𝑛 ℎ𝑜𝑚𝑒𝑠
𝑛 𝑑𝑜𝑛𝑒𝑠
Cal calcular la Sp² que és la variància ponderada.
𝑆𝑝² =
Shomes ² (nhomes − 1) + 𝑆𝑑𝑜𝑛𝑒𝑠²(𝑛𝑑𝑜𝑛𝑒𝑠 − 1)
𝑛ℎ𝑜𝑚𝑒𝑠 + 𝑛𝑑𝑜𝑛𝑒𝑠 − 2
La S² te la donen o la pots calcular via SPSS.
La t que et surti fa referència a la t d’student. Busques el número de la operació a les taules. En
el cas del T31 sent -0,812 si t’hi fixes és inferior al valor que et donen amb el valor de
significació 0,3 per tant, l’alpha és superior a 0,3, tal que més creix alpha, més petit és el valor i
si l’alpha del 0,3 que és el tope és superior a la nostra t... doncs això. En canvi, una t18 de
2,358, es trobaria entre el 0,03 i el 0,02, és a dir, entre els valors 2,356 i 2,552 sent 0,03 >
alpha > 0,02.
Si alpha és gran no podem assegurar H1, si és petita sí que ho podem fer i mesurar el sentit de
les diferències (comparar mitjanes) i la intensitat de la relació (𝜀²)
Quan tenim variables quali- quanti, si tenim dos grups fem comparació de dues mitjanes i si en
tenim tres, ANOVA. Condicions: A) Dades aleatòries independents; B) VI qualitativa i VD
quantitativa; C) Distribucions normals (per a cada grup la VD ha de seguir una normal); D)
igualtat de variàncies – homocedasticistat.
H0 és normal. H1 no ho és. Per avaluar la normalitat, l’SPSS: test Kolmogorov-Smirmir i Test de
Shaphiro-Wilk. Si alpha és inferior o igual a 0,05 no hi ha normalitat i si és superior, sí. Per
veure si les variàncies són iguals fem el test de Levene per a la igualtat de variàncies. Si és
inferior o igual a 0,05 són diferents (heterocedasticitat; test de variàncies diferents); si és
superior a 0,05 tenen variàncies iguals, homocedasticitat i test de variàncies iguals).
Parlem de variabilitat referint-nos als diversos valors que trobem entre dos grups o dins dels
mateixos grups. Ex. Dins dels ingressos dels homes, hi ha molts valors i entre aquests i els de
les dones també hi ha x valors. (parlem de mitjanes poblacionals en tot cas).
Comparant les mitjanes el que fem és:
Variabilitat entre grups
Variabilitat interna dels grups
Diferències significatives hi ha quan hi ha una distància entre els grups i no diferències
significatives quan es superposen.
𝐹𝑜𝑏 =
MQE
𝑆𝑄𝐸/ (𝑘 − 1 )
=
MQI
𝑆𝑄𝐼/ (𝑛 − 𝑘 )
On MQ és la mitjana quadràtica; la E és extern; la I és intern; la SQ és la suma quadràtica; la k
és el nombre de grups (ex. Joves, adults, vells; k=3) ; la n és el total de dades.
GRUPS (k=3)
Dades
n (nombre
dades)
t (és sumen els
números)
JOVES
ADULTS
VELLS
8,8,9,7,6
8,6,5,8,4,1,3
3,8,0,0,1,3
5
7
6
18
38
35
25
78
R (quadrat de
les
observacions)
294
215
83
592
EXEMPLE. AQUÍ ES VEURAN LES FÒRMULES.
Necessitem el SQE i el SQI, per tant:
𝑆𝑄𝐸 = ∑ (
𝑡𝑖 2
𝑡2
38²
35²
15²
88²
−
= ((
= 71,08
)
)+(
)+(
)) −
2
𝑛𝑖
𝑛
5
7
6
18
ti i ni vol dir des del primer número fins a l’últim, és a dir, tots per separat, en comptes del t
que vol dir la suma de les t.
𝑆𝑄𝐼 = SQT − SQE = 161,78 − 71,08 = 90,70
I d’on surt el SQT? D’aquí!:
𝑆𝑄𝑇 = R −
𝑡2
882
= 592 −
= 161,78
𝑛
18
La R que aquí ens referim és la R global.
Amb tot això ja podem calcular el Fob, tal que:
𝐹𝑜𝑏 =
𝑀𝑄𝐸 𝑆𝑄𝐸/ (𝑘 − 1 )
71,08/(3 − 1)
=
=
= 5,88
𝑀𝑄𝐼
𝑆𝑄𝐼/ (𝑛 − 𝑘 )
90,70/(18 − 3)
𝐹𝑜𝑏 = 5,88 ˜ 𝐹 (𝑘 − 1, 𝑛 − 𝑘) = 5,88 ˜ 𝐹(2,15)
Aquest 5,88 amb dos graus de llibertat del numerador i 15 del denominador s’ha de buscar a
les taules de Fisher-Snedecor; mirar a les tres columnes els números que surtin i mirar entre
quins està el nostre. A partir d’això podem dir que : 0,05 > alpha (5,88) > 0,01. Amb un 95% de
confiança puc dir que l’edat incideix en l’assistència al teatre.
La intensitat es mesura amb la eta² (ɳ²). Sentit amb la comparació de mitjanes de la mostra. A
més edat, menys van al teatre. La mitjana, en aquest exemple es pot dividir la t (suma
observacions) / n (nombre d’observacions). La eta² és una mica més sofisticada:
𝑒𝑡𝑎² = ɳ² =
𝑆𝑄𝐸
71,08
=
= 0,439
𝑆𝑄𝑇
161,78
La eta explica el percentatge de variabilitat. L’edat explica, per tant, el 43,9% de la variable
assistència.
LES DUES VARIABLES QUANTITATIVES.
Regressió lineal.
𝑦 = 𝑎 + 𝑏𝑥
Es mira com varia una variable en funció de
l’altre. Amb la regressió podem estimar quin
valor serà y per una determinada x.
La coorrelació ens dirà si el sentit és positiu,
negatiu... i la regressió pretén fer prediccions,
parla en termes dependent-independent.
1)Núvol de punts. 2)Mesures de coorrelació (r
de Pearson, coeficient de determinació)
3)Recta de regressió.
La r de Pearson [-1, 1]. El sentit del signe pot dir-nos si és una relació inversa (negatiu), no
relació (=0); o directa (positiu). I en funció del nombre, veurem si passa de 0,7 o no arriba a 0,7 és intensa; si està entre 0,4 i 0,7 i els seus negatius, és moderada i si està entre 0 i 0,4 o els
seus negatius és feble.
Es calcula així:
𝑟=
𝑆𝑥𝑦
√𝑆²𝑥 ∗ 𝑆²𝑦
=
𝐶𝑜𝑣𝑎𝑟𝑖à𝑛𝑐𝑖𝑎
𝐴𝑟𝑟𝑒𝑙 𝑑𝑒𝑙 𝑝𝑟𝑜𝑑𝑢𝑐𝑡𝑒 𝑑′ 𝑎𝑚𝑏𝑑𝑢𝑒𝑠𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠
Primer hem de veure com calculem la covariància:
𝑆𝑥𝑦 =
1
∑(𝑥𝑖 − 𝑚𝑖𝑡𝑗𝑎𝑛𝑎 𝑑𝑒 𝑥) ∗ (𝑦𝑖 − 𝑚𝑖𝑡𝑗𝑎𝑛𝑎 𝑑𝑒 𝑦)
𝑛
1
= ∑(𝑥𝑖 ∗ 𝑦𝑖) − (𝑚𝑖𝑡𝑗𝑎𝑛𝑎 𝑑𝑒 𝑥 ∗ 𝑚𝑖𝑡𝑗𝑎𝑛𝑎 𝑑𝑒 𝑦) = 𝐸𝑋𝐸𝑀𝑃𝐿𝐸
𝑛
1
= ( ∗ 351.600) − (31,5 ∗ 1060) = 1770
10
Per poder dur a terme aquestes formules necessitem una columna amb les x² i les y², alhora
que una columna on es multipliquin cadascuna de les x per cadascuna de les y que les
corresponen. El xi * yi per tant, el traiem de la suma de tots els valors de la columna on es
multipliquen les x*y (aquesta sense elevar-la al quadrat). El 351.600 és aquesta suma. El 10 és
el total de les observacions.
A més de la covariància necessitem les variàncies de x i de y que es calculen de la següent
forma:
𝑆²𝑥 =
1
1
1
∑(𝑥𝑖 − 𝑚𝑖𝑡𝑗𝑎𝑛𝑎 𝑑𝑒 𝑥)2 = ∑ 𝑥𝑖 2 − 𝑚𝑖𝑡𝑗𝑎𝑛𝑎 𝑑𝑒 𝑥 2 = ( ∗ 10.621) − 31,52
𝑛
𝑛
10
= 69,85
Això comporta fer la suma de totes les x² (la columna de les x²), multiplicar-ho per 1, dividir-ho
entre 10 i després restar-li la mitjana al quadrat de x.
I amb les y igual però amb la columna de les y² i amb la seva mitjana al quadrat.
𝑆²𝑦 =
1
1
∑(𝑦𝑖 − 𝑚𝑖𝑡𝑗𝑎𝑛𝑎 𝑑𝑒 𝑦)2 = ∑ 𝑦𝑖 2 − 𝑚𝑖𝑡𝑗𝑎𝑛𝑎 𝑑𝑒 𝑦 2
𝑛
𝑛
1
= ( ∗ 11.780.000) − 1.0602 = 54.400
10
Ara ja tenim totes les dades necessàries. Podem procedir amb la r de Pearson:
𝑟=
𝑆𝑥𝑦
√𝑆²𝑥 ∗ 𝑆²𝑦
=
1770
√69,85 ∗ 54.400
= 0,908. 𝑅𝑒𝑙𝑎𝑐𝑖ó 𝑑𝑖𝑟𝑒𝑐𝑡𝑎 𝑖𝑛𝑡𝑒𝑛𝑠𝑎
Coeficient de determinació (r²)
El percentatge d’una variable que ve explicat per l’altre.
𝑟² = 0,908² = 0,8245.
La r² va de 0 a 1. Gràcies a la variable edat, redueixo en un 82,45% la incertesa de la variable
ingressos. La relació intensa és quan almenys expliquem un 50% de l’altre variable, tal que r²
és superior a 0,5.
Coeficient d’alienació.
1 − 𝑟 2 = 0,1755
Recta de regressió.
Es fa a partir del mètode dels mínims quadrats; y = a + bx és a dir, en aquest cas, ingressos = a
+ b(edat).
Hem de descobrir la a i la b.
𝑏=
𝑆𝑥𝑦
1770
=
= 25,34
69,85
𝑆²𝑥
La b és el pendent de la recta. Els increments de la variable y en augmentar una unitat a x.
I ara la a: (la a és el valor de la y quan x és 0)
𝑎 = 𝑚𝑖𝑡𝑗𝑎𝑛𝑎 𝑑𝑒 𝑦 − 𝑏 ∗ 𝑚𝑖𝑡𝑗𝑎𝑛𝑎 𝑑𝑒 𝑥 = 1060 − (25,34 ∗ 31,5) = 261,79
Així queda configurada la recta;
Ingressos = 261,79 + 25,34 * Edat
Si substituïm edat per qualsevol nombre podem fer tota mena de prediccions.
El pendent (b) té el mateix signe que la r de Pearson. Estimar coses fora del rang d’informació
no té gaire sentit.
Condicions: a)la mostra ha de ser aleatòria; b)la relació ha de ser lineal; c)les variables incloses
són rellevants i no hi falta cap variable important; d)la mesura sense error; e)les mitjanes de la
variable x s’han de situar sobre la recta.
Condicions per fer inferència: a)hi ha d’haver homocedasticitat; b)els errors han de ser
independents els uns dels altres; c) els errors s’han de distribuir segons una normal de mitjana
zero. (Ei N(0, variància).
= Error quadrat ajustat.
𝑟² −
𝑝(1 − 𝑟 2 )
𝑜𝑛 𝑝 é𝑠 𝑒𝑙 𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑡
𝑛−𝑝−1
Que no hi hagi relació vol dir: r=0; r²=0; b= 0 (en la mesura que disminueix una variable, l’altra
no canvia).
Test d’hipòtesis. H0 R² = 0; H1 R² no igual a 0.
Estadístic de contrast:
𝐹𝑜𝑏 =
𝑟²/𝑝
˜ 𝐹(𝑝, 𝑛 − 𝑝 − 1)𝑜𝑛 𝑝 é𝑠 𝑒𝑙 𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑡
1 − 𝑟2
𝑛−𝑝−1
=
0,541
˜ 𝐹(1, 10 − 2) = 9,415 ˜ 𝐹(1,8)
(1 − 0,541)/(10 − 2)
Taula de F. 0,01 < alpha < 0,05. Podem assegurar com a mínim amb un 95% de confiança que
la nota ve influenciada per les hores de Tv.
Test d’hipòtesis sobre el pendent (B)
H0 B=0 ; H1 B no = 0. L’alpha del test dos és la mateixa que la del test 1. No són el mateix quan
hi ha moltes variables.
...