TEORIA (2014)

Apunte Catalán
Universidad Universidad Pompeu Fabra (UPF)
Grado Economía - 1º curso
Asignatura Analisi de dades
Año del apunte 2014
Páginas 62
Fecha de subida 11/10/2014
Descargas 4
Subido por

Vista previa del texto

UNIVERSITAT POMPEU FABRA Anàlisi de dades Dossier de teoria   W. Garcia‐Fontes, Eva Ventura  Curs 2014‐2015  Materials propis de l’assignatura  ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 Taula de continguts 1  2  Introducció. Conceptes bàsics. Mostreig. ................................................................. 3  Descripció d’una variable ......................................................................................... 3  2.1  Altres mesures.................................................................................................... 3  3  Dades agrupades i Transformacions de dades .......................................................... 6  3.1  Dades agrupades. ............................................................................................... 6  3.2  Transformacions de les dades. ......................................................................... 10  4  Distribució normal. ................................................................................................. 16  5  Conjunt de dues variables (I) .................................................................................. 16  5.1  Dues variables numèriques .............................................................................. 16  5.2  Una variable numèrica i una categòrica ........................................................... 22  6  Conjunts de dues variables (II): Dues variables categòriques ................................ 30  7  Sèries temporals...................................................................................................... 30  7.1  Introducció ....................................................................................................... 30  7.2  Composició ...................................................................................................... 31  7.3  Anàlisi de la tendència i el cicle: el llarg termini............................................. 34  7.4  Les fluctuacions a mig i curt termini ............................................................... 37  7.5  Predicció amb sèries temporals........................................................................ 40  8  Mesures de desigualtat i concentració .................................................................... 46  8.1  Mesures de desigualtat ..................................................................................... 46  8.2  Índexs de concentració..................................................................................... 53  9  Nombres Índex ....................................................................................................... 54  9.1  Índexs simples.................................................................................................. 56  9.2  Índexs complexos ............................................................................................ 57  9.3  Índex de preus del consum (IPC) ..................................................................... 59  9.4  Mesurant la inflació ......................................................................................... 60  9.5  Creixement nominal i creixement real ............................................................. 61  2 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 1 Introducció. Conceptes bàsics. Mostreig.
Explicarem com identificar els individus, les variables i les observacions, i com organitzar les dades adequadament per entrar-les a l’ordinador i construir una taula de freqüències.
El tema es desenvolupa al voltant de tres punts: 1) Què és i què es fa en estadística. Moore*, pàgines del pròleg.
2) Anàlisi de dades: variables i organització. Cap. 1, pag. 3-5 3) Obtenció de dades: mostres. Cap. 3, pag. 205-225 2 Descripció d’una variable Estudiarem diagrames de barres, diagrames de sectors, histogrames, diagrames de tronc i fulles, i gràfics de línies per a sèries temporals.
Moore, Cap. 1, pàgines 6-22 També presentarem les mesures de centre (mitjana, mediana, moda), dispersió (rang o recorregut, rang interquartílic, desviació típica) i posició (quartils, percentils, mediana).
Moltes d’aquestes mesures es poden visualitzar de forma ràpida mitjançant el diagrama de caixa.
Moore, cap. 1, pàg. 32-51 2.1 Altres mesures 2.1.1 Moda És la observació o la classe amb major freqüència (és a dir, la que més es repeteix). És una mesura de centre (o més pròpiament, una mesura de posició central).
Exemple: edats de 20 individus 17 18 19 20 18 21 17 18 17 19 20 20 21 23 18 18 19 17 18 18 Hi ha 4 persones amb 17 anys, 7 individus amb 18 anys, 3 individus amb 19 anys, 3 més amb 20 anys, 2 persones de 21 anys i un individu de 23 anys. La moda és 18.
2.1.2 Percentil del p% És el valor de les dades que té la propietat de que al menys el p% dels valors del conjunt de dades són menors que ell (i el 1-p% majors, és clar).
Es tracta d’una mesura de posició no central (exceptuant el percentil del 50%). El percentil del 25% no és altra cosa que el primer quartil. El percentil del 50% és la * Les referències són per a la segona edició del llibre de David S. Moore, “Estadística Aplicada Bàsica”, de l’editorial A. Bosch. Per a consultes puntuals podeu utilitzar el següent enllaç de Google books: Moore online 3 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 mediana (mesura de posició central), i el percentil del 75% és el tercer quartil.
Exemple: edats de 20 individus Ordenem de més petit a més gran per facilitar-nos la feina de trobar el percentil.
17 17 17 17 18 18 18 18 18 18 18 19 19 19 20 20 20 21 21 23 El percentil del 40% és 18, ja que el 40% d’aquests individus tenen 18 anys o menys. El percentil del 80% és 20, ja que el 80% d’aquests individus tenen 20 o menys anys.
Podem calcular tots els percentils que vulguem, des de l’1% al 99%.
2.1.3 Coeficient d’asimetria El coeficient d’asimetria és una mesura de forma. Quantifica el grau de simetria (o asimetria, segons com es vulgui dir) d'una distribució de probabilitat d'una variable aleatòria de valors reals, a un costat i altre de la mitjana. El valor de l'asimetria pot ser positiu o negatiu, o fins i tot indefinit (zero, o gairebé zero). Qualitativament, un valor negatiu indica que la cua en el costat esquerre de la distribució és més llarg que el del costat dret i la major part dels valors (que poden incloure la mediana) es troben a la dreta de la mitjana. Un valor positiu indica que la cua en el costat dret és més llarg que el costat esquerre i la major part dels valors es troben a l'esquerra de la mitjana. Un valor de zero (o gairebé zero) indica que els valors estan distribuïts més o menys de forma uniforme a banda i banda de la mitjana.
Programes com Excel o Calc utilitzen la següent expressió per calcular el coeficient d’asimetria: ̅ ′ 1 2 De vegades es defineix el coeficient d’asimetria de manera diferent, prenent com indicació d’asimetria que la Moda o la Mediana estiguin a un costat o l’altre de la mitjana. Si Moda o Mediana estan a la dreta de la mitjana, el valor de qualsevol d’aquestes mesures serà negatiu, la distribució serà asimètrica cap a la l’esquerra.
D’igual manera un valor positiu indicarà asimetria cap a la dreta.
De Pearson: A X Moda A s X Mediana s Exemple: edats de 20 individus 17 18 19 20 18 21 17 18 17 19 20 20 21 23 18 18 19 17 18 18 8 7 Nombre 20 Min 17 Mitjana 18,8 Q1 18 DesEst 1,61 Mediana 18 Coef de Var 0,09 Q3 20 Asimetria 1,03 Max 23 Curtosi 0,87 6 5 Freqüència 4 3 2 1 0 [17,18) [18,19) [19,20) [20,21) edats [21,22) [22,23] 4 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 , Coeficient d’asimetria: 1,03 0,497 , , 0,497 , Tots els valors són positius, indicant asimetria cap a la dreta. La mitjana és més gran que la Mediana i que la Moda.
2.1.4 Curtosi La curtosi és una mesura de forma que ens diu quin és el grau d'apuntament d'una distribució. En altres paraules, la curtosi mesura si la distribució és apuntada o és aplanada en relació a una distribució Normal posant el focus en la forma de les cues laterals. Com més elevada sigui la curtosi d'una distribució menor serà la variància (o la desviació típica), fet que significa que els valors de la distribució estan prop la mitjana.
Un distribució amb coeficient de curtosi de 0 (o gairebé) s'anomena mesocúrtica; una amb valor negatiu del coeficient indica un pic baix i unes cues amples en ambdós costats, s'anomena platicúrtica; una amb valor positiu indica un apuntament del pic i unes cues estretes, s'anomena leptocúrtica. La distribució Normal que estudiarem en el tema 4 té una curtosi igual a 0. Sovint programes com Excel o Calc (Odstatistics) fan servir la següent mesura de curtosi: 1 1 2 3 3 1 2 3 Exemple: Vegeu 3 conjunts de dades diferents amb 26 observacions cadascun: Conjunt 1 16 16 17 17 17 17 17 18 18 18 18 18 18 18 18 18 18 18 18 19 19 19 19 19 20 20 Conjunt 2 16 16 17 17 17 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 19 19 19 20 20 Conjunt 3 16 16 16 16 17 17 17 17 17 18 18 18 18 18 18 18 18 19 19 19 19 19 20 20 20 20 Calculem el coeficient de curtosi i el relacionem amb la forma Resums Numèrics de la distribució de cada conjunt de dades.
Conjunt 1: es una distribució aproximadament mesocúrtica Nombre 26 Mitjana 18 DesEst 1,02 Coef de Var 0,06 14 12 10 Asimetria 0 8 Curtosi Freqüència 6 0,08 4 2 0 [16,16,8) [16,8,17,6) [17,6,18,4) [18,4,19,2) [19,2,20] Conjunt 1 5 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 El conjunt 2 segueix una distribució més aviat leptocúrtica. Observeu que el coeficient de curtosi és positiu i que la desviació típica és menor que la del conjunt de dades anterior.
Resums Numèrics 18 Nombre 26 Mitjana 18 DesEst 0,94 Coef de Var 0,05 16 14 12 10 Freqüència 8 6 4 Asimetria 2 0 0 [16,16,8) [16,8,17,6) [17,6,18,4) [18,4,19,2) [19,2,20] Curtosi 1,2 Conjunt 2 El conjunt 3 segueix una distribució platicúrtica. El coeficient de curtosi és negatiu i la desviació típica és més gran que en el conjunt 1.
Resums Numèrics 9 8 7 6 5 Freqüència 4 3 2 1 Nombre 26 Mitjana 18 DesEst 1,3 Coef de Var 0,07 Asimetria 0 [16,16,8) [16,8,17,6) [17,6,18,4) [18,4,19,2) Conjunt 3 [19,2,20] Curtosi 0 -0,91 3 Dades agrupades i Transformacions de dades 3.1 Dades agrupades.
Anomenem dades agrupades a un conjunt de dades d’una variable numèrica presentat en forma d’una taula de freqüències. Molt sovint ens trobem amb informació estadística que ve en aquest format en publicacions d’agències estadístiques, del govern o de la premsa econòmica. En aquest cas no coneixem la informació original, és a dir les dades cas per cas, i hem de treballar amb les dades agrupades en intervals o rangs de valors.
Veurem en aquesta secció que encara i així podem calcular pràcticament tots els resums numèrics i fer una descripció força acurada del conjunt de dades.
3.1.1 Càlcul de la mediana i els quartils Suposeu que la següent taula de freqüències resumeix la renda de 280 famílies: 6 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 No coneixem la renda de cada família individualment, però tenim força informació a través de la taula de freqüències.
Per calcular les mesures resistents (mediana i quartils) el primer que podem fer és identificar l’interval o rang de valors on es troben.
Per ubicar el primer quartil podem utilitzar la fórmula N/4, que ens dóna la seva posició aproximada dins de la llista ordenada de casos de més petit a més gran†. En aquest cas tenim 280 casos, per tant la fórmula ens dóna (280)/4 = 70, cosa que vol dir que el valor del primer quartil es el de l’observació 70. Per ajudar-nos a trobar el valor del primer quartil és convenient presentar les freqüències absolutes acumulades: Taula de freqüències Freqüències Freqüències Absolutes Absolutes Acumulades [0 , 10000) 15 15 [10000 , 15000) 45 60 [15000 , 20000) 100 160 [20000 , 30000) 83 243 [30000 , 50000) 30 273 [50000 , 100000] 7 280 En quin interval es troba l’observació 70? En el primer no, perquè només hi són les primeres 15 observacions, i en el segon tampoc, perquè acumulem fins el cas 60. Veiem que el cas 70 es troba en el tercer interval, que acumula des del cas 61 fins el 160. Per tant el primer quartil estarà en el tercer interval que conté casos amb valors entre 15000 i 20000. Però quin valor té? Exactament no ho podem saber, per tant ho aproximem mitjançant el punt mig de l’interval: 17500. Ara fem el mateix per a la mediana i el tercer quartil. Pel que fa la mediana, la seva posició pot es pot obtenir mitjançant la fórmula N/2 = 281/2 = 140, cosa que vol dir que el seu valor es el de l’observació 140.
On es troba aquesta observació? Vegeu que es troben també en el tercer interval o rang de valors, ja que havíem dit que † Quan tenim un nombre gran d’observacions no hi ha pràcticament diferencia entre utilitzar N/4 o (N+1)/4 per calcular el lloc que ocupa el primer quartil. Potser (N+1)/4 seria estrictament l’expressió correcta, però Odstatistics utilitza N/4 i per això hem decidit utilitzar aquesta expressió en el nostre exemple.
7 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 aquest interval acumula el casos entre el 61è i el 160è. Aproximem el valor de la mediana també pel punt mig de l’interval i obtenim 17500. Per tant en aquest cas donaríem el mateix valor pel primer quartil i per la mediana. Òbviament si tinguéssim les dades originals i poguéssim calcular amb exactitud el primer quartil i la mediana, el seus valors no serien iguals, però donada la distribució de valors que tenim no serien massa diferents.
Per últim per calcular el tercer quartil mirem la seva localització que podem obtenir mitjançant la fórmula 3N/4 = 210, cosa que vol dir que es el valor de l’observació 210.
Amb l’ajuda de les freqüències acumulades veiem que aquesta observació la trobem al quart interval perquè aquest acumula des de l’observació 161 fins la 243. El seu valor l’aproximem mitjançant el punt mig d’aquest interval, és a dir 25000.
Es troba en la posició Dins de l’interval Valor aproximat Primer quartil N/4 = 70 15.000 - 20.000 17.500 Mediana N/2 = 140 15.000 – 20.000 17.500 Tercer quartil 3N/4 = 210 20.000 – 30.000 25.000 És possible afinar una mica més fent servir un mètode d’interpolació. I de fet, això és el que fan la major part dels programes estadístics que calculen aquestes mesures. Els valors que ens donarà Calc (Odstatistics) per a aquest exemple són: Resums Numèrics Nombre 280 Min 0 Mitjana 22098,21 Q1 15500 DesEst 12055,51 Mediana 19000 Coef de Var 0,55 Q3 26024,1 Asimetria 2,22 Max 100000 Curtosi 10,12 Exemple: el valor del primer quartil correspon al valor de l’observació número 70 i està dins de l’interval [15.000 , 20.000]. Aquest interval té una amplada de 5.000 euros i hi ha 100 observacions dins de l’interval. Suposem que les observacions estan ordenades pel seu valor, de més petit a més gran. L’observació número 70 és la que fa 10 dins de l’interval. Per tant correspon al percentil del 10% dins de l’interval (que recordem té 100 observacions). Per tant li ha de correspondre una renda de 15.000 euros (límit inferior d’aquest interval), més un 10% de l’amplada de 5.000 euros de l’interval és a dir 500 euros. El valor atribuït a l’observació 70 és 15.500 euros‡.
‡ Per a la vostra informació, es pot fer servir la fórmula /4 On és el límit superior de l’interval on es troba la mesura que busquem, és el límit inferior de és la freqüència l’interval on es troba la mesura, és el total d’observacions del conjunt de dades, és la absoluta acumulada en l’interval anterior a l’interval on es troba la mesura que busquem, i 8 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 Nota: no us demanarem fer interpolacions per calcular mesures de posició. Només us demanarem que aproximeu els seus valors mitjançant el punt mig de l’interval on estiguin ubicades aquestes mesures.
3.1.2 Càlcul de la mitjana i la desviació típica També podem calcular la mitjana i la desviació típica amb dades agrupades. Per calcular la mitjana suposem que els valors dins de cada interval són iguals al punt mig o marca de classe de l’interval. Per exemple per al primer interval suposarem que tots els casos que cauen en el primer interval tenen un valor igual a 5000, i sabem que hi ha 15 casos en aquest interval (la seva freqüència absoluta). Fent el mateix per a tots els intervals podem calcular la suma que trobem al numerador de la fórmula de la mitjana, i dividint pel total de casos tenim una mitjana aproximada.
/ ∑ En aquesta fórmula la és el punt mig de l’interval i-èssim, la és la freqüència absoluta de l’interval i-èssim, el símbol S significa suma i és el nombre total de casos del conjunt de dades. Els càlculs els podem trobar a la taula següent: Punt mig de l’interval ( ) Freqüència absoluta ( [0 , 10000) 5000 15 5000*15 = 75000 [10000 , 15000) 12500 45 12500*45 = 562500 [15000 , 20000) 17500 100 17500*100 = 1750000 [20000 , 30000) 25000 83 25000*83 = 2075000 [30000 , 50000) 40000 30 40000*30 = 1200000 [50000 , 100000] 75000 7 75000*7 = 525000 Interval Suma interval ( Suma = 6187500 Per obtenir la mitjana hem de dividir la suma total dels valors dels casos (aproximada) pel total de casos que tenim, és a dir 6187500/280 = 22098,21, el que representa una mitjana aproximada d’aquests casos.
Per calcular la desviació típica, utilitzem la fórmula ∑ / 1 fent servir també els punts mitjos dels intervals i la seva freqüència absoluta com a valors de les dades i incorporant la mitjana aproximada que acabem de calcular.
freqüència absoluta de l’interval on es troba la mesura. Les altres mesures de posició (inclosos percentils) es poden trobar substituint N/4 per la posició de la mesura que ens interessi trobar.
9 de 62 ANÀLISI DE DADES - Dossier de teoria Punt mig de l’interval ( ) Freqüència absoluta ( 5000 15 12500 Desviació respecte mitjana ( Curs 2014-2015 Desviació respecte mitjana al quadrat Producte de desviacions al quadrat per freqüència absoluta -17098,21 292348931,76 435233976,4 45 -9598,21 92125717,47 4145657286,35 17500 100 -4598,21 21143574,62 2114357461,73 25000 83 2901,79 8420360,33 698889907,53 40000 30 17901,79 320473931,76 9614217952,81 75000 7 52901,79 2798598931,76 19590192522,32 Suma 40548549107,14 Per acabar d’obtenir la desviació típica hem de dividir la suma total de les desviacions al quadrat (40548549107,14) per N-1 (280-1 = 279), i calcular l’arrel quadrada del resultat.
∑ / 1 40548549107,14⁄279 12055,51 Obtenim un valor que representa la desviació típica aproximada per aquest conjunt de dades.
3.2 Transformacions de les dades.
Sovint ens veiem obligats a canviar la unitat de mesura de les dades. En aquests casos és útil conèixer el canvi que es produirà en les mesures resum.
Els canvis més habituals són els que coneixem com canvi d’origen i canvi d’escala de les dades. De vegades es produeixen tots dos a l’hora.
Un canvi d’origen es produeix quan sumem o restem una constant a totes les observacions. Si suposem que X és la nostra variable original, i a és una constant qualsevol positiva o negativa, un canvi d’origen de la variable X ens donarà una variable transformada que anomenem Y , i el canvi el podem expressar d’acord amb la següent equació§: L’anomenem canvi d’origen perquè des del punt de vista gràfic, la transformació implica un desplaçament cap a la dreta o esquerra de les dades (depenent de que a sigui positiva o negativa, respectivament) sobre l’eix horitzontal.
Un cas on pot produir-se una transformació d’aquest tipus és el següent: considerem un conjunt de persones que tenen entre 2 i 8 euros a la butxaca. Cada un d’ells rep un regal de 7 euros. El canvi en la distribució d’aquestes dades s’il·lustra en la gràfica següent: § Noteu el signe negatiu davant de la constant. Expressar el canvi d’origen d’aquesta manera té la seva utilitat, que comprovarem més endavant.
10 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 Aquí 7. Com es pot apreciar, l’histograma s’ha desplaçat a la dreta. També es pot dir que s’ha allunyat de l’origen, per això es diu canvi d’origen.
El segon tipus de transformació habitual que es pot aplicar a les dades consisteix multiplicar-les o dividir-les per una constant (generalment positiva). A aquest tipus transformació s’anomena canvi d’escala perquè el que fem és canviar la unitat mesura, expressant les mateixes dades en unitats més grans o més petites és a dir una altra escala.
en de de en Aquesta transformació la podem expressar mitjançant la fórmula següent: on X representa les dades originals, b és una constant més gran o més petita que 1, i Y representa les dades transformades. Si b és més gran que 1 expressarem les dades en unitats més petites, mentre que si b és més petita que 1 expressem les dades en unitats més grans.
Un exemple pot ser el canvi de pessetes a euros. Si X és una quantitat monetària expressada en pessetes, la transformació a euros implica dividir per 166,386 ( 1€ = 166,386 Pts.). Per tant la b és igual a 166,386. La mateixa quantitat monetària, un cop aplicada la transformació, quedarà expressada en euros (en unitats més petites, perquè b és més gran que 1). Exemple: 1000 pessetes són aproximadament 1000/166,368 = 6 euros.
Per il·lustrar-lo gràficament, suposem que dupliquem els valors d’un conjunt de dades, expressant-los doncs en unes unitats de mesura que són el doble de l’original.
L’histograma s’eixampla al doble en la seva part horitzontal (però les freqüències òbviament no canviaran): 11 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 De vegades aquestes dues transformacions s’apliquen simultàniament. Un exemple el podem trobar en la transformació de graus Fahrenheit a graus centígrads. Si C són els graus centígrads i F són els graus Fahrenheit, la fórmula per passar d’una a l’altra escala de temperatura és: 32 1,8 En general una transformació des d’una variable X a una variable Y , que inclou un canvi d’origen i un canvi d’escala, es pot representar mitjançant la fórmula: on a es una constant positiva o negativa i b és una constant més gran o més petita que 1. Noteu que en l’exemple anterior = 32 i = 1,8 Aquestes transformacions també es coneixen amb el nom de transformacions lineals.
Se’n diuen així perquè la funció que apliquem a la variable X per convertir-la en la variable Y és una funció lineal.
Les transformacions lineals no són les úniques que podem aplicar a les dades, tot i ser les més comunes. Al final d’aquesta secció parlarem de transformacions no lineals.
Què passa amb les mesures resum per a una sola variable quan apliquem transformacions lineals? Hem de tornar a calcular aquestes mesures resum si apliquem una transformació lineal? La resposta és que no cal. A continuació veurem com es veuen afectades les mesures resum davant de transformacions lineals del tipus .
3.2.1 Mesures de posició Si RX és una mesura de posició d’un conjunt de dades d’una variable numèrica X a la que apliquem una transformació lineal obtenint una nova variable Y  ( X  a) / b , la mateixa mesura de posició en el conjunt de dades Y es pot trobar a partir de: 12 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 És a dir que apliquem la mateixa transformació a la mesura resum.
La demostració d’aquest resultat és molt senzilla. Les mesures de posició són també funcions lineals de les dades (per exemple, la mitjana que és una mesura de posició central), i per tant podem aplicar directament la mateixa transformació lineal a la mesura resum.
Exemple: suposeu que ens diuen que a Nova York en el mes de setembre la temperatura mitjana és de 70 graus Fahrenheit. Podem saber quina és la temperatura mitjana en graus centígrads sense haver de demanar les dades originals mitjançant les quals es va calcular la temperatura mitjana en graus Fahrenheit? Doncs sí, la temperatura mitjana en graus centígrads serà: 70  32  21,1 graus centígrads 1,8 Aquest resultat és vàlid per a totes les mesures de posició sempre i quan la constant sigui positiva. Si és negativa la fórmula no es pot aplicar al càlcul de mediana o quartils.
3.2.2 Mesures de dispersió Com havíem dit abans, les transformacions lineals impliquen un canvi d’origen i un canvi d’escala. El canvi d’origen implica simplement un desplaçament de l’histograma sense afectar la seva forma. En conseqüència, les mesures de dispersió, simetria, curtosi, etc. no es veuen afectades per canvis d’origen. Per contra, els canvis d’escala les afecten d’una forma previsible.
Si RX és una mesura de dispersió d’un conjunt de dades d’una variable numèrica X , i apliquem una transformació lineal a aquestes dades obtenint una nova variable ⁄ , la mateixa mesura de dispersió en el conjunt de dades Y serà: RY  RX b És a dir que per calcular la nova mesura només hem d’aplicar el canvi d’escala. Això és vàlid sempre i quan la constant sigui positiva. Si és negativa la fórmula no es pot aplicar al càlcul de mesures de dispersió com ara el rang interquartílic. Però si que es pot calcular la nova desviació típica si utilitzem el valor absolut de b en la fórmula.
3.2.3 Mesures de forma Pel que fa a les mesures d’asimetria i curtosi, aquestes no queden afectades pel canvi d’origen.
La mesura de curtosi tampoc queda afectada pel canvi d’escala. Pel que fa a la mesura d’asimetria, no queda afectada pel canvi d’escala sempre i quan la constant sigui positiva. Recordem per exemple que 13 de 62 ANÀLISI DE DADES - Dossier de teoria ′ Curs 2014-2015 ̅ 1 2 Una transformació consistent en un canvi d’escala amb n manera a numerador i denominador del sumatori   xi  x  positiu afectaria d’igual 3 i per tant no alteraria el s3 fos negatiu el valor del coeficient seria el mateix, però amb el signe i 1 resultat. (Si canviat).
3.2.4 Exemple: Una pujada de sous al final de l’any 2000 Al taller mecànic “Tara Service” treballen 7 persones amb els sous següents: Salaris (en pessetes) 140.000 150.000 170.000 130.000 160.000 180.000 La mitjana i la desviació típica dels sous són: X  155.000 sX  18.708, 29 Ens diuen que al desembre se’ls concedirà un augment de sou de 20.000 pessetes, i a principis de 2001 s’abandona la pesseta i comença l’euro.
Quina serà la mitjana i la desviació típica dels sous, ara expressada en euros, tenint en compte la pujada de 20.000 pessetes (120,20 €)? Haurem de calcular el sou de cada treballador al desembre, sumar-li 20.000 pessetes i dividir per 166,386 per obtenir els sous del gener en euros? No cal. Utilitzant els resultats previs, la mitjana de gener serà: Y  X  20000 155000  20000   1051, 771 166,386 166,386 i la desviació típica sY  sX  112, 4391 166, 386 Òbviament podríem haver calculat els nous sous directament en euros: Salaris (en euros) 853,4372 913,5384 1033,741 793,336 973,6396 1093,842 i ara calcular la mitjana i la desviació típica, cosa que òbviament ens portarà als mateixos resultats.
14 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 3.2.5 Altres tipus de transformacions Les transformacions més habituals en la pràctica són les transformacions lineals, en estar associades a canvis d’unitats de mesura de les dades.
Les transformacions no lineals són menys habituals i s’utilitzen per canviar la forma de les distribucions. De vegades distribucions asimètriques es poden convertir en simètriques mitjançant aquestes transformacions, i un cop que són simètriques podem utilitzar mesures resum com la mitjana o la desviació típica que sols són vàlides per a aquests tipus de distribucions.
Les transformacions no lineals estan basades en funcions no lineals, com ara la funció logarítmica, la exponencial, polinomis, etc.
Considereu per exemple el següent conjunt de dades, que corresponen al rendiment obtingut en la borsa de valors per diferents inversors, expressats en milers d’euros: Rendiments 10 15,84 25,11 31,62 50,11 10 15,84 25,11 39,81 63,09 12,58 15,84 25,11 39,81 12,58 25,11 31,62 39,81 12,58 25,11 31,62 50,11 Dibuixem l’histograma: 6 5 Freqüències 4 3 2 1 0 12,7 18 23,3 28,6 33,9 39,2 44,5 49,8 55,1 60,4 X Podem apreciar que és força asimètric cap a la dreta, tot indicant que la majoria dels inversors obté rendiments reduïts, amb uns pocs afortunats (o que saben més sobre inversions en borsa) que obtenen rendiments més elevats.
En aquesta distribució no seria adequat aplicar la mitjana o la desviació típica per resumir el conjunt de dades, donada la seva asimetria. Per això apliquem una transformació no lineal, en aquest cas una transformació logarítmica fa que les dades siguin més simètriques. La transformació que apliquem a les dades originals X és: Y  ln( X ) on ln denota el logaritme neperià (en base ). Les dades que obtenim ara són: 15 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 2,303 2,763 3,223 3,454 3,914 2,303 2,763 3,223 3,684 4,145 2,532 2,763 3,223 3,684 2,532 3,223 3,454 3,684 2,532 3,223 3,454 3,914 Si ara dibuixem l’histograma obtenim: 6 5 Freqüències 4 3 2 1 0 2,39 2,58 2,76 2,95 3,13 3,32 3,5 3,68 3,87 4,05 LogN(X) Aquest histograma és força més simètric i ara es poden aplicar mesures com la mitjana o la desviació típica per descriure les dades transformades.
Comptem amb una transformació per a les mesures resum com en el cas de les transformacions lineals que ens permeti predir-les sense necessitat de calcular la transformació? En el cas de les transformacions no lineals no comptem amb cap fórmula semblant. És a dir que la mitjana de les dades transformades per exemple amb logaritmes, no és igual al logaritme de la mitjana de les dades originals.
4 Distribució normal.
Moore, pag. 51-75 5 Conjunt de dues variables (I) 5.1 Dues variables numèriques Moore, capítol 2, pàgines 97 a 173 5.1.1 Traça mediana o mitjana En molts casos ens trobem que la relació entre dues variables numèriques no es pot esbrinar correctament perquè hi ha excessiva dispersió a les dades causada per algun factor que no ens interessa analitzar directament. Considereu per exemple la relació entre el consum de benzina i la velocitat per a cotxes. La velocitat a què va un cotxe clarament incideix sobre el consum de benzina, però poden haver-hi altres factors que 16 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 també causin una variació en el consum de benzina, com ara el vent en contra, la qualitat de la carretera, etc.
Al diagrama de dispersió següent observem el consum de benzina per 100 km en litres i la velocitat mitjana en km/h per a una mostra de cotxes del mateix model: 30 Consum benzina = 21,24 - 0,08 Velocitat Consum benzina 25 20 15 10 5 0 60 65 70 75 80 85 90 95 100 105 110 Velocitat Com podem apreciar sembla no haver-hi massa relació, o si més no una relació negativa molt feble entre les dues variables. Però com comentàvem abans, és possible que altres factors estiguin causant una dispersió addicional en el consum de benzina que ens oculti la relació entre les dues variables.
Per intentar trobar aquesta relació podem aplicar una tècnica que coneixem amb el nom de traça mediana o mitjana. Consisteix en dividir el rang de variació de la variable explicativa en un nombre de sectors d’igual grandària, i calcular la mediana o la mitjana de la variable dependent dins d’aquests sectors. Representant aquest valor central de la variable dependent per als diferents sectors es pot intentar esbrinar si el gràfic resultant suggereix algun tipus de relació entre les variables.
Per exemple, per al nostre cas dividim el rang de variació de la velocitat en 5 sectors, i per a cadascú d’aquests sectors calculem la mediana del consum de benzina: 30 Consum benzina 25 20 15 10 5 0 60 65 70 75 80 85 90 95 100 105 110 Velocitat 17 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 La traça mediana és la línia vermella que uneix les medianes que hem calculat per a cada sector, representades per punts vermells. Com es pot apreciar, sembla que el consum mínim de benzina es produeix quan els cotxes van entre 90 i 95 km/h.
Es pot provar amb més o menys sectors per intentar veure si la traça mediana o mitjana obtinguda ens dóna informació sobre la relació entre les dues variables.
Una cautela que s’ha de mencionar amb aquesta tècnica és que la relació entre les dues variables un cop que eliminem la dispersió mitjançant medianes o mitjanes sempre serà més forta que la relació quan utilitzem les dades originals. Per tant s’ha d’aplicar també el sentit comú per no crear relacions artificials o no hi ha cap relació.
5.1.2 Regressió no lineal Les tècniques d’anàlisi de regressió entre dues variables que hem analitzat fins ara pressuposen una relació lineal entre les dues variables numèriques que volem analitzar.
Quan la relació no és lineal l’ajust pot ser pobre i podem fer errors de predicció importants. Considereu per exemple un conjunt de dades que analitza la relació entre la despesa en publicitat i les vendes per a una mostra d’empreses. Intuïtivament podem raonar que a mesura que augmenta la despesa en publicitat les vendes s’incrementen perquè es produeix un estímul sobre els consumidors, però l’efecte d’aquest estímul és decreixent, és a dir que a partir d’un cert nivell de despesa en publicitat per més que incrementem la despesa l’efecte sobre les vendes s’anirà reduint.
El diagrama de dispersió següent representa una mostra d’empreses per a les quals tenim informació sobre el seu nivell de despesa en publicitat i les seves vendes, ambdues variables en milers d’euros: 20 Vendes = 14,45 + 1,06 Publicitat 19 18 Vendes 17 16 15 14 13 0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 Publicitat Com podem apreciar al diagrama de dispersió, hi ha una associació positiva clara entre despesa i publicitat, però la relació no és lineal, el núvol de punts ens suggereix algun tipus de funció que no és una recta.
Això ho podem corroborar si obtenim un diagrama de residus: 18 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 1 0,5 Residuals 0 -0,5 -1 -1,5 -2 0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 Publicitat El diagrama de residus ens mostra clarament que l’ajust entre els valors predits i els valors reals fa errors sistemàtics, i obtenim sectors amb residus sistemàticament positius o negatius.
En aquesta secció veurem que disposem d’una sèrie de tècniques senzilles que ens permetran continuar aplicant la tècnica de regressió lineal a certs tipus de relacions no lineals entre dues variables numèriques.
La idea que aplicarem es basa en una tècnica matemàtica que es coneix amb el nom de canvi de variable. Abans de presentar aquesta tècnica farem un parèntesi per explicar algunes propietats dels logaritmes que ens seran útils en la nostra explicació i en les tècniques que aplicarem posteriorment.
El logaritme d’un valor expressat en una determinada base és l’exponent al qual s’ha d’elevar la base fixada per tal d’obtenir el valor esmentat. Per exemple el logaritme de 100 en base 10 és 2, perquè 100 10 . Algunes propietats útils dels logaritmes són les següents: log log log log log Ara podem presentar la idea del canvi de variable. Suposeu que tenim una equació del següent tipus: 10 La relació entre Y i X en aquesta equació és clarament no lineal, ja que les relacions lineals sols permeten que X pugui estar multiplicat per una constant i que podem sumar o restar un terme independent de X (és a dir equacions del tipus , on a i b són dues constants qualsevol).
Però podem fer el següent. Calculem el logaritme de les parts dreta i esquerra de l’equació i la igualtat es mantindrà, és a dir: 10 Ara apliquem les propietats dels logaritmes que havíem comentat, i obtenim: 3 I donat que log 10 10 7 1 ens queda: 3 7 Ara fem el següent canvi de variable: ∗ log 19 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 ∗ log I així podem escriure la nostra equació com: ∗ 3 7 ∗ Vegeu que en termes d’ ∗ i ∗ ara la nostra equació és lineal. Aquesta és la idea que ens permetrà continuar aplicant les nostres tècniques de regressió lineal tot i que la relació de les nostres variables numèriques no sigui lineal. Ara bé, això no ho podem fer amb totes les relacions no lineals, només amb aquelles que segueixen uns determinats patrons. En cas de dubte podem provar algunes transformacions senzilles i comprovar (gràficament per exemple) si la relació de les variables transformades esdevé lineal.
Començarem aplicant la idea que hem presentat en el nostre senzill exemple anterior corresponent a una mostra d’empreses. Aquest model es coneix amb el nom de model log-log (perquè transforma amb logaritmes tant la variable dependent com l’explicativa). En comptes d’utilitzar logaritmes en base 10 com en el nostre exemple, utilitza logaritmes neperians que també es coneixen com logaritmes naturals, que tenen algunes propietats que els fan més convenients. La base d’aquests logaritmes és la constant e=2,71828.... La funció inversa de la funció de logaritme neperià ln és la que se sol escriure com exp .
funció exponencial, o sigui Aplicarem aquest model a les nostres dades, de les quals presentem els primers 10 casos (observeu que les unitats són milers): Publicitat Vendes 2,96 17,31 3,43 18,17 1,7 16,33 2,49 17,2 1,91 16,63 2,63 17,26 1,78 16,47 1,82 16,5 2,45 17,28 1,34 16 Calculem el logaritme neperià per a cada valor de Publicitat i cada valor de Vendes, tot obtenint: ln(Publicitat) ln(Vendes) 1,09 2,85 1,23 2,9 0,53 2,79 0,91 2,84 0,65 2,81 20 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 0,97 2,85 0,58 2,8 0,6 2,8 0,89 2,85 0,29 2,77 Això el farem per a tots els casos del conjunt de dades i representarem les variables transformades en un diagrama de dispersió, obtenint: 3 2,95 ln(Vendes) 2,9 2,85 2,8 2,75 2,7 -0,5 0 0,5 1 1,5 2 ln(Publicitat) Si comparem aquest diagrama de dispersió transformat amb el diagrama de dispersió original podem apreciar que ara la relació és clarament lineal, i per tant podem calcular la recta de regressió i fer prediccions acurades amb aquest model transformat. Si entrem les dades transformades en un programa estadístic, podem obtenir la constant i el pendent d’aquesta regressió: ln(Vendes) = 2,73 + 0,13 ln(Publicitat) Quina predicció faríem per a les vendes si una empresa fa una despesa en publicitat igual a 2.000 euros (2 si l’expressem en milers)? La predicció de la nostra regressió és: 2,73 + 0,13 ln (2) = 2,82 Però vegeu que aquesta no és la predicció de les Vendes, sinó de ln(Vendes). Per obtenir la predicció de les dades sense transformar ara hem d’utilitzar la funció inversa de la funció logarítmica, que com havíem comentat abans és la funció exponencial. Finalment tenim doncs: exp(2,82) = 16,78 milers d’euros Aquesta és la nostra predicció de les vendes.
Si fem la transformació log-log i el diagrama de dispersió encara no mostra una relació lineal, podem provar amb altres dos tipus de transformacions. Per exemple: Semi-log: En aquest cas sols transformem logarítmicament la variable dependent, però no la variable explicativa. És a dir que la relació seria del tipus ln .
Recíproc: Sols transformem la variable explicativa, agafant el recíproc d’aquesta .
variable, és a dir que el model seria Com sabem si hem d’aplicar el model log-log, semi-log o recíproc? El diagrama de 21 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 dispersió original ens pot donar una idea, si la forma que observem suggereix una relació logarítmica o del tipus implicat per la funció recíproca. Però en termes pràctics podem representar amb l’ordinador el diagrama de dispersió per als tres casos i determinar visualment quina transformació proporciona un millor ajust.
5.1.3 Elasticitat El model log-log té un avantatge addicional que té a veure amb la interpretació del valor del pendent de la regressió amb les dades transformades. Per poder explicar aquesta interpretació, anomenada elasticitat, primer hem de presentar una propietat addicional dels logaritmes naturals o neperians.
Aquesta propietat diu el següent: Cada canvi igual a 1 % a la variable X correspon (aproximadament) a un canvi de 0,01 en ln(X). Per exemple tenim que 21 és aproximadament un 5% més gran que 20, per tant si fem ln(21) – ln(20) = 3,04 – 2,99 = 0,05.
Apliquem aquesta propietat al nostre exemple de les vendes i la publicitat. El pendent del model log-log per a aquestes dades és 0,13. En quant s’incrementaran les vendes si la despesa en publicitat s’incrementa en 1%? D’acord amb la nostra propietat, si Publicitat s’incrementa en 1%, ln(Publicitat) s’incrementa en 0,01, i utilitzant el pendent de la regressió, ln(Vendes) s’incrementa en 0,01*0,13= 0,0013.
Si ln(Vendes) s’ha incrementat en 0,0013 en quant s’haurà incrementat Vendes? Aplicant la nostra propietat un altre cop obtenim que vendes s’haurà incrementat en 0,13%.
Això mostra que en el cas del model log-log el pendent de la regressió té una interpretació molt atractiva: ens dóna directament l’efecte de la variable explicativa sobre la variable dependent en termes percentuals. Si el pendent del model log-log és 0,13, sabem que l’efecte de la variable explicativa és que si aquesta s’incrementa en 1% la variable dependent s’incrementa en 0,13%. Aquesta interpretació percentual no la podem fer amb cap altre model, ni tan sols amb el model lineal.
Anomenem elasticitat al canvi percentual en una variable en relació amb el canvi percentual d’una altre variable. Per tant conclourem dient que el pendent de la regressió log-log ens dóna l’elasticitat de la variable dependent com a resposta a canvis en la variable explicativa.
5.2 Una variable numèrica i una categòrica L’anàlisi de conjunts de dades d’una variable numèrica i una categòrica també busca trobar relacions entre aquestes dues variables. Normalment es tracta d’analitzar la variable numèrica per a cada grup o categoria que defineix la variable categòrica.
És important recordar que els valors, grups o categories de la variable categòrica poden estar ordenats o no, i això defineix dos tipus de variables categòriques:  Variables categòriques sense ordre: les categories de la variable categòrica no tenen un ordre natural, sinó que les ordenem artificialment (per ordre alfabètic, per numeració, etc.). Un exemple és la variable “Comarca de residència”.
Aquesta variable no té un ordre natural, podem ordenar-la per ordre alfabètic o per altres criteris però no hi ha un ordre natural.
22 de 62 ANÀLISI DE DADES - Dossier de teoria  Curs 2014-2015 Variable categòrica amb ordre: les categories segueixen un ordre natural.
Exemples poden ser les variables “Nivell educatiu” amb categories Sense Estudis, Primària, Secundària o Universitat. Aquesta variable està ordenada perquè abans d’anar a la Secundària, s’ha passat per la categoria Primària, etc.
Un altre exemple és la variable “Nivell de renda” amb categories Renda Baixa, Renda Mitjana o Renda Alta. Aquí l’ordre ve donat perquè els de Renda Mitjana tenen una renda més alta que els de Renda Baixa, i així successivament.
En el cas en què la variable categòrica no té un ordre natural, s’ha d’analitzar la variable numèrica per a cada grup o categoria, i veure si la distribució de la variable numèrica és diferent o no segons el grup o categoria. Per veure això s’utilitzen tots els resums numèrics i gràfics que coneixem per analitzar la variable numèrica (numèrics: mitjana, desviació típica, etc.; gràfics: histogrames, diagrames de caixa, etc.).
En el cas d’una variable categòrica amb un ordre natural, es realitza una anàlisi semblant grup per grup de la variable numèrica, però la diferència és que es pot parlar de dependència entre les dues variables, cosa que no es pot fer en el cas en que la variable numèrica no te ordre.
5.2.1 Exemple: anàlisi d’una variable categòrica sense ordre. Renda i comarca de residència.
A continuació presentem la renda i la comarca de residència per a 20 individus: Individu Renda (Euros) Comarca 1 12000 Barcelonès 2 15000 Barcelonès 3 16000 Baix Llobregat 4 14000 Maresme 5 20000 Vallès Occidental 6 21000 Baix Llobregat 7 30000 Vallès Oriental 8 22000 Vallès Occidental 9 14000 Barcelonès 10 17000 Barcelonès 11 10000 Maresme 12 11000 Baix Llobregat 13 19000 Baix Llobregat 14 13000 Maresme 15 21000 Vallès Occidental 16 25000 Vallès Oriental 17 22000 Vallès Oriental 23 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 18 23000 Vallès Oriental 19 16000 Vallès Occidental 20 17000 Maresme Primer presentem els principals resums numèrics per comarca de residència: Tot Baix Llobregat Vallès Occidental Vallès Oriental Nombre 20 4 4 4 4 4 Mitjana 17900 16750 14500 13500 19750 25000 DesEst 5118,59 4349,33 2081,67 2886,75 2629,96 3559,03 Coef de Var 0,29 0,26 0,14 0,21 0,13 0,14 Asimetria 0,51 -0,83 0 0 -1,44 1,33 Curtosi 0,03 -0,04 0,39 0,91 2,23 1,5 Min 10000 11000 12000 10000 16000 22000 Q1 14000 14750 13500 12250 19000 22750 Mediana 17000 17500 14500 13500 20500 24000 Q3 21250 19500 15500 14750 21250 26250 Max 30000 21000 17000 17000 22000 30000 Comarca Barcelonès Maresme Podem apreciar que la distribució de la renda varia d’una comarca a l’altra. Per exemple a la comarca del Barcelonès la renda mitjana i la dispersió és més reduïda que en el Vallès Occidental. Així podem dir que la renda està relacionada amb el lloc de residència.
A més dels resums numèrics es poden presentar resums gràfics. Els dos més habituals són els histogrames per a cada categoria o grup de la variable categòrica i els diagrames de caixa.
A continuació presentem els histogrames: Comarca : Baix Llobregat Freqüència 1,5 1 0,5 0 11000 13000 15000 17000 19000 21000 23000 25000 27000 29000 Renda (Euros) 24 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 Comarca : Barcelonès Freqüència 3 2 1 0 11000 13000 15000 17000 19000 21000 23000 25000 27000 29000 Renda (Euros) Comarca : Maresme Freqüència 1,5 1 0,5 0 11000 13000 15000 17000 19000 21000 23000 25000 27000 29000 23000 25000 27000 29000 23000 25000 27000 29000 Renda (Euros) Comarca : Vallès Occidental Freqüència 3 2 1 0 11000 13000 15000 17000 19000 21000 Renda (Euros) Comarca : Vallès Oriental Freqüència 3 2 1 0 11000 13000 15000 17000 19000 21000 Renda (Euros) Els histogrames ens permeten veure que els Vallès Occidental i el Vallès Oriental presenten un distribució desplaçada cap a la dreta, o sigui que en general els nivells de renda són més elevats per a aquestes comarques.
Una altra representació gràfica semblant però basada en mesures numèriques resistents, és la representació de diagrames de caixa per comarques: 25 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 35000 30000 25000 20000 15000 10000 Baix Llobregat Barcelonès Maresme Vallès Occidental Vallès Oriental 5000 0 Renda (Euros) Els diagrames de caixa permeten apreciar les diferències en la distribució de la variable renda entre les diferents comarques.
5.2.2 Exemple: anàlisi d’una variable categòrica amb ordre. Renda i nivell d’estudis.
A continuació presentem dades sobre la renda i el nivell d’estudis de 20 individus: Individu Renda (Euros) Nivell d’estudis 1 12000 2. Primària 2 15000 1. Sense estudis 3 16000 5. Màster 4 14000 3. Secundària 5 20000 4. Llicenciat 6 21000 5. Màster 7 30000 5. Màster 8 22000 4. Llicenciat 9 14000 2. Primària 10 17000 2. Primària 11 10000 1. Sense estudis 12 11000 1. Sense estudis 13 19000 3. Secundària 14 13000 2. Primària 15 21000 4. Llicenciat 16 25000 4. Llicenciat 17 22000 3. Secundària 26 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 18 23000 3. Secundària 19 12000 1. Sense estudis 20 32000 5. Màster Els principals resums numèrics per categories, els podem trobar en el quadre següent: Tot 1. Sense estudis 2. Primària 3.
Secundària 4.
Llicenciat 5. Màster Nombre 20 4 4 4 4 4 Mitjana 18450 12000 14000 19500 22000 24750 DesEst 6159,93 2160,25 2160,25 4041,45 2160,25 7544,31 Coef de Var 0,33 0,18 0,15 0,21 0,1 0,3 Asimetria 0,65 1,19 1,19 -1,09 1,19 -0,31 Curtosi -0,14 1,5 1,5 0,3 1,5 -3,64 Min 10000 10000 12000 14000 20000 16000 Q1 13750 10750 12750 17750 20750 19750 Mediana 18000 11500 13500 20500 21500 25500 Q3 22000 12750 14750 22250 22750 30500 Max 32000 15000 17000 23000 25000 32000 Nivell d’estudis Ara té sentit posar el nivell educatiu des de la categoria més baixa fins a la categoria més alta. Veiem que per exemple la renda mitjana va pujant, i així podem parlar d’una associació positiva entre el nivell educatiu i la renda, quant més alt el nivell educatiu més alta és la renda. Parlar d’associació (positiva o negativa) no hagués tingut sentit quan parlàvem de la relació entre renda i lloc de residència, en aquell cas només podíem dir que les dues variables estaven relacionades.
Una altra cosa que observem és que la dispersió de la renda també va augmentant a mesura que considerem nivell d’educació més elevat. Això vol dir que, tot i que la renda mitjana és més alta quant més alt el nivell educatiu, el grau de variabilitat de la renda també és més gran. Els que tenen un màster, per exemple, guanyen més de mitjana que els que tenen nivell educatiu més reduït, però la dispersió és més gran. Això vol dir que hi ha gent a la que li va molt bé i altra gent a la que li va pitjor, tot i tenir un nivell educatiu més alt.
Com sempre podem utilitzar eines gràfiques per fer la mateixa descripció. A continuació presentem histogrames de la renda per als diferents nivells educatius: 27 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 Nivell d’estudis: 1. Sense estudis Freqüència 3 2 1 0 11000 13000 15000 17000 19000 21000 23000 25000 27000 29000 25000 27000 29000 Renda (Euros) Nivell d’estudis: 1. Sense estudis Freqüència 3 2 1 0 11000 13000 15000 17000 19000 21000 23000 Renda (Euros) Nivell d’estudis: 3. Secundària Freqüència 3 2 1 0 11000 13000 15000 17000 19000 21000 23000 25000 27000 29000 Renda (Euros) Nivell d’estudis: 4. Llicenciat Freqüència 3 2 1 0 11000 13000 15000 17000 19000 21000 23000 25000 27000 29000 24300 26500 28700 30900 Renda (Euros) Nivell d’estudis: 5. Màster Freqüència 3 2 1 0 11100 13300 15500 17700 19900 22100 Renda (Euros) En principi podem observar el mateix que comentàvem per al quadre de resums numèrics. Hi ha una associació positiva entre nivell d’estudis i renda, i el grau de dispersió de la renda augmenta amb el nivell d’estudis.
28 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 Els histogrames no són l’única eina gràfica que podem utilitzar per fer aquesta descripció. Una altra eina són per exemple diagrames de la mitjana, de la desviació típica o d’altres resums numèrics, per poder-los comparar: Mitjana 30000 24750 25000 22000 19500 20000 14000 15000 12000 10000 5000 0 1. Sense estudis 2. Primària 3. Secundària 4. Llicenciat 5. Màster Renda (Euros) En aquests diagrames es pot apreciar amb més claredat que la renda mitjana creix amb el nivell d’estudis.
També podem estudiar diagrames d’altres mesures numèriques, com ara la desviació típica: Desviació Estàndard 8000 7544,31 7000 6000 5000 4041,45 4000 3000 2160,25 2160,25 1. Sense estudis 2. Primària 2160,25 2000 1000 0 3. Secundària 4. Llicenciat 5. Màster Renda (Euros) Aquest diagrama ens permet veure que la dispersió de la renda també augmenta, excepte per al nivell de llicenciat, sent la més gran per als Màster, tot indicant que malgrat que la renda mitjana augmenta amb el títol de Màster, també hi ha gent que fa un Màster i no aconsegueix millorar els seus ingressos i per tant en aquest grup hi ha gent que guanya molt i gent que guanya molt poc.
Per últim els diagrames de caixa també són molt útils en aquest cas: 29 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 35000 30000 25000 20000 15000 10000 1. Sense estudis 2. Primària 3. Secundària 4. Llicenciat 5. Màster 5000 0 Renda (Euros) Es veu clarament que la mediana de la renda va augmentant amb el nivell d’educació. I a més les caixes es van fent més grans el que indica que la variabilitat va augmentant, excepte per al nivell de llicenciat, com havíem comentat abans.
6 Conjunts de dues variables (II): Dues variables categòriques Moore, 173-203 7 Sèries temporals 7.1 Introducció Una sèrie temporal és una col·lecció de dades referides a una variable, ordenades cronològicament. La sèrie pot ser anyal, trimestral, mensual, diària, i fins i tot per hores o minuts com en el cas de les accions en borsa, segons la periodicitat de les dades.
Resulta difícil imaginar una branca de la ciència en la que no apareguin dades que poden ser considerades com sèries temporals. La sèrie temporal ens informa de la variació de la variable al llarg del temps (atur, pobresa, creixement, etc.). Les decisions econòmiques o empresarials sovint són fruit de plans fets en el passat i d’expectatives sobre el futur.
La representació gràfica d’una sèrie temporal es fa posant el temps com a variable independent (eix de les x ) i els valors de la sèrie com a variable dependent (eix de les y ).
Les tècniques de previsió són molt variades. Van des de simples apreciacions dels experts fins anàlisis complicats d’una gran quantitat de dades i d’interrelacions entre variables. Ara bé, tot ha d’estar basat en el comportament passat de la sèrie. Si observem un comportament més o menys sistemàtic d’una variable al llarg del temps, és lògic pensar que aquest tipus de comportament continuarà en el futur. Aquesta observació és la base de la previsió estadística. Per exemple, la predicció mitjançant 30 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 models de sèries temporals ens pot ajudar a fer una bona planificació sanitària, en funció de la demanda futura prevista.
En economia es fan moltes previsions. Una ullada a la secció d’economia de qualsevol diari ens permetrà constatar aquest fet. Per exemple, és interessant estudiar el PIB (el producte interior brut) en relació a la seva evolució en el temps. Només així podem entendre la naturalesa de la sèrie i fer previsions en el futur. Les sèries econòmiques s’utilitzen sovint per intentar predir les crisis o les expansions, encara que no sempre s’aconsegueix.
7.2 Composició La variació en els valors històrics d’una sèrie temporal està causada per una diversitat de factors. Alguns són factors econòmics (una crisi financera i la seva repercussió sobre els índexs de borsa), altres són naturals (els fenòmens naturals com la calamarsa que afectarà sens dubte el preu d’algunes fruites), o institucionals (l’harmonització de l’IVA a Espanya i la seva repercussió sobre la sèrie de l’IBI, o l’adopció de l’euro i la repercussió que va tenir sobre les sèries relacionades amb el comerç exterior, per exemple). Alguns factors afecten només el comportament a llarg termini de les sèries, i d’altres afecten només el curt termini.
Vegem alguns exemples: o Curt termini: un període inferior a un any.
1. Factors periòdics (aproximadament per un període inferior a un any).
Exemples: el consum d’energia elèctrica té un component d’estacionalitat a curt termini ja que durant l’estiu no es consumeix el mateix que durant l’hivern. Abans el consum d’energia elèctrica durant l’estiu era més reduït, però des de que tenim aire condicionat ja no és així. També el PIB presenta un comportament diferenciat durant l’agost ja que és el període de vacances per excel·lència. Si observem que en els darrers anys la producció de l’agost ha disminuït un 10% respecte a mesos anterior, podem preveure que també passarà això mateix l’any vinent.
2. Factors puntuals: una catàstrofe natural, la crisi financera d’un país, la fallida d’una gran empresa, etc. Són esdeveniments de curt termini però són més erràtics i no es poden preveure al contrari del que passava amb l’estacionalitat.
o Mig termini (aproximadament un període superior a un any i inferior a cinc anys). Podem parlar per exemple d’un període de recessió econòmica o d’un període de recuperació. També són irregulars en la seva durada i intensitat, però de vegades és possible preveure’ls.
o Llarg termini (aproximadament un període superior a cinc anys). Aquí es poden produir també canvis deguts a canvis estructurals en la població o en l’economia. Exemples: l’adopció de l’euro pels països de la unió monetària europea, o l’abandonament del patró-or per par dels EUA. Més exemples: el “baby-boom” (explosió de natalitat) també és un canvi estructural en la població que afecta l’economia.
De manera més analítica, considerem que una sèrie està formada per quatre components bàsics (no intervenen els quatre necessàriament), que descrivim a continuació: 31 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 T C Tendència: comportament de la sèrie a llarg termini.
E Estacional: comportament cíclic que es repeteix una o més vegades dintre d’un mateix any. Acostuma a produir-se quan la sèrie està influenciada per factors estacionals. Per exemple: les vendes de joguines. Aquestes experimenten un creixement marcat per Nadal, i potser també de cara a l’estiu. O el consum d’energia elèctrica. Segurament durant un dia hi ha hores punta i hores de consum mínim. I aquest comportament es repeteix dia darrera dia o any darrera any. A l’economia espanyola, per exemple, l’atur sempre creix als mesos de setembre i octubre perquè hi han molta ocupació estacional a l’estiu relacionada amb el turisme (i també cau l’atur al maig i juny per la mateixa raó). Per tant quan ens parlen de dades d’evolució de l’atur l’hem de tenir en compte, per tal de no confondre una variació estacional amb una tendència clara a millorar o empitjorar.
I Irregular: aquest comportament és completament aleatori i impossible de predir.
Per exemple: una calamarsa imprevista que afecta les collites.
Cíclic: Les sèries poden presentar comportaments cíclics que s’estenen durant més d’un any. Per exemple, les vendes d’automòbils són més importants quan l’economia està en un període d’expansió i baixen quan està en un període de recessió. Aquests períodes tenen una durada indeterminada, generalment superior a un any. No hi ha regularitat en les fluctuacions. Per exemple, de vegades hi ha 2 anys bons i 1 dolent, d’altres hi ha 3 dolents i 2 bons, etc. Això ens ajuda a diferenciar entre comportaments cíclics i estacionals. Les fluctuacions estacionals sempre tenen la mateixa durada i les temporades bones i dolentes sempre coincideixen amb la mateixa època de l’any (per exemple: sempre es disparen les vendes al Nadal i cauen al gener, encara que hi ha anys que les variacions són més fortes que en altres).
Si les sèries poden tenir totes fins a quatre components, seria molt útil poder distingir cada un d’aquests components per separat. Així, per exemple, quan se’ns presentés una dada sobre atur del tipus “la taxa d’atur ha disminuït en 0,7 punts”, sabríem distingir quina part d’aquesta disminució és deguda a un factor purament estacional, i quina és deguda a un component cíclic o de tendència.
Si suposem que les quatre components d’una sèrie estan relacionades d’una determinada manera, podrem separar aquests components amb l’ajut d’una sèrie de tècniques que estudiarem.
Generalment se suposa que els components d’una sèrie poden relacionar-se de dues maneres principalment: de forma multiplicativa i de forma additiva. També són possibles formes mixtes, però són difícils de descobrir i no s’utilitzen gaire.
El model additiu suposa que el valor d’una sèrie temporal, Y, és la suma dels seus 4 components. És a dir: Y T C  E  I El model multiplicatiu suposa que el valor d’una sèrie temporal, Y, és el producte dels seus 4 components. És a dir: Y  T C  E  I 32 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 Bàsicament, el model additiu suposa que els 4 components (les 4 causes de variació de la sèrie) són independents. És a dir, el fet que la tendència d’una sèrie sigui a l’alça o a la baixa, no té cap relació amb les variacions estacionals, cícliques o irregulars. (Per exemple: el nivell d’ocupació ha augmentat continuadament des del 1900. Però les fluctuacions estacionals de cada any, són sempre les mateixes i no venen afectades per la tendència creixent de la sèrie). En el cas del model multiplicatiu, les quatre component poden estar relacionades. Per exemple: Les variacions estacionals poden ser més grans durant una fase expansiva del cicle econòmic que durant una fase regressiva.
Un model multiplicatiu com el descrit es pot convertir fàcilment en un model additiu.
Només cal prendre logaritmes. Així, si Y  T  C  E  I , podem escriure ln Y  ln T  ln C  ln E  ln I Un possible model mixt seria: Y  T C  E  I Vegem com es comporten els dos tipus de model (additiu i multiplicatiu purs). A partir d’uns mateixos components construïm dues sèries, una additiva i una mixta, i les representem gràficament.
4 components Tendència Estacional 1 1 2 0 3 -1 4 1 5 0 6 -1 7 1 8 0 9 -1 10 1 11 0 12 -1 13 1 14 0 15 -1 Cíclic 1 2 4 2 1 0 -1 0 1 2 2,5 3 2,5 2 1 Irregular -0,3 0,42 -0,21 -0,35 -0,17 0,29 0,49 0,26 0,45 -0,56 -1 -2 0 -0,17 -0,37 Comportament de les dues sèries 20 40 15 20 10 -20 MIXT Y1 Y2 2,7 4,42 5,79 6,65 5,83 5,29 7,49 8,26 9,45 12,44 12,5 12 16,5 15,83 14,63 3,7 4,42 -6,21 14,65 5,83 5,29 0,49 8,26 0,45 32,44 12,5 -24 49 15,83 -0,37 Els 4 components de les sèries 60 0 ADDITIU 5 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0 -5 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 -40 tem ps Y1 Tem ps Y2 Tendència Cíclic Estacional Irregular 33 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 Observem com les oscil·lacions cícliques i estacionals de la segona sèrie es van fen més grans en combinar-se amb el component creixent de la tendència, cosa que no passa amb la sèrie additiva. Aquest examen visual és un pas previ imprescindible per intentar esbrinar a quin tipus pertany la sèrie que volem analitzar.
Per construir aquest exemple hem partit dels 4 components i hem format les dues sèries.
Però a la pràctica, nosaltres només observarem la sèrie temporal final. Si només observem la sèrie final, podem identificar i separar els seus 4 components? La resposta a aquesta pregunta és afirmativa (amb matisacions). Poder identificar i separar els components d’una sèrie ens serà útil per conèixer les causes de les variacions en els valors de la sèrie. Per exemple, quan sentim a les notícies que l’atur ha disminuït un 0,7% aquest mes, el primer que ens hem de preguntar és si es tracta d’una variació purament estacional (es tracta d’un mes d’estiu en que hi ha més contractació en el sector turisme), o si és una variació que es part d’una tendència més a llarg termini.
També necessitem poder separar els components d’una sèrie per poder predir el seu comportament futur.
A continuació exposem algunes maneres senzilles de trobar els components d’una sèrie (hi ha mètodes més complexes i també més acurats, però no resulta possible estudiar-los en un curs introductori).
7.3 Anàlisi de la tendència i el cicle: el llarg termini 7.3.1 Mitjanes mòbils La tècnica de les mitjanes mòbils consisteix en eliminar la dispersió de la sèrie a curt termini, causada per l’estacionalitat, agafant mitjanes d’observacions properes per “suavitzar” la sèrie.
Amb aquest mètode la tendència o el cicle d’una sèrie es calcula com la mitjana d’una sèrie d’observacions consecutives. Per exemple, si ens sembla que cada 5 anys aproximadament l’economia recomença un nou cicle, per calcular-lo podem pensar a fer el promig dels valors de la sèrie de 5 en 5, de manera que la tendència en un moment donat del temps sigui el promig entre l’observació de la sèrie en aquest període, les observacions dels dos anys precedents, i les observacions dels dos anys futurs.
Exemple de càlcul de mitjanes mòbils: Any Valors Mitjana mòbil Mitjana mòbil originals ordre 3 ordre 5 1 1 - - 2 2 2,0=(1+2+3)/3 - 3 3 2,3=(2+3+2)/3 1,8=(1+2+3+2+1)/5 4 2 2,0=(3+2+1)/3 2,0=(2+3+2+1+2)/5 5 1 1,7 2,2 6 2 2,0 2,4 34 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 7 3 3,0 2,6 8 4 3,3 2,8 9 3 3,0 3,0 10 2 2,7 3,2 11 3 3,0 3,4 12 4 4,0 3,6 13 5 4,3 3,8 14 4 4,0 4,0 15 3 3,7 4,2 16 4 4,0 4,4 17 5 5,0 4,6 18 6 5,3=(5+6+5)/3 4,8=(4+5+6+5+4)/5 19 5 5,0=(6+5+4)/3 - 20 4 - - Representació gràfica: Com es mostra en el gràfic, la mitjana mòbil centrada d’ordre 5 sembla ser una bona manera de representar la tendència (en aquest cas coincideix amb una recta però no té per què ser així).
En el cas que el total de períodes de la sèrie temporal és senar (3, 5, 7, etc.) la mitjana mòbil es pot associar a un període de la sèrie, és a dir si estem calculant la sèrie per als períodes 1, 2 i 3, la mitjana mòbil correspondrà exactament al valor de la tendència durant el període 2.
En el cas en que el nombre de períodes a incloure en la mitjana sigui parell (2, 4, 6, etc.), ens trobem amb un problema perquè la mitjana no correspondrà a cap període en concret, sinó a un moment entre dos períodes. Per exemple si l’ordre de la sèrie és 4, i 35 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 estem calculant la mitjana per als períodes 1, 2, 3 i 4, la mitjana correspon a un moment entre els períodes 2 i 3, però no tenim el valor de la tendència ni al període 2 ni al 3, sinó entre mig. En aquest cas és necessari “centrar la mitjana mòbil”. El problema sorgeix ben sovint amb sèries trimestrals o mensuals, amb les quals és aconsellable calcular mitjanes mòbils centrades d’ordre 4 i 12 respectivament a l’hora de calcular la tendència.
Per exemple, si tenim dades trimestrals, podem calcular mitjanes mòbils centrades d’ordre 4. Suposem que la primera dada correspon al primer trimestre de 2005. Sumem les 4 primeres dades, des del primer trimestre al quart trimestre de 2005, i dividim per 4.
Obtenim el primer valor de la mitjana mòbil centrada. Però, amb quin trimestre associem aquest valor? El punt mig de l’any està entre el segon i el tercer trimestre, però no és ni l’un ni l’altre. On el col·loquem? De vegades es fa el següent: hom associa aquesta primera dada de la mitjana mòbil amb el segon trimestre (o amb el tercer, tant se val) i continua calculant els valors de la mitjana mòbil com si rés. A continuació, es calcula una segona sèrie de mitjanes mòbils centrades d’ordre 2 a partir de les dades de la primera sèrie de mitjanes mòbils d’ordre 4. El valor resultant es correspon amb el tercer trimestre de 2005. I continuem fent mitjanes no centrades d’ordre 4 i centrant-les després.
Exemple: Any 2005 2006 2007 2008 2009 Trim Sèrie T1 10 T2 20 T3 30 T4 40 T1 40 T2 30 T3 20 T4 10 T1 T2 T3 T4 T1 T2 T3 T4 T1 T2 T3 T4 10 20 30 40 40 30 20 10 10 20 30 40 MM4 no centrada MM4 centrada 25 32,5 35 32,5 25 17,5 15 28,75 33,75 33,75 28,75 21,25 16,25 17,5 25 32,5 35 32,5 25 17,5 15 17,5 25 16,25 21,25 28,75 33,75 33,75 28,75 21,25 16,25 16,25 21,25 36 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 La mitjana mòbil elimina omet la dispersió de la sèrie a curt termini (components estacional i irregular), i constitueix una estimació conjunta dels components de tendència i cicle. Aquesta característica es pot apreciar en el següent exemple: M.M 7.4 Les fluctuacions a mig i curt termini 7.4.1 Variacions estacionals Les variacions estacionals segueixen una pauta recurrent al llarg del temps. El clima i els costums socials són els factors més importants de les variacions estacionals. Les pautes estacionals poden ser diàries, setmanals, trimestrals o mensuals. Tal com les estacions, tendeixen a repetir-se a si mateixes.
Les variacions estacionals generen problemes per a les empreses individuals i per a l’economia en general. Es necessita capacitat extra o sobra personal segons el període estacional en que ens trobem. Això ha de tenir-se en compte a l’hora de planejar les compres de materials, o la contractació de personal.
37 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 L’anàlisi de les variacions estacionals requereix la construcció d’un índex estacional.
Amb sèries mensuals, un índex estacional és una col·lecció de 12 números, un per cada mes de l’any**.
Una manera molt sencilla de calcular un índex estacional és mitjançant la tècnica de la “relació a les mitjanes mòbils”, que descrivim a continuació.
El mètode és realment molt simple des del punt de vista conceptual, però la seva aplicació és bastant pesada sense l’ajut de l’ordinador. El mètode pot aplicar-se a sèries que segueixen el model additiu de relació dels quatre components ( T , C , E , I ) o el mètode multiplicatiu. Aquí l’explicarem per al cas de components que es relacionen de forma additiva. Podem adaptar l’explicació al cas del model multiplicatiu simplement substituint les divisions per subtraccions, les multiplicacions per sumes i la mitjana aritmètica (sumar els termes i dividir per N, la mida de la mostra) per la mitjana geomètrica (multiplicar els termes i prendre l’arrel N-èssima). O podem prendre logaritmes i convertir un model multiplicatiu en un model additiu.
Partim d’una sèrie Y , formada per quatre components segons el model Y T C  E  I Primer de tot, busquem aïllar els components de tendència i cicle mitjançant el càlcul d’una mitjana mòbil adient. Per exemple, si la sèrie és trimestral, calcularem una mitjana mòbil centrada d’ordre 4. Com que 4 és número parell i la mitjana mòbil no quedaria pròpiament centrada, calcularem una mitjana mòbil d’ordre 2 a partir de la primera mitjana mòbil d’ordre 4 que hem calculat. Aquesta darrera sèrie és teòricament igual a T  C , ja que no aïllem el component cíclic i per tant queda barrejat amb la tendència. També podríem calcular la tendència mitjançant l’ajust d’una recta i els resultats seran semblants.
A continuació, li restem la tendència que hem calculat de la sèrie original i el resultat serà: T  C  E  I  (T  C )  E  I Obtenim una nova sèrie que recull el component estacional barrejat amb el component irregular. Necessitem eliminar aquest component irregular si volem aïllar el component estacional i construir un índex estacional.
La naturalesa del component irregular és aleatòria. No segueix cap pauta. Encara que un trimestre d’un any determinat - el primer trimestre de 2005 per exemple- mostri un component irregular favorable, el primer trimestre d’un altre any – per exemple 2006aquest component irregular pot ser qualsevol cosa. És impossible de preveure. Si es pogués preveure formaria part dels components de tendència, cicle, o estacionalitat, ja ** Aquest és el mètode més corrent. També de vegades es calculen components estacionals que varien segons els anys, ja que és possible que degut a canvis climàtics o socials variïn les pautes estacionals de les sèries al llarg dels anys.
38 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 no seria un component del tot irregular. Per tant té sentit suposar que la mitjana de components irregulars que es produeixen en un trimestre determinat (per exemple el primer) és 0 en el cas additiu (o 1 en el cas multiplicatiu). Així, si suposem que el component estacional de cada trimestre és idèntic any darrera any, podem fer una mitjana amb els valors corresponents a un trimestre determinat de la sèrie E  I i obtindrem el component E . Per exemple, si la nostra sèrie comença en el primer trimestre de 2005 i acaba en el segon trimestre de 2009, per a calcular el component estacional de gener faríem: ET1  E2005T1  I2005T1  E2006T1  I2006T1  E2007T1  I2007T1  E2008T1  I2008T1  E2009T1  I2009T1 5 Com que hem suposat que els components estacionals d’un mateix mes són iguals, o sigui: E2005T 1  E2006T 1  E2007T 1  E2008T 1  E2009T 1  ET 1 i que el promig de components irregular és 0, obtenim 5 ET 1   I 2005T 1  I 2006T 1  I 2007T 1  I 2008T 1  I 2009T 1   ET 1  0  ET 1 5 Fem el mateix per a cada trimestre i obtenim 4 números que representen el component estacional. (En el cas multiplicatiu és costum expressar aquest component estacional en forma d’índex, per tant multipliquem cada número per 100).
Observeu que si el valor del component estacional és 0 per a algun trimestre, de fet no existeix component estacional. Els valors del component estacional oscil·len al voltant de 0. Quan el valor és més gran que 0 la sèrie estarà per sobre de la tendència i quan és més petit que 0 la sèrie estarà per sota de la tendència (en el cas multiplicatiu els components estacionals oscil·len al voltant de 100).
Sèrie Y Període 18492 2005-T1 18894,9 2005-T2 19191,1 2005-T3 19314,3 2005-T4 19400,1 2006-T1 19693,1 2006-T2 19895,6 2006-T3 20001,8 2006-T4 20069,2 2007-T1 20367,3 2007-T2 20510,6 2007-T3 20476,9 2007-T4 39 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 20402,3 2008-T1 20425,1 2008-T2 20346,3 2008-T3 19856,8 2008-T4 19090,8 2009-T1 18945 2009-T2 El programa ODStats calcula aquests índexs de forma automàtica: 7.5 Predicció amb sèries temporals Volem fer una previsió del PIB de Catalunya per al 2009. Partim d’una sèrie del PIB català per quadrimestres, des del 2004 fins al 2008 (per exemple, 2004,3 vol dir tercer quadrimestre de 2004).
Només dos dels quatre components possibles de la sèrie es poden predir a partir de la metodologia que hem explicat: la tendència i l’estacional. Com que el component estacional es repeteix en el temps, una vegada calculat mitjançant la tècnica descrita en l’apartat anterior, simplement l’hem de tenir en compte quan fem prediccions de futur.
Pel que fa a la predicció de la tendència, el procediment és el següent: 1) Primer hem d’obtenir la sèrie sense estacionalitat (sèrie desestacionalitzada). En el cas que la sèrie original sigui additiva calcularem Y – E. (Si la sèrie és multiplicativa calcularem Y/E).
40 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 2) A continuació ajustarem una funció matemàtica a la sèrie desestacionalitzada. El resultat serà una predicció del component de tendència. El model matemàtic pot ser: Recta Tt  a  b  t , on la t petita indexa el temps.
Nosaltres sols treballarem amb el model lineal, o sigui la recta, però el model pot correspondre a qualsevol altre funció del temps, per exemple: Polinomi Tt  a  b  t  c  t 2 (polinomi de segon grau) Tt  a  b  t  c  t 2  d  t 3 (polinomi de tercer grau) Exponencial Tt  a  b t Recíproc 1 Tt  a  b  t Potencial Tt  a  t b Logarítmica log Tt  a  b  t El valor dels paràmetres ( a, b, c,  ) dependrà de quina escala fem servir per a t .
Per exemple, en el cas de dades anyals, podem fer servir 1989, 1990, 1991,... etc.
o bé 1, 2, 3,... etc, l’únic que hem de tenir en compte és que sigui una sèrie correlativa, és a dir que vagi creixent d’un en un.
7.5.1 Exemple Considerem la sèrie que es mostra a continuació. Necessitem predir el component estacional i la tendència.
41 de 62 ANÀLISI DE DADES - Dossier de teoria Sèrie Y 1018 1037 1050 1093 1102 1113 1146 1160 1172 1208 1219 1227 1266 1278 1280 Sèrie Y 1300 1250 1200 1150 1100 1050 2013‐q3 2013‐q2 2013‐q1 2012‐q3 2012‐q2 2012‐q1 2011‐q3 2011‐q2 2011‐q1 2010‐q3 2010‐q2 2010‐q1 2009‐q3 2009‐q2 1000 2009‐q1 Temps 2009‐q1 2009‐q2 2009‐q3 2010‐q1 2010‐q2 2010‐q3 2011‐q1 2011‐q2 2011‐q3 2012‐q1 2012‐q2 2012‐q3 2013‐q1 2013‐q2 2013‐q3 Curs 2014-2015 7.5.1.1 El component estacional Suposem que sabem que la sèrie temporal és additiva. Podem aïllar els components estacional i irregular calculant una mitjana mòbil (allisant la sèrie), i restant aquesta mitjana mòbil dels valors originals de la sèrie.
Yt  Tt  Ct  Et  I t Yt  (Tt  Ct )  Et  I t Any i quadrimetre 2006,1 2006,2 2006,3 2007,1 2007,2 2007,3 2008,1 2008,2 2008,3 2009,1 2009,2 2009,3 2010,1 2010,2 2010,3 Y 1018 1037 1050 1093 1102 1113 1146 1160 1172 1208 1219 1227 1266 1278 1280 T+C E+I 1035 1060 1081,67 1102,67 1120,33 1139,67 1159,33 1180 1199,67 1218 1237,33 1257 1274,67 2 -10 11,33 -0,67 -7,33 6,33 0,67 -8 8,33 1 -10,33 9 3,33 Quadrimestre 1 2 3 E 8,75 1,27 -8,92 42 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 Per eliminar el factor irregular fem mitjanes simples dels valors corresponents a cada quadrimestre per separat. Suposem que aquesta mitjana reflecteix més l’estacionalitat que la irregularitat.
suma valors dels primer quadrimestre 11,33  6,33  8,33  9   8, 75 nombre de primers quadrimestres 4 0, 67  0, 67  1  3,33  1, 27 E2  4 10  7,33  8  10,33  8,92 E3  4 E1  7.5.1.2 La tendència Per predir la tendència, primer calculem la sèrie desestacionalitzada Y-E.
Temps 2009‐q1 2009‐q2 2009‐q3 2010‐q1 2010‐q2 2010‐q3 2011‐q1 2011‐q2 2011‐q3 2012‐q1 2012‐q2 2012‐q3 2013‐q1 2013‐q2 2013‐q3 Sèrie Y 1018 1037 1050 1093 1102 1113 1146 1160 1172 1208 1219 1227 1266 1278 1280 Sèrie Y‐E 1009,25 1035,73 1058,92 1084,25 1100,73 1121,92 1137,25 1158,73 1180,92 1199,25 1217,73 1235,92 1257,25 1276,73 1288,92 A continuació fem una recta de regressió on la variable resposta és la sèrie Y-E i la variable explicativa és el temps, que pren valors 1,2,3,....etc. Si ho fem amb Excel o Odstatistics obtindrem l’equació de la recta de regressió.
43 de 62 ANÀLISI DE DADES - Dossier de teoria Sèrie Y‐E 1009,25 1035,73 1058,92 1084,25 1100,73 1121,92 1137,25 1158,73 1180,92 1199,25 1217,73 1235,92 1257,25 1276,73 1288,92 Temps 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1400,00 1350,00 Y‐E = 998,96 + 19,826*Temps  1300,00 1250,00 1200,00 1150,00 Sèrie Y‐E 1100,00 Lineal (Sèrie Y‐E) 1050,00 1000,00 2009‐q1 2009‐q2 2009‐q3 2010‐q1 2010‐q2 2010‐q3 2011‐q1 2011‐q2 2011‐q3 2012‐q1 2012‐q2 2012‐q3 2013‐q1 2013‐q2 2013‐q3 2014‐q1 2014‐q2 2014‐q3 Temps 2009‐q1 2009‐q2 2009‐q3 2010‐q1 2010‐q2 2010‐q3 2011‐q1 2011‐q2 2011‐q3 2012‐q1 2012‐q2 2012‐q3 2013‐q1 2013‐q2 2013‐q3 Curs 2014-2015 La predicció de la tendència l’obtenim com Pred. T = 998,96 + 19,826*Temps Els primer, segon, i tercer quadrimestres de 2014 s’obtenen fent Pred. T de 2014-q1 = 998,96 + 19,826*16 Pred. T de 2014-q1 = 998,96 + 19,826*17 Pred. T de 2014-q1 = 998,96 + 19,826*18 Temps 2009‐q1 2009‐q2 2009‐q3 2010‐q1 2010‐q2 2010‐q3 2011‐q1 2011‐q2 2011‐q3 2012‐q1 2012‐q2 2012‐q3 2013‐q1 2013‐q2 2013‐q3 2014‐q1 2014‐q2 2014‐q3 Sèrie Y‐E 1009,25 1035,73 1058,92 1084,25 1100,73 1121,92 1137,25 1158,73 1180,92 1199,25 1217,73 1235,92 1257,25 1276,73 1288,92 Temps 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Pred. T 1018,786 1038,612 1058,438 1078,264 1098,09 1117,916 1137,742 1157,568 1177,394 1197,22 1217,046 1236,872 1256,698 1276,524 1296,35 1316,176 1336,002 1355,828 44 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 La predicció completa per al 2014 serà la suma de la predicció de la tendència i el component estacional corresponent.
Temps 2009‐q1 2009‐q2 2009‐q3 2010‐q1 2010‐q2 2010‐q3 2011‐q1 2011‐q2 2011‐q3 2012‐q1 2012‐q2 2012‐q3 2013‐q1 2013‐q2 2013‐q3 2014‐q1 2014‐q2 2014‐q3 Sèrie Y 1018 1037 1050 1093 1102 1113 1146 1160 1172 1208 1219 1227 1266 1278 1280 Sèrie Y‐E 1009,25 1035,73 1058,92 1084,25 1100,73 1121,92 1137,25 1158,73 1180,92 1199,25 1217,73 1235,92 1257,25 1276,73 1288,92 Component Pred. T estacional (E) 1018,786 8,75 1038,612 1,27 1058,438 ‐8,92 1078,264 8,75 1098,09 1,27 1117,916 ‐8,92 1137,742 8,75 1157,568 1,27 1177,394 ‐8,92 1197,22 8,75 1217,046 1,27 1236,872 ‐8,92 1256,698 8,75 1276,524 1,27 1296,35 ‐8,92 1316,176 8,75 1336,002 1,27 1355,828 ‐8,92 Temps 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Predicció T+E 1027,54 1039,88 1049,52 1087,01 1099,36 1109,00 1146,49 1158,83 1168,48 1205,97 1218,31 1227,96 1265,45 1277,79 1287,43 1324,93 1337,27 1346,91 Mostrem aquesta predicció en el gràfic: 1400 1350 1300 1250 1200 1150 Sèrie Y 1100 Predicció 1050 1000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 45 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 8 Mesures de desigualtat i concentració Moltes vegades ens interessa mesurar la distribució dels valors de certa variable entre els individus o objectes que representen cada cas. Així ens pot interessar analitzar com es distribueix la renda entre la població espanyola, o bé com es distribueixen els salaris entre les diferents categories professionals d’una empresa, o per últim com es distribueixen els dividends entre els accionistes d’una empresa. Tots aquests són problemes de distribució. Sovint es fan servir mesures de desigualtat o concentració, que serveixen per indicar de forma sintetitzada si la variable es reparteix de forma equitativa entre els individus o si existeixen desequilibris importants.
Ens interessa desenvolupar mesures que quantifiquin el grau de desigualtat o concentració d’una variable. Es pot destacar que desigualtat i concentració són conceptes relacionats, ja que quant més concentrada una distribució més desigual i viceversa.
8.1 Mesures de desigualtat Imaginem una herència que es reparteix entre 3 famílies de la següent manera: Família Herència Membres familiar de la família (milions €) A 4 2 B 7 7 C 99 1 No necessitem fer grans càlculs per apreciar que aquesta no és una distribució igualitària, encara que no entrem en consideracions sobre la seva ètica. Però utilitzarem aquest exemple per il·lustrar el càlcul del grau de desigualtat (o concentració) d’una variable.
Per analitzar el grau de desigualtat en la distribució d’una variable partim de considerar diferents possibilitats teòriques.
1. La situació més igualitària implicaria que cada persona comptés amb exactament la mateixa herència. Tenint en compte que quantitat total a repartir és de 110 milions d’euros i que el total de persones que integren les tres famílies és 10, aquesta situació requeriria que cada persona rebés 11 milions d’euros en concepte d’herència.
2. La més desigual consistiria en donar tots els diners a una sola persona.
Per construir la mesura de desigualtat aplicable tant a aquestes dues situacions extremes com a la distribució real de l’herència, procedim de la següent manera: Sigui una variable X . Aquesta variable pren certs valors xi i  1, 2, , k i està repartida entre certs individus. Així el valor x1 es produeix per a n1 individus, x2 per a 46 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 n2 , i en general podem dir que els valors de la variable, una vegada ordenats en forma creixent, es poden representar per un parell  xi , ni  .
xi ni xi ni 1 2 99 7 2 1 7 4 99 de la segona família obtenen 2 Per exemple la segona fila es llegeix: els 2 individus ( en total.
milions ( ) cadascun. La segona família obté 4 milions ( Definim la massa total de la variable X com k Ak   xi ni i 1 En el nostre exemple: xi ni xi ni 1 2 99 7 2 1 7 4 99 Ak= 110 En el cas del nostre exemple és la quantitat rebuda per cada hereu (exemple: la família B rep 7 milions i com que són 7 membres, en teoria l’herència personal és 1 1 i és la herència total a repartir (com que tenim 3 famílies, milió, per tant ). Recordant que hem ordenat els k valors possibles de X en forma escrivim creixent, podem definir i Ai   x j n j j 1 per a qualsevol i  k com la renda acumulada per als N i primers individus.
xi ni xi ni Ni Ai 1 2 99 7 2 1 7 4 99 7 9 10 7 11 110 A k= 110 47 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 La proporció d’aquests N i individus sobre la població total N (en el nostre cas la població total és el total d’hereus, 10) seria pi  Ni N I la proporció de la part de l’herència familiar sobre el total seria qi  xi ni 1 2 99 7 2 1 xi ni 7 4 99 Ni 7 9 10 Ai Ak Ai pi qi 7 11 110 0 0,7 0,9 1 0 0,06 0,1 1 Sempre que hi hagi desigualtat en la distribució de l’herència, succeirà que qi  pi és a dir que a mesura que anem sumant els individus (començant pels que tenen valors més reduïts de la variable) anirem acumulant proporcionalment menys diners.
La diferència entre ambdues proporcions ens donarà una mesura de la desigualtat en les famílies pel que fa a l’herència rebuda. Únicament en el cas d’una distribució perfectament igualitària succeiria que pi  qi . Podem representar aquesta situació en una gràfica. A l’eix vertical posem la proporció de l’herència qi i a l’eix horitzontal posem la proporció d’hereus pi . La situació d’equidistribució o distribució perfectament igualitària la representem per la diagonal: Recta d'equidistribució 1 qi 0 0 pi 1 48 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 Però en rares ocasions estem en una situació perfectament igualitària, sempre hi haurà proporcions d’individus pi als quals els corresponen proporcions inferiors de riquesa qi i en conseqüència si unim els punts obtindrem una corba que es troba per sota de la diagonal (punts on qi  pi ): Corba de Lorenz 1 qi 0 pi 0 1 Aquesta corba es coneix com corba de Lorenz, i és la forma habitual de descriure la desigualtat. Quant més allunyada de la diagonal estigui la corba, més desigualtat hi haurà en la població. Si tinguéssim tota l’herència concentrada en una sola persona, tindríem que la corba estaria representada per la línia en verd. Prendria el valor qi = 0 per a totes les proporcions de la població excepte pi  1 , cas en que qi =1.
Corba de Lorenz 1 Màxima igualtat Màxima desigualtat qi 0 0 pi 1 49 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 Per construir una mesura numèrica de desigualtat es calcula la suma de les diferències pi  qi . Òbviament sempre es compleix que pk  qk =0 i per tant només cal calcular el k 1  p  q  .
sumatori de les diferències fins a k  1 , és a dir i i 1 xi ni xi ni Ni Ai 1 2 99 7 2 1 7 4 99 7 9 10 7 11 110 i pi 0 0,7 0,9 1 qi 0 0,06 0,1 1 pi - qi Suma 1,44 0,64 0,8 0 Però necessitem una mesura relativa, que ens informi del grau de desigualtat. Per això es divideix el valor 1,44 pel màxim valor que pot agafar l’expressió. Recordem que la màxima desigualtat s’assoleix quan un individu rep tota l’herència. Per tant en el cas de màxima desigualtat qi  0 per a i  1, 2, , k  1 i tenim que k 1 k 1 k 1 i 1 i 1 i 1   pi  qi     pi  0   pi D’aquesta manera es defineix l’índex de desigualtat de Lorenz-Gini, donat per l’expressió k 1 IL   p  q  i 1 i i k 1 p i 1 i Aquest índex sempre assolirà valors entre 0 i 1. Normalment es fa servir en poblacions molt nombroses i per tant no es poden considerar tots el valors individuals. En aquests casos els valors xi indiquen la marca de l’interval i-èssim, mentre que ni representa la freqüència absoluta de valors de la variable dins d’aquest interval (en el nostre exemple l’interval seria una família). Si fem aquests càlculs per a l’exemple que havíem considerat, tindríem la taula següent: xi ni xi ni Ni Ai 1 2 99 7 2 1 7 4 99 7 9 10 7 11 110 pi 0 0,7 0,9 1 qi 0 0,06 0,1 1 pi - qi pi – 0 0,64 0,8 0,7 0,9 Suma 1,44 1,6 IL= 0,898 50 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 Els punts de la corba de Lorenz ens permeten avaluar la distribució de la herència (o de la variable de que es tracti). En aquest cas la família B, que representa un 70 % de la població (grup d’hereus), té sols un 6 % de l’herència total. Si afegim la família A, amb la qual cosa tindríem un 90 % de la població total, encara sols assoliríem un 10 % de la herència total. Això ens permet dir que la desigualtat d’aquesta distribució es gran.
L’índex de desigualtat se situa en el valor 0,898.
Examinem ara un altre exemple: xi ni xi ni Ni Ai 8 12 30 7 2 1 56 24 30 7 9 10 56 80 110 pi 0 0,7 0,9 1 qi 0 0,51 0,73 1 pi - qi pi – 0 0,19 0,17 0,7 0,9 Suma 0,36 1,6 IL= 0,227 Aquí la distribució és marcadament més equitativa. Ho comprovem també examinant el gràfic: Corba de Lorenz 1 0 0 1 Quant més proper a 1 se situa l’índex, la desigualtat és mes gran (o la concentració és més gran). Es podria pensar que l’índex I L és un quocient entre l’àrea compresa entre la diagonal i la corba de Lorenz, i el triangle a sota de la diagonal.
Una altra manera de mesurar la desigualtat és comparar la renda (o qualsevol altra característica) de cada parell d’individus de la població. Quin seria el valor màxim d’aquesta diferència? Si la renda estigués concentrada en una sola persona, k compararíem la seva riquesa xn i 1 i i amb la riquesa de les N  1 persones restants.
51 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 Imaginem que tenim 3 famílies com en el cas de l’exemple anterior i que tota la riquesa la té la última família.
Família ( i ) B A C Membres ( ni ) 7 2 1 0 0 110 Riquesa ( xi ) Calculem les diferències entre cada parell de famílies: B( xi  0, ni  7) A( xi  0, ni  2) C( xi  110, ni  1) B( xi  0, ni  7) 0 A( xi  0, ni  2) 0 0 (110-0)*7 (110-0)*2 C( xi  110, ni  1 0 i per tant el valor màxim de la suma de diferències serà: k Valor màxim =  N  1  xi ni i 1 (en el nostre cas, (10-1)*110 = 990) Tornarem a fer servir aquest valor màxim per normalitzar la mesura. Després comparem la diferència observada entre cada parell de famílies, Família ( i ) B A C Membres ( ni ) 7 2 1 1 2 99 Riquesa ( xi ) Calculant aquesta diferència com  xr  xs  nr ns sempre que la diferència sigui positiva, és a dir sempre que r  s B( x1  1, n1  7) B ( x1  1, n1  7) 0 A ( x2  2, n2  2) (2-1)*7*2=14 A( x2  2, n2  2) C( x3  99, n3  1) 0 C ( x3  99, n3  1) (99-1)*7*1=686 (99-2)*2*1=194 0 52 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 La suma de diferències aquí és 14 + 686 + 194 = 894.
El resultat és el que es coneix com índex de diferències, i té la següent expressió: IG  x r s r  xs  nr ns k  N  1  xi ni i 1 En el nostre exemple, el valor de l’índex és 894/990 = 0,9030 La interpretació d’aquest índex és la mateixa que la de l’índex de Lorenz-Gini, i també fluctua entre 0 i 1, sent 1 el valor corresponent a la màxima desigualtat o màxima concentració.
Si comparem l’índex de Lorenz-Gini i l’índex de diferències veiem que donen resultats semblants en aquest cas.
Els índexs son mesures relatives, per tant serà possible comparar distribucions de variables diferents. Els índex són invariants a alteracions proporcionals de la variable analitzada. Es a dir, si tots els individus han de pagar un 8 % d’impost sobre la seva riquesa, els índexs que hem calculat no es veuran afectats.
8.2 Índexs de concentració Quan es vol fer un estudi de mercat, moltes vegades ens interessa analitzar la quota de mercat de les diferents empreses. Quina és la concentració de les vendes de les empreses? Quina quota de mercat acapara cada empresa? Aquesta no serà la mateixa en el mercat de producció de patates, on un nombre molt elevat de productors venen cadascú petites quantitats, que en el pont aeri Barcelona - Madrid, on unes poques línies aèries es reparteixen totes les vendes. En aquests casos també ens interessarà mesurar la concentració. El primer índex de concentració que presentarem mesura la quota de mercat de les empreses més grans. Si ordenem les empreses per ordre decreixent de quota de mercat i anomenem si a la quota de mercat de l’empresa i , l’índex Ck es defineix com: k Ck   si i 1 D’aquesta manera C4 representaria per exemple la quota de mercat de les quatre empreses més grans. El valor de Ck varia entre el valor de concentració mínima k n , sent n el nombre total de empreses i el valor de concentració màxima 1. La situació de concentració mínima es produeix quan totes les empreses tenen la mateixa quota de mercat.
Un altre índex de concentració que s’utilitza habitualment és l’índex de Herfindahl que es defineix com: n H   si2 i 1 53 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 El valor de H varia entre el valor de concentració mínima 1 n (totes les empreses són iguals) i el valor de concentració màxima 1.
Aquests índexs tenen avantatges i desavantatges, quan els comparem entre sí. Per una banda l’índex H té alguns avantatges com ara que és invariant respecte a l’escala, però l’índex Ck és molt més fàcil i ràpid de calcular.
L’índex H presenta una sèrie de propietats que el fan molt convenient per analitzar la concentració de quotes de mercat d’empreses: 1. Caràcter no ambigu. Donats dos mercats, l’índex H pot dir inequívocament quin dels dos mercats es troba més concentrat.
2. Invariància a escala. La dimensió relativa de cada empresa no afecta el càlcul de l’índex H .
3. Transferència. La mesura H augmenta quan es disminueix la quota de mercat d’una empresa petita a costa d’una empresa gran.
4. Monotonicitat. Si les n empreses tinguessin quotes de mercat idèntiques, la mesura H ha de ser decreixent amb respecte de n .
5. Cardinalitat. Si dividim cada empresa en k empreses iguals, la mesura H decreix en la mateixa proporció.
9 Nombres Índex Un nombre índex és una mesura estadística que expressa els canvis registrats per una variable en el temps (o de vegades l’espai), combinant simultàniament informació característica dels seus nivells i del seu ritme d’avanç. D’aquesta manera facilita l’anàlisi, ja que els seus valors proporcionen directament una mesura de creixement i retenen les característiques dinàmiques de les sèries originals.
Persones Per exemple, utilitzem un nombre índex per poder apreciar més clarament el creixement d’una variable en termes percentuals: Nombre Any estrangers Índex Estrangers residents a espanya 1998 637085 100 1998-2008 1999 748954 117,56 6000000 2000 923879 145,02 5000000 2001 1370657 215,15 4000000 2002 1977946 310,47 3000000 2003 2664168 418,18 2000000 2004 3034326 476,28 2005 3730610 585,57 1000000 2006 4144166 650,49 0 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2007 4519554 709,41 2008 5268762 827,01 54 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 Índex d'estrangers residents a Espanya 1998-2008 900 800 Índex bas e 100 700 600 500 400 300 200 100 0 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 La sèrie original i l’índex contenen la mateixa informació. La única diferència és que l’índex està calculat en una escala en base igual a 100, fet que fa molt fàcil veure per exemple que en un període d’11 anys el nombre d’estrangers s’ha multiplicat per més de 8. O que entre 1998 i 1999 el nombre d’estrangers va augmentar aproximadament un 17%. No és que no puguem realitzar aquests càlculs amb la sèrie original, però l’índex ens els proporciona de forma molt més ràpida.
Els índexs també poden ser utilitzats per mesurar variacions en una variable en relació no al temps, sinó a d’altres circumstàncies. Per exemple, en el següent quadre es pot veure un índex elaborat a partir del PIB per càpita (una mesura de la renda per càpita) de diferents països de la UE.
55 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 9.1 Índexs simples Els dos exemples anteriors corresponen al càlcul d’un índex simple. Formalment anomenarem índex simple al quocient entre cada número de la sèrie i el valor que pren aquesta en el període base. Sovint volem expressar l’índex en base 100, per tant multiplicarem el quocient anterior per aquest número. És a dir: it /0  Xt  100 X0 On X t és el valor de la variable per a la qual estem construint l’índex en el període t , i X 0 representa el valor de la variable en el període base. Aquí it /0 es llegeix com “valor de l’índex (simple) del període t en base 0 ”.
Exemple: En aquest exemple el període base és el primer, desembre de 2008.
Observem que mentre que el preu de la llet està mesurat en euros, l’índex no té unitats.
També observem que el valor de l’índex en el període base és sempre 100 (si t coincideix amb el període base obtenim trivialment que i0/0   X 0 X 0  100  100 ).
2008M12 2009M01 2009M02 2009M03 2009M04 2009M05 2009M06 2009M07 2009M08 Preu de la llet 0,700 € 0,694 € 0,687 € 0,684 € 0,678 € 0,657 € 0,658 € 0,648 € 0,647 € Índex 100 99,11 98,13 97,69 96,92 93,82 93,95 92,6 92,42 L’índex ens permet calcular ràpidament per exemple que el preu de la llet durant l’agost de 2009 ha estat un (100-92,42=) 7,48% més baix que en desembre de 2008.
L’elecció de desembre de 2008 com a període base és potser el més natural, però podríem haver triat qualsevol altre període. Per exemple: 2008M12 2009M01 2009M02 2009M03 2009M04 2009M05 2009M06 2009M07 2009M08 Preu de la llet 0,700 € 0,694 € 0,687 € 0,684 € 0,678 € 0,657 € 0,658 € 0,648 € 0,647 € Índex 108,21 107,25 106,18 105,7 104,88 101,52 101,66 100,2 100 56 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 9.2 Índexs complexos Els números índexs simples tenen un interès limitat en economia. És més habitual utilitzar índexs per resumir l’evolució de magnituds complexes. Per exemple, l’índex de preus del consum (IPC) és un índex complex que intenta resumir l’evolució conjunta dels preus dels béns de consum. Un altre índex complex, l’IPI (índex de producció industrial), vol mesurar l’evolució conjunta del volum de producció de les diferents branques d’activitat de la indústria.
Hi ha diverses maneres de calcular un índex complex, que il·lustrarem mitjançant un exemple senzill.
Imaginem una família típica que consumeix 3 productes, A, B i C. Observem els seus consums i els preus dels tres productes durant uns quants períodes, i calculem la despesa de la família de cada període.
Període 1 2 3 Producte A Quantitat Preu unitari 11 1,00 € 10 1,50 € 10 1,30 € Producte B Producte C Quantitat Preu unitari Quantitat Preu unitari 20 10,00 € 100 5,00 € 17 12,00 € 82 6,00 € 13 14,00 € 86 6,00 € Despesa 711,00 € 711,00 € 711,00 € Si només observéssim la despesa total de la família en cada període no tindríem cap pista sobre l’evolució dels preus dels tres productes. La despesa total de la família és fruit de la variació dels preus però també de la variació en les quantitats consumides i aquesta família ha anat responent amb variacions en el seu consum a les diferents variacions de preus. Observem que en conjunt, els preus dels tres productes han augmentat entre el període 1 i el 3. Com podríem trobar una mesura que resumís la variació conjunta dels preus i només dels preus? 9.2.1 Índex de Laspeyres Una solució possible és elaborar un índex complex de preus de Laspeyres. Es fa de la següent manera: 1) primer de tot fixem un període base (o període de referència), que podria ser per exemple el període 1.
2) Calculem el pes de cada producte en la despesa total en el període base. Així, observem que en el període 1 la família gastava 11€ en el producte A, 20€ en el producte B i 500€ en el producte C. Aquestes despeses representen el 2, 28 i 70% respectivament de la despesa total de 711€. Expressem aquestes ponderacions en tant per 1 en comptes de tant per 100.
3) Calculem índexs simples del preu de cada producte per separat.
4) Per últim, calculem un índex complex de l’evolució conjunta dels preus com una mitjana ponderada dels índexs simples de preus, on les ponderacions són les calculades en el punt 2.
57 de 62 ANÀLISI DE DADES - Dossier de teoria Producte A Període Ponderació Índex 1 0,02 100 2 150 3 130 Curs 2014-2015 Producte B Ponderació Índex 0,28 100 120 140 Producte C Ponderació Índex 0,7 100 120 120 Índex Laspeyres 100 120,46 125,78 És a dir: L I1/1  0, 02 *100  0, 28 *100  0, 7 *100  100 L I 2/1  0, 02 *150  0, 28*120  0, 7 *120  120, 46 L I 3/1  0, 02 *130  0, 28 *140  0, 7 *120  125, 78 Escrivim J I L t /0   w0j it j/0 j 1 On J representa el nombre total de productes o categories, w0j és el pes del producte j en la despesa total del període base, i it j/0 és el valor de l’índex simple del preu del producte j en el període t i en base del període 0 .
Observem que una altra manera d’escriure aquesta fórmula és.
J I L t /0  w i    j 1 J j 1 J i 1 j j 0 t /0  qjpj    J 0 0j j j 1    i 1 qo po J  J  q0j p0j j  it /0    J j j  j 1     i 1 qo po  pj  tj   p0  q0j ptj qoj poj És a dir, l’índex de Laspeyres es pot interpretar com el quocient entre la cistella de productes del període base avaluada a preus corrents i la mateixa cistella avaluada a preus del període base.
9.2.2 Índex de Paasche Una forma alternativa d’elaborar un índex complex és mitjançant una mitjana ponderada d’índexs simples on, a diferència de l’índex anterior on les ponderacions estaven fixes, les ponderacions són mòbils.
L’índex es pot escriure com: 58 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 J I amb wtj  p0j qtj  j 1 p0j qtj J P t /0   wtj it j/0 j 1 .
Observem que una altra manera d’escriure la fórmula és:  p jq j   J 0 t j j p q j 1    j 1 0 t J I P t /0  j j J   it j/0    p0 qt J  p0j qtj j 1   j  1    pj  t   p0j    J j 1 J j 1 ptj qtj p0j qtj Amb les dades de l’exemple anterior obtindríem: Període 1 2 3 Producte Ponderació 0,02 0,02 0,02 A Índex 100 150 130 Producte B Ponderació Índex 0,28 100 0,29 120 0,23 140 Producte C Ponderació Índex 0,7 100 0,69 120 0,75 120 Índex Paasche 100 120,51 124,74 Observem que la diferència entre els dos índexs en aquest cas és mínima. Els valors de l’índex de Paasche són una mica més petits ja que tenen en compte els canvis en les quantitats produïts en cada període.
9.3 Índex de preus del consum (IPC)†† L’Instituto Nacional de Estadística (INE) elabora la sèrie mensual de l’IPC. Les ponderacions dels diferents productes s’obtenen a partir d’una enquesta adreçada a famílies en la que se’ls pregunta per la seva despesa. La medició dels preus requereix un intens treball de camp on els agents de l’INE visiten diferents establiments comercials cada mes.
La metodologia emprada per a l’elaboració de l’IPC va canviar substancialment en l’any 2001. De ser un índex de preus de tipus Laspeyres que actualitzava la base aproximadament cada 8 o 9 anys, va passar a ser un índex una mica més complex on la base s’actualitza amb més freqüència. Actualment s’està publicant un IPC en base 2011 (això vol dir que el valor del nou IPC en 2011 és 100).
L’index segueix la metodología Laspeyres desde Gener a desembre d’un determinat any.
Però les ponderacions i el període de referència dels preus s’actualitzen dada mes de desembre. La fórmula emprada per calcular els índexs de preus en una base determinada s’anomena Laspeyres encadenat.
Per a més informació consulteu: http://www.ine.es/daco/daco43/metoipc06.pdf †† Aquest apartat no s’explicarà a classe. Es tracta de material avançat que hem inclòs per completar la informació relativa a l’IPC.
59 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 9.4 Mesurant la inflació L’IPC s’utilitza fonamentalment per mesurar la inflació, ja que aquesta no és altra cosa que la taxa de variació dels preus.
L’INE publica diverses mesures d’inflació.
La variació mensual o la taxa d’inflació mensual és la taxa de variació de l’índex IPC entre dos mesos consecutius. És a dir: Taxa inflació mensual del mes t = IPCmes t  IPCmes t 1 100 IPCmes t 1 La variació anual o taxa d’inflació interanual és la taxa de variació de l’IPC entre un mes qualsevol i el mateix mes de l’any anterior.
60 de 62 ANÀLISI DE DADES - Dossier de teoria Taxa inflació interanual del mes t = Curs 2014-2015 IPCmes t  IPCmes t any anterior IPCmes t any anterior  100 La variació “en lo que va de año” o taxa d’inflació acumulada és la taxa de variació de l’IPC entre un mes qualsevol i l’inici de l’any al que pertany.
Taxa inflació acumulada del mes t = IPCmes t  IPCdesembre any anterior IPCdesembre any anterior  100 Així, per exemple:  106, 698  106,327  Taxa inflació mensual d’agost de 2009 =   100  0,3% 106,327    106, 698  107,571  Taxa inflació interanual d’agost de 2009 =   100  0,8% 107,571    106, 698  106,909  Taxa inflació acumulada d’agost 2009 =   100  0, 2% 106,909   És a dir, que des del mes de juliol de 2009 al mes d’agost de 2009 els preus han augmentat un 0,3%; mentre que els preus han disminuït un 0,2% des de primers d’any de 2009 fins al mes d’agost de 2009, i han disminuït del 0,8% des d’agost del 2008 fins a agost del 2009.
9.5 Creixement nominal i creixement real En el 2002, un individu guanyava un sou de 2000€ mensuals i en el 2008 guanya 2400€ mensuals. Ha augmentat el seu sou? És evident que si. El seu sou ha augmentat un 20%. Però... està millor ara que fa 7 anys? Aquesta pregunta no la podem contestar abans de saber com ha evolucionat el cost de la vida, és a dir la inflació.
En aquest cas observem que l’IPC ha augmentat un 21,59% des del 2002 al 2008 (comparem el valor de 2002 que és 88,0 amb el valor de 2008 que és 107). Per tant la conclusió és que l’individu de l’exemple no ha millorat tant en termes reals.
Quant ha augmentat realment la seva capacitat adquisitiva? 61 de 62 ANÀLISI DE DADES - Dossier de teoria Curs 2014-2015 Una manera de calcular aquest augment requereix deflactar el valor nominal (o monetari, és el mateix). Deflactar és sinònim d’eliminar l’efecte de la inflació en l’evolució d’una magnitud monetària.
En el nostre cas és molt fàcil, simplement dividim els sous nominals de 2002 i 2008 pel valor de l’IPC corresponent, però expressat en tant per 1. El resultat ens diu quin és el valor equivalent del sou de cada any en relació als preus de 2006 (la base de l’índex IPC que estem utilitzant per deflactar). Així 2000€ de 2002 equivalen a (2000€/88)*100 = 2272,72€ de 2006. I 2400€ de 2008 equivalen a (2400/107)*100 =2242,99€ de l’any 2006. En termes reals el sou no ha augmentat. De fet, en termes reals el sou ha disminuït un 1,31% (el resultat de fer [(2242,99-2272,72)/2272,72]*100 ).
Però també podem realitzar el procés invers, i utilitzar l’IPC per indiciar salaris o pensions de jubilació, per exemple. Cada any, les pensions augmenten més o menys automàticament com a mínim tant com l’IPC. Així, un pensionista que guanyava 1200€ mensuals durant l’any 2007, hauria d’haver vist augmentar la seva pensió aproximadament un 4% en el 2008 si ha de mantenir la seva capacitat adquisitiva intacta‡‡.
‡‡ Aquest 4% prové de comparar l’índex IPC del 2007, que és 102,8 amb el valor de l’índex en el 2008, que és 107.
62 de 62 ...