Resumen Anàlisi de dades (2013)

Resumen Catalán
Universidad Universidad Pompeu Fabra (UPF)
Grado Economía - 1º curso
Asignatura Analisi de dades
Año del apunte 2013
Páginas 21
Fecha de subida 06/10/2014
Descargas 10

Descripción

Resumen de la asignatura complerta.

Vista previa del texto

Anàlisi de Dades: Temes 1 i 2 Introducció a l'Estadística Anomenem estadística a la ciència que tracta sobre l'obtenció d'informació a partir de dades numèriques. Concretament, ens centrem en l'estadística aplicada, que posseeix tres grans camps d'estudi principals.
• L'obtenció de Dades: Obtenim dades per respondre preguntes específiques.
• Anàlisi de Dades: Organitzem i descrivim aquestes dades mitjançant gràfics, resums numèrics i models matemàtics.
• Inferència estadística: Interpretar les dades i extraure conclusions que puguin aplicar-se a un col·lectiu més ampli, i determinar la fiabilitat de les conclusions.
Mostres A l'hora d'obtenir dades cal tenir en compte dos conceptes claus: una població és el conjunt d'individus que volem estudiar, i una mostra són els individus -o la part de la població- que realment estudiem. Hi han diversos mètodes per escollir una mostra, hi han mètodes -o formes d'obtenir la mostra, millor dit- que poden portar a conclusions falses. Dividirem els diversos mètodes en mostres esbiaixades -o males mostres- i mostres no esbiaixades.
Les mostres esbiaixades són aquelles que afavoreixen a certs sectors de la població respecte uns altres, és a dir, les que no donen la mateixa probabilitat a cada individu de la població a poder ser escollit. Hi han dos grans tipus: • Mostra de Voluntaris: Són les persones que tenen un interès particular en respondre en el tema d'estudi i, per tant, s'ofereixen voluntaris per participar. Per exemple, si a la TV formulen la pregunta de si certa persona hauria d'anar a la presó i aquesta persona té molts enemics, està clar que el resultat de la pregunta no reflectirà la realitat.
• Mostra de Conveniència: És aquella on s'escullen els individus de més fàcil accés. Exemple: les campanyes de degustació de cert aliment.
Les mostres no esbiaixades són aquelles que donen la mateixa probabilitat a cada individu de la població a poder ser escollit. N'hi han de diversos tipus, segons la mida de la població.
• Mostra Aleatòria Simple (MAS): Una MAS de tamany n consta de n individus d'una població escollits de forma tal que cada individu té les mateixes probabilitats de ser triat. El procés de selecció o tria es fa a l'atzar, a través de programes estadístics, o bé mitjançant una taula de dígits aleatoris.
Aquesta taula es caracteritza per tenir nombres independents -saber una part de la taula no atorga informació sobre les altres- on cada valor té la mateixa probabilitat de ser qualsevol dígit entre el 0 i el 9. Així, donem una xifra a cada individu, escollim una fila de la taula i ens fixem en els últims dígits dels números:triem l'individu que té un nombre que coincideix amb els últims dígits d'un número de la taula, i així per a cada individu.
• Mostra Aleatòria Estratificada: Divideix la població en grups d'individus similars (estrats) i després fa MAS en cada estrat per combinar-les posteriorment i formar una mostra completa.
• Mostra en Etapes Múltiples:Aplica MAS per etapes. Per exemple, primer a la ciutat, després a un barri, posteriorment a un carrer i finalment a un pis. La primera mostra pot ser estratificada.
L'Enquesta i els seus Possibles Problemes A l'hora de realitzar l'enquesta, a més de fer preguntes relatives al que volem estudiar, s'han de fer també qüestions relacionades amb les característiques de l'individu (sexe, edat, feina...). A més, fins i tot si el mètode de tria de la mostra ha estat a l'atzar, poden haver-hi problemes: • Falta de Cobertura: Alguns grups de la població queden fora del procés de selecció de la mostra. Per exemple, grups marginals.
• Manca de Resposta: Quan un individu no vol col·laborar o no pot ser contactat.
• Biaix de Resposta: Els enquestats poden mentir si se'ls pregunta sobre comportaments impopulars o il·legals. La falta de memòria de l'entrevistat també pot influir.
• Redactat de Preguntes: Certes preguntes poden generar confusió o induir a una resposta concreta.
Organització de les Dades Una vegada tenim les enquestes, hem d'organitzar la informació recollida creant una base de dades a l'ordinador. Hi han diversos conceptes clau en l'organització: • Individus: persones, animals o coses que es descriuen en el conjunt de dades.
En una base de dades, cada observació és una columna.
• Variable: qualsevol tret d'un individu, canvia segons cada individu.
• Observació o cas: en un conjunt de dades, un individu i les seves variables. En una base de dades, cada observació és una fila.
• Variable categòrica: indica a quin grup o categoria pertany l'individu.
• Variable quantitativa: pren valors numèrics, i per tant té sentit realitzar operacions aritmètiques com sumes o mitjanes.
• Distribució d'una variable: Ens diu quins valors pren una variable i amb quina freqüència.
• Taula de freqüències: presenta les freqüències amb què s'observen valors o rang de valors (intervals o classes) d'una variable.
• Freqüència absoluta: nombre de vegades que observem un valor en un interval o classe.
• Freqüència absoluta acumulada: Suma de totes les freqüències absolutes de cada observació o cas fins al moment. L'última freqüència serà igual al nombre de casos que hi hagin, per exemple, si hi han set casos serà set.
• Freqüència relativa: tant per cent (o tant per 1) de vegades que observem un valor en un interval o classe.
• Freqüència relativa acumulada: Suma de totes les freqüències relatives de cada observació o cas fins al moment. Mostra quin tant per cent o tant per 1 de les variables tenen un valor inferior al nombre màxim de l'interval. Per exemple si l'interval (20,30) té una freqüència relativa acumulada de 0,40 hi haurà un 40% dels valors menors que 30.
Anàlisi Exploratori de les Dades: Gràfics i Histogrames El primer que s'ha de fer amb un conjunt de dades es descriure'l. Primer examinarem els gràfics i posteriorment altres eines d'anàlisi numèrica. De gràfics podem distingir dos tipus: els que fem servir per mostrar les variables categòriques i els que usem per les variables numèriques.
Els gràfics de variables categòriques poden ser de dos tipus: de barres, si volen comparar diverses variables categòriques, o de sectors, si volem comparar totes les variables categòriques. En un gràfic de sectors hem de comparar totes les variables categòriques del nostre conjunt de dades, ja que el percentatge o la quantitat total ha de ser la màxima. En canvi, un gràfic de barres permet comparar tan sols tres o quatre.
Pel que fa a les variables numèriques, podem distingir els histogrames o els diagrames de troncs i fulles. Els histogrames són representacions gràfiques d'una taula de freqüències, per crear-los hem de crear intervals de la mateixa longitud, comptar quants casos hi han i dibuixar el gràfic. És necessari escollir bé el nombre de classes: no han de ser ni excessives ni insuficients. Cal analitzar també la forma dels histogrames: un histograma és simètric si el costat esquerra i el dret tenen aproximadament la mateixa forma, i és asimètric si un costat té una forma bastant diferent a l'altre. Diem que és asimètric a l'esquerra si aquest costat és més llarg, i asimètrica a la dreta si el costat dret és més llarg. També cal identificar les observacions atípiques o molt allunyades.
Anàlisi Exploratori de les Dades: Diagrama de troncs i fulles D'altra banda, existeix un altre tipus de gràfic de variables numèriques adequat per a conjunts petits de dades: el diagrama de troncs i fulles. Per realitzar-lo, cal ordenar els valors de menor a major, després separem cada observació en un tronc que contindrà tots els dígits excepte l'últim i en una fulla que contindrà el darrer dígit. Els troncs es dibuixen en vertical de menor a major i les fulles es col·loquen al costat del seu tronc -col·locades d'esquerra a dreta, de menor a major-. Cal especificar la unitat de les fulles per evitar errors. Cal dir també els dígits poden arrodonir-se si són nombres molt grans, que els troncs poden desdoblar-se quan hi ha masses fulles i que, si girem el diagrama, és una mena d'histograma.
Anem a realitzar un diagrama de troncs i fulles amb els següents nombres: 1, 2, 7, 12, 13,14, 22, 23, 34, 38. El gràfic seria així: Tronc Fulla 0 1 2 7 1 2 3 4 2 2 3 3 4 8 Unitat fulla: €/hora Anàlisi Numèrica de les Dades: el Centre Per a variables numèriques, podem descriure distribucions numèricament amb l'ajut d'un conjunt de mesures. Bàsicament descriurem el centre i la dispersió. Per a descriure el centre o el valor mig, podem utilitzar la mitjana, la mediana o la moda. La mitjana s'obté sumant tots els valors i dividint pel nombre de casos, és un bon indicador de centre quan la distribució és simètrica. Al seu torn, la mediana és el valor de la observació central quan s'ordenen els casos de menor a major, si hi ha un nombre senar d'observacions hi ha un únic valor central; si el nombre és parell serà la mitjana entre els dos casos centrals. Fem servir la mediana quan la distribució és asimètrica. Per últim, la moda és la observació amb major freqüència.
Per un altre banda, cal tenir en compte l'existència dels cinc nombres clau que permeten descriure un conjunt de dades numèric. Aquests nombres són la mediana o el valor que separa el 50% de les observacions, el màxim, el mínim, el 1r quartil o el valor per sota del qual tenim el 25% de les observacions, i el 3r quartil o el valor per sota del qual tenim un 75% de les observacions. Podem fer, a més, dos operacions amb aquests cinc valors: el recorregut (màxim-mínim) i el rang interquartílic (q3 – q1).
Cal dir també que els cinc nombres clau permeten construir el diagrama de caixa.
Primer cal fer una línia i assenyalar els cinc nombres clau, després fer una “caixa” que englobi els valors de Q1 a Q3, i per últim fer sortir d'aquesta caixa dues rectes que vagin fins al valor màxim i fins al valor mínim. A més, cal vigilar amb les observacions extremes: una observació és extrema si és superior a Q3 +(1,5*Rang interquartílic) o inferior a Q1 - (1,5*Rang interquartílic). Les observacions extremes s'assenyalen apart.
Anàlisi Numèrica de les Dades: La dispersió i altres mesures Per calcular la dispersió utilitzarem la desviació estàndard, que mesura la dispersió en relació a la mitjana. Per calcular la desviació estàndard, que és l'arrel quadrada de la variància, cal seguir els següents passos: 1.
2.
3.
4.
5.
Calcular la diferència entre el valor de cada observació i la mitjana.
Elevar el resultat de la resta al quadrat.
Sumar totes les diferències al quadrat.
Dividir pel nombre d'observacions menys 1.
Fer l'arrel quadrada del resultat del pas 4 (agafar només el valor positiu) Per un altre banda, existeixen també altres mesures com les següents: • Percentil de P%: valor en una posició per sota de la qual tenim p% casos.
• Coeficient de variació: Desviació estàndard/mitjana.
• Mesures d'asimetria: (mitjana-moda)/desviació estàndard o (mitjana-mediana)/desviació estàndard • Mesures de curtosi o apuntament: mesura el grau de concentració de les freqüències en relació a la mitjana.
En conclusió, podem dir que per a una distribució asimètrica o amb valors extrems utilitzarem els cinc nombres resum. Per a una distribució simètrica usarem la mitjana i la desviació estàndard.
Anàlisi de Dades: Temes 3 i 4 Dades Agrupades Anomenem dades agrupades a un conjunt de dades d’una variable numèrica presentat en forma d’una taula de freqüències. En aquest cas no coneixem la informació original, és a dir, les dades cas per cas. Per tant, hem de treballar amb les dades agrupades en intervals o rangs de valors. No obstant això, podem calcular pràcticament tots els resums numèrics i d'aquesta forma descriure bastant bé el conjunt de dades.
Imaginem que tenim el conjunt de dades següent: Límit Límit Freq.
Freq.
Abs. Punt Mig Suma interval (Punt inferior superior Absoluta Acumulada mig* Freq. Ab. Ac) 0 10000 15 15 5000 5000*15 = 75000 10000 15000 45 60 12500 12500*45 = 562500 15000 20000 100 160 17500 17500*100 = 1750000 20000 30000 83 243 25000 25000*83 = 2075000 30000 50000 30 273 40000 40000*30 = 1200000 50000 100000 7 280 75000 75000*7 = 525000 Prestem molta atenció a la penúltima columna que hem afegit -ressaltada en blau- ja que es tracta una eina clau per a calcular els resums numèrics. El punt mig d'un interval és el seu límit superior -o “màxim” de l'interval- menys el seu límit inferior -o “mínim” de l'interval- partit per dos. La fórmula es podria expressar de la manera següent: Punt mig interval = (Límit superior – límit inferior)/2 Un cop hem calculat els punts mitjos, podem trobar els cinc nombres resum: • Càlcul 1rQuartil: Agafem el punt mig de l'interval que tingui l'observació determinada per: (Nombre casos+1)/4 En aquest cas, tenim 280 casos, si fem 281/4=70.25. Per tant, agafaríem el 17500 com a valor del primer quartil ja que 70.25 es troba entre les observacions 70 i 71, localitzades al tercer interval.
• Càlcul Mediana: Agafem el punt mig de l'interval que tingui l'observació determinada per: (Nombre casos+1)/2 En aquest cas, tenim 280 casos, si fem 281/2=140.5. Per tant, agafaríem el 17500 com a valor de la mediana ja que 140.5 es troba entre les observacions 140 i 141, localitzades al tercer interval.
• Càlcul 3rQuartil: Agafem el punt mig de l'interval que tingui l'observació determinada per: (Nombre casos+1)*0.75 En aquest cas, tenim 280 casos, si fem 281*0.75=210.75. Per tant, agafaríem el 25000 com a valor de la mediana ja que 210.75 es troba entre les observacions 210 i 211, localitzades al quart interval.
• Càlcul Mínim i Màxim: Agafem el valor més baix, és a dir, el límit inferior del primer interval per saber el mínim; i el valor més alt, en altres paraules, el límit superior del darrer interval.
Podem calcular altres resums numèrics mitjançant també el punt mig. Ens fixem en la darrera columna, destacada en color taronja, on hem suposat que cada un dels valors de cada interval són iguals al punt mig, per això multipliquem el punt mig per la freqüència absoluta. Un cop fet això, podem calcular diversos resums numèrics: • Càlcul Mitjana: Sumem tots els valors de la columna taronja i els dividim pel nombre total d'observacions. Així ens surt: 6187500/280 = 22098,21 Per tant, la mitjana = Total suma intervals/nombre casos • Càlcul desviació estàndard: Simplement calculem la desviació estàndard com ho fem normalment -consulta els apunts dels primers dos temes per saber com calcular-la-; però, com no sabem els valors de totes les observacions, calculem la desviació usant el punt mig i la multipliquem per la freqüència absoluta. La resta del procediment és igual.
Per exemple, la desviació estàndard del primer interval és: ◦ Punt mig -mitjana = 5000 – 22098,21 = -17098,21 ◦ (Punt mig – mitjana)² = (-17098,21)² = 292348931,76 ◦ (Punt mig – mitjana)² * Freq. Absoluta = (-17098,21)² * 15 = 435233976,4 ◦ Després sumaríem els resultats de cada interval, dividiríem pel nombre d'observacions menys 1; i faríem l'arrel quadrada de tot això.
Transformacions de Dades En cas que vulguem canviar unitats de mesura -passar de euros a dòlars, per exemplecal tenir en compte com afecten aquests canvis a les mesures resum. Bàsicament, distingim dos tipus de canvis.: • El canvi d'origen: es produeix quan sumem o restem un nombre -una constanta la variable original. Així, si suposem que X és la nostra variable original, i a és una constant qualsevol, un canvi d’origen de la variable X ens donarà una variable transformada que anomenem Y. El canvi s'expressa d'acord amb la següent equació Y= X ± a.
El canvi d'origen desplaça el gràfic a l'esquerra o a la dreta -depèn de a-. En aquest canvi, només varien les mesures de posició (mitjana, quartils...) però la dispersió i la forma no canvien.
• El canvi d'escala: es produeix quan multipliquem o dividim les dades per un nombre. Així, si suposem que X és la nostra variable original, i b és una constant qualsevol, un canvi d’escala de la variable X ens donarà una variable transformada que anomenem Y. El canvi s'expressa d'acord amb la següent equació Y= X * b (si multipliquem) o Y= X/b (si dividim) Aquesta mena de canvi fa variar la mida o grandària de l'histograma, depenent de si multipliquem o dividim. En aquest canvi, varien les mesures de posició (mitjana, quartils...) i les de dispersió (desviació estàndard, curtosi...), tan sols la forma es manté constant.
• Transformacions lineals: Són els dos canvis junts, els expressem amb l'equació: Y= (X ± a)/b o Y= (X ± a)*b. En aquest canvi, varien les mesures de posició (mitjana, quartils...) i les de dispersió (desviació estàndard, curtosi...), tan sols la forma es manté constant.
Al seu torn, existeixen un altre tipus de transformacions no tan freqüents: les transformacions no lineals. Aquestes transformacions es basen en funcions no lineals, com logarítmiques o exponencials, i s'utilitzen per convertir distribucions asimètriques en simètriques i calcular així resums numèrics que només són vàlids per aquestes distribucions (mitjana, desviació estàndard...).
Al aplicar aquestes transformacions, canvia tot: forma, dispersió i posició. A més, no podem calcular la nova mitjana i la desviació estàndard amb les dades anteriors. És a dir, que si fem una transformació logarítmica la nova mitjana NO serà el logaritme de la mitjana anterior. Per últim, el programa ODStatistics permet fer totes aquestes transformacions de forma quasi immediata.
Corbes de densitat i histogrames A l'hora d'explorar una variable numèrica o quantitativa: 1. Realitzem un gràfic (un histograma o diagrama de troncs i fulles) 2. Analitzem l’aspecte general de la distribució (centre, dispersió, forma) i les observacions atípiques.
3. Triem un resum numèric per a descriure de forma breu el centre i la dispersió de la distribució.
A més de l'anterior, podem descriure determinats histogrames amb un gran nombre d'observacions mitjançant una corba llisa. Per poder-ho fer, l'histograma ha de ser regular i, per tant, ha de complir el següent: 1. Ha de ser simètric.
2. Els dos costats han de disminuir gradualment.
3. No pot tenir observacions atípiques ni buits destacables.
Així doncs, la corba de densitat -nom tècnic de la corba descrita anteriorment- és un model matemàtic ens proporciona una bona descripció de les dades, malgrat que aquesta descripció sigui idealitzada ja que ignora els valors atípics i les petites irregularitats.
Finalment, cal dir que l'histograma depèn del nombre de classes triades mentre que la corba de densitat no.
Imatge 1: Exemple de Corba de Densitat Per un altre banda, la corba de densitat defineix abaix seu un àrea exactament igual a 1, és a dir, la regió sota la corba conté la proporció total de totes les observacions. Això ens permet, per exemple, saber la proporció de casos per sota d'un valor o situar mesures de centre com la mediana -que divideix l'àrea de la corba en dues meitats, cadascuna de les quals conté el 50% de casos-. Com en la resta de distribucions, la mitjana i la mediana coincideixen si la forma és simètrica i si és asimètrica la mitjana es desplaça cap al costat més llarg. També podem situar mesures de posició (primer quartil...) La distribució normal Les corbes de densitat Normals són una classe especial de corbes de densitat. Es caracteritzen per ser simètriques, tenir una sola moda o “pic”, tenir forma de campana i perquè es descriuen donant simplement la mitjana μ i la desviació estàndard σ. Aquesta mena de distribucions són molt importants ja que: • Descriuen bé una gran part dels conjunts de dades reals.
• Aproximen bé els resultats de molts processos aleatoris.
• Molts processos d'inferència estadística es basen en les seves propietats.
Al seu torn, existeixen dues propietats importants d'aquestes corbes: La mitjana µ se situa en el centre de la corba i la desviació típica σ controla la dispersió de la corba. A més, la mitjana i la desviació típica ens permeten calcular els punts d'inflexió ja que són aquells punts iguals a µ ±σ. Cal mencionar també la regla 68-95-99.7 que diu que: • El 68% de les observacions es troben entre μ – σ i μ + σ • El 95% de les observacions es troben entre μ – 2σ i μ + 2σ • El 99,7% de les observacions es troben entre μ – 3σ i μ + 3σ La distribució normal estandarditzada Si volem comparar dos casos expressats en sistemes de mesura diferents, usarem un criteri que mesura en desviacions estàndards i així podem saber quin cas és més gran.
Aquest criteri s'anomena observació estandarditzada (z) i ens diu a quantes desviacions típiques(σ) es troba l’observació original (x) de la mitjana (µ) i en quina direcció. Es calcula a partir de: La variable z és una transformació lineal de la variable x, per tant, z de mitjana (µ) serà zero (està a zero desviacions típiques) i z de σ (desviació estandard) serà 1. Així, com totes les distribucions Normals comparteixen les mateixes propietats, podem “estandarditzar” les dades i transformar qualsevol corba Normal N(μ,σ) en la corba Normal estandarditzada N(0,1).
Càlcul d'un valor amb la distribució normal estandarditzada La distribució normal estandarditzada ens permet calcular un percentatge (percentatge de casos per sota de X valor) i un valor (valor per sota del qual es troben un % concret dels casos). Per fer aquests càlculs, necessitem estandarditzar la distribució normal i la taula A, que ens van repartir a classe.
Per calcular un valor, per exemple: en una distribució normal N(72,4) volem saber sota quin valor es troba el 60% de la classe. Això vol dir que busquem el valor de z de la taula A amb un valor igual o molt proper a 60. Això és així ja que les “z” de la taula a ens diuen quina àrea de la distribució normal estandarditzada hi ha per sota d'elles . Si busquem, veurem que el valor més proper és z= 0,25 amb una àrea del 59,87% de les observacions. Un cop fet això, aïllem x: 0,25 = (x-72)/4 1= x-72 x = 73 Per tant, sota el valor 73 trobem aproximadament el 60% dels casos d'aquesta distribució.
Càlcul d'un percentatge amb la distribució normal estandarditzada Per calcular un percentatge, per exemple: en una distribució normal N(72,4) volem saber sota quin percentatge de casos tenen un valor superior a 64. Primer, cal que estandarditzem el valor 64: z= (64-72)/4 = -2 Cerquem z= -2 a la taula A i ens dóna un valor de 0,0228 o un 2,28%. Això vol dir, tal com indica la taula, que un 2,28% dels casos estan a l'esquerra de 64-i tenen un valor per sota de 64-. Però recordem: volem saber el percentatge de casos amb un valor superior a 64. Per tant, restem 100%-2,28%=97,72%. Amb això sabem que un 97,72% dels valors tenen un valor superior a 64.
Valoració de la Normalitat Podem saber si una distribució normal és bona aproximació a la distribució de les nostres dades mitjançant: • Diagnòstic visual: histogrames o tronc-i-fulles simètric,sense buits i sense observacions atípiques • Diagnòstics numèrics: regla del 68-95-99,7 i altres. Calculem els punts (μ – σ i μ + σ, μ + σ, μ – 2σ, μ + 2σ, μ – 3σ i μ + 3σ) i fem un recompte de freqüències per veure si es compleix aquesta regla.
Anàlisi de Dades: Temes 5 ,6 i 7 Relacions entre Dues Variables Numèriques: el Diagrama de Dispersió Quan examinem dues variables numèriques, volem saber si estan relacionades. És a dir, si una explica o pot influir en el resultat de l'altre. En aquesta relació distingirem dues variables: • Variable resposta: mesura el resultat d'un estudi i és la variable dependent.
• Variable explicativa: intenta explicar allò observat i és la variable independent.
La manera més comú de mostrar la relació entre dues variables numèriques és utilitzar un diagrama de dispersió. Aquest diagrama representa els valors d'una variable quantitativa a l'eix d'abscisses (eix de les x) i els valors de l'altre a l'eix d'ordenades (eix de les y). Cada individu o observació apareix com un punt del diagrama i la seva posició dependrà dels valors que prenguin les dues variables.
Per examinar un diagrama de dispersió, fem el mateix que en qualsevol gràfic de dades. Primer, identifiquem l'aspecte general i les seves observacions atípiques. I després descrivim aquest aspecte general mitjançant: • La forma: Quina mena de “dibuix” forma el diagrama: si és una línia, diem que hi ha una relació lineal entre ambdues variables. Si és una corba, la relació entre elles és curvilínia. Hi han també altres tipus de relacions apart d'aquestes.
• La direcció: Es basa en determinar el tipus d'associació entre les variables. Si quan augmenta una variable creix l'altre, la relació és positiva. I si quan creix una variable disminueix l'altre la relació és negativa. No sempre es pot determinar la direcció d'un diagrama, com en el cas de les corbes per exemple.
• La força: Descriu la proximitat dels punts a una forma determinada, com una recta o una corba. Quan més dispersats estiguin els punts, menys força hi haurà.
La Correlació i la Covariància A l'hora de determinar la força d'una relació, tenim un problema: l'escala en que mesurem les variables influeix en la nostra percepció de la força. Així, un gràfic mesurat amb escala de 0 a 250 serà considerat menys fort que un altre mesurat amb escala de 100 a 150. Per solucionar això, necessitem una mesura numèrica que no es vegi afectada per l'escala: la correlació.
La correlació mesura la força i la direcció d'una relació lineal entre dues variables quantitatives. És a dir, només ens serveix per rectes. Per calcular la correlació (r) necessitem la mitjana de la variable x (Mx) i la de la variable y (My), així com les desviacions típiques de x (Sx) i de y (Sy). Per últim, utilitzarem també els valors de x y de y de tots els individus (x1, y1, x2, y2...). Una vegada tenim tot això: 1. Fem una divisió: 1/ (nombre casos-1) 2. Fem un altre divisió: (x1-Mx)/Sx i fem això per tots els valors de x.
3. Fem un altre divisió: (y1-My)/Sy i fem això per tots els valors de y.
4. Multipliquem: el resultat de (x1-Mx)/Sx pel de (y1-My)/Sy. Fem això per tots els valors: amb x2 i y2, x3 i y3....xn i yn.
5. Sumem els resultats de totes les multiplicacions anteriors.
6. Multipliquem 1/ (nombre casos-1) pel resultat del pas 5è.
La formula seria així, sent x barret i y barret les mitjanes de x i de y. I la lletra grega sigma vol dir suma d'aquests termes per tots els individus.
Existeix un altre mesura relacionada amb la correlació: la covariància, que mesura la dispersió de dues variables numèriques i té una formula molt similar a l'anterior -l'únic que canvia és que no dividim per les desviacions estàndard- La covariància és positiva si la relació és positiva -quan augmenta una variable creix l'altre- i negativa si la relació és negativa - quan creix una variable disminueix l'altre-. Tanmateix, la covariància es veu influïda pel canvi d'escala, en altres paraules, si passem de grams a quilos canvia. Per això és millor utilitzar la correlació.
La correlació, al treballar amb variables estandarditzades, no es veu afectada per canvis d'escala -passar de grams a quilos, per exemple-. Al igual que la covariància, és positiva si la relació és positiva i negativa si la relació és negativa. A més, com treballa amb variables estandarditzades només pren valors de 1 a -1; com més gran el valor en valor absolut, més gran la força. Així, un valor de 0 indica que no hi ha cap mena de relació i un valor de -1 o 1 indica que tots els punts del diagrama estan sobre una recta. Per últim, cal dir que la correlació es veu afectada per les observacions atípiques.
La Recta de Regressió Si el diagrama de dispersió té una forma lineal, ens agradaria saber com és aquesta recta. És a dir, volem dibuixar la recta que resumeix la relació entre ambdues variables.
Aquesta recta s'anomena recta de regressió i descriu com canvia la variable resposta y a mesura que canvia la variable explicativa x. Fem servir aquesta recta per predir el valor de y a partir d'un valor x. Per usar aquesta eina, hem de definir correctament la variable dependent i independent. Cal tenir en compte que hi han errors de predicció, és a dir, els valors observats i els predits són diferents.
Per aconseguir que aquests errors o residus siguin els mínims possibles -tinguin el mínim valor possible-, fem servir la recta de regressió mínim-quadràtica de y en relació a x. Aquesta recta fa que la suma dels quadrats dels residus sigui el més petit possible.
L'equació de la recta té la forma Ў= a +bx, amb: • Pendent: Es calcula amb la correlació (r) i les desviacions típiques de x (Sx) i de y (Sy). La seva formula és b=r*(Sy/Sx). El pendent es diu en quina quantitat Ў canvia quan x augmenta una unitat.
• Ordenada a l'orígen: Es calcula amb la mitjana de x (Mx) i la de y (My) i el pendent (b). La seva formula és a= My – (b*Mx). La ordenada a l'origen ens diu el valor de y quan x val zero.
Al seu torn, hi ha una mesura derivada de la correlació que està íntimament relacionada amb la recta de regressió: el coeficient de determinació. El coeficient de determinació o R² és el quadrat de la correlació, i determina quin % de les variacions de y pot ésser explicat a partir de les variacions de x. Així, un R² de 0,8 significa que el 80% de les variacions de y són explicades amb les de x o, el que és el mateix, amb la variable explicativa x expliquem un 80% dels valors de la variable resposta y.
La Traça Mediana Al representar gràficament dues variables en el diagrama de dispersió, sovint ens sembla que a primera vista no hi ha relació entre les dues variables ja que tots els punts estan molt dispersos. En aquests casos, la traça mitjana o la traça mediana poden ajudar-nos a descobrir la forma d’una relació que pot no ser òbvia a primera vista. Per calcular la traça mitjana o mediana seguim el procés següent: 1. Esbrinar si hi ha molta dispersió en la variable resposta y per alguna causa aliena a l’estudi.
2. Fixar els valors de la x i calcular la mitjana (o la mediana) dels valors de la y per a valors de la x fixos.
3. Unir per mitjà d’una línia les mitjanes (o medianes) calculades.
Ho veurem més clar amb un exemple. Imaginem que tenim el conjunt de dades següent: Renda 15000 25000 45000 55000 Consum Octubre 1000 1500 2010 1700 Consum Novembre 1150 1420 1925 1545 Consum Desembre 1880 2245 3285 2065 1250 2023 1675 Consum Gener 820 Consum Mitjà 1212,5 1603,75 2310,75 1746,25 A la fila ressaltada en blau hem calculat la mitjana de y -consum- per valors de x -rendafixos. Ara tan sols quedaria representar això en un diagrama de dispersió i podríem veure quina relació hi ha: una corba.
Anàlisi de Residus Els residus són la diferencia entre el valor observat i el valor predit per la recta de regressió. Podem representar els residus en un diagrama de residus o un diagrama de dispersió dels residus. Cal dir que la mitjana dels residus d'una recta de regressió és sempre zero. Amb aquest diagrama podem comprovar que: • La relació és lineal i per tant podem representar-la amb una recta de regressió.
• No hi ha observacions estranyes o influents que condicionen els resultats i que potser seria millor no incloure a l’hora de fer la regressió.
• No hi ha variables latents que no estem tenint en compte i que explicarien millor la relació observada.
Per determinar tot això hem d'observar la dispersió dels residus. Si la dispersió és aleatòria, no hi ha cap problema amb la relació d'ambdues variables. No obstant, si segueixen un patró, la relació no és lineal. A més, si els residus són més grans -en valor absolut- quan x creix hem d'esbrinar el motiu.
Pel que fa a les observacions atípiques, són observacions influents si al eliminar-les canvia significativament la recta de regressió. Els punts que són atípics en l'eix d'abscisses -eix de les x- solen ser influents.
Regressions no Lineals En certs casos la relació és clarament no lineal, ja sigui per la forma del diagrama de dispersió o per la forma corba del diagrama de residus. En aquests casos, podem convertir-la en lineal si realitzem una transformació no lineal de les dades. Per exemple, podem prendre logaritmes neperians de x i de y (transformació log-log) de forma que: ln(y)=a+b*ln(x). Aquesta transformació està molt lligada a l'elasticitat degut a que b és una elasticitat: Per predir el valor de y -i no pas ln(y)- en aquesta transformació log-log fem: A mode de resum, hi han tres tipus de transformacions no lineals: • Transformació log-log: ln(y)=a+b*ln(x) • Transformació semi-log: ln(y)= a+bx • Transformació recíproca: y= a + b*(1/x) Interpretació de la Correlació i la Regressió L'extrapolació és l'ús d'una recta de regressió per predir valors fora de l'interval de valors de la variable explicativa x. La predicció no sempre té sentit. Per exemple, pot sortir-nos d'alçada tres metres o una població negativa.
Una variable latent és una variable que no s’inclou entre les variables estudiades i que, malgrat això, té un important efecte en la relació que existeix entre elles. Imaginem el següent conjunt de dades: Notes Hores Estudi Assignatura 0 7 Física Quàntica 1,2 6 Física Quàntica 2 8 Física Quàntica 3,3 10 Física Quàntica 4 11 Física Quàntica 4,5 12 Física Quàntica 5 13 Física Quàntica 7 3 Introducció a l'Estadística 8 4 Introducció a l'Estadística 8 4 Introducció a l'Estadística 10 7 Introducció a l'Estadística Les dades no tenen sentit només amb les dues primeres columnes ja que a més hores d'estudi menys nota, però amb la tercera tot cobra sentit: la Física Quàntica és més difícil que Introducció a l'Estadística.
Per últim, cal dir que de vegades utilitzem les mitjanes de variables per estudiar les relacions entre aquestes i que dues variables poden estar associades -per exemple, quan augmenta una augmenta l'altre- però no implica que estiguin relacionades. Per exemple, si quan augmenta el nombre de semàfors moren més elefants NO vol dir que un major nombre de semàfors sigui la causa de la mort dels elefants.
Relacions entre Dues Variables Categòriques Fins ara, hem estudiat les relacions d'almenys una variable numèrica, ara ens centrarem en la relació entre dues variables categòriques. Primer crearem una taula de contingència per organitzar la informació. Una taula de contingència mostra els recomptes de dues variables categòriques. Per exemple, volem saber si el fet que els pares hagin anat a la universitat influeix al fet que el fill també hi vagi: Pares Fills Hi va No hi va Totals 1600 300 1900 Només 1 hi ha anat 1200 500 1700 Els 2 hi han anat Cap hi ha anat 1100 700 1800 Totals 3900 1500 5400 Podem mostrar les freqüències relatives a la mateixa taula. Cal aclarar que la freqüència relativa d'un valor és el valor partit pel total (5400): Pares Fills Hi va No hi va Totals 0,3 0,06 0,36 Només 1 hi ha anat 0,22 0,09 0,31 Cap hi ha anat 0,13 0,33 Els 2 hi han anat 0,2 Totals 0,72 0,28 1 Les cel·les ressaltades en color taronja s'anomenen distribució conjunta, ja que mostren les dues variables a l'hora. En canvi, les cel·les marcades en blau reben el nom de distribucions marginals perquè mostra el % de cada variable per separat. Podem organitzar les distribucions marginals en diagrames de barres.
Per saber si el nombre de pares que ha anat a la Universitat influeix al fet que el fill també hi vagi, utilitzarem les distribucions condicionals en la qual examinem la proporció de fills que van i no van a la universitat en cada una de les categories “pares que han anat a la universitat” i les comparem. És a dir, faríem el següent: Condicional Fills a Pares Hi va No hi va Totals Els 2 hi han anat 0,81 0,16 1 Només 1 hi ha anat 0,71 0,29 1 Cap hi ha anat 0,61 0,39 1 Així, la distribució condicional d'un valor és: valor/total de la fila. Aquestes distribucions ens ajuden a saber si dues variables categòriques estan relacionades entre sí. Podem afirmar que dues variables categòriques estan relacionades si les distribucions condicionals són molt diferents. Per contra, dues variables categòriques NO estan relacionades si les distribucions condicionals són molt iguals. En aquest cas, sí que ho estan com es pot comprovar: com més pares van a la universitat, més fills hi van.
La Paradoxa de Simpson Igual que amb les variables numèriques, les variables latents poden canviar i fins i tot invertir les relacions observades entre dues variables categòriques. En aquest cas existeix una paradoxa de Simpson: el canvi de sentit d'una comparació o associació quan dades de diversos grups es combinen en un de sol. Ho entendrem millor amb un exemple: Aprovats No Aprovats Totals Homes 350 150 500 Dones 170 330 500 Totals 520 480 1000 Si calculem les distribucions condicionals sembla que les dones suspenguin molt més: Aprovats No Aprovats Totals Homes 0,7 0,3 1 Dones 0,34 0,66 1 Però hi ha una variable latent: l'assignatura.
Bioquímica Molecular Avançada Aprovats No Aprovats Homes 0,25 0,75 Totals 1 Introducció a l'Estadística Aprovats No Totals Aprovats Homes 0,7 0,3 1 Dones 0,34 0,66 1 Dones 0,7 0,3 1 En realitat les dones treuen igual la mateixa nota o més que els homes, però hi ha més dones cursant Bioquímica Molecular Avançada que no pas introducció a l'Estadística. En aquest cas, com l'associació canvia de sentit, es dóna una paradoxa de Simpson.
Relacions entre Una Variable Categòrica i una Numèrica Per analitzar les relacions entre una variable categòrica i una numèrica, cal determinar si la categòrica té ordre o no. En cas que no tingui ordre, fem anàlisis gràfiques i resums numèrics de la variable numèrica dins de cada categoria i els comparem. En altres paraules, comparem els resums numèrics de cada categoria, els diagrames de caixa, els histogrames...
Així doncs, quan la variable categòrica no té ordre no podem parlar d'associació positiva o negativa sinó que tan sols podem dir que X categoria té valors més aleatoris o que Y categoria té valors més grans. Exemples de variables categòriques sense ordre són les ètnies, les ciutats, els barris...
Quan la variable categòrica té ordre, també fem anàlisis dins de cada categoria, però en aquest cas podem parlar d’associació entre les dues variables. Per exemple, podem dir que el nivell de renda i el nivell educatiu tenen una associació positiva.
Per últim, cal dir que també podem fer relacions entre dues variables categòriques i una numèrica aplicant el mateix procés però amb una categoria més. També cal dir que totes les relacions podem fer-les amb el programa ODStatistics.
Anàlisi de Dades: Temes 8, 9 i 10 Sèries Temporals Anomenem sèrie temporal a un conjunt de dades sobre una variable concreta ordenat cronològicament. Segons la periodicitat o el període de temps en què estan ordenades les dades, les sèries temporals són trimestrals -si estan ordenades per trimestres-, mensuals -si ho estan per mesos...-. Utilitzem aquestes sèries per observar l'evolució d'una variable al llarg d'un període concret i per preveure la seva evolució futura -quins valors prendrà en un futur-, és a dir, les sèries temporals ens ajuden a fer previsions estadístiques.
Les sèries temporals tenen quatre components: • Tendència (T): Comportament de la sèrie a llarg termini -més de cinc anys-.
• Cicle (C): Comportament de la sèrie a mig termini -més d'un any i menor a cinc• Estacionalitat (E): Comportament a curt termini -menys d'un any- que es repeteix al llarg del temps. Per exemple, el sector turístic espanyol pateix una forta estacionalitat a l'estiu -rep molt més turistes en aquesta època de l'any-.
• Irregular (I): Factor puntual i imprevisible a curt termini, no ve explicat per altres components. Per exemple, l'impacte a l'economia japonesa pel tsunami és un fet irregular.
Aquests components poden estar associats de forma additiva Y= T+E+C+I; de forma multiplicativa Y=T*E*C*I o mixta Y=T+C*E*I. Les sèries multiplicatives o mixtes pateixen variacions fortes al llarg del temps, en altres paraules, són més irregulars i volàtils que les additives.
Ens pot interessar separar els components d'una sèrie temporal i poder veure quin és l'efecte de cadascun sobre l'evolució de la sèrie. Atès que el component tendència és el que millor representa la sèrie, podem intentar aïllar-lo intentant representar-lo mitjançant les següents funcions matemàtiques: • Recta: T= a+b*t on t és el temps • Polinomi: T= a+b*t+c*t² +d*t³ ... El polinomi pot ser de qualsevol grau.
• Exponencial: • • Recíproc: 1/T= a+b*t Potencial: • Logarítmica: logT = a+b*t Càlcul de les Mitjanes Mòbils Un altre manera d'aïllar el component de tendència i cicle -els dos junts- són les mitjanes mòbils. Aquesta tècnica consisteix en calcular mitjanes de n períodes consecutius de la sèrie original i cada nou valor de la mitjana mòbil descarta el valor més antic i n'incorpora un de nou. Posem un exemple: Any Valors Originals Mitjana mòbil centrada ordre Mitjana mòbil centrada ordre 3 5 2007 10 - - 2008 11 (10+11+12)/3=11 - 2009 12 (11+12+13)/3=12 (10+11+12+13+14)/5=12 2010 13 (12+13+14)/3=13 - 2011 14 A la taula superior veiem el mètode per calcular mitjanes mòbils centrades -corresponen al valor del centre- d'ordre imparell. Per calcular aquestes mitjanes per ordres parells cal un mètode lleugerament més complex: Any Valors Originals Mitjana mòbil NO centrada Mitjana mòbil centrada ordre ordre 4 4 2007 10 - - 2008 11 (10+11+12+13)/4=11,5 - 2009 12 (11+12+13+14)/4=12,5 (11,5+12,5)/2=12 2010 13 - - 2011 14 Com podem apreciar, calculem les mitjanes mòbils no centrades i després calculem la mitjana centrada fent la mitjana de les dues mitjanes mòbils -a la taula superior es veu millor-.
Càlcul del Component Estacional Sovint ens pot interessar saber quin efecte té el component estacional d'una sèrie temporal. Com es repeteix al llarg del temps, podem aïllar-lo a través del procés següent: 1. Aïllem els components de tendència i cicle mitjançant el mètode de les mitjanes mòbils.
2. Trobem el component estacional i el d'irregularitat fent la següent operació en una sèrie additiva: E+I = Y -(T+C) = Valor Original – Mitjana mòbil ordre n Per eliminar el component irregular del resultat que hem obtingut -i saber així el component estacional-, podem suposar que, com el component irregular és aleatori -no el podem preveure- la seva mitjana és zero en el cas d'una sèrie additiva i 1 en el cas d'una multiplicativa.
Amb això ja podem saber el component estacional. Per exemple, el component estacional de gener d'una sèrie temporal additiva seria la mitjana de TOTS els E+I de gener -la mitjana del component irregular és zero i no afecta-.
Predicció Si fem servir una funció per predir el component tendència i si coneixem el component estacional, podem predir els valors futurs de la sèrie. Per exemple en una sèrie additiva seria així: Y = (Funció Tendència) + E Mesures de desigualtat: Índex de Lorenz-Gini A l'hora de classificar els països segons la seva renda mitjana o renda per càpita, ens pot interessar saber com està distribuïda: és a dir, si hi ha molta o poca desigualtat. Per mesurar la distribució de la renda, fem servir les mesures de desigualtat i concentració.
Una de les mesures més importants de desigualtat i concentració és l'índex de LorenzGini, que ens dóna un valor numèric comprés entre el zero (màxima igualtat, tothom rep el mateix) i l'1 (màxima desigualtat, tot ho té un sol individu). Imaginem la situació següent: Família Herència (milions €) Membres família González 10 1000 García 200 60 Hernández 3000 1 A primera vista, s'aprecia que la situació NO és igualitària; però volem comprovar-ho calculant l'índex de Lorenz-Gini. Fem una taula on anomenarem X als milions que rep cada membre de la família i N al nombre de membres. Aquesta taula ha d'estar ordenada per ordre creixent, és a dir, qui més té va a la darrera fila. D'aquesta forma: Família Xi Ni Xi*Ni González 0,01 1000 10 García 3,33 60 200 Hernández 3000 1 3000 A l'exemple podem veure que la família González rep 0,01 M€ per cada membre, que fan un total de 10; mentre que la família Hernández en rep 3000M€ per membre. A la taula el total que rep cada família ve representat per la quarta columna: Xi*Ni. Amb la quarta columna podem calcular el total de l'herència: la suma de tots els valors Xi*Ni.
En aquest cas seria Ak (Total herència) = 10+200+3000= 3210 M€.
Amb el total de l'herència podem acabar de calcular l'índex: Família Xi Ni Xi*Ni pi qi pi-qi pi-0 González 0,01 1000 10 0,94 0. 003 0,94 0,94 García 3,33 60 200 0,99 0,06 0,93 0,99 Hernández 3000 1 3000 1 1 0 0 Hem afegit quatre noves columnes. La columna ressaltada en lila mostra la proporció total dels individus sobre el total d'hereus. És a dir pi = (Suma ni fins ara) / ni total observem que el total sempre dóna 1 ja que 1/1 =1. La columna verda mostra la proporció total de l'herència sobre el total de l'herència. Dit d'un altre forma : qi= (Suma xi fins ara) / xi total El total sempre és 1.
La columna destacada en color taronja és la resta entre el pi y qi, com el seu nom indica. Per últim, la columna blava mostra la situació de màxima desigualtat -on el Sr/Sra Hernández ho rep tot-.
Amb tot això, només ens calen les darreres dues columnes per calcular l'índex de Lorenz-Gini, que es calcula així: IL = (Suma total pi-qi) / Suma total pi-0 En l'exemple: IL = (0,94+0.93)/(0,94+0,99) = 1,87/1,93 = 0,97 És a dir, hi ha molta desigualtat ja que és un valor proper a 1.
Mesures de desigualtat: Índex de Diferències Aquest índex consisteix en comparar la renda o qualsevol altre característica de cada parell d'individus de la població. A la taula següent veurem millor el procediment: González (Xi: 0,01; Ni:100) García (Xi: 3,33; Hernández (Xi: 3000; Ni:60) Ni:1) González (Xi: 0 0,01; Ni:100) García (Xi: (3,33-0,01)*60*100= 3,33; Ni:60) 19920 0 Hernández (Xi: (3000-0,01)*1*100= (3000-3,33)*1*60= 0 3000; Ni:1) 299999 179800 En altres paraules, comparem cada parell d'individus amb la següent formula: Di = (Xi familia que comparem – xi família comparada) *ni família comparada * ni família que comparem Altre cop, l'índex de diferències és Di dividit pel valor de màxima desigualtat, o sigui: Di Desigualtat Màxima = Valor total herència * (Nombre individus -1) Per tant, ID = Suma Di /Di desigualtat màxima, en el nostre cas ID = (19920+299999+179800) /[160*3210] = 499719/513600= 0,97 Altre vegada, 1 és la màxima desigualtat i zero la màxima igualtat.
Mesures de Concentració: Índex de Concentració A l'hora de realitzar un estudi de mercat, ens pot interessar saber si les vendes estan concentrades en poques empreses o molt repartides. Per esbrinar això, cal que calculem els índexs de concentració.
En primer lloc, trobem l'índex de concentració; que ens indica la quota de mercat de les i primeres empreses del mercat. Per calcular-ho, hem de sumar les quotes de mercat de les i primeres empreses -ordenades en ordre decreixent, de major a menor-. Per exemple, si l'índex C4 ens dóna 0,8 vol dir que les quatre primeres empreses del sector posseeixen el 80% de la quota de mercat.
La concentració màxima es produeix quan l'índex dóna 1 per la primera empresa -monopoli- i la mínima quan l'índex dóna un valor de k/n sent n el nombre d'empreses i k les empreses que hem agafat per calcular l'índex -si hem calculat C6, k és 6; si ho hem fet amb el c8, k és 8...-.
Mesures de Concentració: Índex de Concentració de Herfindahl Un altre índex de concentració és el de Herfindahl, que es calcula sumant les quotes de mercat al quadrat de les i primeres empreses -ordenades en ordre decreixent, de major a menor-. La concentració màxima es produeix quan l'índex dóna 1 per la primera empresa -monopoli- i la mínima quan l'índex dóna un valor de 1/n sent n el nombre d'empreses.
Aquest índex té les propietats següents: • Caràcter no ambigu: L'índex H sempre permet saber quin dels mercats comparats està més concentrat.
• Invariància a escala: No es veu afectat per l'escala -dimensió de les empreses-.
• Transferència: La mesura H augmenta quan disminueix la quota de mercat d’una empresa petita a costa d’una empresa gran.
• Monotonicitat: Si les n empreses tinguessin quotes de mercat idèntiques, la mesura H ha de ser decreixent amb respecte de n. És a dir, si les quotes de mercats són iguals, com més empreses hi hagin més petit serà l'índex.
• Cardinalitat: Si dividim cada empresa en k empreses iguals, la mesura H decreix en la mateixa proporció.
Nombres Índex: L'Índex Simple Un nombre índex és una mesura estadística que expressa els canvis d'una variable en el temps (o de vegades l’espai). Distingirem entre índex simples i índex complexos. Un índex simple és el quocient entre cada nombre de la sèrie i el valor que pren aquesta en el període base -que pot ser qualsevol-. És a dir, Índex simple = (Valor nombre / valor període base) *100 Els índex complexos serveixen per mesurar l'evolució de magnituds complexes, i un dels seus usos és determinar numèricament l'evolució dels preus. Farem servir dos índex de preus: el de Laspeyres i el de Paasche.
L'Índex de Laspeyres Per calcular aquest índex fem el següent: 1. Triem un període base per l'índex, el valor del qual serà sempre 100.
2. Calculem el % que suposa cada producte en la despesa total -ponderacionsNOMÉS ho fem en el període base. És a dir: 3. Ponderació = (preu producte *quantitat)/Despesa 4. Calculem els índex simples del preu de cada producte per separat. Recordem que: IS = (Preu / Preu període base) *100 5. Calculem un índex complex dels preus amb la mitjana ponderada dels índex simples.
Ho entendrem millor amb un exemple: Producte A Producte B Producte C Període Q P Q P Q P Despesa 1 6 1,00 € 4 30,00 € 3 19,00 € 183,00 € 2 8 1,20 € 3 30,60 € 5 20,00 € 201,40 € 3 9 1,50 € 9 31,00 € 6 22,00 € 424,50 € Seguim els passos indicats. Primer, triem el període 1 com a període base i realitzem les ponderacions i els índex simples: Producte A Producte B Producte C Període IS Ponderacions IS Ponderacions IS 1 100 0.03 100 0. 655 100 0. 3114 183,00 € 2 120 0.03 75 0. 655 166 0. 3114 201,40 € 3 Ponderacions Despesa 150 0.03 225 0. 655 200 0. 3114 Un cop fet això podem calcular l'índex de Laspeyres de cada període: IL1 = 0,03*100+0,655*100 + 0,3114*100 = 100 IL2 = 0,03*120+0,655*75 + 0,3114*166 = 104,42 IL3 = 0,03*150+0,655*225 + 0,3114*200 = 2014,155 424,50 € L'Índex complex de Paasche Aquest índex és molt semblant a l'anterior, però les seves ponderacions són mòbils.
En altres paraules, calculem noves ponderacions per cada període canviant NOMÉS les quantitats però mantenint el preu del període base. Amb l'exemple anterior: Producte A Producte B Producte C Període IS Ponderacions IS Ponderacions IS 1 100 0.03 100 0. 655 100 0. 3114 183,00 € 2 120 0. 041 75 0. 466 166 0. 49 193,00 € 3 Ponderacions Despesa 150 0. 0229 225 0. 687 200 0. 29 393,00 € Un cop fet això podem calcular l'índex complex de Paasche tal com ho hem fet a dalt.
La inflació La inflació té diverses taxes, que expliquem tot seguit: • Taxa d'inflació mensual: és la taxa de variació de l'IPC entre dos meses consecutius.
I mensual =[IPC mes actual - IPC mes anterior) / IPC mes anterior] *100 • Taxa d'inflació interanual: és la taxa de variació de l'IPC entre un mes qualsevol i el mateix mes de l'any anterior.
I interanual =[IPC mes actual - IPC mes any anterior)/IPC mes any anterior] *100 • Taxa d'inflació acumulada: és la taxa de variació de l'IPC entre un mes qualsevol i l'inici de l'any al que pertany.
IA=[IPC mes actual-IPC desembre any anterior)/IPC desembre any anterior] *100 Creixement nominal i creixement real Sovint ens pot interessar saber si la pujada del nostre sou ens fa perdre poder adquisitiu arran de l'efecte de la inflació o si pel contrari hem augmentat el nostre poder adquisitiu. D'aquesta forma, distingim entre creixement nominal i creixement real.
El creixement nominal es calcula calculant quan ha augmentat el valor en % i no té en compte l'efecte de l'IPC.
Creixement nominal = [(Valor actual-valor anterior)/valor anterior] *100 En canvi, el creixement real sí considera l'efecte de la inflació i mesura quan ha crescut -o descrescut- el nostre sou en termes de l'IPC. Primer hem de deflactar el sou per saber quin sou hauríem de tenir per estar igual que abans -sense perdre ni guanyar poder adquisitiu per l'inflació-.
Valor deflactat = (Valor anterior/IPC anterior) * IPC actual Creixement real = [(Valor anterior-valor deflactat)/valor deflactat] *100 Podem realitzar el procés invers -actualització-, és a dir, mirem a quin valor correspondria el valor actual si estiguéssim a l'any del valor anterior: Valor actualitzat = (Valor actual/IPC actual) * IPC anterior Creixement real = [(Valor actualitzat-valor anterior)/valor anterior] *100 ...