Resum en Power Point (2013)

Resumen Español
Universidad Universidad Pompeu Fabra (UPF)
Grado Economía - 1º curso
Asignatura Analisi de dades
Año del apunte 2013
Páginas 35
Fecha de subida 06/10/2014
Descargas 2
Subido por

Descripción

Resumen del curso en Power Point, proporcionado por uno de los profesores

Vista previa del texto

EXAMEN DESCRIPTIU DE LES DADES Gràfics de barres i de sectors.
Histograma i diagrama de tronc-i-fulles Mesures de centre i posició.
Diagrama de caixa.
Moore pàg.
6-51 Mesures de dispersió Introducció a l' Anàlisi de Dades - E. Ventura 1 Anàlisi exploratori de les dades „ El primer que farem amb un conjunt de dades és descriure’l.
„ Comencem amb gràfics, examinant cada variable per separat.
„ „ Variables categòriques: gràfics de barres o de sectors.
Variables numèriques: histogrames o diagrames de tronc-ifulles. També diagrames de caixa.
Introducció a l' Anàlisi de Dades - E. Ventura 2 Diagrames de barres i de seccions „ Quan les variables són categòriques, utilitzarem diagrames de barres o diagrames de sectors.
Alumnes matriculats. Homes 30.000 Alumnes matriculats. Dones Ciències de la salut 9% 25.000 20.000 Gestió i pràctica de l'esport 1% Ciències 9% 15.000 10.000 Ciències socials 53% Humanitats 18% 5.000 0 Ciències socials Tècnic Humanitats Ciències Introducció a l' Anàlisi de Dades - E. Ventura Ciències Gestió i de la salut pràctica de l'esport Tècnic 10% 3 Histograma Taula 1.2 del Moore (consums en carretera cotxes de 1998) Model Acura 3, 5RL Audi A6 Quatro Buick Century Cadillac Catera Cadillac Eldorado Chevrolet Lumina Chrysler Cirrus Dodge Stratus Ford taurus Honda Accord Hyundai Sonata Infiniti I30 Infiniti Q45 Introducció a l' Anàlisi de Dades - E. Ventura Consum Model (litres/100Km) 9,5 9,1 8,2 9,9 9,1 8,2 7,9 8,4 8,4 8,2 8,5 8,4 10,3 Lexus GS300 Lexus LS400 Lincoln Mark VIII Mazda 626 Mercedes-Benz E320 Mercedes-Benz E420 Mitsubishi Diamante Nissan Maxima Oldsmobile Aurora Rolls-Royce Silver Spur Saab 900S Toyota Camry Volvo S70 Consum (litres/100Km) 10,3 9,5 9,1 7,2 8,2 9,1 9,9 8,4 9,1 14,8 9,5 7,9 9,5 4 Histograma „ Un histograma és la representació gràfica d’una taula de freqüències.
„ „ „ Primer pas: decidir quants intervals o classes. Tots els intervals tenen la mateixa amplitud.
Segon pas: comptar quants cassos hi ha en cada interval Tercer pas: dibuixar l’histograma.
12 10 8 F re q ü è n c ia 6 4 2 0 [7,8) [8,9) [9,10) [10,11) [11,12) [12,13) [13,14) [14,15] Classe Freqüència 7,1 a 8 3 8,1 a 9 9 9,1 a 10 11 10,1 a 11 2 11,1 a 12 0 12,1 a 13 0 13,1 a 14 0 14,1 a 15 1 consums Introducció a l' Anàlisi de Dades - E. Ventura 5 Histograma „ És important triar un nombre suficient però no excessiu de classes 14 12 10 8 F re q ü è n c ia 6 6 5 4 4 2 0 [7,2,9,1) F re q ü è n c ia 3 [9,1,11) [11,12,9) [12,9,14,8] consums 2 1 0 7,52 8,02 8,53 9,04 9,54 10,05 10,56 11,06 11,57 12,08 12,58 13,09 13,6 14,1 14,61 7,26 7,77 8,28 8,78 9,29 9,8 10,3 10,81 11,32 11,82 12,33 12,84 13,34 13,85 14,36 consums Introducció a l' Anàlisi de Dades - E. Ventura 6 Histograma „ Com s’interpreta un histograma? „ Examinem la distribució de les dades „ Aspecte general „ „ „ „ Forma Centre Dispersió Busquem casos especials „ Observacions atípiques Introducció a l' Anàlisi de Dades - E. Ventura 7 Histograma 12 10 8 6 Freqüència 4 2 0 [7,8) [8,9) [9,10) [10,11) [11,12) [12,13) [13,14) [14,15] consums „ És asimètrica (a la dreta) i té un pic.
„ El centre està desplaçat una mica a l’esquerra (entre la segona i la tercera barra) Introducció a l' Anàlisi de Dades - E. Ventura 8 Histograma 12 „ Recorregut= Max – Min 10 8 „ Si ignorem la última dada, la 6 dispersió va des de 7 a 11 litres per 100 Km.
Freqüència 4 2 0 [7,8) [8,9) [9,10) [10,11) [11,12) [12,13) [13,14) [14,15] consums „ Hi ha una observació atípica. Si consultem la taula veurem que correspon al Rolls-Royce, un cotxe de luxe per al qual l’estalvi en el consum de benzina no és una prioritat.
Introducció a l' Anàlisi de Dades - E. Ventura 9 Tronc i fulles „ Per a conjunts petits de dades un diagrama de tronc i fulles pot ser més pràctic i ràpid que un histograma, encara que la informació subministrada és la mateixa.
„ Com es fa? „ Ordenem les dades de més petit a més gran.
7,2 7,9 7,9 8,2 8,2 8,2 8,2 8,4 8,4 8,4 8,4 8,5 9,1 9,1 9,1 9,1 9,1 9,5 9,5 9,5 9,5 9,9 9,9 10,3 10,3 14,8 Introducció a l' Anàlisi de Dades - E. Ventura 10 Tronc i fulles „ Separem cada observació en un tronc que conté tots els dígits menys l’últim (el de més a la dreta) i en una fulla que conté l’últim dígit.
7,2 7,9 7,9 8,2 8,2 8,2 8,2 8,4 8,4 8,4 8,4 8,5 9,1 9,1 9,1 9,1 9,1 9,5 9,5 9,5 9,5 9,9 9,9 10,3 10,3 14,8 Tronc 7 8 9 10 11 12 13 14 Fulles 2 2 1 3 9 2 1 3 9 2 1 2 1 4 1 4 5 4 5 4 5 5 5 9 9 (no hi cap número amb aquest tronc) (no hi cap número amb aquest tronc) (no hi cap número amb aquest tronc) Introducció a l' Anàlisi de Dades - E. Ventura 8 11 Tronc i fulles „ Els troncs se situen en vertical, un a sota de l’altre ordenats de més petit a més gran.
„ La fulla es col·loca a la dreta del seu tronc, en horitzontal, d’esquerra a dreta i de més petit a més gran. Es necessari especificar la unitat de les fulles.
7 8 9 10 11 12 13 14 Introducció a l' Anàlisi de Dades - E. Ventura 2 2 1 3 9 2 1 3 9 2 1 2 1 4 1 4 5 4 5 4 5 5 5 9 9 Unitat fulla: 0,1 litres/100 Km 8 12 9 9 2 2 2 4 4 4 4 5 1 1 1 1 5 5 5 5 9 9 3 8 7 8 9 10 11 12 13 14 Noteu que : Un diagrama de tronc i fulles és una mena d’histograma en brut. És pràctic i ràpid per observar la distribució d’un petit conjunt de dades.
2 2 1 3 Tronc i fulles Introducció a l' Anàlisi de Dades - E. Ventura 13 Tronc i fulles „ Dades (Moore pag. 53, salaris d’atletes, milers de dòlars) 170 800 1950 5442 0 1 2 3 4 5 6 170 856 2500 6269 450 900 2850 6300 450 1150 3089 6486 7 665 1367 3600 8 8 800 1663 5391 2 2 0 1 2 3 5 6 5 4 9 6 5 7 6 4 3 4 3 Observem: que quan hi ha massa dígits per poder dibuixar bé el diagrama, podrem arrodonir.
5 5 Unitat fulla: 100.000$ Introducció a l' Anàlisi de Dades - E. Ventura 7 650 1333 3583 6495 9 9 14 Tronc i fulles „ I de vegades convé desdoblar els troncs. Exemple: edats 1 2 1 1 2 2 12 13 15 16 16 17 17 17 19 19 19 21 21 21 21 22 22 22 26 26 27 28 2 1 2 5 1 6 3 1 3 6 1 6 5 1 6 1 7 6 1 7 1 8 6 2 7 2 7 2 7 2 7 2 9 2 7 6 9 9 6 9 7 9 9 8 No és gaire informatiu És millor desdoblar els troncs Unitat de fulla = 1 any Introducció a l' Anàlisi de Dades - E. Ventura 15 Anàlisi numèrica de les dades „ Podem descriure distribucions numèricament amb l’ajut d’un conjunt de mesures. Ens interessa molt descriure: „ El centre.
„ La dispersió.
„ Hi ha més d’una mesura per descriure el centre i més d’una mesura per descriure la dispersió. Quina hem d’utilitzar? Introducció a l' Anàlisi de Dades - E. Ventura 16 Mesura de centre: la mitjana El “Pichichi” 1989/90 1990/91 1991/92 1992/93 1993/94 1994/95 1995/96 1996/97 1997/98 1998/99 1999-00 2000-01 2001-02 2002-03 2003-04 2004-05 2005-06 2006-07 2007-08 2008-09 H. Sánchez Butragueño Manolo Bebeto Romario Zamorano Pizzi Ronaldo Vieri Raul Salva Raul Tristán Makaay Ronaldo Diego Forlán Samuel Eto'o Ruud van Nistelrooy Dani Güiza Diego Forlán Introducció a l' Anàlisi de Dades - E. Ventura Real Madrid Real Madrid Atlético Madrid Deportivo A Coruña FC Barcelona Real Madrid Tenerife FC Barcelona Atlético Madrid Real Madrid Racing Santander Real Madrid Deportivo A Coruña Deportivo A Coruña Real Madrid Villarreal CF FC Barcelona Real Madrid RCD Mallorca Atlético Madrid 38 19 27 29 30 27 31 34 24 23 27 24 21 29 23 25 26 35 27 32 La mitjana de gols és 27,55.
S’obté sumant tots els valors (551) i dividint pel nombre de casos (20).
17 Mesura de centre: la mitjana Distribució dels gols del Pichichi 7 Freqüència 6 x1 + x2 + … + xn x= n 5 4 1 n x = ∑ xi n i =1 3 2 1 0 (17-20] (20-23] (23-26] (26-29] (29-32] (32-35] (35-38] Gols centre La distribució és simètrica.
La mitjana és un bon resum.
dispersió Introducció a l' Anàlisi de Dades - E. Ventura 18 Mesura de centre: la mitjana La mitjana no sembla un bon resum dels salaris ja que la distribució és asimètrica. Quasi tots guanyen menys de 3000 euros.
8 7 6 Mitjana és 3510 5 4 3 F re q ü è n c ia Salaris en una empresa 800 900 1000 1200 1300 1420 2000 2000 2150 2200 2400 2500 2800 7000 8000 10000 12000 2 1 0 [1920,3040) [800,1920) [4160,5280) [3040,4160) [6400,7520) [5280,6400) [8640,9760) [10880,12000] [7520,8640) [9760,10880) Salaris en una empresa Introducció a l' Anàlisi de Dades - E. Ventura 19 Mesura de centre: la mediana obs. 1 obs. 2 obs. 3 obs. 4 obs. 5 obs. 6 obs. 7 obs. 8 obs. 9 obs. 10 obs. 11 obs. 12 obs. 13 obs. 14 obs. 15 obs. 16 obs. 17 Salaris 800 900 1000 1200 1300 1420 2000 2000 2150 2200 2400 2500 2800 7000 8000 10000 12000 Introducció a l' Anàlisi de Dades - E. Ventura En aquest cas pot resultar més útil calcular la mediana com a mesura de centre.
La mediana és el valor de l’observació central quan ordenem les dades de més petit a més gran.
Si el nombre d’observacions es: ƒ Senar: en hi ha un únic valor central.
ƒ Parell: calculem la mitjana de les dues observacions centrals.
20 Comparant mitjana i mediana Mitjana i mediana per a distribució simètrica Mitjana Mediana Asimètrica esquerra Mitjana Mediana Introducció a l' Anàlisi de Dades - E. Ventura Mitjana i mediana per a distribució asimètrica.
Mediana Mitjana Asimètrica dreta 21 Mesures de posició/dispersió „ Les dades es poden resumir amb l’ajut de 5 números, una vegada ordenades de més petit a més gran.
„ Mediana: valor que separa el 50% de les observacions més petites (o més grans).
„ Mínim Recorregut = Màxim - Mínim „ Màxim „ Q1 o 1er quartil: valor que senyala la posició per sota de la qual tenim el 25% de les observacions.
„ Q3 o 3er quartil: valor que senyala la posició per sota de la qual tenim el 75% de les observacions.
Introducció a l' Anàlisi de Dades - E. Ventura 22 Mesures de posició/dispersió „ Exemple 2: salaris (17 obs.) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 800 900 1000 1200 1300 1420 2000 2000 2150 2200 2400 2500 2800 7000 80001000012000 Mínim Q1 Mediana Q3 Màxim 800 1300 2150 2800 12000 Introducció a l' Anàlisi de Dades - E. Ventura 23 Mesures de posició/dispersió „ Exemple 1: futbol (20 obs.) 5 obs 5 obs 5 obs 5 obs 19 21 23 23 24 24 25 26 27 27 27 27 29 29 30 31 32 34 35 38 Mínim Q1 Mediana Q3 Màxim 19 24 27 30,5 38 Introducció a l' Anàlisi de Dades - E. Ventura 24 Diagrama de caixa „ Un diagrama de caixa és un gràfic construït a partir dels 5 números resum.
Rang Interquartílic =Q3-Q1=6,5 Min (19) Q1 (24) Introducció a l' Anàlisi de Dades - E. Ventura Med (27) Q3 (30,5) Max (38) 25 Diagrama de caixa „ Els diagrames de caixa proporcionen menys detall que els histogrames però són molt útils per comparar distribucions.
40 La mediana (i la mitjana) són similars, però la distribució de l’esquerra és més simètrica que la de la dreta.
35 30 25 20 Sovint les observacions extremes se senyalen apart.
15 10 1928-51 1989-09 1928-51 1989-09 19 21 23 23 24 24 25 26 27 27 27 27 29 29 30 31 32 34 35 38 12 14 16 19 19 23 24 25 26 26 27 27 27 27 27 28 30 32 34 38 Introducció a l' Anàlisi de Dades - E. Ventura 26 Mesures de dispersió: la desviació estàndard Pressió arterial màxima de 100 subjectes sans.
Æ Quan ens hem de preocupar per un problema d’hipertensió o hipotensió? obs.
Freqüència 2 3 4 8 15 20 17 12 8 5 3 2 1 100 Introducció a l' Anàlisi de Dades - E. Ventura Distribució presió arterial màxima 25 20 Freqüència Classe 110 112 114 116 118 120 122 124 126 128 130 132 134 15 10 5 0 11 0 11 4 11 8 12 2 12 6 13 0 13 4 27 Mesures de dispersió: la desviació estàndard „ El sentit comú diu que si la mitjana de 120 mm. es considera normal, una pressió massa “allunyada” d’aquest centre es considerarà preocupant. Exactament quant “allunyada”? „ La desviació estàndard mesura la dispersió en relació a la mitjana.
Introducció a l' Anàlisi de Dades - E. Ventura 28 Mesures de dispersió: la desviació estàndard „ Com es calcula? „ Primer calculem la variància : „ „ „ „ „ Calculem la diferència entre el valor de cada observació i la mitjana Elevem cada diferència al quadrat Sumem totes les diferències al quadrat Dividim pel nombre d’observacions menys 1 La desviació estàndard és l’arrel quadrada positiva de la variància.
Introducció a l' Anàlisi de Dades - E. Ventura 29 Mesures de dispersió: la desviació estàndard „ Exemple: 3 observacions (n=3) : Mitjana x : 10 ( ) xi xi − x ( xi − x ) 5 -5 25 10 0 0 15 5 25 suma Introducció a l' Anàlisi de Dades - E. Ventura 50 5 10 15 2 La variància és 50 /(3-1) = 25 La desviació estàndard és 25 = 5 30 Mesures de dispersió: la desviació estàndard „ Per a les dades de la pressió arterial hem calculat: Descripció Resums Numèrics Nombre 100 Mitjana 120,55 DesEst 4,793461 Coef de Var 0,039763 Asimetria 0,145896 Min Q1 Mediana Q3 Max s = 4,8 109 117 120 124 134 Diagrama de Freqüencies #Classes 13 De 108 Fins a 134 Pos decimals 1 25 20 15 Marques...
10 Límits 5 Classes [1 ] 32 ,1 ,1 34 ) 32 ) 30 [1 [1 28 ,1 ,1 28 30 ) ) 26 [1 [1 24 ,1 ,1 26 ) 24 ) 22 [1 20 [1 18 ,1 ,1 20 22 ) ) ,1 [1 [1 14 [1 16 ,1 16 18 ) ) 14 ) ,1 12 ,1 Introducció a l' Anàlisi de Dades - E. Ventura [1 10 [1 08 ,1 12 10 ) 0 [1 X 109 109 112 112 112 113 113 114 114 115 115 115 116 116 115 115 115 117 117 Freqüència Dades Interval Midpoints X 31 Mesures de dispersió: la desviació estàndard „ Fixeu-vos que la major part de les observacions (més del 95% en l’exemple) estan compreses en l’interval definit per [ mitjana – 2*s , mitjana + 2*s] És a dir [120- 2*4,8 a 120 + 2*4,8] o [110,4 a 129,6] „ De fet els metges consideren que hi ha una hipertensió lleu a partir de 139 mm. (unes 4 desviacions). I una hipertensió severa a partir de 159. Per sota de 90 mm.
es considera que hi ha hipotensió.
Introducció a l' Anàlisi de Dades - E. Ventura 32 Altres mesures „ Moda: la observació o la classe amb major freqüència.
„ Percentil del p%: valor que està en la posició per sota de la qual tenim el p% de les observacions.
„ Coeficient de variació: CV = s x „ Mesures d’asimetria: x − Moda De Pearson: A = s 1 p x − Mediana A = s 2 p xi − x ) ( 1 3 Coeficient d'asimetria: CAS = ∑ s3 n − 1 i =1 n Introducció a l' Anàlisi de Dades - E. Ventura 3 33 Altres mesures „ Mesures de curtosi (o apuntament): mesura el grau de concentració de les freqüències al voltant de la mitjana.
xi − x ) 3 ( n − 1) ( n(n + 1) Mesura de curtosi: − ∑ 4 ( n − 1)( n − 2)( n − 3) i =1 s ( n − 2)( n − 3) 4 n 2 -1,36 “platicúrtica” 6,02 “leptocúrtica” 0,3 0,9 0,8 0,25 0,7 0,2 0,6 0,5 0,15 0,3 Proporció Proporció 0,4 0,2 0,1 0,1 0,05 0 0 [1,2,3) [2,3,3,6) [3,6,4,9) [4,9,6,1) X Introducció a l' Anàlisi de Dades - E. Ventura [6,1,7,4) [7,4,8,7) [8,7,10] [1,1,4) [1,4,1,9) [1,9,2,3) [2,3,2,7) [2,7,3,1) [3,1,3,6) [3,6,4] X 34 Quines mesures hem de calcular? „ Distribució asimètrica o presenta valors extrems: els 5 números resum funcionaran millor que mitjana i desviació.
„ La mediana i els quartils són mesures robustes: el seu valor es veu relativament poc afectat per canvis en els valors numèrics d’una petita part de les observacions, sense que importi la magnitud d’aquests canvis.
„ Distribució simètrica i no té valors extrems: la mitjana i la desviació estàndard serviran per descriure-la.
Introducció a l' Anàlisi de Dades - E. Ventura 35 ...