Tema 1 Estadistica descriptiva (2013)

Apunte Español
Universidad Universidad Politécnica de Cataluña (UPC)
Grado Ingeniería de Diseño Industrial y Desarrollo del Producto - 2º curso
Asignatura Probabilitat i estadística
Año del apunte 2013
Páginas 52
Fecha de subida 17/05/2014
Descargas 4
Subido por

Vista previa del texto

13 ´ i Estad´ıstica Descriptiva Introduccio Tema 1: Introducci´ oi Estad´ıstica Descriptiva 0,4 0,3 0,2 0,1 0 -3 -2 -1 0 1 2 3 1.1 Introducci´o 1.2 Problemes que estudia l’Estad´ıstica 1.3 Conceptes generals 1.4 Classes i distribucions de freq¨ u`encies 1.5 Representacions gr`afiques 1.6 Mesures de tend`encia central 1.7 Mesures de dispersi´o 1.8 Mesures de posici´o i de simetria 1.9 Descripci´o conjunta de dades 1.10 Regressi´o lineal simple: recta de m´ınims quadrats 1.11 Relacions no lineals Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 14 ´ i Estad´ıstica Descriptiva Introduccio 1.1 Introducci´ o Els enginyers han de con`eixer una manera de planificar experiments, recollir dades, analitzar, interpretar aquestes dades i entendre com es relacionen les dades observades sota un model proposat, per finalment proposar estrat`egies d’actuaci´o futura.
Els passos del m`etode cient´ıfic s´on: (a) Desenvolupar una descripci´o clara i concisa del problema (b) Identificar els factors importants que afecten el problema (c) Proposar un model per al problema (d) Realitzar experiments per a validar el model (e) Refinar el model proposat (f ) Realitzar un experiment apropiat per a confirmar que la soluci´o proposada ´es efectiva i eficient (g) Treure conclusions o fer recomanacions en base a la soluci´o del problema Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 15 ´ i Estad´ıstica Descriptiva Introduccio Definicions d’Estad´ıstica 1. Ci`encia que proporciona m`etodes per al tractament de dades, permetent comprovar la verificaci´o o no de certes relacions o lleis.
2. Ci`encia que utilitza conjunts de dades num`eriques per a obtenir a partir d’elles infer`encies basades en el c` alcul de probabilitats.
3. Ci`encia que t´e per objecte l’alta de censos i el seu estudi i comparaci´o.
4. Estudi num`eric o gr`afic d’un gran nombre de fets an` alegs, de natura qualsevol.
Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 16 ´ i Estad´ıstica Descriptiva Introduccio Parts de l’estad´ıstica Estad´ıstica descriptiva Infer`encia estad´ıstica Recollir dades d’un proc´es aleatori, classificarlos, representar-los gr`aficament i redu¨ır-los a n´ umeros estad´ıstics.
Dedu¨ır conseq¨ u`encies a partir de dades obtingudes i fer prediccions.
Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 17 ´ i Estad´ıstica Descriptiva Introduccio 1.2 Problemes que estudia l’Estad´ıstica • Descripci´o de dades Trobar procediments per a resumir la informaci´o continguda en les dades • An`alisi de mostres Escollir una mostra representativa i generalitzar a tota la poblaci´o • Contrast d’hip`otesis Decidir si una hip`otesi de treball ´es correcte o no.
• Medici´o de relacions Determinar una relaci´o estad´ıstica, que no exacta.
• Predicci´o Usar la inercia dels fen`omens econ`omics i f´ısics per a fer prediccions.
Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 18 ´ i Estad´ıstica Descriptiva Introduccio 1.3 Conceptes generals ◃ Poblaci´o o univers Conjunt de refer`encia sobre el qual fem les observacions.
◃ Individu Unitat estad´ıstica que pertany a la poblaci´o.
◃ Mostra Subconjunt de la poblaci´o.
◃ Car`acters d’una poblaci´o Propietat inherent de l’individu.
◦ Car`acter quantitatiu o variable ◦ Car`acter qualitatiu o atribut ◃ S`erie temporal Observaci´o amb pauta temporal (cada hora, cada mes,etc.).
Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 19 ´ i Estad´ıstica Descriptiva Introduccio Car` acters d’una poblaci´ o Atribut. No prenen valors num`erics sino modals.
Descriuen qualitats. P.e.: classificar una pe¸ca com acceptable o rebutjable, la professi´o, etc.
Variable quantitativa discreta. Pr`en u ´nicament valors enters i es correspon generalment a comptar el nombre de cops que succeix un esdeveniment. P.e.: el pols, el nombre de germans, etc.
Variable quantitativa cont´ınua. Pr`en valors en un interval i es correspon a medir magnituts reals. P.e.: el p`es, la llongitut, el temps que tarda en caure un objecte, etc.
Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 20 ´ i Estad´ıstica Descriptiva Introduccio Intervals de classe Es defineixen per a obtenir una idea m´es concreta de la realitat, per`o amb p`erdua d’informaci´o.
Def. 1. Interval de classe Es correspon a cada un dels intervals en que es poden agrupar les dades d’una variable estad´ıstica ◃ Marca de classe: punt mig del interval.
◃ Llongitud dels intervals: tots la mateixa.
◃ Nombre d’intervals: dependr`a de les caracter´ıstiques de la variable. El nombre reconemat est`a entre 7 i 15. Alguns autors prosen expressions de la forma: K = 1 + 3.3log10 n √ K= n ◃ Limits de l’interval: han de ser valors simples.
Per convenci´o el l´ımit inferior no pertany a l’interval per`o el superior si.
Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 21 ´ i Estad´ıstica Descriptiva Introduccio Exemple. 1.
Considerem la seg¨ uent taula, que indiquen les puntuacions d’una prova d’intelig`encia aplicada a 75 alumnes de 2on de batxillerat (2000).
111 94 115 89 82 141 92 132 112 97 135 101 104 130 99 87 105 88 103 114 125 108 107 118 114 129 100 106 113 105 114 91 132 110 113 102 146 95 101 115 104 87 108 115 103 109 114 141 116 108 102 101 124 98 140 107 93 108 122 117 118 138 99 105 112 94 96 132 118 123 108 131 127 100 91 En primer lloc, determinem: valor major: 146 valor menor: 82 difer`encia: 64 Resulta convenient que el nombre d’intervals sigui un divisor de 64. Per tant, 8 intervals d’amplada 8 ´es una bona soluci´ o.
Intervals Marca de classe Intervals Marca de classe [82, 90] 86 (114, 122] 118 (90, 98] 94 (122, 130] 126 (98, 106] 102 (130, 138] 134 (106, 114] 110 (138, 146] 142 Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 22 ´ i Estad´ıstica Descriptiva Introduccio 1.4. Classes i distribucions de freq¨ u` encies Def. 2. Freq¨ u` encia absoluta (ni ) S’anomena freq¨ u`encia absoluta d’un valor al nombre de cops que es repeteix aquest valor.
Sigui n el nombre total d’individus que componen la llista de dades i k el nombre de valors diferents que prenen. Aleshores: ni ≤ n , k ∑ ni = n i=1 Def. 3. Freq¨ u` encia relativa (fi ) ´ la relaci´ Es o existent entre la freq¨ u`encia absoluta i el total d’elements: ni fi = n Si cada freq. relativa ´es multipicada per 100: fi × 100 (%), s’obt´e el tant per cent.
Si treballem amb intervals de classe, les freq¨ u`encies es defineixen en cada interval com el nombre d’elements que hi pertanyen.
Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 23 ´ i Estad´ıstica Descriptiva Introduccio Considerem la llista de dades ordenada en ordre creixent o decreixent.
Def. 4. Freq. acumulada La freq¨ u`encia acumulada d’un valor donat ´es la suma de freq¨ u`encies fins aquest valor determinat.
Notaci´ o Ni freq¨ u`encia absoluta acumulada Fi freq¨ u`encia relativa acumulada Aleshores, Nn = n , Fn = 1 cont ex. 1.
Marca de classe ni Ni fi Fi 86 5 5 94 9 14 102 17 31 1 15 9 75 17 75 1 13 14 75 31 75 110 16 118 11 .
.
.
.
.
.
.
.
.
126 6 134 6 142 5 75 1 15 1 Total 75 - 1 - Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 24 ´ i Estad´ıstica Descriptiva Introduccio Distribucions de freq¨ u` encies Def. 5. Una distribuci´ o de freq¨ u`encia ´es una taula on s’agrupen les observacions o dades d’una variable, junt amb les seves freq¨ u`encies.
◃ Distribucions tipus I Consten d’un nombre redu¨ıt d’observacions.
◃ Distribucions tipus II Es donen quan el nombre d’observacions ´es gran, per`o el nombre de valors diferents que poden prendre ´es petit.
Es disposen en una taula amb dues columnes: una amb els valors diferents (xi ) i l’altra amb llur freq¨ u`encia.
xi ni x1 n1 x2 n2 ...
...
xk nk Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 25 ´ i Estad´ıstica Descriptiva Introduccio ◃ Distribucions tipus III apareixen quan tan el nombre d’observacions com de valors diferents que prenen ´es gran.
Aleshores s’agrupen les observacions en intervals de classe.
Es construeix la taula de tres columnes: els intervals (Ii ), la seva marca de classe (xi ) i la seva freq¨ u`encia (ni ).
Ii xi ni I1 x1 n1 I2 x2 n2 ...
...
...
Ik xk nk Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 26 ´ i Estad´ıstica Descriptiva Introduccio 1.5. Representacions gr` afiques La transcripci´o de totes les dades en una gr`afica ´es un dels recursos m´es corrents que s’usen per veure r` apidament tot el est`a escrit a les taules d’estad´ıstica.
Els objectius d’aquesta transcripci´o han de ser: • La simplicitat del gr`afic • La precisi´o (de car`acter num`eric i no de representaci´o) Diferents tipus de gr`afics: ◃ Diagrama de barres ◃ Histograma de freq¨ u`encies ◃ Pol´ıgons de freq¨ u`encies ◃ Diagrames de sectors Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 27 ´ i Estad´ıstica Descriptiva Introduccio ◃ Diagrama de barres Pr`opia de distribucions de tipus II. En l’eix OX figuren els valors de la variable. En l’eix OY se situen les freq¨ u`encies relatives o absolutes.
Figura 1: Diagrama de barres (negre) i pol´ıgon de freq¨ u`encies (vermell) Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 28 ´ i Estad´ıstica Descriptiva Introduccio ◃ Histograma Habitual per a distribucions de tipus III. En l’eix OX es posen els intervals de classe. Sobre ells, prenent-los com a base, es construeixe un rectangle d’`area igual a la freq¨ u`encia absoluta (o relativa) de l’interval en q¨ uesti´ o.
Sigui ai l’amplada de l’interval de classe Ii .
L’al¸cada de cada rectangle, hi , es calcula sabent que: ni ni = ai hi ⇒ hi = .
ai a3 Figura 2: Histograma i pol´ıgon de freq¨ u`encies (vermell) Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 29 ´ i Estad´ıstica Descriptiva Introduccio ◃ Pol´ıgon de freq¨ u`encies ◦ Variable tipus II: es construeix unint els extrems superiors de les barres del diagrama de barres.
◦ Variable de tipus III: s’obt´e unint els punts mitjos de les bases superiors de cada rectangle del histograma.
◃ Representacions gr`afiques de car`acters qualitatius ◦ Diagrama de rectangles.
◦ Diagrama de sectors (de past´ıs).
45% Menjars 30% Transport 25% Allotjament Diagrama de sectors Figura 3: Diagrama de sectors Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 30 ´ i Estad´ıstica Descriptiva Introduccio 1.6. Mesures de tend` encia central Les mesures de centralitzaci´ o tenen per finalitat representar la s`erie estad´ıstica amb un nombre, sota el punt de vista de la seva posici´o.
◃ Mitjana aritm`etica x ◃ Mediana Me ◃ Moda Mo Al llarg d’aquesta secci´o, considerem {x1 , x2 , . . . , xn } una s`erie estad´ıstica qualsevol.
Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 31 ´ i Estad´ıstica Descriptiva Introduccio Def. 6. Mitjana aritm` etica n ∑ x1 + x2 + · · · + xn x= = n xi i=1 n Per a distribucions de tipus II, queda: 1∑ xi ni x= n i=1 k Si es treballa amb les dades agrupades, ´es a dir, amb intervals de classe, aleshores es pren xi igual a les marques de classe.
Propietat. La suma de les desviacions respecte a la mitjana val 0: n ∑ (xi − x) = 0 i=1 Propietat. Siguin a i b dos escalars qualsevols. Si Y = aX + b, aleshores y = ax + b.
Propietat. La mitjana ´es el valor de ϕ que fa m´ınima l’expressi´ o n ∑ 2 (xi − ϕ) .
i=1 Aquest m´ınim ser`a la vari` ancia de X.
Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 32 ´ i Estad´ıstica Descriptiva Introduccio Def. 7. Mediana ´ el valor de l’element central de la s`erie Es estad´ıstica, ordenada en sentit creixent o decreixent.
Per tant, el 50% dels valors s´on menors a la mediana i l’altre 50% major.
Si n ´es parell, existeixen dos elements centrals. En aquest cas, la mediana ´es la mitjana dels dos valors correponents.
M`etode per a distribucions de tipus II: (a) Calcular la columna de les freq¨ u`encies acumulades (b) Si existeix Ni = n/2, M e = xi +2xi+1 . Si no, M e ´es el valor de la variable xi corresponent a la primera Ni major que n/2.
Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 33 ´ i Estad´ıstica Descriptiva Introduccio Def. 8. Moda Es correspon al valor m´es freq¨ uent de la s`erie estad´ıstica.
No t´e perqu`e ser u ´nica. Si n’hi ha dos, es diu que la s`erie ´es bimodal.
Si la variable ve donada en intervals de classe, parlem d’interval modal.
Es correspon al rectangle de major `area. Podem aleshores aproxima la moda per la marca de classe de l’interval.
Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 34 ´ i Estad´ıstica Descriptiva Introduccio Exemple. Tenim les seg¨ uents al¸cades (en cm) d’un conjunt de persones: {178, 181, 168, 183, 164, 181, 174, 176, 174, 176, 181, 168, 164, 174, 171} xi ni Ni fi Fi 164 2 2 0.13 0.13 168 2 4 0.13 0.26 171 1 5 0.07 0.33 174 3 8 0.2 0.53 176 2 10 0.13 0.66 178 1 11 0.07 0.73 181 3 14 0.2 0.93 183 1 15 0.07 1 ◃ Mitjana x = 164∗2+168∗2+171∗1+174∗3+178∗1+181∗3+183∗1 ⇒ 15 x = 174, 2 ◃ Mediana La fila Ni > n/2 = 7.5 ´es xi = 174.
◃ Moda Es tracta d’una variable bimodal: M o = {174, 181}.
Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 35 ´ i Estad´ıstica Descriptiva Introduccio Comparaci´ o entre x, Me i Mo ◃ La mitjana usa totes les dades per`o hi ´es sensible.
◃ La mediana usa menys informaci´o per`o no es veu alterada en pres`encia d’errors d’observaci´ o.
◃ La moda ´es inestable.
Exemple. Si considerem les mesures de {1.8, 1.9, 2.0, 2.0, 2.1, 2.2, 9.0} , la mitjana ´es 3.0 mentre que la mediana ´es 2.0.
Per tant, Me ´es m´es representativa que x, si tenim en compte que el valor 9.0 ´es at´ıpic.
Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 36 ´ i Estad´ıstica Descriptiva Introduccio 1.7. Mesures de dispersi´ o ◃ Recorregut ◃ Desviaci´o t´ıpica o st`andard ◃ Vari`ancia ◃ Coeficient de variaci´ o de Pearson Aquestes mesures indiquen el nivell de concentraci´ oo dispersi´o de les dades analitzades. Com a conseq¨ u`encia, ens indicaran la bondat de representaci´o dels par`ametres de centralitzaci´ o.
Exemple. Compara les dues mostres {5, 25, 60} i {28, 29, 33}.
Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 37 ´ i Estad´ıstica Descriptiva Introduccio Def. 9. Recorregut ´ la difer`encia entre el valor m` Es axim i el valor m´ınim de la variable X: R = max(X) − min(X) .
Def. 10. Rang ´ l’interval que t´e per extrems el m´ınim i el m` Es axim de la variable.
Def. 11. Desviaci´ o t´ıpica o st` andard ´ un promig de les desviacions dels valors respecte a Es la mitjana: n ∑ (xi − x)2 sX = i=1 n Si tenim les dades agrupades: 1∑ (xi − x)2 ni n i=1 k sX = Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 38 ´ i Estad´ıstica Descriptiva Introduccio Teorema de Desigualtat de Txebichev Propietat. Entre la mitjana x i ±m cops la desviaci´ o t´ıpica existeix, com a m´ınim, el ( ) 1 100 1 − m2 % de les observacions.
Aquesta propietat tamb´e es coneix com Desigualtat de Txebichev.
Exemple. Si la mitjana val 500 i la desviaci´ o t´ıpica ´es 20, entre la mitjana i 5 desviacions, ´es a dir, entre 400 i 600, estaran com a m´ınim el 100(1 − 1/25)% = 96% de les observacions.
Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 39 ´ i Estad´ıstica Descriptiva Introduccio Def. 12. Vari` ancia Es defineix com el quadrat de la desviaci´ o t´ıpica: Var(X) = s2X .
C` alcul: s2X ∑ = x2i n − x2 2 = 0 ⇔ X ´es constant Propietat. SX Propietat. Var(aX + b) = a2 Var(X) Def. 13. Coeficient de Pearson Indica el promig de l’error respecte la quantitat mitjana: sX .
CV = x No es pot calcular si la mitjana ´es nul·la.
Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 40 ´ i Estad´ıstica Descriptiva Introduccio Variables tipificades Variable sense dimensions que medeix la desviaci´o respecte a la mitjana: X −X Z= S La variable tipificada Z t´e mitjana 0 i desviaci´o t´ıpica 1.
Usades per a comparar mostres diferents d’una mateixa variable.
Exemple. Se sap que el consum mig de gasolina d’una determinada marca A de cotxes ´es de 7 litres, amb una desviaci´ o de 0.7 litres. Una segona marca B de cotxes t´e un consum mig de 6.5l, amb una desviaci´ o t´ıpica de 0.8l. Volem determinar si un autom` ovil marca B que consumeix 8l t´e un consum relatiu major a un autom` ovil marca A que consumeix el mateix.
8−7 ZA = = 1.428 0.7 8 − 6.5 ZB = = 1.875 0.8 D’on, el consum relatiu ´es major per la marca B.
Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 41 ´ i Estad´ıstica Descriptiva Introduccio 1.8. Mesures de posici´ o i de forma ◃ Quartil·les i percentil·les ◃ Diagrama de capsa ◃ Distribucions sim`etriques i asim`etriques.
Coeficients d’asimetria ◃ Coeficients d’apuntament Anomenem mesures de dispersi´o o quantil·les a aquelles mesures que divideixen la distribuci´o en trossos, de tal forma que en cada un d’ells hi hagi el mateix nombre d’elements.
Les mesures de simetria analitzen la forma de la distribuci´o.
Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 42 ´ i Estad´ıstica Descriptiva Introduccio Les quartil·les divideixen la distribuci´o en 4 parts.
◃ Quartil·la inferior: Q1 , el 25% dels valors s´on iguals o menors a ella.
◃ Q2 : Mediana ◃ Quartil·la superior: Q3 , el 75% dels valors de la variable s´on o inferiors a ella.
Exemple. C` alcul de les tres quartil·les de la seg¨ uent distribuci´ o de freq¨ u`encies: xi ni Ni 2 8 8 3 10 4 12 5 6 6 3 Primer calculem la columna de les freq¨ u`encies absolutes acumulades. A partir d’ella, tenim que n 39 = = 9.75 ⇒ Q1 = 3 4 4 n = 19.50 ⇒ Q2 = 4 2 n 3 = 29.25 ⇒ Q3 = 4 .
4 Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 43 ´ i Estad´ıstica Descriptiva Introduccio Percentil·les La percentil·la k-` essima Pk ´es un valor de les dades tal que, aproximadament el k % de les observacions s´on menors o iguals a ell.
D’altra banda, aproximadament el 100(1 − k)% de les dades es troba per sobre d’aquest valor.
Exemple. Reprenent l’exemple anterior, calculem el percentil P80 , ´es a dir, el valor que deixa per sota ell el 80% dels valors. Tenim n = 39 valors. Per tant, 80 · 39 = 31, 20 ⇒ 30 < 31, 20 ≤ 36 ⇒ P80 = 5 100 Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 44 ´ i Estad´ıstica Descriptiva Introduccio Diagrama de caixa (Boxplot) ´ Utils per a comparar la distribuci´o d’una variable en diferents poblacions.
Veure document ”Boxplot.pdf” Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena ´ i Estad´ıstica Descriptiva Introduccio 45 Moments ◃ Moment d’ordre p respecte l’origen: 1∑ p ap = xi n i=1 n ◃ Moment d’ordre p respecte la mitjana: 1∑ mp = (xi − x)p n i=1 n x = a1 s2X = m2 Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 46 ´ i Estad´ıstica Descriptiva Introduccio Distribucions sim` etriques i asim` etriques Una distribuci´o de freq¨ u`encies ´es sim` etrica quan valors de la variable equidistants d’un valor central tenen les mateixes freq¨ u`encies.
Figura 4: Distribucions sim`etriques mitjana = mediana = moda Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 47 ´ i Estad´ıstica Descriptiva Introduccio En cas contrari, s’anomena asim` etrica. L’asimetr´ıa pot ser positiva (cap a la dreta) o negativa (capa l’esquerra).
Figura 5: Distribucions asim`etriques Asimetr´ıa positiva: mitjana ≥ mediana ≥ moda Asimetr´ıa negativa: mitjana ≤ mediana ≤ moda Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena ´ i Estad´ıstica Descriptiva Introduccio 48 Coeficients d’asimetr´ıa ◃ Coeficient d’asimetr´ıa de Fisher: m3 CAF = 3 sX ◃ Coeficient d’asimetr´ıa de Pearson: x − moda CAP = s3X En ambd´os coeficients ´es te que: ◃ CA < 0 Asimetr´ıa negativa ◃ CA = 0 Simetr´ıa ◃ CA > 0 Asimetr´ıa positiva Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 49 ´ i Estad´ıstica Descriptiva Introduccio Coeficient d’apuntament o curtosi Figura 6: Apuntament de les distribucions CC = m4 s4X ◃ CC > 3 Leptoc´ urtica ◃ CC = 3 Mesoc´ urtica ◃ CA < 3 Platic´ urtica en comparaci´o amb la distribuci´o normal.
Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 50 ´ i Estad´ıstica Descriptiva Introduccio 1.9. Descripci´ o conjunta de dades ◃ Distribuci´o conjunta ◃ Distribuci´o marginal ◃ Distribucions condicionades i independ`encia ◃ Representaci´o gr`afica per a variables conjuntes Suposarem que sobre cada individu s’han observat varies variables o caracter´ıstiques. La nostra finalitat ´es realitzar el seu estudi de manera conjunta.
Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 51 ´ i Estad´ıstica Descriptiva Introduccio Distribuci´ o conjunta Suposem que observem dues caracter´ıstiques d’una mateixa poblaci´o: variables X i Y .
Def. 14. Distribuci´ o bidimensional La distribuci´ o de freq¨ u`encies conjunta de X i Y ´es la taula que representa els valors observats (xi , yi ) i llurs freq¨ u`encies absolutes nij (o relatives fij ).
X/Y y1 ...
yj ...
ys nx x1 n11 ...
n1j ...
n1s n(x1 ) ...
...
...
...
...
...
...
xi ni1 ...
nij ...
nis n(xi ) ...
...
...
...
...
...
...
xr nr1 ...
nrj ...
nrs n(xr ) ny n(y1 ) ...
n(yj ) ...
n(ys ) n r ∑ s ∑ i=1 j=1 nij = n ; r ∑ s ∑ fij = 1 i=1 j=1 ◃ Variables qualitatives: taula de conting`encies.
Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 52 ´ i Estad´ıstica Descriptiva Introduccio Distribuci´ o marginal ∑r ◃ n(xi ) = j=1 nij correspon a la freq¨ u`encia total del valor xi , per a tots els valors de la variable Y .
◃ La primera i u ´ltima columna de la taula formen la distribuci´o marginal de X.
∑s ◃ n(yj ) = i=1 nij correspon a la freq¨ u`encia total del valor yj , per a tots els valors de la variable X.
◃ La primera i u ´ltima fila de la taula formen la distribuci´o marginal de Y .
A partir d’aquestes freq¨ u`encies, es fa la descripci´o per a cada variable.
Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 53 ´ i Estad´ıstica Descriptiva Introduccio Distribuci´ o condicionada ¿Qu`e passa amb la variable X si fixem un determinat valor de Y ? Volem calcular la freq¨ u`encia relativa de X si sabem que Y = yj . En aquest cas es parla de distribuci´o condicionada: fij = f (xi /yj ) = f (yj ) Per tant, r ∑ nij n n(yj ) n nij = n(yj ) f (xi /yj ) = 1.
i=1 Variables independents Diem que la variable X ´es independent de Y si ∀i, j, la freq¨ u`encia condicionada co¨ıncideix amb la marginal: f (xi /yj ) = f (xi ) Per tant, la distribuci´o conjunta es pot calcular de la seg¨ uent manera: fij = f (xi ) f (yj ) , n nij = n(xi )n(yj ) Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 54 ´ i Estad´ıstica Descriptiva Introduccio Moments ◃ Moment d’ordre (u, v) respecte l’origen: 1 ∑∑ u v xi yj nij = n i=1 j=1 r au,v s ◃ Moment d’ordre (u, v) respecte la mitjana: 1 ∑∑ = (xi − x)u (yj − y)v nij n i=1 j=1 r mu,v s El moment d’ordre (1, 1) respecte la mitjana s’anomena covari`ancia de les variables X i Y : 1 ∑∑ Cov(X, Y ) = (xi − x)(yj − y)nij n i=1 j=1 r s Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 55 ´ i Estad´ıstica Descriptiva Introduccio Exemple. La relaci´ o entre averies mensuals d’una m` aquina i la temperatura mitjana ve donada per la seg¨ uent taula de freq¨ u`encies relatives conjuntes: 120o 140o 160o 2 0.20 0.15 0.10 0.45 f (x1 ) 3 0.12 0.07 0.05 0.24 f (x2 ) 4 0.04 0.10 0.02 0.15 f (x3 ) 5 − 0.05 0.10 0.15 f (x4 ) 0.36 0.37 0.27 1 f (y1 f (y2 ) f (y3 ) Averies xi Temp. y1 (a) La distribuci´ o condicionada de les averies quan es dona una temperatura de 140o ´es xi f (xi ) 2 f (2/140o ) = 3 f (3/140o ) = 4 f (4/140o ) = 5 f (5/140o ) = 0.15 0.37 0.07 0.37 0.10 0.37 0.05 0.37 = 0.40 = 0.19 = 0.27 = 0.13 (b) Les variables ’temperatura’ i ’nombre d’averies’ no s´ on independents: f (5/140o ) = 0.5 = 0.13 ̸= f (5) = 0.15 .
0.37 Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 56 ´ i Estad´ıstica Descriptiva Introduccio Representaci´ o gr` afica per a variables conjuntes • Diagrama de barres o histograma 3-dimensional: s´on dificils d’interpretar.
• Diagrama de dispersi´o: s´on u ´tils per saber si hi ha cap tipus de relaci´o entre ambdues variables: Figura 7: Diagrama de dispersi´o • Dependencia funcional o determinista: entre dues variables X i Y , quan existeix una expressi´o matem`atica que les relaciona.
• Dependencia estad´ıstica o aleat`oria: entres dues variabels X i Y , quan no existeix una equaci´o que les relacioni.
Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 57 ´ i Estad´ıstica Descriptiva Introduccio 1.10. Regressi´ o lineal simple: recta de m´ınims quadrats ◃ Recta de regressi´o ◃ Bondat de l’ajust Suposem que estudiem dues variables X i Y . Una vegada fet el diagrama de dispersi´o i observar una possible relaci´o lineal,ens proposem trobar l’equaci´o de la recta que millor s’ajusta al n´ uvol de punts.
Aquesta recta s’anomena recta de regressi´o: y = mx + b Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 58 ´ i Estad´ıstica Descriptiva Introduccio y= mx + b mx i + b Figura 8: Recta de regressi´o Donada una observaci´ o (xi , yi ), anomenen valor estimat, al valor que s’obt´e a partir de la recta de regressi´o pel valor de X igual a xi , i el designem per yˆi : yˆi = mxi + b Anomenem residu o error, a la difer`encia entre el valor observat i el valor estimat: ei = yi − yˆi = yi − (xi + b) Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 59 ´ i Estad´ıstica Descriptiva Introduccio El m`etode de Regressi´ o lineal pel m`etode dels m´ınims quadrats consisteix en buscar els valors dels par` ametres m i b que fan m´ınima la suma dels quadrats dels residus: n ∑ SQE = (yi − b − mxi )2 i=1 Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 60 ´ i Estad´ıstica Descriptiva Introduccio     ∂ ∂b SQE    ∂ ∂m SQE Aleshores, = −2 n ∑ (yi − (b + mxi )) = 0 i=1 n ∑ = −2 (yi − (b + mxi )) xi = 0 i=1  ∑ ∑   yi = nb + m i xi  i ∑ ∑ ∑ 2   xi yi = b xi + m xi  i i i A¨ıllant m i b, obtenim    b = y − mx   m= O b´e, 1 n    m= ∑ i xi yi −x y ∑ 1 2 2 i xi −x n Cov(X,Y ) Var(X)   b = y − mx Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 61 ´ i Estad´ıstica Descriptiva Introduccio Bondat de l’ajust ◃ Diagrama de dispersi´o ◃ Coeficient de determinaci´o R2 ◃ Coeficient de correlaci´o r Def. 15. Coeficient de determinaci´ o ´ la proporci´ Es o de vari` ancia explicada per la recta de regresi´ o: Vari` ancia explicada per la recta .
R = Vari` ancia observada 2 Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 62 ´ i Estad´ıstica Descriptiva Introduccio A partir de l’expressi´o dels residus: ei = yi − yˆi : yi − y = (ˆ yi − y) + ei Elevant al quadrat i sumant, es pot demostrar que s’obt´e: n n n ∑ ∑ ∑ (yi − y)2 = (ˆ yi − y)2 + e2i i=1 i=1 i=1 SQT = SQR + SQE Per tant, el coeficient de determinaci´o es pot expressar com R2 = SQR SQE =1− SQT SQT ◃ Si R2 = 1, tenim ajust perfecte ◃ Si R2 = 0, la recta no explica r`es ◃ Quan major sigui el valor de R2 , millor ser`a l’ajust Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 63 ´ i Estad´ıstica Descriptiva Introduccio Coeficient de correlaci´ or ´ la mesura de l’associaci´o lineal que existeix entre Es X i Y , en relaci´o amb les seves dispersions.
r= Cov(X, Y ) SX SY De fet, el coef. de determinaci´o ´es el quadrat del coef. de correlaci´o: R2 = r2 ◃ −1 ≤ r ≤ 1 ◃ Si r = −1, relaci´o lineal exacta amb pendent negativa ◃ Si r = 1, relaci´o lineal exacta amb pendent positiva ◃ Si r = 0, no existeix cap relaci´o lineal entre X i Y ◃ Quan major sigui |r|, millor ser`a la relaci´o lineal entre les dues variables Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena 64 ´ i Estad´ıstica Descriptiva Introduccio 1.11. Relacions no lineals Es poden establir altres models d’ajust. M´es el habitual ´es l’exponencial: y = k cx , c > 0 , k > 0 Considerant logaritmes, es linealitza el problema: ln(y) = ln(k) + x ln(c) Aquesta equaci´o mostra un model lineal entre X i ln(Y ).
Probabilitat i Estad´ıstica - Curs 13-14 / T Jos´ e Gibergans B´ aguena ...