Estadistica I (2015)

Resumen Español
Universidad Universidad de las Palmas de Gran Canaria
Grado Economía - 1º curso
Asignatura Estadística I
Año del apunte 2015
Páginas 14
Fecha de subida 23/07/2017
Descargas 0

Vista previa del texto

RESUMEN DE ESTADÍSTICA TEMA 2: DESCRIPCIÓN UNIVARIANTE MEDIDAS DE POSICIÓN Media aritmética 1 j x = ∑ xi ni N i =1 Mediana, cuartiles, deciles y percentiles Para calcular estos estadísticos, en primer lugar obtenemos el valor z entre 0 y 1 que representa a la posición que ocupa la mediana, cuartil, decil o percentil.
• Mediana: z = 1/2 • Cuartil: z = k/4, donde k es el nº de cuartil (1, 2 ó 3) • Decil: z = k/10, donde k es el nº de decil (de 1 a 9) • Percentil: z = k/100, donde k es el nº de percentil (de 1 a 99) 1.
2.
3.
4.
5.
6.
Ordenamos los datos de menor a mayor.
Nos fijaremos en la frecuencia acumulada para encontrar la mediana/cuartil/...
Si tenemos la frecuencia absoluta (ni) pero no la relativa (fi), multiplicamos z por N.
Nos fijamos en el primer valor cuya frecuencia sea igual o superior a z (o z*N).
Si el valor es superior a z (o z*N), el valor encontrado es la mediana/cuartil/… Si el valor es igual a z (o z*N), la mediana/cuartil/… se obtiene calculando la media entre el valor encontrado y el inmediatamente superior.
Ejemplos: xi 10 11 12 13 ni 4 6 7 3 Ni 4 10 17 20 xi 10 11 12 13 fi 0,1 0,2 0,3 0,4 Fi 0,1 0,3 0,6 1 1. En la tabla de la izquierda queremos calcular la mediana (Me).
z = 1/2 Como tenemos la frecuencia absoluta, z*N = (1/2)*20 = 10.
En el valor Xi=11, Ni=10 es igual a z*N. Por tanto, Me = (11+12)/2 = 11,5 2. En la tabla de la derecha queremos calcular el 4º decil (D4).
z = 4/10 En el valor Xi=12, Fi=0,6 supera a z. Por tanto, D4 = 12 1 Cálculo de la mediana/cuartil/… con datos agrupados en intervalos Se siguen los mismos pasos que antes, pero una vez que tenemos el intervalo de la mediana/cuartil/…, hay que calcular el valor más apropiado dentro de ese intervalo.
 z − Fi −1   z ⋅ N − N i −1  Fr. relativas: Pz = Ei −1 + Ai  Fr. absolutas: Pz = Ei −1 + Ai    ni  fi    • z es un valor entre 0 y 1 que representa la posición de la mediana/cuartil/...
Por ejemplo, para el primer cuartil z=1/4 (ver página anterior).
• Ei-1 es el extremo inferior del intervalo donde está la mediana/cuartil/… • Ai es la amplitud de ese intervalo.
• Fi-1 (o Ni-1) es la frecuencia acumulada del intervalo anterior.
• fi (o ni) es la frecuencia del intervalo donde está la mediana/cuartil/… • Elegiremos una u otra fórmula según tengamos frecuencias relativas o absolutas.
Ejemplo: Ei-1 10 20 30 35 Ei 15 25 35 40 ni 3 8 6 3 Ni 3 11 17 20 Queremos calcular el 3º cuartil. En este caso: z = 3/4 Como tenemos frecuencias absolutas, calculamos z*N = 3/4*20=15.
Buscamos el intervalo cuya frecuencia absoluta acumulada sea mayor que 15.
Por tanto, el 3º cuartil se encuentra en el intervalo de 30 a 35.
⌢  ( 3 / 4 ) 20 − 11   z ⋅ N − N i −1  2 P3/ 4 = Ei −1 + Ai   = 30 + 5 ⋅ = 33, 3  = 30 + 5  ni 6 3     Propiedades de la media j 1.
∑( X i =1 i − X ) ni = 0 2. Si Z i = C + X i ⇒ Z =C+X 3. Si Z i = C × X i ⇒ Z =C×X 2 Moda La moda es el valor que más se repite en una distribución.
Si los datos están agrupados en intervalos de igual amplitud: Localizamos el intervalo que más se repite (intervalo modal) y usamos esta fórmula:  ni +1  Mo = Ei −1 + Ai    ni −1 + ni +1  • Ei-1 es el extremo inferior del intervalo modal.
• Ai es la amplitud del intervalo modal.
• ni es la frecuencia del intervalo modal.
• ni-1 es la frecuencia del intervalo anterior al modal.
• ni+1 es la frecuencia del intervalo posterior al modal.
• Pueden usarse frecuencias relativas o absolutas.
Si los datos están agrupados en intervalos de distinta amplitud: Construimos la columna di, dividiendo las frecuencias entre cada amplitud: di = ni Ai Luego realizamos los mismos pasos que en el caso anterior, pero fijándonos en di en lugar de ni. Es decir, localizamos el intervalo con mayor di y aplicamos esta fórmula:  di +1  Mo = Ei −1 + Ai    di −1 + di +1  MEDIDAS DE DISPERSIÓN Desviación media 1 j Dm = ∑ xi − x ni N i =1 Varianza σ x2 = 1 1 j 2 ( xi − x ) ni =  ∑ N i =1 N j  ∑x n −x i =1 2 i i 2  Desviación típica σ x = σ x2 Propiedades de la varianza y la desviación típica Si Z i = C + X i ⇒ Var ( Z ) = Var ( X ) y σ ( Z ) = σ ( X ) Si Z i = C × X i ⇒ Var ( Z ) = C 2 × Var ( X ) y σ ( Z ) = C × σ ( X ) 3 Coeficiente de variación (de Pearson) Es una medida normalizada de la dispersión de una distribución.
CV = • • • σ x Si CV < 1, la distribución se considera de “poca variabilidad”.
Si CV > 1, la distribución se considera de “alta variabilidad”.
Si CV > 1, la media es poco representativa (y viceversa).
MEDIDAS DE FORMA Coeficiente de asimetría de Fisher 1 j 3 xi − x ) ni ( ∑ 3 µ N i =1 CA = 3 = 3 σ • • • σ Si CA < 0 hay asimetría a la izquierda (asimetría negativa).
Si CA = 0 hay simetría.
Si CA > 0 hay asimetría a la derecha (asimetría positiva).
Coeficiente de curtosis K= • • • µ4 = σ4 1 j 4 ( xi − x ) ni ∑ N i =1 σ4 Si K = 3 la distribución es mesocúrtica.
Si K > 3 la distribución es leptocúrtica.
Si K < 3 la distribución es platicúrtica.
Nota: A veces se le resta 3 al coeficiente de curtosis para “normalizarlo”.
4 MEDIDAS DE CONCENTRACIÓN Índice de Gini j −1 IG = ∑( p − q ) i =1 i i j −1 ∑p i =1 pi = Ni × 100 N qi = ui ×100 un i Para cada elemento, ui es la suma acumulada de xi*ni en ese elemento: i ui = x1n1 + x2 n2 + … + xi ni = ∑ xh nh h =1 Ejemplos: práctica 5; http://youtu.be/STSi41E1YUY Curva de Lorenz Se construye a partir de los valores de pi y qi que se calculan para el índice de Gini.
El área hasta la bisectriz representa el grado de concentración de la variable.
TEMAS 3-4: DESCRIPCIÓN BIVARIANTE. REGRESIÓN OMITIDO.
(Aprende las fórmulas y practica con los ejercicios.) 5 TEMA 5: SERIES TEMPORALES CONSEJO: Para este tema es conveniente repasar la práctica 8.
Introducción Serie temporal: Sucesión de observaciones cuantitativas ordenadas cronológicamente (o distribución bidimensional, con X=tiempo, Y=variable).
En este tema aprenderemos fundamentalmente a describir el comportamiento de las series temporales y a predecir la serie en el futuro.
Componentes de una serie • Tendencia (T): Refleja la evolución a largo plazo.
• Estacionalidad (E): Recoge las oscilaciones que se producen en períodos < 1 año y que se repiten de forma regular (ej.: por vacaciones, Navidad, etc.).
• Ciclo (C): Recoge las oscilaciones periódicas de amplitud mayor a 1 año (ej.: etapas de prosperidad o depresión).
• Componente residual (R): Recoge fluctuaciones erráticas debidas a fenómenos imprevisibles.
Nosotros nos centraremos en el cálculo de las componentes tendencial y estacional.
Esquema aditivo o multiplicativo La serie puede tener un esquema aditivo o multiplicativo según se sumen o multipliquen sus componentes: • Esquema aditivo: Yt = Tt + Et + Ct + Rt • Esquema multiplicativo: Yt = Tt * Et * Ct * Rt Cuando en un ejercicio no se indica el esquema, supondremos que es aditivo.
¿Cómo detectar si la serie tiene esquema aditivo o multiplicativo? 1. Calcular medias y desviaciones típicas para cada año.
2. Representar los valores en un eje de coordenadas (X=media; Y=desviación típica).
3. Analizar la nube de puntos: creciente multiplicativo; otra cosa aditivo.
CÁLCULO DE LA TENDENCIA (Tt) Método de medias móviles (Ver ejemplo en práctica 8.) 1. Se determina el valor de p (nº de períodos en un año).
2. Se calcula la media de los p-primeros valores y se coloca en la casilla que esté en el centro de esos valores.
3. Repetimos el paso anterior avanzando un valor en cada vez.
6 Medias móviles cuando p es par Si p es par, primero se calculan las medias móviles en una columna auxiliar y luego se obtiene la tendencia en otra columna, calculando las medias de 2 en 2. Ejemplo: t 1997.1 1997.2 1997.3 1997.4 1998.1 1998.2 1998.3 1998.4 Yt Media móvil 78.92 79.19 80.05 80.32 80.82 81.21 81.88 82.58 79.62 80.09 80.60 81.06 81.62 Tendencia (Tt) Yt-Tt 79.86 80.35 80.83 81.34 0.19 -0.03 -0.01 -0.13 Serie sin tendencia A veces es necesario calcular la serie sin tendencia, como en la última columna de la tabla anterior. Para ello, a cada valor se le resta su tendencia, si el esquema es aditivo, o se le divide, si el esquema es multiplicativo.
Método analítico Primero se obtiene la recta de regresión para la serie, siendo X el tiempo e Y la variable (para X inventamos valores consecutivos; ej. 1, 2, 3…).
Cov ( x, y ) yˆt = α + β xt β= α = y −βx Var ( x ) Luego sustituimos cada valor de X en la recta obtenida, para calcular la tendencia.
Ejemplo: Puedes descargar un ejemplo del método analítico en esta dirección: www.jaimedv.com/eco/1c1-est/practica-8-metodo-analitico.xlsx Este ejemplo también incluye el cálculo de la componente estacional.
COMPONENTE ESTACIONAL (Et) Calcularemos la componente estacional de cada período dentro del año. Para ello: 1. Hallamos la media de la serie sin tendencia de cada estación (Mi).
2. Calculamos la media de las medias anteriores (media anual, MA).
3. A cada media estacional le restamos (o dividimos, si es esq. mult.) la media anual.
Adit.: Et = M i − MA Mult.: Et = M i / MA 7 PREDICCIÓN A partir de las componentes tendencial y estacional, podemos obtener la predicción para cualquier valor de t. Para ello sumamos o dividimos las componentes: • Esquema aditivo: Yt = Tt + Et • Esquema multiplicativo: Yt = Tt * Et Al aplicar la fórmula tendremos en cuenta que: • Tt es la componente tendencial, que se calcula con la recta de regresión del método analítico.
• Et es la componente estacional. Cogeremos la que corresponda a la estación que queremos predecir.
ELIMINACIÓN DIRECTA DE LAS COMPONENTES En este apartado veremos cómo eliminar las componentes sin tener que calcularlas.
Eliminación de la tendencia por diferencias regulares Eliminación de la estacionalidad por diferencias estacionales Se construye una serie nueva restando el valor actual menos el anterior.
Se resta el valor actual menos el de la misma estación del año anterior.
t 1992.1 1992.2 1992.3 1992.4 1992.5 1992.6 Yt 3319 3929 4154 3907 3040 4938 Zt t 1992.1 1992.2 1992.3 1993.1 1993.2 1993.3 610 225 –247 –867 1898 Yt 80.05 80.32 80.82 81.21 81.88 82.58 Zt 1,16 1,56 1,76 TASA REGULAR DE VARIACÓN (Ver ejemplo en práctica 9.) Miden los cambios que se producen en cualquier serie temporal. 3 tipos: • T.V. regular: variación entre 2 observaciones consecutivas.
• T.V. estacional: variación entre la misma estación de 2 años consecutivos.
• T.V. acumulada: variación en los r primeros meses del año, con respecto al mismo período del año anterior.
8 TEMA 6: NÚMEROS ÍNDICES CONSEJO: Para este tema es conveniente repasar las prácticas 9 y 10, así como el archivo “Ejemplo Número Índices.xls”.
Introducción: Los números índices estudian la evolución temporal de variables estadísticas (ej. cantidades, precios y valores) respecto a un momento o período base.
Notación: p0, q0: precios o cantidades del año base pt, qt: precios o cantidades del año t Clasificación de los números índices • Simples • Complejos o Sin ponderar: media aritmética, media agregada.
o Ponderados: i. de Laspeyres, i. de Paasche, i. de Fisher.
Índice simple Estudia sólo una variable. Compara el valor actual con el del período base.
(Ver ejemplo en la siguiente tabla, de los índices complejos sin ponderar.) x I 0t = t × 100 x0 ÍNDICES COMPLEJOS SIN PONDERAR Los índices complejos tienen en cuenta más de una variable. Por ejemplo, la variación del precio de varios productos.
Índice de la media aritmética (Ima) Para cada observación calculamos la media de los índices simples.
M Ima t0 = ∑I i =1 it 0 M Índice de la media agregada (Imag) Para cada observación dividimos la suma de los valores actuales entre la suma de los valores en el período base.
M Imag = t 0 ∑p i =1 M it ∑p i =1 × 100 i0 9 Tabla de índices simples e índices complejos sin ponderar Precios Año p1 p2 p3 2001 2002 2003 2004 14 15 14 16 25 26 24 27 5,50 5,75 5,25 6,00 Índices simples de precios I 0t (1) I 0t (2) I 0t (3) 100,00 107,14 100,00 114,29 100,00 104,00 96,00 108,00 100,00 104,55 95,45 109,09 Índ. complejos Ima t0 Imag t0 100,00 105,23 97,15 110,46 100,00 105,06 97,19 110,11 Veamos, por ejemplo, cómo calcular los índices complejos del año 2004.
114, 29 + 108 + 109, 09 Ima 2004 = = 110, 46 0 3 16 + 27 + 6 49 Imag 2004 = ×100 = ×100 = 110,11 0 14 + 25 + 5,50 44,5 ÍNDICES COMPLEJOS PONDERADOS Los índices complejos ponderados otorgan una importancia distinta a cada una de las variables, lo que se denomina “ponderación” (por ejemplo, dando más valor a un producto que se consume más, a la hora de calcular el índice de precios).
M I = ∑ I it wit × 100 i =1 Nosotros calculamos los índices de Laspeyres y Paasche, de precios y de cantidades.
Hay que tener en cuenta que: • pi0 y qi0 se refieren a los precios y las cantidades del período base (que generalmente es el primer año, a no ser que se indique otra cosa).
• pit y qit se refieren a los precios y las cantidades del período actual.
Ejemplo: Ver tabla de la siguiente página. Para más detalles, consulta las diapositivas, la práctica 10 o el archivo “Ejemplo Número Índices.xls”.
Índice de Laspeyres de precios o de cantidades M L pt = ∑ pit qi 0 i =1 M ∑p i =1 q i0 i0 Índice de Paasche de precios o de cantidades M Lqt = ∑ pi 0 qit i =1 M ∑p i =1 M Ppt = q i0 i0 ∑ pit qit i =1 M ∑p i =1 q i 0 it M Pqt = ∑p q i =1 M it it ∑p q i =1 it i 0 Estos índices luego se multiplican por 100. (Está omitido para ahorrar espacio.) 10 Tabla de índices complejos ponderados Precios y cantidades Índices complejos ponderados Año p1 q1 p2 q2 p3 q3 Lpt Lqt Ppt Pqt 2001 14 26 25 587 5,50 128 100,00 100,00 100,00 100,00 2002 15 30 26 621 5,75 135 104,10 106,00 104,10 106,01 2003 14 29 24 605 5,25 136 96,07 103,40 96,07 103,41 2004 16 33 27 650 6,00 143 108,19 111,15 108,21 111,17 Veamos, por ejemplo, cómo calcular los índices complejos ponderados del año 2003.
14 ⋅ 26 + 24 ⋅ 587 + 5, 25 ⋅128 15124 L p2003 = ×100 = ×100 = 96, 07 14 ⋅ 26 + 25 ⋅ 587 + 5,50 ⋅128 15743 Lq2003 = 14 ⋅ 29 + 25 ⋅ 605 + 5,50 ⋅136 16279 ×100 = ×100 = 103, 40 14 ⋅ 26 + 25 ⋅ 587 + 5,50 ⋅128 15743 Pp2003 = 14 ⋅ 29 + 24 ⋅ 605 + 5, 25 ⋅136 15640 ×100 = ×100 = 96, 07 14 ⋅ 29 + 25 ⋅ 605 + 5,50 ⋅136 16279 Pq2003 = 14 ⋅ 29 + 24 ⋅ 605 + 5, 25 ⋅136 15640 ×100 = ×100 = 103, 41 14 ⋅ 26 + 24 ⋅ 587 + 5, 25 ⋅128 15124 TEMA 7: ANÁLISIS ESTADÍSTICO DE DATOS ORDINALES Y CATEGÓRICOS En este tema estudiaremos la relación entre varias variables que no son cuantitativas, sino cualitativas. Se trata de calcular una medida similar a la correlación.
Estas variables las llamamos atributos. Pueden estar en una escala ordinal o nominal, según tengan o no un orden, respectivamente.
ANÁLISIS DE DATOS ORDINALES: CORRELACIÓN POR RANGOS En este caso estudiamos la relación que existe entre dos variables, a partir del orden que ocupa cada observación. Este orden se denota como xi e yi.
Para calcular esta relación utilizamos el siguiente método.
11 Coeficiente de correlación por rangos de Spearman N ρ = 1− 6 ⋅ ∑ ( xi − yi ) 2 i =1 N3 − N El resultado de este coeficiente está acotado entre –1 y 1. Se interpreta así: • Si ρ = 0, no existe correlación.
• Si ρ = 1, existe concordancia perfecta.
• Si ρ = –1, existe disconcordancia perfecta.
Ejemplo: Estudiar la relación entre las notas de matemáticas y estadística, a partir del orden que ocupa cada observación.
Mates 10 9 8 7 7 6 6 4 Estadística 8 6 10 9 8 7 6 9 X (orden mat.) 1 2 3 4,5 4,5 6,5 6,5 8 N Primero sumamos la última columna: ∑(x − y ) i =1 i 2 i Y (orden est.) 4,5 7,5 1 2,5 4,5 6 7,5 2,5 = 82 Ahora aplicamos la fórmula del coeficiente de correlación de Spearman: N ρ = 1− 6 ⋅ ∑ ( xi − yi ) i =1 N −N 3 2 = 1− 6 ⋅ 82 492 = 1− = 0, 024 3 8 −8 504 Las dos variables están muy poco relacionadas, dado que ρ es próximo a 0.
12 (X – Y)2 12,25 30,25 4 4 0 0,25 1 30,25 ANÁLISIS DE DATOS NOMINALES Coeficiente de asociación H Podemos usarlo cuando sólo tenemos 2 modalidades para cada variable (tablas 2×2).
Los datos se colocan en una tabla de contingencia como la que se muestra a continuación. En este caso se estudia la relación entre ser hombre/mujer y fumar.
Fuma No fuma Marginal Hombre n11 n21 n·1 Mujer n12 n22 n·2 Marginal n1· n2· N Se utiliza la siguiente fórmula, sustituyendo los valores a partir de la tabla.
nn Nn − n n H = n11 − 1⋅ ⋅1 = 11 1⋅ ⋅1 N N Interpretación: • Si H = 0, los atributos son independientes.
• Si H > 0, presentan una asociación positiva.
• Si H < 0, presentan una asociación negativa.
Inconvenientes: no está acotado (difícil de interpretar), y sólo sirve para tablas 2×2.
Tablas de contingencia h × k En este caso estudiaremos la relación entre 2 atributos (variables cualitativas).
• h es el número de modalidades (posibles valores) del atributo A.
• k es el número de modalidades (posibles valores) del atributo B.
Para estudiar la relación, hay que construir una tabla de valores esperados, que son los valores que ocurrirían si los atributos fueran independientes.
La tabla de valores esperados se rellena con esta fórmula: nij′ = ni⋅ n⋅ j N (Para cada celda se multiplican las distribuciones marginales y se divide entre el total.) Coeficiente de contingencia χ2: Para estudiar la relación se calcula χ2 usando la tabla original y la de valores esperados.
Para obtener χ2, en cada celda se calcula el cuadrado de la diferencia de la celda de la tabla original (nij) respecto a la misma celda de la tabla de valores esperados (n'ij), y se divide entre esta última celda (n'ij). Después se suman todos esos valores.
h k χ = ∑∑ 2 i =1 j =1 (n ij − nij′ ) 2 nij′ 13 Coeficiente de Tschuprow: Permite interpretar la relación entre los atributos, ya que está acotado entre 0 y 1.
T2 = χ2 N ( h − 1)( k − 1) Si T2 = 0, los atributos son independientes. Si T2 = 1, están totalmente asociados.
Ejemplo: Tabla de la relación entre el nivel de colesterol y la zona de residencia (costa/interior): Nivel de colesterol Medio Alto 18 7 22 23 40 30 Bajo 15 2 17 Zona costa Z. interior Marginal Marginal 40 47 87 Estudiaremos la relación entre los 2 atributos calculando el coeficiente de Tschuprow.
Primero construimos la tabla de valores esperados: Nivel de colesterol Medio Alto 18,3 13,8 21,6 16,2 40 30 Bajo 7,8 9,18 17 Zona costa Z. interior Marginal ′ = ¿Cómo se calculó? Veamos 2 ejemplos: n11 Marginal 40 47 87 40 ⋅17 47 ⋅17 ′ = = 7,8 n21 = 9,18 87 87 Ahora obtenemos χ2 y después T2.
(15 − 7,8) χ = 2 2 7,8 T2 = (18 − 18,3) + χ2 N ( h − 1)( k − 1) 18,3 = 2 ( 7 − 13,8) + 13,8 18,35 87 ( 3 − 1)( 2 − 1) = 2 ( 2 − 9, 2 ) + 9, 2 2 ( 22 − 21, 6 ) + 21, 6 18,35 87 = 0,149 2 Los atributos están poco relacionados, ya que T2 es próximo a 0.
14 2 ( 23 − 16, 2 ) + 16, 2 2 = 18,35 ...

Comprar Previsualizar