MRLS (2014)

Apunte Español
Universidad Universidad Politécnica de Cataluña (UPC)
Grado Administración y Dirección de Empresas - 2º curso
Asignatura Estadística 2
Año del apunte 2014
Páginas 60
Fecha de subida 11/09/2014
Descargas 2
Subido por

Descripción

Apuntes explícitos y detallados

Vista previa del texto

(VWDGtVWLFD ,,  ² 0RGHOR GH 5HJUHVLyQ /LQHDO 6LPSOH 05/6 %DUFHORQD ZZZHDHHV Introducci´on Un modelo de regresi´on es un modelo que permite describir c´omo influye una variable X sobre otra variable Y .
◮ X: Variable independiente o explicativa o ex´ogena ◮ Y: Variable dependiente o respuesta o end´ogena El objetivo es obtener estimaciones razonables de Y para distintos valores de X a partir de una muestra de n pares de valores (x1 , y1 ), . . . , (xn , yn ).
Introducci´on Ejemplos ◮ Estudiar c´ omo influye la estatura del padre sobre la estatura del hijo.
◮ Estimar el precio de una vivienda en funci´on de su superficie.
◮ Predecir la tasa de paro para cada edad.
◮ Aproximar la calificaci´on obtenida en una materia seg´ un el n´ umero de horas de estudio semanal.
◮ Prever el tiempo de computaci´on de un programa en funci´on de la velocidad del procesador.
Introducci´on Tipos de relaci´on Determinista: Conocido el valor de X , el valor de Y queda perfectamente establecido. Son del tipo: y = f (x) Ejemplo: La relaci´on existente entre la temperatura en grados cent´ıgrados (X ) y grados Fahrenheit (Y ) es: y = 1,8x + 32 3ORW RI *UDGRV )DKUHQKHLW YV *UDGRV FHQWtJUDGRV  *UDGRV )DKUHQKHLW ◮        *UDGRV FHQWtJUDGRV   Introducci´on Tipos de relaci´on No determinista: Conocido el valor de X , el valor de Y no queda perfectamente establecido. Son del tipo: y = f (x) + u donde u es una perturbaci´on desconocida (variable aleatoria).
Ejemplo: Se tiene una muestra del volumen de producci´on (X ) y el costo total (Y ) asociado a un producto en un grupo de empresas.
3ORW RI &RVWRV YV 9ROXPHQ   &RVWRV ◮        9ROXPHQ    Introducci´on Tipos de relaci´on Lineal: Cuando la funci´ on f (x) es lineal, y la representaci´ on gr´ afica de los datos tiene un aspecto lineal, f (x) = β0 + β1 x ◮ Si β1 > 0 hay relaci´ on lineal positiva.
Si β1 < 0 hay relaci´ on lineal negativa.
5HODFLyQ OLQHDO SRVLWLYD 5HODFLyQ OLQHDO QHJDWLYD     < ◮ < ◮          ;      ;   Introducci´on Tipos de relaci´on No lineal: Cuando la funci´on f (x) no es lineal. Por ejemplo, f (x) = log (x), f (x) = x 2 + 3, . . .
5HODFLyQ QR OLQHDO    < ◮        ; Los datos no tienen un aspecto recto.
  Introducci´on Tipos de relaci´on Ausencia de relaci´on: Cuando f (x) = 0.
$XVHQFLD GH UHODFLyQ    < ◮       ;   Medidas de dependencia lineal La covarianza Una medida de la dependencia lineal es la covarianza: n (xi − x¯) (yi − y¯ ) cov (x, y ) = i=1 n−1 ◮ Si hay relaci´ on lineal positiva, la covarianza ser´a positiva y grande.
◮ Si hay relaci´ on lineal negativa, la covarianza ser´a negativa y grande en valor absoluto.
Si hay no hay relaci´on entre las variables o la relaci´on es marcadamente no lineal, la covarianza ser´a pr´oxima a cero.
◮ PERO la covarianza depende de las unidades de medida de las variables.
Medidas de dependencia lineal El coeficiente de correlaci´on lineal Una medida de la dependencia lineal que no depende de las unidades de medida es el coeficiente de correlaci´on lineal: r(x,y ) donde: cov (x, y ) = cor (x, y ) = sx sy n n 2 2 (xi − x¯) sx2 = i=1 n−1 (yi − y¯ ) y sy2 = i=1 n−1 ◮ -1≤ cor (x, y ) ≤ 1 ◮ cor (x, y ) = cor (y , x) ◮ cor (ax + b, cy + d) = sign(a) sign(c) cor (x, y ) para cualesquiera valores a, b, c, d.
El modelo de regresi´on lineal simple El modelo de regresi´on lineal simple supone que, yi = β0 + β1 xi + ui donde: ◮ ◮ ◮ ◮ yi representa el valor de la variable respuesta para la observaci´on i-´esima.
xi representa el valor de la variable explicativa para la observaci´on i-´esima.
ui representa el error para la observaci´on i-´esima que se asume normal, ui ∼ N(0, σ) β0 y β1 son los coeficientes de regresi´on: ◮ ◮ β0 : intercepto β1 : pendiente Los par´ametros que hay que estimar son: β0 , β1 y σ.
El modelo de regresi´on lineal simple El objetivo es obtener estimaciones βˆ0 y βˆ1 de β0 y β1 para calcular la recta de regresi´ on: yˆ = βˆ0 + βˆ1 x que se ajuste lo mejor posible a los datos.
Ejemplo: Supongamos que la recta de regresi´ on del ejemplo anterior es: Costo = −15,65 + 1,29 Volumen 3ORW RI )LWWHG 0RGHO  &RVWRV            9ROXPHQ Se estima que una empresa que produce 25 mil unidades tendr´ a un costo: costo = −15,65 + 1,29 × 25 = 16,6 mil euros El modelo de regresi´on lineal simple La diferencia entre cada valor yi de la variable respuesta y su estimaci´ on yˆi se llama residuo: ei = yi − yˆi Valor observado Dato (y) Recta de regresión estimada Ejemplo (cont.): Indudablemente, una empresa determinada que haya producido exactamente 25 mil unidades no va a tener un gasto de exactamente 16,6 mil euros. La diferencia entre el costo estimado y el real es el residuo. Si por ejemplo el costo real de la empresa es de 18 mil euros, el residuo es: ei = 18 − 16,6 = 1,4 mil euros Hip´otesis del modelo de regresi´on lineal simple ◮ Linealidad: La relaci´on existente entre X e Y es lineal, f (x) = β0 + β1 x ◮ Homogeneidad: El valor promedio del error es cero, E [ui ] = 0 ◮ Homocedasticidad: La varianza de los errores es constante, Var(ui ) = σ 2 ◮ Independencia: Las observaciones son independientes, E [ui uj ] = 0 Normalidad: Los errores siguen una distribuci´on normal, ◮ ui ∼ N(0, σ) Hip´otesis del modelo de regresi´on lineal simple Linealidad Los datos deben ser razonablemente rectos: 3ORW RI )LWWHG 0RGHO  &RVWRV            9ROXPHQ Si no, la recta de regresi´on no representa la estructura de los datos.
3ORW RI )LWWHG 0RGHO  <         ;   Hip´otesis del modelo de regresi´on lineal simple Homocedasticidad La dispersi´ on de los datos debe ser constante: 3ORW RI &RVWRV YV 9ROXPHQ  &RVWRV            9ROXPHQ Datos homoced´asticos Datos heteroced´asticos Hip´otesis del modelo de regresi´on lineal simple Independencia ◮ Los datos deben ser independientes.
◮ Una observaci´on no debe dar informaci´ on sobre las dem´as.
◮ Habitualmente, se sabe por el tipo de datos si son adecuados o no para el an´alisis.
En general, las series temporales no cumplen la hip´otesis de independencia.
◮ Hip´otesis del modelo de regresi´on lineal simple Normalidad ◮ Se asume que los datos son normales a priori.
yi E 0  E 1 xi  u i , u i o N (0, V 2 ) „ Ž yi „ Ž E 0  E1 x „ Ž xi E E V „ Ž y Estimadores de m´ınimos cuadrados Gauss propuso en 1809 el m´etodo de m´ınimos cuadrados para obtener los valores βˆ0 y βˆ1 que mejor se ajustan a los datos: yˆi = βˆ0 + βˆ1 xi El m´etodo consiste en minimizar la suma de los cuadrados de las distancias verticales entre los datos y las estimaciones, es decir, minimizar la suma de los residuos al cuadrado, n n “ n “ ””2 X X X 2 2 ei = (yi − yˆi ) E=  E yi −  βˆ0 + βˆ1 xi N N  i=1 i=1 i=1 ei yi E yˆi Eˆ0  Eˆ1xi xi Estimadores de m´ınimos cuadrados El resultado que se obtiene E es: E  V o n cov (x, y ) ˆ = β1 = 2 sx (xi − x¯) (yi − y¯ ) i=1 n V 2 (xi − x¯) i=1 βˆ0 = y¯ − βˆ1 x¯ yˆ E E Eˆ 0  Eˆ1 x N  y Pendiente Eˆ1 Eˆ 0 E E y  Eˆ1 x x Estimadores de m´ınimos cuadrados Ejercicio 4.1 Los datos de la producci´ on de trigo en toneladas (X ) y el precio del kilo de harina en pesetas (Y ) en la d´ecada de los 80 en Espa˜ na fueron: Producci´ on de trigo Precio de la harina 30 25 28 30 32 27 25 40 25 42 25 40 22 50 24 45 35 30 Ajusta la recta de regresi´ on por el m´etodo de m´ınimos cuadrados Resultados βˆ1 = 10 X xi yi − n¯ x y¯ i=1 10 X xi2 − n¯ x2 = 9734 − 10 × 28,6 × 35,4 = −1,3537 8468 − 10 × 28,62 i=1 βˆ0 = y¯ − βˆ1 x¯ = 35,4 + 1,3537 × 28,6 = 74,116 La recta de regresi´ on es: yˆ = 74,116 − 1,3537x 40 25 Estimadores de m´ınimos cuadrados 3ORW RI )LWWHG 0RGHO 3UHFLR HQ SWDV              3URGXFFLRQ HQ NJ βˆ βˆ Regression Analysis - Linear model: Y = a + b*X ----------------------------------------------------------------------------Dependent variable: Precio en ptas.
Independent variable: Produccion en kg.
----------------------------------------------------------------------------Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------Intercept 74,1151 8,73577 8,4841 0,0000 Slope -1,35368 0,3002 -4,50924 0,0020 ----------------------------------------------------------------------------- Analysis of Variance ----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------Model 528,475 1 528,475 20,33 0,0020 Residual 207,925 8 25,9906 ----------------------------------------------------------------------------Total (Corr.) 736,4 9 Correlation Coefficient = -0,84714 R-squared = 71,7647 percent Standard Error of Est. = 5,0981 Estimaci´on de la varianza Para estimar la varianza de los errores, σ 2 , podemos utilizar, n ei2 σ ˆ2 = i=1 n que es el estimador m´aximo veros´ımil de σ 2 , pero es un estimador sesgado.
Un estimador insesgado de σ 2 es la varianza residual, n ei2 sR2 = i=1 n−2 Estimaci´on de la varianza Ejercicio 4.2 Calcula la varianza residual en el ejercicio 4.1.
Resultados Calculamos primero los residuos, ei , usando la recta de regresi´ on, yˆi = 74,116 − 1,3537xi xi yi yˆi ei 30 25 33.5 -8.50 28 30 36.21 -6.21 32 27 30.79 -3.79 25 40 40.27 -0.27 25 42 40.27 1.72 25 40 40.27 -0.27 22 50 44.33 5.66 La varianza residual es: sR2 = n X ei2 i=1 n−2 = 207,92 = 25,99 8 24 45 41.62 3.37 35 30 26.73 3.26 40 25 19.96 5.03 Estimaci´on de la varianza Regression Analysis - Linear model: Y = a + b*X ----------------------------------------------------------------------------Dependent variable: Precio en ptas.
Independent variable: Produccion en kg.
----------------------------------------------------------------------------Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------Intercept 74,1151 8,73577 8,4841 0,0000 Slope -1,35368 0,3002 -4,50924 0,0020 ----------------------------------------------------------------------------- Analysis of Variance ----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------Model 528,475 1 528,475 20,33 0,0020 Residual 207,925 8 25,9906 ----------------------------------------------------------------------------Total (Corr.) 736,4 9 Correlation Coefficient = -0,84714 R-squared = 71,7647 percent Standard Error of Est. = 5,0981 Sˆ R Inferencias sobre el modelo de regresi´on ◮ Hasta ahora s´olo hemos obtenido estimaciones puntuales de los coeficientes de regresi´on.
◮ Usando intervalos de confianza podemos obtener una medida de la precisi´on de dichas estimaciones.
◮ Usando contrastes de hip´otesis podemos comprobar si un determinado valor puede ser el aut´entico valor del par´ametro.
Inferencia para la pendiente El estimador βˆ1 sigue una distribuci´ on normal porque es una combinaci´ on lineal de normales, n n X X (x − x ¯ ) i βˆ1 = y = wi yi 2 i (n − 1)s X i=1 i=1 ´ ` 2 as, βˆ1 donde yi = β0 + β1 xi + ui , que cumple que yi ∼ N β0 + β1 xi , σ . Adem´ es un estimador insesgado de β1 , n h i X (xi − x¯) ˆ E [yi ] = β1 E β1 = 2 (n − 1)s X i=1 y su varianza es, «2 n „ h i X 2 − x ¯ ) (x σ i Var [yi ] = Var βˆ1 = 2 2 (n − 1)s (n − 1)s X X i=1 Por tanto, „ βˆ1 ∼ N β1 , 2 σ (n − 1)sX2 « Intervalo de confianza para la pendiente Queremos ahora obtener el intervalo de confianza para β1 de nivel 1 − α.
Como σ 2 es desconocida, la estimamos con sR2 . El resultado b´asico cuando la varianza es desconocida es: βˆ1 − β1 ∼ tn−2 sR2 (n − 1)sX2 que nos permite obtener el intervalo de confianza para β1 : βˆ1 ± tn−2,α/2 La longitud del intervalo disminuir´a si: ◮ ◮ ◮ Aumenta el tama˜ no de la muestra.
Aumenta la varianza de las xi .
Disminuye la varianza residual.
sR2 (n − 1)sX2 Inferencia para la pendiente Ejercicio 4.3 1. Calcula un intervalo de confianza al 95 % para la pendiente de la recta de regresi´ on obtenida en el ejercicio 4.1.
2. Contrasta la hip´ otesis de que el precio de la harina depende linealmente de la producci´ on de trigo, usando un nivel de significaci´ on de 0.05.
Resultados 1. tn−2,α/2 = t8,0,025 = 2,306, −2,306 ≤ −1,3537 − β1 q ≤ 2,306, 25,99 9×32,04 −2,046 ≤ β1 ≤ −0,661 2. El intervalo no contiene al cero y rechazamos β1 = 0 al nivel 0.05. De hecho: ˛ ˛ ˛˛ ˛ ˛ ˛ ˛ ˛ ˆ β1 ˛ ˛ −1,3537 ˛˛ ˛ = 4,509 > 2,306 ˛= q ˛p 2 ˛ sR / (n − 1) sX2 ˛ ˛˛ 25,99 ˛ ˛ 9×32,04 Inferencia para la pendiente V 5 Q −  V ; βÖ V 5  Q −  V ; Regression Analysis - Linear model: Y = a + b*X ----------------------------------------------------------------------------Dependent variable: Precio en ptas.
Independent variable: Produccion en kg.
----------------------------------------------------------------------------Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------Intercept 74,1151 8,73577 8,4841 0,0000 Slope -1,35368 0,3002 -4,50924 0,0020 ----------------------------------------------------------------------------- Analysis of Variance ----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------Model 528,475 1 528,475 20,33 0,0020 Residual 207,925 8 25,9906 ----------------------------------------------------------------------------Total (Corr.) 736,4 9 Correlation Coefficient = -0,84714 R-squared = 71,7647 percent Standard Error of Est. = 5,0981 Inferencia para el intercepto El estimador βˆ0 sigue una distribuci´ on normal porque es una combinaci´ on lineal de normales, « n „ X 1 − x¯wi yi βˆ0 = n i=1 2 donde w`i = (xi − x¯) /ns y donde yi = β0 + β1 xi + ui , que cumple que X ´ as, βˆ0 es un estimador insesgado de β0 , yi ∼ N β0 + β1 xi , σ 2 . Adem´ « n „ h i X 1 − x¯wi E [yi ] = β0 E βˆ0 = n i=1 y su varianza es, «2 „ « n „ h i X 2 1 1 x¯ Var βˆ0 = − x¯wi Var [yi ] = σ 2 + 2 n n (n − 1)s X i=1 y por tanto, «« „ „ 2 x¯ 1 + βˆ0 ∼ N β0 , σ 2 n (n − 1)sX2 Intervalo de confianza para el intercepto Queremos ahora obtener el intervalo de confianza para β0 de nivel 1 − α. Como asico cuando la varianza σ 2 es desconocida, la estimamos con sR . El resultado b´ es desconocida es: βˆ0 − β0 s „ ∼ tn−2 « x¯2 1 2 + sR n (n − 1)sX2 que nos permite obtener el intervalo de confianza para β0 : r “ ” 2 1 x ¯ βˆ0 ± tn−2,α/2 sR2 n + (n−1)s 2 X La longitud del intervalo disminuir´ a si: ◮ Aumenta el tama˜ no de la muestra.
◮ Aumenta la varianza de las xi .
◮ Disminuye la varianza residual.
◮ Disminuye la media de las xi .
Inferencia para el intercepto Ejercicio 4.4 1. Calcula un intervalo de confianza al 95 % para el intercepto de la recta de regresi´ on obtenida en el ejercicio 4.1.
2. Contrasta la hip´ otesis de que la recta de regresi´ on pasa por el origen, usando un nivel de significaci´ on de 0,05.
Inferencia para el intercepto Ejercicio 4.4 - Resultados 1. tn−2,α/2 = t8,0,025 = 2,306 74,1151 − β0 −2,306 ≤ r ≤ 2,306 ⇔ 53,969 ≤ β0 ≤ 94,261 ” “ 28,62 1 25,99 10 + 9×32,04 2. Como el intervalo no contiene al cero, rechazamos que β0 = 0 al nivel 0,05.
˛ ˛ ˛ ˛ ˛ ˛ ˛ ˛ ˛ ˛ ˛ ˛ ˆ ˛ ˛ ˛ ˛ 74,1151 β0 ˛ = ˛r ˛r ˛ = 8,484 > 2,306 “ ” ” “ ˛ ˛ ˛ ˛ ˛ s 2 1 + x¯2 ˛ ˛ 25,99 1 + 28,62 ˛ ˛ ˛ ˛ R n 10 9×32,04 ˛ (n−1)s 2 X p-valor= 2 Pr(t8 > 8,483) = 0,000 Inferencia para el intercepto § [ V ¨ + ¨ Q Q −  V ; ©   5 · ¸ ¸ ¹ βÖ  §  [ V 5 ¨ + ¨ Q Q −  V ; © Regression Analysis - Linear model: Y = a + b*X ----------------------------------------------------------------------------Dependent variable: Precio en ptas.
Independent variable: Produccion en kg.
----------------------------------------------------------------------------Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------Intercept 74,1151 8,73577 8,4841 0,0000 Slope -1,35368 0,3002 -4,50924 0,0020 ----------------------------------------------------------------------------- Analysis of Variance ----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------Model 528,475 1 528,475 20,33 0,0020 Residual 207,925 8 25,9906 ----------------------------------------------------------------------------Total (Corr.) 736,4 9 Correlation Coefficient = -0,84714 R-squared = 71,7647 percent Standard Error of Est. = 5,0981 · ¸ ¸ ¹ Inferencia para la varianza El resultado b´asico es que: (n − 2) sR2 2 ∼ χ n−2 σ2 Utilizando este resultado podemos: ◮ Construir el intervalo de confianza para la varianza: 2 (n − 2) sR2 (n − 2) s 2 R ≤ σ ≤ χ2n−2,α/2 χ2n−2,1−α/2 ◮ Resolver contrastes del tipo: H0 : σ 2 = σ02 H1 : σ 2 = σ02 Estimaci´on de una respuesta promedio y predicci´on de una nueva respuesta Se distiguen dos tipos de problemas: 1. Estimar el valor medio de la variable Y para cierto valor X = x0 .
2. Predecir el valor que tomar´a la variable Y para cierto valor X = x0 .
Por ejemplo, en el ejercicio 4.1: 1. ¿Cu´al ser´a el precio medio del kg. de harina para los a˜ nos en que se producen 30 ton. de trigo? 2. Si un determinado a˜ no se producen 30 ton. de trigo, ¿cu´al ser´a el precio del kg. de harina? En ambos casos el valor estimado es: yˆ0 = βˆ0 + βˆ1 x0 = y¯ + βˆ1 (x0 − x¯) Pero la precisi´on de las estimaciones es diferente.
Estimaci´on de una respuesta promedio Teniendo en cuenta que: 2 Var (ˆ y0 ) = Var (¯ y ) + (x0 − x¯) Var βˆ1 2 = σ2 1 (x0 − x¯) + n (n − 1) sX2 El intervalo de confianza para la respuesta promedio es: 2 yˆ0 ± tn−2,α/2 sR2 1 (x0 − x¯) + n (n − 1) sX2 Predicci´on de una nueva respuesta La varianza de la predicci´on de una nueva respuesta es el error cuadr´atico medio de la predicci´on: 2 E (y0 − yˆ0 ) = Var (y0 ) + Var (ˆ y0 ) 2 = σ2 (x0 − x¯) 1 1+ + n (n − 1) sX2 El intervalo de confianza para la predicci´on de una nueva respuesta es: 2 yˆ0 ± tn−2,α/2 sR2 1 (x0 − x¯) 1+ + n (n − 1) sX2 La longitud de este intervalo es mayor que la del anterior (menos precisi´on) porque no corresponde a un valor medio sino a uno espec´ıfico.
Estimaci´on de una respuesta promedio y predicci´on de una nueva respuesta En rojo se muestran los intervalos para las medias estimadas y en rosa los intervalos de predicci´on. Se observa que la amplitud de estos u ´ltimos es considerablemente mayor.
3ORW RI )LWWHG 0RGHO 3UHFLR HQ SWDV              3URGXFFLRQ HQ NJ 5.1. Diagn´ostico en regresi´on ◮ Supuestos te´oricos del modelo de regresi´on lineal simple de una var.
respuesta y sobre una var. explicativa x: - ◮ Linealidad: yi = β0 + β1 xi + ui , para i = 1, . . . , n Homogeneidad: E [ui ] = 0, para i = 1, . . . , n Homocedasticidad: Var [ui ] = σ 2 , para i = 1, . . . , n Independencia: ui y uj son independientes para i = j Normalidad: ui ∼ Normal(0, σ 2 ), para i = 1, . . . , n Los m´etodos de diagn´ostico se utilizan para contrastar si tales supuestos son adecuados para los datos disponibles (xi , yi ); se basan en el an´alisis de los residuos ei = yi − yi 5.1. Diagn´ostico: diagrama de puntos ◮ El m´etodo m´as sencillo consiste en la observaci´on visual del diagrama de puntos (xi , yi ) ◮ A menudo, este sencillo pero potente m´etodo revela pautas que sugieren si el modelo te´orico es o no adecuado ◮ Ilustraremos su uso con un ejemplo cl´asico. Consideremos los cuatro conjuntos de datos siguientes 5.1. Diagn´ostico: diagrama de puntos 5.1. Diagn´ostico: diagrama de puntos ◮ ◮ Para cada uno de los cuatro conjuntos de datos anteriores, se obtiene el mismo modelo estimado de regresi´on lineal: yˆi = 3,0 + 0,5xi ◮ n = 11, x¯ = 9,0, y¯ = 7,5, rx,y = 0,817 ◮ El error est´andar estimado del estimador βˆ1 , sR2 , 2 (n − 1)sx ◮ toma el valor 0,118. El estad´ıstico T correspondiente toma el valor T = 0,5/0,118 = 4,237 Sin embargo, los diagramas de puntos correspondientes revelan que los cuatro conjuntos de datos son cualitativamente muy diferentes: ¿Qu´e conclusiones podemos extraer de estos diagramas? 5.1. Diagn´ostico: diagrama de puntos 5.1: an´alisis de los residuos ◮ ◮ Si la observaci´on del diagrama de puntos no basta para descartar el modelo, se utilizan m´etodos de diagn´ostico basados en el an´alisis de los residuos ei = yi − yi El an´alisis comienza tipificando los residuos (dividi´endolos por la cuasi-desviaci´ on t´ıpica residual): Las cantidades resultantes se denominan residuos tipificados: ei sR ◮ Bajo los supuestos del modelo de regresi´on lineal, los residuos tipificados son aproximadamente variables aleatorias normales est´andar independientes ◮ Un gr´afico de los residuos tipificados no deber´ıa mostrar ninguna pauta clara 5.1: Diagramas de residuos ◮ Hay varios tipos de diagramas de residuos. Los m´as comunes son: - Diagrama de los residuos vs. x - Diagrama de los residuos vs. yb ◮ Las desviaciones de los supuestos del modelo dan lugar a pautas, que se pueden identificar visualmente 5.1: Ej: consistencia con el modelo te´orico 5.1: Ej: No linealidad 5.1: Ej: Heterocedasticidad 5.1: Datos at´ıpicos ◮ A partir del gr´afico de la recta de regresi´on podemos observar datos at´ıpicos, que presentan desviaciones sustanciales de la recta de regresi´on ◮ Los estimadores β0 y β1 de los par´ametros de la recta de regresi´on son muy sensibles a tales datos at´ıpicos ◮ Por ello, es importante identificar tales datos y comprobar si son v´alidos ◮ Veremos que Statgraphics permite mostrar los datos que producen “Unusual Residuals”, as´ı como “Influential Points” 5.1: Normalidad de los errores ◮ ◮ Recordemos que uno de los supuestos te´oricos del modelo de regresi´on lineal es que los errores tienen una distribuci´on normal Podemos comprobar este supuesto visualmente a partir de la observaci´on y an´alisis de los residuos ei , empleando varios m´etodos: ◮ ◮ Observaci´ on del histograma de frecuencias de los residuos Observaci´ on de un “Normal Probability Plot”para los residuos (desviaciones importantes de los datos de la l´ınea recta en este gr´ afico indican desviaciones sustanciales del supuesto de normalidad) 5.2: La descomposici´on ANOVA ◮ ANOVA: ANalysis Of VAriance ◮ Al ajustar un modelo de regresi´on lineal yi = β0 + β1 xi a un conjunto de datos (xi , yi ), para i = 1, . . . , n, podemos distinguir tres fuentes de variaci´on en las respuestas: P yi − y¯ )2 , donde las siglas - variaci´ on debida al modelo: SCM = ni=1 (b “SC”se refieren a “suma de cuadrados”, y la “M”se refiere al “Modelo” P P - variaci´ on residual: SCR P = ni=1 (yi − ybi )2 = ni=1 ei2 - variaci´ on total: SCT = ni=1 (yi − y¯ )2 ◮ La descomposici´on ANOVA indica que SCT = SCM + SCR 5.2: El coeficiente de determinaci´on R 2 ◮ La descomposici´on ANOVA indica que SCT = SCM + SCR ◮ Notemos que: yi − y¯ = (yi − yi ) + (yi − y¯ ) ◮ SCM = i=1 (yi − y¯ )2 mide la variaci´on de las respuestas debida a la regresi´on (explicada por los valores predichos y ) ◮ Por lo tanto, el cociente SCR/SCT es la proporci´on de variaci´on de la respuesta no explicada por la regresi´on ◮ El cociente R 2 = SCM/SCT = 1 − SCR/SCT es la proporci´on de variaci´on de las respuestas explicada por la regresi´on; se conoce como coeficiente de determinaci´on ◮ 2 (coef. de correlaci´on al cuadrado) Resultado: R 2 = rxy ◮ Ej: si R 2 = 0,85, la variable x explica un 85 % de la variaci´on de la variable y n 5.2: Tabla ANOVA Fuente de variaci´ on Modelo Residuos/Errores Total SC SCM SCR SCT G.L.
1 n−2 n−1 Media SCM/1 SCR/(n − 2) = sR2 Cociente F SCM/sR2 5.2: Contraste de hip´otesis ANOVA ◮ Contraste de hip´otesis H0 : β1 = 0 vs. H1 : β1 = 0 ◮ Consideremos el cociente SCM SCM/1 = 2 F = SCR/(n − 2) sR ◮ ◮ ◮ Bajo H0 , F sigue una distribuci´on F1,n−2 Contraste a nivel α: rechazar H0 si F > F1,n−2;α ¿Cu´al es la relaci´on con el contraste basado en la t de Student que vimos en el Tema 4? Son equivalentes 5.2: Ej. ANOVA 5.3: Relaciones no lineales y linealizaci´on ◮ Supongamos que la parte determinista f (xi ; a, b) de la respuesta en el modelo yi = f (xi ; a, b) + ui , i = 1, . . . , n es una funci´on no lineal de x que depende de dos par´ametros a y b (ej: f (x; a, b) = abx ) ◮ En algunos casos podemos aplicar transformaciones a los datos para linearizarlos, y as´ı poder aplicar los m´etodos de regresi´on lineal ◮ A partir de los datos (xi , yi ) originales, obtenemos los datos transformados (xi′ , yi′ ) ◮ Los par´ametros β0 y β1 de la relaci´on lineal entre las xi′ y las yi′ se obtienen como transformaciones de los par´ametros a y b 5.3: Transformaciones para linealizaci´on ◮ Ejemplos de transformaciones para linealizaci´on: ◮ ◮ ◮ ◮ Si y′ Si y′ Si y′ Si y′ y = f (x; a, b) = ax b entonces log y = log a + b log x: tomamos = log y , x ′ = log x, β0 = log a, β1 = b y = f (x; a, b) = ab x entonces log y = log a + (log b)x: tomamos = log y , x ′ = x, β0 = log a, β1 = log b y = f (x; a, b) = 1/(a + bx) entonces 1/y = a + bx: tomamos = 1/y , x ′ = x, β0 = a, β1 = b y = f (x; a, b) = ln(ax b ) entonces y = ln a + b ln x: tomamos = y , x ′ = ln x, β0 = ln a, β1 = b ...