Modelo Lineal Múltiple (2014)

Apunte Español
Universidad Universidad Politécnica de Cataluña (UPC)
Grado Administración y Dirección de Empresas - 2º curso
Asignatura Estadística 2
Año del apunte 2014
Páginas 32
Fecha de subida 11/09/2014
Descargas 4
Subido por

Descripción

Apuntes explícitos y detallados

Vista previa del texto

Estadística II Tema 3 Regresión múltiple Planteamiento general 1 Objetivos Expresar un problema de modelado estadístico en forma de modelo de RL Múltiple Conocer las hipótesis del modelo Expresar el modelo de regresión lineal en notación matricial Conocer las diferencias respecto a la RL Simple 2 Ejemplo introductorio: Mortalidad infantil PAIS Austràlia Àustria Barbados Bèlgica Guaiana Britànica Bulgària Canadà Xile Costa Rica Xipre Txecoslovàquia Dinamarca El Salvador Finlàndia França Guatemala Hong-Kong Hungria Islàndia Índia Irlanda Itàlia INFD: PHYS: DENS: AGDS: INFD 19,5 37,5 60,4 35,4 67,1 45,1 27,3 127,9 78,9 29,9 31 23,7 76,3 21 27,4 91,9 41,5 47,6 22,4 225 30,5 48,7 PHYS 860 695 3000 819 3900 740 900 1700 2600 1400 620 830 5400 1600 1014 6400 3300 650 840 5200 1000 746 DENS 1 84 548 301 3 72 2 11 24 62 108 107 127 13 83 36 3082 108 2 138 40 164 AGDS 21 1720 7121 5257 192 1380 257 1164 948 1042 1821 1434 1497 1512 1288 1365 98143 1370 79 2279 598 2323 numero de muertes infantiles para 1000 nacimientos numero de habitantes por medico LIT: habitantes por km2 HIED: población para 1000 hectáreas agrícolas GNP: LIT 98,5 98,5 91,1 96,7 74 85 97,5 80,1 79,4 60,5 97,5 98,5 39,4 98,5 96,4 29,4 57,5 97,5 98,5 19,3 98,5 87,5 HIED 856 546 24 536 27 456 645 257 326 78 398 570 89 529 667 135 176 258 445 220 362 362 GNP 1316 670 200 1196 235 365 1947 379 357 467 680 1057 219 794 943 189 272 490 572 73 550 516 log INF 2,97041 3,62434 4,10099 3,56671 4,20618 3,80888 3,30689 4,85125 4,36818 3,39786 3,43399 3,16548 4,33467 3,04452 3,31054 4,5207 3,72569 3,86283 3,10906 5,4161 3,41773 3,88568 porcentaje de población mayor de 15 años que sabe leer numero de estudiantes universitarios por 100000 habitantes producto nacional bruto 3 PAIS Jamaica Japó Luxemburg Malaya Malta Maurici Mèxic Holanda Nova Zelanda Nicaràgua Noruega Panamà Polònia Portugal Puerto Rico Rumanía Singapur Espanya Suècia Suïssa Taiwan Trinitat Regne Unit Estats Units U.R.S.S.
República Federal A Iugoslàvia INFD: PHYS: DENS: AGDS: INFD 58,7 37,7 31,5 68,9 38,3 69,5 77,7 16,5 22,8 71,7 20,2 54,8 74,7 77,5 52,4 75,7 32,3 43,5 16,6 21,1 30,5 45,4 24,1 26,4 35 33,8 100 PHYS 4300 930 910 6400 980 4500 1700 900 700 2800 946 3200 1100 1394 2200 788 2400 1000 1089 765 1500 2300 935 780 578 798 1637 DENS AGDS 143 3410 7563 254 123 2286 2980 54 1041 8050 4711 352 18 296 346 4855 9 170 824 10 11 3420 15 838 96 1411 100 1087 271 4030 78 1248 2904 108214 61 1347 17 1705 133 2320 305 10446 168 1383 217 2677 20 399 10 339 217 3631 73 1215 LIT 77 98 96,5 38,4 57,6 51,8 50 98,5 98,5 38,4 98,5 65,7 95 55,9 81 89 50 87 98,5 98,5 54 73,8 98,5 98 95 98,5 77 numero de muertes infantiles por 1000 nacimientos LIT: numero de habitantes por médico HIED: habitantes por km2 GNP: población por 1000 hectáreas agrícolas HIED 42 750 36 475 142 14 258 923 839 110 258 371 351 272 1192 226 437 258 401 398 329 61 460 1983 539 528 524 GNP 316 306 1388 356 377 225 262 836 1310 160 1130 329 475 224 563 360 400 293 1380 1428 161 423 1189 2577 600 927 265 log INF 4,07244 3,62966 3,44999 4,23266 3,64545 4,24133 4,35286 2,80336 3,12676 4,27249 3,00568 4,00369 4,31348 4,35028 3,95891 4,32678 3,47507 3,77276 2,8094 3,04927 3,41773 3,81551 3,18221 3,27336 3,55535 3,52046 4,60517 porcentaje de población mayor de 15 años que sabe leer numero de estudiantes universitarios por 100000 habitantes producto nacional bruto 4 Planteamiento Supongamos que la verdadera relación se puede aproximar razonablemente bien, como mínimo en una cierta región de interés, por el modelo lineal: Yi = β0 + β1X1i + β2 X 2i + ... + β(p−1) X (p−1)i + εui i para i = 1,2,...,n con ciertas hipótesis sobre ui, que se verán más adelante 5 Notación matricial Para el caso de p parámetros [β0 + (p-1) variables] tendremos Yi = β0 + β1X1i + β2 X 2i + ... + β(p−1) X (p−1)i + εui i para i = 1,2,...,n Matricialmente: = Y X β +u ε 1 X11  Y1   Y  2 1 X12  = = Y X con:       1 X1n  Yn  X 21  X p−1,1   X 22  X p−1,2  = β      X 2n  X p−1,n   β0  1 εu  β  1 εu   1 2 = β2  uε =  2               εun n  βp−1    6 ...notación matricial La notación presentada es una generalización inmediata de la regresión simple (p=2).
Es evidente que n >> p 7 Vector aleatorio Y :  Y1  Y  Y =  2     Yn  : Vector de medias Y Y  1 Y 1   Y22   Y ==   Y       n Y   n Matriz de varianzas-covarianzas V : cov(Y1,Y2 )  cov(Y1,Yn )   V(Y1) cov(Y ,Y ) V(Y2 )  cov(Y2 ,Yn ) 2 1  V (Y) =         V(Y ) n   Es decir,  ′       V ( Y ) = E  Y −YY Y − Y Y       8 En general, si X es un vector aleatorio nx1, y A es una matriz mxn de constantes reales, entonces = = V ( AX ) cov ( AX, AX ) A V ( X ) A′ Que es una generalización del caso univariante: V ( k ⋅ X ) =k 2 ⋅ V ( X ) =k ⋅ V ( X ) ⋅ k ' Trabajar con esta notación matricial y utilizar estas propiedades simplificará mucho encontrar cuál es la distribución de los coeficientes del modelo ajustado por el caso general del modelo lineal múltiple.
9 Hipótesis del modelo El modelo de regresión lineal múltiple es: Y(nx1) = X (nxp) ⋅ β (px1) + εu(nx1) (nx1) con rang ( X ) = p amb Se tiene que cumplir que: • n >> p • las columnas de la matriz X sean linealmente independientes El vector aleatorio uε se supone que cumple la hipótesis: ( uε ≈ Nn 0; σ 2 ⋅ In ) 10 Hipótesis del modelo El modelo de regresión lineal múltiple se puede escribir como: ( Y ≈ Nn X ⋅ β; σ 2 ⋅ In ) E ( Y / X )= X ⋅ β Esta hipótesis implica: V ( Y / X= ) σ 2 ⋅ In Yi ≈ Normals les Yi i Yj independents 11 Modelo ajustado El modelo ajustado a partir de los datos es: Y = X ⋅ b + e = Yˆ + e = ˆ ·x + e βˆ0 ·1b0+1β+ˆ1b·x1x1 1++ .. ++bβ −1p−1 p+−1e p−1px Lo que distingue el modelo ajustado del modelo teórico es que el modelo ajustado es conocido y que no es único porqué depende de la muestra que utilizamos para ajustarlo.
12 Procedimiento Se dispone únicamente de información de una muestra X, Y, de un cierto tamaño.
Sólo con esta información tenemos que obtener el mejor modelo posible. El procedimiento será: Qué variables? Qué escala? IDENTIFICACIÓN ESTIMACIÓN VERIFICACIÓN ADECUADO? Si UTILITZACIÓN (Previsión, etc...) No 13 Diferencias con RL Simple La parte explicable es, en regresión múltiple, un plano Yi = β0 + β1X1i + β2 X 2i + ... + β(p−1) X (p−1)i + εi A pesar de las muchas analogías, en la regresión múltiple aparecen dos elementos nuevos que complican enormemente el problema.
El número de modelos posibles puede ser muy grande y se necesitan herramientas para escoger uno de ellos.
Debemos tener en cuenta las dependencias entre las variables explicativas (colinealidad).
Además, hay que vigilar que n>>p! 14 Estimadores por mínimos cuadrados Las estimaciones mínimo-cuadráticas de β serán: b= ( X′ ⋅ X ) −1 ⋅ X′ ⋅ Y Obsérvese que los coeficientes β bˆi son combinación lineal de las Yi 15 Generalizando lo que habíamos visto para la RLS: ei = yi − yˆ i = yi − (bβˆ00 + βbˆ11 x1i + βbˆ22 x2i ... + bβˆpp−−11 x p −1i ) El método de los mínimos cuadrados obtiene la estimación de los parámetros, como en la RLS, minimizando la suma de los residuos al cuadrado min ∑ ei2 = min Q i Q = ∑ ( yi n i =1 − bβˆ 0 − βbˆ 11 x1i − bβˆ x 2 2i ... − bβˆ x pp−−11 p −1i ) 2 16 Este resultado es equivalente al resultado de resolver el sistema de ecuaciones lineales que se obtiene igualado a cero las derivadas de las sumas de los residuos al cuadrado respecte a los coeficientes del modelo ajustado βbˆii: Q(bβˆ0 ,..bβˆpp−−= 11 ) ∑( n i=1 ) 2 Yi − bβˆ00 − β bˆ11X1,i −  − βbˆ pp−−11Xp−1,i = SQR y que también dan lugar a las p ecuaciones normales: 17  ∂Q = 0  ∂bβˆ=   00  ∂Q = 0  ∂bˆ=   β11    ∂Q =  = 0  ∂bβˆ  (pp−−11) ⇒  ∑ ei = 0 n  eX = 0 i 1,i  ∑ i=1   n  ∑ ei X (p−1),i = 0  i=1 De las ecuaciones normales se deduce que: 1- la recta ajustada pasa por el punto (Y, X1,..., Xp −1 ) 2- Si el modelo tiene el término constante, β0, los residuos sin estandarizar del modelo ajustado por mínimos cuadrados siempre tienen media 0, o lo que es lo mismo, su suma siempre es igual a 0.
3- El vector de residuos es ortogonal a las columnas de X.
4- Los residuos del modelo ajustado por mínimos cuadrados tienen que satisfacer p restricciones, y por lo tanto, sólo tienen n-p grados de libertad.
18 Ejemplo introductorio: Mortalidad infantil PAIS Austràlia Àustria Barbados Bèlgica Guaiana Britànica Bulgària Canadà Xile Costa Rica Xipre Txecoslovàquia Dinamarca El Salvador Finlàndia França Guatemala Hong-Kong Hungria Islàndia Índia Irlanda Itàlia INFD: PHYS: DENS: AGDS: INFD 19,5 37,5 60,4 35,4 67,1 45,1 27,3 127,9 78,9 29,9 31 23,7 76,3 21 27,4 91,9 41,5 47,6 22,4 225 30,5 48,7 PHYS 860 695 3000 819 3900 740 900 1700 2600 1400 620 830 5400 1600 1014 6400 3300 650 840 5200 1000 746 DENS 1 84 548 301 3 72 2 11 24 62 108 107 127 13 83 36 3082 108 2 138 40 164 AGDS 21 1720 7121 5257 192 1380 257 1164 948 1042 1821 1434 1497 1512 1288 1365 98143 1370 79 2279 598 2323 numero de muertes infantiles para 1000 nacimientos numero de habitantes por medico LIT: habitantes por km2 HIED: población para 1000 hectáreas agrícolas GNP: LIT 98,5 98,5 91,1 96,7 74 85 97,5 80,1 79,4 60,5 97,5 98,5 39,4 98,5 96,4 29,4 57,5 97,5 98,5 19,3 98,5 87,5 HIED 856 546 24 536 27 456 645 257 326 78 398 570 89 529 667 135 176 258 445 220 362 362 GNP 1316 670 200 1196 235 365 1947 379 357 467 680 1057 219 794 943 189 272 490 572 73 550 516 log INF 2,97041 3,62434 4,10099 3,56671 4,20618 3,80888 3,30689 4,85125 4,36818 3,39786 3,43399 3,16548 4,33467 3,04452 3,31054 4,5207 3,72569 3,86283 3,10906 5,4161 3,41773 3,88568 porcentaje de población mayor de 15 años que sabe leer numero de estudiantes universitarios por 100000 habitantes producto nacional bruto 19 Ejemplo: Mortalidad infantil Call: lm(formula = INFD ~ PHYS + DENS + AGDS + DENS + LIT + HIED + GNP) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.131e+02 3.001e+01 3.770 0.000505 *** PHYS 3.283e-03 4.007e-03 0.819 0.417268 DENS -1.609e-02 2.807e-02 -0.573 0.569649 AGDS 1.504e-05 8.229e-04 0.018 0.985505 LIT -7.005e-01 3.083e-01 -2.272 0.028264 * HIED 8.309e-03 1.479e-02 0.562 0.577185 GNP -1.940e-02 1.119e-02 -1.735 0.090157 .
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 26.67 on 42 degrees of freedom Multiple R-squared: 0.5075, Adjusted R-squared: 0.4371 F-statistic: 7.212 on 6 and 42 DF, p-value: 2.474e-05 20 Ejemplo: Precio de los pisos de Barcelona Se desea obtener un modelo que explique el precio de los pisos de Barcelona en función de: • si es nuevo • Ancho de calle • Garaje • Ascensor • Superfície • número de dormitorios • número de baños • Terraza • Calefacción 21 Ejemplo: Precio de los pisos de Barcelona lm(formula = Preu ~ Nou + AmpCa + Gar + Asc + Superf + Dorm + Bany + Terr + Calef + Antig) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -22186.067 4072.326 -5.448 1.68e-07 *** Nou 12814.624 2755.552 4.650 6.44e-06 *** AmpCa 23.442 33.682 0.696 0.4873 Gar 1554.821 969.762 1.603 0.1106 Asc -1507.092 1561.489 -0.965 0.3358 Superf 562.115 34.259 16.408 < 2e-16 *** Dorm -6814.481 1345.644 -5.064 1.02e-06 *** Bany 2931.351 1399.352 2.095 0.0376 * Terr 36.011 50.118 0.719 0.4734 Calef 236.446 761.223 0.311 0.7565 Antig -6.240 7.095 -0.880 0.3803 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 13120 on 178 degrees of freedom Multiple R-squared: 0.7943, Adjusted R-squared: 0.7828 F-statistic: 68.75 on 10 and 178 DF, p-value: < 2.2e-16 22 Tabla ANOVA y Bondad del ajuste Se puede generalizar para cualquier p la tabla ANOVA vista en el tema de Regresión Simple para p=2.
Efectivamente sigue siendo cierto que: Y − Y = Yˆ − Y + Y − Yˆ Y por las mismas razones de ortogonalidad de los ˆ − Y = T y Y − Yˆ , que las ya vistas para p=2, vectores Y tendremos: ( ) ( ) 23 Tabla ANOVA Causa de la variabilidad Grados de libertad Suma de cuadrados Cuadrados medios Explicada por regresión νE = p-1 Residual νR = n-p SCR = Y′ ⋅ Y − b′ ⋅ X′ ⋅ Y Total corregida νT = n-1 SCTD = Y′ ⋅ Y − n ⋅ Y SC SCTE p −1 2 SCTE = b′ ⋅ X′ ⋅ Y − n ⋅ Y SR2 = SCR n−p 2 Que es equivalente a la vista para RLS (p=2): Causa de la variabilidad Explicada por regresión Residual Total corregida Grados de libertad νE = p-1 νR = n-p νT = n-1 Suma de cuadrados SQEE = ∑ (Yˆi − Y ) SC n SQE p −1 2 i =1 n ( SQRR = ∑ Yi − Yˆi SC i=1 SQ = SC TT Cuadrados medios ) 2 SR2 = SQR n−p n ∑ (Y − Y) 2 i=1 i 24 Ejemplo: Mortalidad infantil Call: lm(formula = INFD ~ PHYS + DENS + AGDS + DENS + LIT + HIED + GNP) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.131e+02 3.001e+01 3.770 0.000505 *** PHYS 3.283e-03 4.007e-03 0.819 0.417268 DENS -1.609e-02 2.807e-02 -0.573 0.569649 AGDS 1.504e-05 8.229e-04 0.018 0.985505 LIT -7.005e-01 3.083e-01 -2.272 0.028264 * HIED 8.309e-03 1.479e-02 0.562 0.577185 GNP -1.940e-02 1.119e-02 -1.735 0.090157 .
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 26.67 on 42 degrees of freedom Multiple R-squared: 0.5075, Adjusted R-squared: 0.4371 F-statistic: 7.212 on 6 and 42 DF, p-value: 2.474e-05 25 Ejemplo: Precio de los pisos de Barcelona lm(formula = Preu ~ Nou + AmpCa + Gar + Asc + Superf + Dorm + Bany + Terr + Calef + Antig) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -22186.067 4072.326 -5.448 1.68e-07 *** Nou 12814.624 2755.552 4.650 6.44e-06 *** AmpCa 23.442 33.682 0.696 0.4873 Gar 1554.821 969.762 1.603 0.1106 Asc -1507.092 1561.489 -0.965 0.3358 Superf 562.115 34.259 16.408 < 2e-16 *** Dorm -6814.481 1345.644 -5.064 1.02e-06 *** Bany 2931.351 1399.352 2.095 0.0376 * Terr 36.011 50.118 0.719 0.4734 Calef 236.446 761.223 0.311 0.7565 Antig -6.240 7.095 -0.880 0.3803 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 13120 on 178 degrees of freedom Multiple R-squared: 0.7943, Adjusted R-squared: 0.7828 F-statistic: 68.75 on 10 and 178 DF, p-value: < 2.2e-16 26 Medidas de calidad del ajuste Coeficiente de determinación múltiple = R2 SCT SCD − SCR = SCD SCD  R2 es el cuadrado de la correlación entre Y y Yˆ .
 0 ≤ R2 ≤ 1  p = n ⇒ R2 = 1  Es muy importante que una mejora en R2 no sea debida simplemente a que el número de parámetros en el modelo se aproxima al número de valores diferentes de X.
27  Se puede comprobar que al añadir una variable nueva al modelo, la SQT no cambia, la SQE siempre aumenta y la SQR siempre disminuye, y esto provoca que R2 siempre aumente, aúnque la variable añadida no sea necesaria, en el sentido que no mejora el modelo.
 Es importante tener medidas de la calidad del ajuste que no aumenten siempre que añadimos variables, si no sólo cuando las variables añadidas aporten valor explicativo.
Esto requiere criterios que penalicen los modelos con muchas variables.
 El coeficiente de determinación es útil para comparar modelos con el mismo número de variables explicativas.
28 Exemple Para ilustrar el hecho que para tener un modelo con una R2 del 100% es suficiente con incluir en el modelo tantas variables explicativas como observaciones (n=p). Aquí ajustamos un modelo para explicar el Peso de 10 estudiants usando un modelo con 9 variables que no tienen nada que ver con los estudiantes.
29 Pes (kg) línia vida (cm) T(ºC) àcid 59 75 66 73 81 71 80 80 67 74 9,751 9 9,6 9,75 11,25 9,45 11,25 9 7,95 12 194,5 194,3 197,9 198,4 199,4 199,9 200,9 201,1 201,4 201,3 123 109 62 104 57 37 44 100 16 28 Pes animals GNP (kg) 3,385 0,48 1,35 465 36,33 27,66 14,83 1,04 4,19 0,425 1316 670 200 1196 235 365 1947 379 357 467 Preu pisos 3950 4500 7300 4400 2700 16100 6100 4700 1000 16800 Densitat Velocitat Superf poblaci cotxe pisos ó 117 1 40 102 84 90 110 548 115 75 301 80 101 3 30 105 72 79 78 2 180 107 11 60 84 24 35 95 62 115 Ejemplo lm(formula = Pes ~ linia_vida + T + acid + Pes.animals + GNP + Preu_pisos + Velocitat_cotxe + Densitat_poblacio + Superf_pisos) Residuals: ALL 10 residuals are 0: no residual degrees of freedom! Coefficients: (Intercept) linia_vida T acid Pes.animals GNP Preu_pisos Velocitat_cotxe Densitat_poblacio Superf_pisos Estimate -12.49794 0.47044 -0.01922 -0.14974 0.12222 -0.02256 -0.00207 0.93014 -0.08560 0.44457 Std. Error NA NA NA NA NA NA NA NA NA NA t value Pr(>|t|) NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA Residual standard error: NaN on 0 degrees of freedom Multiple R-squared: 1, Adjusted R-squared: F-statistic: NaN on 9 and 0 DF, p-value: NA NaN 30 Coeficiente de determinación ajustado 2 n − 1 S R a2 =1 − (1 − R 2 ) ⋅ =1 − R2 n−p SY amb : SR2 = 2 e ∑ i n−p = sR2 S2Y (1 − Ra2 ) Tiene parcialmente en cuenta la observación anterior.
31 Sacando una variable dejamos de ”explicar” el 100% del Peso de los estudiantes. La R2 ajustada aquí es mucho más indicada que la R2.
Call: lm(formula = pi$Pes ~ pi$linia_vida + pi$T + pi$acid + pi$Pes.animals + pi$GNP + pi$Preu_pisos + pi$Velocitat_cotxe + pi$Densitat_poblacio) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.705e+02 5.022e+02 -0.339 0.792 pi$linia_vida 3.058e+00 3.714e+00 0.823 0.562 pi$T 1.345e+00 2.406e+00 0.559 0.676 pi$acid 2.422e-01 2.479e-01 0.977 0.507 pi$Pes.animals -3.803e-02 5.656e-02 -0.672 0.623 pi$GNP -9.115e-03 1.070e-02 -0.851 0.551 pi$Preu_pisos 1.429e-04 9.728e-04 0.147 0.907 pi$Velocitat_cotxe -6.473e-01 7.206e-01 -0.898 0.534 pi$Densitat_poblacio -3.861e-03 2.598e-02 -0.149 0.906 Residual standard error: 11.21 on 1 degrees of freedom Multiple R-squared: 0.7209, Adjusted R-squared: -1.512 F-statistic: 0.3228 on 8 and 1 DF, p-value: 0.8836 32 ...