Modelo Lineal Múltiple (2014)

Apunte Español
Universidad Universidad Politécnica de Cataluña (UPC)
Grado Administración y Dirección de Empresas - 2º curso
Asignatura Estadística 2
Año del apunte 2014
Páginas 18
Fecha de subida 11/09/2014
Descargas 1
Subido por

Descripción

Apuntes explícitos y detallados

Vista previa del texto

Estadística II Tema 3 Regresión múltiple 2ª Parte 1 Distribución del vector de coeficientes ( Hemos visto que el vector de estimaciones ′ mínimo-cuadráticas de β es:  b = X ⋅X ) −1 ⋅ X′ ⋅ Y Como las βbˆii son combinación lineal de las Yi : ( ) ( [X ' X ] ) bβˆii ≈ N βi ; σ b2i =N βi ; σ 2 ⋅ δii ( b = β ,σ 2 ) −1 Y, dado que σ2 es desconocida, se estimará mediante la variancia residual S. R2 2 Estimación de σ2 : 2 T e SC e ⋅ e ∑ i 2 R σ ˆ S= σ = = = R n−p n−p n−p 22 Distribución de SR2 SR2 (n − p ) ⋅ 2 ≈ χn2−p σ De aquí se deduce que: 2 2 σ σ E ( SR2 = ) n − p ⋅ E ( χn2−p=) n − p ⋅ (n − p=) σ 2 3 Pruebas de significación 1 1. Para todos los coeficientes menos β0.
Partimos del modelo: yi = β0 + β1 x1i + β2 x2i + … + βp-1i xp-1i + εi queremos hacer la prueba de hipótesie: H0 : β= β= ...= β(p−1)= 0 1 2 H1 : alguna βi ≠ 0 que elige entre el modelo nulo, que dice que el valor esperado de yi es constante y, por lo tanto que ninguna de les p-1 variables regresoras explica la y, y un modelo alternativo que dice que algunas de las variables del modelo de partida explican y.
Si H0 es verdadera (y las hipótesis del modelo se cumplen), el estadístico F=sE2/sR2 de la tabla ANOVA tiene como distribución una F(p-1,n-p).
4 Causa de la variabilidad Grados de libertad Explicada por regresión νE = p-1 Residual νR = n-p Total corregida Suma de cuadrados SQEE = ∑ (Yˆi − Y ) SC n 2 Cuadrados medios s E2 = SCTE p −1 SR2 = SCR n−p i =1 νT = n-1 n ( SQRR = ∑ Yi − Yˆi SC i=1 = SQ SC TT ) 2 n ∑ (Y − Y) 2 i=1 i F=sE2/sR2 Si H0 es verdadera, F~F-Snedecor(p-1,n-p).
5 Ejemplo: Mortalidad infantil Call: lm(formula = INFD ~ PHYS + DENS + AGDS + DENS + LIT + HIED + GNP) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.131e+02 3.001e+01 3.770 0.000505 *** PHYS 3.283e-03 4.007e-03 0.819 0.417268 DENS -1.609e-02 2.807e-02 -0.573 0.569649 AGDS 1.504e-05 8.229e-04 0.018 0.985505 LIT -7.005e-01 3.083e-01 -2.272 0.028264 * HIED 8.309e-03 1.479e-02 0.562 0.577185 GNP -1.940e-02 1.119e-02 -1.735 0.090157 .
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 26.67 on 42 degrees of freedom Multiple R-squared: 0.5075, Adjusted R-squared: 0.4371 F-statistic: 7.212 on 6 and 42 DF, p-value: 2.474e-05 6 Ejemplo: Precio de los pisos de Barcelona lm(formula = Preu ~ Nou + AmpCa + Gar + Asc + Superf + Dorm + Bany + Terr + Calef + Antig) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -22186.067 4072.326 -5.448 1.68e-07 *** Nou 12814.624 2755.552 4.650 6.44e-06 *** AmpCa 23.442 33.682 0.696 0.4873 Gar 1554.821 969.762 1.603 0.1106 Asc -1507.092 1561.489 -0.965 0.3358 Superf 562.115 34.259 16.408 < 2e-16 *** Dorm -6814.481 1345.644 -5.064 1.02e-06 *** Bany 2931.351 1399.352 2.095 0.0376 * Terr 36.011 50.118 0.719 0.4734 Calef 236.446 761.223 0.311 0.7565 Antig -6.240 7.095 -0.880 0.3803 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 13120 on 178 degrees of freedom Multiple R-squared: 0.7943, Adjusted R-squared: 0.7828 F-statistic: 68.75 on 10 and 178 DF, p-value: < 2.2e-16 7 Sacando una variable dejamos de ”explicar” el 100% del Peso de los estudiantes. La R2 ajustada aquí es mucho más indicada que la R2.
Call: lm(formula = Pes ~ linia_vida + T + acid + Pes.animals + GNP + Preu_pisos + Velocitat_cotxe + Densitat_poblacio) Coefficients: (Intercept) linia_vida T acid Pes.animals GNP Preu_pisos Velocitat_cotxe Densitat_poblacio Estimate Std. Error t value Pr(>|t|) -1.705e+02 5.022e+02 -0.339 0.792 3.058e+00 3.714e+00 0.823 0.562 1.345e+00 2.406e+00 0.559 0.676 2.422e-01 2.479e-01 0.977 0.507 -3.803e-02 5.656e-02 -0.672 0.623 -9.115e-03 1.070e-02 -0.851 0.551 1.429e-04 9.728e-04 0.147 0.907 -6.473e-01 7.206e-01 -0.898 0.534 -3.861e-03 2.598e-02 -0.149 0.906 Residual standard error: 11.21 on 1 degrees of freedom Multiple R-squared: 0.7209, Adjusted R-squared: 0.0 F-statistic: 0.3228 on 8 and 1 DF, p-value: 0.8836 8 Pruebas de significación 2 1. Para un único coeficiente H0: βi=0 Para el caso H0 : H1: βi≠0 general H1 : Dado que βˆi ~ N (β i , S β De donde t = O be´: βˆi − β i S βi i βi = a ( βi > a; βi < a o βi ≠ a ) ) ~ t-Student con n-p G.L t 2 ≈ F-Snedecor (1; n-p ) 9 Ejemplo: Precio de los pisos de Barcelona lm(formula = Preu ~ Nou + AmpCa + Gar + Asc + Superf + Dorm + Bany + Terr + Calef + Antig) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -22186.067 4072.326 -5.448 1.68e-07 *** Nou 12814.624 2755.552 4.650 6.44e-06 *** AmpCa 23.442 33.682 0.696 0.4873 Gar 1554.821 969.762 1.603 0.1106 Asc -1507.092 1561.489 -0.965 0.3358 Superf 562.115 34.259 16.408 < 2e-16 *** Dorm -6814.481 1345.644 -5.064 1.02e-06 *** Bany 2931.351 1399.352 2.095 0.0376 * Terr 36.011 50.118 0.719 0.4734 Calef 236.446 761.223 0.311 0.7565 Antig -6.240 7.095 -0.880 0.3803 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 13120 on 178 degrees of freedom Multiple R-squared: 0.7943, Adjusted R-squared: 0.7828 F-statistic: 68.75 on 10 and 178 DF, p-value: < 2.2e-16 10 Pruebas de significación 3 2. Para grupos de coeficientes Si en el modelo: E ( Y ) = β0 + β1X1 + β2 X 2 + ... + β(p−1) X (p−1) Planteamos (por ejemplo) la prueba de significación:  β1 = 0 H0 :  ⇔ H0 : β1 = β2 = 0  β2 = 0 Si se verifica esta hipótesis nula, el estadístico F calculado como: F= SQR,H0 − SQR q ⋅ sR2 sigue una distribución F-Snedecor de q y n-p grados de libertad.
con q: n. de restricciones SR2: varianza residual SQR: suma de cuadrados de los residuos SQR,H0: suma de cuadrados de los residuos suponiendo cierta la hipótesis nula 11 Es decir, las cantidades: q: nº de restricciones (nº de “=” en la H0) SR2: varianza residual SQR: suma de cuadrados de los residuos Los obtenemos del modelo ajustado yi = β0 + β1 x1i + β2 x2i + … + βp-1i xp-1i + ei En cambio, la cantidad: SQR,H0: suma de cuadrados de los residuos suponiendo cierta la hipótesis nula La obtenemos ajustando un nuevo modelo, en el que se cumpla la H0.
En el ejemplo:  β1 = 0 H0 :   β2 = 0 ⇔ H0 : β1 = β2 = 0 El nuevo modelo ajustado: yi = β0 + 0+ 0 +β3 x3i + … + βp-1i xp-1i + ei 12 Ejemplo: Precio de los pisos de Barcelona lm(formula = Preu ~ Nou + AmpCa + Gar + Asc + Superf + Dorm + Bany + Terr + Calef + Antig) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -22186.067 4072.326 -5.448 1.68e-07 *** Nou 12814.624 2755.552 4.650 6.44e-06 *** AmpCa 23.442 33.682 0.696 0.4873 Gar 1554.821 969.762 1.603 0.1106 Asc -1507.092 1561.489 -0.965 0.3358 Superf 562.115 34.259 16.408 < 2e-16 *** Dorm -6814.481 1345.644 -5.064 1.02e-06 *** Bany 2931.351 1399.352 2.095 0.0376 * Terr 36.011 50.118 0.719 0.4734 Calef 236.446 761.223 0.311 0.7565 Antig -6.240 7.095 -0.880 0.3803 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 13120 on 178 degrees of freedom Multiple R-squared: 0.7943, Adjusted R-squared: 0.7828 F-statistic: 68.75 on 10 and 178 DF, p-value: < 2.2e-16 13 Ejemplo: Precio de los pisos de Barcelona model=lm(Preu~Superf+Dorm+Bany+Terr+Antig+AmpCa+Gar+Nou) Call: lm(formula = Preu ~ Superf + Dorm + Bany + Terr + Antig + AmpCa + Gar + Nou) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -23243.250 3907.831 -5.948 1.38e-08 *** Superf 569.285 33.343 17.074 < 2e-16 *** Dorm -7049.817 1311.742 -5.374 2.36e-07 *** Bany 2554.016 1288.645 1.982 0.049 * Terr 33.962 49.349 0.688 0.492 Antig -6.271 7.066 -0.888 0.376 AmpCa 20.243 33.157 0.611 0.542 Gar 1410.187 952.242 1.481 0.140 Nou 13190.899 2519.051 5.236 4.53e-07 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 13080 on 180 degrees of freedom Multiple R-squared: 0.7933, Adjusted R-squared: 0.7841 F-statistic: 86.33 on 8 and 180 DF, p-value: < 2.2e-16 14 Continuación (I) Precio de los pisos de Barcelona Hemos ajustado el modelo 1: Preui = β0 + β1 Superfi + β2 Dormi + β3 Banyi + β4 Terri + β5 Antigi + β6 AmpCai + β7 Gari + β8 Noui + ei Queremos comprovar si, simultáneamente: H0: β4 = β5 = β6 = β7 = 0 (las β asociadas a Terr, Antig, AmpCa, Gar, Nou ) H1: alguna de estas β ≠ 0 Ajustaremos el modelo 2 (si la H0 fuera verdadera): Preui = β0 + β1 Superfi + β2 Dormi + β3 Banyi + β8 Noui + ei 15 Continuación (II) Precio de los pisos de Barcelona model1=lm(Preu~Superf+Dorm+Bany+Nou) Call: lm(formula = Preu ~ Superf + Dorm + Bany + Nou) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -22985.10 3687.70 -6.233 3.05e-09 *** Superf 581.52 32.42 17.937 < 2e-16 *** Dorm -6866.97 1307.11 -5.254 4.10e-07 *** Bany 2928.36 1269.67 2.306 0.0222 * Nou 13438.74 2297.93 5.848 2.23e-08 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 13080 on 184 degrees of freedom Multiple R-squared: 0.7886, Adjusted R-squared: 0.7841 F-statistic: 171.6 on 4 and 184 DF, p-value: < 2.2e-16 16 Continuación (III) Precio de los pisos de Barcelona Aplicamos el test: F = SQR,H0 − SQR q ⋅ sR2 q: n. de restricciones = 4 (H0: β4 = β5 = β6 = β7 = 0) varianza residual del modelo 1 = 13080^2 SR2: SQR: suma de cuadrados de los residuos del modelo 1 = SR2*GLR=13080^2*180 SQR,H0: suma de cuadrados de los residuos suponiendo cierta la hipótesis nula (del modelo 2) = 13080^2*184 con (13080 2 *184) − (13080 2 *180) F= =1 2 4·13080 sigue una distribución F-Snedecor de q=4 y n-p=180 grados de libertad 17 Continuación (IV) Precio de los pisos de Barcelona Con R: > anova(model,model1) Analysis of Variance Table Model 1: Preu ~ Superf + Dorm + Bany + Terr + Antig + AmpCa + Gar + Nou Model 2: Preu ~ Superf + Dorm + Bany + Nou Res.Df RSS Df Sum of Sq F Pr(>F) 1 180 3.0792e+10 2 184 3.1479e+10 -4 -686572487 1.0034 0.4072 18 ...