RLS Material complementario (2014)

Apunte Español
Universidad Universidad Politécnica de Cataluña (UPC)
Grado Administración y Dirección de Empresas - 2º curso
Asignatura Estadística 2
Año del apunte 2014
Páginas 61
Fecha de subida 11/09/2014
Descargas 3
Subido por

Descripción

Apuntes explícitos y detallados

Vista previa del texto

Estadística II Tema 2 Modelo de Regresión Lineal Simple Material Complementario 1 Correlación 2 Correlación y Causalidad Diagrama de la regressió Població (milers habitants) = 38,16 + 0,1407 Nombre de cigonyes S R-Sq R-Sq(adj) Nombre de naixements (milers) 75 3,05398 87,4% 84,9% 70 65 60 55 120 140 160 180 200 220 Nombre de cigonyes 240 260 Relació entre el nombre de cigonyes a Alsàcia i el nombre de naixements.
3 Diagrama de la regressió Morts per milió d'habitants = 66,61 + 0,2284 consum anual de cigarrets Morts per milió d'habitants 500 S R-Sq R-Sq(adj) 83,8126 56,0% 51,1% 400 300 200 100 0 200 400 600 800 1000 consum anual de cigarrets 1200 1400 Relació entre el nombre de cigarrets consumits per persona durant un any en diferents països i el nombre de morts de càncer per milió.
Aquestes dades són de fa més de seixanta anys.
4 Diagrama Bivariante Relación lineal Diagrama bivariant de la llum vs àcid 90 80 Luz absorbida y concentración de ácido llum 70 60 50 40 0 20 40 60 80 100 120 140 160 180 àcid Diagrama bivariant de l'edat vs la longitud de la línia de la vida 100 90 80 70 edat (anys) Longitud la línea de la vida y edad de la muerte 60 50 40 30 20 10 6 5 7 8 9 10 ma(cm) 11 12 13 14 Diagrama Bivariante Relaciones no lineales Diagrama bivariant de Phook vs Thook 30,0 27,5 25,0 Phook Temperatura de ebullición agua y presión atmosférica 20,0 17,5 Seria razonable ajustar los puntos a una recta en este caso? 15,0 180 185 190 195 200 Thook 205 Diagrama de la regressió Diagrama de la regressió Phook = - 64,41 + 0,4403 Thook logPhook = - 1,022 + 0,02087 Thook 30,0 3,4 Regression 95% CI 27,5 S R-Sq R-Sq(adj) 22,5 20,0 S R-Sq R-Sq(adj) 3,2 3,1 3,0 2,9 17,5 2,8 15,0 2,7 180 6 185 190 195 200 Thook 205 210 215 210 215 Regression 95% CI 3,3 0,356345 99,2% 99,1% logPhook 25,0 Phook 22,5 180 185 190 195 200 Thook 205 210 215 0,0083889 99,8% 99,8% Diagrama Bivariante Detección anomalías Diagrama bivariant del pes del cervell vs el pes del cos 6000 2 5000 3 Pes del cuerpo y del cerebro PesCervell 4000 3000 1 2000 1000 0 0 1000 2000 3000 4000 5000 6000 7000 PesCos Diagrama bivariant del pes del cervell vs el pes del cos 6000 elefant asiàtic 5000 Identificar los puntos 1, 2 i 3 elefant africà PesCervell 4000 3000 home 2000 1000 0 0 1000 2000 3000 PesCos 7 4000 5000 6000 7000 Estratificar es muy útil para valorar si el mismo modelo sirve para diferentes grupos.
Permite añadir una tercera variable categórica al gráfico.
Diagrama bivariant del Pes (kg) vs l'Alçada (cm) 100 90 90 80 80 Pes (kg) Pes (kg) Diagrama bivariant del Pes (kg) vs l'Alçada (cm) 100 70 8 70 60 60 50 50 160 170 180 Alçada (cm) 190 200 Sexe home 0 dona 1 160 170 180 Alçada (cm) 190 200 El fet que en un diagrama bivariant entre y i x1 no sembli que hi ha cap relació, no vol dir que x1 no pugui servir per explicar la y si va acompanyada d’altres explicatives.
El fet que en un diagrama bivariant entre y i x1 sembli que hi ha relació, no vol dir que aquesta relació sigui causal ni que la x1 sigui imprescindible a l’hora d’explicar la y. Podria ser que explicatives expliquin igual y, i que en presència d’elles la x1 no aporti res de nou.
9 Ecuaciones Normales La primera ecuación se puede re-escribir como: n ∑e i i =1 =0 y la segunda como: n ∑e ⋅ X i =1 i i = 0 10 Fent servir el criteri de mínims quadrats sempre es té que: • b0 i b1 són combinacions lineals de les yi, • la recta ajustada és: Yˆi = Y + b1 ⋅ ( X i − X ) i per tant sempre passa pel punt ( X,Y ) •la mitjana mostral dels residus, ei, és igual a 0.
Si haguessim triat un altre criteri per ajustar el model, això no s’hauria donat.
11 2.3 Càlcul del model ajustat Ejemplo 1: Luz - ácido 90 80 llum 70 60 50 40 0 20 60 40 80 100 120 140 160 180 acid The regression equation is llum = 35,5 + 0,322 acid Predictor Constant acid Coef 35,4583 0,321608 S = 1,230 SE Coef 0,6350 0,005555 R-Sq = 99,5% T 55,84 57,90 P 0,000 0,000 R-Sq(adj) = 99,4% Analysis of Variance Source Regression Residual Error Total DF 1 18 19 SS 5071,6 27,2 5098,8 MS 5071,6 1,5 F 3352,33 P 0,000 12 Ejemplo 2: Línea de la vida 100 90 80 edat 70 60 50 40 30 20 10 6 7 8 9 10 ma(cm) 11 12 13 14 The regression equation is edat = 79,2 - 1,37 ma(cm) Predictor Constant ma(cm) Coef 79,24 -1,368 S = 14,15 SE Coef 14,83 1,598 R-Sq = 1,5% T 5,34 -0,86 P 0,000 0,396 R-Sq(adj) = 0,0% Analysis of Variance Source Regression Residual Error Total DF 1 48 49 SS 146,6 9608,6 9755,2 MS 146,6 200,2 F 0,73 P 0,396 .
13 Ejemplo 3: Peso y altura 100 90 Pes (kg) 80 70 60 50 160 170 180 Alçada (cm) 190 200 The regression equation is Pes (kg) = - 83,3 + 0,866 Alçada (cm) Predictor Constant Alçada ( Coef -83,30 0,86618 S = 6,620 SE Coef 16,38 0,09210 R-Sq = 49,8% T -5,09 9,41 P 0,000 0,000 R-Sq(adj) = 49,3% Analysis of Variance Source Regression Residual Error Total DF 1 89 90 SS 3876,2 3899,9 7776,1 MS 3876,2 43,8 F 88,46 P 0,000 14 ANOVA y medidas de calidad del ajuste Necesitamos medidas que nos indiquen lo bien o mal que la recta que hemos encontrado ajusta nuestra nube de puntos.
15 En el caso del peso y la altura de estudiantes: cuál sería la mejor predicción del peso de un estudiante si no se tuviera información sobre su altura? Respuesta: la media 16 Cuál sería la mejor predicción del peso de un estudiante si conocemos su altura (Xi)? 17 Es evidente que: Yi − Y = Yi − Yˆi + Yˆi − Y ei per i = 1, 2, ..., n ∑ (Y − Y ) = ∑ (Yˆ − Y )+ ∑ (Y − Yˆ ) n i =1 n i n i i =1 i =1 i i Se puede comprobar que: ∑ (Y − Y ) = ∑ ( n i =1 2 i n i =1 Yˆi − Y ) + ∑( 2 n i =1 Yi − Yˆi ) 2 Variación total = Variac. explicada por modelo + Variac. no explicada (residual) 18 Estos resultados se resumen en la tabla ANOVA Causa de la variabilidad Explicada por regressión Residual (no explicada) Grados de libertad Suma de cuadrados n νE = 1 ( ) sE2 = SQE 1 ( ) sR2 = SCR n−2 SQE = ∑ Yˆi − Y i =1 + n Cuadrados medios 2 νR = n-2 SQR = ∑ Yi − Yˆi νT = n-1 SQT = ∑ (Yi − Y ) i =1 2 SE2 F= 2 SR = n Total corregida 2 i =1 19 Ejemplo 1: Llum - àcid 90 80 llum 70 60 50 40 0 20 60 40 80 100 120 140 160 180 acid The regression equation is llum = 35,5 + 0,322 acid Predictor Constant acid Coef 35,4583 0,321608 S = 1,230 SE Coef 0,6350 0,005555 R-Sq = 99,5% T 55,84 57,90 P 0,000 0,000 R-Sq(adj) = 99,4% Analysis of Variance Source Regression Residual Error Total DF 1 18 19 SS 5071,6 27,2 5098,8 MS 5071,6 1,5 F 3352,33 P 0,000 Ver más ejemplos en listados anteriores 20 A partir de esta tabla se puede calcular: ∑ (Y − Yˆi ) n  Un estimador de σ2 S R2 = i =1 n 2 i n−2 = 2 e ∑i i =1 n−2  El coeficiente de determinación R2 = Suma de quadrats explicada per regressio Suma de quadrats total corregida SQE SQT − SQR SQR sR2 ⋅ (n − 2) R = = = 1− = 1− 2 SQT SQT SQT s y ⋅ (n − 1) 2 0 ≤ R2 ≤ 1 R2 = (rxy )2 Para el modelo lineal simple, el valor de R2 coincide con el valor del cuadrado de la correlación muestral entre X y Y.
El R2 se suele dar en tanto por ciento (%), y se puede interpretar como el porcentaje de variabilidad de la y explicada por el modelo.
21 Anàlisis de los residuos Objectiu de l’anàlisi de residus Distribució dels residus Anàlisi gràfica Anàlisi quantitativa Exemples 22 Objetivo del análisis de residuos Antes de dar por buenos los intervalos de confianza y las pruebas de hipótesis sobre β0 i β1, Y los intervalos de predicción, tenemos que asegurarnos de que las hipótesis del modelo lineal sobre les que se basen son válidas.
Estas hipótesis las validaremos a través de los residuos del modelo ajustado.
23 Residuo = Error de predicción ei = Yi − Yˆi 24 Los residuos tienen la información sobre la relación entre Y y X que tienen los datos y que no tiene el modelo ajustado.
Si el modelo es correcto, tendria que capturar toda la información sobre la relación entre Y y X , y los residuos no deberían tener información sobre esta relación y, por tanto, no deberían mostrar ningún patrón relevante.
Si al explorar los residuos observamos algún patrón, las hipótesis del modelo no se cumplen y tenemos que aprovechar el patrón para mejorar el modelo.
25 Proceso de construcción de un modelo estadístico MODELOS TEÒRICOS IDENTIFICACIÓN ESTIMACIÓN DE LOS PARÀMETROS VALIDACIÓN DEL MODELO ANALITZANDO SUS RESIDUOS ADECUADO? No EXTRAER INFORMACIÓN DE LOS RESIDUOS, ei PROPONER UN MODELO MEJORADO 26 Si UTILITZACIÓN (Previsión, Interpretación) El análisis de residuos para validar el modelo y sugerir mejoras es la parte más importante del proceso de construcción del modelo.
Es una de las etapas del proceso donde la creatividad del experto es más importante.
La mayoría de las otras etapas son fácilmente programables y por esto les dedicamos menor atención.
27 Objetivos del análisis de los residuos:  Verificar las cuatro hipótesis del modelo.
 Sugerir mejoras en el modelo, y por tanto proponer modelos alternativos.
 Detectar observaciones atípicas, bien por estar mal explicadas por el modelo o bien por ser mucho más influyentes que la mayoría de observaciones sobre el modelo ajustado.
28 Distribución de los residuos     2 2 ( ) X X − σ V (ei ) = σ 2 −  + n i ⋅σ 2    n 2 (X i − X )   ∑ i =1   V(e i ) = σ 2 ⋅ (1 − h ii ) donde hii depende de las Xi hii es una medida de la distancia entre Xi y X (X − X ) ∑(X − X ) 2 1 hii= + n = σ ei σ 1 − hii 29 i 2 ⇒ 2 ∑ hii = i = sei sR 1 − hii hii = 2 n Por lo tanto los residuos no tienen varianza constante.
Pero normalmente hii será pequeño y podremos suponer que: σ e2i ≈ σ 2 i= 1,2,...,n y que, por tanto, la varianza estimada de los residuos, s2ei, es aproximadamente constante e igual a sR2 30 Usaremos dos tipos de residuos 1. Residuos: ˆ e i = Yi − Y i Dependen de las unidades. Cuanto mayor es un residuo, peor explicada por el modelo es aquella observación, pero no es fácil saber si un residuo es grande o pequeño.
* 2. Residuos estandarizados:e i = SRES = ei − e ei − 0 ei = = s ei s ei s ei Son dimensionales. Valores grandes de |ei*| indican que aquella observación es anómala, en el sentido que está peor explicada por el modelo que la mayoria de observaciones.
ei* ~ t STUDENT,ν = 31 n− 2 Como que: ei* ~ t STUDENT,ν = n− 2 una observación con |ei*| mucho mayor que 2 es una observación mal explicada por el modelo.
Esto puede deberse a la observación, al modelo, o bien a los dos.
A menudo el problema se resuelve transformando las variables y/o añadiendo alguna variable nueva al modelo.
32 A veces esto indica que se ha cometido un error al entrar aquella observación a la base de datos.
Análisis gráfico Hay que graficar los residuos de todas las maneras que ayuden a descubrir si todavía esconden información que sirva para mejorar el modelo para Y.
Diferentes problemas requieren diferentes gráficos.
Tres tipos de gráficos siempre útiles son: 1. Residuos vs. valores previstos 2. Residuos vs. variables explicativas modelo y de fuera del modelo 3. Residuos en papel probabilístico normal 33 del Análisis gráfico Gráfico 1: Residuos contra valores previstos (e , Yˆ ) i i o bien (e , Yˆ ) * i i Si las hipótesis del modelo lineal se cumplen, la gráfica no debería presentar ningún patrón: Sirve para ver si el valor previsto es cero, si la varianza es constante, si hace falta transformar alguna variable y si hay observaciones anómalas.
34 Es el gráfico más útil de todos. Hay que hacerlo (i mirarlo) siempre.
Ejemplo 1: Llum - àcid El modelo ajustado es: llum = 35,5 + 0,322 àcid El grà fico residu estandarizado - valor previsto es: Residuals Versus the Fitted Values (response is llum) Standardized Residual 2 1 0 -1 -2 40 50 60 70 Fitted Value 80 90 Indica que el modelo es correcto y que no hay anomalías.
35 Ejemplo 2: Línea de la vida El modelo ajustado es: edat mort = 79,2 – 1,37 ma(cm) El grà fico residu estandarizado - valor previsto es: Residuals Versus the Fitted Values (response is edat) 4 Standardized Residual 3 2 1 0 -1 -2 -3 -4 60 62 64 66 Fitted Value 68 70 72 Las hipótesis del modelo lineal se cumplen y por tanto el modelo es correcto, que no implica que el modelo explique mucho la edad de la 36 muerte Ejemplo 3: Pes i alçada El modelo ajustado es: Pes (kg) = -83,3 + 0,866 Alçada(cm) El grà fico residu estandarizado - valor previsto es: Residuals Versus the Fitted Values (response is Pes (kg)) 3 Standardized Residual 2 1 0 -1 -2 -3 55 37 60 65 70 75 Fitted Value 80 85 90 ( ) Posibles desviaciones de las hipótesis que se pueden ˆ : detectar conel gráfico e i , Y i 1. No - linealidad (falla H1) Yi = β0 + β1 ⋅ X i + β2 ⋅ X i2 + εi Si el modelo verdadero fuera: Yi = β0 + β1 ⋅ X i + εi y el modelo ajustado fuera: ( ˆ Entonces, el gráfico e i , Y i ) seria: Diagrama bivariant dels residus vs els valors previstos (la resposta és Y) 2,5 Residus estandaritzats 2,0 1,5 1,0 0,5 0,0 -0,5 -1,0 0 38 100 200 Valors previstos 300 400 2. Varianza no constante (falla H2) Una posible solución a este problema consiste en transformar Yi 3. Detección de anomalias 39 Ejemplo 4: Presión y temp. ebullición agua Fitted Line Plot S R-Sq R-Sq(adj) P = - 81,06 + 0,5229 T 0,232829 99,4% 99,4% Residuals Versus the Fitted Values (response is P) 3 30 2 Standardized Residual 28 P 26 24 1 0 22 -1 20 195,0 197,5 200,0 202,5 T 205,0 207,5 210,0 20 212,5 22 24 26 Fitted Value The regression equation is P = - 81,1 + 0,523 T Predictor Constant T S = 0,2328 Coef -81,064 0,52289 SE Coef T 2,052 -39,51 0,01011 51,74 R-Sq = 99,4% Analysis of Variance Source DF Regression 1 Residual Error 15 Total 16 R-Sq(adj) = 99,4% SS 145,12 0,81 145,94 Unusual Observations Obs T P Fit 12 205 26,5700 25,9201 40 P 0,000 0,000 MS 145,12 0,05 SE Fit 0,0589 F 2677,11 Residual 0,6499 P 0,000 St Resid 2,89R 28 30 Eliminamos la anomalía y ajustamos el modelo de nuevo Residuals Versus the Fitted Values (response is P) 2,0 Standardized Residual 1,5 1,0 0,5 0,0 -0,5 -1,0 The regression equation is P = - 80,7 + 0,521 T -1,5 20 16 cases used 1 cases contain missing values Predictor Constant T Coef -80,667 0,520738 S = 0,1608 SE Coef 1,420 0,006997 R-Sq = 99,7% T -56,81 74,42 P 0,000 0,000 R-Sq(adj) = 99,7% Analysis of Variance Source Regression Residual Error Total 41 DF 1 14 15 SS 143,15 0,36 143,51 MS 143,15 0,03 F 5538,17 P 0,000 22 24 26 Fitted Value 28 30 Transformamos mediante el logaritmo la presión atmosférica S R-Sq R-Sq(adj) Fitted Line Plot ln(P) = - 0,9518 + 0,02052 T 0,0026157 100,0% 100,0% Residuals Versus the Fitted Values (response is ln(P)) 3,4 Standardized Residual 1,0 ln(P) 3,3 3,2 3,1 0,5 0,0 -0,5 -1,0 -1,5 -2,0 3,0 195,0 197,5 200,0 202,5 T 205,0 207,5 210,0 3,0 212,5 3,1 The regression equation is lnP = - 0,952 + 0,0205 T 16 cases used 1 cases contain missing values Predictor Coef SE Coef Constant -0,95177 0,02310 T 0,0205186 0,0001138 S = 0,002616 R-Sq = 100,0% Analysis of Variance Source DF SS Regression 1 0,22225 Residual Error 14 0,00010 Total 15 0,22235 42 T -41,20 180,24 P 0,000 0,000 R-Sq(adj) = 100,0% MS F P 0,22225 32484,91 0,000 0,00001 3,2 Fitted Value 3,3 3,4 Ejemplo 5: Mortalidad infantil y PIB PAIS INFD Austràlia 19,5 Àustria 37,5 Barbados 60,4 Bèlgica 35,4 Guaiana Britànica 67,1 Bulgària 45,1 Canadà 27,3 Xile 127,9 Costa Rica 78,9 Xipre 29,9 Txecoslovàquia 31 Dinamarca 23,7 El Salvador 76,3 Finlàndia 21 França 27,4 Guatemala 91,9 Hong-Kong 41,5 Hungria 47,6 Islàndia 22,4 Índia 225 Irlanda 30,5 Itàlia 48,7 Jamaica 58,7 43 PHYS 860 695 3000 819 3900 740 900 1700 2600 1400 620 830 5400 1600 1014 6400 3300 650 840 5200 1000 746 4300 DENS 1 84 548 301 3 72 2 11 24 62 108 107 127 13 83 36 3082 108 2 138 40 164 143 AGDS 21 1720 7121 5257 192 1380 257 1164 948 1042 1821 1434 1497 1512 1288 1365 98143 1370 79 2279 598 2323 3410 LIT 98,5 98,5 91,1 96,7 74 85 97,5 80,1 79,4 60,5 97,5 98,5 39,4 98,5 96,4 29,4 57,5 97,5 98,5 19,3 98,5 87,5 77 HIED 856 546 24 536 27 456 645 257 326 78 398 570 89 529 667 135 176 258 445 220 362 362 42 GNP 1316 670 200 1196 235 365 1947 379 357 467 680 1057 219 794 943 189 272 490 572 73 550 516 316 Ya se ve a simple vista, sin necesidad de mirar los residuos, que un modelo lineal simple es incorrecto.
44 The regression equation is INFD = 73,9 - 0,0361 GNP Predictor Constant GNP Coef 73,866 -0,036102 S = 30,61 SE Coef 7,070 0,008574 R-Sq = 27,4% T 10,45 -4,21 P 0,000 0,000 R-Sq(adj) = 25,8% Analysis of Variance Source Regression Residual Error Total DF 1 47 48 SS 16610 44035 60645 MS 16610 937 F 17,73 P 0,000 45 Residuals Versus the Fitted Values (response is INFD) 150 Residual 100 50 0 -50 -20 -10 0 10 20 30 Fitted Value 40 50 60 70 La varianza de los residuos no es constante, y hay curvatura y por lo tanto también falla la hipótesis de linealidad. Señal de que el modelo lineal simple que estamos ajustando es incorrecto.
Si hubiéramos representado los residuos estandarizados, veríamos que hay una observación anómala. Es la India.
Mueren muchos más bebes de los previstos por este modelo.
46 Transformamos, mediante logaritmos, tanto la y (mortalidad infantil) como la x (PIB) Què diríais, las hipotesis del modelo lineal simple son creibles aquí? 47 The regression equation is log(INFD) = 7,41 - 0,590 log GNP Predictor Constant log GNP Coef 7,4082 -0,59032 S = 0,3588 SE Coef 0,4295 0,06878 R-Sq = 61,0% T 17,25 -8,58 P 0,000 0,000 R-Sq(adj) = 60,2% Analysis of Variance Source Regression Residual Error Total 48 DF 1 47 48 SS 9,4799 6,0494 15,5293 MS 9,4799 0,1287 F 73,65 P 0,000 Residuals Versus the Fitted Values (response is log(INFD)) 1,0 Residual 0,5 0,0 -0,5 -1,0 3,0 3,5 4,0 Fitted Value 4,5 5,0 Observad que la India ha dejado de ser un pais anomalo, sin haberla eliminado de la muestra. Si era anomala para el anterior modelo, era porque el modelo era incorrecto.
49 Gráfico 2: Residuos vs. otras variables de interés Gráfico de los residuos vs. otras variables, tanto las presentes en el modelo como variables que no estan en el modelo pero que podrían servir para explicar la y.
50 Gráfico 3: Residuos en papel probabilístico normal Es muy útil para verificar la hipótesis de normalidad del error, εi, y también aguda a detectar anomalías.
Estos son los residuos del modelo INFD con GNP y los del modelo del logINFD con logGNP.
51 Análisis cuantitativo 1.- Medida del grado de anomalia ei ei* = ~ t − Student sei ν= n − 2 g.l.
Las observaciones correspondientes a valores de |ei*| muy grandes requieren un estudio detallado, ya que son observaciones mal explicadas por el modelo, y pueden dar información valiosa sobre la observación y/o sobre como mejorar el modelo.
Aunque el modelo sea correcto, cabe esperar que un 5 % de las observaciones tengan ei* > 2 . Si |ei*| es poco mayor de 2, no pasa nada.
52 Análisis de los residuos: Residuals Versus the Fitted Values Residuals Versus the Fitted Values (response is Pes (kg)) (response is Pes (kg)) 3 20 Residual 10 0 -10 -2·SR 2 Standardized Residual 2·SR 1 0 -1 -2 -3 -20 55 60 65 70 75 Fitted Value 80 85 90 55 60 65 70 75 Fitted Value 80 85 El grafico que utiliza los residuos y el que utiliza los residuos estandarizados son prácticamente idénticos porqué los residuos estandarizados son prácticamente proporcionales a los residuos.
La única ventaja de los estandarizados es que a través de ellos es un poco más fácil distinguir las observaciones anormales.
53 90 2.- Mesura grau d’allunyament a l’espai de les X El valor de hii mide la distancia de Xi al centro de gravedad (la media) de todas las X de la muestra utilizada para ajustar el modelo ( ) 2 Xi − X 1 hii = + n ∑ Xi − X ( ) 2 ⇒ p= 2 i per tant: ∑ hii = p 2 h= = n n Nos fijaremos en las observaciones per a las que su hii supere 3·p/n 54 Tipos de observaciones inusuales 55 3.- Medida del grado de influencia Decimos que una observación (xi,yi) tiene “mucha” influencia cuando los coeficientes del modelo ajustado utilizando todas las n observaciones de la muestra es muy diferente de los coeficientes del modelo ajustado utilizando todas las observaciones de la muestra menos la observación i-esima.
56 La distancia de Cook de la observación i-esima es una medida de su grado de influencia, i se calcula: hii 1 DCi = e 1 − hii p * i Donde p es el número de parámetros β en el modelo, * (para el modelo lineal simple p=2), ei es el residuo estandarizado para la observación i-esima y (X − X ) ∑(X − X ) 2 1 hii= + n 57 i i 2 Con el modelo final, es conveniente hacer los gráficos de la distancia de Cook con el residuo estandarizado y de la distancia de Cook con hii, para entender cuáles son las observaciones que tienen más influencia sobre el modelo ajustado final y por qué la tienen.
Que una observación tenga más influencia que la mayoría no es necesariamente malo, pero si esta influencia va asociada a un residuo estandarizado con un valor absoluto grande es preocupante.
58 10 Normal Q-Q Plot 0 5 Sample Quantiles 2 1 -2 -10 -1 0 rstandard(model) Ejemplo 1: Peso y Altura de estudiantes 55 60 65 70 75 80 85 -2 -2 -1 0 1 2 rstandard(model) 59 0 1 2 0.00 0.04 0.08 0.12 Theoretical Quantiles cooks.distance(model) 0.00 0.04 0.08 0.12 cooks.distance(model) fitted(model) -1 0.02 0.04 0.06 0.08 hatvalues(model) Ejemplo 2: Línea de la vida Call: lm(formula = Edad ~ Long) Residuals: Min 1Q -46.905 -7.925 Median 0.787 3Q 7.633 Max 27.069 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 79.233 14.832 5.342 2.49e-06 *** Long -1.367 1.598 -0.856 0.397 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 14.15 on 48 degrees of freedom Multiple R-squared: 0.01502, Adjusted R-squared: -0.005501 F-statistic: 0.7319 on 1 and 48 DF, p-value: 0.3965 60 20 0 -20 Sample Quantiles 2 1 0 -1 -3 -40 -2 rstandard(mod) Normal Q-Q Plot 62 64 66 68 70 -2 -1 1 2 0.4 0.3 0.2 0.1 0.0 0.1 0.2 0.3 0.4 cooks.distance(mod) Theoretical Quantiles 0.0 cooks.distance(mod) fitted(mod) 0 -3 -2 -1 0 1 rstandard(mod) 2 0.05 0.10 0.15 0.20 hatvalues(mod) 61 ...