Tema 6: Correlación y regresión simple (2013)

Apunte Español
Universidad Universidad Rovira y Virgili (URV)
Grado Administración y Dirección de Empresas - 1º curso
Asignatura Estadística 1
Año del apunte 2013
Páginas 17
Fecha de subida 02/09/2014
Descargas 7
Subido por

Descripción

Coef. de correlación lineal de Pearson, relación funcional, relación estadística, modelo de
regresión lineal simple

Vista previa del texto

ESTAD€STICA I Tratamiento descriptivo bidimensional Tema 6: Correlaci‚n y regresi‚n simple Luis D•az Serrano e-mail: luis.diaz@urv.cat 1 Bibliograf€a BibliografÄa bÅsica - Mart€n Pliego, J. (2004) Cap. 8 y 9 - Pe•a, D. (1995) Cap. 11 BibliografÄa complementaria - S‚nchez Fern‚ndez, J. (2004) Cap. 3 - Alegre, J., Arcarons, J., Bolance, C., y D€az, L. (2001) Cap 1 y 2 Lecturas recomendadas - Gutiƒrrez Cabria, S. (1963), Uso y abuso de la regresi„n y correlaci„n, Estad€stica Espa•ola 30, 24-39.
2 Coef. de correlaci•n lineal de Pearson ...
Si |r|>0 S r  xy SxSy • Dependencia unilateral • Interdependencia • Dependencia indirecta • Relaci„n Espuria Relaci€n inversa perfecta -1 Variables incorreladas 0 Relaci€n directa perfecta +1 3 A primera vista ...
130 120 110 100 90 80 70 60 50 40 30 330 280 230 180 130 80 r=0,1 30 140 150 160 170 180 190 200 140 100 100 90 90 80 80 70 70 60 60 50 150 160 170 180 190 200 50 r=0,8 40 r=0,99 40 30 140 r=0,4 30 150 160 170 180 190 200 140 150 160 170 180 190 200 4 A primera vista ...
90 80 70 60 50 40 30 20 10 0 80 70 60 50 40 30 20 r=-0,5 r=-0,7 10 0 140 150 160 170 180 190 140 200 80 80 70 70 60 60 50 50 40 40 30 30 20 150 160 170 180 190 200 150 160 170 180 190 200 20 r=-0,95 10 r=-0,999 10 0 0 140 150 160 170 180 190 200 140 5 Podemos preguntarnos si ...
• ‚Si r=0 eso quiere decir que no las variables son independientes? – En la pr‚ctica, casi siempre s€, pero no tiene por quƒ ser cierto en todos los casos.
– Lo contrario si es cierto: Independencia implica incorrelaci„n.
• ‚A partir de quƒ valores se considera que hay “buena relaci•n lineal”? – Imposible dar un valor concreto (mirad los gr‚ficos anteriores). Para este curso digamos que si |r|>0,7 hay buena relaci„n lineal y que si |r|>0,4 hay cierta relaci„n (por decir algo... la cosa es un poco m‚s complicada… observaciones at€picas, homogeneidad de varianzas...) 6 La regresi•n lineal simple ...
• Se pueden establecer dos tipos relaci„n entre X e Y.
- Relaci„n estad€stica - Relaci„n funcional • Una relaci•n funcional se expresa mediante una funci„n matem‚tica Y=f(X), que permite obtener los valores de Y a partir del comportamiento de X.
• Una relaci•n estad€stica, a diferencia de la relaci„n funcional, no es una relaci„n “perfecta”, ya que las observaciones no caen exactamente sobre la curva de relaci„n entre las variables Cuando el conocimiento de una variable determina totalmente el valor de la otra tenemos el caso extremo de dependencia: entonces diremos que existe una relaci‚n exacta o funcional entre las variables. En el caso opuesto el conocimiento de una de ellas no aporta informaci„n sobre el valor de la otra; diremos entonces que ambas variables son independientes. Las relaciones que observamos entre variables tƒcnicas f€sicas o econ„micas suelen caracterizarse porque el conocimiento de una variable permite predecir en mayor o menor grado el valor de la otra: diremos entonces que existe una relaci‚n estad€stica o estocƒstica. Los mƒtodos de regresi„n estudian la construcci„n de modelos explicativos para este tipo de relaciones.
7 La regresi•n lineal simple ...
B A C Potenciales problemas con los datos •Homogeneidad de los datos • Naturaleza de los datos • Origen de los datos • Supresi„n de los datos 2.4. Interpretaci‚n prƒctica de la correlaci‚n: El coeficiente de correlaci„n no deber‚ nunca tomarse en su sentido estricto sin antes conocer algo sobre la distribuci„n de los datos. El diagrama de esparcimiento ser‚ un elemento indispensable para este conocimiento.
En la interpretaci„n del coeficiente de correlaci„n deber‚n tenerse en cuenta, entre otros factores, los siguientes: 1.Š Homogeneidad de los datos. Cuando se observe heterogeneidad en los datos es preferible clasificarlos de acuerdo con alguna base racional y correlacionar cada grupo separadamente. La heterogeneidad puede ponerse de manifiesto cuando en las distribuciones unidimensionales aparecen dos o m‚s modas. Tambiƒn cuando en el diagrama de esparcimiento tienden los puntos a formar dos o m‚s grupos y a separarse de los dem‚s. En la regresi„n m‹ltiple hay tƒcnicas (variables ficticias) que permiten considerar estos cambios en la estructura de la relaci„n entre X e Y, pero en la regresi„n simple la soluci„n pasa por considerar los grupos separadamente 2.Š Naturaleza de los datos. Las variables a correlacionar pueden representar datos individuales o promedios de grupos de datos; por ejemplo: medias de muestras tomadas de un colectivo. La correlaci„n entre este ‹ltimo tipo de datos ser‚ mayor que en el primero. La raz„n es que as€ se elimina la dispersi„n de los valores individuales alrededor de sus medias.
3.Š Origen de los datos. Los datos pueden venir afectados de errores de medida que afectan a las variables. Estos errores no suelen estar correlacionados, y as€ el tama•o del coeficiente de correlaci„n viene reducido de tama•o por debajo de su verdadero valor.
4.Š Supresi‚n de datos. Si se quiere estudiar la correlaci„n entre nivel econ„mico y nivel cultural en una provincia y se eliminan del colectivo Jos pueblos de menos de 1.000 habitantes, esta supresi„n de datos puede afectar y afectar‚ a la cuant€a del coeficiente de correlaci„n, por cuanto en los medios rurales hay menos medios de desarrollar la cultura.
5.Š Coincidencias fortuitas. Puede haber una coincidencia en la variabilidad de las variables sin que exista correlaci„n efectiva. La consideraci„n directa del fen„meno, tal como la 8 La regresi•n lineal simple ...
• La representaci„n gr‚fica que m‚s se utiliza en el estudio de la dependencia de dos variables es el DIAGRAMA DE DISPERSIŒN.
9 La regresi•n lineal simple ...
Se trata de predecir el comportamiento de Y usando X entonces el modelo de regresi•n lineal simple es de la forma: Yi     X i  i i  1, 2,..., n Donde: • • • • • Y es llamada la variable de respuesta o dependiente X es llamada la variable predictora o independiente  es el intercepto de la l€nea con el eje Y  es la pendiente de la l€nea de regresi„n y  es un error aleatorio, el cual tiene media 0 y varianza constante 2.
Las relaciones no lineales pueden linearizarse Admitiremos que todos los factores o causas que influyen en una variable respuesta, dependiente o end„gena (y) pueden dividirse en dos grupos: el primero contiene a una variable (x) que llamaremos variable explicativa, ex„geno o indexen diente y que se supone no aleatoria y conocida al observar (y); el segundo incluye un conjunto muy grande de factores, cada uno de los cuales influye en la respuesta solo aleatoria en peque•a magnitud, que englobaremos dentro del nombre com‹n de perturbaci„n aleatoria. La hip„tesis estructural b‚sica del modelo es Y=a+bX+e.
Donde Yt y et son variables aleatorias Xt es una variable predeterminada con valores conocidos y a y b son par‚metros desconocidos. El cuadro 11.1 presenta algunos ejemplos del procedimiento conceptual de construcci„n de un modelo de regresi„n simple.
La hip„tesis principal del modelo es que la media de la distribuci„n de y, para x fija, var€a linealmente con x. Como veremos, esta hip„tesis debe comprobarse siempre, ya que condiciona toda la construcci„n del modelo. La utilidad del modelo lineal (2.1) radica en que muchas relaciones no lineales pueden convertirse en lineales transformando las variables adecuadamente.
En cualquier caso, conviene tener en cuenta que una relaci„n lineal debe en general considerarse como una aproximaci„n simple, en un rango de valores limitado, a una relaci„n m‚s compleja. En consecuencia es necesario tener presente: a) el rango de valores dentro del cual vamos a trabajar y b) el peligro de extrapolar una relaci„n fuera de ese rango.
10 La regresi•n lineal simple ...
• Interpretaci•n de los coeficientes ˆ      ˆ  permite calcular de forma sencilla la elasticidad y-x (yx) Tƒrmino constante: Indica el valor promedio de la variable de respuesta Y cuando X es cero. Si se tiene certeza de que la variable predictora X no puede asumir el valor 0, entonces la interpretaci„n no tiene sentido.
Pendiente: Indica el cambio promedio en la variable de respuesta Y cuando X se incrementa en una unidad.
11 La regresi•n lineal simple ...
• A la vista de la nube de puntos representativa de los valores (xi ,yi) de la distribuci„n, se elige la familia de curvas que mejor se adapte a ella.
• La regresi„n toma nombres diferentes seg‹n el tipo de curva elegida: – Regresi„n Parab„lica: y = a+bx+cx2 – Regresi„n Exponencial: y = aebx 12 La regresi•n lineal simple ...
• Supongamos un modelo de regresi„n lineal. Žste vendr‚ estimado por ˆ  ˆ  ˆ  X Y • El criterio del mejor ajuste es el mƒtodo de M•NIMOS CUADRADOS.
n n i 1 i 1 ˆ x )2  ei2   (yi  ˆ  i Una vez elegida la familia de curvas que mejor se adapta a la nube de puntos, se determina, dentro de dicha familia, la curva que mejor se ajusta a la distribuci„n.
Para ello se minimiza la funci„n en la que se recogen las distancias (residuos) al cuadrado entre los valores de la variable y los te„ricos predichos por la familia de curvas elegida.
13 La regresi•n lineal simple ...
n n min f( )= min  ei2  min  (yi  ˆ  ˆ  x i ) 2  ,  , i 1 , i 1 n f() ˆ x )n  0  2 (yi  ˆ   i i  ˆ  i 1  n f() ˆ x )n  0  2 (yi  ˆ   i i  ˆ i 1 ˆ  y  ˆ  x s xy ˆ  2 sx n n yn i i i 1  Nˆ  ˆ   x i n i i 1 n y x n i i i 1 i n n i 1 i 1  ˆ  x i n i  ˆ   x i2 n i Sxy yˆ i  ˆ  ˆ  x i  y  2  x i  x  Sx En ambos casos MCO y MV se obtiene el mismo estimador PONER EN PIZARRA ALGUNOS EJEMPLOS DE PENDIENTES NEGATIVAS, POSITIVAS O NULAS Como cualquier estimador, ƒstos son variables aleatorias que siguen un distribuci„n de probabilidad concreta y sujetos a la inferencia habitual de cualquier otro estimador. Sus propiedades deseables son las mismas que las de cualquier otro estimador (Teor€a de la estimaci„n) Propiedades de los estimadores:  es N(, 2/ns2x) Es insesgado Var()=2/ns2x implica que el error con el que estimamos : Disminuye al aumentar la dispersi„n de los valorares de X Aumenta con 2, la variabilidad intr€nseca de la variable respuesta para un X fijo Disminuye al aumentar el n‹mero de datos 14 La bondad del ajuste ...
En el caso de regresi„n, la descomposici„n de la variaci„n de la variable de respuesta Y es como sigue: n    n Suma de Cuadrados de Regresi„n = SSR =  ( yˆ i  y ) 2  i 1  n 2  ˆi ) Suma de Cuadrados del Error = SSE =  ( yi  y  i 1 Suma de Cuadrados Total = SST = ( y  y ) 2 i i1 R2  SSR  r2 SST yi SST = SSR + SSE  y  ˆy  ˆy  y i ˆyi y x i i    yi  y xi 15 Un ejemplo ...
14 13 Gana 11,5 €/hora 12 Salario Edad 16,2 51 10 15,4 50 9 12,0 38 8 17,8 62 7 13,1 46 6 16,9 60 Tiene 40 aƒos 11 20 15,6 54 12,6 44 16,3 58 ...
...
25 30 35 40 45 50 45 50 14 13 12 11 1,5 €/hora 10 9 5 aƒos 8 7 6 20 25 30 35 40 16 Un ejemplo ...
=0,28 =0,505 €/hora R2=0,45 0,28 x 5 = 1,4  1,5 X = 40 yˆ = 0,505 + 0,28 x 40 = 0,505+11,2 = 11,705  11,05 17 ...