Trabajo 2 (2015)

Trabajo Español
Universidad Universidad Politécnica de Cataluña (UPC)
Grado Administración y Dirección de Empresas - 2º curso
Asignatura Estadística 2
Año del apunte 2015
Páginas 5
Fecha de subida 31/03/2016
Descargas 1
Subido por

Vista previa del texto

Trabajo de regresión con 3 variables Anna Resa Tuloch, 07.05.2015 Trabajo de regresión con 3 variables Introducción La realización de este trabajo presenta un buen reto para mostrar nuestros productos más atractivos en diferentes ámbitos para que los compradores tengan en cuenta a la hora de decidir su compra.
Se nos presentan unos datos donde se muestra los precios, el número de cilindros, la cilindrada (cc), la potencia (cv), la longitud, la amplitud, el consumo, la velocidad máxima y la aceleración de diferentes marcas. Estas son: Alfa Romeo, Audi, BMW, Chevrolet, Citroën, Dacia, Dodge, Ferrari, Fiat, Ford, Honda, Hyundai, Jaguar, Kia, Lada, Lancia, Macerati, Maybach, Mazda, Mercedes, Mini, Mitsuishi, Nissan, Opel, Peugeot, Porsche, Renault, Rolls-Royce, Saab, Seat, Skoda, Smart, Subaru, Suzuki, Tata, Toyota, Volkswagen y Volvo. Son marcas muy diferenciadas entre ellas, las cuales mantienen competitividad, sin embargo, otras marcas son de gamas muy altas y como se distinguirá en los gráficos sus altas diferencias hacen que los puntos obtenidos marquen diferencias muy elevadas. Cada uno de estos vehículos dispone de diferentes Emisiones de CO2 (Y), que se presentan entre Diésel, Gasolina sin plomo, Híbridos de gasolina y gasolina alto octanaje. Por eso a partir de las siguientes gráficas que finalmente realizaremos a partir de tres variables diferentes, podremos relacionar diferentes conceptos que pueden resultar atractivos para los compradores, y de ese modo facilitar su compra y sus dudas.
Las gráficas que se muestran en el siguiente trabajo se han construido con el programa Excel 2011. El cual nos permite calcular el coeficiente de Pearson que es una medida de la relación lineal entre dos variables aleatorias cuantitativas, que es independiente de la escala de medida de las variables y también nos permite visualizar su recta de regresión gracias a los puntos de dispersión obtenidos por la tabla de datos citada anteriormente, además de la tabla ANOVA, con el P-Valor, el R^2, entre otros que nos permiten la evaluación del modelo.
Lo que se pretende es ajustar al máximo el “Modelo Ajustado”,𝑌𝑖 = 𝑏0 + 𝑏1 · 𝑋𝑖 + 𝑒𝑖 1 , que mostramos con la muestra de coches que tenemos en los datos de la tabla al “Modelo Teórico”, 𝑌 = 𝛽0 + 𝛽1 · 𝑋𝑖 + 𝜀𝑖 2.
1 2 𝑒𝑖 , hace referencia a los residuos 𝜀𝑖 , hace referencia a los errores (pueden ser positivos o negativos según la recta obtenida en el gráfico) 1 Trabajo de regresión con 3 variables Anna Resa Tuloch, 07.05.2015 Por lo que hemos creado la siguiente ecuación con tres variables para que finalmente el modelo sea mayormente explicativo: 𝑦 = 𝑏0 + 𝑏1 ∗ 𝑥1 + 𝑏2 ∗ 𝑥2 + 𝑏3 ∗ 𝑥3 𝑋1 = 𝐶𝑜𝑛𝑠𝑢𝑚𝑜 𝑀𝑖𝑥𝑡𝑜 𝑋2 = 𝐶𝑜𝑚𝑏𝑖𝑛𝑎𝑑𝑎𝐶𝑜𝑑𝑖𝑓𝑖𝑐𝑎𝑑𝑎 𝑋3 = 𝐶𝑜𝑛𝑠𝑢𝑚𝑜 𝑀𝑖𝑥𝑡𝑜 ∗ 𝐶𝑜𝑚𝑏𝑖𝑛𝑎𝑑𝑎𝐶𝑜𝑑𝑖𝑓𝑖𝑐𝑎𝑑𝑎 𝑌 = 𝐸𝑚𝑖𝑠𝑖𝑜𝑛𝑒𝑠𝐶𝑂2 Datos y Comparación de Resultados Principalmente he borrado las series en las que faltaban datos para completar su cálculo y que de esa manera pudiera ser más exacta su regresión. Pero antes he comprobado cuales eran esos valores, los cuales pertenecían los dos valores al grupo Diésel.
Seguidamente he aplicado el análisis por separados de todas las variables diferenciándolas en un mismo gráfico por colores. Sin embargo en el caso de la gasolina de alto voltaje y del hibrido gasolina al tener solo un dato, no podemos ajustar un único modelo.
En la posterior gráfica, se representan todos los datos por colores según su tipo de emisión.
Al fijarnos, se distinguen claramente dos grupos por lo que lo estratratifico y lo codifico con los valores 0 y 1, dándole al grupo 0 el Diésel y al Grupo de las Gasolinas el 1: 0 Diésel Gasolina sin plomo 1 Gasolina alto octanaje Híbrido gasolina 2 Trabajo de regresión con 3 variables Anna Resa Tuloch, 07.05.2015 CASO DIESEL Al realizar los gráficos pertinentes con las tres variables, tenemos en cuenta que el coeficiente de relación es del 99,80%, su R^2 = 99,59% y seguidamente me fijo en el P-Valor, el cual es menor que 0,05 por lo que nos indica que la regresión es muy favorable.
Después de analizar los datos tengo en cuenta la forma de los gráficos, los cuales en X1 o X2, los datos se centran entre (-3, 3), por lo que existen valores positivos y negativos que en este gráfico de residuos favorecen esta dispersión y ajustan mucho mejor el modelo.
Modelo para Diésel (Comb_Cod.= 0) = Emisiones_CO2 = bo + b1*Consumo + b2*Cobinada_Codificada o Modelo para Diésel (Comb_Cod.= 0) = Emisiones_CO2 = 0,82 + 26,01*Consumo + 0*Cobinada_Codificada o Modelo con un coeficiente del 99’80% el cual se acerca mucho a la perfección, también nos tendríamos que plantear si se ha sobre ajustado el modelo. Sin embargo procedo a crear la nueva variable X3 (Consumo Mixto*Combinada Codificada) o P-Valor = 2,2776E-63 CASO GASOLINA Al realizar los gráficos pertinentes con las tres variables, tenemos en cuenta que el coeficiente de relación es del 99,79%, su R^2 = 99,58% y el P-Valor del 3,17E-70.
Después de analizar los datos tengo en cuenta la forma de los gráficos. En X1, los datos se encuentran en una nube de puntos centrados entre (-5, 5). Aunque lo más correcto sería entre (-3, 3), sigue siendo un correcto ajuste del modelo. En X2, los valores se centran en el 1 en un eje X, pero los valores de Y fluctúan entre (-5,5).
Modelo para Gasolina (Combinada_Codificada = 1) = Emisiones_CO2 = b0 + b1 * Consumo + b2 * Combinada_Codificada o Modelo para gasolina( Combinada_Codificada = 1) = Emisiones_CO2= -1,13 + 0,19* Consumo + 0 * Combinada_Codificada 3 Trabajo de regresión con 3 variables Anna Resa Tuloch, 07.05.2015 o o o Modelo con un coeficiente del 99,79%, el cual se acerca mucho a la perfección, aunque también nos tendríamos que plantear si he sobre ajustado el modelo.
Sin embargo como he comentado anteriormente en el Diesel, procederemos a crear la nueva variable X3 (Consumo Mixto * Combinada Codificada).
P-Valor = 3,1718E-70 Finalmente, procedo a crear la última variable del modelo con la X3, que consta del Consumo mixto*Combinada Codificada.
Modelo para Gasolina (Comb_Cod.= 1) = Emisiones_CO2 = bo + b1*Consumo + b2*Combinada_Codificada + b3* Consumo Mixto * Combinada_Codificada Al realizar el análisis de los datos frente a los dos modelos he encontrado que en el caso:  Diésel El Coeficiente de correlación es del 99,80%, lo que muestra que las tres variables explican casi perfectamente el modelo, de manera que todo el análisis es correcto al comprobar su R^2 = 99,58% y antes de mirar las diferentes gráficas considerar si el PValor del 2,0194E-61 es correcto.
Muestra de las gráficas: Las tres variables de graficas muestran que son variables explicativas centradas en los valores (-3 y 3), lo cual explica que si dispersión es tanto positiva como negativa por lo que la explicación del modelo es muy buena.
 Gasolina En el último caso, el Coeficiente de correlación es del 99,79%, lo que en comparación con el anterior, es peor, pero no por eso es un mal modelo, lo único que no explica tanto como el Diésel. Después también tengo en cuenta el R^2 = 97,86% y el P-Valor del 1,8527E-73 para verificar que el modelo es totalmente correcto.
4 Trabajo de regresión con 3 variables Anna Resa Tuloch, 07.05.2015 En este modelo, las variables no son del todo perfectas, ya q en el modelo con la variable X2, los datos representados no muestran una correcta dispersión, por lo que no puedo dar por valido el modelo, lo que hace que me plantee quitar la variable b2 para ajustar mucho mejor y poder explicar correctamente el modelo.
Conclusiones Finalmente una vez tenido en cuenta todos los aspectos de dichas regresiones se muestra que la ecuación planteada en un inicio explicaba correctamente nuestro planteamiento. Sin embargo al plantear unas nuevas variables más explicativas, ha hecho que el modelo se ajuste mucho mejor a nuestra variable respuesta, de esta manera, nuestras tres variables, explican perfectamente nuestra “Y”(emisiones de CO2), las cuales pretendíamos encontrar o tener en cuenta con una variable X1 (Consumo misto), X2 (Combinada_codificada) y X3 (Consumo mixto*Combinada_Codificada).
Aunque no aparezca en un gráfico anterior, la variable b2, hace que el modelo no sea perfecto, ya que en la probabilidad es superior a 0, por lo que para ajustar un mejor modelo la he quitado como he comentado anteriormente. Por lo que finalmente he podido llegar la conclusión que el Diésel se explica mejor con las variables seleccionadas.
5 ...