Estadística descriptiva (2013)

Apunte Español
Universidad Universidad Pompeu Fabra (UPF)
Grado Criminología y Políticas Públicas de Prevención - 1º curso
Asignatura Estadística Descriptiva
Año del apunte 2013
Páginas 7
Fecha de subida 14/07/2017
Descargas 0
Subido por

Vista previa del texto

Estadística: La inferencial mide las causas y efectos de los fenómenos, intenta predecir los cambios y aplica hipótesis (relaciones esperadas entre dos o más fenómenos) que saca de teorías. En cambio, la descriptiva mide la magnitud de los fenómenos.
Población y muestra. Las muestras sirven para hacer generalizaciones, estimar las características de la población a partir de la información obtenida en la muestra. Tienen que ser representativas de la población estudiada, es decir, sus características deben asemejarse a las de la población que estudiamos. Parámetro: valor numérico que resume todos los datos de una población completa. Estadístico: valor numérico que resume los datos de una muestra.
Variable: característica/fenómeno que estudiamos. Medición: asignación de símbolos (números, nombres) a las diferencias que observamos en las calidades o cantidades de una variable. El valor de una puntuación es su calidad/cantidad: el tipo de análisis a realizar depende de la escala de medida de la variable analizada. Dato: valor que presente un objeto/sujeto respecto a la variable analizada. Base de datos: conjunto de varias para una serie de individuos, estados… Tipos de variables: Cualitativas o categóricas (definen las categorías o cualidades de los individuos y objetos que estamos observando), pueden ser nominales (describen diferencias, se pueden asignar números, pero se utilizan etiquetas alfanuméricas, no hay orden subyacente. Ej: nacionalidad) u ordinales (hay un orden, de los más altos a los más bajos: nivel de estudios).
Cuantitativas (pueden expresarse numéricamente) y pueden ser discretas (el resultado de contar, normalmente, por lo que toman valores enteros) y continuas (resultan de medir y pueden contener cifras decimales). Pueden ser: de intervalo (todos los valores representan magnitudes y la distancia entre los números de su escala es la misma; el valor 0 es arbitrario: no implica ausencia de fenómeno; ejemplo: temperatura) o de razón (donde el 0 es un valor absoluto, permiten establecer proporciones entre observaciones).
Análisis univariante: debemos conocer la distribución de nuestros datos, para ello, como hay tantos, adoptamos medidas para sintetizar la información: tablas de frecuencia (nos muestran cuantos valores tienen las variables y su frecuencia, cuales son los + representativos y cómo están de dispersos); los gráficos permiten visualizar rápidamente la forma de los datos, aunque con menor detalle (distinto gráfico si la variable es cualitativa o cuantitativa).
Las tablas de frecuencia son una forma de presentar ordenadamente un grupo de observaciones, cuantas veces se da una puntuación. La utilización de frecuencias absolutas o relativas cabe en todo tipo de variable pero en algunos casos al información que nos aportan es más visual y fácil de interpretar que en otros, o simplemente nos aportan + o – información. Las tablas son + útiles en variables con pocas categorías: nominales, ordinales, cuantitativas discretas. Las de intervalo o razón habría que agruparlas primero.
Para estudiar una variable categórica, o una variable cuantitativa discreta cuando k toma distintos valores, empezamos por averiguar el número total de individuos, N. Para cada valor xi de la variable, podemos calcular: Su frecuencia absoluta: el número de individuos para los cuales la variable toma el valor xi, nombrado ni.
Su frecuencia absoluta acumulada: el número de individuos para los que la variable toma este valor o el anterior. Ni.
Su frecuencia relativa, la proporción de individuos en que la variable toma ese valor. La llamaremos fi = ni/N.
y normalmente se da en porcentaje.
1 Su frecuencia relativa acumulada: la proporción de individuos en que la variable toma este valor o anteriores.
La llamaremos Fi y la daremos en porcentaje. Fi = f1 + f2… + fi-1.
Representación gráfica: un gráfico es una representación visual mediante elementos geométricos de una serie de datos estadísticos. La utilidad de los gráficos reside en la facilidad que proporcionan para la comprensión del fenómeno estudiado, su distribución, evolución y relaciones existentes entre variables. Depende de sus características a representar, el objetivo de nuestra investigación, utilizaremos uno u otro gráfico.
Deben ser claras y simplificar la información, debe poder interpretarse por sí mismo, no con algo que lo explique (salvo títulos, subtítulos, descripción de escala o leyenda), tiene que haber una puntuación o código por cada observación, e indicar la fuente si los datos no son nuestros.
Para variables cualitativas: diagramas de sectores o de barras. Recordemos que los valores de una variable categórica son etiquetas asignadas a las categorías de la misma (h/m), la distribución de una variable categórica da una lista de las categorías y el recuento o porcentaje de individuos por categoría.
Diagrama de sectores: ayuda a visualizar la importancia relativa de cada categoría respecto al total, círculo dividido en sectores que representan la frecuencia proporcional de una determinada categoría, si hay muchas de valores bajos podemos agruparlas en una categorías ‘otros’, si es una encuesta, incluir ‘ns/nc’.
Diagrama de barras: su longitud representa la frecuencia porcentual de una categoría de una variable, suele ser conveniente ordenar. Las barras también pueden estar agrupadas. Debe ponerse la escala del gráfico.
Para variables cuantitativas: histograma (si el número de observaciones es pequeño, podemos hacer un diagrama de puntos, o uno de tallo y hojas). Histograma: diagrama de 90 grados que presenta las puntuaciones de una variable de intervalo/razón a lo largo del eje horizontal y la frecuencia de cada puntuación en una columna paralela al eje vertical. Las columnas se tocan entre sí porque hay continuidad entre los valores. Puede ser de frecuencias absolutas, relativas, absolutas acumuladas o relativas acumuladas.
También los hay de densidad.
Diagrama de tallo y hojas: se parten las observaciones de la variable en dos partes, la primera contiene todos los dígitos menos el de más a la derecha y la segunda, el último dígito, se ordenan de forma creciente.
Agrupación en intervalos de variables cuantitativas: las tablas son útiles para resumir la información de una variable cuando hay pocas observaciones (20) o en muchas pero que toman pocos valores distintos. Cuando estamos por encima de estos máximos, agrupamos las observaciones en intervalos (de la misma amplitud) llamados clase (si son datos muy heterogéneos, se puede coger intervalos de amplitud variable, procurando que no queden intervalos con menos del 5 ni más del 30% de los casos), los intervalos deben ser adyacentes y deben cubrir todo el rango o amplitud de la variable, desde el valor mínimo hasta el máximo.
¿Cuánto intervalos? Como referencia, k = raíz cuadrada de n. Para saber su amplitud, tenemos en cuenta la observación más pequeña hy la más grande para tener en cuenta el rango o amplitud total de la población.
Rango (A) = valor máximo – valor mínimo. A=A/k. los intervalos deben ser mutuamente exclusivos y exhaustivos, deben tener la misma amplitud o se distorsionaría la apariencia de la distribución de datos, el primero debe contener el valor más pequeño y el último el más alto.
Para analizar las variables cuantitativas no basta saber su frecuencia, para saber alrededor de qué valores se agrupan y si lo hacen concentrada o dispersamente, están las medidas de tendencia central y las de dispersión.
Medidas de tendencia central ¿alrededor de qué valores se agrupan los datos?: mediana, media y moda. Las nominales -> moda; las ordinales -> mediana y moda; las de intervalo, todos. La moda es la puntuación que ocurre con más frecuencia en una distribución, es insensible tanto a los valores de las puntuaciones de la distribución como a lo grande que sea la muestra. Puede haber más de una moda o ninguna significativa. Es intuitiva de calcular, pero puede dar una impresión engañosa.
2 La mediana es la posición central en una distribución ordenada, el punto medio de la distribución. Me = N + 1/ 2 -> esto te da la posición en la lista. Ordenar todas las observaciones de mínimo a máximo, si es impar, la me será la de en medio, si es par, la media de las dos observaciones centrales ordenadas de la lista. También se puede utilizar en frecuencias acumuladas, absolutas o relativas. Para datos agregados, Xmediana = L + (((n+1/2) –Ni)/ni)*a. Donde L es el límite inferior real del intervalo que contiene la mediana, Ni es la frecuencia absoluta acumulada del intervalo anterior al que contiene la mediana, ni es la frecuencia del intervalo que contiene la mediana, a es la amplitud del intervalo y N el número de observaciones. (ver diapo 13) Como no se utilizan todos los valores, no se ve influida por los casos extremos, por tanto, es una medida muy estable, pero también es insensible a los valores de la distribución, sensible a cambios en la amplitud de la muestra y solo utiliza parte de la información disponible.
La media es la suma de todos los valores de una variable dividida por el número total de observaciones, como todos los valores se incluyen, hay que tener cuidado con los casos perdidos o los NS/NC; es útil para comparar dos poblaciones, punto de equilibrio de los datos. Es muy sensible a la influencia de pocas observaciones extremas, por eso no es una medida robusta de centro. Ver diapo18. Cuando hay datos agregados y tenemos el número de individuos que cumplen una categoría y el valor de esta, debemos multiplicarlos primero y luego sumar y dividirlo por el número total de individuos. Para casos de intervalo, diapo21, calcular el punto medio de cada intervalo. Media ponderada, hay que tener en cuenta las ponderaciones. Ver diapo 23.
Medidas de forma: para entender la forma de una distribución y ver si tiene más de una moda es práctico visualizarlo gráficamente a través de una curva de distribución de frecuencias. Nos ayuda a entender las relaciones entre moda, mediana ymedia.
Simetria: curva que describen los valores de la variables e la misma a derecha e izquierda del valor central (cofieciente de asimetría de Fisher). Si es 0 o cercano a 0, simetría (entre -0,5 y +0,5), si tiene valores negativos, asimetría por cola alargada a la izquierda, si son valores positivos, asimetría por cola alargada a la derecha.
Curtosi: grado en que las observaciones están agrupadas en torno al valor central (entre-+0,5), distribución normal; valores positivos: los valores se concentran más y presentan colas más cortas, curva alargada; si son negativos, los valores se agrupan menos y presentan colas más alargadas, curva aplanada.
Medidas de dispersión: para completar las medidas de centralización, estudiamos las distribuciones, comparamos la dispersión. Para variables nominales y ordinales, ratio de variación. Para variables de intervalo/razón: rango interquartílico, varianza, desviación típica y coeficiente de variación.
Ratio de variación; RV = 1 – Nimodal/N, donde Nimodal es la frecuencia absoluta de la categoría modal y n el número total de casos. Cuanto más alto es, mayor dispersión y heterogeneidad hay. Ver diapo8.
La varianza de un conjunto de observaciones es la suma de los cuadrados de las desviaciones típicas de las observaciones respecto de su media dividido por n si es población, n -1 si es muestra. Ver diapo9. La desviación típica se obtiene calculando la raíz cuadrada a la varianza. Ver diapo14 para datos agregados.
La desviación típica mide la dispersión en relación a la media, tiene la misma unidad de medida que las observaciones originales, pero si hay muchas observaciones atípicas o fuertes asimetrías, la hacen inestable.
Cuanto + grande, + valores + lejos de la media.
Regla empírica, solo cuando la forma de la distribución es simétrica. Aprox. El 68,2% de los datos se encuentra a 1 desviación típica de la media, el 95,4% de los datos a dos desviaciones típicas, y el 99,7%, a 3.La distribución normal tiene forma de campana, la mediana, la moda y la media son iguales y están en el centro, es simétrica alrededor de la media, la escala horizontal de la curva se mide en desviaciones típicas, la forma y la posición de una distribución normal dependen de la media y la desviación típica, por tanto, hay un número infinito de distribuciones normales.
3 Coeficiente de variación: mide la variación relativa de la variable respecto a su media. Cuando comparamos la dispersión de dos o más distribuciones, necesitamos medir la magnitud de la desviación típica en relación a la magnitud de la media. El valor del CV se da en porcentajes, y se calcula; CV = S/media; CV = desv. Típ / Media Estandarización: ayuda a interpretar la relaciones entre la media y la desviación estándar. Si el valor es positivo, quiere decir que una determinada observación está x desviaciones típicas por encima de la media, si es negativo, que está por debajo. Z = (x – media) /Sx. Ver diapo23.
Medidas de posición no central: rango, quartiles, deciles y percentiles; rango percentilar y diagramas de caja.
Rango o recorrido: una forma de medir la dispersión es dar las observaciones máxima y mínima; y calcular su recorrido. R = valor máximo – valor mínimo. Pero algún caso atípico puede enmascarar esta medida de dispersión.
Quartiles: determinan entre qué valores se encuentra la mitad central de las observaciones. El primer Q1es el valor de la variable que deja a su izquierda el 25% de la distribución. El Q2 es la mediana de la distribución, deja a su izquierda el 50% de la distribución. El Q3 deja a su izquierda el 75% de la distribución. Son una medida robusta, no muy sensibles a los cambios de valores extremos. El rango interquartílico es la diferencia entre Q3 y Q1. Ejemplos y cosas diapo7-10.
Teniendo entonces el valor mínimo, Q1, Mediana, Q3 y el máximo, podemos hacer un boxplot o diagrama de caja. Ver diapo12 o algo así Casos atípicos y cómo detectarlos en un boxplot. Barrera interior: a la izquierda de Q1 se dibuja una línea vertical a 1,5 veces el rango interquartílico (se hace lo mismo a la derecha de Q3) y se traza un segmento en el punto del último valor que aparezca dentro de las barreras interiores (bigote). Barrera interior alta: Q3 + 1,5RIQ, barrera interior baja: Q1 – 1,5RIQ. Los valores que queden fuera son casos atípicos, y se señalan con un puntito sin rellenar. Barrera exterior: a la izquierda de Q1 se dibuja una línea vertical a 3RIQ (se hace lo mismo a la derecha de Q3). Barreras exteriores alta y baja: Q3 + 3RIG, Q1 + 3RIQ. Los valores que quedan fuera son casos atípicos extremos (puntito relleno o asterisco).
Coeficiente de asimetría de Bowley; Ab = (Q3 – Q2) – (Q2 – Q1) / Q3 – Q1 = Q3 + Q1 – Q2/Q3 –Q1. -1 <= ab <= 1. Si el coeficiente es > 0, asimetría positiva, si es < 0, asimetría negativa.
Percentiles: Un percentil de orden K es el dato más pequeño que es mayor al k% de los datos. Es el valor de una variable que indica el porcentaje de una distribución que es igual o menor a esta cifra. Ejemplo: el percentil 80 es el valor de la variable que es igual o deja por debajo el 80% de las puntuaciones.
Deciles: son los nueve valores que dividen la serie de datos en diez partes iguales. Se les da los valores correspondientes al 10, 20... 90% de los datos. D5 coincide con la mediana.
Para calcularlos, calculamos la tabla de frecuencias absolutas acumuladas, y obtenemos el sitio que ocupa; N = total de la muestra; K = número del percentil que queremos calcular. Percentiles; lugar = (N*K)/100; deciles, lugar = (N*K)/10. El percentil de orden K será el valor de la variable con una frecuencia absoluta acumulada que primer iguale o supere este sitio. Los casos atípicos se encuentran comparando el rango de la distribución con el percentil 95 o 99.
En caso de datos agregados, hay que encontrar el intervalo en que se encuentra el decil de orden K, si tenemos percentiles la división por 10 se sustituye por 100. Dk = Li + (k (n/10) – Ni-1/ni)*a. Donde L es el límite real inferior de la clase del decil K, n el número total de datos, Ni-1 la frecuencia acumulada de la clase que precede a la clase del decil k; ni; frecuencia de la clase del decil; a, longitud del intervalo de la clase del decil k.
Rango percentilar: ordenar las puntuaciones de menor a mayor o viceversa. Buscar la proporción y el porcentaje de casos que caen o están por debajo de un valor especifico de K. Ejemplo: en un examen, un estudiante con una calificación que corresponda al percentil 90 está por encima del 90% del resto de alumnos.
Ver diapositiva 29.
4 Tablas de contingencia. Análisis bi-variado. Variables independientes (o explicativas), son las que se considera que influyen en las otras variables, suelen ser la X. Las dependientes son influidas por otras variables, suelen definirse como Y.
Las tablas de contingencia sirven para ver la relación entre dos variables: nominales y ordinales; nominales con nominales, o con ordinales, u OxO si son pocas categorías. No se aplica a variables de intervalo u ordinales con muchas categorías. Son tablas de doble entrada que facilitan ver la relación entre variables, normalmente, la variable independiente X se sitúa en las columnas y la Y en las filas.
Marginales; de fila: la suma de todas las frecuencias correspondientes a cada fila; de columna: la suma de todas las frecuencias correspondientes a cada columna. Total: la suma de todas las frecuencias de una tabla.
Porcentajes; de fila: división entre frecuencias por casilla y marginales de fila x 100; de columna: división entre frecuencias de cada casilla y marginales de columna x 100; total división entre frecuencias de cada casilla y número total de casos por 100. Regla de Zeisel: los porcentajes deben calcularse en la dirección de la variable independiente e interpretarse en la de la dependiente.
Cómo detectar si hay una relación entre variables: establecer X e Y, organizar los porcentajes por las categorías de la variable independiente, comprar los valores de la variable dependiente entre los grupos de la independiente, si son distintos habrá una relación.
Establecer la dirección de la relación: entre variables ordinales o de intervalo recodificadas, pueden ser negativas o positivas; en caso de nominales, basta con describir que valores de la independiente están asociados con la dependiente.
Ver si es estadísticamente significativa; partir de la hipótesis nula de que no tienen relación, hipótesis alternativa: tienen relación. Para comprobarlo, observamos la diferencia entre frecuencias observadas y esperadas (estadístico Khi cuadrado x2). Diapositiva 18, 19. X2 = (valor obs. – esp)al cuadrado/esperado.
Grados de libertad K -1. Cuanto + sea la discrepancia entre los valores esperados y reales, + valor de x2.
Grados de libertad, v = (I – 1)*(j -1), donde i es el # filas y j el de columnas. Si nuestro x2 es mayor que el valor crítico rechazamos la hipótesis nula y concluimos que hay relación. En SPSS, si el valor es igual o menor a 0,05, se rechaza la nula, si es superior, se acepta que no se puede concluir que las variables estén relacionadas.
Si las tablas son mayores de 2x2, hay que tipificar los residuos y corregirlos. Para tipificarlos: observado – esperado / √esperado; para corregirlos, dividimos por la varianza estimada: rij /√(a-fi/f)*(a-fj/f). Cuando su valor es superior a 1,96, podemos asegurar con un nivel de confianza del 95% que hay relación; un residuo tipificado corregido superior a 1,96 en una casilla indica que hay más casos o menos (depende de si es positivo o negativo) de los que habría de haber si las variables fueran independientes; si el valor está entre 0 y +/-1,96, indica que la diferencia entre la frecuencia observada y la esperada es pequeña, por tanto, las variables en esta casilla tienen un comportamiento de independencia.
Establecer la fuerza de la relación: como de diferentes son los valores de la variable dependiente en las categorías de la independiente, una relación perfecta es la más fuerte posible, todos los valores de una categoría de la variable independiente van asociados a una categoría diferente de la dependiente. Hay medidas o test de asociación que miden la fuerza de la relación.
Dependiendo de cómo sean las variables; nominales (V de Crammer), + grandes de 2x2 (Lambda); ordinales (¡ de Yule), + grandes de 2x2 (Gamma de Goodman i Kruskal).
V de Crammer; rango 0 ≤ V ≤ 1. Entre 0-0,29, relación débil; 0,3 – 0,59 – moderada, 0,6 – 1, fuerte. V = √xcuadrado/n(k-númerodefilasocolumnas,laquetengaunnúmeromenor- - 1) Lambda, rango, entre 0 y 1. Nos indica hasta que punto podemos predecir una variable teniendo conocimiento de la otra a través de porcentajes y valores modales.
5 Q de Yule; rango entre -1 y 1. Relación positiva: incrementar el nivel de una variable tiene efecto de incrementar también el nivel de la otra. Diapo 38. Negativa: incrementar el nivel de una variable reduce el nivel de la otra.
Gamma: rango entre -1 y 1; 1 sería la relación positiva perfecta y -1 la negativa perfecta. Ratio entre la diferencia del número de parejas concordantes de casos y el número de parejas concordantes, si hay más concordantes que discordantes, positiva, si es al revés, negativa.
Dispersión y correlación.
Para analizar las relaciones entre variables: tablas de contingencia + comparación de medias + dispersión y correlación + egresión bivariada. Se considera que 2 variables cuantitativas están relacionadas entre sí cuando los cambios en los valorse de una conllevan cambios en los valores de la otra; la relación puede ser una línea recta, una curva monotónica o no (al comprobarlo con gráficos de dispersión vemos también los casos atípicos), sentido de la relación (como varían los valores de B respecto a A, si al crecen lo de A, los de B varían, es una positiva o directa, si decrecen, es negativa inversa; se comprueba con el coeficiente de covaración), intensidad (grado en que las parejas de observaciones quedan representados en una línea: correlación).
Diagrama de dispersión: la disposición de los casos en los ejes cartesianos muestra si hay una relación o no y cuál es su forma, la independiente la ponemos en las X, la dependiente en las Y. Ausencia de relación, relación nivel positiva, no lineal curvilínea positiva, lineal negativa, relación no lineal no monótona (crece y luego decrece). Inclusión de variables categóricas en un gráfico de dispersión como etiquetas, colores o símbolos.
Sentido o dirección de la relación: dos variables están asociadas positivamente cuando valores superiores a la media de una de ellas tienden a ir acompañados por valores también situados por encima de la media de la otra y cuando valores inferiores a la media también tienden a ocurrir conjuntamente. Dos variables están asociadas negativamente cuando los valores superiores a la media de uno de ellos tienden a ir acompañados de valores inferiores a la media de la otra variable y viceversa.
Coeficiente de covariación: dividimos el mapa en 4 cuadrantes según si están por encima o por debajo de la media de ambas variables. Calculamos las diferencias. En el 1er cuadrante, (xi – media) > o y (yi – media) > o, en el 2, (xi – media) > o, pero y – media < o. En el 3, x – media < o, y – media < o, en el 4: x – media < o, y l media > o.
Sxy = sumatorio (xi – media)*(yj – media)/N; si Sxy>0, asociación positiva, si Sxy < 0, asociación negativa, esta medida depende de las unidades de medida por eso no puede indicar la fuerza o intensidad de la relación. Podemos estandarizar dividiendo por las desviaciones típicas cada una de las variables -> coeficiente de correlación. Ver diapo 30.
Coeficiente de correlación de Pearson, mide numéricamente el grado o intensidad de relación lineal entre dos variables de intervalo (numéricas, ordinales con muchas categorías). R = covxy / desvtip x * desvtip y. La interpretación varía entre 1 (relación perfecta positiva) y -1 (relación perfecta negativa), cuanto + cerca de 0, más baja es la relación. 0 a 0,3 –débil, 0,3 – 0,7 – moderada, 0,7 – 1, alta. Como está estandarizado, el valor es independiente a toda unidad. Es una medida de correlación lineal, puede dar un valor muy bajo aunque haya una fuerte relación no lineal, es muy sensible a casos extremos, no distingue entre variables explicativas y dependientes. Solo tiene sentido si ambas variables son cuantitativas.
Si da un valor de significación menor a 0,05, es estadísticamente significativo, si es superior, no lo es. El coeficiente de determinación, es r al cuadrado, y nos ayuda a determinar la fuerza de la relación, se multiplica luego de elevarlo al cuadrado por cien y se interpreta el porcentaje como el de variación en la variable y que queda explicado por la variable x.
Regresión simple, la forma simple de relación variables es la lineal, la fórmula sería Y = a + bX, la línea se encuentra determinada por los valores de a (la intercepción) y b la pendiente. Pero como en el mundo de las ciencias sociales es difícil que sea tan perfecto, añadimos e de error. Y = a + bX + e.
6 No hay una relación completamente predictiva, par los mismos valores de X, los de Y pueden ser más grandes o más pequeños, entre los puntos hay muchas líneas que potencialmente pueden describir la relación, hay que encontrar la línea que mejor se ajuste. La mejor línea es la que genera el menor error de predicción (diferencia entre el valor observado y el predicho), para cada caso, se puede calcular el error de predicción y se pueden agregar todos, elevando al cuadrado las diferencias. Suma de los Cuadrados de los Errores individuales: suma (Yi – Media)al cuadrado.
Se puede calcular el valor de la suma para cada líneas y ver la que proporciona el más pequeño, y escoger la línea que incurra en menor error, escogiendo los únicos valorse de a y b que los minimizan. B = sumatorio(xi – media)*(yi – media)/sumatorio(xi-media)alcuadrado. El numerador es la covarianza xy y el denominador la varianza.
El coeficiente de regresión (b) es la pendiente, indica cuanto varía la variable dependiente (por b unidades) cuando la independiente cambia en una unidad, el signo nos indicará si la relación es positiva o negativa. La recta de regresión mínimo-cuadrática siempre pasa por el punto (media de x, media de y), la constante a indica el punto donde la recta corta con el eje Y, el valor de la variable dependiente cuando la independiente es 0. A veces este punto puede no tener sentido. Ver diapo18.
La distinción entre variable X eY es básica en regresión, no en correlación, la correlación es independiente de la escala, la regresión no. La pendiente de una línea de regresión tiene el mismo signo que el coeficiente de correlación. Solo describen relaciones lineales, si los coeficientes de correlación y las ecuaciones de regresión se calculan a ciegas, sin examinar los gráficos, pasaremos por alto relaciones importantes pero no lineales. Hay que tener cuidado con las observaciones atípicas, si eliminarlas o no para ver como cambia la relación. La correlación r describe la fuerza de la relación lineal, el coeficiente de determinación describe la proporción de la variación de las y que explica la recta de regresión mínimo-cuadrática de y en relación a x.
Cosas que asumimos de la regresión lineal: las observaciones son al azar, las variables presentan una distribución normal, son ambas cuantitativas, se relacionan de forma lineal, el componente de error es independiente de i.
Transformaciones no lineales de los datos, o bien para hacer la distribución más simétrica (estadístico inferencia), para hacer la relación entre variables lineal; o la logarítmica, que mantiene la mediana y los quartiles y hace desaparecer los casos atípicos.
A veces encontramos una alta correlación (r) sin que la haya, o sea, que es una relación espuria por: una tercera variable, una observación atípica, dos grupos no relacionados en que r es baja en ambos pero que al analizarnos conjuntamente se vuelve alto.
7 ...

Tags:
Comprar Previsualizar