Análisis Descriptivo Univariante (2016)

Apunte Español
Universidad Universidad de Barcelona (UB)
Grado Criminología - 3º curso
Asignatura TIC 2
Año del apunte 2016
Páginas 4
Fecha de subida 29/03/2016 (Actualizado: 29/03/2016)
Descargas 6
Subido por

Vista previa del texto

Tècniques d’Investigació en Criminologia 2 2015-2016 – maria47 Tema 2. Análisis descriptivo univariable Introducción El análisis descriptivo univariable es el primer paso en el análisis de datos cuantitativos. Se denomina descriptivo porque su objetivo es describir la distribución de las variables medidas en un estudio.
Y es univariable porque el análisis se realiza para cada una de las variables del estudio de modo separado, de una en una.
Este análisis permite resumir un conjunto de datos cuantitativos. Es la forma más simple de análisis estadístico.
El análisis descriptivo se basa en un conjunto de estadísticos o medidas descriptivas (de centralidad y de dispersión) y un conjunto de procedimientos gráficos.
Procedimientos de análisis descriptivo Procedimientos estadísticos para variables categóricas El análisis de variables categóricas se reduce al análisis de su distribución de frecuencias. Es decir, (1) al recuento de cada categoría de la variable en la muestra y (2) a su transformación en una proporción dividiendo la frecuencia de cada categoría por la frecuencia total.
La tabla de frecuencias consistiría, por tanto, en proporcionar:  Frecuencias absolutas: el recuento de cada categoría. El número de observaciones en esa categoría.
 Frecuencias relativas: el cociente entre la frecuencia de una categoría y el número total de casos/observaciones.
Procedimientos de visualización (gráficos) para variables categóricas  Gráfico de sectores: permite analizar la importancia relativa de cada categoría con respecto al total. Se expresa en porcentajes.
1 Tècniques d’Investigació en Criminologia 2 2015-2016 – maria47  Gráfico de barras: permite comparar la frecuencia absoluta de cada categoría de la variable. Se puede expresar en frecuencias absolutas o relativas.
Procedimientos estadísticos para variables cuantitativas  Medidas de centralidad: permiten resumir una variable cuantitativa  moda, media, mediana.
 Medidas de dispersión: en qué medida varían los valores en una variable determinada  rango, desviación típica, coeficiente de variación.
 Medidas de distribución: cómo se distribuyen los valores en una variable  coeficiente de asimetría, curtosis.
Medidas de centralidad Moda: es el valor más frecuente en una distribución. Es simple de calcular e intuitiva. Su desventaja es que se pierde información, por lo que puede dar una impresión errónea sobre los datos. Se puede utilizar, también, en variables nominales.
Media aritmética: nos proporciona el valor más representativo de una distribución. Es el promedio simple de todos los valores: la suma de los valores observables dividida por el número total de observaciones. Como ventajas tiene que todos los valores están incluidos en el cálculo, se tiene todos los valores en cuenta, y es la medida útil para comparar dos poblaciones. En cuanto a limitaciones nos encontramos con que es sensible a la influencia de observaciones extremas.
Mediana: valor central que divide a la población en dos subpoblaciones iguales. Es la posición central en una distribución ordenada. La ventaja es que no es tan sensible a la influencia de valores extremos o atípicos. Mientras que la desventaja es que no utiliza todos los datos, y es más insensible a los valores de una distribución.
Medidas de dispersión Proporcionan una medida de la dispersión en los valores de una variable, es decir, del grado en que los casos son o no homogéneos.
Rango: la diferencia entre el valor máximo y el valor mínimo de la distribución.
Desviación típica: mide la distancia de las observaciones respecto a la media. Se expresan en las unidades de la variable. Se proporciona el valor de una desviación típica. Ejemplo Una desviación típica de 5 (S= 5) en la variable edad quiere decir que el 68% de los casos está entre más o menos 5 años respecto de la media (si la distribución se ajusta a una distribución normal). Se calcula a partir de la varianza, es decir, de las desviaciones al cuadrado de las observaciones con respecto a la media. Como mínimo, el % de observaciones comprendido en el intervalo media +-kSx es de (1-1/k2) *100. Propiedades:  Mide la dispersión con respecto a la media. Debe solo emplearse cuando se escoge la media como medida de centralidad.
 Es igual a cero cuando no hay dispersión. Esto ocurre si todas las observaciones tienen el mismo valor. Cuanto más dispersas están las observaciones, mayor es la S.
2 Tècniques d’Investigació en Criminologia 2 2015-2016 – maria47  Se ve muy influida por la observaciones extremas. Unas pocas observaciones atípicas pueden hacer que la desviación típica sea muy grande.
Coeficiente de variación: resultado de dividir la desviación típica por la media y multiplicarlo por 100.
Un 0% indica mucha homogeneidad. Puede proporcionar valores superiores a 100% (mucha heterogeneidad). Cuando el valor de la media es cercano a 0, el CV proporciona valores muy elevados y pierde significado. Permite comparar la dispersión de dos variables con escalas diferentes.
Medidas de distribución Coeficiente de asimetría: grado en que las observaciones se reparten proporcional y equitativamente a la izquierda o a la derecha del punto central.
 La distribución simétrica perfecta es la “distribución normal” (curva normal o bell curve). Es una distribución teórica y muy pocas variables en el ámbito criminológico siguen una distribución normal.
 Decimos que hay asimetría positiva (o a la derecha) si la “cola” a la derecha de la media es más larga que la de la izquierda, es decir, si hay valores más separados de la media a la derecha.
 Diremos que hay asimetría negativa (o a la izquierda) si la “cola” a la izquierda de la media es más larga que la de la derecha, es decir, si hay valores más separados de la media a la izquierda.
 Una distribución puede también tener una distribución bimodal o no tener una distribución clara.
Curtosis: es una medida de la forma de la distribución (del grado de apuntamiento). Grado de concentración o dispersión de los valores de una distribución en torno al cuerpo central de ésta. El coeficiente de Curtosis viene definido por la siguiente fórmula: Los resultados pueden ser los siguientes:  g2 = 0 (distribución mesocúrtica)  g2 > 0 (distribución leptocúrtica)  g2 < 0 (distribución platicúrtica) Procedimientos de visualización Histograma de frecuencias: sirve para representar la distribución de las frecuencias de una variable cuasi-cuantitativa o de razón. Nos muestra la frecuencia absoluta o relativa (en el eje de las x) de cada valor posible de la variable (en el eje de las y). Los datos son agrupados en un número de intervalos.
Diagrama de caja: proporciona información sobre el valor mínimo, el máximo, los cuartiles y la amplitud intercuartílica (el interior de la caja contiene el 50% de los datos centrales) y la mediana.
Proporciona información sobre medidas de posición, tendencia central, variabilidad, distribución.
3 Tècniques d’Investigació en Criminologia 2 2015-2016 – maria47 Estimación por intervalos Dado que los estadísticos descriptivos (la media o una proporción) proceden de muestras, están sujetos a un margen de error (si analizamos la población no habrá error en el estadístico; tampoco si la muestra es muy grande).
Por ello, en ocasiones opta por proporcionar el valor estadístico (la media o una proporción) y un intervalo de Confianza (IC) o rango de valores asociado, que nos indica en torno a qué valores se espera que varíe ese estadístico. Ejemplo  p= 40% (38%-42%) o M= 3,5 (2,5-4,5).
Por lo general se adopta un IC del 95%. Este nos indica que en un 95% de las muestras, el valor del estadístico estará entre el valor mínimo y el máximo del intervalo. El IC viene dado por el valor del estadístico más o menos 2 errores estándar (EE) (en 2 desviaciones típicas se encuentra el 95% de la población en una distribución normal).
El EE para la media es DE/√n y para una proporción es √p (1-p)/√n.
El problema es que para que el IC tenga sentido, se asume que la distribución de la variable en la población sigue una distribución normal. Si la muestra es elevada y la distribución no es muy asimétrica, este problema puede ser menor. Cuando no hay una distribución normal, también se puede optar por estimar en varias muestras dentro de la muestra.
4 ...