TEMAS 6 A 8. ANÁLISIS BIVARIADO Y TRIVARIADO (2014)

Apunte Español
Universidad Universidad de Girona (UdG)
Grado Criminología - 1º curso
Asignatura metodologia de la investigacion social
Año del apunte 2014
Páginas 12
Fecha de subida 07/09/2014
Descargas 10
Subido por

Vista previa del texto

1 UNIVERSITAT DE GIRONA Metodología de la Investigación Dra. Ana Rebeca Urmeneta TEMAS 6 A 8 ANÁLISIS BIVARIADO Y TRIVARIADO El análisis bivariado (AB) analiza la relación entre dos variables. Cuando incluimos una tercera variable, por ejemplo en una tabla de contingencia, este tipo de análisis recibe el nombre de trivariado.
El AB puede ser empleado tanto con variables cualitativas como cuantitativas, aunque por razones de tiempo sólo estudiaremos una de las técnicas de AB para variables cualitativas (nominales y ordinales) más empleada en Ciencias Sociales: el Chi-cuadrado (también: Ji-cuadrado, o Xi-cuadrado).
El propósito del AB es analizar la relación entre dos variables, normalmente una variable dependiente y otra independiente.
En la siguiente tabla se presentan las principales técnicas de AB. Se incluyen estadísticos para el análisis de la relación entre variables cualitativas y cuantitativas. Se marca con un asterisco la prueba de Chicuadrado que será la materia de estudio principal de nuestra asignatura, así como también la de las prácticas con SPSS.
Para analizar la relación entre dos variables cualitativas (nominales u ordinales) se emplean Tablas de Contingencia. Ya hemos visto algunos ejemplos de este tipo de tablas de doble entrada o cruzadas en lecciones anteriores. Ahora vamos a centrarnos en sus componentes y su interpretación, para posteriormente pasar a las Pruebas de Chi-cuadrado.
Las tablas de contingencia tienen F número de filas y C número de columnas, y se definen como: F x C.
Por ejemplo, una tabla de contingencia que mida la relación entre nivel socioeconómico y género sería una tabla 3 x 2 (NSE: alto, medio y bajo; género: hombre-mujer).
1 Copyright (c) de los contenidos y de los textos originales: Ana Urmeneta G. 2014 Copyright (c) de la edición: Universitat de Girona. La Factoría. 2014 2 UNIVERSITAT DE GIRONA Metodología de la Investigación Dra. Ana Rebeca Urmeneta PRINCIPALES TÉCNICAS DE ANÁLISIS BIVARIADO Tipos de variables Técnica de análisis 2 variables cualitativas Pruebas de Chi-cuadrado* (la veremos en clases) 1 variable cuantitativa (dependiente) y 1 variable cualitativa dicotómica (independiente) Prueba de T de Student 2 variables cuantitativas Correlación 2 variables dicotómicas (cualitativas tipos Sí/NO) Las tablas de contingencia suelen incluir en sus columnas a la variable considerada como independiente 1 y en la fila a la dependiente . Obviamente, cuando no suponemos una relación de dependencia el lugar en el que se incluyan las variables es indiferente.
Es muy importante saber dónde está la variable independiente pues el análisis se realiza tomando a ésta como el punto de referencia. Por eso, tanto al construir como al analizar una tabla de contingencia, la primera tarea es determinar dónde está esta variable.
Por defecto SPSS nos proporciona únicamente los valores observados, es decir el número de casos hallados para cada cruce de valores de las variables o celdas. En el siguiente ejemplo podemos ver una tabla de contingencia que analiza la relación entre la evaluación de los entrevistados sobre la situación 1 Atención: Ésta es una simple convención. En algunas ocasiones loas variables dependiente e independiente pueden encontrarse en posiciones diferentes. Incluso, algunos programas o módulos dentro de los programas estadísticos requieren que la variable independiente esté en las filas.
2 Copyright (c) de los contenidos y de los textos originales: Ana Urmeneta G. 2014 Copyright (c) de la edición: Universitat de Girona. La Factoría. 2014 3 UNIVERSITAT DE GIRONA Metodología de la Investigación Dra. Ana Rebeca Urmeneta general de España y su género. Supongamos que queremos contrastar la hipótesis: “las mujeres tienen una evaluación más negativa de la situación actual de España que los hombres”.
Tabla de contingencia P1 * P34 Recuento P34 Hombre P1 Muy buena Total 3 0 3 28 26 54 Regular 254 217 471 Mala 528 546 1074 Muy mala 402 466 868 1215 1255 2470 Buena Total Mujer Como se puede ver en cada casilla se ofrece el recuento, es decir el número de casos en el que se produce el cruce entre el valor de una variable y el de la otra. Así el recuento para el cruce entre los valores Hombre y Muy buena (situación de España) es 3. Sólo 3 de los 1215 hombres que participaron en el estudio califican la situación actual como Muy Buena.
Esta es una primera aproximación, pero resulta insuficiente para llegar a una conclusión, aunque sea preliminar. Para realizar una comparación es preciso usar siempre porcentajes, nunca recuentos (valores absolutos). En el caso del ejemplo, no se pueden comparar las respuestas por género (nuestra variable independiente) porque el total de hombres y mujeres es diferente. Al realizar la comparación por porcentajes este problema desaparece porque siempre estaremos comparando sobre el 100%.
SPSS permite obtener porcentajes por columna, fila o respecto al total (celda/total). No todos los porcentajes son útiles en el análisis y en vez de aclararlo pueden confundirlo. Es mejor analizar la tabla de contingencia tomando como referencia la variable independiente, que en este caso se halla en las columnas. Por esta razón, vamos a pedir en SPSS sólo el porcentaje por columna.
Atención: Fíjate que cuando se trata de un porcentaje inferior al 1% SPSS omite el 0. Así, el porcentaje de hombres que señalan que la situación actual de España es muy buena es de un .2% (0.2%). Vigila siempre si hay un punto delante del número, pues esto indica que el valor es cero coma algo.
3 Copyright (c) de los contenidos y de los textos originales: Ana Urmeneta G. 2014 Copyright (c) de la edición: Universitat de Girona. La Factoría. 2014 4 UNIVERSITAT DE GIRONA Metodología de la Investigación Dra. Ana Rebeca Urmeneta Tabla de contingencia P1 * P34 P34 Hombre P1 Muy buena Recuento % dentro de P34 Buena Recuento % dentro de P34 Regular Recuento % dentro de P34 Mala Recuento % dentro de P34 Muy mala Recuento % dentro de P34 Total Recuento % dentro de P34 Mujer Total 3 0 3 .2% .0% .1% 28 26 54 2.3% 2.1% 2.2% 254 217 471 20.9% 17.3% 19.1% 528 546 1074 43.5% 43.5% 43.5% 402 466 868 33.1% 37.1% 35.1% 1215 1255 2470 100.0% 100.0% 100.0% El análisis de los porcentajes según la variable independiente permite observar las diferencias entre los grupos de comparación (que vienen dados por los valores de la variable independiente), que en este caso son hombre y mujer.
A primera vista parece que las mujeres tienen una opinión más negativa que los hombres, por lo que aparentemente nuestra hipótesis es correcta. Sin embargo, esta información es insuficiente para contrastar una hipótesis. No podemos saber si esta diferencia es real o sólo aparente (producto del azar: por ejemplo, si escogimos casualmente a un grupo de hombres y mujeres ligeramente diferentes, pero en la realidad estas diferencias no existen).
Para determinar si esta diferencia es estadísticamente significativa es preciso realizar una prueba de hipótesis. En nuestro caso, vamos a emplear la Prueba de Chi-cuadrado de Pearson.
La prueba de chi-cuadrado mide la distancia o diferencia entre los resultados observados en la muestra y los resultados esperados, que serían los que se obtendrían si no hubiera ningún tipo de diferencia o asociación entre variables, es decir, cuando la variable independiente no tiene ninguna influencia sobre la variable dependiente.
4 Copyright (c) de los contenidos y de los textos originales: Ana Urmeneta G. 2014 Copyright (c) de la edición: Universitat de Girona. La Factoría. 2014 5 UNIVERSITAT DE GIRONA Metodología de la Investigación Dra. Ana Rebeca Urmeneta Mientras mayor sea la distancia entre la distribución teórica (frecuencias esperadas ‘fe’) y la distribución muestral (frecuencias observadas ‘fo’) mayor será el valor de chi-cuadrado y esto indicará la presencia de asociación entre las variables o, dicho de otra forma, que hay diferencias entre los grupos de comparación (valores de la variable independiente) respecto a la variable dependiente.
Atención: la prueba de chi-cuadrado sólo permite comprobar si existe o no asociación entre variables, pero no permite medir la fuerza de esta relación.
SPSS ofrece la opción de incluir en la tabla de contingencia los recuentos esperados (distribución teórica o fe) y los recuentos observados (distribución muestral o fo), tal como se aprecia en la siguiente tabla.
Hemos marcado en rojo los valores teóricos fe. Hemos excluido de la tabla los porcentajes, para centrarnos en la comparación entre los dos tipos de distribuciones (teórica/esperada=fo y muestral/observada=fe).
Tabla de contingencia P1 * P34 P34 Hombre P1 Muy buena Buena Regular Recuento 0 3 Frecuencia esperada 1.5 1.5 3.0 Recuento 28 26 54 Frecuencia esperada 26.6 27.4 54.0 Recuento 254 217 471 231.7 239.3 471.0 528 546 1074 528.3 545.7 1074.0 402 466 868 Frecuencia esperada 427.0 441.0 868.0 Recuento 1215 1255 2470 1215.0 1255.0 2470.0 Recuento Frecuencia esperada Muy mala Total Total 3 Frecuencia esperada Mala Mujer Recuento Frecuencia esperada 5 Copyright (c) de los contenidos y de los textos originales: Ana Urmeneta G. 2014 Copyright (c) de la edición: Universitat de Girona. La Factoría. 2014 6 UNIVERSITAT DE GIRONA Metodología de la Investigación Dra. Ana Rebeca Urmeneta Nuevamente, el examen a simple vista parece confirmar la hipótesis de que las mujeres tienen una visión más negativa que los hombres de la situación actual de España. Fíjate que los números en rojo (fe) son inferiores a los recuentos (fo) en las alternativas Muy y Bastante Buena el caso de las mujeres y son mayores en el caso de los hombres. Concretamente, si no existieran diferencias entre hombres y 2 mujeres debería haber habido 1,5 hombres y 1,5 mujeres que contestaran que la situación actual en España era muy buena, pero en la realidad encontramos el doble de hombres, es decir 3, y ninguna mujer en esta casilla. Así habría que seguir analizando las diferencias entre la distribución teórica y la observada casilla por casilla, a lo largo de la tabla.
Sin embargo, este análisis es aún insuficiente como prueba de nuestra hipótesis. ¿Cómo podemos saber si esta diferencia es significativa en términos estadísticos? Es aquí donde interviene la Prueba de Chicuadrado que es un número que indica la distancia entre la distribución teórica y la observada.
Valores altos de chi-cuadrado indican presencia de asociación y valores bajos, ausencia de relación.
Para saber si un valor de chi-cuadrado es suficientemente alto, es decir si es estadísticamente significativo, tendremos que fijarnos en el nivel de significación que arroja la prueba. El nivel de 3 significación es abreviado en SPSS como Sig. (que viene de la palabra inglesa significance) . El valor de Sig. debe ser lo más bajo posible. El límite en ciencias sociales se suele fijar en el 0.05 o menos (.05 en SPSS), que quiere decir que en el 95% de las ocasiones hallaremos asociación entre las variables (siempre que nuestra muestra sea estadísticamente representativa, es decir, aleatoria). Una Sig. de .01 indica que en el 99% de las ocasiones encontraremos esta misma relación. O dicho de otra forma: la posibilidad de que la diferencia hallada en la muestra sea el fruto del azar y no de una relación verdadera entre las variables es muy remota, se daría apenas en un 1% de las ocasiones.
Una Sig.=.000 no significa que tengamos 100% de certeza de que la asociación se dará en la realidad.
Este número es una aproximación a 0, pero no es un cero absoluto. Además, al trabajar con muestras, aunque sean aleatorias, estamos siempre sujetos a un cierto sesgo o error, por lo que nunca podremos garantizar con certeza absoluta el cumplimiento de nuestra hipótesis.
Atención: NO CONFUNDIR! Vuelvo a insistir: la prueba de chi-cuadrado no mide la fuerza de la asociación entre variables. No puede decir si en un par de variables hay más asociación que en otro. Es 2 Obviamente, no tiene sentido hablar de 1,5 hombres. La frecuencia esperada es un número teórico (no real), que indica lo que se esperaría en el caso de que no hubiera relación entre las variables.
3 Puede aparecer bajos diversos nombres, pero siempre aparecerá la abreviatura Sig. (por ej. Sig.
Unilateral, Sig. Bilateral, Sig. Asintótica, etc.). En artículos o libros la Sig. puede estar simbolizada con la letra p, que significa p-value, que es otra forma de referirse al nivel de significación.
6 Copyright (c) de los contenidos y de los textos originales: Ana Urmeneta G. 2014 Copyright (c) de la edición: Universitat de Girona. La Factoría. 2014 7 UNIVERSITAT DE GIRONA Metodología de la Investigación Dra. Ana Rebeca Urmeneta una prueba que sólo señala ausencia/presencia de asociación. Se trata de una respuesta Sí/No: “Sí, hay asociación” o “No, no hay asociación”. Por esta razón, no tiene sentido decir que una Sig.= 0.000 indica una relación más fuerte que una de 0.05. No se mide intensidad. En ambos casos la prueba resulta positiva, es decir hay asociación entre las variables, pues, como indicamos más arriba: son significativos todos los resultados inferiores o iguales a Sig=0,05.
En la siguiente tabla presentamos los resultados de la prueba chi-cuadrado para la relación entre género y evaluación de la situación actual de España.
Hay tres datos a los que debes prestar atención, están marcados en rojo en el cuadro. Vamos a ver cada uno por separado: Pruebas de chi-cuadrado Sig. asintótica Valor gl (bilateral) a 4 ,035 11,520 4 ,021 Asociación lineal por lineal 7,728 1 ,005 N de casos válidos 2470 Chi-cuadrado de Pearson Razón de verosimilitudes 10,356 a. 2 casillas (20,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 1,48.
Chi-cuadrado de Pearson: éste es el valor de chi-cuadrado, que debe ser alto para que indique asociación.
Sig. asintótica bilateral: el término que nos importa es la Sig. (significación). En otros cursos veremos qué quiere decir asintótica y bilateral. Para que exista asociación entre las variables la Sig. debe ser inferior o igual a 0.05 (.05).
Porcentaje de casillas con frecuencias esperadas menor que 5: al pie de la tabla de la prueba de chicuadrado encontrarás el porcentaje de casillas con frecuencias esperadas menor que 5. Este porcentaje debe ser igual o inferior al 20%. Esta es una condición para la aplicación de chi-cuadrado. Cuando tenemos un porcentaje mayor es preciso que reduzcamos el número de celdas reagrupando los valores de las variables (o bien que usemos otras pruebas alternativas a chi-cuadrado o que empleemos correcciones estadísticas para la prueba chi-cuadrado, materias que no son tratadas en este curso). Lo mejor es procurar un porcentaje igual o inferior al 20% o modificar las variables para reducir este número al límite aceptable.
7 Copyright (c) de los contenidos y de los textos originales: Ana Urmeneta G. 2014 Copyright (c) de la edición: Universitat de Girona. La Factoría. 2014 8 UNIVERSITAT DE GIRONA Metodología de la Investigación Dra. Ana Rebeca Urmeneta GUÍA SOBRE CÓMO INTERPRETAR PRUEBA DEL CHI-CUADRADO Elementos en los que hay que fijarse: Paso 1: fijarse en la nota al pie de la tabla de chi-cuadrado. Las casillas con frecuencias esperadas menores que cinco tienen que tener un porcentaje inferior o igual al 20%. Si no es así tienes que recodificar las variables (veremos este tema más adelante en SPSS).
Paso 2: fijarse en el valor de Sig. para chi-cuadrado de Pearson. Para que haya relación entre las variables, es decir para que se compruebe la hipótesis, el valor de Sig. tiene que ser menor o igual a 0,05 (.05 en SPSS). Si ese valor es superior la hipótesis es falsa, por lo tanto hay que probar con otra variable independiente. Atención: cuando la hipótesis indica la dirección de la relación se puede usar una Sig.
unilateral que se obtiene dividiendo por dos la Sig. bilateral. Así, por ejemplo, si la Sig. bilateral es 0,06 y nuestra hipótesis implica dirección hay que dividir este valor en dos, por tanto la Sig. de la prueba será 0,03 que estaría dentro del límite de inferior o igual a 0,05. Más abajo se explica qué queremos decir con que la hipótesis indique dirección.
Sólo si se cumple paso 1 y 2 tendrás una hipótesis válida.
EJEMPLOS DEL PASO 1 Ej. del paso 1: correcto, se cumplen los requisitos para aplicar la prueba de chi-cuadrado Pruebas de chi-cuadrado Chi-cuadrado de Pearson Valor a 12,146 Gl 10 Sig. asintótica (bilateral) ,275 Razón de verosimilitudes 13,107 10 ,218 Asociación lineal por lineal ,007 1 ,932 N de casos válidos 2292 8 Copyright (c) de los contenidos y de los textos originales: Ana Urmeneta G. 2014 Copyright (c) de la edición: Universitat de Girona. La Factoría. 2014 9 UNIVERSITAT DE GIRONA Metodología de la Investigación Dra. Ana Rebeca Urmeneta Pruebas de chi-cuadrado Chi-cuadrado de Pearson Valor a 12,146 Gl 10 Sig. asintótica (bilateral) ,275 Razón de verosimilitudes 13,107 10 ,218 Asociación lineal por lineal ,007 1 ,932 N de casos válidos 2292 a. 3 casillas (16,7%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es ,72.
Como el porcentaje de frecuencias esperadas menor que cinco es inferior al 20%, concluyo que la prueba es válida y puedo pasar al paso 2.
Ej. del paso 1: incorrecto, no se cumplen los requisitos para la aplicación de la prueba de chi-cuadrado, será necesario recodificar las variables Pruebas de chi-cuadrado Sig. asintótica Valor gl (bilateral) a Chi-cuadrado de Pearson 20,561 20 ,423 Razón de verosimilitudes 25,235 20 ,193 Asociación lineal por lineal ,004 1 ,952 N de casos válidos 2292 a. 9 casillas (30,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es ,04.
El porcentaje de frecuencias esperadas menor que cinco es de 30%, superior al límite máximo de 20%.
Esto implica que la prueba de hipótesis chi-cuadrado no puede ser aplicada porque no se cumplen sus requisitos y, por tanto, sus conclusiones serian inciertas. ES NECESARIO RECODIFICAR LAS VARIABLES, para disminuir el porcentaje de casillas con frecuencias esperadas menores que cinco.
9 Copyright (c) de los contenidos y de los textos originales: Ana Urmeneta G. 2014 Copyright (c) de la edición: Universitat de Girona. La Factoría. 2014 10 UNIVERSITAT DE GIRONA Metodología de la Investigación Dra. Ana Rebeca Urmeneta Ej. del paso 1: Ups… justo! Se puede aplicar la prueba de chi-cuadrado Pruebas de chi-cuadrado Chi-cuadrado de Pearson Valor a 25,516 gl 18 Sig. asintótica (bilateral) ,111 Razón de verosimilitudes 23,054 18 ,189 Asociación lineal por lineal 4,977 1 ,026 N de casos válidos 2291 a. 6 casillas (20,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es ,15.
Como la regla dice 20% o menos, se puede aplicar la prueba de chi-cuadrado, y por tanto, se puede continuar con el paso 2.
EJEMPLOS DEL PASO 2 Ej. del paso 2: correcto Pruebas de chi-cuadrado Chi-cuadrado de Pearson Razón de verosimilitudes Asociación lineal por lineal N de casos válidos Valor a 9,715 9,341 1,716 2304 gl 4 4 1 Sig. asintótica (bilateral) ,046 ,053 ,190 a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 8,86.
La Sig. asintótica correspondiente al Chi-cuadrado de Pearson es 0,046 por tanto es inferior a 0,05.
Concluimos que la hipótesis es verdadera, es decir hay asociación entre las variables.
10 Copyright (c) de los contenidos y de los textos originales: Ana Urmeneta G. 2014 Copyright (c) de la edición: Universitat de Girona. La Factoría. 2014 11 UNIVERSITAT DE GIRONA Metodología de la Investigación Dra. Ana Rebeca Urmeneta Ej. del paso 2: incorrecto Pruebas de chi-cuadrado Sig. asintótica Valor gl (bilateral) a Chi-cuadrado de Pearson 12,146 10 ,275 Razón de verosimilitudes 13,107 10 ,218 Asociación lineal por lineal ,007 1 ,932 N de casos válidos 2292 a. 3 casillas (16,7%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es ,72.
La Sig. asintótica es superior a 0,05 (da 0,275), por tanto concluimos que la hipótesis es falsa. No hay asociación entre las variables cruzadas HIPÓTESIS Y DIRECCIONALIDAD Ejemplo de hipótesis que implica dirección/direccionalidad: “Las mujeres tienen una evaluación más negativa de la situación actual de España que los hombres”. Indica una dirección: sólo se comprueba la hipótesis si la diferencia hallada se da según la dirección que ésta plantea. Es decir si hay más mujeres que hombres con evaluaciones negativas y no viceversa. Para comprobar este tipo de hipótesis se usa la Sig. unilateral (que se calcula dividiendo en dos el resultado de la Sig. bilateral).
Ejemplo de hipótesis sin dirección/direccionalidad: “Habrá diferencia entre hombres y mujeres respecto a su evaluación de la situación actual de España”. En este caso no se predice la dirección de la relación, puede darse en un sentido o en el otro. La hipótesis se comprobará tanto si los hombres tienen evaluaciones más negativas o si son las mujeres las más críticas. Sin embargo, si encontramos que hombres y mujeres realizan evaluaciones parecidas se rechazará la hipótesis. Para comprobar este tipo de hipótesis se usa la Sig. bilateral (que normalmente SPSS entrega por defecto).
En el caso del ejemplo, como preveíamos una mayor criticidad en las mujeres deberíamos usar una prueba unilateral, y fijarnos que efectivamente haya más mujeres con evaluaciones negativas que los hombres. Si no hubiéramos predicho ninguna dirección bastaría con usar la Sig. bilateral.
11 Copyright (c) de los contenidos y de los textos originales: Ana Urmeneta G. 2014 Copyright (c) de la edición: Universitat de Girona. La Factoría. 2014 12 UNIVERSITAT DE GIRONA Metodología de la Investigación Dra. Ana Rebeca Urmeneta DIAGRAMA DE FLUJO PARA LA INTERPRETACIÓN DE CHI-CUADRADO Analizar prueba de chi-cuadrado Recodificar variables, probar hasta que se cumpla la condición o desechar hipótesis No ¿El % de casillas con fe inferior a 5 es igual o menor a 20%? Sí ¿La hipótesis indica dirección? Sí No Usar prueba unilateral (dividir Sig. bilateral por dos) ¿Los datos corroboran la dirección propuesta? No Usar prueba bilateral Sí ¿La Sig. es inferior o igual a 0.05? Sí Se cumple la hipótesis No oo NO se cumple la hipótesis, revisar el trabajo Copyright (c) de los contenidos y de los textos originales: Ana Urmeneta G. 2014 Copyright (c) de la edición: Universitat de Girona. La Factoría. 2014 12 ...