9- Ci cuadrado (2017)

Apunte Español
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Ciencias Biomédicas - 1º curso
Asignatura Bioestadística
Año del apunte 2017
Páginas 21
Fecha de subida 01/08/2017
Descargas 0
Subido por

Vista previa del texto

TEMA 9: CHI CUADRADO Seguimos ahora con variables cualitativas. Para este tipo de variables nos basamos en porcentajes.
Vamos a seguir como en el tema anterior, explicando teoría acompañada de ejemplos.
Tenemos grupos de tamaños distintos y en cada uno vemos si el medicamento que le suministramos al paciente causa alguna diferencia en el grupo, es decir, si ayuda a mejorar o no.
Tenemos una tabla de contingencia típica, como en descriptiva y queremos ver si hay diferencias en las mejoras.
1 Lo que estamos haciendo es ver si los grupos se comportan de una forma homogénea. En cada uno estudiamos el porcentaje de mejora, vemos si los porcentajes son los mismos en los grupos o hay alguno que difiere.
El punto que colocamos detrás de las letras es la característica que queremos analizar, queremos ver si esa característica se comporta de manera homogénea entre los grupos o hay alguno en el que no. Y ver si cada grupo es semejante al global.
Poner el punto significa no escribir todo lo de corchetes  Cualitativa cualitativa De forma general tendré tablas con k columnas y l filas y en cada celdilla las frecuencias observadas. Quiero ver qué ocurre con el tratamiento i la respuesta j que obtengo.
Cada muestra tiene un tamaño determinado, cada total se representa con una O, esto genera un tamaño total, N, que es la suma de los individuos de cada grupo que comparo.
Veo cuál es la frecuencia que espero si se cumpliera la hipótesis nula de que los porcentajes son iguales.
Todo se basa en comparación de frecuencias.
Quiero ver si todos los individuos de una columna tienen porcentajes similares. Si pongo que todos se deben comporta igual, calculo que es lo que debo esperar multiplicando el total de la fila por el porcentaje que debe tener la columna (individuos columna/N total) Esto lo hago para todas las celdas y valoro la información en cada una de ellas.
2 El Teorema de Moivre, mediante una z, nos permite comparar los porcentajes observados y esperados, los observados son p y los esperados π.
Esta fórmula tenemos que extrapolarla a toda una tabla, al conjunto de todas las celdas. Para ello transformamos los porcentajes en frecuencias. Esto se hace simplemente multiplicando por N. Y sustituimos π por E/N. Las N se van, y si consideramos que N tiende a infinito, lo que está redondeado es 0. Así queda (O-E)/√E, hago el cuadrado para evitar las diferencias de signo y ya tenemos la fórmula final. Si hago esto para todas las filas y columnas de la tabla de contingencia, es la suma de normales al cuadrado, es X2.
La X2con ν grados de libertad es el estadígrafo experimental que comparo con la X2 teórica para ver si rechazo o no.
Para saber los grados de libertad que debemos usar, usamos la expresión de la diapositiva.
Tenemos que tener los datos independientes (k·l). A esto le restamos k-1 porque k son los porcentajes de columna, pero todos suman 100, así que hay uno que no es necesario. Además restamos también l porque conozco los tamaños totales de cada fila, así que también me sobra un dato.
3 De este modo calculo las frecuencias esperadas en todas las celdas. Pero para aplicar la fórmula, antes tenemos que ver si se cumplen las condiciones de aplicabilidad.
Si se cumplen estas condiciones, puedo calcular es estadígrafo experimental que sigue una distribución X2 y lo comparo con el valor que tendría X2 con esos grados de libertad.
Si cae a la derecha del límite, rechazamos H0.
Siempre que tenga más de 2 casos a comparar será un contraste bilateral, en cambio, acumulo toda α en un lado, porque se basa en una distribución X2, que va de 0 a ∞ , cuanto más me aleje de 0, más se me separan los valores que tengo. Así si el estadígrafo está cerca de 0, las muestras son homogéneas y se van haciendo más heterogéneas a medida que nos separamos de 0.
Queremos comparar las celdas para ver si se comportan todas iguales o hay alguna distinta.
Para ello calculamos las frecuencias esperadas según la fórmula. Las frecuencias observadas son siempre números enteros, son individuos, pero las esperadas no, estas tienen decimales porque son un cálculo teórico.
4 Una vez que tenemos calculadas las frecuencias esperadas, vemos si se cumplen las condiciones de aplicabilidad. En este caso sí se cumplen.
Puedo valorar la hipótesis basándome en cúanto me suma la discrepancia entre valores observados y esperados. Para ello tenemos las X2 de cada celda, las sumo y al final la discrepancia global son 7.5 unidades.
Miramos en la tabla de X2 con 4 ν y una α de 0.05, y vemos que el límite está en 9.5 y nosotros tenemos 7.5, de modo que caemos en la zona de no rechazo. Así que puedo considerar que se comportan de manera semejante.
Me puede preguntar que de todas las celdas, cuál es la que contribuye más a la discrepancia, así que miro cuál tiene una X2 mayor. En este caso, la celda que tiene el tratamiento D y mejora.
Siempre hacemos el mismo planteamiento para este tipo de problemas.
En este caso puedo considerar que aunque son diferentes, todos se asemejan a un 20% de mejoras y un 80% de no mejoras.
5 Como no rechazo H0, hay la posibilidad de que se comete un error β, que es el asociado al no rechazo. A posteriori es muy difícil de encontrar, solo se puede evitar que no sea demasiado grande con el tamaño adecuado de la muestra previo al estudio.
Vemos que comparamos frecuencias, pero que el contraste es en base a porcentajes.
 SPSS-Estudio de homogeneidad Vamos a hacer lo mismo que hacíamos en estadística descriptiva, en tablas cruzadas ponemos en filas y columnas las variables que indican los fármacos y las mejoras.
En casillas pido estadísticos observados y esperados, los porcentajes y redondear recuentos. En estadísticos pido el Chi-cuadrado.
Obtenemos así la tabla con los 5 fármacos, donde tenemos el recuento y el recuento esperado, que es lo que más nos interesa ahora.
También le hemos pedido la gráfica de barras porque nos da una idea de cómo se distribuyen los datos, vemos si son más o menos semejantes. Podemos decir que en este caso a simple vista se parecen.
6 Además nos da el análisis de la prueba Chi-cuadrado.
Lo primero que hay que hacer es mirar la parte de abajo, es decir, ver si se cumplen las condiciones de aplicabilidad. Vemos que hay 0 casillas con menos de 5 y ninguna menor de 1, lo que menos hay son 9.6. Con esto cumplido, se pueden sacar conclusiones válidas.
Nos da directamente el X2 y el número de casos válidos, pero no me da el punto de referencia, sino que tenemos directamente la significación. En este caso, como me equivoco más del 5% si rechazo H0, no la rechazo y digo que no son distintos.
Con las tablas de contingencia podemos hacer estudios de homogeneidad, como el que hemos visto, pero también podemos hacer otro tipo de contraste, de dependencia o independencia entre 2 variables.
Queremos ver si están relacionados, para ello cojo una N global y veo en qué grupo está cada uno, vemos cómo se comportan respecto a las variables.
En este caso queremos ver si tipo de enfermedad y acidez son independientes, es decir, ver si tienen relación.
En estos estudios lo importante es que tengo una N global, que se me transforma en una tabla con valores observados y esperados. Con los estudios de independencia la frecuencia es la probabilidad de estar en una única celda.
7 Vemos la diferencia de planteamientos.
Para dos variables independientes, la probabilidad de estar en una casilla es la multiplicación de la probabilidad de fila por la de columna. Al multiplicar por N, se me queda la misma forma de calcular que la esperada a pesar de que estoy haciendo algo distinto.
Los grados de libertad serán ahora k·l, pero a esto le quito tantos porcentajes como columnas y filas hay, y como solo tengo una N, le quito un grado de libertad, tenemos de nuevo la misma fórmula de antes a pesar de que los planteamientos son distintos.
Para nosotros es difícil distinguir entre qué tipo de planteamiento debemos coger para resolver el problema, por eso siempre se dará muy expliciamente.
Si preguntan si los porcentajes son iguales es un estudio de homogeneidad.
Si preguntan si existe una relación o dependencia es un estudio de independencia.
En el estudio de independencia escribimos H0 con palabras porque si no tendríamos que escribir las combinaciones de cada fila con cada columna.
En este tipo de estudios podemos medir la relación con el coeficiente de contingencia, que se determina por C.El coeficiente de contingencia solo se usa para tablas con más de 2 filas y 2 columnas. Este coeficiente está entre 0 y 1, pero cuanto más se acerque a 1 mayor será la relación entre las variables En definitiva, este estudio nos dice si diversas muestras son parecidas entre sí, o bien si el estudio global de tamaño N hay dos variables que podemos relacionar o no.
8 De nuevo repetimos los pasos. Calculamos las frecuencias esperadas, vemos si se cumplen la condiciones de aplicabilidad y calculamos el estadígrafo. Por último vemos dónde está el punto de corte y en este caso, nuestro valor cae a la derecha, con lo que rechazamos H 0. Entonces ahora podemos calcular p, que es menor de 0.005.
Vemos también cuál es la fuerza de relación, en este caso 0.6.
Con el SPSS se hace igual que con los test de homogeneidad.
9  Bondad de ajuste Este es otro tipo de test que podemos hacer cuando analizamos frecuencias.
Tomamos como ejemplo y a modo de explicación el problema 9.11.
La hipótesis es que el porcentaje de casos en primavera, verano, otoño e invierno son diferentes.
Este tipo de problemas consiste en ver si la los porcentajes se ajustan a lo que queremos.
En estudios de homogeneidad, tenemos dos variables con varias categorías y hacemos un estudio para ver so los porcentajes observados y esperados son equivalentes, miramos varias columnas.
En los estudios de bondad de ajuste, tenemos una variable con grupos, pero la variable 2 no existe, solo tenemos individuos que se ajustan a valores de esa variable. De modo que pretendemos ver si las frecuencias observadas se ajustan a las teóricas.
Como calculamos el número esperado, la N es solo de la variable que analizamos. Cuando multiplicamos N·π tenemos los porcentajes esperados.
Si se cumplen las condiciones de aplicabilidad podemos resolver el problema con una X2 con un único sumatorio, ya que solo tenemos una única variable. De este modo vemos se las frecuncias observadas y esperadas se parecen al comparar.
Los grados de libertad se calculan así: k-c-1. Donde c es el número de parámetros estimados. Para nosotros c siempre es 0, pero c no sería 0 cuando el problema me pregunta si se ajusta a una distribución normal, porque necesitaría saber π y σ.
10 Así estimaría 2 parámetros, c=2. Si me dijera que se ajusta a una binomial, necesito saber p, solo 1 parámetro, c=1.
Nosotros la usaremos para ver si se ajustan a las proporciones determinadas, es decir, c=0.
Para resolver la hipótesis necesitamos las frecuencias esperadas. Necesitamos multiplicar n por la probabilidad de cada categoría. La probabilidad de pertenecer a un grupo es en este caso de ¼. Así que multiplicamos 384 · ¼ y lo que queremos es ver si 100 no es diferente de 96, si 80 no es diferente de 96 y así con todos. Si todos son iguales, todos tienen la probabilidad de ¼ .
Cuando ya tenemos esto calculado, miramos si se cumplen las condiciones de aplicabilidad y si se cumplen (como es el caso) hacemos el cálculo de X2, los grados de libertad en este caso son 3.
Lo que queremos es ver si la diferencia supera una X2 de 3 grados de libertad.
Me da 4.917, pero ¿cuál es el punto de corte para decidir entre rechazo o no rechazo? Miro la tabla y veo que es 7.815, por lo tanto mi estadígrafo está en la zona de no rechazo, de modo que no rechazamos H0, pero podemos cometer un error β que no sabemos cuánto vale.
Siempre que se planteen análisis sobre frecuencias y solo hay una variable, se trata de una bondad de ajuste.
11  SPSS-Bondad de ajuste Con SPSS, seleccionamos pruebas no paramétricas, cuadros de diálogo antiguo y chi-cuadrado.
La única variable que ponemos es la estación.
A partir de aquí podemos elegir todas las categorías iguales o bien dar valores. Si me preguntaran si los porcentajes se corresponden con 30, 20, 30, 20, pongo los valores de la frecuencia esperada.
Le puedo poner tanto las n que he tenido que calcular previamente, los porcentajes (si suma 100, sabe que son porcentajes y se busca la vida) o incluso las proporciones.
Veamos cómo es de un modo u otro: 12 Hace un análisis con el que puedo contrastar si las proporciones son iguales o si se corresponden con las que le he puesto. Podemos resolver ambos problemas.
Nos da una tabla con los observados y los esperados y luego hace la diferencia. A partir de esta diferencia hace el análisis, que nos especifica si se cumplen las condiciones de aplicabilidad, que se cumplen en este caso.
En ambos casos no rechazamos H0, no conocemos el error β que podríamos estar cometiendo.
P es la probabilidad de equivocarte al rechazar H0, pero cuando no rechazas cometes el error β que no sabes cuánto vale.
Si solo tenemos 2 muestras podemos hacer estudios de independencia, homogeneidad, bondad de ajuste… lo podemos hacer tanto con datos independientes como apareados.
 Tablas 2x2-Datsos independientes 13 Para ello vamos a tomar como ejemplo el problema 9.6, que tiene dos versiones de enunciado para una misma tabla: A) Se hace un estudio con 200 personas, pregunta que si están relacionados los sucesos y cuál es su fuerza. Es un estudio a posteriori y queremos ver si hay relación, asociación… se trata de un estudio de independencia.
B) Tenemos 100 personas vacunadas y otras 100 no vacunadas y se comprueban si esas personas están enfermas o no. Es un estudio de homogeneidad.
En A) miramos si las variables están relacionadas, en B) si los porcentajes se pueden considerse iguales a los esperados o no La diferencia está en que en A) nos dan una n total mientras que en B) tenemos dos grupos que hemos escogido y vemos si están o no enfermos.
Las hipótesis, como vemos, van a ser diferentes en un estudio y otro. Recordamos que el punto quiere decir respecto a las categorías de la otra variable, para no tener que escribir todas las posibilidades.
En las tablas 2x2, los grados de libertad siempre es 1.
Las condiciones de aplicabilidad ahora cambian, estos estudios suelen tener menos casos, así que una premisa es que N>20. La regla de que el 20% de las frecuencias esperadas no sea menor de 5 no tiene sentido, porque al ser 2x2, si falla una sola celda ya se dejaría de cumplir. Ahora ninguna frecuencia esperada puede ser menos de 5.
Una vez se cumplen las condiciones de aplicabilidad, hacemos el contraste, pero encontramos que en dependencia, son siempre contrastes bilaterales, mientras que en homogeneidad pueden ser uni o bilaterales. Como solo tenemos 2 grupos, puedo ver si son mayores o menores, con muchos grupos las combinaciones son muchas, pero aquí es fácil.
En estudios de independencia también podemos calcular la fuerza de la relación, pero la fórmula es diferente.
Los estudios de 2x2 son particulares, con fórmulas distintas y características de tamaño propias, tenemos que tener en cuenta las variaciones respecto que haya más columnas y filas.
14 Para trabajar con SPSS, la manera de pedir el análisis es la misma que antes, el solo detecta que es un estudio de 2x2.
Los resultados de X2 tienen más filas que en otros casos, nos añade la corrección de continuidad y la prueba exacta de Fisher.
Antes con X2 y p sacábamos las conclusiones.
El SPSS por defecto siempre hace el test exacto, lo damos como válido porque es exacto. Se basa en una distribución hipergeométrica y como no es bilateral, me calcula la p para el estudio uni y bilateral, porque este no es exactamente el doble del unilateral.
La ventaja es que como sabemos que es exacto, nos quedamos con este.
Además si le pido la prueba de relación, me da tanto Phi (fuerza de relación que se hace en la tabla de 2x2), como el coeficiente de contingencia para k muestras, soy yo quien decido cuál es coger.
Cogeríamos Phi si es una tabla de 2x2 y el coeficiente de contingencia si es mayor, esto se pide en estadísticos de tablas cruzadas. Además del X2 le pido los dos test y en función de la tabla que me salga yo escojo uno u otro.
 Tablas 2x2-Datos apareados. Test McNemar.
En datos apareados hacemos el test de McNemar. Tomamos como ejemplo el ejercicio 9.8.
Tenemos 200 individuos, 100 que fumaban antes de la campaña y 100 que no. Después de la campaña, fuman 87 y no fuman 113. También podemos leer tabla así, de los que antes fumaban 80 siguen fumando y 20 no y de los que no fumaban, 93 siguen sin fumar y 7 ahora fuman.
Tenemos una misma variable en dos posiciones o tiempos distintos. Las informaciones de repetición no me interesan, en el test solo pongo los que antes fumaban y ahora no y al contrario.
Queremos ver si el efecto de la campaña es destacable, por ello intentamos detectar la información de los cambios en dos momentos o lugares del cuerpo diferentes.
15 El test se basa en las 27 personas que han cambiado. Diríamos que no hay cambios significativos cuando la mitad está en un sitio y la otra mitad en otro. Debería haber 13,5 en cada celda, pero hay 7 y 20.
Me fijo en cuántos han cambiado y si se ajusta a la mitad o no.
Nuevamente hay condiciones de aplicabilidad, esta es solo que haya más de 25 casos. Lo hacemos con una X2, pero realmente es un aproximación.
Cuando no tenga más de 25 casos, los hago con el test exacto basado en la binomial.
Se trata de comparar las (a+b)/2, pero tenemos correcciones en cada caso. Una vez se opera, nos queda reducido a la expresión de la diapositiva.
El test exacto se hace sabiendo que n = a+b y que π = 0.5. Miramos con la binomial que estén mitad y mitad.
 Datos apareados. Test McNemar. Aproximación (X2) En este caso, como n es más de 25, resolvemos el problema con la aproximación. Calculamos el estadígrafo, e, que me da 5.3, y lo contrasto con una X2 de 1 grado de libertad, que es 3.841.
El nuestro supera el valor de X2 teórico, por eso rechazamos H0 y ahora podemos saber cuál es la probabilidad de equivocarnos, p. Es decir, cuál es el valor de p que deja un área más allá de 5.3.Vemos que la p es mayor de 0.01, pero menor que 0.025.
16  Datos apareados. Test McNemar. Test exacto (binomial) Lo haría con la binomial, si me pidieran la efectividad, es decir, si realmente he conseguido que más gente deje de fumar.
Ahora las frecuencias son más pequeñas de 25, por tanto debo usar el test exacto de la binomial.
Quiero ver si los que fumaban y ahora no fuman es mayor que los que fuman y antes no.
Cuando tengo la tabla, desprecio los valores que se repiten y me fijo solo en los cambios. Solo cambian 12, de los cuales me interesan 10, porque quiero ver la probabilidad de que dejen de fumar 10 o más de 10.
Estamos calculando 3 binomiales. Realmente es sumar a la tabla inicial, las diferentes probabilidades de las tablas que hemos dibujado a continuación. Estamos valorando tener ese resultado o incluso tener mejores valores.
Le sumamos a la probabilidad de tener los valores que tengo, la probabilidad de extremar la información, es decir, la información que querría tener.
Me da una probabilidad de 0.0192, que es menor a 0.05, por lo tanto rechazamos H0 y esa es la p. No tenemos que contrastar con nada, ya que tengo directamente la p.
La probabilidad de equivocarme al rechazar H0 es 0.0192.
Siempre usamos una binomial de 0.5, porque queremos ver si es equilibrada o no. La binomial 0.5 es siempre simétrica, es igual calcular 10, 11, 12 que 2, 1, 0.
17 Si preguntara si ha tenido algún efecto, tenemos que pasar a bilateral y ahora tenemos que hacer 10, 11, 12 y 0, 1, 2.
Pero como es una distribución simétrica, multiplicamos x2, en realidad sumamos las probabilidades de que vaya hacia un lado u otro. Esta vez me da una p= 0.0384, que sigue siendo menor a 0.05, así que rechazamos H0.
 SPSS-Datos apareados Test McNemar En SPSS seleccionamos pruebas no paramétricas, pero ahora en cuadros de diálogo antiguo, ponemos 2 muestras relacionadas.
Ponemos las 2 posiciones a comparar y hacemos el test de McNemar.
El SPSS automáticamente detecta si tiene más o menos de 25 casos. El solo elige de qué manera hacerlo.
Contrasto respecto al porcentaje y en este caso en ambas rechazo H0.
18 Este es el esquema de lo que hemos visto de X2.
En función del tipo de problema (homogeneidad, independencia, bondad del ajuste, datos apareados) y de si se cumplen las condiciones de aplicabilidad o no escogemos un camino u otro.
19  Soluciones cuando fallan las condiciones de aplicabilidad Cuando hacemos Fischer no sabemos si tenemos un 2x2 o más, pero las tablas de más de 2x2 no están incluidas en SPSS, es un módulo aparte caro que no tenemos. Así que hay que resolver el problema de otro modo.
El modo de solventarlo es reduciendo las tablas, es decir, si tenemos una tablas de KxL, podemos intentar unir filas o columnas, o ambas hasta tener una tabla de 2x2.
Al cambiar las filas y columnas, la hipótesis cambia.
Si son tablas de 2x2, el test se hace sin problema.
Si tenemos una tabla como la del ejemplo, donde los números negros son las frecuencias observadas y los rojos las esperadas. Vemos que todas las frecuencias esperadas son menores de 5, por lo tanto más del 20% son menores de 5, no se cumplen las condiciones de aplcabilidad.
Reducimos la complejidad cambiando la hipótesis.
20 Tenemos aquí 2 posibles opciones: 1) Comparamos placebo respecto a haber recibido tratamiento y no efecto respecto a mejora (por leve que sea). Ya tenemos una tabla de 2x2. De este modo solo vemos si hay un efecto de mejora de alguno de los 2 fármacos respecto al placebo. Ahora tenemos una tabla de 2x2, que solo tiene 1 caso menor de 5. No se cumplen las condiciones, pero el SPSS ya me puede hacer Fisher, la conclusión que obtenga ahora la puedo dar por válida.
2) También podría haber comparado placebo respecto tratamiento y mejora leve o nula respecto a mejora apreciable. Vuelve a ser una tabla de 2x2, con 2 datos menores de 5, pero que ya es capaz de hacer Fisher.
En ambos casos hay que recodificar, es decir, hay que pedirle al SPSS una tabla con la nueva variable recodificada. Si una vez recodificada, se cumplen las condiciones de aplicabilidad, sin problema, y si no, se hace Fisher.
Si al recodificar tengo una tabla de más de 2x2, vuelvo a recodificar hasta que tenga la 2x2 que necesito.
21 ...

Comprar Previsualizar