10- A-ANova (2017)

Apunte Español
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Ciencias Biomédicas - 1º curso
Asignatura Bioestadística
Año del apunte 2017
Páginas 16
Fecha de subida 01/08/2017
Descargas 0
Subido por

Vista previa del texto

TEMA 10: A-NOVA La comparación de 2 medias la hemos hecho con t-Student, pero podemos comparar más de 2 con este método. Cuando queremos comparar 3 o más medias hacemos un análisis de A-Nova, que es un análisis de las varianzas.
 α total con t-Student VS ANOVA Supongamos que queremos comparar los resultados obtenidos según 5 métodos diferentes, que, de entrada, ya sabemos que son iguales.
Nos planteamos comparar sus medias, y con t-Student tendríamos que hacer 10 comparaciones, pero ¿cuál sería el error total que cometeríamos al sacar conclusiones si en cada uno aceptamos un error de un 5%? El error es la probabilidad de que exista alguna diferente, que es lo mismo que 1-la probabilidad de que sean iguales. Todo esto se resume luego en la fórmula recuadrada.
Si sustituimos para 5 compararaciones, cometemos un error del 22.6%. En un 23% de los casos podríamos encontrar diferencias aunque no las hubiera.
Si hacemos 10 comparaciones, el error se dispara al 40%.
Por eso no podemos usar la t-Student para comparar 3 medias o más, porque aumenta muchísimo la probabilidad de equivocarnos.
Necesitamos, por tanto un método alternativo, que es el análisis de la varianza, ANOVA. Con este evitamos cometer un error más grande del que inicialmente pretendemos.
1  Relaciones variables cuantitativa-cualitativa. Análisis de la varianza: ANOVA Queremos comparar los tratamientos A, B y C y ver si hay diferencias entre las respuestas a estos tratamientos Cada tratamiento ha sido aplicado a 4 individuos diferentes. Calculamos las medias de cada grupo y su desviación típica.
Con esas desviaciones típicas queremos saber si las medias vienen de una misma población o hay diferencias entre alguna de ellas.
Tenemos una variable cuantitativa en grupos.
Las respuestas entre los individuos de un mismo grupo de un mismo tratamiento son también variables A estas variables dentro de cada grupo se les llama variables aleatorias (azar), no todos los individuos responde igual frente al mismo tratamiento.
Al comparar las medias entre los diferentes tratamientos, vemos que también existe una variabilidad. A esta se le llama variabilidad del tratamiento. Responde a la pregunta ¿existe alguna diferencia entre recibir un tratamiento u otro? Si la variable de tratamiento es más grande que la causada por azar, podremos rechazar H0 y decir que las medias son distintas. En cambio si no son más grandes que las causadas por azar, considero que no son distintas y por lo tanto son iguales.
Hemos visto que tenemos que comparar cómo varían las medias por medio de las varianzas de tratamiento y azar. Las divido y si me dan más de 1, rechazo H0, si no, no.
Las variables las comparamos por medio de la varianza.
El estadígrafo que debo usar en este caso es la F de Fisher, que me permite comparar varianzas.
A partir de ahora hablaremos de encontrar varianzas de sumas de cuadrados y dividirlas entre los grados de libertad.
2 Podría tener dos estudios para una variable continua y obtener las mismas medias. Pero vemos que la distribución de datos en el Estudio 1 y el 2 son diferentes. En el Estudio 1 los datos están En el Estudio 1 vemos que las variaciones intergrupo son mayores que las variaciones intragrupo y pasa justo al revés en el Estudio 2, donde tenemos una gran variación dentro de los grupos.
Si quiero ver si las medias son distintas, es mucho más fácil coger el Estudio 1. Se ve claramente, en función de dónde esté situado el punto, de qué población viene. En cambio, en el Estudio 2, si quitara los colores, un mismo punto podría pertenecer a cualquiera de las 3 gráficas, de modo que no puedo considerarlas diferentes.
Aunque las medias tienen el mismo valor numérico, arriba las considero distintas y abajo nada se opone a afirmar que son iguales.
Comparamos las medias indirectamente, viendo cómo son las variaciones entre los grupos y dentro de ellos.
Habíamos calculado la medias de los tratamientos, pero también podemos encontrar la media total, que es de 5.3, con un desviación típica total de 2.8 (la media si sale de hacer la media de las medias, pero la desviación típica no).
3 En un individuo, el valor 9 viene de la suma, por una parte, de la media de la población, más la diferencia entre la media poblacional y la media del grupo (varianza de tratamiento), más la diferencia entre el valor concreto, que es 9 y la media del grupo (varianza por azar).
Vemos, entonces, que un valor concreto viene descompuesto por 3 valores. Siempre de la misma manera.
Cada individuo, por tanto, va a tener un valor que depende de la media de la población en que se encuentra, de la media de su grupo y de su valor concreto.
En realidad ese valor concreto responde a una función de una serie de valores con un error determinado. Cualquier valor de la variable independiente depende de la media de la variable independiente, del efecto de un factor A y de un error de estimación.
La diferencia entre un valor y la media de la población es la suma de las diferencias entre la media del grupo y la media de la población; y el valor concreto menos la media del grupo.
Pero no tengo los datos poblacionales, de modo que no puedo escribir μ, tengo que escribir Y y Y media.
Como quiero la diferencia del valor menos la media, al cuadrado, operando obtengo la fórmula final, que no es más que los dobles sumatorios de lo del principio, al cuadrado y multiplicado por n.
Seguimos teniendo 3 componentes separadas.
   Suma cuadrados total (SCT): Conjunto de la diferencia entre el individuo respecto al total, al cuadrado.
Suma cuadrados entre grupos (SCE): El conjunto de la media del grupo menos la media total, al cuadrado, multiplicado por la n total.
Suma cuadrados dentro grupos (SCD): El conjunto de la diferencia entre el valor concreto y la media del grupo, al cuadrado 4 Ya tenemos las sumas de los cuadrados. Ahora necesitamos encontrar los grados de libertad.
   G.L. de SCT: N-1. Siendo n el número total de individuos del estudio.
G.L. de SCE: k-1. Siendo k el número de tratamientos o de grupos posibles.
G.L. de SCD: N-K. Siendo ambas lo que se ha dicho anteriormente.
Una vez que ya tenemos todos los datos, dividimos las sumas de cuadrados entre sus grados de libertad y obtenemos las medias cuadráticas, que no son más que varianzas.
Saco conclusiones de cómo son las medias comparando las media de tratamiento con las de azar.
Si la media de tratamiento es mayor que la de azar, podemos rechazar H0.
Esto mismo podemos expresarlo de otra manera.
En primer lugar, las condiciones de aplicabilidad son ahora diferentes.
La primera siempre la suponemos, para la segunda, tenemos que hacer un test de normalidad y si TODAS son normales, entonces seguimos. La tercera, las σ2 siempre van a ser desconocidas, pero además suponemos que son iguales de un principio.
5 Para que las esperanzas de tratamiento y azar sean iguales, el sumatorio debe ser 0. Este sumatorio será 0 cuando las varianzas tanto intra como intergrupo sean iguales. Si en cambio, el tratamiento hace algo, cambia la media respecto a la global y no será 0.
Quiero comparar medias, pero no lo hago directamente. Si todos tienen la misma varianza y el trata miento no hace nada, el efecto del tratamiento en 0, las dos medias valen lo mismo y por tanto no rechazo H0. El cociente en este caso dará 1, porque el sumatorio es 0 y las σ2 iguales.
Si el tratamiento hace algo, el sumatorio será mayor de 0, y por tanto el cociente es más de 1.
Ahora puedo rechazar H0.
Todos los problemas de este tipo se resolverán con la tabla ANOVA.
En la primera columna tenemos las sumas cuadradas, en la segunda, los grados de libertad y en la tercera la media cuadrática.
La primera fila viene referida a la variabilidad de tratamiento y la segunda al azar.
Obtenemos la F de Fisher dividiendo las medias cuadráticas.
La comparamos con un valor teórico con los grados de libertad del cociente y vemos dónde se sitúa el límite. Miramos dónde queda nuestro valor respecto a este y en función de dónde esté rechazamos o no H0.
6 Veamos ahora un problema como ejemplo: 9.1 Queremos ver si el efecto de la nueva droga analgésica es diferente al de la aspirina o un placebo.
Se cumple aleatoriedad y normalidad. Tenemos una variable cuantitativa continua (N horas sin dolor de cabeza) y tenemos grupos, la nueva doga, aspirina y placebo.
Quiero comparar las medias para ver si entre los grupos hay diferencias o son iguales.
El SPSS me da una tabla con información entre grupos (tratamiento) y dentro de los grupos (azar). Los grados de libertad se pueden sumar para hacer el total, pero las medias cuadráticas no.
Las sumas de cuadrados se obtienen a partir de las fórmulas siguientes, que tienen 2 términos, uno positivo y otro negativo.
Calcula los grados de libertad, la F de Fisher y la significación (p).
 SPSS-ANOVA de un factor Vamos al menú en comparar medias y a ANOVA de un factor. Esto lo hacemos cuando tenemos 3 o más grupos.
Ponemos en factor: tratamiento y en lista de dependientes: respuesta. Aquí no hace falta que defina los grupos, el solo compara los grupos que tenga.
En opciones seleccionamos descriptivos (medias, varianzas…), pruebas de homogeneidad (es el test de …… pero para varios grupos), además seleccionamos gráficos de las medias.
Post hoc sirve para que una vez que haga el estudio y rechzo H0, concluyo que no son todas iguales, pero no sé cuál es diferente. Es un método a posteriori. Seleccionamos un método general como el de Scheffe.
7 Los primero que tengo es una tabla con los estadísticos descriptivos. Tenemos 12 casos, me da la media, la desviación estándar, el erro estándar (desviación estándar/√n), los IC, valores máximo y mínimo.
Quiero saber si puedo considerar los 3 grupos iguales o no. Si hay diferencias globales, ya miro las particulares.
Se cumplen las condiciones de aplicabilidad.
Él solo hace el test de homoscedasticidad (o de Levene), que mira si las varianzas son iguales.
Nos da el valor de este estadístico, los grados de libertad y la significación, que en este caso es de 0.4. Así que concluimos que nada se opone a aceptar que las varianzas globales son semejantes.
8 Seguimos con el análisis.
El ANOVA de verdad, me da la tabla que aparece. Me da las variaciones entre grupos y dentro de los grupos.
Vemos que la varianza entre tratamientos es 9.6 veces más grande que la producida por azar.
Miramos si eso es suficiente para considerar las medias distintas.
La significación indica que es significativamente más grande que 1, así que podemos rechazar H0 y decir que los 3 tratamientos no son iguales.
Todo pasa por el punto de calcular las varianzas en las categorías a partir de la suma de cuadrados y dividirla por los grados de libertad.
Al acabar solo sé que la varianza por tratamiento es más grande que por azar, pero me falta ver entre qué grupo hay más varianza. Tengo que hacer comparaciones múltiples.
 Comparaciones múltiples (Métodos Post Hoc): Test de Scheffé Una vez que hemos aceptado H1= no todas μ son iguales, queremos ver entre qué tratamientos se encuentra la diferencia. Para ello tenemos que hacer comparaciones múltiples.
De modo que se llevan a cabo todas las comparaciones dos a dos, de las que hemos huido al principio. Con métodos que corrigen los problemas con el nivel de significación total.
Para ello hacemos una tabla con tastas filas y columnas como grupos tiene la variable. En este caso deberemos dibujar 3 filas y 3 columnas.
Una vez tenemos la tabla, escribimos todas las combinaciones posibles solo en la diagonal superior (porque si no tendríamos los datos repetidos) Escribimos la diferencias de medias de cada grupo con cada uno de los otros. Luego miramos cada una de estas diferencias en valor absoluto respecto al estadígrafo teórico, que como vemos depende de: La F de Fisher que hayamos usado en ANOVA, los tamaños de los grupos que comparamos, el número de grupos que comparamos y la media cuadrática dentro de los grupos.
Todos estos términos son multiplicados y se hace su raíz. Si el valor absoluto de la diferencia de las medias supera el valor del estadígrafo, hay diferencias entre los dos grupos comparados.
9  SPSS- Pruebas post hoc y subconjuntos homogéneos El SPSS hace comparaciones múltiples. Lo que hace es poner todos los grupos y compararlos con cada uno de los otros 2. Por tanto tenemos los valores duplicados.
Para cada una de las combinaciones, da la diferencia y nosotros la comparamos con la fórmula para ver si es mayor o no.
Para sacar la conclusión, miro la significación. En el primer caso, tenemos una significación de 0.030, que como es menor de 0.05 rechazo que sean iguales y acepto que son diferentes.
En las que encuentra diferencias las marca con un asterisco.
En este caso, vemos que no hay diferencias entre la aspirina y la nueva droga. Tiene una significación de 0.647 y no tiene asterisco.
Para sacar la conclusión también podemos mirar los intervalos de confianza al 95%. Los que no incluyen el 0 en el intervalo son los que son significativos y por lo tanto tienen el asterisco.
Cuando incluye el 0, no hay diferencias entre ellos.
En este caso, vemos que comparamos medias pero no con la T-Student, sino a través de la fórmula.
En los subconjuntos homogéneos aparecen los 3 analgésicos y los tiempos sin dolor.
En la gráfica ponemos los intervalos de confianza, vemos que los dos últimos se superponen bastante y que el primero se separa.
Por lo tanto, aunque tenemos 3 cosas, solo hay 2 distintas, los que toman placebo y los que toman algún medicamento.
10 En el subconjunto homogéneo vemos que los que son iguales están en la misma columna. Está escribiendo los grupos homogéneos. Los medicamentos son distintos del placebo pero entre aspirina y nueva droga no hay diferencia, de modo que están en le mismo grupo.
Por lo tanto una vez hecho ANOVA hemos visto entre qué grupos hay diferencias.
 Relaciones variables cuantitativa-cualitativa Para hacer el análisis ANOVA, los datos deben ser independientes, la variable cuantitativa debe ser normal en cada grupo y con el test de Homoscedasticidad determinar que las varianzas son iguales.
Si no se cumplen estas condiciones, se hace un test no paramétrico, la pruba de Kruskal-Wallis, pero no la haremos.
Si se cumplen hacemos ANOVA. En ANOVA vemos si hay diferencias. Si determinamos que las medias no son iguales, hacemos una prueba post hoc.
Si tenemos más de 2 grupos para comparar, tenemos que hacer ANOVA, no se puede resolver el problema con t-Student por parejas. Si nos dice que no hay diferencia, se acaba, si las hay hacemos post hoc.
11  Problema 9.4 Tenemos 26 pacientes, medimos la variación de la presión diastólica y queremos ver si la media de descenso en los 3 grupos es igual o no.
Para resolver este problema hay que calcular la media de cada uno de los grupos y sus desviaciones típicas.
Además con todos los datos, podemos calcular la media total y la desviación típica total.
12 Nota: La media de las medias no es 15.4, esto solo se puede hacer cuando los tamaños de los grupos son iguales. Para hacer esta media multiplico 2.8 por la n de placebo y así con cada grupo.
Estos productos los sumo y los divido por la N total. Esto tampoco funciona para la desviación típica, que hay que calcular con todos los datos de la tabla.
Tenemos que generar una tabla ANOVA con 4 columnas. En la primera ponemos la suma de cuadrados, en la segunda los grados de libertad, en la tercera las medias cuadráticas (que sale del cociente de las dos anteriores). Por último calculamos la F se Fisher.
Vimos anteriormente que al operar, para tener las sumas de cuadrados nos quedaba 2 sumandos que se van repitiendo.
La SCD SCT tienen el término naranja que es los dobles sumatorios del cuadrado de cada número.
La SCE y SCD tienen el término celeste, que consiste en el sumatorio de los valores de cada grupo al cuadrado y dividirlo por cada n.
La SCE y SCT tiene el término vede del doble sumatorio al cuadrado y dividir por la N total.
Por lo tanto para resolver estos problemas es buena práctica hacer una fila que nos haga la suma de las Y y las sumas de los cuadrados. Así como incluir las n de cada grupo. Y los totales de todas.
El 10847 es el término naranja (la suma de todos los valores al cuadrado).
El 401 es el sumatorio del verde.
El 25 al cuadrado dividido por 9 es el término celeste.
Una vez que ya tengo todos los términos hago las restas y obtengo los valores.
13 Hay otro modo de calcularlo. Imaginemos que solo nos dan las medias.
Si queremos calcular la SCE: Sumo tantos términos como grupos tenga. En cada término se hace la resta de la media del grupo con la media total y se eleva al cuadrado, esto se multiplica por la n de cada grupo.
Si queremos calcular SCT: Multiplicamos la media cuadrática total (13.7) por N-1.
Cuando ya tengo las dos primeras, la tercera la puedo calcular simplemente por diferencia.
De este modo podemos calcular los valores de forma sencilla. Sobre todo de la segunda fórmula, que solo necesito saber los valores totales, la varianza y poco más.
Las fórmulas desarrolladas las hago cuando me da la tabla completa, de esta segunda manera si solo tengo las medias.
Para responder a la pregunta de si son iguales o no necesitamos los SCE, SCD, SCT. Así que hacemos tabla ANOVA y vemos la F.
Vemos cuántas veces es más grande el primero respecto al segundo.
¿Puedo considerar que 10.5 es un número lo suficientemente grande? Lo comparo con la F teórica. Me da el corte en este caso en 5.85, nuestro valor es mayor y por lo tanto rechazamos H0 y la probabilidad de tener un valor mayor de 10.5, es menos de 0.0001, según la tabla.
El SPSS me daría directamente p y de esta sacamos las conclusiones.
14 Como hemos rechazado H0, hacemos múltiples comparaciones, para lo que necesitamos hacer otra tabla.
Rellenamos la diagonal superior y calculamos las diferencias de las medias entre los grupos.
Luego hacemos la fórmula y comparamos. El 20.7 es mayor respecto al 16.8 de la fórmula. Le ponemos un asterisco porque hay diferencias. 2.6 es menor de 16.3, de modo que no hay diferencias. El 18.1 vuelvo a usar la primera fórmula y también es mayor, le ponemos asterisco.
Vemos que hay diferencias entre el fármaco A y el placebo y el B y el placebo.
15 El SPSS me daría los subconjuntos, y me diría que A y B son semejantes. Además tendría el gráfico.
 Equivalencia entre t-Student y ANOVA (2 grupos) Si los grupos a comparar son 2, es equivalente utilizar la distribución t de Student o la F de Fisher de ANOVA para realizar el contraste de hipótesis de igualdad de medias … … dado que entre las distribuciones t de Student y F de Fisher se cumple la relación: siendo ν los grados de libertad de la t de Student o los del denominador de la F de Fisher.
16 ...

Comprar Previsualizar