TEMA 9 (2015)

Apunte Español
Universidad Universidad Pompeu Fabra (UPF)
Grado Medicina - 2º curso
Asignatura Bioestadística
Año del apunte 2015
Páginas 21
Fecha de subida 20/04/2016
Descargas 1
Subido por

Vista previa del texto

2n Medicina UPF- UAB BIOESTADÍSTICA TEMA 9: Contrastes de hipótesis para variables cuantitativas Las variable cuantitativas describen propiedades que pueden cuantificarse. Sus valores permiten operaciones algebraicas.
Ej.: ! Altura ! Niveles de colesterol Con frecuencia es necesario comparar los valores que toma una variable cuantitativa en varios grupos de sujetos.
Ej.: ¿Son más altos los hombres que las mujeres? ¿La administración de un probiótico mejora los niveles de colesterol? Estas situaciones se caracterizan porque: ! Implican a una variable cuantitativa ! Se compara una propiedad de la variable, normalmente la tendencia central, en distintos grupos de objetos (hombres-mujeres, probiótico si-no) definidos por una variable cualitativa.
Para llevar a cabo la estadística descriptiva de estas situaciones se usan gráficos en los que se representa la tendencia central y la dispersión de la variable cuantitativa para cada uno de los subgrupos definidos por la variable cualitativa.
Pueden usarse gráficos de caja situados uno al lado del otro NOTA: Cuando hacemos una prueba de contraste de hipótesis, el procedimiento es siempre es el mismo; 1. Obtención población 2. Obtención de muestras de la población 3. Comparación de las muestras y observar si hay diferencias 4. Plantear las hipótesis (nula y contrastada) 5. Cálculo del valor de p 2n Medicina UPF- UAB Ej.: ¿Son más altos los hombres que las mujeres? En la muestra la altura de los hombres es superior a la de las mujeres. ¿Ocurre lo mismo en la población? ALTURAS MEDIAS: AlturaMH=175 - AlturaMH=165 Si en la muestra la altura de los hombres es mayor, puede ser por dos motivos: 1. En la población los hombres son más altos Hipótesis contrastada 2. En la población los hombres no son más altos, pero en esta muestra aparece por casualidad que los hombres son más Hipótesis nula altos que las mujeres ¿Son más altos los hombres que las mujeres? Esta diferencia puede ser: H0: resultado del azar. La media poblacional es idéntica (µh=µm) Ha: resultado de una diferencia real. La media poblacional es distinta (µh≠µm) NOTA: utilizamos letras griegas para el valor de la media en las hipótesis porque dichas hipótesis hacen referencia a lo que ocurre en la población.
media en hombres = 175 cm media en mujeres = 165 cm 2n Medicina UPF- UAB POSIBLES SITUACIONES: El contraste de hipótesis a utilizar para comparar medias depende de si queremos: ! Comparar un grupo con un valor de referencia ! Comparar dos grupos ! Comparar n grupos Las pruebas a utilizar también dependen de: ! Si se conoce el valor de la desviación estándar poblacional (σ) ! En caso de desconocerse σ, si se asume que la dispersión en ambas poblaciones es igual o distinta ! Los datos son independientes o apareados SITUACIONES QUE VEREMOS COMPARAR GRUPO- VALOR REFERENCIA ! ! COMPARAR 2 GRUPOS COMARAR n GRUPOS Prueba de conformidad ! Prueba asumiendo σ conocida asumiendo σ conocida ! Prueba de t de Student asumiendo (ANOVA) de un igual varianza factor Prueba de t de Student de conformidad ! ! Análisis de la varianza Prueba de t de Student asumiendo distinta varianza ! Prueba de t de Student para datos apareados Prueba t de Student ANOVA Las situaciones en las que σ es conocida aparecen normalmente en los libros de estadística y nunca en la práctica COMPARAR UN GRUPO CON UN VALOR DE REFERENCIA: Objetivo: saber si la media de una muestra coincide con un cierto valor de referencia Estas pruebas se denominan contrastes de conformidad Podemos encontrarnos ante dos situaciones: ! La desviación estándar poblacional (σ) es conocida (muy infrecuente) ! La desviación estándar poblacional es desconocida y debemos estimarla a partir de la desviación estándar muestral 2n Medicina UPF- UAB Desviación estándar poblacional (σ) conocida: Prueba de conformidad asumiendo σ conocida Ej.: Queremos saber si tras administrar un fármaco se produce un aumento de la temperatura corporal.
Conocemos previamente que la temperatura corporal en la población general sigue una distribución normal de media 36.5 ºC.
Las hipótesis son: - H 0 : µ = µ0 - H a : µ ≠ µ0 Donde µ0 es el valor de referencia y µ representa la media de la población de la que hemos extraído la muestra Si la distribución de la variable x tiene media µ y desviación estándar σ, la distribución de “medias de x en muestras de tamaño n” tiene: µm = µ Media σm = Desviación estándar σ n NOTA: recordatorio Tema 6: Esta distribución tiene dos propiedades interesantes (que no demostraremos) - La dispersión de la distribución de medias, en términos de varianza, es igual a la varianza de la variable original dividida por el tamaño de la muestra σ 2 m = σ 2x y en términos de desviación estándar… n σm = σx n Por tanto, el valor de p asociado a la media muestral puede calcularse normalizando el valor y contrastándolo con una distribución normal x − µm z= σm Substituyendo los valores de la media y desviación estándar media = desviación estándar= µm = µ σm = σ n x −µ z= σ/ n teniendo en cuenta que si H0 es cierta µ=µ0 z     = x − µ0 σ/ n Fórmula para calcular el estadígrafo 2n Medicina UPF- UAB A partir de z se procede como ya hemos visto. Se puede: ! Calcular el valor de p directamente mediante ordenador " el programa a partir del estadígrafo calcula directamente el valor de p.
! Tomar una decisión a partir de valores críticos mediante tablas " calculamos el estadígrafo y nos aseguramos que dicho estadígrafo se encuentra dentro de la zona de aceptación < valores críticos Si -zcritico< z < zcritico se acepta H0 y por tanto se considera que las diferencias entre la media obtenida y el valor de referencia no son estadísticamente significativas Ej1.: Una cierta población tiene una edad media de 35 años y desviación estándar de 15. En una encuesta se han seleccionado 100 individuos, con una edad media de 33 años. ¿Es esta muestra representativa de la población en relación a la media de la edad? - H0: µ= 35 - Ha: µ ≠ 35 En la muestra observamos la edad media de 35 años. Este valor representa un valor muestral el cual lo queremos comparar con el valor poblacional.
z= x −µ σ/ n = 35 − 33 15 / 100 Estadígrafo. Sirve para: = 1.33 1. Comparar con los valores críticos 2. Comparar con la probabilidad.
Usando programas de ordenador: El valor de p para z=1.33 es de 0.184 Como 0.184 > 0.05, H no puede rechazarse. El valor de la media de edad obtenido en la muestra no es 0 significativamente distinta del valor de referencia.
2n Medicina UPF- UAB Usando tablas: El valor crítico de z, para un contraste bilateral con α=0.05, es 1.96 (encierra dentro el 95% de probabilidad) Como 1.33 < 1.96, H no puede rechazarse ya que el valor del estadígrafo es menor al valor crítico y por lo tanto 0 estamos dentro de la zona de aceptación de la hipótesis nula. El valor de la media de edad obtenido en la muestra no es significativamente distinta del valor de referencia NOTA: observamos que en la fórmula importa coger -1,33 o bien 1,33.
= 33-35 =-1,33. Como la distribución es simétrica, no Desviación estándar poblacional (σ) no conocida: Prueba de t de Student de conformidad En la práctica es muy infrecuente conocer el valor de σ . El valor de la dispersión poblacional suele estimarse a partir de la muestra.
2 s= ∑ (x − x ) i Con dicha estimación, se calcula un estadígrafo t de forma análoga a z cuando conocíamos σ x −µ t= s/ n n −1 El contraste de hipótesis se lleva a cabo usando la distribución t de Student, con n-1 grados de libertad y se suele denominar prueba de t de Student NOTA: cuando conocíamos σ utilizábamos una distribución normal. Cuando no conocemos σ, utilizamos la distribución t de Student ya que deducimos la desviación estándar poblacional a partir de la muestral.
Ej2.: Los fabricantes de un analgésico dicen que su producto hace desaparecer el dolor de cabeza en 16 minutos. Se hace una prueba en 36 pacientes y se observa una media de 18 minutos. La desviación estándar muestral es de 4.5 minutos - H0: µ = 16 - Ha: µ≠ 16 t= x −µ s/ n = 18 − 16 4.5 / 36 = 2.66 Usando programas de ordenador: El valor de p para t=2.66 (35 grados de libertad) es de 0.012 Como 0.012 < 0.05, H puede rechazarse. Puede concluirse que la diferencia observada con el valor de referencia 0 es estadísticamente significativa con un nivel de confianza del 95% y, por tanto, no es debido al azar.
2n Medicina UPF- UAB En los programas de estadística, se pueden llevar a cabo pruebas de t de Student de conformidad, que proporcionan directamente el valor de p.
Ej.: en SPSS Estadígrafo= 1.964 Valor de p= 0.81 gl= grados de libertad tamaño de la muestra-1 10-1=9 Como el valor de p= 0.81 > 0.05 no podemos descartar la H0 NOTA: Cuando se usa un programa de ordenador à H0 puede descartarse cuando p < 0.05 (o el valor de riesgo elegido) Cuando se usan tablas à H0 puede descartarse cuando t > tcrítico 2n Medicina UPF- UAB COMPARAR DOS GRUPOS O TRATAMIENTOS: Podemos encontrarnos ante cuatro posibles situaciones: 1. La varianza poblacional (σ 2) es conocida (muy infrecuente) 2. La varianza poblacional es desconocida y asumimos que dicha varianza es igual en ambos grupos 3. La varianza poblacional es desconocida y asumimos que dicha varianza es distinta en ambos grupos 4. Datos apareados Las situaciones en las que σ es conocida aparecen normalmente en los libros de estadística y nunca en la práctica Varianza poblacional σ2 conocida ! Prueba asumiendo σ conocida Se trata de situaciones excepcionales ya que normalmente no conocemos la varianza poblacional (σ).
Las hipótesis son: - H0: µ1=µ2 " la media poblacional de la población de la que hemos extraído la primera muestra y la media poblacional de la población de donde hemos extraído la segunda muestra son iguales. A nivel poblacional son iguales las medias de las poblaciones.
- Ha: µ1≠µ2 " la media poblacional de la población de la que hemos extraído la primera muestra y la media poblacional de la población de donde hemos extraído la segunda muestra son distintas.
Para calcular el valor de p, debemos calcular un estadígrafo de contraste: A partir de este estadígrafo calcularemos la probabilidad de que lo obtenido ocurra por azar mediante: - Programa de ordenador " nos ofrece el valor de p z= ( x1 − x 2 ) σ2 / n1 + σ2 / n2 directamente - Tablas " valores críticos NOTA: La probabilidad de que H0 sea cierta se calcula usando la distribución normal Ej.: El pH de la sangre umbilical de los recién nacidos en un hospital, tiene una desviación estándar de 0.07. Queremos saber si los neonatos de madres toxicómanas tienen pH menor. Se obtienen dos muestras: 170 madres no-toxicómanas ! pH=7.250 30 madres toxicómanas !pH=7.242 Se observa una diferencia no muy grande de 0.008 superior en las madres no- toxicómanas.
No obstante el pH es un valor fisiológico muy estable.
Realizamos una prueba de contraste de hipótesis para averiguar si dicha diferencia es estadísticamente significativa o es fruto del azar.
2n Medicina UPF- UAB Primeramente se calcula el estadígrafo z substituyendo en la fórmula… ( x1 − x 2 ) z= 2 2 σ / n1 + σ / n2   z= (7.250 − 7.242) 2 2 0.07 / 170 + 0.07 / 30 = 0.577 Estadígrafo de contraste El estadígrafo de contraste no nos dice nada, por eso tenemos que pasar al siguiente paso: Usando programas de ordenador: El valor de p que corresponde a z=0.577, para un contraste bilateral, es 0.564 (probabilidad de que no hubiera ninguna diferencia entre las madres y hubiéramos observado una diferencia tan pequeña por azar seria del 56%) Como 0.564 > 0.05, no podemos descartar H0. Por lo tanto no podremos afirmar que existan diferencias estadísticamente significativas a un nivel de confianza del 95% Usando tablas: buscamos el valor crítico Para un contraste bilateral, con α=0.05, el zcrítico es 1.96 (deja el 2,5% de probabilidad a un lado y el 2,5% al otro).
Como 0.577 < 1.96, no podemos descartar H0. Por lo tanto no podremos afirmar que existan diferencias estadísticamente significativas (a un nivel de confianza del 95%) Varianza poblacional σ2 desconocida: En la práctica es muy infrecuente conocer el valor de σ . El valor de la dispersión suele estimarse a partir de la muestra.
Cuando la varianza poblacional es desconocida podemos trabajar mediante dos estrategias: 1. Prueba de t de Student asumiendo igual varianza! Calcular un estimador conjunto de la varianza poblacional (s2) 2. Prueba de t de Student asumiendo distinta varianza " Utilizarlas independientemente 1. Prueba de t de Student asumiendo igual varianza Cuando hay dos grupos, puede suponerse que la dispersión es igual en las poblaciones de las que proceden.
En este caso t se calcula… t= ( x1 − x 2 ) 2 2 s / n1 + s / n2 s2 es una estimación conjunta de la varianza poblacional, obtenida a partir de la varianza poblacional 1 y 2 como: s2 = SS1 + SS 2 s 2 (n − 1) + s 22 (n2 − 1) = 1 1 n1 + n2 − 2 n1 + n2 − 2 t se contrasta en una distribución t de Student con n1+n2-2 grados de libertad NOTA: para calcular los grados de libertad Muestra 1= 10 indv Muestra 2= 20 indv Distribución de t de Student con 28 grados de libertad (10+20 -2) 2n Medicina UPF- UAB Ej.: Se desea estudiar la homogeneidad de la tensión arterial en dos grupos, uno de edad > 45 y otro edad ≤ 45 Los resultados del estudio fueron: Observamos que hay diferencias ya que la media de tensión arterial en personas >45 años es mayor que en personas ≤ 45 años (84-76). Por lo tanto en la muestra hay un aumento de la tensión arterial en personas>45 años.
A partir de esta tabla y sus conclusiones, realizamos una prueba de contraste de hipótesis para averiguar si ocurre lo mismo en la población.
Se comienza por calcular el estimador conjunto de la varianza poblacional (s2): s12 (n1 − 1) + s 22 (n2 − 1) s = n1 + n2 − 2 2     s2 = 196.(46 − 1) + 121.(54 − 1) = 155.44 46 + 54 − 2 Modo de estimar la varianza poblacional convirtiendo las varianzas de las dos muestras en una sola varianza equivalente a σ A continuación se calcula el estadígrafo de contraste (t): t= ( x1 − x 2 ) s 2 / n1 + s 2 / n2 t= (84 − 76) 155.44 / 46 + 155.44 / 54 = 3.2 Estadígrafo de contraste El estadígrafo de contraste no nos dice nada, por eso tenemos que pasar al siguiente paso " Se contrasta en una distribución t de Student con 46+54-2=98 grados de libertad para calcular el valor de p: Usando programas de ordenador: El valor de p, para un contraste bilateral, de t=3.2 (98 gdl) es 0.002 Como 0.002 < 0.01, podemos descartar H0. Se concluye que existen diferencias estadísticamente significativas a un nivel de confianza del 99%. Deducimos que las personas >45 años tienen una presión arterial superior a personas ≤ 45 años Usando tablas: buscamos el valor crítico Para un contraste bilateral, con α =0.01, tcrítico es 2.58 Como 3.2 > 2.58, podemos descartar H0. Se concluye que existen diferencias estadísticamente significativas a un nivel de confianza del 99%. Deducimos que las personas >45 años tienen una presión arterial superior a personas ≤ 45 Prueba años de t de Student asumiendo distinta varianza Prueba de t de Student para datos apareados 2n Medicina UPF- UAB Este modo de trabajar anterior se aplica suponiendo que las dispersiones de las muestras son iguales. No obstante, no siempre podemos hacer esta suposición ya que nos podemos encontrar con diferencias tan grandes en las dispersiones que deberíamos asumir que son diferentes.
Para asumir que la varianza es igual en las dos poblaciones se tendrá que llevar a cabo un contraste de hipótesis: - H0: σ12 = σ22 " ambas dispersiones son iguales - Ha: σ12 ≠ σ22 " las dispersiones son diferentes Hacer una prueba de contraste de hipótesis para comprobar si las dispersiones de las dos muestras son iguales no es fácil. Por eso se calcula el estadígrafo de F de Fisher pero no es el modo más correcto.
El estadígrafo se obtiene dividiendo ambas varianzas: s12 F= 2 s2 se contrasta con una distribución F de Fisher con n1 y n2 grados de libertad Algunos programas, como SPSS, aplican pruebas específicas, como la Prueba de Levene 2. Prueba de t de Student asumiendo distinta varianza: Se utilizan las varianzas independientemente cuando se asume que la dispersión es distinta en ambas poblaciones.
En este caso t se calcula… ( x1 − x 2 ) t= s12 / n1 + s 22 / n2 En este caso trabajamos con S1 y S2, es decir, con las desviaciones estándar de cada una de las muestras, por lo tanto no tendremos que calcular el estimador conjunto de la varianza.
También se contrasta usando una distribución t de Student, pero los grados de libertad se calculan como el entero más próximo a: 2 1 2 2 2 ⎡ s s ⎤ ⎢ n + n ⎥ 2 ⎦ f = ⎣ 12 −2 2 ⎡ s12 ⎤ ⎡ s 22 ⎤ ⎢ n ⎥ ⎢ ⎥ ⎣ 1 ⎦ + ⎣ n2 ⎦ n1 + 1 n2 + 1 Ej.: Se desea comprobar si el nivel de ácido úrico en sangre es más alto en hombres que en mujeres Los resultados del estudio fueron: Primeramente observamos si hay diferencias. Vemos que la media de ácido úrico es mayor en los hombres que en las mujeres.
A partir de esta tabla y sus conclusiones, realizamos una prueba de contraste   de hipótesis para averiguar si ocurre lo mismo en la población.
Observamos que las varianzas son muy diferentes. Por eso no vamos a asumir que son iguales sino que trabajaremos con varianzas independientes.
2n Medicina UPF- UAB Se calculan los grados de libertad… 2 2 [ (3.24 / 96) + (1.2 / 84)] f= − 2 = 162.08 ≈ 162 2 2 [3.24 / 96] / 97 + [1.21 / 84 ] / 85 ⎡ s12 s 22 ⎤ ⎢ n + n ⎥ 2 ⎦ f = ⎣ 12 −2 2 ⎡ s12 ⎤ ⎡ s 22 ⎤ ⎢ n ⎥ ⎢ ⎥ ⎣ 1 ⎦ + ⎣ n2 ⎦ n1 + 1 n2 + 1 96 hombres 84 mujeres A continuación se calcula el estadígrafo de contraste… t= ( x1 − x 2 ) 2 1 t= 2 2 s / n1 + s / n2 (5.1 − 4.3) 3.24 / 96 + 1.21 / 84 = 3.64 Se contrasta en una distribución t de Student con 162 grados de libertad: Usando programas de ordenador: El valor de p, para un contraste bilateral, de t=3.64 (162 gdl) es 0.0004 Como 0.0004 < 0.01, podemos descartar H0. Se concluye que existen diferencias estadísticamente significativas a un nivel de confianza del 99%.
Usando tablas: buscamos el valor crítico Para un contraste bilateral, con α =0.01, tcrítico es 2.6 Como 3.64 > 2.6, podemos descartar H0. Se concluye que existen diferencias estadísticamente significativas a un nivel de confianza del 99%.
NOTA: Para descartar hipótesis nula siempre buscamos que el valor p sea menor que el riesgo pero que t sea mayor que el valor critico.
Mediante el programa SPSS podemos realizar pruebas de t de Student para muestras independientes.
    Tenemos 2 muestras con 10 indv cada una.
Media muestra 1= 10 Media muestra 2= 12 Desviación estándar muestra 1=1.4142 Desviación estándar muestra 2=1. 6633 - 2n Medicina UPF- UAB Al realizar la prueba de muestras independientes obtenemos una tabla con 2 filas. En la fila de arriba se ha asumido que las varianzas son iguales mientras que en la de abajo que son distintas. Nos debemos fijar en: - - - Grados de libertad: • Asumiendo varianzas iguales = 18 • Asumiendo varianzas distintas= 17.546 Sig. Bilateral: • Asumiendo varianzas iguales = 0.007 • Asumiendo varianzas distintas= 0.007 t: • Asumiendo varianzas iguales = -3.042 • Asumiendo varianzas distintas= -3.042 No siempre va a dar el mismo valor. Por eso siempre quedará la duda de que fila debemos escoger, la que asume una varianza igual o la que asume una varianza distinta.
Para saber cual es la más adecuada nos fijamos en la columna donde pone prueba de Levene: Sig. " probabilidad de que las varianzas sean iguales (H0) Si el valor de p < 0.05, la probabilidad de que las varianzas sean iguales es muy pequeña, podemos descartar H0. Por este motivo solo utilizamos la fila de abajo cuando podemos descartar H0.
En el ejemplo, el valor 0.450 > 0.05, no podemos descartar H0 y por tanto cogemos al fila donde se asume que las varianzas son iguales.
DATOS APAREADOS: En los diseños de datos apareados no se comparan dos grupos (como en los casos anteriores, llamados de grupos independientes) sino dos tratamientos en los individuos de un solo grupo.
NOTA: repasar datos apareados (pág. 14-15)tema 8 antes de seguir leyendo Para comparar los tratamientos en datos apareados se realiza una prueba parecida a la prueba de conformidad pero se construye una nueva variable, que representa las diferencias entre los dos valores observados en cada individuo o pareja de individuos: - xd= x1-x2 Si las diferencias no son estadísticamente significativas, la media de las diferencias a nivel poblacional será 0 y por tanto: - H 0: µ d = 0 - H a: µ d ≠ 0 El estadígrafo t se calcula con la fórmula: t= xd s 2d / n se contrasta frente a una distribución t de Student con n-1 grados de libertad 2n Medicina UPF- UAB Ej.: Se busca comparar la duración de los efectos secundarios de dos colirios A y B. Se administra uno en cada ojo de un mismo paciente (asignando aleatoriamente el ojo derecho o izquierdo para la administración) Se observa una gran variación interindividuo (persona a persona).
Por ejemplo, en la persona 2 el colirio B dura aproximadamente 14 minutos mientras que en la persona 3 dura unos 44.
Si hiciéramos este experimento con muestras independientes, la variación inter- individuo enmascararía las diferencias debido a los colirios.
NOTA: si queremos probar dos medicamentos hay que tener una precaución adicional. Si aplicamos el colirio A en el ojo derecho siempre y el B en el izquierdo, estamos suponiendo que no hay diferencias entre los dos ojos pero puede que no sea así. Para minimizar esto en la práctica mediante un sorteo habrá individuos que se les pone el colirio A en el derecho y en otros en el B. Para que el efecto que tenga entre derecho e izquierdo no tenga sentido.
Volviendo al ejemplo, una vez tenemos la tabla, para calcular si las diferencias observadas son significativas: Se restan ambos valores para obtener B-A y se calcula media y varianza: - Media B-A = 2.42 - Varianza B-A = 2.99 Calculamos el valor de t: t= xd s 2d / n t= 2.42 2.99 / 12 = 4.85 Para un contraste bilateral y 11 grados de libertad (12-1), p= 0.001.
Como 0.001<0.01, podemos descartar H0 y se concluye que las diferencias observadas son estadísticamente significativas a un nivel de confianza del 99%. Por lo tanto, el colirio B tiende a tener más duración que el A, aproximadamente una media 2,4 minutos más.
2n Medicina UPF- UAB Se puede realizar mediante un programa de ordenador como SPSS: TABLA RESUMEN Varianza conocida Varianza desconocida e igual z= t= Varianza desconocida y diferente t= Datos apareados t= ( x1 − x 2 ) σ2 / n1 + σ2 / n2 ( x1 − x 2 ) 2 n1+n2-2 2 s / n1 + s / n2   ( x1 − x 2 ) f s12 / n1 + s 22 / n2 xd n-1 s 2d / n COMPARAR n GRUPOS: Análisis de varianza (ANOVA) El análisis de la varianza (ANOVA) permite comparar la media de dos o más grupos.
El ANOVA usa una estrategia muy utilizada en bioestadística distinta de las pruebas de contrate de hipótesis vistas hasta ahora.
La veremos a través de un ejemplo… 2n Medicina UPF- UAB Ej.: Imaginemos que queremos comparar la altura de hombres y mujeres La altura media en ambos grupos es diferente, pero no sabemos si las diferencias observadas son estadísticamente significativas (existen a nivel poblacional), por este motivo realizamos una prueba de contraste de hipótesis.
La técnica ANOVA compara la dispersión de los valores de altura dentro de los grupos con la dispersión entre los grupos (representando cada individuo mediante la media de su grupo). Compara: - Dispersión intragrupo ! como son de diferentes entre si los hombres o las mujeres con respeto a su altura. No todas las mujeres ni todos los hombres tienen la misma altura, hay una variabilidad la cual la consideraremos como una “variabilidad normal”, es decir, lo que varían los individuos de un modo normal dentro de un grupo.
- Dispersión intergrupo ! diferencia entre la media de altura de los hombres y la media de altura de las mujeres.
Si la dispersión intergrupo es significativamente mayor que la media ponderada de las dispersiones intragrupo, puede descartarse que los grupos sean muestras de la misma población ya que no se ha podido dar al azar esta diferencia.
Si la Dispersión intergrupo es más o menos igual a la Dispersión intragrupo no podemos afirmar que hay diferencias.
NOTA: En ANOVA se llama varianza residual que se debe simplemente a que los individuos son diferente los unos de los otros. Seria como la dispersión intragrupo pero más general.
2n Medicina UPF- UAB ANOVA es una técnica muy ordenada, que compara la dispersión en términos de varianza construyendo una tabla: Calculamos la suma de cuadrados de intergrupo e intragrupo.
Una de las características de ANOVA es que suma dando SS total(suma de cuadrados totales).
No obstante, no podemos comparar directamente una dispersión con la otra, por lo tanto tenemos que dividir ente los grados de libertad: - Intergrupo = nº grupos (k) -1 - Intragrupo= nº total indv (n) –nº grupos (k) - Grados de libertad totales= suma gl intragrupo+ gl intergrupo Seguidamente calculamos las medias cuadráticas que es el resultado de dividir la suma de cuadrado por los grados de libertad. Obtenemos una especie de varianza. Poco a poco estamos descomponiendo la varianza en el componente intergrupo y intragrupo.
Para comparar las varianzas tenemos que dividir las medias cuadráticas de intergupo/ MS intragrupo obteniendo un Cociente (F). Este va a ser nuestro estadígrafo el cual tiene un significado muy clave ya que nos dice cuantas veces es mayor la varianza intergrupo respecto a la intragrupo.
2n Medicina UPF- UAB El cociente entre las varianzas (F) expresa cuantas veces es mayor la varianza intergrupo con respecto a la intragrupo Si es mucho mayor, la probabilidad de que ocurra únicamente por azar será muy pequeña y podremos considerar la diferencia de las medias como significativa ya que podremos descartar H0.
Los valores de F obtenidos en la tabla ANOVA se contrastan usando una distribución de probabilidad de Fisher y de esta manera calculamos la probabilidad de que únicamente sea por azar.
La distribución de probabilidad de Fisher depende de dos valores de grados de libertad: Solo tiene valores positivos y depende de 2 grados de libertad.
Si esto lo vemos en SPSS veremos: Grados de libertad: - Intergrupo à nº grupos (k) -1 = teníamos 4 grupos (madres que han dado a luz en diferentes trimestres); (4-1=3) - Intragrupo ! nº total indv (n) –nº grupos= 6016- 4= 6012 2n Medicina UPF- UAB Observamos un valor de F= 1.242. Este valor nos indica que la variación que hay en la edad de las madres debido al trimestre que dan a luz es 1.2 mas grande que la variación de la edad de las madres dentro de cada uno de los trimestre. Esta diferencia es pequeña, de hecho cuando hemos calculado la probabilidad (sig.) de que por azar haya esta diferencia hemos obtenido un valor de 0.293. Como 0.293> 0.05, no podemos rechazar H0, por lo tanto consideramos que el trimestre no es significativo.
Ej.: Se mide el tiempo de coagulación en 24 animales alimentados con 4 dietas distintas (A, B, C, D), obteniendo los siguientes resultados: La estrategia de ANOVA es comparar la media ponderada de la dispersión de los valores dentro de cada muestra (varianza intragrupos) con la dispersión entre las medias muestrales (varianza intergrupo) Variación intergrupo= 228 Variación intragrupo= 112 Varianza total= 340 Grados de libertad: - Intergrupo= nº grupos (k) -1 = 4-1= 3 - Intragrupo= º total indv (n) –nº grupos= 24-4= 20 - Total= 20+3=23 F= 13,6 La diferencia entre las medias es de 13,6 veces más grande que las proporciones de las variaciones que observamos dentro de cada grupo.
El valor de F se compara con una distribución Fisher con 3 y 20 grados de libertad.
El valor de p < 0.05 y por tanto la H0 puede rechazarse 2n Medicina UPF- UAB En SPSS: Sig=0.000, esto no se interpreta como que la probabilidad =0 (porque nunca va a dar 0) sino que la probabilidad es menor: - 0.0005 " si suponemos que el programa redondea.
- 0.001 " sin suponer que le programa redondea.
NOTA: Las dos maneras son correctas para el profesor.
Realmente, el ANOVA es una familia de técnicas muy amplia, que tiene muchas variantes.
La técnica descrita en este tema se denomina ANOVA de un factor (en inglés “one-way ANOVA”) y sirve para comparar el valor de las medias de más de dos grupos definidos por una variable.
En terminología ANOVA, la variable cualitativa que define los grupos es un “factor”: el ANOVA estudia cómo influye el factor sobre la variable cuantitativa En otras variantes de ANOVA pueden evaluarse simultáneamente el efecto de más de un factor como veremos más adelante (Tema 11) El resultado final de un análisis ANOVA puede ser rechazar la hipótesis nula, que nos decía que no existían diferencias entre las medias: - H0: µ1=µ2=µ3=…=µn - Ha: µi=µj para algún par i,j Mediante ANOVA averiguamos si las medias de cada grupo son todas iguales o si hay alguna distinta. No obstante, si hay alguna media distinta, ANOVA no informa de cual, por este motivo, Por este motivo, se realiza otra prueba después de ANOVA para identificar las medias que sean diferentes entre si. Se llama método post-hoc o a posteriori. El objetivo es identificar que parejas de medias muestran diferencias estadísticamente significativas.
Con frecuencia, nos interesa saber qué par de medias son diferentes Para ello se llevan a cabo pruebas que se denominan comparaciones post-hoc o a posteriori, que tienen como finalidad determinar qué parejas de medias muestran diferencias estadísticamente significativas.
Existen diversas pruebas que nos ofrece SPSS: ! Prueba de Tuckey o HSD (Honest Significative Difference) ! Prueba de Bonferroni 2n Medicina UPF- UAB Ej.: salida en SPSS (ejemplo de comparación 4 dietas) Multiple Comparisons Dependent Variable: Tcoag Tukey HSD 70,00 (I) dieta 1,00 65,00 g a o c T 2,00 60,00 3,00 4,00 1,00 2,00 3,00 dieta 4,00 (J) dieta 2,00 3,00 4,00 1,00 3,00 4,00 1,00 2,00 4,00 1,00 2,00 3,00 Mean Difference (I-J) Std. Error -5,00000 1,90029 -2,33333 1,90029 ,00000 1,80278 5,00000 1,90029 2,66667 1,69967 5,00000* 1,58990 2,33333 1,90029 -2,66667 1,69967 2,33333 1,58990 ,00000 1,80278 -5,00000* 1,58990 -2,33333 1,58990 Sig.
,070 ,617 1,000 ,070 ,418 ,024 ,617 ,418 ,474 1,000 ,024 ,474 95% Confidence Interval Lower Bound Upper Bound -10,3188 ,3188 -7,6521 2,9855 -5,0459 5,0459 -,3188 10,3188 -2,0906 7,4239 ,5500 9,4500 -2,9855 7,6521 -7,4239 2,0906 -2,1167 6,7834 -5,0459 5,0459 -9,4500 -,5500 -6,7834 2,1167 *. The mean difference is significant at the .05 level.
Hemos representado el resultado de las dietas. Si comparamos dieta con dieta nos dice que ninguna diferencia es significativa. Casi ninguna sig < de 0.05, pero en el caso de comparar la dieta 2 y 4 son los entre si tiene diferencias significativas ya que sig < de 0.05 en concreto 0.024. Lo interesante de estas pruebas es que nos van a identificar las parejas de grupos cuya diferencias entre si son estadísticamente significativas.
...