PRÁCTICA 9 (2015)

Apunte Español
Universidad Universidad Pompeu Fabra (UPF)
Grado Medicina - 2º curso
Asignatura Bioestadística
Año del apunte 2015
Páginas 14
Fecha de subida 20/04/2016
Descargas 7
Subido por

Vista previa del texto

Bioestadística 2º Medicina UPF-UAB PRÁCTICA 9: Pruebas de contraste de hipótesis con variables cuantitativas Objetivos: Identificar situaciones en las que sean aplicables pruebas de contraste de hipótesis para comparar medias.
Seleccionar la prueba de contraste más adecuada en cada caso y ejecutarlas usando los programas SPSS y R.
Interpretar los resultados proporcionados por estos programas para obtener conclusiones de tipo práctico.
NOTA: Esta práctica se llevará a cabo en dos sesiones. Anota los resultados, poniendo especial atención a las instrucciones marcadas con una “Q” y utiliza tus notas para completar el cuestionario de la práctica que encontrarás en el Aula Global.
Protocolo: Ejecuta la aplicación SPSS y abre el fichero “partosT9.sav” que se encuentra en el campus global. Los datos son básicamente los mismos que se utilizaron en prácticas anteriores.
En la práctica anterior se estudió la asociación entre dos variables cualitativas, que dividían los datos en dos categorías: mareold (madre de más de 35 años) y nadonpeq (peso del niño menor que 2Kg). Para ampliar el estudio, se quiere comprobar si existe diferencia en el peso medio de los bebes en los grupos de madres con distinta edad.
Q: Anota en tu informe los objetivos del estudio y plantea formalmente las hipótesis nula y la alternativa.
Objetivo: se quiere comprobar si existe diferencia en el peso medio de los bebes entre los grupos de madres con distinta edad.
Hipótesis nula ! la diferencia entre el peso de los bebés en las madres de más de 35 años y menos de 35 años es debida al azar.
µ1 = µ2 Hipótesis alternativa ! la diferencia entre el peso de los bebés en las madres de más de 35 años y menos de 35 años no se debe al azar.
µ1 = µ2 Selecciona el comando “Analizar>>>Comparar medias>>>Prueba T para muestras independientes”. En el cuadro de diálogo, selecciona la variable “pesnado” en la casilla de Contrastar variables y “mareold” en la casilla de Variable de agrupación. Pulsa el botón Definir grupos... introduce el valor 0 para el primer grupo y 1 para el segundo grupo. Pulsa Aceptar.
NOTA: El visor de resultados muestra el resultado de la prueba de contraste de hipótesis asumiendo: - Varianzas iguales Varianzas diferentes NOTA: 0 = madres menores de 35 1 = madres mayores de 35 Q: Anota en tu informe los resultados y las conclusiones.
Estadísticos de grupo Error típ. de la mareold pesnado N Media Desviación típ.
media ,00 5420 3180,97 507,474 6,893 1,00 596 3204,26 562,846 23,055 Prueba de muestras independientes Prueba de Levene para la Prueba T para la igualdad de medias igualdad de varianzas F Sig.
Varianzas iguales pesnado asumidas 10,398 ,001 t 1,052 gl 6014 Error típ.
95% IC para la de la diferencia Sig.
Diferencia (bilateral) de medias ,293 -23,296 22,148 ,333 -23,296 24,063 diferencia No varianzas iguales -,968 705,511 Inferior 66,714 70,540 Superior 20,122 23,949 El valor de p (sig. bilateral) es en ambos casos, tanto asumiendo varianzas iguales como sin asumir varianzas iguales, mayor de 0,05 (es 0,293 y 0,333 respectivamente). Por tanto, no se puede rechazar la hipótesis nula y no podemos afirmar que exista relación entre el peso de los bebés y la edad de las madres con una confianza del 95%.
El resto de la práctica consiste en comparar medias en diferentes situaciones utilizando primero R y luego SPSS en cada uno de los problemas. Uno de los objetivos de la práctica es que identifiques las diferentes situaciones para que utilices la prueba de contraste de hipótesis adecuada y por lo tanto, los ejercicios no están en ningún orden.
Q: En cada caso deberás anotar en tu informe: • Prueba de contraste de hipótesis utilizada • Resultado de la prueba, incluyendo la tabla ANOVA en aquellos casos en los que se utilice esta técnica.
• Conclusiones y comentarios • Código R usado para hacer la prueba (copia y pega desde la ventana de R) " Análisis con SPSS En SPSS, las pruebas de hipótesis de comparación de medias se acceden a través del menú Analizar>>>Comparación de medias. Hay varias opciones, en concreto nosotros usaremos: # Prueba T para una muestra Corresponde al caso en el cual comparamos un valor dado (Valor de prueba, en terminología SPSS) con la media de una muestra. Debe introducirse la variable cuya media queremos comparar y el Valor de prueba.
# Prueba T para muestras independientes Comparamos las medias de dos muestras.
En SPSS deben introducirse todos los valores en una sola columna y añadir una variable adicional que tome 2 valores para identificar la pertenencia a la muestra A ó B. En todos los casos, SPSS realizará un test t de Student asumiendo varianzas iguales en ambas muestras y otro asumiendo varianzas diferentes.
*La prueba de Levene ayuda a decidir si las varianzas son similares o diferentes. En el cuadro de diálogo se pide que se introduzcan las variables a contrastar y la variable de agrupación, para la cual deben definirse los valores que determinan la pertenencia a los grupos.
# Prueba T para muestras relacionadas Corresponde a las muestras con datos apareados. Los datos deben introducirse en columnas diferentes. A la hora de hacer el análisis pregunta por cuales son las “Variables relacionadas”. Debe responderse con las dos columnas, correspondientes a los datos tomados sobre los mismos individuos.
Valores   Grupo al que pertenece   # ANOVA de un factor Comparamos las medias de n muestras. En SPSS deben introducirse todos los valores en una sola columna y añadir una variable adicional que tome n valores para identificar la pertenencia a la muestra A, B... N. En el cuadro de diálogo deben introducirse las variables “dependientes” y el factor de agrupación.
" Análisis con R Para hacer una prueba de t de Student comienza por definir un vector con cada una de las variables a comparar: Factor de agrupación = grupos   > grupo1 <-c(16, 45, 23, 11, 11, 2) > grupo2 <-c(15, 45, 24, 13, 10, 2) Para hacer el test usa el comando t.test, con diversas opciones según la situación. Puedes usar help (t.test) para ver todas las opciones del comando.
# t-student dos grupos, contraste bilateral, asumiendo varianza distintas: > t.test (grupo1, grupo2) # t-student dos grupos, contraste bilateral, asumiendo igual varianza: > t.test (grupo1, grupo2, var.equal=TRUE) # t-student de conformidad (con respecto a un valor de referencia, que en el ejemplo es 27): > t.test (grupo1, mu=27) # t-student apareado (¡ojo, ambos vectores deben contener el mismo número de valores!): > t.test (grupo1, grupo2, paired=TRUE) Para hacer un ANOVA comienza por crear un fichero CSV de texto como este, usando un editor sencillo (e.g. bloc de notas) o bien desde Excel. Cópialo en el disco duro, por ejemplo en el fichero c:/tmp/dieta.csv (mejor si no usas una carpeta con el nombre muy largo).
tiempo;dieta 100;a 110;a 108;a 99;b 90;b 95;b Cargarlo en R usando el comando: > datos <- read.csv("c:/tmp/dieta.csv",header=TRUE, sep=",") Puedes revisar y editar el contenido usando el comando : > fix (datos) Para hacer ANOVA de un factor, usa el comando aov. Fíjate en la sintaxis del ejemplo; la primera variable es la dependiente (variable cuantitativa) y la segunda el factor (variable cualitativa). ¡ojo, no uses un valor numérico para definir los valores del factor u obtendrás resultados incorrectos! > datos.anova <- aov (tiempo~dieta,datos) > summary (datos.anova) También puedes sacar un gráfico de cajas acostadas para visualizar los datos de un modo muy sencillo, usando: > boxplot(tiempo~dieta,datos) Problemas: 1. Se pensó que un programa de ejercicios regulares moderadamente activos podría beneficiar a los pacientes que habían sufrido previamente un infarto de miocardio. Once individuos participaron en un estudio para comprobar este argumento. Antes de que empezara el programa, se determinó la capacidad de trabajo de cada persona midiendo el tiempo que se tomó para alcanzar una tasa de 160 latidos por minuto mientras caminaba sobre una rueda de andar. Después de 4 semanas de ejercicio controlado, se repitieron las medidas en la rueda de andar y se registró la diferencia en tiempo para cada sujeto.
Resultaron los siguientes datos: 1 2 3 4 5 6 7 8 9 10 11 Antes 7,6 9,9 10,6 9,5 8,4 9,2 6,4 9,9 8,7 10,3 8,3 Después 8,7 10,1 11,8 10,1 9,7 9,1 7,2 10,1 11,2 10,4 8,0 Prueba de contraste de hipótesis utilizada: T de Student con datos apareados, ya que es la que se utiliza para analizar el efecto de un tratamiento en un grupo de individuos, comparando el estado inicial de la muestra con el estado final. En este caso se trata de un grupo de pacientes que había sufrido previamente un infarto, y se les sometió a 25 semanas de ejercicio para valorar una mejora en su función cardíaca.
Resultado de la prueba SPSS: Estadísticos de muestras relacionadas Error típ. de la Media Par 1 N Desviación típ.
media VAR00001 8,9818 11 1,25763 ,37919 VAR00002 9,6727 11 1,34617 ,40589 Correlaciones de muestras relacionadas N Par 1 VAR00001 y VAR00002 Correlación 11 ,809 Sig.
,003 Prueba de muestras relacionadas Diferencias relacionadas 95% Intervalo de confianza Desviación Error típ. de típ.
la media Media Par VAR00001 - 1 VAR00002 - ,80803 para la diferencia Inferior ,24363 Sig.
Superior -1,23375 t -,14807 gl - 10 ,69091 (bilateral) ,018 2,836 Código R: > grupo1<-c(7.6,9.9,10.6,9.5,8.4,9.2,6.4,9.9,8.7,10.3,8.3) > grupo2<-c(8.7,10.1,11.8,10.1,9.7,9.1,7.2,10.1,11.2,10.4,8.0) > t.test (grupo1, grupo2, paired=TRUE) Paired t-test data: grupo1 and grupo2 t = -2.8359, df = 10, p-value = 0.01767 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -1.2337496 -0.1480686 sample estimates: mean of the differences -0.6909091 Conclusiones y comentarios: El valor de p es 0,018 en ambos casos. Como p < 0,05, con un nivel de confianza del 95% podemos rechazar la hipótesis nula y afirmar que el tratamiento aplicado tuvo una repercusión significativa en el grupo de pacientes, mejorando su tasa de latidos por minuto (es decir, función cardíaca y su capacidad de trabajo).
2. Antes, el número medio de ataques de angina de pecho por semana entre los pacientes era de 1.03.
Se está probando un nuevo medicamento y se espera que reduzca esta cifra. Los datos se obtienen mediante la observación de una muestra de 20 pacientes que están utilizando el nuevo medicamento.
1 0 0 1 1 1 0 1 2 0 0 1 0 0 0 1 1 0 0 0 ¿Puede rechazarse la hipótesis de investigación a un nivel de confianza del 99%? (Basado en la información hallada en un anuncio en el American Journal of Nursing, Septiembre de 1990, pág. 13.) Prueba de contraste de hipótesis utilizada: T de Student de conformidad, ya que nos permite saber si la media de una muestra coincide con un valor de referencia. En este caso podremos comparar la media de los infartos por semana que se han estudiado tras probar el nuevo medicamento con la media de infartos por semana que se sabía anteriormente.
Resultado de la prueba SPSS: Estadísticos para una muestra Error típ. de la N anginaspsemana Media 20 Desviación típ.
,5000 media ,60698 ,13572 Prueba para una muestra Valor de prueba = 1.03 95% Intervalo de confianza para la diferencia t gl Sig. (bilateral) Diferencia de medias anginaspsemana -3,905 19 ,001 -,53000 Inferior -,8141 Superior -,2459 Código R: > grupo1<-c(1,0,0,1,1,1,0,1,2,0,0,1,0,0,1,0,0,0,1,1,0,0,0) > t.test (grupo1, mu=1.03) One Sample t-test data: grupo1 t = -4.4613, df = 22, p-value = 0.0001955 alternative hypothesis: true mean is not equal to 1.03 95 percent confidence interval: 0.2217812 0.7347406 sample estimates: mean of x 0.4782609 Conclusiones y comentarios: El valor de p es de 0’0002 (según R). Como p< 0’01 para un nivel de confianza del 99% podemos rechazar la hipótesis nula y afirmar que el nuevo medicamento tenga un efecto significativo en la frecuencia de infartos por semana.
3. En un estudio sobre coagulación, se sospecha que las dietas de los animales de experimentación puede influenciar sobre los resultados. Se ensayan cuatro dietas (A, B, C, D) en 24 animales, que son asignados aleatoriamente a uno de los cuatro tipos de dietas. Los resultados se presentan en la siguiente tabla: A 62 60 63 59 B 63 67 71 64 65 66 C 59 63 60 62 68 68 D 56 62 60 61 63 64 63 59 Prueba de contraste de hipótesis utilizada: ANOVA, ya que nos permite comparar la media de dos o más grupos, y en este caso tenemos 4 grupos en los que queremos comparar su índice de coagulación con la dieta que siguen cada uno de los distintos grupos.
Resultado de la prueba SPSS: ANOVA Coagulacion Inter-grupos Intra-grupos Total Suma de cuadrados 102,000 173,333 275,333 gl 3 20 Media cuadrática 34,000 8,667 23 Código R: > datos <- read.csv("c:/temp/dieta.txt",header=TRUE, sep=";") > fix(datos) > datos.anova <- aov (coagulacion~dieta,datos) > summary (datos.anova) Df Sum Sq Mean Sq F value Pr(>F) dieta 3 102.0 34.00 3.923 0.0236 * Residuals 20 173.3 8.67 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 >boxplot(tiempo~dieta,datos) F 3,923 Sig.
,024 Conclusiones y comentarios: El valor de p es de 0,0236. Como p<0,05, con un nivel de confianza del 95% podemos rechazar la hipótesis nula y afirmar que hay una relación significativa entre los tipos de dieta y el índice de coagulación.
4. Antes, el número medio de días de clínica requeridos por los pacientes de edad antes de que pudieran disfrutar de los cuidados del hogar era de 27 días. Se espera que un nuevo programa reduzca esta cifra. ¿Prueban estos datos la hipótesis de investigación al nivel α = 0.05? 3 5 12 7 22 6 2 18 9 8 20 15 3 36 38 43 (Basado en información hallada en Julianne Oktay and Patricia Volland, "Post-Hospital Support Program for the Frail Elderly and Their Caregivers", American Journal of Public Health, January 1990, págs. 2945.) Prueba de contraste de hipótesis utilizada: T de Student de conformidad, ya que nos permite saber si la media de una muestra coincide con un valor de referencia, y queremos saber si un nuevo programa pode reducir el número de días de clínica requeridos por el paciente respecto al valor medio que se sabía anteriormente, que era de 17 días.
Resultado de la prueba SPSS: Prueba para una muestra Valor de prueba = 17 95% Intervalo de confianza para Diferencia de t diaclínicarequeridos -,472 gl Sig. (bilateral) 15 Código R: > grupo1<-c(3,5,12,7,22,6,2,18,9,8,20,15,3,36,38,43) > t.test (grupo1, mu=17) One Sample t-test ,644 medias -1,56250 la diferencia Inferior -8,6182 Superior 5,4932 data: grupo1 t = -0.47201, df = 15, p-value = 0.6437 alternative hypothesis: true mean is not equal to 17 95 percent confidence interval: 8.381767 22.493233 sample estimates: mean of x 15.4375 Conclusiones y comentarios: El valor de p obtenido es de 0,64. Como p>0,05, para un nivel de confianza del 95% no podemos rechazar la hipótesis nula y por lo tanto no podemos afirmar que el nuevo programa tenga un efecto significativo sobre el tiempo en clínica de los pacientes.
5. Dos grupos de ratas hembra fueron sometidas a dietas con alto y bajo contenido de proteínas y se determinó el aumento de peso en cada rata entre los días 28 y 84. Los resultados fueron: alto contenido Bajo contenido 134 70 146 88 104 91 119 85 124 67 161 98 107 94 83 113 129 97 123 Prueba de contraste de hipótesis utilizada: ANOVA, porque comparamos 2 grupos con distinto número de valores cada uno, y queremos observar el aumento de peso de dos grupos de rata (con un número de ratas distinto en cada grupo) y cada grupo sometido a un tipo de dieta distinta.
Resultado de la prueba SPSS: ANOVA contenidoprot Suma de cuadrados Media gl cuadrática Inter-grupos 5504,571 1 5504,571 Intra-grupos 5875,429 17 345,613 11380,000 18 Total F 15,927 Sig.
,001 Código R:   > datos <- read.csv("c:/temp/Pregunta5.txt",header=TRUE, sep=";") > fix(datos) > datos.anova <- aov (Contenido~Dieta,datos) > summary(datos.anova) Df Sum Sq Mean Sq F value Pr(>F) Dieta 1 5505 Residuals 17 5875 5505 15.93 0.000946 *** 346 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 > boxplot(Contenido~Dieta,datos) Conclusiones y comentarios: El valor de p es de 0,0009. Como p<0,05, para un nivel de confianza del 95% podemos rechazar la hipótesis nula y afirmar que los tipos de dieta están relacionados con el aumento de peso.
6. Se ha realizado un estudio para investigar el efecto del ejercicio físico en el nivel de colesterol en suero. Once sujetos participaron en el estudio. Previo al ejercicio, se tomaron muestras de sangre para determinar el nivel del colesterol de cada sujeto. Después, los individuos fueron sometidos a un programa de ejercicios que se centraba diariamente en carreras y marchas. Al final del periodo de ejercicios, se tomaron nuevamente muestras de sangre y se obtuvo una segunda lectura del nivel de colesterol en suero. De este modo, se dispone de dos conjuntos de observaciones del nivel de colesterol en suero de los sujetos. Se recogieron los siguientes datos: 1 2 3 4 5 6 7 8 9 10 11 Nivel previo mg/dl Nivel posterior mg/dl 182 198 232 210 191 194 200 220 148 138 249 220 276 219 213 161 241 210 480 313 262 226 Prueba de contraste de hipótesis utilizada: T de Student con datos apareados, ya que se trata de muestras relacionadas con el mismo número de valores en cada una de las muestras.
Resultado de la prueba SPSS: Estadísticos de muestras relacionadas Error típ. de la Media Par 1 N Desviación típ.
media nivelprevio 243,0909 11 87,16588 26,28150 nivelposterior 209,9091 11 43,73889 13,18777 Correlaciones de muestras relacionadas N Par 1 nivelprevio y nivelposterior Correlación 11 ,905 Sig.
,000 Prueba de muestras relacionadas Diferencias relacionadas 95% Intervalo de confianza para la Desviació Error típ. de Par nivelprevio - 1 nivelposterior Media n típ.
33,18182 51,06627 la media 15,39706 Código R: > grupo1<-c(182,232,191,200,148,249,276,213,241,480,262) > grupo2<-c(198,210,194,220,138,220,219,161,210,313,226) > t.test (grupo1, grupo2, paired=TRUE) Paired t-test data: grupo1 and grupo2 t = 2.1551, df = 10, p-value = 0.05658 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -1.124967 67.488603 sample estimates: mean of the differences 33.18182 diferencia Inferior -1,12497 Superior 67,48860 Sig.
t 2,155 gl (bilateral) 10 ,057 Conclusiones y comentarios: El valor de p es de 0,05658. Como p>0,05, con un nivel de confianza del 95% no podemos rechazar la hipótesis nula y no podemos afirmar que exista relación entre el ejercicio físico y los niveles de colesterol.
7. Se tratan cuatro grupos de pacientes con diferentes fármacos antihelmínticos. Tras un período de 15 días de tratamiento se lleva a cabo un recuento de larvas vivas en heces. Los resultados fueron: 1/A 279 338 334 198 303 127 402 2/B 378 275 412 265 286 285 379 3/C 172 335 335 282 250 335 168 4/D 381 346 340 471 318 490 395 Prueba de contraste de hipótesis utilizada: ANOVA, ya que nos permite comparar la media de dos o más grupos, y en este caso tenemos 4 grupos en los que queremos comparar el número de larvas vivas en heces respecto al fármaco usado.
Resultado de la prueba SPSS: ANOVA larvasvivas Suma de cuadrados Media gl cuadrática Inter-grupos 64258,679 3 21419,560 Intra-grupos 133748,000 24 5572,833 Total 198006,679 27 Código R: > datos <- read.csv("c:/Pregunta7.csv",header=TRUE, sep=";") > fix (datos) > datos.anova <- aov (larvas~tratamiento,datos) > summary(datos.anova) Df Sum Sq Mean Sq F value Pr(>F) tratamiento 3 64259 21420 3.844 0.0223 * Residuals 24 133748 5573 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 > boxplot(larvas~tratamiento,datos) F 3,844 Sig.
,022 Conclusiones y comentarios: El valor de p es de 0,022. Como p<0,05, con un nivel de confianza del 95% podemos rechazar la hipótesis nula y podemos afirmar que haya una relación significativa entre el tipo de fármaco usado y el número de larvas vivas en heces. Por lo tanto, sí que hay relación entre el fármaco y el número de larvas en las heces antes y después del tratamiento.
...