PRÁCTICA 11.2 (2015)

Apunte Español
Universidad Universidad Pompeu Fabra (UPF)
Grado Medicina - 2º curso
Asignatura Bioestadística
Año del apunte 2015
Páginas 8
Fecha de subida 20/04/2016
Descargas 4
Subido por

Vista previa del texto

Bioestadística 2º Medicina UPF-UAB Práctica 11.2: ANOVA de dos factores. Regresión logística multivariante Objetivos: Revisar las técnicas ANOVA y Regresión logística desde un punto de vista multivariante, usando SPSS.
Toma nota de todo lo que haces y contesta a las preguntas que aparecen marcadas con una “Q”. Cuando termines la práctica completa el cuestionario 11.2.
ANOVA de dos factores Datos: Un servicio de atención domiciliaria a ancianos quiere saber si la duración de las visitas depende de la enfermera a cargo o de la hora del día. Se recogen datos para 4 enfermeras (1, 2, 3 y 4) y 4 horarios (1=8:00, 2=12:00, 3=15:00, 4=21:00). Estos datos se han incluido en el archivo visitas.xls que encontrarás en la carpeta de prácticas.
Variable Y: duración de la visita Variables X: enfermera a cargo – hora del día Protocolo: 1. Importa los datos en SPSS y utiliza el comando analizar>>>modelo lineal general>>>univariante para hacer un ANOVA de dos factores. Comienza por estudiar el modelo completo, considerando el efecto de interacción.
Bioestadística 2º Medicina UPF-UAB Q: ¿Qué factores son estadísticamente significativos? Pruebas de los efectos inter-sujetos Variable dependiente: duración Suma de Origen cuadrados tipo III gl Media cuadrática F Sig.
Modelo corregido 2750,146a 15 183,343 15,252 ,000 Intersección 32292,187 1 32292,187 2686,352 ,000 enfermera 1471,562 3 490,521 40,806 ,000 horario 1171,229 3 390,410 32,478 ,000 enfermera * horario 107,354 9 11,928 ,992 ,466 Error 384,667 32 12,021 Total 35427,000 48 3134,812 47 Total corregida a. R cuadrado = ,877 (R cuadrado corregida = ,820) La interacción enfermera-horario no es significativa, por lo que es irrelevante el horario en el que atienda una misma enfermera.
Pero sí que es significativa la relación entre la enfermera que te atiende y la duración de la visita así como la relación entre el horario en el que te atienden y la duración de la visita.
2. En el caso de que algún factor no sea estadísticamente significativo, elimínalo del modelo (opción Modelo. Después selecciona Personalizado y los factores que quieras incluir).
Bioestadística 2º Medicina UPF-UAB Pruebas de los efectos inter-sujetos Variable dependiente: duración Suma de Origen cuadrados tipo III gl Media cuadrática F Sig.
Modelo corregido 2642,792a 6 440,465 36,704 ,000 Intersección 32292,188 1 32292,188 2690,902 ,000 horario 1171,229 3 390,410 32,533 ,000 enfermera 1471,563 3 490,521 40,875 ,000 Error 492,021 41 12,001 Total 35427,000 48 3134,812 47 Total corregida a. R cuadrado = ,843 (R cuadrado corregida = ,820) 3. Centrándote solo en los factores significativos repite el análisis, seleccionando en el diálogo del modelo lineal general la opción “Estimación de parámetros”.
Q: ¿Qué enfermera hace las visitas más cortas y quién las más largas? ¿En qué horario las visitas son más cortas? La enfermera que hace las visitas más cortas es la enfermera 4 la cual coincide con el valor de referencia que se ha escogido de forma aleatoria. Como todos los valores de B son positivos respecto el valor de referencia podemos deducir que nuestro valor de referencia es el valor más bajo ya que contrariamente hubiéramos obtenido valores B negativos.
La enfermera que hace las visitas más largas es la 3 ya que observamos que su valor de B es el más alto respecto al resto de enfermeras. Al mismo tiempo el valor mínimo de duración de sus visitas (12,311) es inferior a la duración máxima de las otras enfermeras.
La hora en la cual las visitas son más cortas es el horario 4 el cual coincide con el valor de referencia siguiendo el mismo razonamiento que en el párrafo 1.
Bioestadística 2º Medicina UPF-UAB Estimaciones de los parámetros Variable dependiente: duración Intervalo de confianza 95% Parámetro B Intersección 10,813 1,323 8,173 [horario=1] 10,917 1,414 [horario=2] 12,083 [horario=3] 11,083 [horario=4] Error típ.
Límite inferior Límite superior ,000 8,141 13,484 7,719 ,000 8,061 13,773 1,414 8,544 ,000 9,227 14,939 1,414 7,837 ,000 8,227 13,939 0a .
t .
Sig.
.
.
.
[enfermera=1] 4,250 1,414 3,005 ,005 1,394 7,106 [enfermera=2] 7,000 1,414 4,950 ,000 4,144 9,856 [enfermera=3] 15,167 1,414 10,724 ,000 12,311 18,023 [enfermera=4] 0a .
.
.
.
.
a. Al parámetro se le ha asignado el valor cero porque es redundante.
NOTA: los valores de referencia se escogen por azar. Si el resto de valores de B son >0, nuestro valor de referencia corresponderá con el valor mínimo posible. No obstante si el valor de B< 0, el valor de B más pequeño corresponderá al que tenga un valor negativo más grande.
  Regresión Logística multivariante Datos: Se usarán los mismos datos ya analizados en la práctica 10. Los puedes encontrar en la carpeta de la práctica 11 en formato Excel (lowbwt.xls).
Protocolo: El objetivo es detectar variables que muestren una asociación significativa con la presencia de bajo peso al nacer, pero en este caso usaremos modelos con más de una variable.
Bioestadística 2º Medicina UPF-UAB Construye usando SPSS un modelo logístico binario en el que la variable dependiente sea LOW y la variable predictora sea SMOKE.
Variables en la ecuación   Paso 1 a B SMOKE Constante E.T.
Wald gl Sig.
Exp(B) ,704 ,320 4,852 1 ,028 2,022 -1,087 ,215 25,627 1 ,000 ,337 a. Variable(s) introducida(s) en el paso 1: SMOKE.
NOTA: Y X B= pendiente Constante= alfa LOW = -1,087 + 0,704·SMOKE B0= riesgo basal= alfa Exp(B) = OR = 2,022 (SIGNIFICATIVO) exp (B) = OR solo cuando nuestra variable independiente es cualitativa dicotómica.
Construye un segundo modelo añadiendo la variable LWT. Esta variable representa al peso de la madre en el embarazo. Compara ambos modelos.
Variables en la ecuación   Paso 1 a SMOKE LWT Constante B E.T.
Wald gl Sig.
Exp(B) ,677 ,325 4,343 1 ,037 1,967 -,013 ,006 4,788 1 ,029 ,987 ,622 ,796 ,611 1 ,435 1,863 a. Variable(s) introducida(s) en el paso 1: SMOKE, LWT.
Bioestadística 2º Medicina UPF-UAB LOW = 0,622 + 0,677·SMOKE – 0,013·LWT Exp(B)SMOKE = ORSMOKE = 1,967 (SIGNIFICATIVO) Exp(B)LWT = ORLWT = 0,987 (SIGNIFICATIVO) Cuantas más variables se estudien, más información de la variable independiente siempre y cuando estas variables sean estadísticamente significativas y la bondad de ajuste (que cantidad de la Y es explicada).
Añade también la variable AGE y vuelve a comparar el modelo.
  Variables en la ecuación   Paso 1 a SMOKE B E.T.
Wald gl Sig.
Exp(B) ,671 ,326 4,237 1 ,040 1,956 LWT -,012 ,006 3,915 1 ,048 ,988 AGE -,039 ,033 1,420 1 ,233 ,962 Constante 1,368 1,014 1,820 1 ,177 3,928 a. Variable(s) introducida(s) en el paso 1: SMOKE, LWT, AGE.
LOW = 1,368 + 0,671*SMOKE – 0,012*LWT – 0,039*AGE Exp(B)SMOKE = ORSMOKE = 1,956 (SIGNIFICATIVO) Exp(B)LWT = ORLWT = 0,988 (SIGNIFICATIVO) Exp(B)AGE = ORAGE = 0,962 (NO SIGNIFICATIVO) Bioestadística 2º Medicina UPF-UAB CUESTIONES: 1. En el modelo ANOVA completo. ¿Qué factores son estadísticamente significativos? Los factores que son estadísticamente significativos (p<0,05) son: - Enfermera Horario 2. ¿Qué enfermera hace las visitas más cortas? ¿Qué enfermera hace las visitas más largas? ¿A qué hora las visitas son más cortas? La enfermera que hace las visitas más cortas es la enfermera 4 la cual coincide con el valor de referencia que se ha escogido de forma aleatoria. Como todos los valores de B son positivos respecto el valor de referencia podemos deducir que nuestro valor de referencia es el valor más bajo ya que contrariamente hubiéramos obtenido valores B negativos.
La enfermera que hace las visitas más largas es la 3 porque el valor mínimo de duración de sus visitas (12,311) es inferior a la duración máxima de las otras enfermeras. El valor de B también es el más alto.
La hora en la cual las visitas son más cortas es el horario 4 el cual coincide con el valor de referencia siguiendo el mismo razonamiento que en el párrafo 1.
3. Compara el modelo logístico obtenido usando la variable SMOKE con el nuevo modelo en el que has añadido LWT.
El primer modelo logístico es bivariante mientras que el segundo es multivariante. Comparando los dos modelos logísticos obtenidos observamos que el primer caso podemos predecir la variable LOW a partir de la variable SMOKE ya que están significativamente asociadas. Cuando añadimos una segunda variable X (LWT) observamos que el riesgo basal (B0) varia aumentando de un modelo a otro. Al mismo tiempo tanto B1 (SMOKE) como OD de dicha variable prácticamente no varía, siendo ligeramente más pequeña en el modelo multivariante. En ambos casos SMOKE es una factor de riesgo (OD superior a 1).Hace falta destacar que la variable añadida LWT también muestra una significancia estadística de modo el nuevo modelo explicará más información sobre la variable Y a partir de las dos variables X1 (SMOKE) y X2 (LWT).
En conclusión ambas variables tienen una asociación estadísticamente significativa con la variable LOW, por lo tanto dicho modelo con las dos variables será mejor que el anterior ya que el objetivo es hacer un modelo para predecir la variable Y (LOW) teniendo en cuenta el mayor número de variables significativamente asociadas a la variable dependiente LOW.
Bioestadística 2º Medicina UPF-UAB 4. Compara el modelo logístico obtenido usando la variable SMOKE + LWT con el nuevo modelo en el que has añadido AGE.
¿Qué modelo de estos tres crees que es el más adecuado? Justifica tu respuesta.
Comparando ambos modelos logísticos observamos que nuevamente el riesgo basal (B0) aumenta de un modelo a otro. Al mismo tiempo observamos que los valores de B1 (SMOKE) y B2 (LWT) prácticamente se mantienen constantes en ambos modelos incluso sus exponentes de Beta correspondientes.
En el tercer modelo la nueva variable añadida AGE no tiene una asociación estadísticamente significativa con la variable LOW de manera que no tendría sentido incluirla en el modelo para el estudio del riesgo de que un niño nazca con bajo peso al nacer.
El mejor modelo de los tres obtenidos es el segundo ya que ambas variables X están estadísticamente asociadas con la variable Y. No debemos construir nunca un modelo que incorpore variables cuya contribución no es estadísticamente significativa. Por este motivo ante variables no asociadas, como ocurre en el modelo 3 con la variable AGE, se deberían eliminar. Nos interesa usar el mayor número de variables para predecir la variable LOW pero únicamente aquellas que estén relacionadas significativamente.
...