PRÁCTICA 10.2 (2015)

Apunte Español
Universidad Universidad Pompeu Fabra (UPF)
Grado Medicina - 2º curso
Asignatura Bioestadística
Año del apunte 2015
Páginas 9
Fecha de subida 20/04/2016
Descargas 4
Subido por

Vista previa del texto

Bioestadística 2n Medicina UPF-UAB PRÁCTICA 10.2: Correlación y análisis de regresión Objetivos: - Realizar análisis de regresión logística usando SPSS y R.
Interpretar los modelos obtenidos Datos: Para esta práctica se usarán datos extraídos de “Hosmer and Lemeshow (2000) Applied Logistic Regression: Second Edition. John Wiley & Sons Inc. ”. La tabla contiene datos sobre el peso al nacer de 189 niños, en los que se han recogido diversos datos relativos a la madre. Las variables más importantes son: Nombre LOW AGE LWT RACE Significado bajo peso al nacer (< 2500) edad madre peso madre antes embarazo raza de la madre Tipo binaria (0=no, 1=si) años libras cualitativa (1=blanca, 2=negra, 3=otra) SMOKE PTL HT UI FTV BWT Fuma antecedentes de parto prematuro hipertensión irritabilidad uterina numero visitas al médico en el primer trimestre peso del niño Peso binaria (0=no, 1=si) binaria (0=no, 1=si) binaria (0=no, 1=si) binaria (0=no, 1=si) cuantitativa (1, 2...) gramos Los datos se encuentran en la carpeta de la práctica 10, en un formato de texto adecuado para R (lowbwt.txt) y en Excel (lowbwt.xls), más adecuado para SPSS.
! Análisis de regresión logística en R 1. Importa la tabla de datos con el comando read.table (): > bwtdata <- read.table ("c:/Temp/lowbwt.txt", header=TRUE, skip=4) 2. Para obtener el modelo se usará el comando glm (generalized linear model ), en vez de lm, especificando family=binomial (link=logit) para decir que usaremos una transformación logística y que el término de error tiene sigue una distribución binomial. La sintaxis es: > model <- glm (LOW~SMOKE, family=binomial(link=logit), data=bwtdata) 3. Los datos más importantes del modelo se visualizan con el comando > summary (model) Bioestadística 2n Medicina UPF-UAB Call: glm(formula = LOW ~ SMOKE, family = binomial(link = logit), data = bwtdata) Deviance Residuals: Min 1Q Median 3Q Max -1.0197 -0.7623 -0.7623 1.3438 1.6599 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -1.0871 SMOKE 0.7041 0.2147 -5.062 4.14e-07 *** 0.3196 2.203 0.0276 * --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 234.67 on 188 degrees of freedom Residual deviance: 229.80 on 187 degrees of freedom AIC: 233.8 Number of Fisher Scoring iterations: 4 R utiliza como criterio de calidad del modelo el valor de AIC (Akaike’s information criterion). El valor absoluto de AIC no tiene importancia, pero puede usarse para comparar dos modelos sobre el mismo conjunto de datos. Cuanto menor sea el valor del AIC, mejor es el modelo.
! Análisis de regresión logística con SPSS: Usa el comando Análisis >>Regresión>>Binaria logística.
Protocolo: El objetivo es detectar variables que muestren una asociación significativa con la presencia de bajo peso al nacer.
Bioestadística 2n Medicina UPF-UAB 1. Construye (usando R y SPSS) un modelo en el que la variable dependiente sea LOW y la variable predictora sea SMOKE.
¿El modelo es significativo? Anota los coeficientes del modelo.
¿Qué significado tienen? Calcula el OR con su IC95% (calcula los valores extremos del intervalo sumando y restando al coeficiente 1.96xSE). Compara los resultados obtenidos con R y SPSS y comenta las diferencias.
- En R: >bwtdata <- read.table (“c:/lowbwt.txt”, header=TRUE, skip=4) >model <- glm (LOW~SMOKE, family=binomial(link=logit), data=bwtdata) >summary (model)   Call: glm(formula = LOW ~ SMOKE, family = binomial(link = logit), data = bwtdata) Deviance Residuals: Min 1Q Median 3Q Max -1.0197 -0.7623 -0.7623 1.3438 1.6599 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -1.0871 SMOKE 0.7041 0.2147 -5.062 4.14e-07 *** 0.3196 2.203 0.0276 * --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 234.67 on 188 degrees of freedom Residual deviance: 229.80 on 187 degrees of freedom AIC: 233.8 Number of Fisher Scoring iterations: 4 Bioestadística 2n Medicina UPF-UAB - En SPSS: Variables en la ecuación B Paso 1 a SMOKE Constante - E.T.
Wald gl Sig.
Exp(B) ,704 ,320 4,852 1 ,028 2,022 -1,087 ,215 25,627 1 ,000 ,337 Análisis y resultados El modelo es significativo ya que p=0,028 (<0,05), por lo que podemos rechazar H0 y afirmar que existe una relación entre ambas variables: madre fumadora y bajo peso del bebé al nacer.
Coeficientes: o Alfa = (low, bajo peso al nacer, ordenada al origen, constante) = -1,087 o B/Beta = (smoke, fuma, pendiente) = 0,7041 Ecuación: y(x) = 0,741x-1,087 Si efectuamos transformación logística a escala logarítmica, entonces ecuación: logit(p(smoke)) = 0,741*smoke - 1,087 OR = Exp(Beta) = 2,022:   Como x es una variable dicotómica el valor de exp(beta) (= Odds Ratio) nos indica el aumento del riesgo de que el bebé tenga bajo peso si la madre fuma.
El valor de OR indica que cuando la mujer fuma hay un 2,022 más (el doble) de probabilidad de que el niño nazca con bajo peso que cuando la mujer no fuma. Por lo que hay el doble de riesgo de que el niño nazca con bajo peso si la madre fuma.
Distinguimos dos tipos de intervalos distintos, según escala a la cual trabajamos: a. IC 95% COEF Beta (beta -1,96*SE, beta + 1,96*SE) = escala lineal (usando SE = 0,3196 obtenido en R) b. IC 95% OR ( ?, ?) = escala logarítmica a) 1,96*0,3196 = 0,626 Min = 0,7041 - 0,626 = 0,0781 Max = 0,7041 + 0,626 = 1,3301 NOTA: ¿De donde obtenemos los valores 1’96 y SE? 1’96 = desviación IC del 95% 0,3196 = error estándar, SE Bioestadística 2n Medicina UPF-UAB b) Intervalo sobre exp(beta): OR±z (siendo z el valor de 1,96*0,3196 a escala logarítmica) De modo que para calcular Min y Max de OR, es decir, para obtener el IC de OR no se puede sumar o restar porque no es la escala a la cual funciona OR. Se debe hacer el exponencial de todo el conjunto: beta±1,96*0,3196 Min = exp (0,0781) = e0,0781 =1,08 Max = exp (1,3301) = e1,3301 =3,78 NOTA: Para comprobar que IC realmente es significativo debemos comprobar que este IC no contenga entre sus valores la hipótesis nula (Recordar que en OR H0 = 1).
NOTA: El valor de p es el mismo usando tanto SPSS como R, pero en algunos valores obtenemos más decimales en R que con SPSS debido a que en el segundo han redondeado más.
Por ejemplo: p(R)= 0,0276 p(SPSS)= 0,028 2. Repite la operación usando AGE como variable independiente y anota los resultados.
¿En qué se diferencia la interpretación de los coeficientes en ambos casos? Compara ambos modelos.
- En R: >model <- glm (LOW~SMOKE, family=binomial(link=logit), data=bwtdata) >summary (model)   Call:   glm(formula  =  LOW  ~  AGE,  family  =  binomial(link  =  logit),  data  =  bwtdata)   Deviance  Residuals:            Min              1Q      Median              3Q            Max       -­‐1.0402    -­‐0.9018    -­‐0.7754      1.4119      1.7800       Coefficients:     Bioestadística 2n Medicina UPF-UAB Estimate  Std.  Error  z  value  Pr(>|z|)   (Intercept)    0.38458        0.73212      0.525        0.599   AGE                  -­‐0.05115        0.03151    -­‐1.623        0.105   (Dispersion  parameter  for  binomial  family  taken  to  be  1)   Null  deviance:  234.67    on  188    degrees  of  freedom   Residual  deviance:  231.91    on  187    degrees  of  freedom   AIC:  235.91   Number  of  Fisher  Scoring  iterations:  4   - En SPSS: - Resultados y análisis: El modelo no es significativo ya que p=0,105 (>0,05), por lo que no podemos rechazar la H0 y no podemos afirmar que existe una relación entre las variables: edad de las madres y bajo peso al nacer.
Coeficientes: o A = (low, bajo peso al nacer, ordenada al origen, constante) = 0,385 o B = (age, edad de las madres, pendiente) = -0,051 Ecuación: y(x) = -0,051x+0,385 Si efectuamos transformación logística a escala logarítmica, entonces ecuación: logit(p(age)) = -0,051*age + 0,385 OR = Exp(B) = 0,95 El valor de OR indicaría (si fuera significativo) que por cada año de la madre hay un 0,95 más de probabilidad de que el niño nazca con bajo peso.
Calculamos los intervalos para demostrar que OR no es significativo: a. IC 95% COEF Beta (beta -1,96*SE, beta + 1,96*SE) = escala lineal (usando SE = 0,03151 obtenido en R) b. IC 95% OR ( ?, ?) = escala logarítmica Bioestadística 2n Medicina UPF-UAB a) 1,96*0,03151 = 0,0618 COEF beta ± 0,618 obtendremos máximo y mínimos => lineal Min = -0,051 – 0,0618 = -0,1128 Max = -0,051 + 0,0618 = 0,0108 b) OR±z para calcular Min y Max => logarítmico Min = exp(-0,1128) = 0,893 Max = exp(0,0108) = 1,011 Intervalo OR contiene 1 " no podemos rechazar H0 NOTA: De nuevo usando el código R obtenemos más decimales que con el programa SPSS.
- Comparación modelos 1 y 2: Cuando comparamos ambos modelos observamos que no hay relación significativa, así que mientras fumar es un factor de riesgo para que nazcan niños con bajo peso, la edad de las madres no tiene una relación con el peso del niño, a pesar que el valor de OR sea de 0,95 lo que indicaría, en caso de que fuera significativo, que sería un factor de protección aunque muy leve. Además esta última OR, en su intervalo de confianza incluye el valor de 1 lo que también nos impide rechazar la hipótesis nula.
3. Esta tabla contiene los resultados de un estudio de tipo casos-controles.
¿Podrías predecir la probabilidad de que una mujer de a luz un niño con peso bajo? ¿Por qué? En estudios de casos y controles, NO puede estimarse el valor de (alfa) y el modelo NO puede usarse para hacer predicciones de la probabilidad Para poder predecir la probabilidad de que una mujer dé a luz a un niño con bajo peso deberíamos realizar un estudio de cohortes, y así estimar el valor de alfa poblacional partiendo de alfa de nuestra muestra.
Bioestadística 2n Medicina UPF-UAB CUESTIONARIO: 1.
(Modelo con variable SMOKE) ¿El modelo es significativo? Anota los coeficientes del modelo. ¿Qué significado tienen? Calcula el OR con su IC95% (calcula los valores extremos del intervalo sumando y restando al coeficiente 1.96xSE). Compara los resultados obtenidos con R y SPSS y comenta las diferencias El modelo es significativo. Esto lo deducimos a partir de p=0,028 (<0,05), lo cual nos indica que podemos rechazar H0 y afirmar que existe una relación entre ambas variables: madre fumadora y bajo peso del bebé al nacer.
Coeficientes: • Alfa = -1,087 • Beta = 0,7041 Ecuación: y(x) = 0,741x-1,087 OR = Exp(Beta) = 2,022 Intervalo sobre exp(beta): OR±z De modo que para calcular Min y Max de OR, es decir, para obtener el IC95% de OR no se puede sumar o restar porque no es la escala a la cual funciona OR. Se debe hacer el exponencial de todo el conjunto: beta±1,96*0,3196 (perteneciente al intervalo IC95% para eficiente Beta): - Min = exp (0,0781) = e0,0781 =1,08 - Max = exp (1,3301) = e1,3301 =3,78 Resultados R versus resultados SPSS: En lo que se refiere al valor de p se observa que es el mismo al utilizar tanto SPSS como R. Tal vez existe una pequeña diferencia (p(R)= 0,0276 y p(SPSS)= 0,028) debida a que SPSS redondea más los decimales. Entre el resto de valores podemos destacar un caso similar al anterior en lo que se refiere al valor de la error estándar (SE(R)=0,3196 y SE(SPSS)= 0.320), estando SE más redondeado también en SPSS.
2.
(Modelo con variable AGE) ¿El modelo es significativo? Anota los coeficientes del modelo. ¿Qué significado tienen? Compara los resultados obtenidos con R y SPSS y comenta las diferencias.
¿En qué se diferencia la interpretación de los coeficientes con respecto al caso anterior? Compara este modelo con el anterior.
El modelo no es significativo. Esto lo deducimos a partir de p=0,105 (>0,05), lo cual nos indica que no podemos rechazar la H0 y por lo tanto no podemos afirmar que existe una relación entre las variables: edad de las madres y bajo peso al nacer.
Coeficientes: Bioestadística 2n Medicina UPF-UAB • Alfa: LOW = peso bajo al nacer, ordenada al origen = 0,385 • B SMOKE = madre fuma, pendiente = -0,051 Ecuación: y(x) = -0,051x+0,385 Resultados R versus resultados SPSS: Igual que en el caso anterior observamos diferencias en el redondeo de SPSS, or ejemplo, en el caso del error estándar (SE(R)= 0.03151 y SE(SPSS)= 0,032).
No obstante, en este el valor de p es igual en ambos programas.
Interpretación coeficientes respecto caso 1 (comparación modelos 1 y 2): Tras trabajar con ambos modelos y compararlos se observa lo siguiente que no existe relación significativa entre ambos modelos. Mientras que fumar supone un aumento de las probabilidades de que nazcan niños con bajo peso, la edad de las madres no tiene una relación con el peso del niño. A pesar que el valor de OR sea de 0,95 en el segundo caso, no lo podemos relacionar con SMOKE porque p>0,05. Además, la OR de este segundo modelo incluye el valor de 1 en su IC95% (0,893, 1,011), hecho que nos también nos permite concluir que no puede rechazarse la hipótesis nula.
3. Esta tabla contiene los resultados de un estudio de casos-controles. ¿Podrías usar los modelos que has obtenido para predecir la probabilidad de que una mujer de a luz un niño con peso bajo? ¿Por qué? A pesar de que exp(beta) es válido tanto para cohortes como casos y controles, en el caso de alfa en estudios de casos y controles no puede estimarse su valor porque este sale "deformado" debido a que las proporciones de la muestra son artificiales. De modo que en estos casos el modelo no puede usarse para hacer predicciones de la probabilidad.
Para poder predecir la probabilidad de que una mujer dé a luz a un niño con bajo peso debería realizarse un estudio de cohortes. En estos estudios la proporción de la muestra es igual a la de la población, de modo que el valor de alfa no está distorsionado.
...