PRÁCTICA 10.1 (2015)

Apunte Español
Universidad Universidad Pompeu Fabra (UPF)
Grado Medicina - 2º curso
Asignatura Bioestadística
Año del apunte 2015
Páginas 11
Fecha de subida 20/04/2016
Descargas 5
Subido por

Vista previa del texto

Bioestadística UPF- UAB BIOESTADÍSTICA PRÁCTICA 10.1: Correlación y análisis de regresión Objetivos: - Realizar pruebas de correlación entre variables de tipo cuantitativo usando SPSS y R.
- Interpretar y discutir los resultados de este tipo de pruebas.
- Análisis de regresión lineal simple usando SPSS y R.
Análisis de correlación en R: Importa las variables desde la consola de R o con el comando read.csv () #desde la consola > x <- c(1,2,3,4,5) > y <- c(0.9,2.1,3,3.9,5.4) # desde un fichero CSV > mydata <- read.csv (“c:/data.csv”, header=TRUE, sep=”;”) Obtén un gráfico de dispersión con: > plot (x,y) El coeficiente de correlación de Pearson y la prueba de significancia estadística sobre este, se obtienen con los siguientes comandos: > cor (x,y) = intensidad ! se observa que es elevada r= 0.99 ! elevada intensidad de asociación entre los puntos.
> cor.test (x,y) = probabilidad de que la asociación se dé al azar ! si IC del 95% entonces como p<0.05 tenemos que la asociación lineal sí que es estadísticamente significativa.
Bioestadística UPF- UAB Análisis de regresión en R: Para obtener un modelo lineal, usando y como variable dependiente usa > model <- lm (y~x) Los datos más importantes del modelo se visualizan con el comando > summary (model) Para visualizar los datos y la recta de regresión, usa > plot (x,y) ! puntos > abline(coef(model), col=”red”) ! recta de regresión Análisis de correlación con SPSS: Usa el comando Análisis>>>Correlacion>>Bivariada y selecciona las variables a analizar Bioestadística UPF- UAB Análisis de regresión con SPSS: Usa el comando Análisis >>Regresión>>Linear Protocolo: Analiza los siguientes datos con R y SPSS, aplicando análisis de correlación o de regresión según creas conveniente. Anota todos los resultados en un informe y contesta a las preguntas que se te plantean en el enunciado. Cuando termines, utiliza el informe para completar el cuestionario de la práctica 10.1.
En el caso de análisis de correlación, anota los valores de r y de p, las conclusiones con respecto a la intensidad y significancia estadística y comenta en una línea el aspecto del gráfico de dispersión.
En el caso de análisis de regresión, indica cual es la variable dependiente y cual la predictora, anota la ecuación de la recta obtenida, el valor de r2 , y el resultado de la prueba de ANOVA. Indica si el modelo es de calidad y por qué.
En ambos casos, corta y pega el código de R, ya que se solicitará en el cuestionario.
1. Los datos de la siguiente tabla relacionan la temperatura media anual (en grados Fahrenheit) y la mortalidad por cáncer de mama en algunas regiones europeas (J. Lea, “New observations on distribution of neoplasm of female breast in certain European countries, British Medical Journal, vol I (1965), pp 448-490). Se quiere saber si entre ambas variables existe una relación lineal significativa.
Usamos un análisis de correlación ya que nos permite saber si existe una asociación lineal entre dos variables, la variable mortalidad por cáncer de mama y la variable temperatura media.
Con el código R obtenemos: x <- c(51.3,49.9,50,49.2,48.5,47.8,47.3,45.1,46.3,42.1,44.2,43.5,42.3,40.2,31.8,34.0) y <- c(102.5,104.5,100.4,95.9,87,95,88.6,89.2,78.9,84.6,81.7,72.2,65.1,68.1,67.3,62.5) Bioestadística UPF- UAB >plot (x,y) >cor (x,y) [1] 0.8597758 >cor.test (x,y) Pearson's product-moment correlation data: x and y t = 6.2995, df = 14, p-value = 1.957e-05 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.6344851 0.9504175 sample estimates: cor 0.8597758 Bioestadística UPF- UAB Con el programa SPSS: Resultados y análisis: P = 1.957e-05 r = 0.8597758 Dado que p<0,05, podemos rechazar la hipótesis nula y afirmar que existe una correlación lineal entre temperatura media anual y mortalidad por cáncer de mama en algunas regiones europeas (¡lo que no podemos afirmar es que haya causalidad!). Además, la intensidad observada entre los puntos de la correlación es elevada (0.86 en relación a 1).
2. En la siguiente tabla se comparan los resultados de unos análisis obtenidos con un método manual y con un método automatizado. ¿Puede considerarse que ambos son equivalentes? Usamos un análisis de correlación ya que nos permite saber si existe una asociación lineal entre dos variables.
Con el código R siguiente obtenemos: x <- c(25,40,120,75,150,300,270,400,450,575) y <- c(30,80,150,80,200,350,240,320,470,583) Bioestadística UPF- UAB Hacemos la dispersión para calcular r y p: > plot (x,y) > cor (x,y) [1] 0.9777899 >cor.test (x,y) Pearson's product-moment correlation data: x and y t = 13.1955, df = 8, p-value = 1.036e-06 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.9058321 0.9949085 sample estimates: cor 0.9777899 Con el programa SPSS: Bioestadística UPF- UAB Resultados y análisis: Solo observando la dispersión de los puntos ya podemos ver que ambas variables covarían directamente. De modo que la conclusión a la pregunta muy probablemente será que ambos resultados son equivalentes.
P= 1.036e-06 r= 0.97779 Dado que p<0,05, podemos rechazar la hipótesis nula y afirmar que existe una asociación lineal entre ambos métodos usados (manual y automático). La intensidad es muy alta (0,978), casi se asemeja a r =1, lo cual implicaría que se trata de una asociación lineal perfecta.
3. Parece lógico pensar que los bebes de bajo peso al nacer tiendan a crecer más rápidamente que los que nacen con mayor peso. Para comprobarlo se han recolectado los datos de la siguiente tabla, que proporciona los valores del peso al nacer en 32 bebes y el aumento de peso (como % del peso al nacer) entre los días 70 y 100 de vida. Obtén un modelo de regresión que nos permita predecir el aumento de peso, partiendo del peso al nacer.
Queremos predecir el “Aumento de peso entre días 70-100 (% sobre peso al nacer)” = VARIABLE DEPENDIENTE (beta) A partir de la variable “Peso al nacer “ (constante) = VARIABLE PREDICTORA (alfa) Bioestadística UPF- UAB Con el código R obtenemos: >x  <-­‐   c(72,112,111,107,119,92,126,80,81,84,115,118,128,128,123,116,125,126,122,126,127,86,142,132,87,123,1 33,106,103,118,114,94)   >y  <-­‐   c(68,63,66,72,52,75,76,118,120,114,29,42,48,50,69,59,27,60,71,88,63,88,53,50,111,59,76,72,90,68,93,91)   >model <- lm (y~x) >summary (model) Call: lm(formula = y ~ x) Residuals: Min 1Q -39.472 Median -8.201 -0.761 3Q Max 12.626 29.035 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 167.8701 x -0.8643 19.8832 8.443 2.02e-09 *** 0.1757 -4.920 2.92e-05 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 17.8 on 30 degrees of freedom Multiple R-squared: 0.4465, Adjusted R-squared: 0.4281 F-statistic: 24.2 on 1 and 30 DF, p-value: 2.922e-05 >plot (x,y) >abline(coef(model), col="red")   Bioestadística UPF- UAB Con el programa SPSS:       Resultados y análisis:   La ecuación de la recta obtenida es y = -0.8643x + 167.8701 r2= 0.4465 P=2.922e-05 P<0,05, por lo que podemos rechazar la hipótesis nula y afirmar que existe hay una significancia estadística en el modelo de regresión. R2 es de 0,44 por lo que la variable predictora x, únicamente nos explicará el 44% de las variables dependientes y, mientras que en el resto de caso el valor predecido no será del todo ajustado a la realidad. Además la pendiente de la recta obtenida es -0,86, y al no ser la pendiente 0 también podemos rechazar que no haya relación entre ambas variables.
            Bioestadística UPF- UAB 4. Observa el primer dato de la tabla anterior. ¿Crees que es un punto singular? ¿Se te ocurre por qué podría ser así? Prueba a eliminarlo y repite el modelo comparando los resultados con los del problema 3.
Usamos el código R y obtenemos: >x <c(112,111,107,119,92,126,80,81,84,115,118,128,128,123,116,125,126,122,126,127,86,142,132,87,123,133,1 06,103,118,114,94) >y <- c(63,66,72,52,75,76,118,120,114,29,42,48,50,69,59,27,60,71,88,63,88,53, 50,111,59, 76, 72,90,68,93,91) >model <- lm (y~x) >summary (model) Call: lm(formula = y ~ x) Residuals: Min 1Q Median 3Q Max -40.334 -8.531 -0.243 11.993 30.142 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 189.3097 x -1.0433 20.1224 9.408 2.59e-10 *** 0.1761 -5.924 1.96e-06 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 16.36 on 29 degrees of freedom Multiple R-squared: 0.5475, Adjusted R-squared: 0.5319 F-statistic: 35.09 on 1 and 29 DF, p-value: 1.964e-06 >plot (x,y) >abline(coef(model), col="red") Bioestadística UPF- UAB Con el programa SPSS: Resultados y análisis: La ecuación de la recta obtenida sería: y = -1,0433 + 189.3097 r2 = 0.5475 p = 1.964e-06 El primer dato era un punto singular ya que ahora el valor de p ha disminuido (1,964e-06 < 2.922e-05 y < 0,05), por lo que la relación entre las variables (x,y) es más significativa que antes, a la vez que la bondad de ajuste (r2) también es mayor ahora (0,5475 >0,4465) por lo que ahora la variable x explica hasta el 55% de la variación de y.
...