PRÁCTICA 3.2 (2015)

Apunte Español
Universidad Universidad Pompeu Fabra (UPF)
Grado Medicina - 2º curso
Asignatura Bioestadística
Año del apunte 2015
Páginas 8
Fecha de subida 20/04/2016
Descargas 4
Subido por

Vista previa del texto

13. Para obtener los principales estadísticos descriptivos usa la función summary() con el objeto partos como único argumento. La función summary() también calcula estadísticos descriptivos sobre vectores de valores.
                        14. Calcula estadísticos descriptivos summary () para las columnas PESNADO y GESTACIO por separado. Consulta el final de la sección sobre manipulación de objetos de la “Breve introducción a R” 15. Indica Respeto a los estadísticos descriptivos obtenidos de la variable PESNADO, el umbral de peso que han nacido la mitad (el 50%) de los bebés Estadísticos descriptivos de la variable PESNADO ! El umbral de peso que han nacido el 50% de los bebés es “Median: 3190” 16. Respecto a los estadísticos descriptivos obtenidos de la variable GESTACIO, habrás observado que al tratarse de una variable categórica (factor), estos estadísticos se reducen a una tabla del número de ocurrencias de cada valor distinto (nivel) observado en la variable.
Estadísticos descriptivos de la variable GESTACIO 17. Examina detenidamente cuales son los niveles que toma la variable GESTACIO y aprecia que dos de ellos denotan el mismo caso, Gestacio prolongad y Gestacion prolonga, y que existen 1911 observaciones cuyo nivel no aparece especificado. Esta situación no es excepcional dado que a menudo los datos contienen errores o inconsistencias que debemos corregir antes de proceder a su análisis. Para llevar a cabo esta tarea primero examinaremos más detenidamente los niveles de la variable GESTACIO con la función levels() de esta forma: > levels(partos$GESTACIO) 18. Ahora podemos apreciar más claramente que el primer nivel corresponde a una cadena de caracteres vacía, denotada en R por dos pares de comillas dobles seguidas (""). En casos como este es razonable asumir que este tipo de valor denota el desconocimiento del tipo de gestación para esos 1911 bebés. Estos valores son denominados comúnmente valores perdidos (“missing values”, en inglés). La representación de valores perdidos en los ficheros originales puede variar dependiendo de cómo se generaron los datos, en este caso quedaron especificados por una cadena de caracteres vacía. En R, la convención utilizada para representar valores perdidos es mediante la palabra NA del inglés Not Available. Es conveniente que nuestros valores perdidos sigan esta convención cuando los analizamos en R.
19. Para llevar a cabo este cambio así como la consolidación de los dos niveles distintos, anteriormente mencionados, en uno solo, utilizaremos otra vez la función levels pero en esta ocasión para actualizar los niveles de la variable GESTACIO, de la siguiente forma: > levels(partos$GESTACIO) <- c(NA, "A terme", "Gestacio prolongada", "Gestacio prolongada", "Prematur") 20. Llama de nuevo a la función summary() sobre la variable GESTACIO y observa el cambio en la tabulación de los valores distintos.
21. En R puedes eliminar los casos problemáticos convirtiendo todos los valores de pesos de niños por debajo de un cierto umbral en valores perdidos. Por ejemplo, para eliminar los casos de niños con peso por debajo de 300 gramos: #copia la variable a un vector > noupes <- partos$PESNADO 22. #asigna a todos los valores menores de 300 con el código NA (missing value) > mascara <- noupes < 300 > noupes[mascara] <- NA 23. Ahora puedes usar el vector “noupes” para obtener un histograma y un gráfico de caja usando los comandos “hist” y “boxplot”. Si quieres puedes ver la página de ayuda de estos comandos para usar otras opciones de visualización que no sean las opciones por defecto.
# puedes usar help (hist) o help (boxplot) para ver otras opciones.
> hist(noupes) > hist(noupes,50) > boxplot(noupes) > boxplot(noupes, col="red")                         Gráfico de caja Histograma     24. Repite las mismas operaciones para la edad de las madres. Repetiremos el diagrama de cajas acostadas para la edad de las madres, agrupadas por trimestres de partos que obtuvimos en SPSS.
Para ello obtén un nuevo vector con las edades de las madres agrupadas por trimestre, usando el comendo: > nouedat <- split(partos$EDATMARE,partos$TRIMESTR) > boxplot(nouedat)           COMENTARIO:                 QUESTIONARIO:     1. Imagina que te encargan hacer un estudio sobre los niños nacidos en Barcelona en este período. ¿Los datos de esta tabla son una muestra adecuada? ¿Por qué? No, ya que en esta tabla solo se están teniendo en cuenta los niños nacidos en el Hospital del Mar, mientras que el estudio encargado es sobre Barcelona, en la cual hay muchos más hospitales. Por lo tanto, no sería una muestra representativa de la población de Barcelona.
2. ¿Por qué crees que algunos datos de peso de los niños tienen un valor de 0?. Cuando has repetido el análisis ¿Has notado algún cambio es los estadísticos de tendencia central? ¿Han cambiado todos por igual? ¿Por qué unos cambian más que otros? ¿Cuál es en tu opinión el estadístico de tendencia central más adecuado en este caso? ¿Por qué? El valor 0 en el peso de los niños es un dato no válido ya que es imposible que un niño pese 0 gramos (al igual que pasa con los niños de 33 y 49 gramos, sería imposible que naciesen con ese peso). Se debe tratar de algún error, o bien no se anotó el peso, o se anotó incorrectamente, o bien que el niño no sobrevivió… Los parámetros estadísticos de tendencia central obtenidos en los dos casos son los siguientes: - Media: pasa de 3169,59 en el primer caso a 3183,27 una vez eliminados los datos no válidos.
Este parámetro tiene en cuenta la suma de todos los valores y el número total de datos. El hecho de eliminar datos de peso (0, 33 y 45 gr.) ha provocado una disminución tanto en la suma de valores como en el número de datos válidos.
De esta manera, en repetir el análisis, se ha obtenido una media superior a la anterior.
- Mediana: 3190 en el primer caso a 3200 en el segundo.
Este parámetro indica el valor del individuo que está en el centro, teniendo la mitad de las observaciones por debajo y la otra mitad por encima.
En eliminar valores inferiores, se ha provocado un desplazamiento de la mediana hacia valores superiores al inicial.
- Moda: 3200 en ambos casos.
Este parámetro es el valor de la variable más repetida en la muestra.
Como los valores más repetidos no eran ni 0, ni 33, ni 45, este parámetro no ha variado.
En este caso, el estadístico de tendencia central más adecuado es la moda, ya que tanto la media como la mediana son sensibles a valores extremos que, en este caso, no nos interesan ya que no son viables. Por lo tanto, la mejor medida es la moda, insensible a dichos valores.
3. Anota aquí los parámetros estadísticos que mejor describen, en tu opinión, el peso de los niños.
Comenta brevemente.
Los parámetros que mejor describen el peso de los niños son: - Mediana - Media - Varianza - Desviación típica Opino que los valores extremos no son interesantes ya que no resultan ser representativos para la mayoría de sujetos. Al mismo tiempo, tampoco interesa el rango, la distancia entre el mínima y el máxima. La suma solamente interesa para calcular la mediana. La desviación típica es interesante porque a partir de ella podemos deducir entre que valores se encuentra que porcentaje de la muestra.
La moda depende mucho de la muestra y por tanto no tiene porque representar a la mayoría de individuos 4. Anota aquí los parámetros estadísticos que mejor describen, en tu opinión, la edad de las madres. Comenta brevemente.
Para conocer la tendencia central de la muestra de madres atendidas en el hospital del mar me resultan interesantes la mediana y la media al mismo tiempo que la desviación típica. Para poder evaluar la información que llega de la población sobre el uso de anticonceptivos, podría ser interesante para conocer la edad mínima de parto. Para poder adaptar los cuidados a madres de alto riesgo, los extremos también resultan ser importantes. Por ejemplo si se atienden muchas madres grandes, el riesgo de un bebé con trisomía 21 aumenta junto con el riesgo de complicaciones durante el parto 5. A la vista de los gráficos de caja obtenidos. ¿Crees que puede concluirse que las madres más jóvenes dan a luz preferentemente en alguna época del año? ¿Por qué? La variación entre el primer cuartil de los cuatro trimestres no varia mucho. La mediana tampoco varia significativamente. Por este motivo no se puede concluir ninguna preferencia. Aun así habrá una cierta tendencia hacia el tercer trimestre.
6. Pega aquí una copia de toda la consola de R, tal como aparece al acabar la práctica > summary (partos) ANYPART.MESPART.DIAPART.TRIMESTR.GESTACIO.PESNADO.EDATMARE 1994,9,23,3,A terme,2430,28: 2 1998,8,11,3,A terme,3360,28: 2 1991,1,10,1,,2860,23 : 1 1991,1,10,1,,2885,27 : 1 1991,1,10,1,,3385,28 : 1 1991,1,11,1,,2885,25 : 1 (Other) :6034 > summary (partos$PESNADO) Length Class Mode 0 NULL NULL > partos <- read.csv("c:/temp/partos1.csv",header=TRUE) > summary (partos) ANYPART MESPART DIAPART TRIMESTR Min. :1991 Min. : 1.000 Min. : 1.00 Min. :1.000 1st Qu.:1993 1st Qu.: 4.000 1st Qu.: 8.00 1st Qu.:2.000 Median :1996 Median : 7.000 Median :16.00 Median :3.000 Mean :1995 Mean : 6.658 Mean :15.68 Mean :2.548 3rd Qu.:1998 3rd Qu.:10.000 3rd Qu.:23.00 3rd Qu.:4.000 Max. :1999 Max. :12.000 Max. :31.00 Max. :4.000 GESTACIO PESNADO EDATMARE :1911 Min. : 0 Min. :12.00 A terme :3578 1st Qu.:2870 1st Qu.:24.00 Gestacio prolongad: 233 Median :3190 Median :28.00 Gestacion prolonga: 11 Mean :3170 Mean :27.87 Prematur : 309 3rd Qu.:3505 3rd Qu.:32.00 Max. :6530 Max. :53.00 > summary (partos$PESNADO) Min. 1st Qu. Median 0 2870 3190 Mean 3rd Qu.
3170 3505 Max.
6530 > summary (partos$PESNADO) Min. 1st Qu. Median 0 2870 3190 Mean 3rd Qu.
3170 3505 Max.
6530 > partos <- read.csv("c:/temp/partos1.csv",header=TRUE) > summary (partos) ANYPART MESPART DIAPART TRIMESTR Min. :1991 Min. : 1.000 Min. : 1.00 Min. :1.000 GESTACIO PESNADO EDATMARE :1911 Min. : 0 Min. :12.00 1st Qu.:1993 1st Qu.: 4.000 1st Qu.: 8.00 1st Qu.:2.000 A terme :3578 1st Qu.:2870 1st Qu.:24.00 Median :1996 Median : 7.000 Median :16.00 Median :3.000 Gestacio prolongad: 233 Median :3190 Median :28.00 Mean :1995 Mean : 6.658 Mean :15.68 Mean :2.548 Gestacion prolonga: 11 Mean :3170 Mean :27.87 3rd Qu.:1998 3rd Qu.:10.000 3rd Qu.:23.00 3rd Qu.:4.000 Prematur Max. :1999 Max. :12.000 Max. :31.00 Max. :4.000 : 309 3rd Qu.:3505 3rd Qu.:32.00 Max. :6530 Max. :53.00 > summary (partos$PESNADO) Min. 1st Qu. Median 0 2870 3190 Mean 3rd Qu.
3170 3505 Max.
6530 > levels(partos$GESTACIO) [1] "" "A terme" "Gestacio prolongad" "Gestacion prolonga" "Prematur" > levels(partos$GESTACIO) <- c(NA, "A terme", "Gestacio prolongada", "Gestacio prolongada", "Prematur") > summary (partos$GESTACIO) A terme Gestacio prolongada 3578 244 > noupes <- partos$PESNADO > mascara <- noupes < 300 > noupes[mascara] <- NA > hist(noupes) > hist(noupes,50) > boxplot(noupes) > boxplot(noupes, col="red") > hist(noupes) > hist(noupes) > noupes <- partos$PESNADO > mascara <- noupes < 300 Prematur 309 1911 NA's > noupes[mascara] <- NA > hist(noupes) > hist(noupes,50) > noupes <- partos$PESNADO > mascara <- noupes < 300 > noupes[mascara] <- NA > hist(noupes) > hist(noupes,50) > boxplot(noupes) > boxplot(noupes, col="red") ...