TEMA 3 (2015)

Apunte Español
Universidad Universidad Pompeu Fabra (UPF)
Grado Medicina - 2º curso
Asignatura Bioestadística
Año del apunte 2015
Páginas 23
Fecha de subida 20/04/2016
Descargas 3
Subido por

Vista previa del texto

2n Medicina UPF- UAB BIOESTADÍSTICA TEMA 3: Estadística descriptiva Estadística descriptiva ! ciencia que describe características que se encuentran en una muestra para organizar analizar dichas dadas.
Esquema: representa el modo de trabajar en el análisis de experimentos: 1. Identificar una población 2. Extracción de la muestra = parte de la población 3. Realización de observaciones y medidas 4. Obtención de una Tabla de datos.
5. Análisis de dicha tabla mediante estadística descriptiva 6. Conversión de los datos a información sobre la muestra NOTA: la estadística descriptiva únicamente estudia 1 muestra la cual puede ser representativa de toda la población. Si deducimos las características de la población mediante el estudio de dicha muestra hablamos de estadística inferencial.
En todo estudio se observan o miden características de los individuos. Cada una de esas características se recoge en una variable (nº pie, altura, sexo, etc.).
Una variable es una característica de los individuos estudiados que puede tomar distintos valores.
1. Tipos de variables Existen dos grandes tipos de variables: ! Variables cuantitativas ! definen una característica con la cual se puede operar aritméticamente (sumar, restar, multiplicar, dividir, etc.), es decir toman valores numéricos. Pueden ser: 1. Variables cuantitativas discretas ! únicamente pueden tomar valores enteros, es decir, los número fraccionales son conceptualmente imposibles. Ej: nº hijos, nº úlceras, etc. (no podemos tener 2 hijos y medio).
2n Medicina UPF- UAB 2. Variables cuantitativas continuas ! Puede coger valores decimales, es decir, los números fraccionales son posible. Ej: días de hospitalización, altura, peso, etc.
! Variables cualitativas: definen una característica con la cual no se puede operar aritméticamente.
Los valores se presentan como cualidad y permiten clasificar-los en categorías. Pueden ser: 1. Nominales ! No existe una ordenación lógica de las categorías. Con estos valores solo se puede comparar igualdad- desigualdad. Ej: sexo, color ojos, sano-enfermo, tratado- no tratado, etc. Estas variables permiten crear grupos.
2. Dicotómicas o binarias ! únicamente existen 2 posibilidades categóricas. Ej.: Sexo (femenino- masculino), Fumador? (si-no) 3. Ordinales ! existe una ordenación de las categorías. Pueden usarse para ordenar los elementos pero no pueden usase para realizar operaciones asimétricas. Ej: clasificación calidad comida hospital (0- mala /1- regular/ 2- Buena). Se suelen codificar con números, no obstante, no es una variable numérica ya que las diferencias entre las diferentes categorías no son idénticas. Son calificaciones subjetivas.
Ejemplo de identificación de variables: ¿De qué tipo son las siguientes variables? § Ser o no ser vegetariano à Variable cualitativa nominal § Nivel de colesterol en sangre à Variable cuantitativa continua § Satisfacción con los servicios de salud (poco-regular-mucho) à Variable cualitativa ordinal § Tensión arterial à Variable cuantitativa continua § Número de visitas al médico en el último año à Variable cuantitativa discreta NOTA: definir el tipo de variable es fundamental para elegir el tipo de técnica estadística idónea para el estudio 2. Tipos de estadística descriptiva Normalmente, las tablas de datos contienen más de una variable La estadística puede ser: - Univariante " estudia las variables una a una.
- Bivariante " estudia las relaciones entre parejas de variables.
- Multivariante " estudia las relaciones entre todas las variables de la tabla.
2n Medicina UPF- UAB 2.1 Estadística descriptiva univariante Tipo de estadística que trabaja con datos cualitativos y datos cuantitativos.
Los datos de partida son largas tablas con números. Tenemos mucha información. Toda la información está en la lista, pero es una forma difícil de entender.
El objetivo de la estadística descriptiva es tratar los datos de modo que podamos extraer información de las tablas Individuo_1 Individuo_2 Individuo_3 Individuo_4 Individuo_5 345 296 456 178 367 ...
Individuo_98 401 El objetivo es extraer dicha información de los datos mediante el uso de diversas herramientas: - Distribución de frecuencias! Cuentan los individuos para los cuales la variable toma un cierto valor o un valor dentro de un cierto rango. Permite resumir la información. Se utiliza normalmente cuando nuestra variable es cualitativa nominal.
Tabla 1: representación de 20 ingresos hospitalarios. Es mucho más fácil entender las causas de los ingresos si hacemos una tabla, llamada tabla de distribución de frecuencias, que indique cuantos pacientes han ingresado por cada una de las causas.
Tabla  de  distribución  de  frecuencias  o  tabla  de  frecuencias Tabla  1   Las tablas de frecuencias pueden construirse para variables cualitativas o cuantitativas: - Cuando la variable es cualitativa o cuantitativa discreta, cada fila representa un posible valor de la variable - 2n Medicina UPF- UAB Cuando la variable es cuantitativa continua, es necesario definir unos intervalos, que agrupan los datos en un cierto número de categorías o clases.
NOTA: la elección de unos intervalos adecuados es crítica para que la tabla sea o no informativa Ej.1: Altura de una persona es muy variable y probablemente no encontraremos individuos que midan exactamente lo mismo. Por este motivo utilizar un posible valor de la variable como en el caso de variables cualitativas o cuantitativas discretas no seria correcto. Para ello, se definen intervalos adecuados. Grupo A= personas que miden entre 180cm i 200cm, etc.
Ejemplo de tabla de frecuencias para una variable continua: La siguiente tabla representa los niveles de colesterol en sangre obtenidos a partir de 1067 voluntarios sanos Tabla 2: Podemos observa que el nivel más frecuente de colesterol es entre 160-199 mg/100 ml. Al mismo tiempo se obtiene que hay pocos pacientes con un colesterol superior a 360 mg/100ml.
Frecuencia absoluta (ni) à nº casos que se incluyen en cada una de las categorías Ej.: Entre 80-119 la n= 13, hay 13 individuos con dichos     Tabla  2   valores de colesterol.
Tabla 3: Podemos expresar las frecuencias absolutas en forma acumulativa: se suman las frecuencias de los intervalos anteriores.
Frecuencia acumulada (Ni) à suma de las frecuencias absolutas de forma progresiva Ej.: 13+150= 163 à indica personas que tienen el colesterol menor a 159 mg/100ml Tabla  3 2n Medicina UPF- UAB Tabla  4 Tabla 4: podemos expresar las frecuencias en forma de porcentaje así es más fácil apreciar el valor de las frecuencias.
Frecuencia relativa (% o º/1) à supone cada categoría respecto al total de casos.
- º/1 à se calcula dividiendo la frecuencia absoluta por el nº total de datos x 100 Ej.: la frecuencia relativa de 13= 13/ (13+150+ 442+ 299+ 115+ 34 +9 +5)= 13/ 1067 = 0,012 - % à se calcula multiplicando el º/1 x100 Ej.: 0,012 x100 =1,2 - Gráficos ! útiles para representar los datos y ofrecer una información de forma más clara. Se usan varios métodos: 1. La distribución de frecuencias en variables cualitativas o cuantitativas discretas suelen representarse mediante diagramas de barras o diagramas de sectores (de tarta).
Diagrama de barras à la altura de cada barra representa la frecuencia de un único valor. Colocamos la variable en el eje X y la frecuencia absoluta en el eje Y. Útil para todo tipo de variables excepto cuantitativas continuas.
2n Medicina UPF- UAB Diagrama de sectores (de tarta) à El círculo se divide en sectores, cuya ángulo es proporcional a la frecuencia relativa de cada valor o rango de valores. Cada sector = frecuencia absoluta de cada variable x 360 / total de datos. Se usan sobretodo para variables de tipo cuantitativas discretas.
2. La distribución de frecuencias de variables cuantitativas continuas suelen representarse mediante histogramas.
En un histograma, la altura de cada barra se obtiene dividiendo la frecuencia por la anchura del intervalo, pero… ¿por qué? Histograma acumulativo Histograma Histogramas à el área de la columna representa la frecuencia. Cuanto mayor sea el área mayor es la frecuencia de ese intervalo.
Muestra una escala continua por este motivo la barras se tocan entre ellas. Ej.: niveles de colesterol – barra 1 (de 80 a 120) /barra 2 de (120-160), etc. También puede representarse un histograma acumulativo.
Ej.: Distribución por edades de varones fallecidos por leucemia ERROR à La impresión del gráfico es que hay más fallecimientos en personas >70 años. Pero no es correcta dicha gráfica ya que no estamos teniendo en cuenta la distinta anchura de los intervalos. Fallacen más pacientes > 70 años porque el intervalo es mucho más ancho, es decir, estamos comparando individuos que se han muerto en 70 años y individuos que se han muerto justo al nacer.
2n Medicina UPF- UAB CORRECTO à el gráfico muestra que los fallecimientos más frecuentes son entre 60-70 años y en los niños.
La conclusión es distinta a la que nos ofrecia el gráfico anterior. Para obtener una buea información hace falta comparar los fallecimientos en todo un año. (fallecimientos/año).
NOTA: ¡Un gráfico de barra no debe confundirse con un histograma! - En los diagramas de barras, las frecuencias se representan en la altura de las barras - En los histogramas, las frecuencias se representan en el área de las columnas - Parámetros Estadísticos ! también llamados “Estadísticos”, resumen en un único valor ciertas características importantes de un conjunto de datos. Solo pueden calcularse para variables cuantitativas, con una única excepción. Existen según cuales sean estas características parámetros estadísticos de: 1- Tendencia Central o Centralización: describen la posición alrededor de la cual oscilan los datos (“el centro”).
2n Medicina UPF- UAB Estadísticos de tendencia central: # Media ! (Català: Mitjana aritmètica, English: mean or average). Es el más conocido y usado. Se calcula sumando todos los valores y dividiendo por el número total de datos. Es un valor sensible a la presencia de valores extremos.
n Ej.: ∑x i x= i =1 = (4+2+3+6+2+2+1+5+6)/ 9 = 3,4 n               Xi (variable) ni (frecuencia absoluta) Ni (frecuencia acumulada) X i · ni 1 1 1 1 2 3 4 6 3 1 5 3 4 1 6 4 5 1 7 5 6 2 9 12 9 Fórmula Media 31 = 31/ 9 = 3,4 2n Medicina UPF- UAB # Mediana ! (Català: Mediana, English: median). Si Ordenamos los n valores de la muestra de menor a mayor, la mediana es el valor del individuo que está en el centro. Consiste en el valor que una vez ordenados los datos deja ½ de las observaciones por encima y la otra mitad por debajo. Es un valor insensible a la presencia de valores extremos. Esto es muy importante ya que en biomedicina suelen darse valores anormales en los experimentos.
! n impar, el valor del individuo (n+1) / 2 ! n par, el promedio de los valores de los individuos n/2 y n/2+1 Ej.: n es impar por lo tanto utilizaremos (n+1)/ 2 para calcular la Mediana.
(n+1)/2 = (9+1)/2 = 5 à este factor no corresponde a la mediana sino que debe observarse en la frecuencia acumulada. La mediana será el valor Xi con frecuencia acumulada 5, es decir, la mediana = 3 # Modas ! (Català: moda, English: mode). Es el valor de la variable más repetido en la muestra.
Puede no ser único si hay varios valores que se repiten igual número de veces. Puedes calcularse para variables cualitativas, pero no debe usarse para variables cuantitativas continuas (normalmente ningún valor se repite Ej.: dos personas no tienen exactamente la misma altura). Para calcularse debe observarse el valor de Xi que tenga mayor frecuencia absoluta.
2n Medicina UPF- UAB NOTA: Media y mediana son útiles como estadísticos de tendencia central.
La media da una mejor idea de la tendencia central de los datos, pero es más sensible a la presencia de individuos con valores particulares.
Cálculos: Xi (variable) ni (frecuencia absoluta) Ni (frecuencia acumulada) X i · ni 1 1 1 1 2 3 4 6 3 1 5 3 4 1 6 4 5 1 7 5 6 1 8 6 12 (valor extremo) 1 9 12 9 37 Media= 37/9 = 4,1 " Muy sensible a valores extremos ya que varia mucho respeto al valor anterior (3,4) n es impar por lo tanto: Mediana= (n+1)/2 = (9+1)/2 = 5, se observa el valor de Xi con frecuencia acumulada de 5. La Mediana es 3.
" Poco sensible a valores extremos ya que no varía porque el valor central sigue siendo el mismo 2- Posición: tipos de estadístico que sitúan puntos de referencia en una escala ordenada de valores, indicando que a ambos lados existe una cierta proporción de individuos 2n Medicina UPF- UAB Los más importantes son: - Mediana ! (Català: Mediana, English: median). La mediana define dos mitades en nuestros datos, cada una con el 50% de los individuos, es decir, habrá a un lado 50% de valores mayores a la mediana y al otro lado el 50% de valores menores. La mediana es a la vez un parámetro estadístico de tendencia central y de posición - Cuartiles ! dividen en cuatro el número de individuos. Hay tres cuartiles: Q1, Q2 y Q3. El segundo cuartil (Q2) coincide con la mediana. Divide la muestra en 4 partes iguales (25,50,75) Q1 à el 25% de los individuos está por debajo y el 75% restante por encima.
Q2 à el 50% de los individuos está por debajo y el 50% restante por encima. (Mediana) Q3 à el 75% de los individuos está por debajo y el 25% restante por encima. (Mediana) - Deciles ! dividen la escala en diez partes. Ej.: D1 10% por debajo y 90% por encima - Percentiles ! dividen la escala en cien partes. Ej.: P75 75% por debajo y 25% por encima Los Percentiles son muy útiles en medicina ya que nos permite comparar un determinado individuo con toda la población. Ej. 1.: medida de sobrepeso; Un niño situado en el percentil 90 de peso, solo el 10% de la población pesan más. Esto indica que el niño no tiene problemas de crecimiento 2n Medicina UPF- UAB Ej. 2.: Gráfico: estudio peso y altura de varones y mujeres de Vall d’Hebron. La diferencia de altura entre percentil 3 y percentil 97 es aproximadamente de 20 cm La mediana esta muy cerca del 1,80 y las diferencias no son muy grandes. Curiosamente en el peso no pasa igual. Hay muchas diferencias. Hay un cierto porcentaje de la población que tiene sobrepeso desde la infancia apareciendo de modo temprano. Pero más chocante son las diferencias entre chicas. Se observa un pico hasta los 12 años, indicando probablemente una presión social (problemas de anorexia y bulimia) que empiezan a aparecer a partir de los 13 años donde hay una aplanamiento de la curva y a los 16-17 años la proporción de chicas de sobrepeso es muy menor al de varones. Simplemente representando los percentiles podemos entender mucho los datos y estudiar las diferencias entre un grupo u otro La misma posición puede ser expresada de diversos modos.
NOTA: la mediana, Q2, D5 y P50 expresan exactamente el mismo punto. Igual que Q1 y P25 2n Medicina UPF- UAB Conocer dónde está el centro de los datos no es suficiente. Además, debemos describir si todos los datos son muy parecidos entre sí o muy diferentes. Esta propiedad se denomina dispersión.
3- Dispersión: parámetro estadístico que describe como de diferentes son los datos. Existen diferentes modos o estrategias para caracterizar dicha diferencia entre los individuos de la muestra.
Los más importantes son: # Rango o amplitud ! (English: range, Cat: recorregut). Es la distancia que hay entre los valores más extremos de la serie de datos (entre el mayor y el menor). Se calcula: (Xi mayor – Xi menor) Ej.: Xi (variable) ni (frecuencia absoluta) Ni (frecuencia acumulada) X i · ni 1 1 1 1 2 3 4 6 3 1 5 3 4 1 6 4 5 1 7 5 6 2 9 12 9 31 Rango= 6-1 = 5 NOTA: La presencia de un único valor muy extremo puede influir mucho en este estadístico, lo que lo hace poco útil ya que hacemos depender el parámetro estadístico de dos valores.
# Distancia intercuartílica ! (English: interquartil range). Es la distancia que existe entre el primer y el tercer cuartil (Q1 y Q3). Participan todos los datos de la muestra, si los datos son muy parecidos la diferencia será pequeña, pero por lo contrario si es alta, habrá más diferencias. Es más sensible que la amplitud a la presencia de valores extremos. Entre Q1 y Q3 hay el 50% de los datos por ello dicha distancia intercuartílica son los valores que contienen el 50% de los datos centrales.
2n Medicina UPF- UAB Ej.: Cálculo del rango intercuartílico o distancia intercuartílica Xi (variable) ni (frecuencia absoluta) Ni (frecuencia acumulada) X i · ni 1 1 1 1 2 3 4 6 3 1 5 3 4 1 6 4 5 1 7 5 6 2 9 12 9 31 ¿Cómo se calcula Q1 y Q3? - Q1= ¼ · ni total = ¼ · 9= 2,25 - Q3= ¾ · ni total = ¾ · 9= 6, 75 DIQ= Q3-Q1 /2 = 6,75-2,25 /2= 2,25 # Varianza ! (English: Variance). Es la suma de todas esas diferencias al cuadrado, divididas por el número de observaciones menos una. Consiste en el promedio de las distancias al cuadrado. El hecho de que las unidades estén al cuadrado limita su utilidad.
n s2 = 2 ( x − x ) ∑ i i =1 n −1 # Desviación típica o estándar ! (English: Standard deviation). Es la raíz cuadrada de la varianza. Al extraer la raíz cuadrada se soluciona el problema de las unidades. Indica la distribución de los valores alrededor de la media. Parámetro estadístico de dispersión más utilizado.
n 2 s= s = ∑ (x − x ) i i =1 n −1 2 En la práctica normalmente se trabaja con muestra y no con poblaciones por este motivo se utiliza n-1 ya que se ha observado que los resultados son más representativos.
2n Medicina UPF- UAB # Desviación media ! (English: Mean deviation). Para poder acumular las diferencias de los valores con respecto a la media sin que se cancelen, en vez de elevarlas al cuadrado, pueden usarse sus valores absolutos. Ignora los signos. Puede interpretarse como el promedio de las desviaciones observadas entre los datos de la muestra y su media. Es una alternativa a la desviación típica aunque en la práctica casi no se usa dicho parámetro.
n ∑x −x i DM = i =1 n # Coeficiente de variación ! (English: coeficient of variation). Es la desviación típica expresada como un porcentaje de la media.
CV = 100.
s x Todos los estadísticos anteriores tienen una magnitud que depende de la escala de los datos originales. A veces se necesita “normalizar” esta dispersión. Se normaliza el valor de la desviación estándar dividiendo dicho valor con el valor de la media. Siempre se utiliza cuando queremos hacer una comparación de dispersión entre muestras que no tienen la misma media. Ej.: Comparar la dispersión del peso corporal en niños y en adultos.
Un modo muy interesante de representar estos parámetros estadísticos es utilizarlos para construir un gráfico que resuma tanto la tendencia central como la dispersión. Uno de los más frecuente es el diagrama de caja, o box-plot Para construirlo ponemos una pata en el mínimo y otro en el máximo y entre una y otra se dibuja una caja que empieza en el primer cuartil y acaba en el tercer cuartil.
Las patas se ponen entre el valor mayor y menor pero cuando la muestra tiene valores anómalos o extremos se representan como asteriscos indicando que son valores muy diferentes. Dentro de la caja se coloca un valor correspondiente a la mediana.
Se utilizan en estadística general y biomedicina para hacer comparaciones de diferentes muestras. Se resume la tendencia central, dispersión y rango..
2n Medicina UPF- UAB 2.2. Estadística Descriptiva bivariante Estadística que estudia la relación que existe entre dos variables con el objetivo de describir dicha relación.
Dependiendo de qué tipo de variables se estudien, pueden usarse diferentes herramientas: # Cualitativa- Cualitativa: - Tablas de contingencia " modo de representar la asociación entre estas variables calculando la frecuencia de individuos con cada posible combinación de valores.
Ej.: Se sabe de un individuo si es o no fumador y si se le ha diagnosticado o no un cáncer de pulmón. Tenemos dos variables dicotómicas; fumar y padecer cáncer. ¿Existe relación entre fumar y padecer cáncer? Se observa que hay muchos más enfermos entre los fumadores. Es un modo de ver proporciones. La proporción de enfermos entre los fumadores es mucho más alta que entre los no fumadores.
Tabla de contingencia Las tablas de contingencia pueden tener un tamaño de fxc (nº filas · nº columnas), donde f y c representan el número de valores posibles para la primera y segunda variable. Una tabla con dos variables dicotómicas siempre será de 2x2 pero hay de varios tamaños.
La simple observación de las frecuencias que aparecen en la tabla informa de la potencial asociación entre las variables 2n Medicina UPF- UAB Las tablas de contingencia pueden representarse usando diagramas de barras asociados o apilados que expresan diferencias en proporciones.
Manera de representar los diagramas de barras asociados que consiste en ajustar la altura de las dos barras haciéndolas más anchas para poder apreciar las diferencias de proporción.
Expresan la diferente proporción de enfermos que hay dependiendo de si fuman o no - Estadísticos de asociación (Q, RR, OR) " expresa la intensidad de asociación entre dos variables cuantificándola. Existen varios parámetros estadísticos de asociación pero los más utilizados en biomedicina son: 1. Q de Yule " intenta cuantificar si hay asociación entre variables. Si suponemos que existe dicha relación entre el factor y la enfermedad probablemente muchos individuos expuestos al factor de riesgo padecerán la enfermedad y sin embargo las personas que no estén expuestas no. Por este motivo: - Las casillas A y D tomarán valores altos: A=SI+SI, expuestos enfermos, D=NO+NO no expuestos no enfermos - Las casillas B y C tomarán valores bajos: B=NO+SI, no expuestos enfermos, C=SI+NO, expuestos no enfermos.
2n Medicina UPF- UAB La Q de Yule se calcula multiplicando los valores a favor de la hipótesis (AD) y le restamos los en contra (BC) e integrándolos en la siguiente formula. Para normalizar el resultado se divide por la suma de los dos productos.
Los valores oscilan entre -1 (relación negativa perfecta- factor de protección) y 1 (relación positiva perfecta- factor de riesgo) y toman valor de 0 en caso de independencia.
( A.D) − (B.C) Q= ( A.D) + (B.C) 2. Riesgo relativo (Relative Risk, RR) " expresa la relación que existe entre la tasa de incidencia de una enfermedad entre los expuestos y los no expuestos a un cierto factor de riesgo. “Cuantas veces es más frecuente que enfermes si estás expuesto a un cierto factor” A RR = A + C B B +D Se calcula como la relación entre: - Individuos enfermos y expuestos (A), dividido entre los expuestos (A+C) - Individuos enfermos no expuestos (B), dividido entre los no expuestos (B+D) El riesgo relativo toma valores entre 0 e infinito: - Un valor de 1 indica que el riesgo es igual entre expuestos y no expuestos.
El factor no es relevante.
- Un valor mayor de 1 indica que los expuestos tienen más riesgo de sufrir la enfermedad. Es un factor de riesgo.
- Un valor menor de 1 indica que los expuestos tienen menos riesgo de sufrir la enfermedad. Es un factor de protección.
2n Medicina UPF- UAB 3. Razón de apuestas (Odds ratio, OR) " expresa cuantas veces es mayor la relación enfermos/sanos entre los expuestos a un cierto factor de riesgo con respecto a los no expuestos. Conceptualmente, es muy parecido al riesgo relativo.
Cuando la incidencia no es muy alta, ambos son numéricamente parecidos.
A AD OR = C = B BC D Se calcula como la relación entre: - Individuos enfermos y expuestos (A), dividido entre los sanos expuestos (C) - Individuos enfermos no expuestos (B), dividido entre los sanos no expuestos (D) La razón de apuestas toma valores entre 0 e infinito: - Un valor de 1 indica que el la relación enfermos/sanos es igual entre expuestos y no expuestos y que el factor no es relevante - Un valor mayor de 1 indica que entre los expuestos la relación enfermos/sanos es peor. Es un factor de riesgo - Un valor menor de 1 indica que entre los expuestos la relación enfermos/sanos es mejor. Es un factor de protección Ej.: Los comensales de una boda sufren diarreas y se sospecha de la tarta RR = 10/ (10+5) / 1/ (1+25)= 17.3 OR = 10/5 / 1/25 = 50 El riesgo relativo indica que la tasa de incidencia de diarreas entre los que comieron tarta es mucho mas elevada que entre los que no la comieron. 17,3 veces más frecuente que enfermes si has comido tarta que si no la has comido.
El odds ratio compara la relación enfermos/sanos en ambos grupos e indica que la enfermedad es abrumadoramente mayoritaria entre los que comieron tarta. 50 veces más alta si has comido tarta.
NOTA: el riesgo relativo y la razón de apuestas son muy utilizadas en epidemiología NOTA: Ambos son parámetros estadísticos descriptivos que expresan la intensidad de la relación de una muestra, pero no demuestran nada en la población 2n Medicina UPF- UAB # Cualitativa- Cuantitativa: las variable cualitativas permiten clasificar a los individuos en subgrupos dentro de una muestra. Si se mide una variable cuantitativa, y existe asociación con respecto a la primera variable, se manifestará como diferencias entre los distintos subgrupos.
Puede describirse la variable cuantitativa para cada subgrupo - Estadística descriptiva de subgrupos " construyen gráficos en los que se representa la tendencia central y la dispersión de la variable cuantitativa para cada uno de los subgrupos definidos por la variable cualitativa. Pueden usarse gráficos de caja o gráficos en los que se representa la media en el centro y una anchura de dos veces la desviación típica.
Ej.: se observa que el nivel de colesterol medio marcado por la mediana es mucho más alto en el no vegetariano que en el vegetariano.
2n Medicina UPF- UAB # Cuantitativa- Cuantitativa: cuando existe asociación entre dos variables cuantitativas los cambios en una variable se acompañan sistemáticamente de cambios en la otra variable - Diagramas de dispersión (scatterplots) " permite visualizar correctamente la asociación entre dos variables cuantitativas. Son gráficos bidimensionales donde se representan los individuos en forma de puntos cuya posición horizontal y vertical representa el valor de ambas variables.
Es el gráfico más útil para observar a simple vista si hay relación entre las variables. Se dice que dos variables cuantitativas están asociadas cuando varían conjuntamente o covarían. Esto quiere decir que cuando una variable A toma un valor alto, la variable B también toma un valor alto y viceversa No hay relación aparente entre las variables- no covarían Parece que hay una relación lineal: - Covarian directamente ! cuando una variable aumenta la otra también.
- Covarian inversamente à cuando una variable aumenta la otra disminuye.
Hay relación, pero es claramente no-lineal 2n Medicina UPF- UAB - Descripción de la asociación lineal (Cov, r) " la intensidad de la asociación lineal puede cuantificarse usando estadísticos apropiados, como la covarianza y coeficiente de correlación de Pearson. Estos índices solo cuantifican asociación lineal. Si la relación entre ambas variables es de otro tipo (parabólica, etc.) estos índices pueden no reflejarla adecuadamente La fórmula de la covarianza es muy parecida a la varianza, pero los cuadrados que se acumulan se obtienen multiplicando las contribuciones de las dos variables implicadas   n Estas variables están fuertemente asociadas pero la asociación no es lineal. La covarianza s 2 X = ∑ ( x − x i )2 i=1 n −1 no cuantificaría correctamente.
n ∑ (x − x )(x − x ) i = i=1 i n −1 Varianza Covarianza Cuanto mayor es la covarianza en valor absoluto, mayor es la asociación y si es muy pequeña quiere decir que no existe asociación.
Valores positivos de covarianza indican asociación directa y valores negativos indican asociación inversa.
El problema de la covarianza es no tiene una escala con límites precisos 2n Medicina UPF- UAB El coeficiente de correlación de Pearson (r), normaliza la covarianza, proporcionando un indicador de la asociación línea que oscila entre –1 y +1. El valor de r facilita la interpretación.
r = 0 " X e Y no están correlacionados r = +1 " X e Y muestran una correlación positiva perfecta r = -1 " X e Y muestran una correlación negativa perfecta r= Cov XY (s 2X ).(s 2Y ) Coeficiente de correlación de Pearson ...

Comprar Previsualizar