TEMA 10 (2015)

Apunte Español
Universidad Universidad Pompeu Fabra (UPF)
Grado Medicina - 2º curso
Asignatura Bioestadística
Año del apunte 2015
Páginas 28
Fecha de subida 20/04/2016
Descargas 1
Subido por

Vista previa del texto

2n Medicina UPF- UAB BIOESTADÍSTICA TEMA 10: Correlación y análisis de regresión Las pruebas de contraste de hipótesis suelen usarse para identificar asociaciones entre dos variables. Según el tipo de variables, existen distintas pruebas: TEMA 8 TEMA 9 TEMA 10 2 VARIABLES CUANTITATIVAS: Análisis de correlación: Dos variables cuantitativas están asociadas cuando varían conjuntamente o “co-varian”. Esto quiere decir que cuando una variable A toma un valor alto, la variable B también toma un valor alto o vicerversa.
Puede ocurrir: No hay relación aparente entre las variables Parece que hay relación lineal: - Covarían directamente à cuando una variable aumenta la otra también - Covarían inversamente à cuando una variable aumenta la otra disminuye.
- 2n Medicina UPF- UAB Descripción de la asociación lineal (Cov, r) ! la intensidad de la asociación lineal puede cuantificarse usando estadísticos apropiados, como la covarianza y coeficiente de correlación de Pearson. Estos índices solo cuantifican asociación lineal. Si la relación entre ambas variables es de otro tipo (parabólica, etc.) estos índices pueden no reflejarla adecuadamente La fórmula de la covarianza es muy parecida a la varianza, pero los cuadrados que se acumulan se obtienen multiplicando las contribuciones de las dos variables implicadas n Estas variables están fuertemente asociadas pero la asociación no es lineal. La covarianza no cuantificaría correctamente.
s 2 X = ∑ ( x − x i )2 i=1 n −1 n ∑ (x − x )(x − x ) i = i=1 i n −1 Varianza Covarianza Cuanto mayor es la covarianza en valor absoluto, mayor es la asociación y si es muy pequeña quiere decir que no existe asociación.
Valores positivos de covarianza indican asociación directa y valores negativos indican asociación inversa.
De la fórmula se deduce que la covarianza toma valores altos cuando ambos términos del producto varían simultáneamente En general, la forma de la nube de puntos nos indican el signo y la magnitud aproximada de la covarianza 2n Medicina UPF- UAB El problema de la covarianza es no tiene una escala con límites precisos El coeficiente de correlación de Pearson (r), normaliza la covarianza, proporcionando un indicador de la asociación línea que oscila entre –1 y +1. El valor de r facilita la interpretación ya que los valores de r oscilan en una escala precisa.
r = 0 ! X e Y no están correlacionados r = +1 ! X e Y muestran una correlación positiva perfecta r = -1 ! X e Y muestran una correlación negativa perfecta r= Cov XY (s 2X ).(s 2Y ) Coeficiente de correlación de Pearson Tanto la covarianza como la correlación que hemos definido son estimadores muestrales de sus correspondientes parámetros poblacionales σxy y ρ. Lo que nos interesa es saber si existe una correlación entre dos variables en una población. Únicamente varían las fórmulas: 2n Medicina UPF- UAB r= lo que obtendríamos al describir la asociación entre dos variables de una muestra extraída de la población.
La nube azul representan todos los individuos de la población.
ρ= lo que obtendríamos al describir la asociación entre dos variables de una población. Mismo cálculo que r pero con todos los individuos de la población.
SIGNIFICANCIA ESTADÍSTICA DE LA CORRELACIÓN Imaginemos que observamos esta asociación lineal en una muestra: Observamos una correlación en la muestra Puede que indique la relación lineal que existe en la población …o puede que hayamos sido muy afortunados al escoger los puntos Si únicamente observamos los puntos rojos, no es posible identificar si hay relación lineal en la población.
Sería mucha casualidad que al coger los puntos rojos al azar consiguiéramos indicar la relación lineal que existe en la población, no obstante, podría ocurrir.
Es posible usar pruebas de contraste de hipótesis para comprobar si la correlación observada en la muestra refleja de forma estadísticamente significativa una asociación lineal existente en la población.
- H0: ρ =0 ! en la población no existe asociación lineal y por tanto lo que observamos en la muestra es fruto del azar.
- Ha: ρ ≠0 ! en la población existe asociación lineal La hipótesis puede contrastarse usando una distribución t de Student con n-2 grados de libertad y el siguiente estadígrafo: t = r.
n −2 1 − r2 2n Medicina UPF- UAB INTENSIDAD Y SIGNIFICANCIA ESTADÍSTICA: Observa que al estudiar la asociación lineal entre dos variables cuantitativas estaremos interesados en dos aspectos distintos necesarios para entender la relación: 1- Intensidad: - ¿Con que intensidad ambas variables co-varian? - Se describe mediante el valor de la correlación de Pearson (r) 2- Significancia estadística: - ¿La asociación observada en la muestra es fruto del azar? - Requiere hacer una prueba de contraste de hipótesis para calcular la probabilidad de que la correlación ocurra por azar. (p) Ambos aspectos son independientes. Es posible encontrar asociaciones no muy intensas pero estadísticamente muy significativas. Por este motivo siempre deben cuantificarse.
Ej.: Observamos puntos dispersos pero con cierta tendencia n = 1000 à 1000 individuos r = 0.824 à no muy intensa p < 2.2e-16 à baja probabilidad de que ocurra por azar Tenemos una asociación no muy intensa pero estadísticamente es muy significativa.
Cuanto mayor sea el tamaño de la muestra mayor será el valor de t. Por este motivo es muestra muy grandes es muy poco probable que la asociación observada sea un efecto del muestreo, es decir, por azar.
NOTA: para entender la relación entre dos variables calculamos r (intensidad) y p (probabilidad).
Igual que existen asociaciones no muy intensas pero muy estadísticamente significativas, hay relaciones muy intensas pero no estadísticamente significativos n = 1000 r = 0.993 à asociación casi perfecta p = 0,073 à no estadísticamente significativa a un nivel de confianza del 95%.
2n Medicina UPF- UAB PRUEBAS DE CONTRASTE DE HIPÓTESIS SOBRE LA CORRELACIÓN: Ej1.: Se estudia la correlación entre la obesidad y la respuesta al dolor. Se obtienen datos para 10 individuos: 16 Se a caracterizado el umbral del dolor entre 0-16 y el porcentaje de sobrepeso. (0-100%) 14 12 Una vez tenemos los datos los representamos 10 gráficamente. Cuando describimos asociación entre 8 dos variables se utilizar este grafico. Observamos una Umbral de dolor 6 asociación lineal no muy intensa y al mismo tiempo 4 será inversa. Para calcularse: 2 0 0 20 40 60 80 10 0 % sobrepeso H0: ρ =0 à no existe asociación lineal entre las variables Ha: ρ ≠0 à existe asociación lineal entre las variables 1. Calculamos el Coeficiente de Correlación de Pearson (r) para obtener la intensidad: r = -0,33 ! correlación lineal inversa y poco intensa.
2. Calculamos el valor de p para obtener la significancia estadística. Se calcula el estadígrafo t y se contrasta con una distribución t de Student con 8 grados de libertad (10-2=8).
t = r.
n −2 1 − r2 t = −0.33 10 − 2 2 = −0.99 1 − (−0.33) Estadígrafo € El valor de p es de 0.35, por lo cual no puede descartarse la H0 ya que p>0,05 y por tanto no es estadísticamente significativo. No se demuestra la existencia de una correlación lineal entre obesidad y € dolor. Estamos delante de una situación en que la asociación lineal no es intensa ni significativa.
" En SPSS: Obtendremos una tabla de correlaciones: 1 .   -.334 .345 10   1 .   NOTA 1: la correlación entre una variable y ella misma =1.
La correlación entre la variable 1 y 2 será la misma que entre la variable 2 y 1.
Los espacios vacíos de la tabla no se rellenan porque el programa supone que son conocidos.
2n Medicina UPF- UAB NOTA 2: Correlación de Pearson= intensidad Sig. Bilateral= valor de p N= nº individuos NOTA 3: En las prácticas también nos aparecerán * cuando el valor de p < 0.05 a un nivel de confianza del 95% o ** cuando el valor de p < 0.01 a un nivel de confianza del 99%. Son muy útiles los asteriscos cuando tenemos muchas variables ya que de esta manea identificamos las correlaciones entre parejas estadísticamente significativas.
Ej2.: ¿Existe relación entre la edad y el volumen relativo del hígado (como ml/kg), en niños? Se obtiene una muestra en 15 niños sanos entre 6 meses y 15 años Observamos cierta correlación inversa.
Debemos calcular la intensidad y la significancia estadística. En este caso usan el programa R.
r=-0.79 ! Correlación lineal inversa moderadamente intensa p= 0.0004777 < 0.01 ! Correlación lineal estadísticamente significativa a un nivel de confianza superior al 99%. Podemos descartar H0 y concluir que existe una correlación no- nula entre la edad y el volumen relativo del hígado en la población CORRELACIÓN vs. ANÁLISIS DE REGRESIÓN Cuando se desea caracterizar la asociación lineal entre dos variables cuantitativas, las herramientas son: 1- Coeficiente de correlación (r) ! Caracteriza la intensidad de la asociación 2- Contraste de hipótesis sobre r ! Informa sobre la significación estadística Otra forma de ver la relación entre dos variables cuantitativas es mediante el análisis de regresión.
En ocasiones, puede interesar encontrar una función matemática que describa esta relación Y = f (X) Modelo de regresión 2n Medicina UPF- UAB Esta función matemática relaciona una variable Y con otra variable X. La función describe un modo de obtener valores de Y a partir de valores de X Ambas variables NO son conceptualmente equivalentes: # X variable (independiente) o predictora # Y variable dependiente o predicha ! variable que queremos obtener en función de X.
La función f obtenida permite calcular valores de Y a partir de los valores de X, pero no al revés La función f se obtiene a partir de una muestra, intentando que los valores experimentales (yi) y los proporcionados por el modelo (yi’) sean lo más parecidos posible. Por este motivo el objetivo del modelo de regresión es obtener una función (la más sencilla que es la ecuación de una recta) a partir de un conjunto de puntos y a partir de la cual por un determinado valor de X podemos hacer predicciones del valor de Y.
El modelo de regresión es un ejemplo de modelo empírico. Los modelos empíricos no tienen el mismo valor que los modelos teóricos (corresponden a leyes científicas): - MODELO TEÓRICO (Ley científica) Tiene validez general, aplicable en un amplio campo - de situaciones.
- Describe la causa y el mecanismo de los fenómenos - Ej.: MODELO EMPÍRICO Tiene validez local (para objetos parecidos a los de la muestra usada para obtenerlos) - Modelos puramente descriptivos de la relación entre 2 variables F =m ⋅a - No implican causalidad, es decir no implican que una variable dependa de la otra, ni explican los mecanismos - Ej.: modelo que permite calcular el indice de masa corporal en función de la edad.
IMC = a + b⋅t La masa corporal no es consecuencia de la edad (no causalidad) pero existe una relación empírica entre las variables.
2n Medicina UPF- UAB Ej.: En 1988, Sies publicó en Nature una excelente correlación entre el número de nacimientos y el de parejas de cigüeñas… Como a lo largo de los años varian el numero de cigueñas en Alemania en función de la natalidad.
Se observa que a valores altos de cigüeñas, la natalidad también es alta. Al mismo tiempo a valores intermedios de cigüeñas, la natalidad también adoptaba valores intermedios.
Finalmente observamos que cuando el nº de cigüeñas era bajo, la natalidad también.
Es lógico que podemos obtener una recta que nos diga que a más cigüeñas más natalidad.
natalidad Cigüeñas Podemos aplicar un modelo de regresión útil para predecir la natalidad cuando el nº de cigüeñas es X ! no obstante no existe relación de causalidad.
NOTA: Las relaciones empíricas permiten hacer predicciones de una variable a partir de la otra.
VALOR DE LOS MODELOS EMPÍRICOS Los modelos no son verdaderos o falsos, son útiles o inútiles Ej.: el modelo de las cigüeñas es útil para predecir la natalidad a partir del º de cigüeñas ya que se observa un buen ajustamiento.
- Un modelo de regresión bien utilizado permite obtener valores de una variable difícil de obtener (Y) a partir de otros valores fáciles de obtener (X) - La decisión de qué variable es X y cual es Y depende de los intereses del investigador y no del fenómeno en sí - Como la validez del modelo es local, la calidad del modelo depende de un modo crítico de la elección de la muestra (diseño experimental) 2n Medicina UPF- UAB ANÁLISIS DE REGRESIÓN El análisis de regresión es un área muy extensa de la estadística. Sirve para encontrar una función empírica que ligue cualquier par de variables pero también pueda ligar varias variables y hacer predicciones de una en función de varias (X1, X2, etc.). Nosotros nos limitaremos a: 1- Modelos lineales bivariantes ! modelo de regresión más sencillo donde se implican únicamente 2 variables = bivariante (X y Y) y la relación entre ambas es lineal, es decir una recta.
La función es la ecuación de la recta, con una sola variable x: y = α + β ⋅ x / y = m·x + n Y = f (X) Ecuación recta El modelo de regresión intenta buscar la ecuación de la recta que mejor se ajuste a los puntos. Como los puntos no están alineados, pueden haber muchas rectas posibles. Para elegir cual es la mejor recta posible se aplica la regresión mínimo cuadrática.
Los valores de α y β se estiman de modo que se minimice la suma del cuadrado de los errores en la variable dependiente.   n ∑( y'i − yi ) 2 i=1 Existen otros métodos de análisis de regresión: no-lineal, multivariante, basados en criterios de máxima verosimilitud, etc...
REGRESIÓN LINEAL MÍNIMO CUADRÁTICA La ecuación de una línea recta contiene: # Una constante (a) que define dónde corta el eje Y (valor de Y para X=0) ! ordenada al origen # Una coeficiente (b) que multiplica a x y que define la pendiente de la recta (tangente del ángulo) ! tangente del ángulo que forma la recta con la horizontal= pendiente.
y = a + b·x 2n Medicina UPF- UAB A partir de una muestra, es posible trazar múltiples rectas, cada una con diferentes valores de a y b ¿Cuál es la mejor? ! Necesitamos definir un criterio objetivo Para cada recta, pueden calcularse las distancias entre los valores del modelo (valores teóricos) y los modelos observados en la muestra (“errores”) (valores experimentales).
ei = (yi − yi ' ) Diferencia entre Yi y Yi’ ! si seleccionamos otra recta estas diferencias varían = punto experimental que corresponde a una X determinada y a una Y experimental determinada (Yi).
= punto teórico, que corresponde a una X determinada y a una Y obtenida a partir de la recta (Yi’) Todos estos “errores” (diferencias entre Yi y Yi’) pueden acumularse en un único valor, sumando sus cuadrados: n 2 n E = ∑ ei = ∑ ( y i − y i ' )2 i=1 i=1 El criterio de mínimos cuadrados consiste en elegir, de entre todas las posibles rectas, aquella para la cual el valor de E sea más pequeño. Es decir, que as diferencias entre los valores predichos (Yi’) y los experimentales (Yi) sean lo más pequeño posible.
NOTA: ¿Qué pasaría si quisiéramos predecir X en función de Y? Seria todo igual pero se aplicaría el criterio de mínimos cuadráticos sobre las X (Xi y Xi’). En vez de minimizar las diferencias en vertical, se minimizarían las diferencias en horizontal.
2n Medicina UPF- UAB Puede demostrarse que esta recta es la que tiene los siguientes valores de ayb b= S XY = 2 SX ∑x y ∑x i a = y − b⋅ x i 2 i Mediana de las Y menos b multiplicado por la mediana de las X.
Suma de los productos de Xi i Yi / suma de las X i2 Estos valores a y b proporcionan la recta que mejor se ajusta a nuestra muestra (8 individuos/puntos de una población de más puntos) ¿Qué pasaría si obtuviéramos otra muestra? … … que obtendríamos otros valores de a y b, ligeramente distintos. La recta de regresión no hubiera estado igual.
Los valores de a y b son estimadores muestrales de los parámetros α y β, que corresponderían a la recta obtenida al trabajar con toda la población.
Los parámetros α y β no son conocidos.
La recta de regresión a partir de una muestra nos dará cierta información pero no completa sobre la regresión de la población.
EVALUACIÓN DE LA CALIDAD DE UN MODELO DE REGRESIÓN En la práctica, siempre es posible ajustar una recta a una nube de puntos, aunque el resultado no siempre es aceptable. Siempre se puede obtener la recta de regresión mínima cuadrática, la mejor recta de todas las posibles. No obstante puede ser una recta no aceptable= no permite hacer buenas predicciones de Y respeto X.
Recta mínima cuadrática. Se podría realizar buenas predicciones Recta mínima cuadrática. Las predicciones no son aceptables o correctas 2n Medicina UPF- UAB Obtener los valores de a y b es sólo la primera parte del trabajo. Después debe evaluarse la calidad del modelo, en términos de: # Bondad de ajuste ! como de bueno es el ajuste de la recta a la nube de puntos.
# Significación (o significancia) estadística ! hasta que punto la relación lineal que vemos en la muestra también existe en la población.
Un modelo de regresión siempre debe ser evaluado mediante varias pruebas Bondad de ajuste - Coeficiente de determinación (r2) Significación estadística - Contraste de hipótesis sobre la pendiente - ANOVA de la regresión NOTA: Los programas de estadística que hacen análisis de regresión suelen suministrar toda esta información.
Nuestro trabajo es saber interpretar adecuadamente los resultados BONDAD DE AJUSTE " Coeficiente de determinación ! El método más usado para comprobar la bondad de ajuste.
Parte de la dispersión de las Y que si podemos predecir con la recta SS − SSE r2 = Y = SS Y ∑ ( y − y i )2 − ∑ ei ∑ (y − y ) i 2 2 El valor del coeficiente de determinación expresa el porcentaje de la variación de Y que es explicada por el modelo. La variable Y tiene valores experimentales (Yi) que tienen una dispersión respecto la mediana de Y.
Podemos predecir cada una de las Y de acuerdo a su X (Y1, Y2, Y3, etc.) dándonos Y1’, Y2’, Y3’, etc. Por lo tanto hubiéramos obtenido unos valores de Y parecidos a los experimentales pero no iguales, se hubiera producido un error en la predicción llamado e.
NOTA: Error= diferencia Yi entre Y experimental (Yi) y la Y obtenida por el Dispersión Yi’ modelo (Yi’).
Mediana de Y Parte que no se puede predecir con la recta NOTA: Dispersió total = diferencia de todas las Y respecto la mediana de Y.
2n Medicina UPF- UAB Es un valor adimensional, que varía entre 0 y 1: - 0.0 ! el 0% de la variación de la Y se puede predecir mediante la de X - 1.0 ! el 100% de la variación de la Y se puede predecir mediante la de X NOTA: El valor del índice de determinación coincide con el cuadrado del coeficiente de correlación de Pearson (r) Ej.: Si obtenemos un coeficiente donde el 90% de la dispersión o variabilidad de las Y se puede predecir con la recta y el otro 10% es el error.
Dos casos extremos: No es posible ver una relación lineal En esta dispersión de puntos, mediante la recta de regresión podríamos predecir únicamente el 32% de la variabilidad de las Y.
Bondad de ajuste baja.
Relación lineal casi perfecta En esta dispersión de puntos, mediante la recta de regresión podríamos predecir el 97% de la variabilidad de las Y. Bondad de ajuste baja.
  NOTA: - r= coeficiente de correlación de Pearson - r2= coeficiente de determinación 2n Medicina UPF- UAB SIGNIFICACIÓN ESTADÍSTICA " Contraste de hipótesis sobre la pendiente ! Cuando las variables no están asociadas linealmente, el valor poblacional de la pendiente es nulo (aunque el valor muestral no lo sea).
NOTA: si la pendiente poblacional es nula significa que por cualquier valor de X, el valor de Y siempre seria el mismo ya que obtendríamos una recta horizontal. = mediana de las Y. Todas las predicciones serán un error. La recta no explica nada de les Y - H0: β=0 ! La pendiente poblacional es 0 - Ha: β≠0 ! La pendiente poblacional es diferente de 0 La hipótesis puede comprobarse mediante una prueba de contraste, usando como estadígrafo: t= b (SS Y ) / SS X − b2 n−2 El valor de p se obtiene usando una distribución de probabilidad t de Student con n-2 grados de libertad Los programas estadísticos nos ofrecen una tabla donde podemos observar: a= ordenada al origen b= pendiente ! -1,2 x10-2 = muy pequeña.
NOTA: aunque haya recta a nivel muestral ya que tenemos cierto valor de b, la β puede ser 0 ya que la significación estadística > 0,05. No se puede descartar la H0.
2n Medicina UPF- UAB " ANOVA de la regresión ! La dispersiones se comparan en términos de varianzas, en una tabla como ésta: El cociente entre las varianzas (F) expresa cuantas veces es mayor la varianza intergrupo con respecto a la intragrupo.
Si es mucho mayor, la probabilidad de que las diferencias observadas entre los grupos ocurran únicamente por azar será muy pequeña y podremos considerar que el factor que genera los grupos influye sobre la variable cuantitativa estudiada.
En el caso del análisis de regresión, el ANOVA divide la variabilidad total de Y (SSY) en dos componentes de la siguiente forma: SSY = SSR + SSE SSE= suma de cuadrados de los errores ! diferencias entre el valor experimental y el valor que obtendríamos. Es la variabilidad no explicada por el modelo.
SSE= suma de cuadrados de dispersión. Variabilidad explicada por el modelo.
Si el modelo es estadísticamente significativo, la variabilidad explicada por el modelo será significativamente mayor que la no explicada (o residual) MSR > MSE MSR à variabilidad explicada por el modelo MSE à variabilidad no explicada por el modelo = error - 2n Medicina UPF- UAB H0: MSR ≤ MSE ! si la mediana cuadrática explicada por la recta= mediana cuadrática error la recta no explicaría nada.
- Ha: MSR > MSE Las hipótesis también podrían formularse: - H0: β =0 ! La pendiente no es diferente de 0 - Ha: β ≠0 ! La pendiente es diferente de 0 La tabla tiene un aspecto muy parecido al caso de ANOVA de un factor NOTA: residual= error Suma de cuadrados total de la variable Y Varianzas 1 porque estamos en un modelo de regresión con una sola variable independiente (una sola X). Si tuviera varias X (X 1, X2) es decir dos variables predictoras, los grados de libertad de la regresión serian 2 Grados de libertad= tantos valores como variables predictoras hay SSE = ∑ ei2 = ∑ (yi − y')2 = SSY − b·SSXY SSR = SSY − SSE = ∑ (yi − y )2 − ∑ ei2 = b·SSXY Cociente (F) à comparamos las dos varianzas. El cociente entre las varianzas (F) expresa cuantas veces es mayor la varianza explicada con respecto a la residual Si es mucho mayor, la probabilidad de que ocurra únicamente por azar será muy pequeña y podremos considerar el modelo como estadísticamente significativo Los valores de F obtenidos en la tabla ANOVA se contrastan usando una distribución de probabilidad de Fisher La distribución de probabilidad de Fisher depende de dos valores de grados de libertad, que corresponden con los valores listados en la tabla La forma de la distribución varia según los grados de libertad.
2n Medicina UPF- UAB Ej.: Si obtuviéramos una F= 4, es decir que la varianza explicada por la recta es 4 veces mayor respecto a la residual. Buscaríamos el valor 4 en la distribución, y calcularíamos el área bajo la curva de 4 a + infinito obteniendo el valor de p NOTA: cualquier distribución de probabilidad, el área bajo la curva siempre=1 En SPSS, el anàlisis de la varianza de regresión nos ofrece una tabla: Total de la dispersión de la variable Y. Se descompone en: 1- Regresión 2- Residual= Error Grados de libertad 8= (7+1) En la recta de regresión hay 9 puntos que hemos considerado.
(n-1=8) n=9 Varianza de regresión – Cociente (F) es 196 veces más grande que la varianza residual.
Fisher Si buscamos el valor de 196 en la distribución de Fisher observamos que nos da un valor muy pequeño. Sale una área de la curva tan pequeña que SPSS lo interpreta como 0.000. Es un valor <0.05 Podemos descartar H0 Un resultado significativa del ANOVA muestra que el modelo explica una parte de la variación de la Y que no puede ser atribuida exclusivamente al azar Los resultados de ANOVA no deben sobre-interpretarse. En concreto, un ANOVA de regresión con p<0.05 no demuestra que: # El modelo lineal utilizado sea útil, permitiendo predecir muy bien las Ys a partir de las Xs (eso me evalúa con r2)- Bondad de Ajuste # El modelo lineal utilizado sea el mejor de los modelos posibles. Existen modelos de regresión cuadrática que podrían ser mejor al lineal.
# Exista una relación causal de cualquier tipo X-Y. Simplemente permite predecir una variable a partir de la otra.
# No existan otras posibles variables predictoras (X) que expliquen la parte de la varianza de Y que no ha sido explicada por el modelo. Una parte de la variación residual podría ser explicada por otras variables no consideradas en el modelo.
2n Medicina UPF- UAB INTERVALOS DE CONFIANZA PARA LAS PREDICCIONES El modelo utilizado es un modelo impreciso ya que estamos haciendo predicciones de Y a partir de X queriendo aplicar dichas predicciones a una población cuando lo valores los hemos obtenido a partir de una muestra.
Los parámetros a y b son estimadores muestrales de α y β. Dichos parámetros a y b pueden variar si se repite el análisis con muestras distintas.
Es posible calcular IC para el valor medio de Y para un cierto valor de X, xi. A nivel gráfico se representan con unas franjas que se juntan en el centro y nos permite observar por cada valor de X. La franja de valores posibles de Y.
Estos IC se pueden calcular a lo largo de todo el intervalo de X y se denominan bandas de confianza. Sus banda son más estrechas ya que nos permiten determinar el IC para la mediana de Y (mediana de Y que obtendríamos para todos los individuos) para una determinada X.
La anchura de las bandas es diferente dependiendo del valor de X.
Cerca del centro, sólo afecta la variabilidad en el valor de a, en los extremos el efecto la variabilidad en la pendiente es más acusado También podemos desear calcular un IC para la predicción del valor de Y (yi) correspondiente a un cierto valor de X (xi). No debe confundirse con el IC de la media de Y para un cierto valor de X.
Cuando el IC para las predicciones de Y se calcula para todo el rango de X, se definen bandas de predicción, más anchas que las bandas de confianza. Sus banda son más anchas ya que nos permite determinar el IC para la estimación de Y dada X para un individuo concreto.
CONSIDERACIONES PRÁCTICAS: Cuando realizamos un análisis de regresión tenemos que tener en cuenta una serie de problemas asociados a dicho análisis: # Presencia de puntos singulares (outliers). Cuando se representan los puntos en dos ejes de coordenada nos proporciona una idea de si estos puntos están alineados, dispersos o no. Un punto singular, es un punto que sigue una tendencia diferente al reste de puntos los cuales están más o menos alineados. Estos puntos tienen una gran influencia sobre el análisis de regresión dependiendo de su posición: 2n Medicina UPF- UAB Colocado en una zona más o menos central a la distribución no se observa una gran distorsión de la recta de regresión.
Colocado en una zona no central a la distribución se observa una gran distorsión de la recta de regresión.
Existen dos comportamientos de los investigadores ante la presencia de estos puntos singulares: 1- Eliminación del punto singular ! podría causar una trampa en la experimentación ya que saldría todo perfecto.
2- Investigar por qué se producen ! es lo más correcto ya que nos puede aportar ideas nuevas y valiosas en el proyecto.
NOTA: Si en esta investigación se encontrara un factor que justificara la eliminación del punto, esta eliminación seria correcta. No se puede eliminar sin justificación.
# Agrupamiento de observaciones ! a veces los datos no se distribuyen homogéneamente a lo largo del eje X, sino que se distribuyen en grupos o clusters. El modelo de regresión tiende simplemente a unir los centros de ambos grupos. Realizar un análisis de regresión lineal en este caso no seria correcto porque dicha regresión lineal esta pensada para puntos que se distribuyen de forma homogénea.
La presencia de estos grupos puede manifestar la presencia de diversas familias de objetos.
Deberían obtenerse modelos de regresión para cada grupo por separado 2n Medicina UPF- UAB # Dudas sobre la linealidad del modelo ! en ocasiones, la observación de los gráficos de dispersión puede hacer sospechar la existencia de un modelo no-lineal. ¿Es mejor ajustar una recta o una parábola? Los métodos de regresión no-lineal deben usarse cuando exista una justificación adecuada. Su uso excesivo puede generar modelos “sobre-ajustados” (overfitting) que se ajustan muy bien a los puntos de la muestra pero que no lo hacen a los de la población.
Los métodos de regresión no –lineal mejoran la Bondad de ajuste (r2) pero disminuyen la significación estadística ya que estamos haciendo una solución local, más adaptada a los puntos y menos generalizable a toda la población.
Una de las reglas de oro es observar siempre los gráficos de dispersión (scatterplots) para detectar posibles irregularidades.
Ninguna prueba estadística puede remplazar la información que se obtiene simplemente observando los datos.
ANÁLISIS DE REGRESIÓN CON VARIABLES CUALITATIVAS: Una situación frecuente es que la variable Y no sea una variable continua, sino una variable categórica con dos posibles valores (dicotómica): Ej.: # Se cura, no se cura # Cultivo crece, cultivo no crece Nos interesa obtener un modelo que represente la relación de esta variable (variable resultado) con respecto a una serie de variables cualitativas o cuantitativas que sospechamos pueden tener que ver en el resultado (variables predictoras) Curación= f (edad, sexo, tratamiento) Variable resultado= Curación (cualitativa “es cura si o no” Variables predictoras: - Variables cualitativas= sexo, tratamiento - Variables cuantitativas= edad 2n Medicina UPF- UAB En estos casos se acostumbra a llevar a cabo un análisis de regresión logística.
Ej.: Tenemos datos con la edad y la presencia o no de una enfermedad coronaria (CHD) para 100 individuos. Queremos obtener un modelo que represente la relación entre la edad y padecer CHD (0=CHD no, 1=CHD sí) Una posibilidad es intentar hacer un modelo de regresión lineal ignorando que la variable CHD es dicotómica… Variable predictora cuantitativa= edad Variable resultado o cualitativa= tener o no CHD.
Si la persona padece CHD se ind Diagrama de puntos: Individuos que a cualquier edad padecen enfermedad coronaria (1) Los datos no siguen una línea recta y aunque se pueda obtener la recta de mínimos cuadrática no es buena para hacer predicciones.
Además el modelo predice valores imposibles, ya que solo tienen sentido los valores 0 y 1 ¿Qué hacer? Individuos que a cualquier edad no padecen enfermedad coronaria (0) RELACIÓN CON PROPORCIONES: El modelo lineal no puede funcionar porque la edad no determina exactamente el tener CHD. Lo que ocurre es que a ciertas edades hay más proporción de CHD.
2n Medicina UPF- UAB Si categorizamos las edades y contamos la proporción enfermos/sanos para cada rango de edad observamos que existe una relación… Dividimos las edades en intervalos del mismo tamaño. Contaremos cuantos individuos en la muestra padecen o no padecen enfermedad en ese intervalo de edad.
Ej.: En el intervalo 20-29 años se observan 9 pacientes no enfermos y 1 que si lo esta. Frecuencia del 10% (1 sobre 10 individuos) de enfermedad coronaria en este intervalo de edad.
Realizamos una gráfico de estas frecuencias: Observamos como varia la probabilidad de padecer enfermedad para cada una de las edades.
Como variando la edad varia la probabilidad de enfermedad coronaria.
Observando este gráfico vemos que la función no tiende a parecerse a una recta, sino a una curva sigmoidea, ya que está limitada a tomar valores entre 0 y 1 (la probabilidad no puede tomar valores mayores a menores a 0 y 1).
NOTA: si hiciéramos una recta nos llevaría a valores más grandes o más pequeños de 0 y 1. Por este motivo tenemos que tener una asíntota en el 0 y en el 1.
Esto es así, porque los valores de la relación enfermos/sanos oscila entre 0 (ningún enfermo) y 1 (todos enfermos) La función que representa la función sigmoidea depende de dos parámetros; α y β. La representación matemática es: P( x ) = P(x) representa P(Enf=1|x) à probabilidad de enfermedad dado x= edad 1 1 + exp( −α − βx ) 2n Medicina UPF- UAB Nuestro objetivo sería encontrar α y β, pero esto no es fácil porque la relación entre P(X) y X no es lineal.
¿Qué hacer? ⎛ z ⎞ logit(z) = ln⎜ ⎟ ⎝ 1 − z ⎠ El truco es aplicar a esta ecuación la transformación logit o logística: Si aplicamos esta transformación, la búsqueda de α y β resulta más fácil.
TRANSFORMACIÓN LOGIT: Se aplica la transformación logit a ambos lados de la función: Y en esta forma si que hay una relación lineal entre X e Y α= ordenada al origen Y= α + βx ! Ecuación de una recta de regresión β= pendiente ECUACIONES DE LA REGRESIÓN LOGÍSTICA: Cuando queremos modelar la relación entre la probabilidad de que ocurra algo y una variable x podemos usar la función: P( x ) = 1 1 + exp( −α − βx ) Matemáticamente equivalente ⎛ P( x) ⎞ ⎟⎟ = α + βx ln⎜⎜ 1 − P ( x ) ⎝ ⎠ NOTA: Ambas ecuaciones son distintos modos de expresar la relación entre P(x) y x 2n Medicina UPF- UAB OBTENCIÓN DE LOS COEFICIENTES: Los valores de α y β se determinan computacionalmente, mediante un método que no es de mínimos cuadrados, sino de máxima verosimilitud (likelihood, versemblança). De todas las rectas posibles la mejor según la máxima verosimilitud no mínimos cuadráticos. Se quiere buscar que la estimación que hacemos de la probabilidad sea el más ajustada posible en términos de probabilidad.
" En SPSS: Variables in the Equation Step a 1 AGE Constant B ,111 -5,331 S.E.
,024 1,128 Wald 21,639 22,323 df 1 1 Sig.
,000 ,000 Exp(B) 1,117 ,005 a. Variable(s) entered on step 1: AGE.
log it(P(edad)) = −5.33 + 0.11.edad Edad= variable X α= ordenada al origen Logit (P(X))= α + βx β= pendiente INTERPRETACIÓN DE LOS COEFICIENTES: Ej.: Para un paciente de 65 años, ¿Qué nos dice este modelo? Variable x= edad= 65 años ⎛ P(65) ⎞ ⎟⎟ = −5.33 + (0.111)⋅ 65 = 1.88 ln⎜⎜ ⎝ 1 − P(65) ⎠ La primera parte de la ecuación es el logaritmo neperiano de la probabilidad de que sufra CHD con respecto a la probabilidad de que no sufra CHD cuando tiene 65 años Este valor no se puede interpretar muy bien, por este motivo debe deshacerse el logaritmo: " P(65) % 1,88 ' = exp(1.88) = e = 6.55 # 1− P(65) & Antilogaritmo ! $ Cociente obtenido de dividir la probabilidad de padecer enfermedad entre la probabilidad de no padecerla a una determinada edad (65 años) La probabilidad de padecer enfermedad es 6 veces mayor que la probabilidad de no padecerla 2n Medicina UPF- UAB Los coeficientes β, en forma exponencial, tienen el mismo sentido que los OR (odds ratio) ! probabilidad de tener enfermedad respecto no tenerla exp(β) = OR Cuando X es una variable dicotómica (ej.: sexo) Cuando X es una variable continua (ej.: edad) exp(β) indica el aumento del riesgo de sufrir CHD exp(β) indica cuanto aumenta el riesgo de sufrir al cambiar el valor de la variable dicotómica X CHD por cada unidad de X El exponencial es directamente el OR, es decir el El exponencial nos ofrecen el aumento del riesgo al cambio de riesgo de estar sometido al factor respecto aumentar la variable cuantitativa.
a no estarlo. Cuantas veces más tenemos la enfermedad al estar sometido al factor respecto a no Ej.: si exp( β)= 1,117 indica que por cada año que estarlo.
pasa el riesgo aumenta en un 11%.
NOTA: si β es negativa, exp(β) <1 à el riesgo se reduce con el cambio de X ya que estamos hablando de un factor de protección. (OR= valor <1) Ej.: en SPSS Edad paciente= Variable cuantitativa Variables in the Equation Step a 1 AGE Constant B ,111 -5,331 S.E.
,024 1,128 Wald 21,639 22,323 df 1 1 Sig.
,000 ,000 Exp(B) 1,117 ,005 a. Variable(s) entered on step 1: AGE.
exp(β)= 1.117 = factor de riesgo à indica cómo cambia el riesgo de padecer CHD (en forma de odds) por cada año que aumenta la edad del paciente Podríamos imaginar como una tabla de contingencia donde a cierta edad tenemos un nº de individuos con enfermedad y con no enfermedad: Los odds AGE=n+1 (A/B) son 1.117 veces los odds de AGE=n (C/D); por cada año de edad, los odds aumentan un 11.7% 2n Medicina UPF- UAB El coeficiente α es un indicador del “riesgo basal” de padecer la enfermedad, es decir, el riesgo por edad más bajo posible (0 años). En el caso de tener una variable dicotómica (ej.: fumar si o no) α seria el riesgo correspondiente a los no fumadores y β hablaría del cambio del riesgo al pasar de no fumador a fumador.
El valor de α, depende de que la muestra estudiada tenga una proporción sanos/enfermos similar a la que existe en la población.
- En estudios de cohortes, puede estimarse el valor de α, el modelo puede utilizarse para hacer predicciones de la probabilidad. Estudio donde la muestra tiene una composición de individuos sometida a un factor de riesgo y otra no sometida que corresponde a la composición de la población, es decir que las diferencias entre la muestra y la población se deben únicamente al azar.
Ej.: factor de riesgo fumar. Obtenemos una muestra donde la presencia de fumadores y no fumadores en la muestra es igual que en la población.
- En estudios de casos y controles, NO puede estimarse el valor de α y el modelo NO puede usarse para hacer predicciones de la probabilidad. La composición de individuos sometidos al factor y no sometidos en la muestra no es representativo de la población.
Ej.: composición de fumadores y no fumadores en la muestra escogida por nosotros (50% fumadores y 50% no fumadores) NOTA: en estudios de casos y controles no podemos usar α, solo podemos utilizar β. α únicamente tiene un valor cuando el estudio es de cohortes.
SIGNIFICACIÓN ESTADÍSTICA Como en el caso de la regresión lineal, en la regresión logística, los parámetros que obtenemos en nuestros cálculos son estimadores de los parámetros poblacionales α y β y, consecuentemente, hay que estudiar la significación estadística del modelo Los contrastes de hipótesis más utilizados son: # Estadígrafo de Wald # Likelihood ratio Variables in the Equation Step a 1 AGE Constant B ,111 -5,331 S.E.
,024 1,128 Wald 21,639 22,323 df 1 1 Sig.
,000 ,000 Exp(B) 1,117 ,005 a. Variable(s) entered on step 1: AGE.
La prueba de Wald indica que el efecto de la edad es estadísticamente significativo (p<0.0005) 2n Medicina UPF- UAB RESUMEN - La regresión logística univariante se utiliza para modelar la probabilidad de que ocurra un cierto suceso dicotómico, en función de un factor x que puede representar una variable continua o discreta.
- Los coeficientes en forma exponencial exp(β) pueden interpretarse como aumento del riesgo por unidad de X (odds) y en el caso de variables cualitativas dicotómicas como OR - Los coeficientes obtenidos son estimadores, cuya significación estadística deber ser comprobada - Los modelos pueden utilizarse para predecir probabilidades, pero sólo cuando la proporción sanos/enfermos de la muestra es representativa de la que existe en la población ...