12- Correlación (2017)

Apunte Español
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Ciencias Biomédicas - 1º curso
Asignatura Bioestadística
Año del apunte 2017
Páginas 8
Fecha de subida 01/08/2017
Descargas 0
Subido por

Vista previa del texto

TEMA 12: CORRELACIÓN Usamos la correlación cuando buscamos la relación entre 2 variables cuantitativas aleatorias.
Vemos que aquí los puntos no se ajustan perpendicularmente, como pasaba en regresión, sino que se encuentran distribuidos aleatoriamente.
 Relación de 2 variables cuantitativas aleatorias Tenemos 2 variables cuantitativas aleatorias y queremos ver existe una recta que se ajuste a la distribución y es útil para sacar conclusiones.
R nos dice cuánto varía la diferencia de X respecto a su media y la Y respecto a la suya. La podemos calcular de cualquiera de las dos formas.
La manera de encontrar la ecuación de la recta es la misma que en regresión, buscamos la mejor recta.
El coeficiente de correlación de Pearson va de -1 a +1 pasando por el 0. Cuanto más se acerque a +- 1, mejor se ajustan los puntos a la recta. Cuando es positivo indica que cuando las X aumentan también las Y, y cuando es negativo que al aumentar las X disminuyen las Y.
Cuando r=0, puedo encontrar rectas en todas las direcciones, por lo tanto no son útiles.
1  Coeficiente de correlación de Pearson Aquí vemos ejemplos con diferentes r.
En la primera fila, cuanto más me acerco a 0, más me acerco a un óvalo. Cada vez se va haciendo más ancho.
En la segunda fila todas las r=+-1, la r no me indica la inclinación, solo me dice si los datos se ajustan bien a la recta. La pendiente de la recta me la da la b de la ecuación.
Los de la tercera fila tienen una correlación de 0.
Un coeficiente de correlación pequeño o nulo no indica necesariamente que haya poca relación entre las variedades. El coeficiente de correlación solo mide la correlación lineal, pero puede haber una relación no lineal.
 Correlación: Valores de r y fuerza de relación  -1 / 1: Correlación perfecta.
 -1 – -0.8 / 0.8 – 1: Correlación fuerte. Se corresponde con la primera gráfica.
 -0.8 – -0.5 / 0.5 – 0.8: Correlación moderada. Se corresponde con la segunda gráfica.
 -0.5 – 0 / 0 – 0.5: Correlación débil. Se corresponde con las dos últimas gráficas.
2 Hacemos un análisis con los puntos azules en la primera gráfica y obtenemos una r de 0.805, que es una correlación positiva fuerte. Pero si hacemos el estudio con el punto amarillo que está desplazado obtenemos otra recta que se aleja más de los azules y sigue estando muy lejos del amarillo, tenemos ahora una r de 0.263, es que correlación débil.
Tal vez las condiciones en las que hemos tomado los datos del punto amarillo no sean las óptimas.
Con este punto me puede parecer que no tengo relación, pero realmente si la tengo, es solo ese valor que está aislado.
También puede pasar justo al revés. En la segunda gráfica hacemos la recta de regresión con todos los puntos y tenemos una r de 0.607, correlación moderada. Pero tenemos ese punto aislado que podría ser un error. Si no lo tengo en cuenta, vemos que la correlación es de 0.043, esta correlación es muy débil. Lo que hemos hecho inicialmente es el ajuste a un punto gordo.
Parece que hay una buena relación pero es ficticio.
En el último caso, tenemos una correlación de 0.82, que es muy buena, así que si no miramos la gráfica podríamos pensar que la relación lineal es la adecuada. Pero al ver la gráfica vemos que en el último no es un buen modelo.
Por eso es importante además de ver la r, ver cómo es la gráfica, porque la r nos puede dar falsas impresiones.
3 Lo que realmente queremos al hacer un análisis de este tipo es ver si podemos extrapolar los datos a la población.
Que podamos extrapolarlo a la población o no depende de la F, que se calcula con las r2 y con sus grados de libertad.
Calculamos así el valor experimental y vemos así si rechazamos la H0 o no.
El estadístico experimental contrasta su el valor de r obtenido puede considerarse que procede o no de una población, en la que las dos variables estén relacionadas linealmente.
En realidad r2= SCEX/SCT, así podemos sustituir y operar en la fórmula y nos queda la última expresión. Así me dice si la correlación es significativa o no.
Una correlación significativa no necesariamente ha de ser una correlación fuerte; simplemente es una correlación diferente de 0.
Una correlación significativa solo me indica que los datos que tengo en la muestra representan a una población más o menos similar.
En esta tabla encontramos los valores de r a partir de los cuales una correlación tenderá a ser significativa, en función del tamaño de la muestra.
El coeficiente de correlación en una muestra de tamaño grande tiende a ser significativo, aunque su valor absoluto no sea demasiado elevado.
Por ejemplo, si tengo 50 individuos, con 0.2732 va a ser significativa y con 0.3541 muy significativa.
4 Imaginemos que tenemos una población que se ajusta con una r de 0.675 a la recta, pero claro, la población son 1800 personas. Yo no puedo hacer el estudio con 1800 personas, por lo tanto saco una muestra y saco las conclusiones sobre esa muestra.
Con 95 personas tenemos una r parecida y es muy significativa, porque la p es muy pequeña.
Pasa algo parecido con 40 y 15.
Pero cuanto menor sea la r de la población, menos se parecerán las r de las muestras y cuanto más pequeñas sean menos significativas serán.
La correlación ha de ser relativamente fuerte para que con pocos casos se detecte.
Si se duda, habrá que aumentar el número de casos para ver si se detecta o no. Cuando es poco significativa, con pocos casos no lo detecto, el único modo es aumentar el número de casis y ver si así se me ajusta a la recta.
En el último caso, si tenemos una nube prácticamente al azar, no con 95 ni con 15 casos va a ser significativa, porque la población ya es al azar.
5  SPSS-Correlación En el SPSS nos metemos en analizar, correlaciones y bivariadas. Podemos ponerle tantas variables como queramos. Le damos a calcular el coeficiente de Pearson.
Tenemos la opción de escoger bilateral o unilateral. Esto lo elegimos según el problema. Tengo la opción de escoger porque la distribución no es simétrica, así que no puedo multiplicar o dividir por 2. Por eso yo decido cuál hacer.
6 Obtenemos los resultados. En este caso tenemos 5 variables, así que tenemos una tabla de 5x5.
La diagonal es la comparación consigo misma, por eso el coeficiente de correlación de Pearson es 1. La tabla es simétrica respecto a la diagonal, de modo que solo tenemos que mirar una mitad.
Podemos mirar cómo está relacionado colesterol con creatina, por ejemplo. Tenemos una correlación de 0.2 y una significación de 0.061, de modo que no es significativa. La N me ayuda a decidir si es lo suficientemente grande.
Podemos mirar HDL colesterol final con creatina, que tiene un asterisco, que indica que la correlación es significativa al nivel de 0.05. Se corresponde con la gráfica de cuadro rojo.
Si comparamos glucemia con creatina, tiene 2 asteriscos, que quiere decir que la correlación es significativa en el nivel 0.01. Es decir, que la probabilidad de equivocarnos al decir que ρ es distinta de 0 es mucho más pequeña.
Vemos en los gráficos la recta que se ajusta más o menos a los datos.
La p la calcula con el estadígrafo experimental que hemos visto antes.
Esto, mirado en una distribución de Fisher me dice que la p es 0.023, es el área más allá del estadígrafo que hemos calculado con la fórmula. Es decir, me da la probabilidad de equivocarme diciendo que son distintos si no lo fueran.
Si la p es muy grande me equivoco, así que no me arriesgo.
7 Obtendríamos por ejemplo una representación como esta, si le doy mis datos y le digo que me represente una recta. Pero me da r2, siempre, pero lo que yo quiero ahora es una correlación, así que tengo que hacer la raíz cuadrada de los que me da.
8 ...

Comprar Previsualizar