8-t Student (2017)

Apunte Español
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Ciencias Biomédicas - 1º curso
Asignatura Bioestadística
Año del apunte 2017
Páginas 32
Fecha de subida 01/08/2017
Descargas 0
Subido por

Vista previa del texto

TEMA 8: T-STUDENT  Estadística inferencial Con Leo Pardo vimos la estadística inferencial monovariante. Ahora vamos a ver la bivariante.
Puede ser de 3 tipos:    Cualitativa- Cualitativa: Venemos si dos muestras distintas pertenecen a poblaciones con porcentajes iguales. A su vez las muestras serán independientes o apareadas.
Podemos hacer el análisis de k muestras.
Cualitativa-Cuantitativa: Lo importante en este caso es la cuantitativa. Los contrastes son de medias en los grupos de la variable cualitativa. Tambiñen pueden ser independientes o apareadas. Podemos tener k muestras.
Cuantitativa-Cuantitativa: Hacemos el análisis de cómo se distribuyen los puntos entorno a la recta. Hacemos un análisis de regresión cuando tenemos una varible aletoria y una diseñada y un análisis de correlación cuando tenemos dos variables aletorias.
Empezaremos hablando de las cualitativas-cuantitativas, cuando tenemos 2 muestras independientes.
1 Nos estamos planteando si dos tratamientos distintos hacen lo mismo respecto a una enfermedad.
Lo primero es identificar las variables que tenemos. En este caso vemos que tenemos el tiempo, que sería cuantitativa y por otro lado el tipo de antibiótico, que sería cualitativa.
Podríamos tomar solo las muestras y ver los resultados que tenemos, pero queremos ir más allá, queremos ver cómo serían las poblaciones.
Son variables independientes porque los tratamientos son aplicados a personas diferentes.
De este modo creamos 2 condiciones ambientales diferentes, con diferente n, x media y s. Nos plantemos si las medias poblacionales son iguales o una es mayor que la otra.
Lo que nosotros nos preguntamos es lo que ponemos en la hipótesis alternativa o H1, a excepción de la igualdad, que siempre va en la hipótesis nula o H0. La hipótesis nula tiene el suceso complementario a la alternativa.
Necesitamos definir una distribución de muestras, que es aquella que viene dada por la comparación de las medias de las muestras. El valor promedio o esperanza matemática es el diferencia.
Presuponemos que la esperanza es μ1-μ2. Con la varianza hacemos lo mismo, pero en este caso siempre se suma. Podemos hacer esto con la varianza porque son sucesos independientes.
Conociendo la esperanza y la varianza, si son distribuciones normales, creamos una distribución normal tipificada, que es la misma fórmula que para una sola, solo que ahora combinamos dos variables. Tenemos por lo tanto 2 μ, σ y n.
Pero claro, no conocemos σ2, así que lo normal es que tengamos que usar las varianzas muestrales (s2). Por lo tanto tendremos que usar ahora una distribución t-Student.
El estadígrafo va a depender de si las varianzas son conocidas o no y dentro de las desconocidas si son las mismas o diferentes.
2 Si las varianzas (σ2) son conocidas, la fórmula que debo usar es la de z, en cambio cuando son desconocidas tengo que usar t-Student, pero esta fórmula va a ser diferente en función de si σ2 son iguales o diferentes.
Realmente las dos primeras fórmulas son iguales, la segunda lo que hace es una media ponderada de las desviaciones típicas y en el denominador tiene n1+n2-2 porque cada una de las variables tiene como grado de libertad n-1.
Cuando σ2 son desconocidas y distintas, la fórmula es casi la misma, lo que se complica en este caso es conocer los grados de libertad.
¿Cómo sé que las σ2 son iguales o distintas si no las conozco? Queremos discernir entre las fórmulas y por lo tanto hacemos un contraste de hipótesis sobre si las σ2 son iguales o diferentes.
Hacer una t-Student implica otro contraste de hipótesis.
Si rechazo H0, son desconocidas y distintas.
Este contraste se hace con la distribución F de Fischer Snedecor. Esta distribución tiene asociado 2 grados de libertad simultáneos (ν1 y ν2). Al desarrollar la fórmula obtengo otra que me combina las varianzas muestrales (s2) con las poblacionales (σ2), de modo que si tengo las muestrales puedo conocer las poblacionales.
3  Distribución F de Fischer-Snedecor Dadas dos variables aletaorias X2 con ν1 y ν2 grados de libertad, se define la distribución F de Fischer-Snedecor como: Tiene una forma parecida a X2, no es simétrica, va de 0 a ∞ y depende de ν1 y ν2.
El área desde un determinado punto a la derecha es α.
Ahora las tablas van a ser algo más complicadas. Necesitamos 2 grados de libertad. Los del numerador aparecen en la fila de arriba, los del denominador en la derecha y el área de α son los grupos a continuación de este.
Vemos que en el ejemplo 4 es el numerador, 3 el denominador y 0.05 es α. El punto de corte lo situamos en 9,12.
Si quiero por ejemplo 1-α no tengo ningún valor que me deje el 95% a la derecha y la curva no es simétrica, de modo que no puedo hacerlo como la normal y t Student. De modo que recurro a una propiedad que es que una F es la inversa con numerador y denominador cambiados. Son inversamente proporcionales.
4 Por ejemplo para hacer F4,3;0.95 es la inversa de F3,4;0.05. Los valores que dejan mucho a la derecha son muy pequeños, mientras que los que dejan poco son muy grandes.
 Variables aleatorias que siguen una F de Fischer-Snedecor Las variables aleatorias nos sirven para combinar la información de una varianza muestral con una poblacional. Cuando opero, se me queda la expresión que hemos visto antes, donde solo están varianzas muestrales y poblacionales. Puedo pasar de población a muestra y al contrario.
5  Utilidad F de Fischer-Snedecor: Intervalo de probabilidad para el cociente de varianzas muestrales El intervalo de probabilidad de s12 y s22 depende de la distribución F en ambos lados, multiplicados por las varianzas poblacionales. Si planteo que son iguales, el cociente es 1, de modo que queda solo la distribución F a cada lado. Para que sean iguales, el cociente de s12 y s22 debe estar entre los valores del intervalo, si esto no es así, las varianzas poblacionales no son iguales.
Ejemplo: Suponemos que el cociente entre las varianzas poblacionales es 1. En primer lugar hago el cociente de las s y luego miro la otras dos F, haciendo en una de ellas la inversa. Tengo que el intervalo es (0.24; 4.36) y el cociente es 1.78, de modo que está en el intervalo y concluyo que las varianzas poblacionales son iguales.
Truco: Dividiendo la varianza mayor entre la menor, el cociente será mayor que 1 y es suficiente hacer la comparación del extremo F superior. Ocurre al contrario cuando dividimos la varianza menor entre la mayor.
6  Relación entre distribuciones Son importantes estas igualdades, que veremos más adelante. Se puede comprobar mirando en tablas.
Las hipótesis se basan en las muestras, a partir de las cuales poder calcular los estadígrafos para sacar conclusiones.
Es importante el tamaño de la muestra, ya que si no rechazamos la hipótesis nula, no habremos tenido en cuenta qué error β hemos podido cometer, porque β no se conoce. De modo que necesitamos un tamaño adecuado para asegurarnos de que β es pequeño.
En función de cómo sea σ2, la calculamos con una fórmula u otra. Cuando son desconocidas se hace con una t-Student.
7 Pero en estas fórmulas tengo 2 errores. En primer lugar que las varianzas muestrales no las tengo antes de hacer la muestra, para solventar esto se hacen estudios pilotos o se mira en la bibliografía.
Por otro lado, si quiero saber t, α y β para calcular n, dependen de los grados de libertad y los grados de libertad dependen de n, entraríamos en un bucle. Por lo tanto suponemos que n es mayor que 30 y hacemos la z. Si esto es así no hemos cometido un error grave, ya que ambas se parecen mucho para n>30. En el caso de que nos saliera pequeña, habría que hacer un proceso recurrente.
Las fórmulas cambian cuando los estudios en vez de ser unilaterales son bilaterales, entonces cambiamos α por α/2. En los unilaterales acumulamos el error en una sola α.
Calculamos entonces el tamaño de la muestra. Tendríamos que calcularla con t, pero lo aproximamos a la z y ponemos la σ2 que nos dan. La diferencia que queremos detectar es de 2 días. Con todos estos datos nos sale que necesitamos 48 casos en cada una de las 2 muestras.
8 Tenemos ahora los resultados del estudio realizado, miramos los estadígrafos y cogemos la situación que tenemos. Primeramente, las s son desconocidas, pero tenemos que ver si son iguales o no.
El cociente entre las varianzas muestrales es 1.1, que se corresponde con la F.
Como es más de 1, es suficiente hacer la F de la derecha, pero en las tablas no tenemos 47, 47, el más parecido es 40. Hay una página web que permite calcular F de cualquier valor: www.statdistribution.com. Esta página me dice que F es 1.784.
Por lo tanto el 1.1 está dentro del intervalo, así que no rechazo la hipótesis nula, considero que las σ son iguales. Como son iguales, uso la primera expresión que aparece para solucionar el problema.
9 Presuponiendo que se cumple la hipótesis nula, el término de las μ se va.
Me sale el estadígrafo de -4.8. Miro si cae dentro del intervalo o no, para ello debo mirar las t Sutent para los grados de libertad que tenemos. La t es +- 1.986, de modo que cae fuera por la izquierda. Rechazo la hipótesis nula y no puedo considerar iguales las medias poblacionales de 12 y 15.
¿Qué error puedo cometer al rechazar H0? α.
Tengo que mirar la probabilidad de equivocarme, calculo el área desde p hasta menos ∞, por lo tanto busco el área de -4.8 para abajo, busco la p.
El 4.8 está más allá de la p 0.0005, el menos del 5 por 10.000. Pero mucho cuidado, que el problema es bilateral, tengo que multiplicar esta p por 2.Finalmente puedo concluir que son distintas con una probabilidad de equivocarme del 1 por 1.000.
10 11 Veamos ahora muestras apareadas, para ello usaremos de ejemplo el problema 8.2.
12 Nos pregunta si el medicamento produce una reducción del colesterol. La variable cuantitativa es el nivel de colesterol, y tenemos 2 grupos a comparar, el antes y el después.
Como queremos ver la diferencia entre la media muestral inicial y final, contamos con el mismo conjunto de individuos, de modo que tenemos una única muestra.
Lo que pretendemos es convertir la distribución muestral en una poblacional a través del conocimiento de la esperanza y varianza. No importa el orden en el que se resten las medias muestrales, esto solo cambiará el signo. No podemos hacer lo que hicimos anteriormente con la varianza porque los datos no son independientes (son apareados), de modo que tenemos que buscar una estrategia alternativa para resolver el problema.
Comenzamos generando una nueva variable, la diferencia de los datos iniciales y finales de cada individuo y vemos si la variable diferencia cambia o no cambia. Si no generáramos esta nueva variable, no podríamos hacer uso de las propiedades de comparación al no ser independientes.
Pasamos, por tanto, a tener una única variable. Si esa variable es normal sigue una distribución normal, podemos tipificarla restándole a la media de las diferencias la media poblacional y dividiendo por σ/√𝑛.
El hecho de tener una sola variable nos simplifica el problema, ya que tenemos una fórmula sumilar a la comparación de medias muestrales.
Normalmente al denominador se le llama error estándar, que se calcula con la desviación típica de la distribución que estamos usando.
Cuando no sepamos la varianza poblacional usamos t Student, con grados de libertad n-1, porque los individuos son los mismos.
El tamaño de la muestra se calcula como hicimos anteriormente, podemos hacerlo con σ si la conocemos o con t si no.
13 Generamos la variable diferencia y queremos ver si hay disminución, lo que implica que planteemos las hipótesis que aparecen en la diapositiva. Es un problema unilateral.
Tenemos que fijar el nivel de significación, es decir, los errores. El tamaño de la muestra ya lo tenemos, el error α=0.05 como mucho. Tras hacer cálculos la media de las diferencias es 37.7 y la desviación típica 41.5. Estos datos los usamos para calcular el estadígrafo, que se basa en la tStudent porque no sabemos σ. Si se cumple la hipótesis nula, se nos va μ (porque nos posicionamos. Además si me da igualdad o diferencia es respecto a 0, si fuera otro valor me lo da el problema) y nos queda que la t=-3.5.
Para sacar la conclusión tenemos que contrastarlo con los valores de t-Student. Como nos pregunta por la disminución, el punto de corte está a la izquierda. Buscamos en las tablas una t con 14 grados de libertad y un α de 0.05, y nos sale que el límite es -1.761.
Con estos datos rechazamos la hipótesis nula y solo nos falta calcular la p. Como rechazamos H0, cometemos un error tipo 1.
La p es la probabilidad de encontrar ese valor α o más extremos. Buscamos en tablas y vemos que p está entre 0.001 y 0.005, también podemos ir a la tabla de la web y ver que nos sale 0.002.
Sabemos resolver la comparación. En el caso de que no fuera unilateral, habría que multiplicar p por 2.
14  Variables cuantitativa vs. Variable cualitativa (2 grupos) En realidad hemos estado siguiendo la tabla, pero hemos visto solo los casos en los que las variables son normales. En el caso de que no lo fueran tenemos que recurrir a pruebas no paramétricas no basadas en desviaciones típicas.
La paralela al t-Student es la U de Mann-Whitney y la paralela a la variable diferencia es el test de Wilcoxon.
Pero nos falta un paso, saber si las distribuciones son normales o no. Para ver la normalidad existen unos test que son pesados de hacer, pero que podemos hacer fácilmente con el SPSS.
 SPSS- Kolmogorov-Smirnov / Shapiro-Wilk de 1 muestra 15 Usamos como hipótesis nula normalidad y como alternativa no normalidad. Queremos ver si nuestros datos se separan tanto de la normal que no son normales.
En estos contrastes los planteamientos son siempre estos.
Seguimos los pasos que nos marca la diapositiva en el SPSS. No pasa nada si no ponemos lo que señalan las manos, pero al ser un test largo que da mucha información es mejor restringir y ver solo lo que nos interesa.
Queremos ver si el peso inicial en hombres y el peso inicial en mujeres es normal.
El SPSS me da la información de los dos grupos por separado. En el caso de que solo quiera la variable diferencia no pongo grupos.
¿Cuándo uso un test u otro? Si tenemos más de 30 individuos uso Kolmogorov-Smirnov y si tengo menos de 30, Shapiro-Wilk.
En este caso uso Shapiro-Wilk.
El test no me da los estadígrafos, sino que me da los grados de libertad y la significación (p), es decir, la probabilidad de equivocarme al rechazar la hipótesis nula.
Si la p es muy grande, más de 0.0005, no rechazo la hipótesis nula, pero si es menos sí.
Tenemos que contrastar con los niveles de significación de nuestro estudio.
En este caso ambas p son mayores, de modo que nada se opone a aceptar que el peso es normal en hombres y mujeres, así que puedo resolver el problema usando una t-Student.
No digo que se acepta, porque no tengo el error β, no puedo decir que son normales, si no que no hay nada significativamente llamativo que me indique que no lo sean.
En el grado de significación de Kormogorov-Smirlov cuando ve que la p es más grande que 0.200, pone que es muy grande y que es más de 0.200, pero no te dice cuanto.
16 El test nos hace una gráfica, el QQplots, donde vemos cómo se ajustan los valores de nuestro estudio con la recta que seguirían los valores normales. Cuanto más se ajusten los valores a la recta, más se parecen a la normal. Se ven para hacernos una idea de si nos alejamos de la normal o no.
A mano marcamos un riesgo máximo que estamos dispuestos a asumir, de entrada. Calculamos el estadígrafo experimental y vemos si cae en la zona de rechazo, en el caso que sí, rechazamos la hipótesis nula, luego podemos calcular la p (que como máximo es del 5%), la p va del punto en adelante, si es bilateral se multiplica por 2.
El SPSS nos da directamente p, y lo multiplica por 2. Con SPSS vemos si la p llega al 5% que hemos marcado como máximo o no. Si no llega, no rechazamos H0, estamos ahorrándonos los pasos de buscar valores teóricos y directamente me da la probabilidad de equivocarme al rechazar la hipótesis nula. Cuando la probabilidad de equivocarme es alta no la rechazo.
Si el estadígrafo cae en la zona de NO rechazo, el SPSS da el área roja multiplicada por 2, que más del 0.005.
Si el contraste fuera solo unilateral, sin tener que multiplicar por 2, tendríamos que dividir entre 2 el número que nos da.
El SPSS nos simplifica el problema que aunque la mayor parte del test, me la da el estadígrafo, que calcularíamos a mano, sacamos la conclusión directa de si rechazamos o no según la p dele estudio.
 Variables cuantitativa vs. Variable cualitativa (2 grupos) Hemos visto cómo hacer la primera flecha a mano, vamos a ver ahora cómo sería usando el SPSS.
17  Prueba T para muestras independientes Una vez que hemos hecho la prueba de la normalidad y me ha dicho que es normal, pasamos a hacer la t-Student. Para ello seguimos los pasos de la diapositiva.
Usamos una prueba T para muestras independientes, somos nosotros los que determinamos el contraste.
Hay que definir los grupos, estamos comparando 2 variables. Se lo especificamos con los valores numéricos que tienen, en este caso, hombres y mujeres (1 y 2).
Sin perder de vista la hipótesis me da un resumen, me dice cuántos individuos hay en cada grupo, la media de los grupos, la desviación típica y la media del error estándar (σ/√n). Con estos datos hacemos una t-Student.
18 Me da una serie de resultados con las conclusiones. En el cuadro tenemos marcada la prueba de nivel de igualdad de las varianzas. Hace la comparación de si las varianzas son iguales o distintas, me calcula la F (que no es exactamente dividir las varianzas, pero se parece), con esto podríamos mirar las tablas y ver si cae dentro del intervalo, pero me da la significación que es la p (probabilidad de equivocarme al rechazar H0), en este caso como sobrepasamos el 0.05 no rechazamos la hipótesis nula.
Esta primera parte es la imprescindible para sacar conclusiones.
Sin perder de vista el objetivo del problema, que es comparar medias, ahora tenemos 2 opciones para acabar, que las varianzas sean iguales o que no lo sean.
El SPSS hace los dos análisis, pero en función de lo que hayamos decidido respecto a la H0, cogemos una línea de resultado o la otra. En este caso cogemos la de arriba.
Tenemos la t, los grados de libertad y la significación, incluso más información como el intervalo de confianza. Me hace todos los cálculos, solo tenemos que ser conscientes de la significación.
Cuando pone 0.000 quiere decir que es menos de 0.0005.
Se rechaza H0 y ahora sí podemos decir que las medias son distintas, porque ahora tenemos la probabilidad de equivocarnos.
Antes decíamos que nada se opone porque no conocemos el error β.
19 Tenemos en esta diapositiva lo que haríamos a mano para obtener los resultados.
 SPSS- Valor de “p” estudios bilaterales/unilaterales El SPSS siempre ha multiplicado por 2 (si no dice nada es bilateral) el área del punto del punto del estadígrafo hasta más ∞.
Si era bilateral, se acaba el problema, pero si quiero un test unilateral, como lo multiplica por defecto, tengo que coger el valor que da el SPSS y dividirlo entre 2. Cuando lo divida es ese valor el que tengo que contrastar en el 5%.
20  SPSS-Prueba T para muestras independientes-contraste unilateral Si el contraste del ejercicio hubiera sido unilateral, debo dividir la p entre 2 y este número es el que contrasto. En este caso la p es más pequeña de 0.05 y por lo tanto rechazo la hipóteis nula.
El peso inicial es mayor en hombres que en mujeres.
 Variable cuantitativa vs. Variable cualitativa (2 grupos) El otro cálculo que hemos hecho a mano es el marcado con el cuadro. Podemos hacerlo también en el SPSS.
21  SPSS- Prueba T para muestras relacionadas En el SPSS hago todo lo que marca la diapositiva.
El SPSS compara cómo se comportan esta variable en 2 momentos (peso inicial y peso final).
Primeramente me da una descriptiva, con la n que calcula, que es la misma porque si le falta uno de los datos no lo tiene en cuenta, los descarta.
El test de t-Student lo hace para la variable diferencia, me da la media, la desviación típica, la media del error.
El análisis es la t-Student y nuevamente la significación, en este caso rechazo la hipótesis nula (H0), concluimos que la media de peso es distinta entre el inicio y el final del estudio.
22  Variable cuantitativa vs. Variable cualitativa (2 grupos) Cuando teníamos que las distribuciones de partida eran normales, comparábamos medias, a través de la t o la z. Las pruebas no paramétricas no dependen de los típicos parámetros que se comparan como media y desviación típica.
Este tipo de pruebas se basan en intentar comparar, no tanto la información de los valores medios, sino de cómo se ordenan los diferentes valores dentro de una variable, es concepto sería similar a comparar medianas y no medias.
De modo que se pretende ver cómo se distribuyen los datos.
Se contrastan 2 hipótesis: H0 → Las dos muestras proceden de poblaciones continuas de tendencia central similar.
H1 → La tendencia central de las poblaciones difiere.
No comparamos valores concretos de la variable continua, sino si la distribución de los datos en los grupos a comparar se parecen o no.
Este tipo de problemas los haremos principalmente con SPSS.
23  U de Mann-Whitney Queremos comparar la información de pesos en hombres y mujeres, de modo que hacemos un contraste de Kolmogorov-Smirnov y obtenemos que no son normales. Aunque solo falle 1, ya no se puede hacer l t-Student.
Para hacer la U de Mann-Whitney procedemos de la siguiente manera:     En primer ligar cogemos todos los valores y los ordenamos.
A continuación ponemos la información de a qué grupo pertenece.
Después damos el rango, es decir el valor que ocupan estos valores. En este caso va de 1 a 11. A los valores que se repiten le damos el mismo valor, el valor promedio (como se ve en la tabla). Así, los empates se ponderan de la misma manera. Con estos valores veo la información de hombres y mujeres.
Sumo los valores de un grupo y otro. A esto le llamamos R1 y R2. Ahora, con estos rangos, ¿puedo decir que la información se distribuye de la misma manera o no? Si son distintos, puedo considerar que hay diferencias en la información. Por ello queremos ver la tendencia central, tanto el rango como el rango promedio.
Si la tendencia central de ambas poblaciones fuera ma misma, los rangos deberían distribuirse aleatoriamente entre las dos muestras.
El rango promedio de las observaciones de las dos muestras debería ser similar.
24 Mantenemos los datos y obtenemos las siguientes tablas con SPSS. La suma de rangos es la que hemos visto antes y también nos da el rango promedio.
En la segunda tabla, me da la U, y además intenta extrapolarla a una z. Además obtenfo la significación (p=probabilidad de equivocarnos al rechazar H0). Con valores de significación menores a 0.05 rechazamos la hipótesis nula y consideramos que las distribuciones de peso en hombres y mujeres no son semejantes.
Pero nos surgen algunas preguntas como ¿cuál es el estadígrafo experimental?, ¿qué contraste estoy haciendo exactamente?, ¿puedo formular una hipótesis nula y alternativa y encontrar un valor numérico para sacar conclusiones? El estadígrafo es U, que depende del tamaño de los grupos y los rangos, cada grupo tiene su U.
Esta se calcula según las fórmulas mostradas en la diapositiva.
Vemos que tenemos dos U, pero el SPSS solo nos da una, esto es porque nos da solo la más pequeña de los dos.
25 El algoritmo de cálculo que hace SPSS se basa en las parejas de datos que se pueden hacer.
Se trata de formar parejas y ver si hay la mitad de ellas con el primer dato más grande y la mitad con el primero más pequeño.
Si considero que se deben hacer 3 de cada tipo y me salen, aquí se acaba el problema, pero en este caso tenemos solo 1 y queremos ver si esto es lo suficientemente llamativo como para que las distribuciones sean diferentes.
El SPSS calcula U y mira si este se parece al producto del número de parejas entre 2. Si difiere no se parecen, la hipótesis que queremos contrastar es la que aparece en rojo.
Los rangos son diferentes porque son números distintos los que sumamos.
26 La U que me da es 1, como hemos visto. Y la significación es mayor a 0.05, de modo que NO rechazo la hipótesis nula y acepto la alternativa.
No estamos comparando medias, estamos viendo si los datos se comportan de la misma manera.
El 1 respecto al 3 no es lo suficientemente grande para rechazar H0. No puedo asegurar que sean iguales, pero no son distintas.
Siempre cometo un error, el β. Que no se cuánto vale, la manera de controlar β es con la n, previamente al estudio, pero nunca puedo calcular β porque no sé cómo es la población.
La z la calcula a partir del teorema del límite central usando fórmulas grandes y pesadas, que no deberemos usar nosotros.
 SPSS-U de Mann-Whitney Con SPSS ante un problema que me dan grupos de variable cuantitativa-contínua, lo primero que tengo que tengo que mirar es si son normales o no.
Si son normales hacemos la t-Student y si no son normales, hacemos pruebas no paramétricas.
Para esto último seguimos los pasos que se muestran en la diapo. Se hace con cuadros de diálogo antiguos, porque los otros son más complejos y dan mucha información.
27 Colocamos las variables como se indica y tenemos que definir los grupos. Ponemos que haga la prueba de U. Tengo que saber cuál es el contraste que estoy haciendo a partir de las n de estudio.
Según la significación aceptamos o rechazamos H0, es decir, sacamos la conclusión.
Tenemos que plantear hipótesis en base a datos, que es la U. El SPSS nos da la más baja.
 Variable cuantitativa vs. Variable cualitativa (2 grupos) 28  T de Wilcoxon Este estudio se hace con datos apareados, de modo que lo primero que tenemos que hacer es generar la variable diferencia. Luego vemos si esta variable es normal o no, si no es normal hacemos la T de Wilcoxon.
En este caso vamos a ver los pesos antes y después.
Cuando generamos la variable diferencia eliminamos los empates. En este caso nos quedamos solo con 5 casos. Estos los ordeno según su valor absoluto, pero mantenemos el signo.
Igual que antes, les doy rango, es decir, la posición que ocupan una vez ordenados.
Se basa en el mismo concepto de comparación de medianas.
Sumamos los rangos, esta vez los positivos por un lado y los negativos por el otro.
Esta vez el H0 es que consideramos que los son iguales cuando la suma es parecida, y hay diferencias cuando son distintos, H1.
Tenemos la suma de una progresión aritmética de rango 1, que es igual a la suma de los rangos.
La mitad de n(n+1)/2 es n(n+1)/4 y queremos ver en qué grupo coincide. Hemos dividido entre dos porque queremos que la mitad sean positivos y la mitad negativos para que sean similares.
Hay que tener en cuenta que n es el número de datos que no se repiten.
Por el teorema del límite central se puede aproximar a una normal, y hacer con z.
En este tipo de problemas es importante saber plantear H0 y H1.
29  SPSS-T de Wilcoxon Lo hacemos usando cuadros de diálogo antiguos y esta vez con 2 muestras relacionadas.
30 Escogemos las dos variables que tienen los puntos a comparar y marcamos Wilcoxon. Aquí obtendremos que variables estamos comparando y le damos a aceptar.
Y el SPSS nos da los resultados. Estamos comparando el volumen respiratorio final e inicial.
Vemos que tenemos 6 negativos y 44 positivos y que no hay empates.
En estos test realmente no nos da la T de Wilcoxon, sino que me da la z, la p… ¿De dónde puedo sacar la T de Wilcoxon? Vemos la suma de rangos, deberían ser 637.5 cada uno, pero hay uno que da 32 y otro 1243. De aquí podeos sacar la T porque debe cumplirse que: U + U’= n1*n2. Realmente hay uno más grande que otro y ambos deberían parecerse.
Por lo tanto la p es pequeña y rechazamos H0. Concluimos que el volumen respiratorio es distinto entre el inicio y el final del estudio.
No comparamos medias.
31 a) Es lo primero que se hace ante cualquier estudio, calcular n.
El error β se suele aceptar algo más grande que α, hasta un 10 y 20%.
Nos piden MAYORES, de modo que se trata de un contraste unilateral, queremos demostrar H1.
Aquí α no es la mitad y β siempre es entero.
b) Queremos ver si la muestra es un reflejo de la población. Tenemos que hacer un Kolmogorov Smirnov, y según lo que sacamos de este, vemos que se puede resolver con una T-Student.
Comparamos lo que nos sale con una t68 y vemos que el 5.06 queda a la derecha, por tanto rechazo H0 y concluyo que sí que puedo decir que 105 es estadísticamente más grande que 97.
Puedo ver cuál es la probabilidad de equivocarme al rechazar H0, que es la probabilidad de tener una t68 mayor a 5.06, para ello busco en la tabla y vero que p es menos de 0.0005.
32 ...

Comprar Previsualizar