Estadística III 1.2 (2013)

Apunte Catalán
Universidad Universidad de Barcelona (UB)
Grado Psicología - 1º curso
Asignatura Estadística
Año del apunte 2013
Páginas 6
Fecha de subida 11/04/2016
Descargas 18
Subido por

Vista previa del texto

INTERVALO DE PROBABILIDAD INTRODUCCIÓN • Del conocimiento de la Distribución Muestral de un estadístico fácilmente se deduce la posibilidad de construir el denominado Intervalo de Probabilidad, que se podría definir como:  Aquel intervalo que con probabilidad 1-α incluirá el valor del estadístico, calculado éste a partir de una muestra de tamaño n procedente de la población  Con probabilidad α el estadístico será mayor o menor que los límites que definen el intervalo de probabilidad  Generalmente debemos considerar que la probabilidad de que el intervalo (1- α) contenga el estadístico debe ser grande, mientras que su complementaria (α) deberá ser pequeña  Si se extraen muestras al azar de la población con probabilidad 1- α el valor del estadístico pertenecerá al intervalo de probabilidad.
 α indica la probabilidad de que, al extraer muestras al azar a partir de la población, el estadístico hallado esté fuera del intervalo definido.
1  /2  /2 e ˆ e • Gráfico del Intervalo de Probabilidad sobre la Distribución Muestral de un Estadístico • En el caso de que las características de la Distribución Muestral se correspondan con las de un modelo de probabilidad normal, el intervalo será simétrico y centrado en el valor de µө • Por ello la probabilidad • Para generar el Intervalo de Probabilidad utilizaríamos la siguiente expresión: se repartirá de forma equilibrada (α/2) a cada extremo de la distribución muestral IP1-  Pr ob(ˆ  (ˆi ,ˆs )| n, ˆ,  ˆ, X • N )  1 siendo e la distancia entre el parámetro e del intervalo y cada uno de los límites de éste. Se trata del error muestral y es el término que recoge el concepto de precisión. Su valor vendría dado por: e  k( ˆ) • Donde k, fijado un valor de α, puede ser determinado entre otras formas: – a partir del valor de Z /2. Puntuación de la distribución normal unitaria que le correspondería a los límites del intervalo de probabilidad y que delimitaría un área de probabilidad α/2 en cada cola de la distribución muestral del estadístico – con una aproximación más imprecisa, mediante el valor t en la desigualdad de Tchebichef, que garantizaría que la probabilidad de no inclusión en el intervalo de probabilidad no excediera (1/t2)= α • Cada Intervalo de probabilidad debería estar necesariamente asociado al cumplimiento de aquellas condiciones o supuestos (condiciones de aplicación, en adelante c.a.) que garanticen, desde el punto de vista del teorema del límite central y de la ley de los grandes números, que las características de la Distribución Muestral del Estadístico son realmente las postuladas • Utilidad y usos del Intervalo de Probabilidad: – Dentro del proceso inferencial puede ser utilizado como técnica de predicción por intervalo del verdadero valor del estadístico en muestras de tamaño n con una probabilidad 1- α de que el intervalo contenga el estadístico – Se utiliza como referente para generar un proceso de estimación por intervalo del verdadero parámetro poblacional, cuando este es desconocido, a partir de la construcción de un Intervalo de Confianza – En un contexto más aplicado de control de Calidad se utiliza para definir los límites de oscilación dentro de los cuales se considera que un proceso se halla bajo control (por lo que no se dan los elementos necesarios para que este proceso sea sometido a revisión) INTERVALO DE PROBABILIDAD DEL ESTADÍSTICO MEDIA • El Intervalo de probabilidad de medias está definido por: IP1-  Pr ob( ˆ  ( ˆi ,  ˆs )| n,  X ,  X , x N )  1 ˆs   X  e   X  Z / 2 ( X ) ˆi   X  e   X  Z / 2 ( X ) • Donde los valores de µẌ y σẌ vendrían determinados por los valores establecidos en la Distribución Muestral del estadístico Media. En el caso del Error Estándar su estimación diferiría según las características del muestreo (sin o con reposición) • Siendo las c.a. que garantizarían las características de la Distribución Muestral que n fuera lo suficientemente grande o caso que la Distribución de la Variable Aleatoria en la población origen de la muestra se ajustara a un Modelo de Probabilidad normal • El valor de Z • Supongamos que, respecto a una determinada Variable Aleatoria, conocemos que en la Población se Distribuye según un Modelo de Probabilidad Normal de Media 100 y Desviación Estándar 15. Para responder a la cuestión de cual sería la media de la variable en una muestra de 900 sujetos, extraída aleatoriamente de la población, deberíamos construir un Intervalo de Probabilidad de Medias /2 se determina una vez se ha fijado α 1) En primer lugar, constatemos que se cumplen las c.a., puesto que no solo n=900 es suficientemente grande, sino que además el que la Variable aleatoria en la Población sea normal garantiza que la Distribución Muestral del Estadístico Media también lo será 2) Los limites del Intervalo de Probabilidad vendrían dados por: ˆs   X  Z / 2 ( X ) ˆi   X  Z / 2 ( X ) 3) Si consideramos que la Población es infinita, o bien que el muestreo se ha realizado con reposición, los límites anteriores quedarían como sigue:  ˆs    Z / 2 ˆi    Z / 2 n  n 4) Pasaríamos a fijar la probabilidad 1- . Si bien no existe un criterio único para valores de 1- , se suele utilizar un valor del 95%(0.95) o un 99%(0.99), lo que en el primer caso determinaría para un valor del  5%(0.05) y, en el segundo el 1%(0.01). Supongamos nos decidimos por un 95% ˆs    Z0.025 n 5) El valor del Estadístico Z0.025 sería 1.95997 (habitualmente se toma 1.96), como se desprende del listado  adjunto ˆi    Z0.025 6) Sustituyendo los valores correspondientes para calcular los límites del Intervalo de Probabilidad tendríamos: ˆs  100  1.95997 ˆi  100  1.95997 15 900 15 900 n  100.98 es decir Pr ob( X  (99.02,100.98)  0.95  99.02 7) Conclusión: Lo que nos indicaría que extrayendo al azar una muestra de 900 sujetos procedentes de una población con las características mencionadas inicialmente, con una probabilidad igual a 0.95, la media de la muestra pertenecerá al intervalo 99.02 100.98 8) O, análogamente, podríamos indicar que, con una probabilidad 0.05 la media de la muestra no estará contenida en el intervalo mencionado 9) Si hubiésemos conocido el dato que la población estaba constituida por 10000 sujetos, la Población sería finita y, si el muestreo se hubiera realizado sin reposición, tendríamos que haber utilizado las siguientes expresiones para establecer los límites del intervalo de probabilidad: ˆs    Z / 2 ˆi    Z / 2  n  n Nn N 1 Nn N 1 10) Considerando el mismo nivel de confianza (0.95) el intervalo obtenido hubiera sido: 99.06509 100.93491 11) Como vemos, el intervalo obtenido hubiera sido algo más pequeño. El valor de e hubiera disminuido, por lo que los límites del intervalo hubieran estado más próximos al valor central. En este sentido, podemos interpretar que el intervalo hubiera sido más preciso (aunque en este caso el aumento de precisión no puede considerarse como apreciable). La Conclusión quedaría modificada en consonancia: En este caso, extrayendo al azar una muestra sin reposición de 900 sujetos procedentes de una población de 10000 sujetos con =100 y 100.93491 =15, y con una probabilidad del 0.95 la media de la muestra oscilará entre 99.06509 y 12) O, análogamente a lo indicado anteriormente, podríamos establecer que, con una probabilidad 0.05, la media de la muestra no estará contenida en el intervalo citado MODIFICACIÓN DE LA PRECISIÓN • Hemos señalado como e recoge el nivel de precisión de la predicción efectuada. Puede entenderse como la diferencia máxima aceptable entre el verdadero valor del parámetro y el estimador puntual (estadístico) obtenido a partir de los datos de la muestra.
• Evidentemente, el interés residirá en maximizar la precisión (disminuir el valor de e) para que la predicción efectuada y, en consecuencia, el intervalo construido sea lo más preciso posible • La expresión de e, para el caso de la Distribución Muestral de Medias y población infinita, viene dado por: • Para disminuir el valor de e se nos presentan dos posibilidades: e  Z / 2  n • Trabajar con un valor de Z /2 más pequeño, lo cual implicaría manipular el valor de α. El cambio iría en la línea de aumentar α y, por tanto, disminuye 1- α en la misma magnitud. Este cambio, en la práctica, significaría disminuir 1- α , con lo que el aumento de precisión vendría a costa de que el intervalo de probabilidad tuviera menor probabilidad de contener el estadístico (lo que deberíamos considerar una consecuencia no deseable).
• La segunda opción consistiría en disminuir el valor del error estándar del cual, únicamente, podemos manipular el valor de n. Esto es así puesto que α sería un parámetro poblacional que no está bajo nuestro control directo. Para conseguir disminuir e debemos aumentar n.
 Al aumentar n el valor del error estándar disminuye. Es decir, la Distribución Muestral del estadístico se hace menos dispersa: los valores se homogeneizan más en torno al valor del parámetro de tendencia central  Consecuentemente, sin necesidad de modificar la probabilidad 1- del intervalo de probabilidad que podremos construir sobre la distribución muestral del estadístico será más preciso, puesto que disminuirá e y los límites del intervalo estarán más cercanos a su punto central • En definitiva, debemos concluir que, cuanto mayor sea n, mayor será la precisión con la que podemos realizar, de hecho, cualquier inferencia • Y, consecuentemente, la disminución de la magnitud de la muestra incidiría en la disminución de la precisión al aumentar el valor de e • Ciertamente, la magnitud del error muestral (diferencia entre parámetro y estadístico), como ya se ha señalado, puede no depender únicamente del tamaño de la muestra y de las fluctuaciones aleatorias, pues puede existir algún sesgo en el estimador o en la extracción de la muestra.
• Para ejemplificar cómo la manipulación del tamaño muestral afecta a la precisión, observemos que hubiera sucedido con el Intervalo de Probabilidad establecido anteriormente caso que hubiéramos decidido efectuar la predicción para muestras de 9 sujetos: • En primer término comentar, por lo que respecta a las c.a., que en este caso, para garantizar la normalidad de la distribución muestral del estadístico media, se hace más relevante el conocimiento de que la variable aleatoria sigue un modelo de probabilidad normal en la población origen de la muestra • Los límites del intervalo de probabilidad con una probabilidad del 0.95 vienen dados por: ˆs  100  1.95997 ˆi  100  1.95997 • 15 9 15 9  109.8  90.2 En términos de precisión, ésta ha disminuido, puesto que el valor de e ha aumentado. De hecho, e se multiplica por un factor k=10, puesto que la magnitud de la disminución de n respecto a la muestra considerada originalmente (900) es de n/k2 ([900/102 ]=9) INTERVALO DE PROBABILIDAD DEL ESTADÍSTICO PROPORCIÓN • El Intervalo de probabilidad de proporciones vendría definido por: IP1-  Pr ob(ˆ  ( pi , ps ) | n,  p ,  p , p N ) 1 ps   p  e ps   p  Z / 2 ( p ) pi   p  e pi   p  Z / 2 ( p ) • Donde los valores de µp y σestán determinados por los valores establecidos en la Distribución Muestral del estadístico Proporción. Nuevamente deberíamos considerar que el Error Estándar diferirá según las características del muestreo • Respecto a las c.a., en este caso, indicamos que los productos n superiores a 5 • El valor de Z fijado • Supongamos que conocemos que una determinada característica se presenta en la Población con una proporción =0.11. Para responder a la cuestión de cuál sería la proporción de sujetos que presentarían esta característica en una muestra de 150 individuos, extraída aleatoriamente de la población, deberíamos construir un Intervalo de Probabilidad de Proporciones /2 y n(1- ) deben ser ambos iguales o (valor de la distribución normal estándar) puede determinarse, análogamente, una vez se ha 1) En primer lugar, constatemos que se cumplen las c.a., puesto que n =150(0.11)=16.5 y n(1)=150(0.89)=133.5 2) Los límites del Intervalo de Probabilidad vendrían dados por: ps   p  Z / 2 ( p ) p  Z ( ) i  /2 p 3) Si consideramos que la Población es infinita, o bien que el muestreo se aprealizado con reposición, la anterior expresión quedaría como sigue:  (1   ) ps    Z / 2 pi    Z / 2 n  (1   ) n 4) Supongamos que para este caso decidimos establecer una probabilidad 1- = 0.99 ps    Z0.005 pi    Z0.005  (1   ) n  (1   ) n 5) El valor del Estadístico Z0.005 sería 2.57583, como se desprende del listado adjunto 6) Sustituyendo los valores correspondientes para realizar el cálculo de los límites del Intervalo de Probabilidad tendríamos: 0.11(0.89) 150 ps  0.11  0.0658056  0.1758056 ps  0.11  2.57583 0.11(0.89) 150 pi  0.11  0.0658056  0.0441943908 pi  0.11  2.57583 7) Conclusión: Lo que nos indicaría que, extrayendo al azar una muestra de 150 sujetos procedentes de una población con las características mencionadas inicialmente, con una probabilidad de 0.99 la proporción de sujetos de la muestra con la característica oscilará entre los límites indicados ...