Tema 5a Muestreo aleatorio y estimación puntual (2014)

Apunte Español
Universidad Universidad Politécnica de Cataluña (UPC)
Grado Ingeniería de Diseño Industrial y Desarrollo del Producto - 2º curso
Asignatura Probabilitat i estadística
Año del apunte 2014
Páginas 10
Fecha de subida 17/05/2014
Descargas 5
Subido por

Vista previa del texto

J. Gibergans Báguena / DMA3 – EET / UPC Tema 5: Muestreo aleatorio y estimación puntual TEMA 5-A MUESTREO ALEATORIO Y ESTIMACIÓN PUNTUAL 5.1.
5.2.
5.3.
5.4.
5.5.
5.6.
5.1.
Introducción Conceptos de muestra aleatoria, estadístico y estimador Método de los momentos Método de máxima verosimilitud Propiedades de los estimadores Distribución de la media muestral. Teorema del Límite Central.
INTRODUCCIÓN La inferencia estadística es una parte de la Estadística que comprende los métodos y procedimientos para deducir propiedades (hacer inferencias) de una población, a partir de una pequeña parte de la misma (muestra). Toda inferencia se acompaña una medida de la incertidumbre en términos de probabilidad.
Según el objeto de estudio, la inferencia se clasifica en:  Inferencia paramétrica: se ocupa de aquellos casos en los que la distribución de probabilidad de la población se supone conocida salvo los valores que toman ciertos coeficientes denominados parámetros de la distribución. En este contexto, el objetivo es estimar, dar intervalos de confianza o contrastar hipótesis sobre dichos parámetros.
 Inferencia no paramétrica: trata problemas similares cuando se tiene una distribución poblacional totalmente desconocida, sobre la cual solo se realizan suposiciones muy generales, como por ejemplo que se trata de una distribución continua, que tiene una única moda, etc.
Según el tipo de información considerada, la inferencia estadística se divide en:  Inferencia clásica: trata los parámetros poblacionales desconocidos como valores fijos o constantes.
 Inferencia bayesiana: considera que los parámetros desconocidos del modelo son variables aleatorias, para las cuales debe fijarse una distribución inicial, denominada distribución a priori. Utilizando información muestral junto con esta distribución a priori, los métodos bayesianos hacen uso de la regla de Bayes para ofrecer una distribución a posteriori sobre los parámetros.
V-1 Probabilidad y Estadística- 2013-14-T 5.2.
J. Gibergans Báguena / DMA3 – EET / UPC CONCEPTOS DE MUESTRA ALEATORIA, ESTADÍSTICO Y ESTIMADOR 5.2.1. Muestreo Como ya se indicó a principio de curso, entendemos por población, el conjunto homogéneo de individuos sobre los que se estudian una o varias características. En muchas ocasiones no se puede observar toda la población, por lo que se termina estudiando una muestra.
Una muestra es un subconjunto de la población. El tamaño muestral es el número de individuos de la muestra. Es deseable que una muestra sea lo más representativa posible de la población de procedencia para que la información que suministra pueda ser utilizada con éxito para obtener conclusiones sobre la población. Es obvio que, en general, cuanto mayor sea el tamaño muestral mayor será la representatividad de la muestra.
Un método de muestreo no es más que un procedimiento empleado para la obtención de la muestra.
Algunos de los métodos de muestreo más importantes son los siguientes: aleatorio simple, sistemático, estratificado, por conglomerados, polietápico, por cuotas, etc.
5.2.2. Muestra aleatoria simple y estadístico Uno de los objetivos de la inferencia estadística es la estimación puntual de los parámetros desconocidos de una distribución de probabilidad. Un parámetro es un valor numérico que describe la función de densidad (en el caso continuo) o de masa de probabilidad (en el caso discreto) de una variable aleatoria X.
Una muestra aleatoria simple, de tamaño n , de una variable aleatoria X , con distribución teórica f ( x) , son n variables aleatorias X 1 , X 2 ,..., X n , independientes e idénticamente distribuidas, con distribución común f ( x) .
Una realización de la muestra son los valores particulares x1 , x2 ,..., xn , observados para las variables X 1 , X 2 ,..., X n . Como consecuencia de todo ello, la función de probabilidad conjunta de X 1 , X 2 ,..., X n es: f ( x1 , x2 ,..., xn )  f ( x1 ) f ( x2 )... f ( xn ) Llamaremos estadístico a cualquier función T de la muestra. Por tanto, un estadístico T ( X 1 , X 2 ,..., X n ) , también es una variable aleatoria, con una distribución de probabilidad denominada distribución en el muestreo de T.
Por ejemplo, el estadístico T ( X 1 , X 2 ,..., X n )  1 n  X i , se llama media muestral y que suele n i 1 designarse por X . Más adelante, estudiaremos con detalle la distribución en el muestreo de X .
V- 2 J. Gibergans Báguena / DMA3 – EET / UPC Tema 5: Muestreo aleatorio y estimación puntual 5.2.3. Estimación puntual Supongamos ahora que pretendemos obtener información acerca del valor desconocido del parámetro  que caracteriza la distribución teórica de cierta población. Y disponemos de una muestra.
Podemos resolver el problema de dos formas distintas:  Proporcionar un intervalo numérico en cual pueda afirmarse con cierta confianza que se encuentra el valor de  que caracteriza la distribución de la población. Este método de estimación será estudiado en el próximo tema.
 Proporcionar una estimación puntual del parámetro, es decir, seleccionar un valor que constituya un pronóstico individual sobre el parámetro. La forma de proceder para obtener una estimación puntual del valor desconocido del parámetro consiste en seleccionar un estadístico ˆ  T ( X 1 , X 2 ,..., X n ) , función únicamente de las observaciones muestrales y, tomar como estimación el valor de T calculado a partir de la muestra obtenida.
Los estadísticos utilizados para estimar los parámetros de una distribución de probabilidad se denominan estimadores.
A continuación estudiamos los dos métodos de estimación puntual más importantes: método de los momentos y el método de máxima verosimilitud.
5.3.
MÉTODO DE LOS MOMENTOS El método de los momentos fue desarrollado por primera vez por Kart Pearson en 1902. Él consideró que unos buenos estimativos de los parámetros de una función de probabilidad son aquellos para los cuales los momentos de la función de densidad de probabilidad alrededor del origen son iguales a los momentos correspondientes de la información de la muestra.
Así pues, el método consiste en: 1) Igualar los momentos de la población: 1  E  X  ,  2  E  X 2  ,  3  E  X 3  , … con los correspondientes momentos muestrales: a1  n 1 n  xi , a2  i 1 n 1 n  xi2 , a3  i 1 n 1 n  xi3 ,… i 1 2) Se igualan tantos momentos como parámetros desconocidos hay que estimar, y se resuelve el sistema de ecuaciones resultante.
Ejemplo: Estimar el valor del parámetro de la distribución exponencial: f ( x)   exp( x) , con x  0 ,   0 . Como tenemos que determinar un parámetro, igualamos los momentos:    E  X    x e  x dx  ...  0 De manera que: 1  x   1 x V-3 1  y x 1 n  xi n i 1 Probabilidad y Estadística- 2013-14-T 5.4.
J. Gibergans Báguena / DMA3 – EET / UPC MÉTODO DE LA MÁXIMA VEROSIMILITUD El método de la máxima verosimilitud fue desarrollado por R.A. Fisher (1922). Él razonó que el mejor valor de un parámetro de una distribución de probabilidad debería ser el valor que maximizara la probabilidad conjunta o función de verosimilitud de ocurrencia de la muestra observada.
n L   f ( xi ) i 1 Debido a que muchas funciones de densidad de probabilidad son exponenciales, algunas veces es conveniente trabajar con la función logaritmo de la verosimilitud: n ln L   ln  f ( xi )  i 1 Ejemplo: De nuevo vamos a estimar el valor del parámetro de la distribución exponencial: f ( x)   exp(  x) , con x  0 ,   0 pero ahora aplicando el método de la máxima verosimilitud.
Para un valor dado xi la densidad de probabilidad exponencial es: función logaritmo de verosimilitud es: n n i 1 i 1   f ( xi )   e  xi , por tanto, la n n i 1 i 1 ln L   ln  f ( xi )    ln  e  xi    ln    xi   n ln     xi d (ln L)  0 , es decir, cuando: d d (ln L) n n 1 1 n 1    xi  0   x     i 1  n i 1 i d x El máximo valor de ln L ocurre cuando Observación: En el caso de la distribución exponencial, las estimaciones por los dos métodos coinciden, pero, en general, no tiene porqué ocurrir.
V- 4 J. Gibergans Báguena / DMA3 – EET / UPC 5.5.
Tema 5: Muestreo aleatorio y estimación puntual PROPIEDADES DE LOS ESTIMADORES De lo visto hasta ahora en la estimación puntual la importancia de seleccionar el estimador adecuado en cada caso. Una primera propiedad deseable en un estimador es que sea insesgado. De forma intuitiva se puede decir que un estimador para un parámetro es insesgado si, al seleccionar un gran número de muestras de un tamaño determinado, la media de todas las estimaciones obtenidas del parámetro está próxima al verdadero parámetro.
Llamamos sesgo del estimador ˆ a la diferencia: Sesgo(ˆ)  E ˆ    .
Si esta diferencia es nula, decimos que el estimador es insesgado o centrado.
Llamamos error cuadrático medio (ECM) de un estimador ˆ  T ( X 1 , X 2 ,..., X n ) del parámetro  a la esperanza: ECM (T )  E (ˆ   ) 2  Cuanto menor sea el error cuadrático medio más concentrada estará la distribución del estimador alrededor del parámetro  y por tanto, más probable será que la estimación ˆ esté cerca del valor desconocido de  .
Teorema: Sea ˆ un estimador del parámetro  . El error cuadrático de un estimador es la suma de su varianza más el sesgo al cuadrado, es decir: ECM (ˆ)  Var (ˆ)  Sesgo 2 (ˆ) Demostración:   ECM (ˆ)  E  (ˆ   ) 2   E  ˆ  E ˆ   E ˆ       Var (ˆ)  E ˆ        E ˆ  E ˆ     E ˆ    2 2 2 2 Ejemplo: Tomamos una muestra de tamaño 3 de una población N (  , ) , y consideramos tres estimadores de  : X  X2  X3 2X  2X2  X3 2 X1  X 2  X 3 , ˆ 2  , ˆ 3  1 ˆ1  1 X 3 3 3 Sabemos que: E  X    y Var ( X )  n , por tanto: 2 E  X 1   2 E  X 2   E  X 3  2  2   E  ˆ1     3 3 4Var  X 1   4Var  X 2   Var  X 3  ECM  ˆ1   Var ( ˆ11 )   2 9 Análogamente obtenemos: 2 2 2  4  6   ECM  ˆ 2   Var ( ˆ 2 )    y ECM  ˆ 3   Var ( ˆ 3 )  3 9  3  El error cuadrático medio de ˆ 3 es el menor de los errores cuadráticos de los tres estimadores 2 cualquiera que sea el valor de  y de  2 . Por lo tanto, el mejor estimador es ˆ 3 , pero no podemos comparar los estimadores ˆ1 y ˆ 2 porque no conocemos los valores de  y de  2 .
V-5 Probabilidad y Estadística- 2013-14-T J. Gibergans Báguena / DMA3 – EET / UPC Un estimador ˆn se dice que es asintóticamente insesgado para  si: lim E ˆn    ,    n  Ejemplo: Sea X 1 , X 2 ,..., X n una muestra aleatoria simple de una variable aleatoria X con E  X    .
El estimador: ˆ n  3 X 1  X 2  ..  X n es asintóticamente insesgado para  : n n2  n  n lim E  ˆ n   lim n  Finalmente, otra propiedad deseable para un estimador es la consistencia. Intuitivamente un estimador consistente es aquel que se aproxima, al crecer el tamaño muestral, al verdadero valor del parámetro.
Un estimador ˆn se dice consistente en media cuadrática para estimar un parámetro  si: lim ECM ˆn   0 n  De acuerdo con la definición de error cuadrático medio, una condición necesaria y suficiente para que ˆn sea consistente es que sea asintóticamente insesgado y que lim Var ˆn   0 .
n  Ejemplo: Hemos visto que ˆ  X es un estimador insesgado para el parámetro  . Además hemos visto que Var ( ˆ )  Var ( X )  n , por tanto, es fácil ver que se trata de un estimador consistente en media cuadrática.
2 Se dice que el estimador ˆ1 es más eficiente que el estimador ˆ2 si: Var (ˆ )  Var (ˆ ) 1 2 Un estimador es óptimo cuando es insesgado y de varianza mínima.
V- 6 J. Gibergans Báguena / DMA3 – EET / UPC Tema 5: Muestreo aleatorio y estimación puntual 5.6. DISTRIBUCIÓN DE LA MEDIA MUESTRAL Sea X 1 , X 2 ,..., X n una muestra aleatoria simple de una variable aleatoria X con E  X    y Var ( X )   2 . Tal y como se ha visto en los anteriores ejemplos, un estimador razonable del parámetro  es la media muestral: X  X 2  ...  X n X 1 n Propiedades: 1 n  1 n 1 n 1 E  X   E   X i    E  X i      n   n i 1 n  n i 1  n i 1 1 n  1 n n 2 Var ( X )  Var   X i   2 Var ( X i )  2 Var ( X i )  n n  n i 1  n i 1 5.6.1. Distribución de la media muestral en poblaciones normales con varianza conocida Sea X 1 , X 2 ,..., X n una muestra aleatoria simple de una variable aleatoria X normal con media  con y varianza  2 conocida. Entonces a partir de las propiedades de la normal y de lo dicho anteriormente, la media muestral X sigue una distribución normal con media  y varianza n . Por tanto, la variable tipificada: Z X  sigue una distribución normal estándar N(0,1).
/ n Ejemplo: Consideremos las alturas de un grupo de estudiantes. Sabemos que se trata de una variable aleatoria normal con media de 172 cm y desviación típica 11 cm. Hemos tomado una muestra de 15 estudiantes tomados al azar.
a) ¿Cuál es la probabilidad quela media de la muestra sea inferior a 170 cm?  X   170  172  P ( X  170)  P     P ( Z  0,70)  P ( Z  0,70)  0, 2420   / n 11/ 15  b) ¿Cuál es la probabilidad que la diferencia entre la media de la muestra de estos 15 estudiantes y la media poblacional sea menor de 1 cm?    X    0 1 0  1  0    P (| X   |  1)  P (1  X    1)  P   / n / n / n     X  0 1  0 1 0   P    P( 0,35  Z  0,35)   11/ 15 11/ 15 11/ 15     2 P ( Z  0,35)  2 ·0,3632  0,7264   Observemos que no ha participado para nada la media poblacional de 172 cm, por lo que en caso de ser desconocida ya tendríamos información sobre ella.
V-7 Probabilidad y Estadística- 2013-14-T J. Gibergans Báguena / DMA3 – EET / UPC 5.6.2. Distribución de la media muestral en poblaciones normales con varianza desconocida Sea X 1 , X 2 ,..., X n una muestra aleatoria simple de una variable aleatoria X normal con media  con y varianza  2 desconocida. Entonces, habrá que estimar la varianza a partir de la muestra calculando la varianza muestral corregida: S n21  1 n ( X i  X )2  n  1 i 1 En este caso la variable tipificada: tn 1  X  S n 1 / n no sigue una distribución normal sino que sigue una distribución t de Student con n-1 grados de libertad.
La distribución t de Student con n grados de libertad que denotaremos por tn es muy parecida a la distribución normal estándar: es simétrica alrededor del cero, pero su desviación típica es un poco mayor que la de la normal estándar, es decir, los valores que toma esta variable están más dispersos.
No obstante, a medida que aumenta el número de grados de libertad más se parece a la normal estándar tal y como se muestra en la figura 5.1.
Figura 5.1. Distribución t de Student Esta distribución de debe a W.S. Gosset al final del siglo XIX. Gosset trabajaba en la empresa cervecera Guinness y utilizaba el seudónimo Student para firmar sus trabajos de investigación.
V- 8 J. Gibergans Báguena / DMA3 – EET / UPC Tema 5: Muestreo aleatorio y estimación puntual Ejemplo: Veamos de nuevo el ejemplo anterior, pero ahora en el caso en que no conocemos la varianza poblacional.
Consideremos las alturas de un grupo de estudiantes. Sabemos que se trata de una variable aleatoria normal con media de 172 cm y desviación típica poblacional desconocida. Hemos tomado una muestra de 15 estudiantes tomados al azar de la que hemos hallado su desviación típica corregida obteniendo un resultado de 11,187 cm.
a) ¿Cuál es la probabilidad quela media de la muestra sea inferior a 170 cm?  X  170  172    P (t14  0,6924)  P(t14  0,6924)  0, 25 P ( X  170)  P   S / n 11,187 15   n 1  b) ¿Cuál es la probabilidad que la diferencia entre la media de la muestra de estos 15 estudiantes y la media poblacional sea menor de 1 cm?     X  0 1  0 1 0     P (| X   |  0,746)  P(1  X    1)  P   S n 1 / n S n 1 / n Sn 1 / n        X  0 1  0 1 0   P (0,3462  t14  0,3462)   P    11,187 / 15 11,187 / 15 11,187 / 15     2 P (t14  0,3462)  0,734 De nuevo, observemos que no ha participado para nada la media poblacional de 172 cm, por lo que en caso de ser desconocida ya tendríamos información sobre ella.
Antes de pasar al siguiente apartado, queda por justificar porqué en la fórmula de la varianza muestral corregida se ha dividido por n-1 en lugar de dividir por n tal y como hacíamos con la varianza en el tema dedicado a la estadística descriptiva.
Observemos que: S n2    1 n  Xi  X n i 1  2   1 n  ( X i  E[ X ]  ( E[ X ]  X ) n i 1   2   1 n ( X i  E[ X ]2  ( E[ X ]  X ) 2  2( X i  E[ X ]( E[ X ]  X )   n i 1  1 n    ( X i  E[ X ]) 2  n ( E[ X ]  X ) 2  n  i 1  Si calculamos su valor esperado: V-9 Probabilidad y Estadística- 2013-14-T J. Gibergans Báguena / DMA3 – EET / UPC 1  n  E  Sn2   E    ( X i  E[ X ]) 2  n ( E[ X ]  X ) 2      n  i 1  1 n    E ( X i  E[ X ]) 2   n E  ( E[ X ]  X ) 2    n  i 1   1 n 1 n 1 2 1 n Var[ X ]    Var[ X ]  n Var[ X ]    n Var[ X ]  Var[ X ]   n  i 1 n n n  Así pues, el valor esperado de S n2 es menor que  2 . Por esta razón se define la varianza muestral corregida por: S n21  1 n n  ( X i  X )2  n  1 Sn2 n  1 i 1 De manera que: E  S n21   n E  Sn2   Var ( X )   2 n 1 Resumiendo, Sn2 tiende a subestimar la varianza de la población. Para corregir este defecto dividimos por n-1 en lugar de por n, definiendo de esta forma la varianza muestral corregida que es un estimador insesgado de la varianza.
5.6.3. Teorema del Límite Central Si X 1 , X 2 ,..., X n constituyen una muestra aleatoria de una población de media  y varianza 2, entonces sea cual sea la distribución de la variable aleatoria X, se tiene que la distribución de: X  / n es la distribución normal estándar N(0,1) conforme n   . En la práctica, para n > 30.
Ejemplo: Una empresa de mensajería que opera dentro de la ciudad tarda una media de 35 minutos en llevar un paquete con una desviación típica de 8 minutos. Supongamos que durante el día de hoy de han repartido 200 paquetes.
¿Cuál es la probabilidad que la media del tiempo de entrega esté entre 30 y 35 minutos? Sea la variable X = ”tiempo de entrega del paquete”. No sabemos qué distribución sigue pero como que el tamaño de la muestra es superior a 30, entonces, aplicando el teorema del límite central, tenemos que: X   N (0,1) / n Por tanto,  30  35 X  35 35  35  P (30  X  35)  P      P (8,84  Z  0)  0,5  8 / 200 8 / 200 8 / 200  V - 10 ...