Estadística descriptiva y probabilidad (2014)

Apunte Español
Universidad Universidad de Barcelona (UB)
Grado Biología - 1º curso
Asignatura Estadística
Año del apunte 2014
Páginas 13
Fecha de subida 25/06/2014
Descargas 19
Subido por

Vista previa del texto

Estadística – Grau de Biología Introducción Definición de estadística No existe una definición internacionalmente aceptada, pero para nuestros propósitos basta con esta: “Es el conjunto de métodos necesarios para recoger, clasificar, representar y resumir datos, así como para hacer inferencias (extraer consecuencias) científicas a partir de ellos.
a) Estadística Descriptiva, cuyo fin es la recogida, clasificación, representación y resumen de los datos.
b) Inferencia Estadística, cuyo fin es extender a toda la población las conclusiones obtenidas en una parte de ella (la muestra).
CAPÍTULO I Estadística Descriptiva 1.1 Tipos de datos Lo más común es distinguir entre dos tipos de datos – cuantitativos y cualitativos- según el carácter estudiado sea medible o no; es decir, son cualitativos aquellos datos que se refieren a una cualidad (sexo, estado civil, grupo sanguíneo, etc.); son cuantitativos aquellos datos que necesariamente requieren de una expresión numérica (estatura, valor hematocrito, número de hijos, etc.).
Los datos cualitativos, también llamados atributos o datos categóricos, tienen algunos subcasos especiales de interés. Cuando sólo aceptan dos posibilidades (hombre-mujer, caracruz, enfermo-sano, etc.) son llamados datos dicotómicos. Por otro lado, en ocasiones un dato cualitativo es susceptible de ser ordenado de un modo lógico ascendente o descendente (como sucede al determinar la mejoría de un enfermo que puede haber “empeorado”, “quedado igual”, o “mejorado” tras un tratamiento), en cuyo caso se dice que es un dato ordinal. Es evidente que los datos cualitativos no son necesariamente de un tipo u otro: por ejemplo, el grupo sanguíneo (A, B, AB, O) no es dicotómico ni ordinal.
Dentro de los datos cuantitativos se pueden distinguir dos tipos: discretos y continuos. Los primeros son aquellos datos que sólo pueden tomar “valores numéricos aislados” (número de bacterias, número de latidos cardiacos, número de piezas dentarias con caries, etc.), en tanto que los segundos pueden tomar cualquier valor dentro de un intervalo, de modo que entre cualesquiera dos de ellos siempre existe otro valor posible (peso, nivel de ácido úrico, etc.).
Aunque teóricamente los datos cuantitativos continuos están perfectamente definidos, en la práctica, por la limitación de la precisión de los aparatos de medida, todos los datos continuos se convierten en discretos.
1.2 Representación tabular de los datos A Tabla de datos cualitativa Grupo sanguíneo Frecuencia absoluta Frecuencia relativa Porcentaje (%) (fi) (hi) A 150 0,30 30% B 75 0,15 15% AB 25 0,05 5% O 250 0,50 50% Total 500 1,00 100% Tabla 1.1 Distribución del grupo sanguíneo de 500 alumnos varones de una Universidad El grupo sanguíneo puede presentarse bajo cuatro formas diferentes (A, B, AB, O). En general, a los distintos modos de presentarse un dato cualitativo le llamaremos clases o modalidades.
De los datos exhaustivos iniciales es inmediato obtener el número de individuos que presentan cada una de las modalidades del grupo sanguíneo, número que se conoce como frecuencia absoluta de la clase o modalidad. La tercera columna de la tabla 1.1 muestra las frecuencias relativas, definidas como el cociente entre la frecuencia absoluta y el tamaño de la muestra.
Ellas se introducen con el objetivo de hacer comparables dos o más tablas de datos del mismo tipo basadas en tamaños muestrales distintos. La frecuencia relativa es realmente un tanto por uno. Es frecuente también expresar los resultados en tanto por ciento (%), como en la cuarta columna de la tabla 1.1, valores que se obtienen multiplicando las frecuencias relativas por 100.
También podemos encontrar otras columnas que muestren los mismos datos, pero acumulados. Es decir, la suma de todas las frecuencias absolutas o relativas de los valores más pequeños o iguales de este valor. Se expresan con Fi a la frecuencia absoluta acumulada y con Hi a la frecuencia relativa acumulada.
B Tabla de datos cuantitativos discretos Los mismos criterios utilizados para tabular datos en el caso cualitativo, sirven para el caso cuantitativo discreto. En este caso, las clases son ahora valores numéricos – pues los datos lo son- y que la última clase agrupa a las clases originales (o diferentes de lo común), pues, por tener frecuencias muy bajas, si se las incluyera harían la tabla demasiado extensa y oscurecería el fin clarificador perseguido.
C Tabla de datos cuantitativos continuos En el caso cuantitativo continuo, aun valiendo los criterios anteriores, se presenta la dificultad de la formación de las clases. Al considerar el peso de los 500 alumnos, es prácticamente que dos individuos tengan el mismo peso, con lo que la tabla contaría con miles de valores con frecuencias 0 y 1. Para evitar esto, y hacer útil la tabla, los datos deben agruparse en clases llamadas ahora intervalos de clase. La longitud de un intervalo de clase es la diferencia entre el límite superior y el límite inferior del intervalo. Para calcular esta longitud, primero debemos calcular el número de intervalos adecuado para cada distribución. La calcularemos mediante la expresión Nº de intervalos = 1 + 3,3*log N, donde N es el número de muestras. También se puede calcular de la siguiente manera Nº de intervalos = sqrt(N). En este tipo de tabla, también encontramos la marca de clase. La marca de clase es el valor representante de un intervalo y se calcula de la siguiente forma: (L i + L s)/2; dónde Li es el valor del límite inferior de ese intervalo y L s es el valor del límite superior.
1.3 Presentación gráfica de los datos Las representaciones gráficas son el modo más sencillo de exponer la información de una muestra, lo que se debe a la capacidad que tienen para impactar al lector con muy poco esfuerzo por su parte. Ellas dan una información rápida y global, haciéndoles útiles al investigador pues le permite tener una idea general de los resultados y, a menudo, le sugiere nuevas hipótesis y experimentos en los que no había pensado.
1.3.1 Histograma El histograma es la representación gráfica más frecuente en la investigación científica, siendo válido para cualquier tipo de dato. En él las distintas clases se representan sobre el eje de abscisas (eje horizontal) y sus frecuencias, relativas o absolutas, sobre el eje de ordenadas (eje vertical).
1.3.2 Polígono de frecuencias El polígono de frecuencias está especialmente indicado para los datos cuantitativos, si bien puede hacerse para datos discretos u ordinales. Ahora, a cada clase se le asigna un punto en el plano, con una abscisa que es el valor del dato en la clase (o la marca de esta, si el dato es continuo), y una ordenada que es su frecuencia.
1.3.3 Diagrama de sectores Un diagrama de sectores consta de un circulo en el que a cada clase se le asigna un sector de área (y, por consiguiente, ángulo que lo genera) proporcional a la frecuencia de la clase. Como en los 360º están incluidos todos los n individuos de la muestra, a una clase de frecuencia f debería asignársele un sector de ángulo x=360ºxf/n, es decir hx360º.
1.3.4 Notas sobre las representaciones gráficas De modo general, las representaciones gráficas deben verificar las siguientes condiciones: 1) Deben indicar claramente las escalas y las unidades de medida 2) Deben explicarse por sí solas, evitando así que el lector deba acudir al texto para comprender la representación o lo que se está representando. De ahí que sea fundamental que posean un título totalmente explicativo.
3) Deben contribuir a clarificar el material presentado.
1.4 Síntesis de Datos Una serie de observaciones solo queda perfectamente definida si se dan sus valores originales (si los datos son continuos) o su distribución de frecuencias con clases sin agrupar (si los datos son cualitativos o discretos), pero a veces es más simple y suficientemente representativo dar algunas características numéricas que los resuman adecuadamente. Tales características son denominadas de un modo genérico por medidas de una distribución de frecuencias, y suelen dividirse en medidas de posición y medidas de dispersión.
Una medida de posición es un número que describe como se encuentra el resto de la muestra respecto a él. Por ejemplo, el percentil 10 (que se define después) indica que un 10% de los valores de la muestra son inferiores a él.
1.4.1 Medidas de posición 1.4.1.1 Moda La Moda es el intervalo, número o clase que mayor frecuencia tiene. Si una distribución tiene dos modas, se le llama bimodal. En el caso de que tengamos una variable continua, el intervalo que tenga mayor frecuencia será llamado el intervalo modal.
1.4.1.2 Mediana La Mediana es el valor que ocupa la posición central de los datos. Si los datos de la muestra se ordenan de menor a mayor, se define la mediana como aquel dato, perteneciente o no a la muestra, que deja tantas observaciones de la muestra por debajo como por encima de él. Por ejemplo, la muestra 1,5,7,3,9 queda, al ordenarla de menor a mayor, como 1, 3, 5, 7, 9, por lo que la mediana es 5 (deja dos datos antes y dos datos después). Sin embargo, la muestra 1, 3, 5, 6 (ya ordenada) no contiene ningún valor que verifique la definición, conviniéndose en tal caso en que la mediana sea el valor promedio de los dos valores centrales (3+5)/2=4.
1.4.1.3 Percentiles, deciles y cuartiles Se acaba de decir que la mediana divide a la muestra ordenada en 2 partes iguales. Cuando la muestra ordenada se divide en 100 partes iguales se obtienen los percentiles, los cuales son notados por P1, P27, P78... De un modo general, el percentil x es aquel valor de Px que deja a su izquierda el x % de los valores de la muestra ordenada de menor a mayor. Algunos percentiles, por su especial relevancia, reciben nombres específicos. Así, los percentiles P25, P50, P75 son llamados primero, segundo (mediana) y tercer cuartil porque dejan a su izquierda a la cuarta parte, a la mitad y a las tres cuartas partes de la muestra ordenada. De igual modo los percentiles P10, P20...P90 se llaman deciles por dividir la muestra en 10 partes iguales.
1.4.1.4 Media La medida de posición más usual es la media, definida como el promedio de los valores de la muestra, Si un alumno es sometido a tres exámenes de una misma asignatura en los que obtiene las calificaciones de 5, 3 y 6, la calificación media será (5+3+6)/3=4,67. En general, si X1, X2...Xn, son los n valores de la muestra, su media X será: fi La media antes definida se llama en realidad media aritmética, para así distinguirla de otros tipos menos comunes de medias como son la media geométrica, la media armónica y la media ponderada.
Media geométrica: Media armónica: 1.4.2 Medidas de dispersión Las medidas de dispersión son medidas que nos indican cómo de agrupados o de dispersos se encuentran los datos de la muestra.
1.4.2.1 Recorrido, rango o amplitud El rango, recorrido o amplitud de la muestra es la medida de dispersión más simple y de mayor valor intuitivo, definiéndose como la diferencia entre el valor más grande y el más pequeño de la muestra, es decir: El uso de la amplitud es restringido, utilizándose cuando se desea una medida rápida de la dispersión de la muestra, no con fines de inferencia.
1.4.2.2 Desviación media, varianza y desviación típica Para definir una medida de dispersión en la que participen de modo efectivo todas las observaciones de la muestra, parece conveniente considerar la distancia (desviación) de cada dato con respecto a la media, es decir ; a continuación, el promedio de tales distancias, podría definirse como una medida de la dispersión promedio. Sin embargo, algunos sumandos serán positivos y otros negativos, según que Xi sea mayor o menor que , compensándose unos con otros dado el sentido “central” de la media. Por tanto, para evitar esto, debemos definir la distancia como Alternativamente, otro modo de evitar los valores negativos de las desviaciones consiste en elevarlas al cuadrado. Entonces obtenemos la varianza o desviación cuadrática media.
Cuando hay frecuencias ya se sabe que .
La varianza es fácil de tratar matemáticamente, por lo que es la medida de dispersión más utilizada en la inferencia estadística. Su principal inconveniente es que viene expresada por unidades que son el cuadrado de las unidades de las observaciones generales. Para obviarlo, se le extrae la raíz cuadrada, obteniéndose así la desviación típica o, más raramente, desviación estándar.
Por razones que se verán más adelante, la fórmula más utilizada de la varianza y la desviación típica no tiene por denominador n sino (n-1), con los que las medidas pasan a ser medidas llamadas corregidas: 1.4.2.3 Rango intercuartílico Se define rango intercuartílico como la diferencia entre los cuartiles 3º y 1º, es decir .
Se determina fundamentalmente cuando los datos son continuos y numerosos, utilizándose como parámetro de dispersión en aquellos casos en que la mediana se anotó como parámetro de posición.
1.4.2.4 Coeficiente de variación Para hacer dos muestras comparables, hay que extrapolarlas a una media de 100, así, si al medir nos equivocamos en S, al medir 100 nos equivocaremos en CV, con: Afirmar que un método de medida tiene un CV del 10%, por ejemplo, indica pues que, por cada 100 unidades que mida, comete un error, medido en desviaciones típicas, de 10, de modo que cuanto menor sea el CV, mayor es la precisión del método.
Capitulo II Cálculo de probabilidades En el Capítulo I se han enumerado los principios básicos para tabular los datos de una muestra, representarlos y resumirlos mediante las medidas de posición y de dispersión. Sin embargo, también se puso de manifiesto que el fin de la Estadística no es el meramente descriptivo, sino que la tabulación, representación y síntesis de los datos es el punto de partida para el estudio de la población de la que forma parte la muestra obtenida, denominándose a tal proceso por inferencia estadística. La inferencia estadística requiere de una herramienta básica, el Cálculo de Probabilidades.
2.1 Conceptos básicos y definiciones 2.1.1 Fenómenos aleatorios y sucesos aleatorios En la naturaleza existen fenómenos que, realizados de una misma forma en iguales condiciones precias, dan lugar siempre a idéntico resultado. Cuándo la repetición del experimento da lugar siempre a igual resultado, se dice que estamos ante un fenómeno determinista. Por el contrario, cuando el resultado de un fenómeno no es predecible, aun cuando se realice en las mismas condiciones, se dice que es un fenómeno aleatorio.
Todo fenómeno aleatorio puede dar lugar a una serie de resultados posibles, a cada uno de los cuales le llamaremos suceso elemental. Así, el lanzamiento de un dado puede dar lugar a los seis resultados posibles: 1, 2, 3, 4, 5 y 6, los cuales son los sucesos elementales del fenómeno.
Al conjunto de todos los sucesos elementales se le denomina espacio muestral E. En el caso del dado es E= {1, 2, 3, 4, 5, 6}. A cualquier conjunto de sucesos elementales se le llama suceso aleatorio o, simplemente suceso; así, obtener un número “par” al lanzar un dado es el suceso aleatorio {2, 4, 6}.
Una vez realizado el fenómeno aleatorio, un determinado suceso A puede ocurrir o no. Se dice que ocurre cuando el resultado de la experiencia sea uno de los sucesos elementales que están incluidos en A, diciéndose que no ocurre en caso contrario. Como el suceso E siempre ocurre, se dice que es el suceso seguro. En cambio, el suceso = {} que no consta de suceso elemental alguno; como nunca puede suceder, se dice que es el suceso imposible.
2.1.2 Relaciones y operaciones entre sucesos - Un suceso A se dice que está incluido en otro suceso B, y lo notaremos por AB, si siempre que ocurre A ocurre B, es decir, si todo suceso elemental de A es también de B.
- Dados dos sucesos A y B, se entiende por unión de ambos, y se escribe AB, a un nuevo suceso que cuando ocurre A, cuando ocurre B o cuando ocurren ambos, es decir al suceso formado por todos los sucesos elementales que son de A o de B, si A= {2,4,6} y B= {1,2}, será AB= {1,2,4,6}.
- Dados dos sucesos A y B, se entiende por intersección de ambos, y se escribe AB, a un nuevo suceso que ocurre cuando ocurren A y B a la vez, es decir al formado por todos los sucesos elementales que pertenecen a A y a B simultáneamente. Para el ejemplo anterior será AB= {2}.
- Dos sucesos que tienen por intersección el suceso imposible () se denominan sucesos incompatibles. Es decir: A y B son incompatibles  AB=  - Dado un suceso A, se denomina suceso contrario o complementario de él a un nuevo suceso A que ocurre cuando no ocurre A, es decir A consta de los sucesos elementales de E que no están incluidos en A. Así, si A= {2,4,6} =”par” , entonces A= {1,3,5}=”impar”. Por definición A y A son incompatibles y su unión es el suceso seguro.
- Propiedades para la Teoría de sucesos: - Propiedad conmutativa: AB=BA AB=BA - Propiedad asociativa: A(BC)=(AB)C A(BC)=(AB)C - Propiedad distributiva: - Propiedad de De Morgan: A(BC)=(AB)(AC) A(BC)=(AB)(AC) Finalmente, los clásicos diagramas de Venn para representar conjuntos son bastante útiles para los sucesos. Las figuras 3.1 a 3.4 representan gráficamente las operaciones que se acaban de definir. La figura 3.5 representa el caso de dos sucesos incompatibles.
2.2 Concepto de probabilidad y sus propiedades 2.2.1 Frecuencias y Ley de Azar Si bien ante un fenómeno aleatorio no se conoce de antemano cual va a ser su resultado, resulta sumamente útil disponer de algún número que mida la posibilidad de que ocurra cada uno de los sucesos. Si se lanza una moneda al aire n veces, una medida de la posibilidad de que salga cara (suceso C) no puede ser el número fc de veces que ha salido cara, pues fc aumenta con n. Más conveniente es proponer como medida de la posibilidad de cara la frecuencia relativa de caras hc=fc/n, pues ella no depende del tamaño de la muestra n. Se ha observado que conforme una moneda correcta se lanza cada vez un número mayor de veces, la frecuencia relativa de hc se va estabilizando alrededor de un número fijo. Como en una moneda correcta los valores de hc se van haciendo cada vez más próximos a 0,5 conforme n aumenta, al número 0,5 se le llama probabilidad de cara, P©, de tal moneda.
Se ha observado prácticamente que tal estabilización de las frecuencias relativas de un suceso alrededor de un número es algo general valido para todo fenómeno aleatorio y para todo suceso; tal propiedad empírica, llamada ley de azar o ley de la estabilización de las frecuencias relativas, puede anunciarse como: Ley del azar: En una larga serie de pruebas, la frecuencia relativa de un suceso tiende a estabilizarse alrededor de un número fijo llamado probabilidad del suceso.
2.2.2 Concepto de probabilidad Se ha dicho que la probabilidad de un suceso A, P(A), es el límite de la frecuencia relativa cuando n tiende hacia infinito: Es decir, la probabilidad de un suceso es su frecuencia relativa a largo plazo.
2.2.3 Propiedades de la probabilidad De un modo general, puede decirse que la probabilidad es toda regla que permita asignar a todo suceso aleatorio A de un espacio muestral E, un número P(A) – real y único – llamado probabilidad de A. Por otro lado, cabe pensar que dado que la probabilidad es el límite de las frecuencias relativas, aquella heredará las propiedades que tengan estas. Este planteamiento tiene algunos “actos de fe”, tantos como propiedades, pues habremos de asumir que lo que sea cierto para hc lo es también para P(A). Estos “actos de fe” son tres y son llamados los Axiomas del Cálculo de Probabilidades.
Axiomas del Cálculo de Probabilidades: Axioma I: Para todo suceso A, ocurre que P(A)0 Axioma II: Si A y B son incompatibles, entonces P(AB)=P(A)+P(B) Axioma III: Si E es el espacio muestral, entonces P(E)= 1 A partir de estos axiomas se pueden deducir todas las demás propiedades del Cálculo de Probabilidades: 1ª Propiedad: La probabilidad P(A) de un suceso A, es un número comprendido entre 0 y 1: 0 ≤ P  1.
2ª Propiedad: La probabilidad del suceso seguro es 1 y la del suceso imposible es 0: P(E)= 1, P()=0.
3ª Propiedad: La probabilidad de un suceso es igual a uno menos la probabilidad de su suceso contrario: .
4ª Propiedad: Si un suceso está incluido en otro, la probabilidad del primero ha de ser menor o igual que la probabilidad del segundo: si ABP(A) ≤ P(B) 5ª Propiedad: Si dos sucesos son incompatibles, la probabilidad de la unión de ellos es la suma de sus probabilidades: si A y B son incompatibles  P(AB)= P(A)+ P(B) 6ª Propiedad: Si varios sucesos son incompatibles dos a dos, la probabilidad de la unión de todos ellos es la suma de sus probabilidades: 7ª Propiedad: La suma de las probabilidades de todos los sucesos elementales de un fenómeno es igual a la unidad: .
8ª Propiedad: La probabilidad de la unión de dos sucesos cualesquiera es igual a la probabilidad del primero, más la probabilidad del segundo, menos la probabilidad de la intersección de ambos.
.
9ª Propiedad: Como que P(AB) es un número mayor o igual que cero, de la expresión se deduce que o en general: Desigualdad de Bonferroni: si A1, A2, ..., Ak son K sucesos cualesquiera: 2.2.4 Regla de Laplace Se acaban de demostrar diversas propiedades que permiten obtener la probabilidad de un suceso en función de las de otros sucesos más sencillos. El conocimiento de las probabilidades de estos últimos puede obtenerse de dos modos: aproximadamente a través de las frecuencias relativas o de un modo exacto a través de la regla de Laplace: Para deducir tal regla es precioso aceptar previamente un nuevo axioma llamado Postulado de Indiferencia: Axioma IV: Si un fenómeno aleatorio cualquiera puede dar lugar a K sucesos elementales distintos y no se conoce razón alguna que favorezca la presentación de uno respecto de los otros, debe admitirse que todos los sucesos tienen igual probabilidad (igual a 1/K).
Una consecuencia inmediata del Axioma IV es la regla de Laplace: Regla de Laplace: Si el Postulado de Indiferencia es aplicable la probabilidad de un suceso es el cociente entre el número de casos favorables al suceso y el número de casos posibles del fenómeno: 2.3 Probabilidad condicionada Cuando al lanzar un dado homogéneo se solicita la probabilidad de que suceda A={1, 2, 3}, se sobreentiende que la misma debe calcularse bajo el supuesto de que haya ocurrido algunos de los sucesos del espacio muestral E={1, 2, 3, 4, 5, 6}, es decir no aceptando la posibilidad de que el dado haya caído de canto, se esfume mientras esta en el aire, etc. La expresión P(A) es una simplificación de la expresión más rigurosa P(A|E) que se lee “probabilidad de que ocurra el suceso A cuando se sabe que ha ocurrido el suceso E”. Pero el suceso condicionante no tiene por qué ser el suceso E. Por ejemplo, puede ser un suceso B=”nº par”, dónde P(A|B)=1/3 (recordar regla de Laplace, si sale par, los casos favorables son 1 (el nº 2) y los casos posibles son 3 (el nº 1, el nº 2 y el nº 3).
Probabilidad condicionada: La probabilidad de un suceso condicionado por otro es el cociente entre la probabilidad de la intersección de ambos y la probabilidad del condicionante.
2.4 Dependencia e independencia de suceso De un modo general: Ante la unión de dos sucesos uno debe preguntarse si son incompatibles o no, pues la fórmula es distinta: Ante la intersección de dos sucesos, uno debe preguntarse si son independientes o no, pues la fórmula es también diferente: Incompatibles Dependientes Independientes Compatibles 2.5 Teorema de Bayes Teorema de Bayes: Si A1, A2, ..., Ak son K sucesos incompatibles dos a dos y exhaustivos (la unión de todos ellos es el suceso seguro) y B es un suceso cualquiera, entonces: Teorema de la Probabilidad Total: Si A1, A2,..., Ak son sucesos exhaustivos e incompatibles dos a dos y B es un suceso cualquiera, entonces: 2.6 Aplicaciones del Cálculo de Probabilidades a las Ciencias de la salud Si E alude al suceso de que un individuo padezca una determinada enfermendad y T es el suceso de que un determinado test de diagnóstico de la misma dé positivo, se define por: ...