Indice general
1. Analisis de Datos 7
1.1. Introduccion . . . . . . . . . . . . . . . . . . . 7
1.2. Analisis descriptivo de datos . . . . . . . . . . . 7
1.3. Analisis inferencial . . . . . . . . . . . . . . . . 8
1.4. Conjuntos de Datos . . . . . . . . . . . . . . . 10
2. Analisis exploratorio de datos univariantes 13
2.1. Introduccion . . . . . . . . . . . . . . . . . . . 13
2.2. Presentacion de los datos . . . . . . . . . . . . 14
2.2.1. Distribuciones de frecuencias . . . . . . 15
2.2.2. Diagramas de puntos y de tallo y hojas . 20
2.3. Representaciones graficas . . . . . . . . . . . . 21
2.3.1. Diagramas de sectores . . . . . . . . . . 21
2.3.2. Diagrama de rectangulos . . . . . . . . . 22
2.3.3. Diagrama de Pareto . . . . . . . . . . . . 22
2.3.4. Histogramas . . . . . . . . . . . . . . . . 22
1
2 J. L. Dıaz–Barrero
2.3.5. Polıgonos de frecuencies . . . . . . . . . 23
2.3.6. Diagramas de linea o cartas temporales . 23
2.4. Descripcion numerica de datos . . . . . . . . . 23
2.4.1. Parametros de posicion . . . . . . . . . . 24
2.4.2. La media aritmetica . . . . . . . . . . . . 24
2.4.3. La Mediana . . . . . . . . . . . . . . . . 27
2.4.4. Los Percentiles . . . . . . . . . . . . . . . 28
2.4.5. La Moda . . . . . . . . . . . . . . . . . . 29
2.4.6. Parametros de dispersion . . . . . . . . . 29
2.4.7. Rango de un conjunto de datos . . . . . . 29
2.4.8. Rango intercuartılico . . . . . . . . . . . 30
2.4.9. Desviaciones respecto a la media . . . . . 30
2.4.10.La varianza y la desviacion tıpica . . . . . 30
2.4.11.Desviacion media . . . . . . . . . . . . . 32
2.4.12.Coeficiente de variacion de Pearson . . . 32
2.4.13.Parametros de simetrıa . . . . . . . . . . 33
2.4.14.Parametros de forma . . . . . . . . . . . 34
2.4.15.Momentos muestrales . . . . . . . . . . . 34
2.4.16.Box-plot y deteccion de valores atıpicos . 35
2.4.17.Transformaciones . . . . . . . . . . . . . 36
2.5. Problemas de Analisis exploratorio de datos . . 37
3. Analis exploratorio de datos bivariantes 45
Analisis de Datos 3
3.1. Variables bidimensionales . . . . . . . . . . . . 45
3.2. Ajuste mınimo-cuadratico . . . . . . . . . . . . 47
3.3. Problemas de Analisis Exploratorio de Datos Bi-variantes . . . . . . . . . . . . . . . . . . . . . 51
4. Conceptos Basicos de Probabilidad 57
4.1. Introduccion . . . . . . . . . . . . . . . . . . . 57
4.2. Definicion axiomatica de probabilidad . . . . . . 59
4.3. Tecnicas de conteo. Combinatoria . . . . . . . . 62
4.3.1. Variaciones con repeticion . . . . . . . . 62
4.3.2. Variaciones ordinarias . . . . . . . . . . 63
4.3.3. Permutaciones ordinarias . . . . . . . . . 64
4.3.4. Permutaciones con repeticion . . . . . . . 64
4.3.5. Combinaciones ordinarias . . . . . . . . 65
4.3.6. Combinaciones con repeticion . . . . . . 66
4.4. Probabilidad condicional . . . . . . . . . . . . . 68
4.5. Sucesos dependientes e independientes . . . . . 69
4.6. Teorema de las probabilidades totales . . . . . . 71
4.7. Formula de Bayes . . . . . . . . . . . . . . . . 72
4.8. Problemas de Probabilidad . . . . . . . . . . . . 73
5. Variables Aleatorias Discretas 85
5.1. Variables aleatorias discretas . . . . . . . . . . 85
5.2. Modelos probabilısticos discretos . . . . . . . . 89
4 J. L. Dıaz–Barrero
5.2.1. Distribucion de Bernoulli . . . . . . . . . 89
5.2.2. La Distribucion Binomial . . . . . . . . . 90
5.2.3. Distribucion uniforme discreta . . . . . . 91
5.2.4. La distribucion geometrica . . . . . . . . 91
5.2.5. La distribucion de Poisson . . . . . . . . 92
5.2.6. Perıodo de retorno . . . . . . . . . . . . . 94
5.3. Problemas . . . . . . . . . . . . . . . . . . . . . 94
6. Variables Aleatorias Continuas 101
6.1. Parametros de una variable aleatoria continua . 103
6.2. Modelos probabilısticos continuos . . . . . . . . 104
6.2.1. Distribucion uniforme continua . . . . . 104
6.2.2. Distribucion exponencial . . . . . . . . . 104
6.3. La Distribucion Normal . . . . . . . . . . . . . 105
6.4. El teorema del Lımite Central . . . . . . . . . . 107
6.5. Problemas . . . . . . . . . . . . . . . . . . . . . 109
7. Inferencia Estadıstica: Estimacion de Parametros.Contrastes de Hipotesis 117
7.1. Introduccion . . . . . . . . . . . . . . . . . . . 117
7.2. Muestreo . . . . . . . . . . . . . . . . . . . . . 118
7.3. Estimacion de Parametros . . . . . . . . . . . . 120
7.3.1. Metodos de Estimacion Puntual . . . . . 120
7.3.2. Intervalo de probabilidad e intervalo deconfianza . . . . . . . . . . . . . . . . . 122
Analisis de Datos 5
7.4. Distribucion de la Media Muestral . . . . . . . . 123
7.5. Intervalos de confianza en poblaciones normales 123
7.6. Contraste de Hipotesis . . . . . . . . . . . . . . 125
7.6.1. Contrastes para la media . . . . . . . . . 127
7.7. Analisis de la Varianza . . . . . . . . . . . . . . 128
7.8. Test de Chi-cuadrado . . . . . . . . . . . . . . 133
7.9. Problemas de inferencia . . . . . . . . . . . . . 136
6 J. L. Dıaz–Barrero
Capıtulo 1
Analisis de Datos
1.1. Introduccion
El analisis de datos, tecnicas cuantitativas o estadıstica es elconjunto de metodos y procedimientos encargados de la ob-tencion de informacion util a partir de un conjunto de datos.Consiste en la recopilacion, presentacion, analisis y uso dedatos para la toma de decisiones y la resolucion de proble-mas. Por tanto, el objetivo del analisis de datos es la toma dedecisiones frente a la incertidumbre.
1.2. Analisis descriptivo de datos
Los metodos descriptivos tienen por objeto organizar y resu-mir los datos disponibles de manera que sea posible perci-bir rapidamente las caracterısticas principales y las posiblesanomalıas de los procesos de que provienen, sin intentar in-ferir nada que vaya mas alla de los propios datos.
7
8 J. L. Dıaz–Barrero
1.3. Analisis inferencial
Tiene por objeto deducir informacion util sobre una pobla-cion a partir del analisis de muestras de la misma. Hay dosformas de abordar el problema:
1. Estimacion de parametros
2. Contraste de hipotesis o decision estadıstica
La primera consiste en aproximar los parametros poblacio-nales con estadısticos muestrales adecuados o bien calcu-lando intervalos muy probables de posibles valores. En cam-bio, la decision estadıstica consiste basicamente en estable-cer hipotesis sobre los parametros poblacionales y a conti-nuacion utilizar la informacion contenida en las muestraspara decidir si las hipotesis formuladas son o no aceptables.
En general, un analisis de datos consta de las siguientes fa-ses:
Planteamiento del problema que se desea estudiar
Diseno de un plan para la recogida de datos
Analisis exploratorio de los datos (tabulacion, sıntesis,deteccion de valores anomalos y obtencion de primerasconclusiones)
Modelacion del problema
Validacion del modelo
Toma de decisiones
Analisis de Datos 9
En cualquier caso, el analisis de datos no dira cual es ladecision que se ha de tomar, sino que aportara informacionpara que, juntamente con otras consideraciones, se este encondiciones para tomarla.
Conceptos fundamentales en el analisis de datos son los depoblacion y muestra. La poblacion es el conjunto de todos loselementos que tienen una determinada caracterıstica, es de-cir, lo que se quiere estudiar. Los elementos de una poblacionse llaman individuos o unidades muestrales. Una muestra escualquier subconjunto de la poblacion, i.e., lo que se puedeestudiar. El numero de elementos de que consta es el tamanoo extension de la muestra. Una muestra es aleatoria cuandocada individuo de la poblacion tiene la misma probabilidadde ser incluido en ella.
Segun su caracter los datos se clasifican en cualitativos oatributos y cuantitativos. Estos ultimos a su vez se clasificanen discretos y continuos. Segun el numero de datos observa-dos en cada individuo de la poblacion estos se clasifican enunivariantes (un solo dato) o multivariantes (mas de un dato).
Finalmente, se expone el orden de actuacion que se consideramas adecuado para el tratamiento de los datos:
Recogida, ordenacion, depuracion y presentacion analıti-ca (tablas) de los datos
Representacion grafica
Evaluacion de estadısticos muestrales y obtencion devalores aproximados de los parametros poblacionales.
10 J. L. Dıaz–Barrero
Este apartado se puede concluir diciendo que el analisis dedatos es un elemento decisivo para el incremento de la ca-lidad, dado que las tecnicas cuantitativas permiten estudiarla variabilidad, entendida como el resultado de los cambiosen las condiciones sobre las que se hacen las observaciones.
1.4. Conjuntos de Datos
1. En la siguiente tabla aparecen 80 datos que han sidosimulados con MS Excel:
24,34 46,31 48,86 48,70 60,86 39,77 33,98 47,7749,36 48,21 78,95 63,49 34,43 41,82 55,73 53,8626,64 44,57 45,49 40,24 51,89 61,30 73,09 46,2347,18 51,00 62,41 40,85 49,88 61,22 56,36 59,1231,38 67,82 40,01 31,39 42,61 36,32 68,77 33,1262,20 61,73 53,72 56,24 68,47 41,38 66,33 47,0749,21 35,40 37,50 56,71 43,46 63,56 48,31 59,6469,64 46,17 59,55 29,77 55,63 61,75 32,25 65,2752,06 56,69 35,23 57,12 60,50 40,18 55,98 45,6659,28 45,71 52,20 57,18 33,40 47,03 47,85 62,55
2. Los siguientes datos corresponden al tiempo medio (ensegundos) de envasado de una botella de agua mineral:
1,23 2,01 1,72 2,21 2,05 1,96 1,94 2,13 2,18 2,172,12 2,10 1,86 1,64 1,77 1,90 1,74 1,75 2,50 1,791,41 1,88 2,10 2,04 2,08 2,06 1,76 2,09 2,00 1,872,32 2,12 2,01 1,78 2,19 2,14 2,34 2,19 2,07 1,892,75 1,32 2,11 2,24 2,42 2,31 2,03 1,96 1,82 1,781,77 2,25 1,71 1,53 1,64 2,06 2,00 1,83 2,05 1,63
3. Los siguientes datos corresponden a porcentajes de ba-sura reciclada obtenidos en 100 puntos seleccionados
Analisis de Datos 11
aleatoriamente en una gran ciudad y su area Metropoli-tana:
13 25 12 27 45 56 27 34 38 3422 52 34 29 55 36 49 44 47 6126 29 37 32 54 30 37 29 38 4349 36 47 27 46 38 42 53 41 3429 45 45 55 32 25 23 40 30 3143 34 22 22 47 39 25 41 29 4445 33 39 45 27 28 46 40 44 4843 27 37 36 48 55 34 33 47 3532 47 47 39 57 28 24 29 25 5535 47 36 28 25 36 31 43 42 48
Problema 1.1 Para los conjuntos de datos anteriores se pide:
1. Ordenarlos, clasificarlos e intentar decir algo sobre la in-formacion contenida en ellos y presentarla de forma re-sumida.
2. A la vista de lo obtenido en el apartado anterior, ¿se pue-den sacar algunas conclusiones? ¿cuales?
12 J. L. Dıaz–Barrero
Capıtulo 2
Analisis exploratorio dedatos univariantes
2.1. Introduccion
El Analisis descriptivo de datos es la parte de la Estadısticaencargada de contar, organizar, resumir y representar grafi-camente los datos de forma que sean facilmente perceptiblessus principales caracterısticas. Los elementos de trabajo sonlos datos (variables estadısticas) y estos, como ya se ha co-mentado, pueden ser cualitativos o cuantitativos.
La variables cualitativas describen cualidades de los elemen-tos de la poblacion y no toman valores numericos. Por ejem-plo, la ciudad donde se ha nacido, el color del pelo, la ocupa-cion de los padres, etc., son datos cualitativos.
Las variables cuantitativas toman valores numericos y pue-den ser discretas (toman valores numericos enteros en nume-ro finito o infinito numerable) y continuas cuando toman valo-res dentro de un intervalo. El numero de mensajes electroni-
13
14 J. L. Dıaz–Barrero
cos recibidos por un usuario o el numero de veces que seha de lanzar una moneda hasta que aparezca cara son ejem-plos de variables discretas. La hora de llegada de un tren a laestacion, el porcentaje de ocupacion hotelera de una deter-minada comarca o la cotizacion de unas acciones en Bolsa,son ejemplos de datos cuantitativos continuos.
Tambien se utilizan las variables dicotomicas cuando la ca-racterıstica observada toma solo los valores cero y/o uno.Suele ser una variable cualitativa, reflejando dos modalida-des posibles o la presencia o ausencia de una cualidad.
Un caso intermedio entre las variables cualitativas y las cuan-titativas son las variables ordinales cuando los valores tienenun caracter nominal pero admiten una ordenacion. Por ejem-plo, las variables de opinion (muy insatisfecho, insatisfecho,indiferente, satisfecho, muy satisfecho).
Finalmente, cuando sobre un mismo individuo se observamas de una caracterıstica diremos que se trata de una varia-ble multidimensional.
2.2. Presentacion de los datos
Se trata basicamente de establecer la forma de organizar losdatos en tablas y representarlos graficamente mediante dia-gramas con el objetivo de proporcionar una rapida y facil per-cepcion de algunas de sus principales caracterısticas.Habitualmente los datos se organizan en tablas llamadas dis-tribuciones de frecuencias y se representan graficamente me-diante diagramas: de puntos, de rectangulos, de barras y sec-tores, histogramas, polıgonos de frecuencias, cartas tempora-les, pictogramas, etc..Antes de proceder a la representacion grafica de los datos
Analisis de Datos 15
es conveniente utilizar un procedimiento semigrafico, cono-cido como diagrama de tallo y hojas que sirve para ordenarlos datos y para hacernos una idea de como estos se hallandistribuidos.
2.2.1. Distribuciones de frecuencias
El resultado de observar una muestra o una poblacion es enun conjunto de datos que recoge los valores que toma unavariable estadıstica sobre los individuos observados. Estosvalores suelen registrarse en forma de listados o protocolos ypueden ser nominales, ordinales o numericos, segun el tipode variable observada. Una primera forma de sintetizar losdatos es analizar que valores aparecen y cuantas veces o enque proporcion aparecen.
Supongamos que se observa una determinada caracterısti-ca X sobre n objetos o individuos. El valor n, como ya seha dicho, es el tamano o extension de la muestra. La mues-tra se denotara por Mx = {x1, x2, · · · , xn} (es el conjuntode valores observados sobre los n individuos), y por Dx ={x1, x2, · · · , xk} el conjunto de valores disitintos que apare-cen en la muestra.Se denomina frecuencia absoluta del valor xi al numero deveces ni que aparece el valor xi en el conjunto Mx, y se de-nota por fa(xi) = ni.Se denomina frecuencia relativa del valor xi a la proporcionde apariciones del valor xi en el conjunto Mx, y se indica por
fr(xi) =ni
n.
Con las frecuencias relativas se elimina la influencia del nume-ro total de observaciones y eso permite la comparacion entreconjuntos de datos de distinto tamano.Cuando los valores x1, x2, · · · , xk admiten una ordenacion
16 J. L. Dıaz–Barrero
tiene sentido hablar de frecuencia acumulada hasta el va-lor i−esimo. Supuesta una ordenacion creciente x1 ≤ x2 ≤· · · ≤ xk, se define:
Fa(xi) =i∑
k=1
fa(xk) =i∑
k=1
nk;
Fr(xi) =i∑
k=1
fr(xk) =i∑
k=1
nk
n.
Estos resultados se acostumbran a representar en tablas(distribuciones de frecuencias), indicando en la primera co-lumna los valores observados de la caracterıstica X, ordena-dos de menor a mayor cuando ello es posible, y, en columnassucesivas, las frecuencias absolutas y relativas y las frecuen-cias absolutas acumuladas y relativas acumuladas cuandoello tenga sentido.
xi fa(xi) fr(xi) Fa(xi) Fr(xi)
x1 n1
n1
nn1
n1
n
x2 n2
n2
nn1 + n2
n1 + n2
n...
......
......
xk nk
nk
nn1 + n2 + · · · + nk
n1 + n2 + · · · + nk
n
Para la presentacion de los datos en tablas de frecuencias(presentacion analıtica) hay que distinguir entre variablescualitativas y cuantitativas discretas y continuas. El el casode variables cualitativas o cuantitativas discretas hay pocadiferencia como se muestra en los siguientes ejemplos.
Analisis de Datos 17
Ejemplo 2.2.1 De los 60 estudiantes que asisten a clase, 40han nacido en Cataluna, 15 en el resto de Espana y 5 sonextranjeros. Presentar los datos en una tabla de frecuencias.
Solucion. En este caso se trata de una variable cualitativaX que toma los valores {Cataluna,Espana,Extranjero}, confrecuencias absolutas {40, 15, 5} respectivamente. La corres-pondiente tabla de frecuencias es la siguiente:
xi fa(xi) fr(xi)( %) Fa(xi) Fr(xi)( %)
Cat 40 66.66 40 66.66Esp 15 25 55 91.66Ext 5 8.33 60 100
Total 60
2
Ejemplo 2.2.2 Durante 100 dıas se ha anotado el numero deveces diarias que se han producido deficiencias en el sumu-nistro electrico por parte de la compania suministradora. Losresultados fueron
xi 0 1 2 3 4 5 6ni 60 30 4 3 1 0 2
Presentar los datos en una tabla de frecuencias y concluir si elsumunistro puede considerarse o no satisfactorio.
Solucion. En este caso se trata de una variable cuantitativadiscreta. Su correspondiente tabla de frecuencias es
18 J. L. Dıaz–Barrero
xi fa(xi) fr(xi) Fa(xi) Fr(xi)
0 60 0.60 60 0.601 30 0.30 90 0.902 4 0.04 94 0.943 3 0.03 97 0.974 1 0.01 98 0.985 0 0.00 98 0.986 2 0.02 100 1.00
Total 100
En base a los datos contenidos en la tabla se puede decirque el suministro es correcto ya que en el 90 % de los dıas elsuministro o no presenta o a lo sumo sufre una deficiencia.2
En el caso de datos continuos es conveniente agrupar losvalores observados en clases y representar las frecuenciasde estas clases en tablas que como antes se llaman Tablasde frecuencias.Las fases a seguir son las siguientes:
i. Redondear los datos y expresarlos (si se considera con-veniente) en unidades no decimales.
ii. Decidir el numero de clases a considerar. Normalmentees un numero entre 5 i 20. Para determinarlo a veces seutiliza la formula de Sturges:
NUM = E
[3
4+
log n
log 2
].
Tambien se acostumbra a utilizar la raız cuadrada porexceso del numero de datos.
Analisis de Datos 19
iii. Contar el numero de observaciones que caen dentro decada clase, i.e., las frecuencies absolutas y completar latabla de frecuencias.
Se utiliza la siguiente terminologıa:
Clase o intervalo de clase: son cada uno de los intervalosen que se han de agrupar los datos (aunque no es nece-sario es conveniente que sean de igual longitud).
Lımites de clase: son los extremos de cada intervalo de cla-se. El lımite inferior se representa por Li y el lımite su-perior por Ls.
Tamano de la clase: es la diferencia entre el Ls − Li.
Marca de clase: es el punto medio del intervalo de clase. To-dos los elementos de la clase se representan por la mar-ca de clase.
Ejemplo 2.2.3 Los datos siguientes corresponden a los por-centajes de basura recilada de 104 puntos seleccionados alazar en una determinada ciudad. Presentar los datos agrupa-dos en clases y construir la correspondiente tabla de frecuen-cias.
96,4 92,6 92,3 92,0 92,0 91,9 91,8 91,5 90,4 89,489,3 88,4 87,7 87,7 87,3 87,3 87,0 85,8 85,1 84,984,7 84,0 83,2 83,2 83,0 82,4 82,4 82,0 81,9 81,781,4 81,3 81,2 81,1 81,1 81,0 81,0 80,9 80,4 79,879,7 79,4 79,4 79,3 79,2 78,9 78,8 77,6 77,3 77,177,1 77,0 77,0 75,9 75,8 75,6 75,3 74,9 74,4 73,973,8 73,6 72,4 71,9 71,5 71,2 70,7 70,7 70,6 69,969,7 68,8 68,5 68,1 68,1 68,0 67,7 67,7 66,8 65,865,5 65,0 64,7 62,2 61,8 61,4 61,2 60,0 60,0 59,259,0 55,9 55,6 54,9 48,9 48,8 46,7 43,6 42,6 39,138,0 35,0 33,8 32,1
20 J. L. Dıaz–Barrero
Solucion. Los 104 datos de que disponemos los distribuiremosen 10 clases. La correspondiente tabla de frecuencias es
Li − Ls xi fa(xi) fr(xi)( %) Fa(xi) Fr(xi)( %)
30–37 33.5 3 2.885 3 2.88537–44 40.5 4 3.846 7 6.73144–51 47.5 3 2.885 10 9.61651–58 54.5 3 2.885 13 12.50158–65 61.5 10 9.615 23 22.11665–72 68.5 18 17.308 41 39.42472–79 75.5 18 17.308 59 56.73279–86 82.5 28 26.923 87 83.65586–93 89.5 16 15.385 103 99.0493–100 96.5 1 0.962 104 100Total 104
2
2.2.2. Diagramas de puntos y de tallo y hojas
El diagrama de puntos es util para conjuntos pequenos dedatos, dado que permite ver con rapidez y facilidad la ubica-cion o tendencia central de los datos, ası como su dispersiono variabilidad.
El diagrama de tallo y hojas es un procedimiento semigraficopara presentar variables cuantitativas cuando el numero dedatos no es muy elevado. Las fases de su construccion sonlas siguientes:
i. Redondear los datos y expresarlos en unidades no deci-males.
Analisis de Datos 21
ii. Disponer los datos en una tabla a dos columnas sepa-radas por una linea vertical de la forma siguiente:
a. Para datos con dos cifras, las decenas que son el ta-llo, a la izquierda de la linea vertical y las unidadesque son las hojas a la derecha.
b. Para datos con tres cifras las centenas y decenasforman el tallo y las unidades las hojas.
Cada tallo se escribe una vez, el numero de hojas da la fre-cuencia del tallo. Los diagramas de tallo y hojas son tambienutiles para ordenar los datos y para hacernos una idea de lasimetrıa de la distribucion.
2.3. Representaciones graficas
La informacion contenida en las tablas de frecuencias pue-de expresarse en forma grafica sin que esta transformacionsuponga una perdida o ganacia de informacion. Las distribu-ciones de frecuencias se representan graficamente mediantediagramas de barras y rectangulos en el caso de variablescualitatives o cuantitativas discretas y mediante histogramasde frecuencias y polıgonos de frecuencias cuando las varia-bles son continuas. En el caso cualitativo tambien se utilizanlos diagramas de sectores.
2.3.1. Diagramas de sectores
Se construyen de forma que su angulo central y por tantosu area sea proporcional a la frecuencia absoluta correspon-diente. Son utiles para presentar resultados de encuestas,procesos electorales, etc.
22 J. L. Dıaz–Barrero
2.3.2. Diagrama de rectangulos
En el eje de abcisas se representan los valores de la varia-ble en cualquier orden y en el de ordenadas se representanlas frecuencias. Cada categorıa se representa mediante unrectangulo de altura proporcional a la frecuencia observada.Los rectangulos tienen todos la misma amplitud de base.
2.3.3. Diagrama de Pareto
Es equivalente al diagrama de rectangulos pero ordenandolas categorıas de mayor a menor frecuencia. Se construyenrepresentando los valores observados en una escala horizon-tal (vertical), les frecuencias en una escala vertical (horizon-tal) y se dibujan segmentos sobre los valores observados delongitudes proporcionales a las frecuencias correspondien-tes. Son utiles para variables cualitativas y cuantitativas dis-cretas. El diagrama de barras acumuladas es como el diagra-ma de barras pero para frecuencias acumuladas.
2.3.4. Histogramas
El Histograma se construye para representar la medida de lasobservaciones que estan agrupadas en clases en un eje hori-zontal, las frecuencias de clase en un eje vertical y se dibu-jan rectangulos con sus bases determinadas por los lımitesde clase y sus alturas proporcionales a las correspondientesfrecuencias de clase. La altura de las clases puede calcularsemediante la expresion
altura =frecuencia relativa
Ls − Li
.
A modo de sıntesis diremos que el histograma es la descrip-
Analisis de Datos 23
cion grafica mas importante de la distribucion de las varia-bles continuas. Su forma depende basicamente de las clases,que han de ser elegidas antes de construir la distribucion defrecuencias. Es recomendable que ninguna clase contengamas del 30 % de los datos y tambien que no halla muchasclases vacıas.
2.3.5. Polıgonos de frecuencies
En el caso de datos cualitativos o cuantitativos discretos seconstruyen dibujando una poligonal que una los extremossuperiores de los segmentos del diagrama de barras. En elcaso de datos continuos se toman las frecuencies de clase enlas marcas de clase y se unen los puntos medios de la basesuperior de los rectangulos del histograma mediante segmen-tos.
2.3.6. Diagramas de linea o cartas temporales
Una forma de representar la evolucion de una magnitud alo largo del tiempo es a traves de los graficos temporales.Consisten en dibujar en un grafico cartesiano los puntos quetienen por abcisa el momento en que se raliza la observaciony por ordenada la magnitud de la observacion. Uniendo lospuntos consecutivos mediante lineas se obtiene una poligo-nal que proporciona una idea visual de la evolucion temporalde la variable.
2.4. Descripcion numerica de datos
Los parametros poblacionales y los estadısticos muestra-les son cantidades numericas que resumen la informacion
24 J. L. Dıaz–Barrero
contenida en los datos. Se llaman parametros cuando ha-cen referencia a la poblacion y estadısticos cuando los datoscorresponden a una muestra. Se clasifican en:
Parametros de posicion (media aritmetica, mediana,moda, centiles)
Parametros de dispersion (rango del conjunto de da-tos, rango intercuartilico, desviaciones respecto a la me-dia, varianza, desviacion tıpica o estandard, desviacionmedia, coeficiente de variacion de Pearson)
Parametros de asimetrıa (coeficiente de simetrıa: asi-metrıa a la izquierda, simetrıa, asimetrıa a la derecha)
Parametros de forma (coeficiente de kurtosis: platicuarti-cas, mesocuarticas, leptocuarticas).
2.4.1. Parametros de posicion
Son descriptores del conjunto total de los datos. En ciertaforma son las medidas que describen el centro del conjuntode datos y por eso tambien se llaman parametros de centra-lizacion o promedios.
2.4.2. La media aritmetica
La medida mas comun de tendencia central o localizacion esel promedio aritmetico ordinario o media aritmetica. Dadoque casi siempre, los datos con los que se trabaja correspon-den a muestras, es por eso que a la media aritmetica tambiense le conoce como media muestral.Si los datos correspondientes a una muestra de tamano nson
Analisis de Datos 25
x1, x2, · · · , xk, con frecuencias f1, f2, · · · , fk, f1 + f2 + · · · +fk = n, entonces la media muestral se define como
x =x1f1 + x2f2 + · · · + xkfk
f1 + f2 + · · · + fk
=1
n
k∑i=1
xifi.
La media muestral x representa el valor promedio de todaslas observaciones en la muestra. Tambien es posible pensaren calcular el promedio de todas las observaciones de unapoblacion. Este promedio se conoce como la media pobla-cional y se acostumbra a representar per la letra griega µ.
Ejemplo 2.4.1 Determinar un valor aproximado de la mediaaritmetica de un conjunto de datos del que se dispone de lasiguiente informacion:
Li − Ls xi fa(xi) fr(xi)( %) Fa(xi) Fr(xi)( %)
30–37 33.5 3 2.885 3 2.88537–44 40.5 4 3.846 7 6.73144–51 47.5 3 2.885 10 9.61651–58 54.5 3 2.885 13 12.50158–65 61.5 10 9.615 23 22.11665–72 68.5 18 17.308 41 39.42472–79 75.5 18 17.308 59 56.73279–86 82.5 28 26.923 87 83.65586–93 89.5 16 15.385 103 99.04
93–100 96.5 1 0.962 104 100Total 104
Solucion. La media aritmetica es
x =x1f1 + x2f2 + · · · + xkfk
f1 + f2 + · · · + fk
=1
n
k∑i=1
xifi =7614
104= 73,21
26 J. L. Dıaz–Barrero
donde se han tomado las marcas de clase como representan-tes de todos los elementos contenidos en ellas. 2
La media goza de la siguiente propiedad:
(i) x + y + · · · + z = x + y + · · · + z
(ii) ax = ax.
El valor de la media, a diferencia de otros parametros de posi-cion, no depende del orden en que se hayan escrito los datos.Si
x1, x2, · · · , xn
es un conjunto de observaciones, se acostumbra a represen-tar por
x(1), x(2), · · · , x(n)
al conjunto de las mismas observaciones ordenadas de me-nor a mayor.
Se llama robustez de un parametro a su resistencia o sensi-bilidad a los valores extremos, tambien conocidos como da-tos atıpicos o outliers. Son valores correctos, pero que secaracterizan por una diferencia pronunciada respecto a losdemas datos. Deben analizarse cuidadosamente para deter-minar si provienen de otra poblacion. Caso de correspondera la poblacion analizada, puede interesar no considerarlospara el calculo de estadısticos muy sensibles a los valoresextremos.
La media aritmetica, como ya se ha dicho, es muy sensible alos valores extremos. Esta falta de robustez se remedia con lamedia recortada que modera el efecto de los datos atıpicosen el calculo de la media aritmetica suprimiendo los valoresextremos. La media recortada al α por ciento es la media delos datos que quedan despues de suprimir el α/2 por cien-to de los datos mas grandes y el α/2 por ciento de los mas
Analisis de Datos 27
pequenos. La media aritmetica ponderada es equivalente ala media aritmetica, pero para observaciones ponderadas porpesos w1, w2, · · · , wk. Se define por
xp =
k∑i=1
wixi
k∑i=1
wi
.
2.4.3. La Mediana
La mediana de un conjunto de datos es un valor que di-vide a la muestra en dos partes iguales cuando estos se ha-llan ordenados. Cuando la muestra consta de un numero parde elementos, cualquier numero entre los dos centrales sa-tisface la definicion de mediana. En tal caso, sin embargo,es conveniente tomar la media aritmetica de los dos valorescentrales como mediana. Sintetizando, con datos ordenadosla mediana se define como
MeX = x =
x(n+12
), n impar,x(n/2) + x(n/2+1)
2, n par.
Cuando los datos estan agrupados en clases, para calcularla mediana se utilizan las expresiones:
(a)
x = MeX = Li + c
(n
2
)− Fi−1
fi
donde Li es el lımite inferior de la clase mediana, c esla amplitud de la clase, n el numero total de datos, Fi−1
la frecuencia absoluta acumulada de la clase anterior a
28 J. L. Dıaz–Barrero
la clase mediana y fi la frecuencia absoluta de la clasemediana
(b)
x = MeX = Li + c(j/fi)
donde Li es el lımite inferior de la clase mediana, c esla amplitud de la clase, j es el numero de observacionesen esta clase hasta completar un total de n/2 y fi lafrecuencia de la clase mediana.
Observese que las expresiones (a) y (b) dicen lo mismo dadoque n/2 − Fi−1 = j.
2.4.4. Los Percentiles
Otros parametros mas generals que la mediana son los cen-tiles que son los puntos que dividen la serie de datos orde-nados en cien partes iguales. En general, el k-esimo centil xk
es un valor tal que, al menos el k % de las observaciones que-dan en el valor o por debajo de el, y al menos el (100 − k) %estan en el valor o por encima de el. En el caso de datos agru-pados en clases para aproximar su valor se puede utilizar laformula
xk = Li + c
( nk
100
)− Fk−1
fk
Algunos reciben nombres particulares. Ası x25 = qi = q1 =P0,25 es el cuartil inferior (el 25 % de los datos son mas pe-quenos o iguales que el). La mediana x = x50 = P0,50. Elcentil x75 = qs = q3 = P0,75 es el cuartil superior (el 75 % delos datos son inferiores o iguales a el.)
Analisis de Datos 29
2.4.5. La Moda
Es la observacion que presenta mayor frecuencia en la mues-tra. Cuando en la muestra hay mas de una observacion conla maxima frecuencia la distribucion se dice bimodal si haydos modas, y en general, multimodal si hay tres o mas mo-das. En el caso de datos agrupados la moda se puede obteneraproximadamente a partir de la formula
MoX = Li + cD1
D1 + D2
donde Li es el lımite inferior de la clase modal, c es el tamanode la clase modal, D1 la diferencia entre la frecuencia abso-luta de la clase modal y la anterior y D2 la diferencia entre lafrecuencia absoluta de la clase modal y la posterior.
2.4.6. Parametros de dispersion
Las medidas de variabilidad o parametros de dispersion danuna idea de hasta que punto los datos se dispersan o agru-pan en torno a los valores centrales.
2.4.7. Rango de un conjunto de datos
El menor valor observado en la muestra es el mınimo, i.e.,
min{x1, x2, · · · , xn} = x(1).
El mayor valor observado en la muestra es el maximo, i.e.,
max{x1, x2, · · · , xn} = x(n).
30 J. L. Dıaz–Barrero
Una de las medidas mas sencillas de variabilidad es el rangoque se define como la diferencia entre los valores maximo ymınimo, es decir,
R = max{x1, x2, · · · , xn}−min{x1, x2, · · · , xn} = x(n)−x(1).
Este parametro es muy sensible (poco robusto) a los valoresextremos de la muestra.
2.4.8. Rango intercuartılico
Se define como la diferencia entre el cuartil superior y el in-ferior, i.e.,
Riq = qs − qi = x75 − x25.
Es menos sensible a los valores extremos que el rango delconjunto de datos.
2.4.9. Desviaciones respecto a la media
Son las diferencias (errores) entre cada dato y su media arit-metica. Si los datos son
x1, x2, · · · , xn,
entonces las desviaciones respecto a la media o errores abso-lutos son x1 − x, x2 − x, · · · , xn − x. Estas diferencias tienenla propiedad de que su suma es zero.
2.4.10. La varianza y la desviacion tıpica
Son las medidas mas importantes de variabilidad. Si x1, x2, · · · , xn,es una muestra de n observaciones, entonces la varianza se
Analisis de Datos 31
define como la media aritmetica de los cuadrados de las des-viaciones respecto a la media. Es decir,
s2 =1
n
n∑k=1
(xk − x)2 =1
n
n∑k=1
x2k − x2.
Tambien se puede definir el estadıstico varianza muestral co-rregida por
s2c =
1
n − 1
n∑k=1
(xk − x)2 =1
n − 1
{n∑
k=1
x2k − nx2
}.
La desviacion muestral estandard, s, es la raız cuadradapositiva de la varianza, i.e.,
s =
√√√√ 1
n
n∑k=1
(xk − x)2 =
√√√√ 1
n
n∑k=1
x2k − x2.
La varianza goza de la siguiente propiedad
V ar(aX + b) = a2V ar(X)
y la desviacion tıpica verifica
SaX+b = |a|SX.
El error estandard de la media se define por se = s/√
n.
Cuando solo se conocen la media x y la desviacion tıpica sde un conjunto de datos, la regla empırica de Chebyshevpermite otra interpretacion de la desviecion tıpica propor-cionando informacion sobre el numero de observaciones quecaen en los siguientes intervalos:
(x − 2s, x + 2s) contiene al menos el 75 % de los datos.
32 J. L. Dıaz–Barrero
(x − 3s, x + 3s) contiene al menos el 88 % de los datos.
(x − 4s, x + 4s) contiene al menos el 93 % de los datos.
2.4.11. Desviacion media
Es la media aritmetica de los valores absolutos de las desvia-ciones respecto a la media, es decir,
d =1
n
n∑k=1
|xk − x|.
Aunque no se cumple de forma exacta, se puede decir que larelacion entre d y s, viene dada por d ' 0,8s.
2.4.12. Coeficiente de variacion de Pearson
Cuando se quiere expresar la variacion como una fraccion dela media se puede utilizar una medida porcentual de variabi-lidad relativa, denominada coeficiente de variacion mues-tral, que se define por
Cv =s
|x|× 100, x 6= 0
e indica la magnitud promedio del error (desviacion tıpica)como porcentaje de la media. Es util para comparar las dis-persiones de variables que aparecen en unidades distintas oque difieren considerablemente en la magnitud de las obser-vaciones.
Si el Cv es menor que 100, indica homogeneidad en los datos;si es mayor que 150 puede ser indicio de heterogeneidadesdebidas a mezclas de poblaciones distintas; esto puede darse
Analisis de Datos 33
de forma no evidente en una primera aproximacion cuandohan sido utilizados instrumentos distintos para la medicionde parte de los objetos, o bien se han realizado las obser-vaciones en momentos distintos o por personas distintas deforma que estos factores hayan influido en los resultados.
2.4.13. Parametros de simetrıa
Otro rasgo interesante, ademas de la posicion y la dispersionde los datos es la simetrıa de las observaciones respecto ala media. Esta puede detectarse a partir de la representaciongrafica de las frecuencias (diagramas de barras, histogramas,polıgonos de frecuencia). Indicadores numericos son la rela-cion entre la media, mediana y moda:
Mo ≈ x ≈ x indica simetrıa.
Mo � x � x indica simetrıa negativa (a la izquierda).
Mo � x � x indica simetrıa positiva (a la derecha).
Otro indicador numerico es el coeficiente de asimetrıa quese define a partir de las desviaciones respecto a la media x1−x, x2 − x, · · · , xn − x, por
CasX =1
ns3X
n∑k=1
(xk − x)3.
Este coeficiente, que es adimensional, vale cero para distri-buciones simetricas alrededor de la media. Es negativo paradistribuciones asimetricas a la izquierda y positivo para dis-tribuciones asimetricas a la derecha.
Si se detecta una asimetrıa junto con datos atıpicos, es con-veniente estudiar la viabilidad de una transformacion de losdatos.
34 J. L. Dıaz–Barrero
2.4.14. Parametros de forma
Otra caracterıstica de interes en una distribucion de datos essu apuntamiento o kurtosis. Considerando las cuartas po-tencias de las desviaciones respecto a la media se define elcoeficiente de apuntamiento por
CapX =1
ns4X
n∑k=1
(xk − x)4.
Este apuntamiento se suele comparar con una distribucionpatron, generalmente la normal, y la distribucion se dice lep-tocuartica cuando esta mas apuntada que la normal (Cap ≥3), mesocuartica cuando su apuntamiento es similar al dela normal y platicuartica cuando esta menos apunatada quela normal (Cap ≤ 3).
2.4.15. Momentos muestrales
El momento muestral r-esimo en torno al orıgen se definepor
m′r =
1
n
n∑k=1
xrk.
El momento muestral r-esimo en torno a la media se de-fine por
mr =1
n
n∑k=1
(xk − x)r.
Observese que m′1 = x y m2 = s2.
Analisis de Datos 35
2.4.16. Box-plot y deteccion de valores atıpi-cos
El box-plot o diagrama de caja es un procedimiento graficoque permite describir en forma resumida algunas de las ca-racterısticas mas importantes de un conjunto de datos. Estasson: el centro, la dispersion, las asimetrıas y la distribucionde valores anomalos. Su construccion se basa en medidasresistentes a la presencia de valores atıpicos.
Las fases a seguir para construir un box-plot son:
Calculo del rango intercuartilico Riq = q3 − q1.
Calculo de los intervalos [f1, f3] y [F1, F3] con
f1 = q1 − 1,5Riq f3 = q3 + 1,5Riq
yF1 = q1 − 3Riq F3 = q3 + 3Riq.
Si la asimetrıa en los datos es pequena, entonces los va-lores observados en [F1, f1] o en [f3, F3] se considerancomo anomalias moderadas y los observados antes deF1 y despues de F3 como anomalias extremas.
Este diagrama que puede servir para filtrar los datos de po-sibles errores, esta formado por una caja o rectangulo hori-zontal o vertical, que presenta los tres cuartiles y los valo-res maximo y mınimo de los datos. La arista izquierda delrectangulo corresponde al cuartil q1 y la derecha a q3. Den-tro del rectangulo se dibuja una linea que corresponde a lamediana. Desde cualquier arista se extienden unas lineas obigotes que contienen todas las observaciones comprendi-das entre cero y 1,5 veces el rango intercuartılico o barrerasinteriores. Los valores en que finalizan los bigotes se llamanadjuntos.
36 J. L. Dıaz–Barrero
2.4.17. Transformaciones
A veces a los datos es conveniente aplicarles transforma-ciones lineales de la forma yi = a + bxi. Se cumple quey = a + bx y que s2
y = b2s2x. Una de las transformaciones
lineales mas importantes es la tipificacion o estandariza-cion de una variable que para una serie de observacionesx1, x2, · · · , xn, se define por
zi =xi − x
s.
Se verifica que z = 0 y s2z = 1 y carece de unidades, lo que
permite una comparacion directa entre fenomenos de distin-ta ındole. Cuando la distribucion es muy asimetrica se sue-len aplicar transformaciones no lineales. Como regla gene-ral se tiene que si el cociente xmax/xmin es menor que 2, latransformacion no modificara mucho la forma de la distribu-cion, mientras que para un cociente mayor que 10 el efectosera acusado. Las mas utilizadas son y = x2 que comprimela escala para valores pequenos y la expande para valoresgrandes. Es util para asimetrıas a la izquierda. Para asime-trıas a la derecha se utilizan las transformaciones y = ln(x)e y = 1/x que comprimen los valores grandes y expanden lospequenos. La mas utilizada es el logaritmo neperiano.
Analisis de Datos 37
2.5. Problemas de Analisis explorato-rio de datos
Problema 2.1 Dado el siguiente conjunto de datos
105 221 183 186 121 181 180 14397 154 153 174 120 168 167 141245 228 174 199 181 158 176 110163 131 154 115 160 208 158 133207 180 190 193 194 133 156 123134 178 76 167 184 135 229 146218 157 101 171 165 172 158 169199 151 142 163 145 171 148 158160 175 149 87 160 237 150 135196 201 200 176 150 170 118 149
a. Ordenar los datos.
b. Hacer una tabla de frecuencias agrupando los datos ennueve clases (utilizar el rango 70–250).
c. Representar graficamente la distribucion de frecuencias me-diante un histograma.
d. Dibujar los correspondientes polıgonos de frecuencias (ordi-narias y acumuladas)
Problema 2.2 Para asistir a una feria de la construccion haydos tipos de entradas: empresas 25 euros y particulares 4 eu-ros. Sabiendo que el precio medio resulto 18 euros. ¿Que pro-porcion de empresas asisitio a la feria?
Solucion. Sean p1 y p2 las propociones respectivas de empre-sas y particulares que asisten a la feria y x1 y x2 los precios
38 J. L. Dıaz–Barrero
de las entradas. Entonces, x = x1p1 + x2p2 con p1 + p2 = 1.Sustituyendo los datos del enunciado, resulta
25p1 + 4p2 = 18
p1 + p2 = 1
}.
Resolviendo el sistema anterior se obtiene p1 = 2/3 y p2 =1/3. 2
Problema 2.3 Durante los 6 ultimos anos el precio del litro degasoil (en pts.) ha sufrido las siguientes variaciones:
55, 62, 72, 90, 120, 115.
Un pequeno transportista ha tanido 2 camiones los dos pri-meros anos, 3 durante el tercero y 4 los tres ultimos. Hallarel precio medio pagado por el transportista por cada litro degasoil consumido durante los 6 anos.
Solucion. Cuando todos los valores que intervienen en la va-riable X no tienen la misma trascendencia, para obtener lamedia aritmetica es preciso tener en cuenta la importanciade cada dato, esto es ponderarlos.Esta ponderacion se efectua asignando a cada valor un coe-ficiente de importancia o peso. Ası si x1, x2, · · · , xn son losvalores que toma X con frecuencias f1, f2, · · · , fn y pesosw1, w2, · · · , wn, la media aritmetica ponderada se calcula por
x =
n∑k=1
xkfkwk
n∑k=1
fkwk
En el caso que nos ocupa X = {55, 62, 72, 90, 120, 115} con
pesos {2, 2, 3, 4, 4, 4} con lo que x =1750
19= 92,10 pts. 2
Analisis de Datos 39
Problema 2.4 En un area de servicio de una autopista se de-sarrollo un proceso para atender a los clientes durante la horapunta del almuerzo. Se registro el tiempo de espera de todoslos clientes que fueron atendidos durante una semana. Se se-lecciono una muestra aleatoria de 16 clientes y los resultadosfueron:
4,21, 5,55, 3,02, 5,13, 4,77, 2,34, 3,54, 4,15
3,20, 4,50, 6,10, 0,38, 5,12, 6,46, 6,19, 3,79
Obtener los siguientes estadısticos muestrales:(1) media aritmetica, (2) mediana, (3) primer cuartil, (4) tercercuartil, (5) segundo decil, (6) percentil x84, (7) el rango, (8) elrango intercartılico, (9) la varianza, (10) la desviacion estandar,(11) la desviacion media, (12) el coeficiente de variacion dePearson.
Problema 2.5 Comprobar que la varianza puede escribirse enla forma
s2 =1
n
n∑k=1
x2k − x2.
¿Cuando sera cero? ¿Y negativa?
Problema 2.6 Dos variables constan de dos datos cada una.La media de estas es la misma, y tambien lo son sus desvia-ciones tıpicas. ¿Son necesariamente iguales los dos conjuntosde datos? ¿Y si las variables tuviesen 3 datos cada una?
Solucion. La respuesta a la primera pregunta es afirmativa.En efecto, sean X = {x1, x2} e Y = {y1, y2} los dos conjun-tos de adtos. Entonces, si x = y resulta
x1 + x2
2=
y1 + y2
2; x1 + x2 = y1 + y2. (2.1)
40 J. L. Dıaz–Barrero
Observese que x1 − x =x1 − x2
2, x2 − x =
x1 − x2
2, e igual-
mente y1 − y =y1 − y2
2, y2 − y =
y1 − y2
2.
Entonces,
S2x =
(x1 − x)2 + (x2 − x)2
2=
(x1 − x2)2
4,
S2y =
(y1 − y)2 + (y2 − y)2
2=
(y1 − y2)2
4.
Si S2x = S2
y, entonces
(x1 − x2)2 = (y1 − y2)
2 (2.2)
De (2.1) y (2.2) resulta x1 = y1 y x2 = y2 or x2 = y1 y x1 = y2
como se habıa anunciado.
La respuesta a la segunda pregunta es no. En efecto, bastacon encontrar un contraejemplo. Sean X = {−3, 2, 1} e Y ={−1, −2, 3} ambos tienen media 0 e igual varianza, pero sondistintos. 2
Problema 2.7 En la determinacion complexometrica del Zn con-tenido en una muestra de un determinado material se obtuvie-ron los siguientes resultados ( %): 10,02, 10,04, 9,98, 10,48. Enbase a estos resultados, ¿que dato se podrıa tomar como opti-mo? ¿Porque?
Solucion. La media aritmetica de las observaciones es x =10,125. Las correspondientes desviaciones medias son
|x1 − x| = 0,105, |x2 − x| = 0,085,|x3 − x| = 0,170, |x4 − x| = 0,335.
Parece razonable tomar x2 como valor optimo por ser el quemas se acerca a la media aritmetica de los resultados. 2
Analisis de Datos 41
Problema 2.8 Los siguientes datos corresponden a la resis-tencia a la tension (kgf/cm2)de un mortero portland:
17,50 17,63 18,25 18,00 17,8617,75 18,22 17,90 17,96 18,15
Un ingeniero agrega un polımero de latex al mortero para deter-minar sus efectos sobre la resistencia a la tension. Los datosobtenidos con este experimento fueron:
16,85 16,40 17,21 16,35 16,5217,04 16,96 17,15 16,59 16,57
a. Ordenar los datos de ambos conjuntos y representarlos gra-ficamente de forma que sea facil percibir su tendenciacentral ası como su variabilidad. ¿Que se puede concluir?
b. Hallar la media y la desviacion tıpica de cada conjunto dedatos y comparar los resultados con los del apartado an-terior.
Problema 2.9 Cinco determinaciones de Fe en un mineral porvolumetrıa dieron como resultado:
67,48, 67,37, 67,43, 67,40, 67,47.
Calcular los estadısticos que se consideren apropiados paradetectar si hay algun valor anomalo. Suponiendo que el proce-dimiento se acepta como valido siempre que la dispersion delos datos no supere el 0,08 %, ¿podrıa decirse que los resul-tados obtenidos en la volumetrıa anterior han sido satisfacto-rios?
Solucion. Calculando los estadısticos: media, mediana, va-rianza, desviacion tıpica y coeficiente de variacion se obtiene
x = 67,43 M = 67,43 s2 = 0,0017 s = 0,0415 CV = 0,06 %
42 J. L. Dıaz–Barrero
Dado que el coeficiente de variacion es inferior al 0,08 % sepuede concluir que los resultados obtenidos son satisfacto-rios. 2
Problema 2.10 Sobre un conjunto de datos X se dispone dela siguiente informacion
Clases Punto medio Frecuencia
58.5–61.5 60 461.5–64.5 63 864.5–67.5 66 1267.5–70.5 69 1370.5–73.5 72 2173.5–76.5 75 1576.5–79.5 78 1279.5–82.5 81 982.5–85.5 84 485.5–88.5 87 2
Calcular el numero de datos. Hallar la media, la mediana, lamoda y los cuartiles. La varianza, desviacion tıpica y coefi-ciente de variacion de Pearson. Los coeficientes de asimetrıa ykurtosis.
Problema 2.11 El Departamento de Recursos Naturales ini-cio un programa de seguimiento de la precipitacion acida conel fin de desarrollar controles apropiados de polucion del airepara reducir el problema de la lluvia acida. Se midio la aci-dez de las primeras 50 lluvias registradas, en escala pH, ob-
Analisis de Datos 43
teniendose los siguientes resultados:
3,58 3,80 4,01 4,01 4,05 4,05 4,12 4,18 4,20 4,214,27 4,28 4,30 4,32 4,33 4,35 4,35 4,41 4,42 4,454,45 4,50 4,50 4,50 4,50 4,51 4,52 4,52 4,52 4,574,58 4,60 4,61 4,61 4,62 4,62 4,65 4,70 4,70 4,704,70 4,72 4,78 4,78 4,80 5,07 5,20 5,26 5,41 5,48
Analizar estos datos (tabulacion de frecuencias, calculo de es-tadısticos, representacion grafica y deteccion de valores anoma-los)(Observese que todas las lluvias son mas acidas que la lluvianormal, cuyo pH es 5,6).
Problema 2.12 Para estudiar la presencia de plomo en la atmosfe-ra (µgr/m3) se han realizado 64 mediciones en una autopistay se han obtenido los siguientes resultados:
6,7 5,4 5,2 6,0 8,7 6,0 6,4 8,35,3 5,9 7,6 5,0 6,9 6,8 4,9 6,35,0 6,0 7,2 8,0 8,1 7,2 10,9 9,28,6 6,2 6,1 6,5 7,8 6,2 8,5 6,48,1 2,1 6,1 6,5 7,9 15,1 9,5 10,68,4 8,3 5,9 6,0 6,4 3,9 9,9 7,66,8 8,6 8,5 11,2 7,0 7,1 6,0 9,010,1 8,0 6,8 7,3 9,7 9,3 3,2 6,4
Hacer un analisis exploratorio de estos datos: escribir una ta-bla de frecuencias, calcular los estadısticos que se considerenapropiados, dibujar el histograma y los polıgonos de frecuen-cias ordinarias y acumuladas. Detectar los valores anomalos,si los hay, haciendo el correspondiente box–plot.
Problema 2.13 En las grandes ciudades la calidad del airese controla periodicamente. El estado de alarma L se presen-ta cuando el ındice de contaminacion se halla entre 275 y 350.
44 J. L. Dıaz–Barrero
El estado de alarma G se presenta cuando el ındice de con-taminacion supera el valor 350. Suponiendo que el ındice decontaminacion se distribuye con media 125 y desviacion tıpica75 y sin conocer nada mas acerca de la distribucion, ¿que po-demos decir sobre la proporcion de dıas que se declarara laalerta L?, ¿y la alerta G?
Capıtulo 3
Analis exploratorio dedatos bivariantes
3.1. Variables bidimensionales
Se llama variable estadıstica bidimensional al conjunto deparejas de valores que resultan de la observacion conjuntade dos caracterısticas medibles X e Y de una poblacion. Unamuestra compuesta por n pares de datos toma la forma
Mx,y = {(x1, y1), (x2, y2), · · · , (xn, yn)}.
De forma analoga a como se hizo en el caso de datos univa-riantes se define la frecuencia absoluta del par (xi, yj) comoel numero de apariciones de (xi, yj) en la muestra Mx,y. Lafrecuencia relativa de (xi, yj) es la proporcion de aparicio-nes de (xi, yj) respecto al numero total de observaciones. Serepresentan, respectivamente, por fa(xi, yj) y fr(xi, yj).
Si x1, x2, · · · , xh son los h valores distintos de la caracterısti-ca X e y1, y2, · · · , yk son los k valores distintos de Y, se llamadistribucion conjunta de frecuencias absolutas a la tablade doble entrada que contiene las frecuencias absolutas de
45
46 J. L. Dıaz–Barrero
los pares (xi, yj). En ella, se escriben los elementos de unavariable en fila los de la otra en columna y, en la interseccionde cada fila y cada columna, se escriben las frecuencias de lapareja de valores correspondiente.
X \ Y y1 y2 . . . yk
x1 f11 f12 . . . f1k
x2 f21 f22 . . . f2k
......
... . . . ...xh fh1 fh2 . . . fhk
Si se anade a la tabla de doble entrada de una distribucionbivariante una fila y una columna con los totales respectivosse obtienen dos distribuciones unidimensionales: la formadapor la primera y ultima columna por un lado y la formada porla primera y la ultima fila por otro. Estas reciben el nombrede distribuciones marginales de la X y la Y respectivamen-te.
X \ Y y1 y2 . . . yk
x1 f11 f12 . . . f1k
∑f1j
x2 f21 f22 . . . f2k
∑f2j
......
... . . . ......
xh fh1 fh2 . . . fhk
∑fhj∑
fi1
∑fi2 . . .
∑fik N
Las distribuciones marginales son las distribuciones de cadauna de les variables consideradas por separado, sin tener encuenta los valores de la otra.
Procediendo de forma analoga se obtienen las distribucionesconjunta y marginales de frecuencias relativas.
Analisis de Datos 47
3.2. Ajuste mınimo-cuadratico
Si se dispone de n parejas de datos se pueden representargraficamente en un sistema de ejes X-Y. A esta representa-cion cartesiana de las parejas de valores que correspondena una variable bidimensional se le denomina diagrama dedispersion, scattergram o nube de puntos. La observacionde la nube de puntos solo proporciona una idea intuitiva dela posible relacion o dependencia entre las variables. A con-tinuacion se presenta un procedimiento para hallar esta re-lacion cuando sea lineal, i.e. cuando los puntos que resultanestan aproximadamente situados alrededor de una recta. Sise supone que los datos, en general de naturaleza diferente,son
X : x1 x2 . . . xn
Y : y1 y2 . . . yn
Se llama variable control o variable independiente a la va-riable X y variable dependiente o variable respuesta a Y .La variable control toma sus valores libremente, y posible-mente en una etapa previa a la realizacion de los experimen-tos que conduciran a obtener los valores de la variable res-puesta.
Un procedimiento de ajuste es el metodo de los mınimoscuadrados (Legendre, pricipios del siglo XIX) y proporcionalos parametros α = a y β = b de la recta y = α + βx para laque (a, b) es un mınimo de la funcion
L(α, β) =n∑
i=1
[yi − α − βxi
]2
.
Siguiendo el procedimiento habitual para minimizar la fun-cion L(α, β) resultan las ecuaciones normales
48 J. L. Dıaz–Barrero
∂L
∂α= 0,
∂L
∂β= 0
que tienen por solucion
β = b =Sxy
S2X
α = a = y − bx
donde
Sxy =1
n
n∑i=1
(xi − x)(yi − y)
es la covarianza muestral de X e Y y S2x =
1
n
n∑i=1
(xi − x)2
es la varianza de X. La diferencia yi − (a+ bxi) = ei se llamaresiduo del modelo en xi. El numero
S2ε =
1
n − 2
n∑i=1
e2i
es un estimador de la varinza residual y sirve para dar unaidea de la magnitud de los residuos.
Supongamos que conocemos la recta de ajuste que liga dosvariables X e Y y que tiene por ecuacion
y = a + bx = y + b(x − x)
Ahora cabe preguntarse como se puede relacionar el valor yi
con el valor predicho por el model yi? La respuesta es que
y = y + b(xi − x).
Analisis de Datos 49
En particular,
yi ' yi = y + b(xi − x), i = 1, 2, · · · , n.
De aquı resulta
yi − y ' b(xi − x), i = 1, 2, · · · , n,
o bien
yi − y = b(xi − x) + ei, i = 1, 2, · · · , n (3.1)
Esto significa que la variacion de y respecto a y es debida enparte a la relacion de linealidad entre X e Y y en parte no.La diferencia yi − y se llama variacion total de yi y es iguala la suma de la variacion explicada por el modelo b(xi − x)mas la variacion no explicada o residual ei..
Como puede verse cuanto menor sea |εi|, i.e., cuanto mayorsea la parte de la variacion debida a la relacion lineal mejorsera el ajuste. Ahora conviene tener en cuenta todos los datosy definir:
Variabilidad total≡ V T =n∑
i=1
(yi − y)2
Variabilidad explicada≡ V E =n∑
i=1
b2(xi − x)2
Variabilidad no explicada o residual≡ V NE =n∑
i=1
e2i .
50 J. L. Dıaz–Barrero
Puede demostrarse que
n∑i=1
e2i =
n∑i=1
(yi − y)2 −n∑
i=1
b2(xi − x)2.
Dado que
VT=VE+VNE
resulta
n∑i=1
(yi − y)2 = b2
n∑i=1
(xi − x)2 +n∑
i=1
e2i (3.2)
Ahora, a partir de (3.2) se puede escribir
nS2Y = nb2S2
X + (n − 2)S2e
y definir el coeficiente de determinacion como el porcentajede variabilidad explicado por el modelo, i.e.,
r2 =V E
V T=
b2S2X
S2Y
=S2
xy
S2xS2
y
y el coeficiente de correlacion muestral de Pearson por
r =Sxy
SxSy
.
El coeficiente de correlacion (determinacion) sirve para daruna medida de la dependencia funcional (lineal) entre las va-riables X e Y. El criterio que se acostumbra a utilizar es elsiguiente:
Si |r| < 0,5, entonces la dependencia se considera debil.
Analisis de Datos 51
Si 0,5 ≤ |r| < 0,8, entonces la dependencia se consideramoderada.
Si 0,8 ≤ |r| < 1, entonces la dependencia se considerafuerte.
Tambien se utiliza la siguiente nomenclatura: si |r| = 1 se di-ce que hay dependencia funcional lineal entre las variables;si −1 < r < 0 se habla de dependencia aleatoria con corre-lacion negativa o inversa; si 0 < r < 1, la dependencia esaleatoria con correlacion positiva o directa y finalmente, sir = 0 se dice que las variables X e Y son incorrelacionadas(condicion necesaria).
Otras expresiones de la recta de ajuste son:
Y sobre X : y − y =Sxy
S2x
(x − x).
X sobre Y : x − x =Sxy
S2y
(y − y).
Observese que la recta de ajuste siempre pasa por (x, y) elcentro de gravedad de los datos. (Reflexionar sobre los valoresatıpicos).
3.3. Problemas de Analisis Explorato-rio de Datos Bivariantes
Problema 3.1 En una muestra de 20 empresas del sector dela construccion se obtuvieron los siguientes datos sobre el nume-ro de empleados X y sus ingresos anuales Y (104 euros)
52 J. L. Dıaz–Barrero
X/Y 50-100 100-250 250-100010-30 6 2 030-50 1 1 0
50-100 0 0 10
a) Calcular la media de los ingresos anuales y del numero em-pleados. Obtener tambien su varianza.
b) Calcular los coeficientes de variacion e interpretar los resul-tados obtenidos.
c) Obtener, aplicando el metodo de los mınimos cuadrados,una recta que ajuste los datos y permita predecir los in-gresos medios anuales en funcion del numero de emplea-dos.
Problema 3.2 En un estudio sobre la relacion existente entreel tiempo que tarda un obrero de una autopista en realizaruna tarea en la manana (X) y al final de la tarde (Y ), se hanobtenido los siguientes datos:
10∑k=1
xk = 86,7,10∑
k=1
x2k = 771,35,
10∑k=1
yk = 88,8,
10∑k=1
y2k = 819,34,
10∑k=1
xkyk = 792,92.
Calcular el coeficiente de correlacion e interpretar el resultado.
Problema 3.3 Los datos siguientes corresponden a dos varia-bles X e Y :
X 1.5 1.5 2.0 2.5 2.5 3.0 3.5 3.5 4.0Y 23.0 24.5 25.0 30.0 33.5 40.0 40.5 47.0 49.0
Analisis de Datos 53
a) Dibujar la nube de puntos. b) ¿Sugiere este diagrama unaasociacion lineal? Calcular el coeficiente de correlacion mues-tral y determinar la ecuacion de la recta de ajuste mınimo cua-dratico.
Problema 3.4 La materia prima que se usa en la produccionde un determinado material se almacena en un lugar que notiene control de humedad. Las medidas de la humedad rela-tiva y del contenido de humedad de muestras de la materiaprima (en %) en 12 dıas fueron:
Humedad relativa Contenido de humedad
45 1154 1537 1141 1335 1129 761 1845 1443 1149 1634 1140 13
Calcular el coeficiente de correlacion muestral. Ajustar los da-tos a una recta utilizando el metodo de los mınimos cuadrados.Utilizar los resultados anteriores para prdedecir el contenidode humedad cuando la humedad relativa es del 35 %.
Problema 3.5 En el analisis de unos materiales se han medi-do tres caracterısticas: X(ındice de concentracion de carbono),Y (ındice de resistencia a la traccion) y Z(ındice de resistenciaa la torsion):
54 J. L. Dıaz–Barrero
X 0.2 0.5 0.7 1.2 2.3 2.4 2.9 3.0Y 3.4 6.5 11.0 13.5 22.0 25.8 33.5 34.6Z 25.6 29.5 29.0 31.2 31.5 33.2 33.4 32.6
a) Utilizar el metodo de los mınimos cuadrados para obtenerlas rectas de ajuste de Y sobre X y de Y sobre Z.
b) Calcular los coeficientes de correlacion rxy, rxz y ryz.
Problema 3.6 Se quiere estudiar que tipo de relacion existeentre la temperatura X en una zona montanosa y el consu-mo de energıa electrica Y . Durante 18 dıas se anotaron lastemperaturas y el consumo de energıa de una vivienda y seobtuvieron los siguientes resultados:
X -1.0 1.5 3.5 -3.0 0.5 2.5Y 94 81 79 97 88 75X 4.0 5.0 -5.0 -0.5 9.0 9.5Y 74 67 107 86 58 55X 7.0 3.0 -2.0 6.0 8.0 10.0Y 65 73 91 65 58 52
a) Calcular los estadısticos que se consideren oportunos y co-mentar la relacion existente entre la temperatura y el con-sumo de energıa.
b) Aplicar el metodo de los mınimos cuadrados para ajustarlos datos a una recta.
c) Estimar el consumo medio de energıa de una vivienda cuan-do la temperatura sea de 0◦C.
Problema 3.7 Se considera el conjunto de datos asosciadosen parejas Mx,y = {(xi, yi) : i = 1, 2, · · · , n}. Probar que la
Analisis de Datos 55
covarianza muestral Sxy tambien se escribe en la forma
Sxy =1
n
n∑k=1
xkyk − x y.
Definimos SSxx = nS2x y SSxy = nSxy. Probar que
n∑k=0
[yk − (a + bxk)
]2
= SSyy − bSSxy.
Problema 3.8 Los siguientes datos corresponden al cloro resi-dual en el deposito de aguas de una ciudad en diversos tiem-pos despues de haberse tratado el agua con productos quımi-cos para mantenerla apta para el consumo:
t (horas) 2 4 6 8 10 12Cl (ppm) 1.8 1.5 1.4 1.1 1.1 0.9
a. Calcular el coeficiente de correlacion muestral y comentarel resultado.
b. Obtener una recta de mınimos cuadrados con la que se pue-da predecir el cloro residual en terminos del tiempo trans-currido desde que se trato el agua.
c. Utilizar la recta de mınimos cuadrados para estimar el clororesidual en el deposito 7 horas despues de haber sidotratado.
56 J. L. Dıaz–Barrero
Capıtulo 4
Conceptos Basicos deProbabilidad
4.1. Introduccion
Un experimento que puede ser repetido tantas veces comose quiera, siempre en las mismas condiciones controlables,y cuyo resultado es impredecible, se llama un experimentoaleatorio; en caso contrario, el experimento se llama deter-minista. Ası, por ejemplo, el lanzamiento de un dado, la horade llegada de un tren a una estacion, un sorteo de loterıa,pueden ser considerados como experimentos aleatorios.
Cada experimento aleatorio lleva asociado el conjunto E detodos los resultados posibles. Dicho conjunto se llama espa-cio muestral, sus elementos se llaman sucesos elementalesy sus subconjuntos sucesos. El conjunto de los sucesos sera,pues, P (E). Dado un suceso A vamos a definir una medidateorica de la ocurrencia de A. A esta medida la llamaremosprobabilidad.
57
58 J. L. Dıaz–Barrero
Si el espacio muestral E se halla compuesto por n sucesoselementales, incompatibles dos a dos (disjuntos), y tales que:
(i) E=n⋃
k=1
{ak},
(ii) fr({a1}) = fr({a2}) = · · · = fr({an}).
Entonces, a partir de que fr(E) =n∑
k=1
fr({ak}) = 1, resulta
fr({ak}) = 1/n, k = 1, 2 · · · , n. Ademas, si A = {a1, a2, · · · , ah},entonces fr(A) = fr({a1})+fr({a2})+ · · ·+fr({ah}) = h/n.Llegandose ası a la definicion clasica de probabilidad o re-gla de Laplace (1812) que enuncia:
“La probabilidad de un suceso A es el cociente entre el numerode casos favorables dividido por el numero de casos posibles,considerados como equiprobales,” Es decir,
p[A] =Nf(A)
Np
=N(A)
N(E).
La definicion anterior equivale a entender la probabilidad deun suceso o subconjunto de resultados elementales como lafrecuencia relativa de ese subconjunto en una muestra ex-haustiva. Los principales inconvenientes de esta definicionson que no siempre es posible el muestreo exhaustivo y queno siempre los resultados son equiprobables.
Otra forma de entender la probabilidad consiste en suponerque el experimento se puede repetir indefinidamente de for-ma que un resultado no influya en los siguientes. Ası surgela definicion frecuentista de probabilidad, formalizada porVon Misses en 1919 y que se enuncia
p[A] = lımn→∞
fr(A).
Analisis de Datos 59
Aquı hay que suponer que existe el lımite de las frecuen-cias relativas, i.e., existe el lımite y es el mismo para cual-quier subsucesion de experimentos. En otras palabras, lasfrecuencias relativas de un suceso se estabillizan alrededorde un valor fijo (su probabilidad) a medida que el numero depruebas aumenta.
Las dificultades aparecidas en las definiciones anteriores sesolucionan con la definicion axiomatica de Kolmogorov (1943).
4.2. Definicion axiomatica de probabi-lidad
Sea E el espacio muestral asociado a un experimento alea-torio y A una coleccion de subconjuntos de E. Se dice queA es un algebra de Boole cuando se verifican las siguientescodiciones:
1. El espacio muestral E pertenece a A.
2. Si un suceso A ∈ A, A ⊂ E entonces A ∈ A. Comoconsecuencia el conjunto ∅ = E pertenece a A.
3. Si A1, A2, · · · An son elementos de A su unionn⋃
k=1
Ak,
pertenece a A y, por las leyes de Morgan, tambien su
interseccion,n⋂
k=1
Ak.
A es una σ–algebra cuando para cada sucesion numerable
A1, A2, · · · , An, · · · ,
60 J. L. Dıaz–Barrero
de sucesos de E, su union∞⋃
k=1
Ak y su interseccion∞⋂
k=1
Ak
pertenecen a A. La σ–algebra se acostumbra a representarpor S, y recoge todos los posibles sucesos de un experimentoaleatorio. Al par (E, S) se le llama espacio probabilizable omedible.
A continuacion expondremos la definicion axiomatica de Kol-mogorov que consta de tres axiomas:
Axioma 1. Si A es un elemento de una σ–algebra, S, exis-te un numero p[A] ≥ 0, denominado probabilidad delsuceso A.
Axioma 2. p[E] = 1.
Axioma 3.1 Dada una sucesion finita de suscesos, disjuntosdos a dos, Ai
⋂Aj = ∅, se verifica que
p[ n⋃
k=1
Ak
]=
n∑k=1
p[Ak].
Axioma 3.2 Dada una sucesion numerable de suscesos, dis-juntos dos a dos, Ai
⋂Aj = ∅, se verifica que
p[ ∞⋃
k=1
Ak
]=
∞∑k=1
p[Ak].
La terna (E, S, p) se conoce como espacio de probabilidad.
Consecuencia de los axiomas de probabilidad son los siguientesteoremas.
Teorema 4.1 La probabilidad del suceso imposible es cero,i.e., p[∅] = 0.
Analisis de Datos 61
Demostracion. Considerese la sucesion numerable de sucesosdisjuntos A1, A2, · · · , An, · · · , todos ellos igual al ∅. Segun eltercer axioma de Kolmogorov
p[ ∞⋃
k=1
Ak
]=
∞∑k=1
p[Ak].
En nuestro caso,∞⋃
k=1
Ak =∞⋃
k=1
∅ = ∅. Por tanto,∞∑
k=1
p[∅] =
p[∅], es decir, la suma infinita de una cantidad constante de-be ser esa cantidad, lo cual solo ocurre cuando p[∅] = 0. 2
Teorema 4.2 La probabilidad de la union de n sucesos dis-juntos A1, A2, · · · , An es igual a la suma de las probabilida-des de cada uno de los sucesos Ai, i.e.,
p[ n⋃
k=1
Ak
]=
n∑k=1
p[Ak].
Demostracion. Considesere la suncesion numerable de suce-sos disjuntos A1, A2, · · · , An, An+1, An+2, · · · , siendo los su-cesos An+k = ∅, k ≥ 1. Segun el tercer axioma de Kolmogorov
p[ ∞⋃
k=1
Ak
]=
∞∑k=1
p[Ak].
El primer miembro de la igualdad anterior se puede escribiren la forma
p[ ∞⋃
k=1
Ak
]= p
[ n⋃k=1
Ak
]+ p
[ ∞⋃k=n+1
Ak
]= p
[ n⋃k=1
Ak
].
Por otra parte, el segundo miembro toma la forma
∞∑k=1
p[Ak] =n∑
k=1
p[Ak] +∞∑
k=n+1
p[Ak] =n∑
k=1
p[Ak].
62 J. L. Dıaz–Barrero
Identificando, resulta
p[ n⋃
k=1
Ak
]=
n∑k=1
p[Ak].
2
Teorema 4.3 La probabilidad de la union de dos sucesos cua-lesquiera viene dada por
p[A1
⋃A2] = p[A1] + p[A2] − p[A1
⋂A2].
Teorema 4.4 Si A1 ⊂ A2, entonces p[A1] ≤ p[A2].
Teorema 4.5 Si A ∈ S, entonces se verifica que p[A] ≤ 1.
Teorema 4.6 La probabilidad del suceso contrario A, es elcomplemento a uno de la probabilidad de A, i.e., p[A] = 1 −p[A].
4.3. Tecnicas de conteo. Combinatoria
4.3.1. Variaciones con repeticion
Dado un conjunto A = {a1, a2, · · · , an} de n elementos, sellama variacion con repeticion de los n elementos y de or-den k a toda agrupacion de k elementos iguales o distintos,elegidos de entre los n de partida, de forma que dos agrupa-ciones son distintas si difieren en algun elemento, o si tenien-do los mismos estos se hallan escritos en diferente orden.
Para hallar su numero observemos que el primer lugar de lavariacion puede estar ocupado por cualquiera de los n ele-mentos de A; el segundo, como pueden repetirse pude ser
Analisis de Datos 63
ocupado por por cualquiera de los n elementos de A, y ası su-cesivamente hasta el k-esimo que tambien puede ser ocupa-do por cualquier elemento de A. En consecuencia, el numerode variaciones con repeticion de n elementos tomados de ken k es
VRkn = n · n · · · n = nk.
Nota 4.1 Observese que cada variacion con repeticion de or-den k es un elemento del producto cartesiano
Ak = {(a1, a2, · · · , ak) | ai ∈ A}.
Nota 4.2 Las variaciones con repeticion de n elementos de or-den k son tambien las imagenes de todas las aplicaciones quese pueden establecer entre un conjunto de cardinal k y el A decardinal n.
4.3.2. Variaciones ordinarias
Dado un conjunto A = {a1, a2, · · · , an} de n elementos, sellama variacion ordinaria de los n elementos de A tomadosde k en k, a toda agrupacion de k elementos distintos, ele-gidos de entre los n de partida de forma que dos de talesagrupaciones son distintas si difieren en algun elemento ocuando teniendo los mismos estos se hallan escritos en dife-rente orden. (Al ser distintos los elementos de cada variacion,necesariamente ha de ser k menor o igual que n).
Para hallar su numero observemos que el primer lugar de lavariacion puede ser ocupado por cualquiera de los n elemen-tos de A; hecha esta eleccion, el segundo lugar puede serocupado por cualquiera de los n − 1 elementos restantes; eltercero, por cualquiera de los n − 2 que aun no han sido ele-gidos; y ası hasta el k-esimo lugar que podra ser ocupado por
64 J. L. Dıaz–Barrero
cualquiera de los n − k + 1 elementos restantes. En conse-cuencia, el numero de variaciones ordinarias de n elementosy de orden k es
Vkn = n(n − 1)(n − 2) · · · (n − k + 1) = n(k) =
n!
(n − k)!.
Nota 4.3 Las variaciones ordinarias son las imagenes de to-das las aplicaciones inyectivas que pueden establecerse entreun conjunto de cardinal k, (k ≤ n) y otro de cardinal n.
4.3.3. Permutaciones ordinarias
La variaciones ordinarias de n elementos tomados de n enn se llaman permutaciones ordinarias de n elementos. Sonsecuencias en las que intervienen los n elementos de partidadiferenciandose unas de otras en el orden en que se hallanescritos sus elementos. Su numero es
Pn = Vnn = n!.
Nota 4.4 Las permutaciones ordinarias de los elementos deA = {a1, a2, · · · , an} son las imagenes de las aplicaciones bi-yectivas que pueden establecerse entre el conjunto {1, 2, · · · , n}y A.
4.3.4. Permutaciones con repeticion
Dado el conjunto A = {a, b, · · · , l} de cardinal n, se lla-ma permutacion con repeticion de longitud m de los ele-mentos de A, y de ordenes de repeticion t1, t2, · · · , tn, cont1 + t2 + · · · + tn = m; a cada una de las secuencias de melementos que se pueden formar con t1 iguales a a, t2 iguales
Analisis de Datos 65
a b, · · · , tn = l, de forma que todas ellas tienen los mismoselementos pero escritos en orden diferente.
Para hallar su numero supongamos que una tal permutacionfuera
t1︷ ︸︸ ︷a · a · · · a
t2︷ ︸︸ ︷b · b · · · b · · ·
tn︷ ︸︸ ︷l · l · · · l .
Si en ella suponemos que todas las a son distintas qudarıa
a1 · a2 · · · at1
t2︷ ︸︸ ︷b · b · · · b · · ·
tn︷ ︸︸ ︷l · l · · · l .
Permutando las a de todas las formas posibles sin cambiarlos demas elementos, se obtendran t1! permutaciones dife-rentes. Ası si en una secuencia de m elementos hay t1 igualesy se permutan de todas las formas posibles, se obtienen
Pt1m =
m!
t1!
permutaciones diferentes. De forma analoga, si entre los melementos hay t1 iguales a a, t2 iguales a b, · · · , tn iguales al, se obtendran
Pt1,t2,··· ,tn
m =m!
t1!, t2!, · · · , tn!
permutaciones.
Nota 4.5 Las permutaciones con repeticion son las imagenesde aplicaciones exhaustivas predeterminadas.
4.3.5. Combinaciones ordinarias
Dado el conjunto A = {a1, a2, · · · , an} de cardinal n, se lla-ma combinacion ordinaria de estos n elementos y de orden
66 J. L. Dıaz–Barrero
k a toda agrupacion de k elementos elegidos de entre los nde partida de forma que dos de ellos son distintos si difierenen algun elemento sin importar el orden en que se hallan es-critos. Dicho de otra forma, las combinaciones ordinarias den elementos tomados de k en k o de orden k son los sub-conjuntos de cardianl k que se pueden formar con los n departida.
Su numero se representa por Ckn. Para calcularlo, suponga-
mos formadas las combinaciones de orden k con los elemen-tos de A de las que hay en total Ck
n. Si en cada una de estascombinaciones permutamos sus elementos de todas las for-mas posibles resulta que el numero de secuencias obtenidases igual al de variaciones ordinarias de orden k que se pue-den formar con los elementos de A. Por otro lado, como cadacombinacion genera k! del total de las variaciones, se tieneque Vk
n = Ckn · k! de donde
Ckn =
Vkn
k!=
n!
k!(n − k)!=
(n
k
).
4.3.6. Combinaciones con repeticion
Dado un conjunto de cardinal n, se llama combinacion conrepeticion de orden k a cada una de las agrupaciones que sepueden formar tomando k de los elementos de partida igualeso distintos y considerando que dos agrupaciones son distin-tas cuando difieren en algun elemento sin importar el ordenen que estos se hallen escritos. Su numero se designa porCRk
n.
Las combinaciones con repeticion de orden 1 coinciden conlas ordinarias, las de orden 2 se obtienen a partir de las deorden 1 escribiendo a la derecha de cada una de ellas su
Analisis de Datos 67
ultimo elemento y cada uno de los que le siguen en el ordennatural, obteniendose en total
CR2n =
(n + 2 − 1
2
)= C2
n+2−1.
A parir de las de orden 2 se obtiene las de orden 3, y ası su-cesivamente hasta que las de orden k se obtienen a partir delas de orden k − 1 anadiendo a cada una de ellas su ultimoelemento y todos los que le siguen en el orden natural. Esfacil observar que tales combinaciones se pueden poner encorrespondencia biyectiva con las combinaciones ordinariasde orden k de los elementos del conjunto {1, 2, · · · , n+k−1}siendo ası su numero
CRkn =
(n + k − 1
k
)= Ck
n+k−1.
Nota 4.6 A continuacion se citan dos formulas que puedenser utiles para la resolucion de problemas.
Potencia del binomio (Formula de Tartaglia)
(a + b)n =n∑
k=0
(n
k
)akbn−k.
Potencia de un polinomio (Formula de Liebnitz)
(a1+a2+· · ·+an)m =∑
t1+t2+···+tn=m
(m
t1, t2, · · · , tn
)at1
1 at22 · · · atn
n
=∑
t1+t2+···+tn=m
m!
t1!t2! · · · tn!at1
1 at22 · · · atn
n .
68 J. L. Dıaz–Barrero
4.4. Probabilidad condicional
Tiene interes cuando se quieren calcular probabilidades desucesos, sabiendo que o dado que ha ocurrido algo previa-mente. Dado el espacio de probabilidad (E, S, p) y un sucesoA ∈ S con p[A] > 0. Se define la probabilidad condiciona-da del suceso B por A, y se representa por p[B|A], como elcociente
p[B|A] =p[B ∩ A]
p[A].
Analogamente, si p[B] > 0 se define
p[A|B] =p[A ∩ B]
p[B].
Es inmediato comprobar que
pB[A] = p[A|B]
es una probabilidad.
Observese que la probabilidad condicionada de un suceso esla probabilidad del mismo cuando el espacio muestral se hamodificado.
Si A y B son sucesos de probabilidad no nula se tiene que
p[A ∩ B] = p[A]p[B|A] = p[B]p[A|B].
A la probabilidad de la interseccion de varios sucesos se lellama probabilidad compuesta, y a la expresion anterior sele conoce como ley de la probabilidad compuesta para dossucesos. En general, para n sucesos se tiene el siguiente re-sultado.
Analisis de Datos 69
Teorema 4.7 Sean A1, A2, · · · , An, n sucesos cualesquierade un experimento aleatorio y tales que la probabilidad de rea-lizacion de los mismos es no nula, entonces
p[A1∩A2∩· · ·∩An] = p[A1]p[A2|A1] · · · p(An|A1∩A2∩· · ·∩An−1).
Demostracion. Para la demostarcion procederemos por induc-cion. Para n = 2, 3 el resultado se comprueba facilmente porinspeccion directa. Supongase cierto para 2, 3, · · · , n − 1 yveamoslo para n. En efecto,
p[A1 ∩ A2 ∩ · · · ∩ An] = p[(A1 ∩ A2 ∩ · · · ∩ An−1) ∩ An
]= p[A1 ∩ A2 ∩ · · · ∩ An−1]p[An|A1 ∩ A2 ∩ · · · ∩ An−1]
= p[A1]p[A2|A1]p[A3|A1 ∩ A2] · · · p[An|A1 ∩ A2 ∩ · · · ∩ An−1].
2
4.5. Sucesos dependientes e indepen-dientes
Se dice que dos sucesos A y B son independientes cuandose verifica que p[B] = p[B|A]. Si por el contrario p[B] 6=p[B|A] se dice que B depende estocasticamente de A. Eneste ultimo caso puede suceder:
(a) p[B] > p[B|A], en cuyo caso, la aparicion de A desfavo-rece la realizacion de B.
(b) p[B] < p[B|A], en este caso, la aparicion de A favorecela realizacion de B.
Se verifican las siguientes condiciones:
70 J. L. Dıaz–Barrero
(a) A y B son independientes ⇔ p[A ∩ B] = p[A]p[B].
(b) p[B|A] = p[B] ⇔ p[A|B] = p[A].
(c) Si A y B son independientes tambien lo son A y B.
Extenderemos ahora el concepto de independencia a mas dedos sucesos. Dados tres sucesos A, B y C se dice que son es-tocasticamente independientes, si se verifican simultanea-mente las siguientes condiciones:
(a) p[A ∩ B] = p[A]p[B].
b) p[A ∩ C] = p[A]p[C].
(c) p[B ∩ C] = p[B][C].
(d) p[A ∩ B ∩ C] = p[A]p[B]p[C].
Pudiera parecer superflua la cuarta condicion, pero veremossu necesidad mediante un contraejemplo.Ejemplo de Bernstein. Sea E = {1, 2, 3, 4} y consideremoslos sucesos A = {1, 2}, B = {1, 3} y C = {1, 4}. Es evidente
que p[A] = p[B] = p[C] =1
2. Por otro lado, como A ∩ B =
A ∩ C = B ∩ C = {1}, entonces
p[A ∩ B] = p[A ∩ C] = p[B ∩ C] =1
4y
p[A]p[B] = p[A]p[C] = p[B]p[C] =1
4.
En cambio,
p[A ∩ B ∩ C] = p[{1}] =1
46= p[A]p[B]p[C] =
1
8.
Esto prueba la necesidad de la cuarta condicion.Dados n sucesos A1, A2, · · · , An, se dice que son indepen-dientes cuando se verifica
Analisis de Datos 71
(a) p[Ai ∩ Aj] = p[Ai]p[Aj].
(b) p[Ai ∩ Aj ∩ Ak] = p[Ai]p[Aj]p[Ak].
· · ·
(`) P [A1 ∩ A2 ∩ · · · ∩ An] = p[A1]p[A2] · · · p[An].
4.6. Teorema de las probabilidades to-tales
Diremos que A1, A2, · · · , An es un sistema completo de su-cesos o una particion cuando se verifica
(a) E = A1 ∪ A2 ∪ · · · ∪ An.
(b) Ai ∩ Aj = ∅ si i 6= j.
Teorema 4.8 (Formula de las probabilidades totales) SeaA1, A2, · · · , An un sistema completo de suscesos con P [Ai] >0, i = 1, 2, · · · , n. Sea B un suceso para el que se conocen lasprobabilidades p[B|Ai]. Entonces,
p[B] =n∑
k=1
p[Ak]p[B|Ak].
Demostracion. Al ser A1, A2, · · · , An un sistema completo desuscesos se tiene que
p[B] = p[B ∩ E] = p[B ∩
( n⋃k=1
Ak
)]
= p[ n⋃
k=1
(B ∩ Ak)]
=n∑
k=1
p[Ak]p[B|Ak].
2
72 J. L. Dıaz–Barrero
4.7. Formula de Bayes
El siguiente resultado, conocido como la Formula de Bayes,uno de los mas importantes y fructıferos de la teorıa de laprobabilidad, se recoge en el siguiente teorema.
Teorema 4.9 Sea A1, A2, · · · , An un sistema completo de su-cesos con p[Ak] > 0, y sea B un suceso cualquiera para el quese conocen las probabilidades p[B|Ak] que llamaremos vero-similitudes, entonces
p[Ak|B] =p[Ak]p[B|Ak]
n∑k=1
p[Ak]p[B|Ak]
.
A las probabilidades p[Ak] se les llama probabilidades a prio-ri y a las p[Ak|B] probabilidades a posteriori.
Demostracion. De la definicion de probabilidad condicionadaresulta
p[Ak ∩ B] = p[Ak]p[B|Ak] = p[B]p[Ak|B].
Por tanto,
p[Ak|B] =p[Ak]p[B|Ak]
p[B],
pero segun la formula de las probabilidades totales,
p[B] =n∑
k=1
p[Ak]p[B|Ak]
de donde se deduce que
p[Ak|B] =p[Ak]p[B|Ak]
n∑k=1
p[Ak]p[B|Ak]
.
2
Analisis de Datos 73
4.8. Problemas de Probabilidad
Problema 4.1 Explicar por que hay un error en cada una delas siguientes afirmaciones:
a. La probabilidad de que llueva en una zona desertica es 0,12y la de que nieve es −0,40.
b. La probabilidad que llueva es 0,6 y la probabilidad que llue-va o nieve es 0,45.
c. La probabilidad que en la proxima epoca de lluvias lasaguas sobrepasen el umbral de un rio es 0,77, la probabi-lidad que se alcance el umbral es 0,08, y la probabilidadque no se alcance el umbral es 0,05.
Solucion.
a. Una probailidad nunca puede ser negativa.
b. No puede ser que p[A] > p[A ∪ B].
c. Sean los sucesos A = {las aguas sobrepasan el umbral} y B = { las aguas alcanzan el umbral }. Entonces,p[A] = 0,77, p[B] = 0,08 y p[A ∪ B] = 0,05. De la ultimarelacion se obtiene p[A ∪ B] = 0,95. Lo que implicarıap[A ∩ B] = −0,10 (Absurdo)
2
Problema 4.2 En un plan general para control de riadas, sedesea saber si una canalizacion construida anteriormente pa-ra un arroyo es suficiente para aliviar los posibles caudalesmaximos (siendo el maximo total de 10 m3/s). Tras un estudio
74 J. L. Dıaz–Barrero
de riadas anteriores, las probabilidades de caudal maximo enun cierto ano se definen como sigue:
A = 3 a 6 m3/s, p[A] = 0,6;B = 5 a 10 m3/s, p[B] = 0,6;C = A ∪ B, p[C] = 0,7.
Calcular p[A∩B], p[A], p[B ∪A], p[A ∪ B], p[A ∩ B], y definircada uno de los sucesos cuyas probabilidades se pide calcu-lar.
Problema 4.3 Hallar la probabilidad de un suceso, sabiendoque la suma de su cuadrado y la del cuadrado de la probabi-
lidad del suceso contrario es igual a5
9.
Solucion. Sea p[A] = p, entonces p[A] = 1 − p. Segun elenunciado se tiene p2 + (1 − p)2 = 5/9; 9p2 − 9p + 2 = 0;p = 1/3, p = 2/3. 2
Problema 4.4 En una reunion hay mas hombres que muje-res, mas mujeres que beben que hombres que fuman, y masmujeres que fuman y no beben que hombres que no beben nifuman. Se elige una persona al azar y se pregunta: Que esmas probale?
a. Es mujer que no bebe ni fuma.
b. Es hombre que bebe y no fuma.
Solucion. Sea E el conjunto de personas que asisten a la reu-nion. Formemos la siguiente particion (sistema completo desuscesos) de E :
E =8⋃
k=1
Xk
Analisis de Datos 75
siendo
X1 = H ∩ B ∩ F , X5 = M ∩ B ∩ F ,X2 = H ∩ B ∩ F , X6 = M ∩ B ∩ F,X3 = H ∩ B ∩ F, X7 = M ∩ B ∩ F,X4 = H ∩ B ∩ F, X8 = M ∩ B ∩ F .
Veremos que el suceso X1 es mujer que no bebe ni fuma esmas probable que el suceso X8 es hombre que bebe y no fuma.Esto es equivalente a comprobar que el cardinal de X1 esmayor que el cardinal de X8. Denotaremos el cardinal de Xi
por N(Xi), i = 1, 2, · · · , 8.
Segun el enunciado se tienen las siguientes desigualdades:
4∑i=1
N(Xi) >8∑
x=5
N(Xi),
N(X5) + N(X6) > N(X3) + N(X4),N(X7) > N(X2).
Sumando miembro a miembro resulta
N(X1)+N(X2)+N(X3)+N(X4)+N(X5)+N(X6)+N(X7)
> N(X5)+N(X6)+N(X7)+N(X8)+N(X3)+N(X4)+N(X2).
Simplificando, se obtiene
N(X1) > N(X8).
Esto completa la demostracion. 2
Problema 4.5 En una encuesta sobre la liberalizacion de lospeajes en las autopistas se han consultado 1000 personas,obteniendose los siguientes resultados:
76 J. L. Dıaz–Barrero
sexo edadhombre mujer menor de 25 25-50 myor de 50
a favor 198 243 200 180 61en contra 125 126 50 111 90depende 147 161 100 159 49
Se escoge al azar una de las personas consultadas y se deseasaber:
1. Probabilidad de que este a favor de la liberalizacion.
2. Probabilidad que tenga menos de 25 anos.
3. Si esta a favor de la liberalizacion, ¿cual es la probabilidadde que sea mujer?
Se escogen dos personas al azar entre las encuestadas. Sepide:
1. Probabilidad que sean de distinto sexo.
2. Probabilidad que ambas tengan menos de 50 anos.
3. Si las dos estan a favor de la liberalizacion, ¿cual es laprobabilidad de que sean dos mujeres?
Problema 4.6 En una ciudad costera se inauguraron el anopasado un puerto deportivo, un pequeno aeropuerto y un deposi-to para el suministro de agua. La probabilidad que dentro de100 anos continue funcionando el puerto deportivo es 0.76, lade que no funcione el aeropuerto es 0.18 y la de que funcioneel deposito de agua es 0.40. Se pide cual es la probabilidadque dentro de 100 anos: a) Continuen funcionando los tres. b)No funcione ninguno de ellos. c) Funcione solamente el aero-puerto. d) Funcione exactamente uno de ellos.
Analisis de Datos 77
Solucion. Tenemos que P [P ] = 0,76, la P [A] = 1 − P [A] =1− 0,18 = 0,82 y la P [D] = 0,4. Ademas, por las caracterısti-cas del enunciado los sucesos P, A y D son independientesy tambien lo son los sistemas que resultan de susutituir al-guno de ellos por sus contrarios. Entonces:
a. P [P ∩ A ∩ D] = P [P ]P [A]P [D] = 0,76 × 0,82 × 0,4 =0,2492.
b. P [P ∩ A ∩ D] = P [P ]P [A]P [D] = 0,24 × 0,18 × 0,6 =0,0259.
c. P [P ∩ A ∩ D] = 0,24 × 0,82 × 0,6 = 0,1180.
d. P [P ∩ A ∩ D] + P [P ∩ A ∩ D] + P [P ∩ A ∩ D] = 0,0820 +0,1180 + 0,0172 = 0,2172.
2
Problema 4.7 Justo despues de ser puestos en circulacion,algunos autobuses fabricados por cierta companıa presentangrietas en la pintura de los laterales de los vehiculos. Supon-gamos que una ciudad tiene 80 de estos autobuses y que endoce de ellos han aparecido grietas.
a. ¿De cuantas maneras se puede seleccionar una muestra de10 vehiculos para inspecionarla?
b. ¿De cuantas formas distintas puede una muestra de 10autobuses contener 10 vehiculos con grietas?
c. Determinar la probabilidad que en una muestra de 10 vehi-culos, elegidos al azar, 4 tengan grietas.
Problema 4.8 La probabilidad que un vuelo del puente aereoMadrid-Barcelona salga puntual es 0,92, la de que llegue pun-tual es 0,93, y la de que salga y llegue puntual 0,84. ¿Que es
78 J. L. Dıaz–Barrero
mas probable: que llegue puntual un vuelo que ha salido pun-tual o que haya salido puntual un vuelo que ha llegado pun-tual.
Solucion. Sean los sucesos A = { sale puntual} y B = { llegapuntual }. Entonces, p[A] = 0,92, p[B] = 0,93, y p[A ∩ B] =0,84. A partir de aquı resulta que
p[B|A] =p[A ∩ B]
p[A]= 0,91,
p[A|B] =p[A ∩ B]
p[B]= 0,90.
Por tanto, es mas probable que llegue puntual un vuelo queha salido puntual. 2
Problema 4.9 Las probabilidades que tres meteorologos inde-pendientemente pronostiquen correctamente el tiempo para undeterminado fin de semana son respectivamente, 1/6,1/4 y1/3. Si cada uno de ellos, pronostica el tiempo para el proximofin de semana, se pide:
1. Probabilidad que solamente uno de ellos acierte.
2. Si solamente acierta uno, ¿cual es la probabilidad quesea el primero?
Solucion. Sean los sucesos A = {acierta el primero}, B ={acierta el segund} y C = {acierta el tercero}. Las probabili-dades de estos sucesos y sus contarrios son, respectivamen-te,
P [A] =1
6, P [B] =
1
4, P [C] =
1
3
P [A] =5
6, P [B] =
3
4, P [A] =
2
3
Analisis de Datos 79
1.- Sea X = {acierta solamente uno}, entonces
X = (A ∩ B ∩ C) ∪ (A ∩ B ∩ C) ∪ (A ∩ B ∩ C)
siendo dicha union disjunta. Por tanto,
P [X] = P [(A ∩ B ∩ C) ∪ (A ∩ B ∩ C) ∪ (A ∩ B ∩ C)]
= P [A ∩ B ∩ C] + P [A ∩ B ∩ C] + P [A ∩ B ∩ C]
= P [A]P [B]P [C] + P [A]P [B]P [C] + P [A]P [B]P [C]
=31
72= 0,4305
2.- En este caso hemos de calcular
P [A|X] =P [A ∩ X]
P [X]=
P [A ∩ B ∩ C]
P [X]=
6
31= 0,1935
2
Problema 4.10 Tres maquinas A, B y C han producido res-pectivamente 100, 200 y 300 piezas. Se sabe que A produce un5 % de defectuosas, B un 6 % y C un 7 %. Se selecciona unapieza al azar y se pide:
1. Probabilidad de que no sea defectuosa.
2. Sabiendo que es defectuosa, probabilidad de que haya sidofabricada por la maquina A.
Problema 4.11 Se estudian tres tipos de defectos de las me-morias montadas sobre los circuitos integrados: Defectos delos circuitos de encuadracion (Hipotesis H1 : p[H1] = 0,1); de-fectos provocados por acoplamientos parasitos entre las celu-las (Hipotesis H2 : p[H2] = 0,6), y defectos de las barras dedireccion (Hipotesis H3 : p[H3] = 0,3). La diagnosis se lleva acabo con ayuda de una serie de tests T1, T2, · · · , Tn cada uno
80 J. L. Dıaz–Barrero
de los cuales comprueba un estado determinado de la celulade memeoria. El resultado observable es el estado de la celulaescogida respecto a cada test. Supongmos que la diagnosis seha realizado y se ha observado cierto resultado A. Si antesde la prueba es conocido que p[A|H1] = 0,4, p[A|H2] = 0,2 yp[A|H3] = 0,3. ¿Que hipotesis tiene la maxima probabilidad aposteriori? Es decir, ¿que defecto es mas probable?
Solucion. Aplicando la formula de las probabilidades totalesse tiene
p[A] = p[H1]p[A|H1] + p[H2]p[A|H2] + p[H3]p[A|H3] = 0,25
Aplicando la formula de Bayes, resulta
p[H1|A] = 0,16, p[H2|A] = 0,48, p[H3|A] = 0,36.
Por tanto, la maxima probabilidad la tiene la hipotesis H2 :Defectos por acoplamiento de parasitos. 2
Problema 4.12 Un jugador arroja un dado, le sale 6 y gana.Hallar la probabilidad de que haya hecho trampa. (Se suponeque el 40 % de los jugadores hacen trampa)
Solucion. El espacio muestral se puede descomponer en laforma E = T∪T , T∩T = ∅ con p[T ] = 2/5, p[T ] = 3/5, p[6|T ] =1, y p[6|T ] = 1/6. Aplicando la formula de Bayes se obtiene
p[T |6] =p[T ]p[6|T ]
p[T ]p[6|T ] + p[T ]p[6|T ]=
4
5.
2
Problema 4.13 Un ladron perseguido por la policia llega a ungarage que tiene tres puertas: una conduce al recinto A dondehay 5 coches tres de los cuales tienen gasolina; la segunda al
Analisis de Datos 81
recinto B donde de los 4 coches que hay uno solo tiene com-bustible; y finalmente, la tercera conduce al recinto C dondehay 7 coches cinco de los cuales tienen gasolina. Elige unapuerta y un coche. ¿cual es la probabilidad de escapar? Si sesabe que ha escapado, determinar la probabilidad de que ha-ya salido por la puerta A.
Solucion. Denotaremos por G al suceso tener combustible.Entonces, podemos pensar los recintos como urnas con lasiguientes composiciones:
A(3G, 2G), B(1G, 3G), C(5G, 2G)
todas igualmente probables, es decir, p[A] = p[B] = p[C] =1/3. Sea F el suceso escapar, entones
p[F |A] =3
5, p[F |B] =
1
4, p[F |C] =
5
7.
Ası
p[F ] = p[A]p[F |A] + p[B]p[F |B] + p[C]p[F |C] = 0,5214.
Por otro lado, teniendo en cuenta la formula de Bayes, resul-ta
p[A|F ] =p[A]p[F |A]
p[A]p[F |A] + p[B]p[F |B] + p[C]p[F |C]= 0,3835.
2
Problema 4.14 La mitad de los habitantes de Barcelona y suarea metropolitana acuden al trabajo en vehıculo propio, el40 % utiliza el transporte publico y el resto van andando. Seestima que el 10 % de los que usan vehıculo propio, el 3 % delos que utilizan los transportes publicos y el 1 % de los que vanandando llegan tarde al trabajo. Se pide:
82 J. L. Dıaz–Barrero
1. Porcentaje de individuos que llegan puntuales al trabajo.
2. Si un individuo llego tarde al trabajo, ¿cual es la probabi-lidad que utilizase vehıculo propio?
Solucion.
Segun los datos del enunciado, tenemos
Prioris Verosimilitudes Posteriorisp[V]=50/100 p[t|V]=10/100 p[V|t]=(1/C)× 50/100×10/100p[T]=40/100 p[t|T]=3/100 p[T|t]=(1/C)× 40/100×3/100p[A]=10/100 p[t|A]=1/100 p[A|t]=(1/C)× 10/100×1/100
donde C (constante de normalizacion) es la probabilidad queun individuo llegue tarde. Es decir,
C = p[t] =50
100×
10
100+
40
100×
3
100+
10
100×
1
100=
63
1000.
Por tanto, p[t] = 1 −63
1000=
937
1000.
En el segundo apartado nos piden p[V |t] =1
C× p[V ] ×
p[t|V ] =50
63. 2
Problema 4.15 (Problema de los cumpleanos) Hallar la pro-babilidad que en una reunion de n personas todas tengan fe-cha de cumpleanos diferente .
Solucion. Puesto que hay n personas y 365 dıas en un ano,resulta que el numero de formas distintas de cumplir anosque se pueden presentar es
VRn365 = 365n.
Analisis de Datos 83
Por otro lado, si las personas han de tener fechas distintasde cumpleanos, se tienen para la primera persona 365 posi-bilidades, para la segunda, 364; pra la tercera, 363 y ası su-cesivamente, hasta que para la n-esima se tienen 365−n+1.
Por tanto, la probabilidad pedida es
p =365 × 364 × · · · × (365 − n + 1)
365n=
Vn365
VRn365
.
2
Nota 4.7 Cuando n ≥ 23 se verifica que p <1
2lo que se
puede interpretar diciendo que a partir de 23 personas enadelante es mas probable que dos coincidan en la fecha denacimiento, a que todos tengan fechas de nacimiento distin-tas.
Problema 4.16 El gerente de una empresa que fabrica neu-maticos para maquinaria de construccion estudia el lanzamien-to de un nuevo neumatico. En el pasado, el 40 % de los neuma-ticos proyectados han tenido exito y el 60 % han fracasado.Antes de lanzar el neumatico se hace un estdio de mercadoy se solicita un informe, ya sea favorable o desfavorable. Enetapas anteriores, el 80 % de los neumaticos con informe favo-rable tuvieron exito y solo el 30 % de los que fracasaron tenıaninforme favorable. Calcular la probabilidad que un neumaticotenga exito si recibe un informe favorable.
Solucion. Sea E = {neumatico con exito} y F = {informe favorable}.Entonces,
Prioris Verosimilitudes Posteriorisp[E]=40/100 p[F|E]=80/100 p[E|F]=(1/C)× 40/100×80/100p[E]=60/100 p[F|E]=30/100 p[E|F]=(1/C)× 60/100×30/100
84 J. L. Dıaz–Barrero
Entonces C =1
2y p[E|F ] = (1/C)×40/100×80/100 =
64
100.
2
Problema 4.17 Se dispone de tres urnas con las siguientescomposiciones: U1(3B, 2N), U2(2B, 3N) y U3(1B, 4N). Se lan-za un dado, si sale 1 se elige la primera urna, si sale primo lasegunda y si sale 4 o 6 la tercera. A continuacion, se extraeuna bola de la urna elegida. Hallar la probabilidad de que seablanca. Si ha resultado ser blanca, ¿Cual es la probabilidadque hubiese salido primo en el lanzamiento del dado?
Capıtulo 5
Variables AleatoriasDiscretas
El concepto de variable aleatoria (v.a.) viene motivado por lanecesidad de trasladar el estudio de los sucesos del algebrade sucesos a la recta real. Dado un espacio muestral E, unavariable aleatoria X es una aplicacion X : E → R que aso-cia a cada suceso un numero real que viene determinadopor el resultado de un experimento aleatorio. Esta asocia-cion permitira expresar los sucesos en terminos numericos.En otras palabras, una variable aleatoria es la modelizacionteorica de las variables estadısticas anteriormente estudia-das. Tienen la ventaja de obviar la descripcion del espacio deprobabilidad. Distinguiremos entre variables aleatorias dis-cretas y continuas.
5.1. Variables aleatorias discretas
Una variable aleatoria X es discreta cuando el conjunto devalores que toma X(E) es finito o infinito numerable, i.e.,
85
86 J. L. Dıaz–Barrero
X(E) = {x1, x2, x3, · · · }. Dado un espacio de probabilidad(E, S, p) y una v.a. X definida sobre E. Llamamos
Dx = {x1, x2, x3, · · · , xn, · · · } ≡ X
al conjunto de valores posibles de X y definimos la funcionde densidad de probailidad p(x) de X como la aplicacionp : R → [0, 1] definida por p(x) = p[X = x], que verifica lassiguientes condiciones:
1. p(x) ≥ 0, para todo x ∈ Dx.
2. p(x) = 0 para todo x ∈ R − Dx.
3.∑
x∈Dx
p(x) = 1.
Toda funcion p(x) tal que para un conjunto de valores fi-nito o infinito numerable cumple las condiciones anterioreses funcion de densidad de una variable aleatoria discreta X.Tambien se utiliza la notacion fX(x) = p(x).
La funcion de distribucion acumulada FX(x) de una va-riable aleatoria discreta X con funcion de densidad p(x) sedefine para cada x ∈ R por
FX(x) = p[X ≤ x] =∑
{y : y≤x}
p(y)
y verifica:
1. lımx→−∞
FX(x) = 0.
2. lımx→+∞
FX(x) = 1.
3. Para culesquiera numeros reales a y b con a < b se verifi-ca que FX(a) ≤ FX(b) (no decreciente)
Analisis de Datos 87
4. lımx→a+
FX(x) = FX(a) para todo a ∈ R (continua por la
derecha)
La funcion de distribucion goza de las siguientes propieda-des:
1. p[a < X ≤ b] = FX(b) − FX(a).
2. p(x) = fX(x) = FX(x) − lımy→x−
FX(y).
Sea p(x) la funcion de densidad de una variable aleatoria dis-creta. La esperanza matematica o valor esperado de X sedefine por
E(X) = µ =∑
xk∈Dx
xkp(xk)
y la esperanza de la funcion g(X) de la v.a. X por
E[g(X)] = µg(X) =∑
xk∈Dx
g(xk)p(xk).
La esperanza es una medida de tendencia central y su va-lor es un numero real. La esperanza existe siempre que seaconvergente la correspondiente serie que la define. Se verificaque
E(aX + b) = aE(X) + b, a, b ∈ R.
Los momentos ordinarios de una variable aleatoria, si exis-ten, se definen como las esperanzas de potencias de la varia-ble aleatoria, i.e.,
µk = E(Xk) =∑
xi∈Dx
xki fX(xi)
De entre ellos destacan µ0 = 1 y µ1 = µ = E(X) llamadamedia de X.
88 J. L. Dıaz–Barrero
Los momentos centrados sobre µ, si existen, se definen co-mo
mk = E[(X − E[X])k
]=
∑xi∈Dx
(xi − µ)kfX(xi).
Son momentos destacados m0 = 1, m1 = 0, m2 = V ar(X) =∑xi∈Dx
(xi − µ)2fX(xi). La desviacion tıpica o estandar es la
raız cuadrada positiva de la varianza, i.e.,
σX =√
V ar(X) ={ ∑
xi∈Dx
(xi − µ)2fX(xi)}1/2
.
La varianza goza de las sguientes propiedades:
1. V ar(X) = E(X2) −[E(X)
]2
.
2. V ar(aX + b) = a2V ar(X), a, b ∈ R.
Entre los momentos centrados y ordinarios se verifica la si-guiente relacion
mk = E[(X − E[X])k
]= E
[ k∑j=0
(−1)k−j
(k
j
)Xjµk−j
]=
k∑j=0
(−1)k−j
(k
j
)µk−j
1 µj.
La funcion generadora de momentos, si existe, se definecomo
mX(t) = E(etX) =∑
xj∈Dx
etxjp(xj)
y la funcion caracterıstica como
ϕX(t) = E(eitX) =∑
xj∈Dx
eitxjp(xj).
Se verifica
Analisis de Datos 89
1. mX(t) = ϕX(−it), ϕX(t) = mX(it)
2.dk
dtkmX(t)
∣∣∣t=0
= µk
3.dk
dtkϕX(t)
∣∣∣t=0
= ikµk.
5.2. Modelos probabilısticos discretos
5.2.1. Distribucion de Bernoulli
Si un experimento aleatorio tiene dos resultados posiblesexito y fracaso, i.e., E = {e, f}. Entonces, la aplicacionX : E → R definida por X(e) = 1 y X(f) = 0 es una variablealeatoria que tiene como funcion de densidad de probabilidad
fX(x) =
{1 − p si x = 0,
p si x = 1
se llama distribucion de Bernoulli de parametro p, i.e., X ∼Ber(p). Su esperanza es E(X) = p, su varianza V ar(X) =p(1 − p) y mX(t) = E(etX) = 1(1 − p) + etp = 1 + p(et − 1).
Ejemplo 5.2.1 La probabilidad anual que se produzca un tor-nado en Mallorca es 0,2. La variable aleatoria
X =
{0 si no se produce,
1 si se produce
es una variable aleatoria de Bernoulli de parametro p = 0,2con funcion de densidad
fX(x) =
{0,8 si x = 0,
0,2 si x = 1.
90 J. L. Dıaz–Barrero
5.2.2. La Distribucion Binomial
En el experimento que consiste en la realizacion de repeticio-nes independientes de una prueba de Bernoulli, si n repre-senta el numero de pruebas y X es la variable aleatoria quetoma como valores el numero de exitos en estas n repeticio-nes, entonces
X = {0, 1, 2, · · · , n}.
Su funcion de densidad de probabilidad fX(k) = p[X = k]representa la probabilidad de obtener k exitos y n − k fra-casos en n repeticiones del experimento. Dado que las repe-ticiones se consideran independientes cualquier ordenacionde k exitos y n − k fracasos tiene probabilidad pk(1 − p)n−k
y como hay PRk,n−kn ordenaciones posibles, entonces, para
k = 0, 1, · · · , n, se tiene que
p[X = k] = PRk,n−kn pk(1 − p)n−k
=n!
k!(n − k)!pk(1 − p)n−k =
(n
k
)pk(1 − p)n−k.
La distribucion de probabilidad anteriormente definida se re-presenta con la notacion X ∼ B(n; p) y se denomina Distri-bucion Binomial porque los valores que toma su funcion dedensidad coinciden con los terminos del binomio
[(1 − p) + p]n =n∑
k=0
(n
k
)pk(1 − p)n−k.
Sus parametros son:
1. µ = E(X) = np,
2. V ar(X) = σ2 = np(1 − p), σ =√
np(1 − p)
3. mX(t) = [(1 − p) + pet]n.
Analisis de Datos 91
5.2.3. Distribucion uniforme discreta
Una variable aleatoria que puede asumir n valores diferentescon igual probabilidad diremos que tiene una distribucionuniforme discreta, i.e., si Dx = {1, 2, · · · , n} entonces
X ∼ U{1, 2, · · · , n} ⇐⇒ fX(x) =1
n, x = 1, 2, · · · , n.
Sus parametros son:
1. E[X] =n + 1
2
2. V ar(X) =n2 − 1
12.
3. mX(t) =1
n
n∑k=1
ekt.
5.2.4. La distribucion geometrica
La distribucion geometrica modela el numero de fracasoshasta el primer exito. Existen dos versiones: (1) La que cuen-ta unicamente el numero de fracasos y (2) La que cuentael numero de pruebas incluyendo la que constituye el primerexito. Puesto que modela unidades, en general de tiempo, quehay que esperar hasta obtener el primer exito, se denominatambien variable aleatoria discreta de tiempo de espera.Se dice que la variable aleatoria X con Dx = {0, 1, 2, · · · }sigue una distribucion geometrica de parametro p si
fX(x) = p(1 − p)x, x = 0, 1, 2, · · · .
Esta distribucion modela el numero de fracasos hasta el pri-mer exito, sin incluirlo. Sus parametros son:
92 J. L. Dıaz–Barrero
1. E(X) =1 − p
p,
2. V ar(X) =1 − p
p2.
3. mX(t) =p
1 − et(1 − p).
La variable aleatoria X con Dx = {1, 2, 3, · · · } sigue una dis-tribucion geometrica de parametro p cuando
fX(x) = p(1 − p)x−1, x = 1, 2, 3, · · ·
Sus parametros son
1. E(X) =1
p,
2. V ar(X) =1 − p
p2.
Modela el numero de pruebas hasta alcanzar el primer exito,incluyendo este.
5.2.5. La distribucion de Poisson
Una variable aleatoria X con Dx = {0, 1, 2, · · · } se dice quesigue una Distribucion de Poisson de parametro λ cuandoy solo cuando
fX(x) = p[X = x] =λxe−λ
x!, x ∈ Dx, λ > 0.
Sus parametros son:
Analisis de Datos 93
1. E(X) = λ,
2. V ar(X) = λ.
3. mX(t) = eλ(et−1).
Esta distribucion es un modelo adecuado para muchos fenome-nos aleatorios, independientes, que cuentan exitos por uni-dad de tiempo, espacio, longitud, etc. Ejemplos: numero detornados, terremotos o inundaciones que ocurren en una de-terminada zona por ano.
La distribucion de Poisson puede obtenerse como lımite de laBinomial. En efecto, supongamos que en un tiempo t se reali-zan n experimentos independientes de Bernoulli con parame-tro p. Si X es la variable aleatoria que cuenta el numero deexitos, entonces se distribuye como una Binomial de parame-tros n y p, es decir, X ∼ B(n, p) con
fX(x) = p[X = x] =
(n
x
)px(1 − p)n−x, x = 0, 1, 2, · · · , n.
Supongamos que en el periodo t aumentamos el numero deexperimentos de forma que el promedio de exitos sea cons-
tante, i.e., E(X) = np = λ = cte., entonces p =λ
ny
fX(x) = p[X = x] =
(n
x
)(λ
n
)x(1−
λ
n
)n−x
, x = 0, 1, 2, · · · , n.
Tomando lımite con n → ∞ se obtiene
fX(x) = p[X = x] =λxe−λ
x!, x = 0, 1, 2, · · · .
Sintetizando, la distribucion de Poisson se obtiene como lımi-te de una Binomial para la que el numero de experimentosde Bernoulli crece indefinidamente manteniendo constanteel numero medio de exitos por unidad de tiempo.
94 J. L. Dıaz–Barrero
5.2.6. Perıodo de retorno
Se llama perıodo de retorno al tiempo esperado entre suce-sos. Es decir, si A es un suceso y T es la variable aleatoria(temporal) que mide el tiempo entre ocurrencias consecuti-vas de A, entonces el periodo de retorno de A es E(T ). Porejemplo, si T = numero de anos que transcurren hasta larealizacion de un suceso A, entonces T ∼ G(p) con p = p[A].
Por tanto, τ = E(T ) =1
pes el periodo de retorno de A.
5.3. Problemas
Problema 5.1 Se considera la distribucion de probabilidad (X, fX)donde X ≡ {1, 2, · · · , 9, 10} y fX(x) = 1/10, x = 1, 2, · · · , 9, 10.
a. Representar graficamente las funciones de densidad de pro-babilidad y de distribucion.
b. Calcular la esperanza y la varianza de X.
c. Calcular p[X > 5], p[3 < X ≤ 8], p[X ≥ 7].
Problema 5.2 La probabilidad anual de que se produzcan inun-daciones en la costa del Maresme es 0,45. Calcular la probabi-lidad que en los proximos 10 anos se produzcan inundaciones:
a. Todos los anos.
b. Al menos dos anos.
c. Exactamente 4 anos.
d. Mas de cuatro pero menos de ocho anos.
Analisis de Datos 95
Problema 5.3 Trece hormigoneras estan suministrando hor-migon a una obra. La probabilidad que al final de una jorna-da una hormigonera continue funcionando es de 0,60. Si lashormigoneras funcionan independientemente hallar cual es elnumero mas probable de hormigoneras en funcionamiento alfinal del dıa y cual es su probabilidad.
Solucion. Sea X = numero de hormigoneras en funciona-miento al final del dia. Bajo la hipotesis de independencia Xse distribuye segun una Binomial de parametros n = 13 yp = 0,60. La correspondiente funcion de densidad es
x 0 1 2 3 4 5 6fX 6.6e-06 0.0001 0.0011 0.0063 0.0238 0.0643 0.1287x 7 8 9 10 11 12 13
fX 0.1932 0.2173 0.1811 0.1086 0.0444 0.0113 0.0013
La mayor probabilidad es fX(8) = 0,2173 y por tanto 8 esel numero mas probable de maquinas en funcionamiento alfinal del dıa y su probabilidad es 0,2173. 2
Problema 5.4 Calcular la probabilidad de que en una reunionde 100 personas, elegidas al azar, hallan nacido k, (0 ≤ k ≤100) en el mismo dıa.
Solucion. Parece natural asignar a un individuo, elegido alazar, la probabilidad
p =1
365
de haber nacido un determinado dıa del ano.
Tenemos 100 personas y de ellas seleccionamos k. La proba-bilidad de que todos ellos hayan nacido el mismo dıa y que
96 J. L. Dıaz–Barrero
no lo hayan hecho ninguno de los 100 − k restantes es( 1
365
)k(1 −
1
365
)100−k
.
Dado que con las 100 personas que tenemos se pueden for-
mar(100
k
)grupos de k personas, entonces la probabilidad
pedida es
p =
(100
k
)( 1
365
)k(1 −
1
365
)100−k
.
2
Problema 5.5 Se tiene un dado trucado. En 10 tiradas inde-pendientes la probabilidad de que aparezca numero par 5 ve-ces es el doble de la probabilidad de aparezca 4 veces. Cualsera la probabilidad de que aparezca par al menos una vez enlas 10 tiradas?
Solucion. Sean p y q las probabilidades de que al lanzar eldado aparezca par e impar respectivamente. La probabilidadde que aparezca par en 5 ocasiones es(
10
5
)p5q5
y la de que aparezca en 4 ocasiones(10
4
)p4q6.
Segun los datos del enunciado se tine(10
5
)p5q5 = 2
(10
4
)p4q6
Analisis de Datos 97
o 6p = 10q. Por otro lado, q = 1 − p. Resolviendo el sistema
anterior se obtiene p =5
8y q =
3
8.
Por tanto, la probabilidad pedida es la del suceso contrario ala no aparicion de par, es decir,
p = 1 −(10
0
)p0q10 = 1 −
(3
8
)10
' 0,999945.
2
Problema 5.6 Trafico pretende modificar la normativa de cir-culacion de modo que un conductor pierda su permiso de con-ducir si recibe tres multas por exceso de velocidad. Cada vezque un conductor coge su coche tiene una probabilidad de0,001 de ser sancionado por exceso de velocidad.
a. Calcular la probabilidad que un conductor reciba su prime-ra multa por exceso de velocidad la decimoquinta vez quecoja el coche despues de la aplicacion de la nueva norma-tiva.
b. ¿Cual es el numero esperado de veces que cogera el cochehasta que reciba la primera multa por exceso de veloci-dad?
c. ¿Cual es la probabilidad de que un conductor coja su cocheal menos tres veces hasta que reciba la primera multa?¿Y la de que lo coja al menos tres veces antes de recibirsu primera multa?
d. Si un conductor ha salido ya tres veces con su coche y to-davıa no ha sido multado por exceso de velocidad, ¿cuales la probabilidad de que conduzca al menos una vezmas antes de recibir la primera multa?
98 J. L. Dıaz–Barrero
Solucion. (a) Sea X el numero de veces que el conductor cogesu coche antes de ser sancionado por primera vez, i.e., X ={0, 1, 2, · · · }. La probabilidad de ser sancionado por excesode velocidad es p = 0,001 y la de no ser sancionado es 1−p =0,999. Por tanto, se trata de una repeticion de variables deBernoulli independientes hasta que se produzca la primerasancion, es decir, X sigue una distribucion geometrica deparametro p = 0,001, i.e.,
X ∼ G(0,001).
La probabilidad pedida es p[X = 14] = (1−p)14p = 0,99914×0,001 = 0,00099.
(b) Ahora hay que calcular el numero esperado de veces quecoge el coche sin recibir sancion y anadirle una vez mas (lavez que conduce y recibe la sancion), i.e.,
N = E(X) + 1 = 1 +1 − p
p= 1000 veces.
(c) Las probabilidades pedidas son p[X ≥ 2] = La sancionpuede ocurrir en la tercera vez o siguientes = 0,998; y p[X ≥3] = La sancion puede ocurrir en la cuarta vez o siguientes= 0,9970.
(d) Si la tercera vez que coge el coche todavıa no ha sidomultado, entonces la variable X tomara valores mayores oiguales que 3, pues la primera multa llegarıa en el peor delos casos, la cuarta vez. Por tanto, la probabilidad pedida es
p[X ≥ 4|X ≥ 3] =p[X ≥ 4 ∩ X ≥ 3]
p[X ≥ 3]=
p[X ≥ 4]
p[X ≥ 3]= 0,999.
2
Problema 5.7 Determinar la esperanza y la varianza para lasdistribuciones geometrica y de Poisson. (Utilizar la funcion ge-neratiz de momentos)
Analisis de Datos 99
Solucion. (a) La funcion generatriz de momentos para unavariable aleatoria que sigue una distribucion geometrica deparametro p es
mX(t) = E(etX) =∞∑
x=0
etxfX(x) =∞∑
x=0
etxp(1 − p)x
= p∞∑
x=0
etx(1 − p)x = p[1 + et(1 − p) + e2t(1 − p)2 + . . .
]
= p[ 1
1 − et(1 − p)
]si et(1 − p) < 1.
Por tanto, dado que mX(t) =p
1 − et(1 − p), entonces
E(X) = lımt→0
d
dtmX(t) = lım
t→0
p(1 − p)[1 − et(1 − p)
]2 =1 − p
p.
Ahora es facil obtener que V ar(X) =1 − p
p2.
(b) Si X ∼ Poiss(λ) entonces
mX(t) = E(etX) =∞∑
x=0
etxfX(x) =∞∑
x=0
e−λ(λet)x
x!
= e−λ
∞∑x=0
(λet)x
x!= eλ(et−1).
A partir de mX(t) se obtiene
E(X) = lımt→0
d
dtmX(t) = lım
t→0
[eλ(et−1)λet
]= λ.
E(X2) = lımt→0
d2
dt2mX(t)
100 J. L. Dıaz–Barrero
= lımt→0
[eλ(et−1)λet + λ2e2teλ(et−1)
]= λ + λ2.
Por tanto, V ar(X) = E(X2) − E2(X) = λ. 2
Problema 5.8 Suponiendo que el numero de tornados obser-vados en un ano en una cierta region tiene una distribucion dePoisson de parametro λ = 8.
1. Calcular p[X ≤ 5
], p
[6 ≤ X ≤ 9
], p
[10 ≤ X
].
2. ¿Cuantos tornados cabe esperar que se produzcan en unano y cual es la desviacion tıpica del numero de tornadosobservados?
Solucion. 1.- Dado que P[X = x
]=
λxe−λ
x!, entonces
P [X ≤ 5] =5∑
x=0
8xe−8
x!= 0,191.
p[6 ≤ X ≤ 9] =9∑
x=6
8xe−8
x!= 0,526.
p[x ≥ 10] = 1 − p[X < 10] = 1 −9∑
x=0
8xe−8
x!= 0,283.
(b) E(X) = 8, V ar(X) = 8 y σX =√
V ar(X) = 2,828.
2
Capıtulo 6
Variables AleatoriasContinuas
Dado un espacio de probabilidad (E, S, p); una variable alea-toria X definida sobre S con Dx ⊆ R (intervalo) se dice quees una variable aleatoria continua.
La funcion de densidad de probabilidad de una variablealeatoria continua X se define como una funcion fX : R →[0, 1] tal que para todo a, b ∈ R, con a < b,
p[a < X ≤ b] =
∫ b
a
fX(x) dx.
La funcion de densidad verifica:
1. fX(x) ≥ 0, para todo x ∈ R.
2.∫ ∞
−∞fX(x) dx = 1.
Al igual que en el caso discreto toda funcion fX : R → [0, 1]que cumpla las dos condiciones anteriores es funcion de den-sidad de una variable aleatoria X, en este caso continua.
101
102 J. L. Dıaz–Barrero
La funcion de densidad goza de las siguientes propiedades:
1. p[X = c] = 0, para toda constante c ∈ R.
2. p[a < X ≤ b] = p[a ≤ X ≤ b] = p[a ≤ X < b] = p[a <X < b], para todo a, b ∈ R, a < b.
A la pareja formada por (X, fX) se le llama distribucion con-tinua de probabilidad.
La funcion de distribucion acumulada FX(x) de una varia-ble aleatoria continua X se define por
FX(x) = p[X ≤ x] =
∫ x
−∞fX(x) dx,
y verifica las siguientes propiedades:
1. lımx→−∞
FX(x) = 0,
2. lımx→+∞
FX(x) = 1,
3. FX(a) ≤ FX(b), para todo a < b (no decreciente),
4. lımx→a+
FX(x) = FX(a) (continua derecha),
5. p[a < X ≤ b] = p[X ≤ b] − p[X ≤ a] = FX(b) − FX(a),para todo a, b ∈ R, a < b,
6. La funcion de densidad es la derivada de la funcion dedistribucion
fX(x) = F ′X(x) =
dFX(x)
dx.
Analisis de Datos 103
6.1. Parametros de una variable alea-toria continua
La esperanza matematica de una variable aleatoria conti-nua se define por
E(X) = µ =
∫ ∞
−∞xfX(x) dx,
y la esperanza o valor esperado de la funcion g(X) por
E[g(X)] = µg(X) =
∫ ∞
−∞g(x)fX(x) dx.
La esperanza es un parametro de centralizacion que existesiempre y cuando sea convergente la integral que la define.
La varianza de X se define por
V ar(X) = σ2X =
∫ ∞
−∞(x − µ)2fX(x) dx = E(X2) − E2(X).
La desviacion tıpica es la raız cuadrada positiva de la va-rianza, i.e.,
σX =√
V ar(X).
La desigualdad de Chebychev enuncia que para toda varia-ble aleatoria X con esperanza µ y varianza finita σ2, y todak > 0,
p[|X − µ| ≥ kσ] ≤1
k2,
o equivalentemente,
p[µ − kσ < X < µ + kσ] ≥ 1 −1
k2.
104 J. L. Dıaz–Barrero
El percentil q−esimo se define para todo q ∈ [0, 1], comoaquel valor ξq tal que
ξq = mın{xk|FX(xk) ≥ q}.
La moda se define como el valor o valores de x donde fX
alcanza sus maximos.
6.2. Modelos probabilısticos continuos
6.2.1. Distribucion uniforme continua
La distribucion uniforme continua o distribucion rectangu-lar sirve para modelar fenomenos que toman valores en unintervalo finito [a, b] donde se supone la equiprobabilidad delos subintervalos de igual longitud. Ejemplo: situar puntossobre un segmento. Se dice que X ∼ U [a, b] cuando su fun-cion de densidad es
fX(x) =1
b − aI{a ≤ X ≤ b}.
Sus parametros son
1. E(X) =a + b
2,
2. V ar(X) =(b − a)2
12.
6.2.2. Distribucion exponencial
Es util para modelar tiempos entre sucesos de Poisson. Sedice que la variable aleatoria X con Dx = R+ sigue una dis-
Analisis de Datos 105
tribucion exponencial de parametro λ, (λ > 0), i.e.,
X ∼ Exp(λ) ⇐⇒ fX(X) = λe−λxI{0 ≤ x}.
Sus parametros son
1. E(X) =1
λ(perıodo de retorno)
2. V ar(X) =1
λ2.
6.3. La Distribucion Normal
Una variable aleatoria continua X se dice que sigue unaDistribucion Normal o Distribucion de Gauss–Laplace deparametros µ, σ2 si tiene por funcion de densidad
fX(x) =1
σ√
2πe−
1
2
(x − µ
σ
)2
.
Probablemente es la mas importante y la mas utilizada de lasdistribuciones de probabilidad, entre otras, por las siguientesrazones:
1. Es basica en la aplicacion de la inferencia estadıstica alanalisis de datos, dado que gran cantidad de estadısti-cos muestrales tienden a la distribucion normal a medi-da que aumenta el tamano de la muestra.
2. Gran parte de los fenomenos observables se representanmediante la distribucion normal al menos en una pri-mera aproximacion.
3. Las variables aleatorias continuas que dependen de ungran numero de causas independientes, que suman susefectos y que ninguna de ellas es preponderante sobrelas demas, tambien sigue una distribucion normal.
106 J. L. Dıaz–Barrero
Esta distribucion aparece en el siglo XVIII definida en formaempırica o grafica en problemas relacionados con el comercioy la navegacion. En 1733 De Moivre la introdujo como lımitede la Binomial (aproximacion) cuando el numero de prue-bas n crece indefinidamente. Posteriormente, Gauss (1808)y Laplace (1812) presentan el modelo normal expresandolocon una funcion de densidad y lo utilizan para estudiar ladistribucion de los errores al realizar mediciones fısicas (As-tronomıa).
La grafica de fX(x) tiene forma de campana con un maximoen x = µ. Las dos colas se extienden indefinidamente sien-do y = 0 una asıntota horizontal. Cualesquiera que sean losvalores de µ y σ2 para una variable aleatoria normal, el areabajo la curva fX es igual a 1 y se verifica que aproximada-mente el 68,25 % de los valores de la distribucion se encuen-tran en el intervalo [µ−σ, µ+σ], el 95,5 % en [µ−2σ, µ+2σ]y el 99,7 % en [µ − 3σ, µ + 3σ].
Puede comprobarse que si X ∼ N(µ, σ2) sus parametrosson:
1. E(X) = µ,
2. V ar(X) = σ2,
3. mX(t) = eµt +
1
2σ2t2
.
Dado que la p[a ≤ X ≤ b] viene dada por
p[a ≤ X ≤ b] =
∫ b
a
fX(x) dx
y que esta integral no es resoluble por cuadraturas, se nece-sita aproximarla numericmente mediante tablas. Esto com-portarıa hacer una tabla para cada pareja de valores µ, σ2.
Analisis de Datos 107
Este problema se resuelve mediante la tipificacion de la va-riable que consiste en hacer el cambio de variable
Z =X − µ
σ
que permite pasar de la variable X ∼ N(µ, σ2) a la normalestandard Z ∼ N(0, 1). En efecto,
E(Z) = E(X − µ
σ
)=
1
σ
{E(X) − µ
}=
1
σ(µ − µ) = 0.
V ar(Z) = V ar(X − µ
σ
)=
1
σ2V ar(X) =
σ2
σ2= 1.
6.4. El teorema del Lımite Central
La aparicion historica de variables aleatorias normales en lasaplicaciones proviene del hecho que cuando se suman varia-bles aleatorias, el resultado tiende a comportarse como unavariable aleatoria normal. Esto se justifica con el Teoremadel Lımite Central que es uno de los mas importantes enla Teorıa de la Probabilidad y con enormes consecuencias enEstadıstica. A continuacion, se enuncia una version sencillade este resultado:
Teorema del Lımite CentralSean X1, X2, . . . , Xn variables aleatorias independientes eidenticamente distribuidas, con E(Xi) = µ y V ar(Xi) =
σ2, i = 1, 2, . . . , n. Definimos Sn =n∑
i=1
Xi. Entonces, la va-
riable Sn tipificada
Zn =Sn − E(Sn)√
V ar(Sn)=
Sn − nµ
σ√
n
108 J. L. Dıaz–Barrero
tiene distribucion FZn(x) tal que, para cualquier x ∈ R
lımn→+∞
FZn(x) = FZ(x).
En otras palabras,
lımn→+∞
p[a ≤ Zn ≤ b] = p[a ≤ Z ≤ b]
con Z ∼ N(0, 1). Sintetizando, este resultado enuncia que:En una sucesion de pruebas repetidas e independientes lamedia muestral estandarizada tiende a la normal estandarda medida que el numero de pruebas aumenta.
El teorema del lımite central puede aplicarse a la suma devariables aleatorias discretas. El siguiente teorema, anterioral del lımite central, puede considerarse un corolario.
Teorema de De Moivre–Laplace
Sea X ∼ B(n, p). Definimos Zn =X − np√np(1 − p)
cuya distri-
bucion escalonada es FZn. Entonces,
lımn→+∞
FZn(x) = FZ(x).
Es decir, para valores grandes de n, si p no es proximo a 1,la distribucion normal
N(np, np(1 − p)
)se puede utilizar para aproximar a la Binomial. Cuanto ma-yor sea n y p mas proximo a 0,5 mejor sera la aproximacion.
Finalmente, se ha de comentar que actualmente con la tecnolo-gıa que tenemos a nuestro alcance las aproximaciones de laBinomial por la la normal carecen de sentido.
Analisis de Datos 109
6.5. Problemas
Problema 6.1 En una fabrica de cementos se anuncia quelos pedidos son atendidos en 30 minutos. Supongamos queel tiempo en atender los pedidos se distribuye segun una va-riable aleatoria continua X ∼ U(25, 35). se pide:
1. Definir las funciones de densidad de probabilidad y dis-tribucion y dibujar sus graficas.
2. ¿Cual es la probabilidad que el tiempo de atencion delsiguiente pedido exceda los 33 minutos?
3. ¿Cual es la probabilidad que el tiempo en que un pedidoes atendido difiera en 2 minutos del tiempo anunciado?
4. Para cada a tal que 25 < a < a + 2 < 35, ¿cual es laprobabilidad que un pedido sea atendido en el intervalo[a, a + 2]?
Problema 6.2 Un estudio realizado sobre la cantidad de “Cha-papote” retirado diariamente por los equipos de limpieza (vo-luntarios, pescadores y ejercito), revela que el 50 % de los equi-pos retiran mas de 100 y menos de 200 teneladas, el 25 % masde 200 y menos de 300 y el resto no llega a las 100 tonela-das. Con esta informacion construir una funcion de densidadque modelice la distribucion X (en cientos de toneladas) de losresiduos recogidos por los equipos de limpieza y, a partir deella, obtener:
1. La funcion de distribucion de X.
2. La media de residuos recogidos y su desviacion tıpica.
3. El porcentaje de equipos que recogen entre 50 y 150 to-neladas diarias.
110 J. L. Dıaz–Barrero
Solucion. El numero de toneladas recogidas, segun el infor-me, oscila entre 0 y 300 toneladas diarias. Entonces, La fun-cion de densidad es
fX(x) =
1/4, 0 ≤ x < 1;1/2, 1 ≤ x < 2;1/4, 2 ≤ x < 3;0, en el resto.
1. FX(x) =
∫ x
−∞fX(x) dx =
0, x < 0;x/4, 0 ≤ x < 1;x/2 − 1/4, 1 ≤ x < 2;x/4 + 1/4, 2 ≤ x < 3.1, x ≥ 3.
En efecto, para x < 0, FX(x) =
∫ x
∞0 dx = 0. Para 0 ≤
x < 1, FX(x) =
∫ 0
−∞0 dx +
∫ x
0
1/4 dx =x
4. Para 1 ≤
x < 2, FX(x) =
∫ 0
−∞0 dx +
∫ 1
0
1/4 dx +
∫ x
1
1/2 dx =
x
2−
1
4. Para 2 ≤ x < 3, FX(x) =
∫ 0
∞0 dx +
∫ 1
0
1/4 dx +∫ 2
1
1/2 dx+
∫ x
2
1/4 dx =x
4+
1
4. Finalmente, para x ≥ 3,
FX(x) =
∫ 0
−∞0 dx+
∫ 1
0
1/4 dx+
∫ 2
1
1/2 dx+
∫ 3
2
1/4 dx =
1.
2. E(X) =
∫ ∞
−∞xfX(x) dx =
3
2, i.e., 150 toneladas. E(X2) =∫ ∞
−∞x2fX(x) dx =
34
12. Por tanto, V ar(X) = 0,5833 y
sX = 0,7638.
3. P [0,5 ≤ X ≤ 1,5] =
∫ 1,5
0,5
fX(x) dx = FX(1,5)−FX(0,5) =
0,375. Es decir, el 37,5 % de los equipos.
Analisis de Datos 111
2
Problema 6.3 Sea Z una variable aleatoria que se distribuyesegun una normal estandard. Calcular las siguientes probabi-lidades:
p(0 ≤ z ≤ 2,2) p(z ≤ 1,37) p(−2,5 ≤ z ≤ 2,5)p(0 ≤ z ≤ 1) p(−1,8 ≤ z) p(1,4 ≤ z ≤ 2,5)
p(−2,5 ≤ z ≤ 0) p(−1,5 ≤ z ≤ 2) p(1,5 ≤ z)
Problema 6.4 Hallar los valores aproximados de los siguien-tes percentiles de la distribucion normal estandadrd:
a. 91 b. 9 c. 75 d . 95
Solucion. a. Se ha de calcular el valor de a de forma quep(z ≤ a) = 0,91. Directamente de las tablas se obtiene quea = 1,34. En los otros casos los valores aproximados sonrespectivamente: −1,34, 0,68, 1,645. 2
Problema 6.5 Obtener el valor de k en las siguientes ecuacio-nes para la variable aleatoria N(0, 1):
p(z ≥ k) = 0,01 p(−k ≤ z ≤ k) = 0,6826p(−k ≤ z ≤ k) = 0,98 p(−k ≤ z ≤ k) = 0,9544
p(z ≤ −k) = 0,01 p(z ≥ k) = 0,95
Solucion. En el primer caso hay que tener encuenta que p(z ≥k) = 0,01 es equivalente a que 1 − p(z < k) = 0,01 o p(z <k) = 0,99. Directamente de las tablas resulta que k = 2,33.En los otros casos se obtienen los valores 2,33, 2,33, 1,00, 2,00y −1,645 respectivamente. 2
Problema 6.6 Sea X una variable aleatoria que se distribuyesegun una N(30, 25). Hallar las siguientes probabilidades:
P (30 ≤ X ≤ 37,1) P (21,05 ≤ X ≤ 27,3) P (26,35 ≤ X ≤ 30)P (23,15 ≤ X ≤ 40,05) P (33,25 ≤ X ≤ 36,3) P (|X| ≤ 32,5)
112 J. L. Dıaz–Barrero
Solucion. Tipificando la variable mediante la transformacion
z =x − µ
σ, se obtienen losisguientes resultados:
0,4222 0,1540 0,2673 0,8925 0,2579 0,6913
2
Problema 6.7 Suponiendo que los errores en la medida de300 observaciones topograficas siguen una distribucion nor-mal de media 0 y desviacion estandar 4, calcular :
(i) La probabilidad de que un error no sea mayor que 6
(ii) La probabilidad de que sea por defecto y mayor que 8
(iii) Si llamamos pequenos a los errores menores que 7 y gran-des a los mayores que 7, calcular el numero esperado deerrores grandes y pequenos en las 300 observaciones.
Solucion. Si X ∼ N(0, 16) y Z ∼ N(0, 1), entonces:(i) p[|X| ≤ 6] = p[−6 ≤ X ≤ 6] = p[−1,5 ≤ Z ≤ 1,5] =0,8662.(ii) p[X < −8] = p[Z < −2] = 0,0228.(iii) p[ error pequeno]=p[|X| ≤ 7] = p[|Z| ≤ 1,75] = 0,9198 yp[error grande] = 1 − 0,9198 = 0,0802. Por tanto, el nume-ro esperado de rrores pequenos es de 276 y el de errroresgrandes de 24. 2
Problema 6.8 Supongamos que el pH del suelo de la cuencade un rio es una variable aleatoria que se distribuye normal-mente con media 6 y desviacion tıpica 0,10. Si se elige unamuestra al azar del suelo y se determina su pH:
1. ¿Cual es la probabilidad que el pH resultante este entre5,90 y 6,25?
Analisis de Datos 113
2. ¿Cual es la probabilidad que el pH se mayor que 6,10?
3. ¿Que valor sera superado solamente por el 5 % de los posi-bles pH?
Problema 6.9 Para conocer el grado de concienciacion de losproblemas medio ambientales que tienen los trabajadores delas constructoras un inspector ha aplicado un test de ambien-talizacion a los 500 trabajadores de una empresa. Se suponeque las puntuaciones obtenidas se distribuyen se gun una nor-mal de media 80 y desviacion tıpica 12. (a) ¿Que puntuacionsepara al 25 % de los trabajadores con menor conocimiento delos problemas ambientales? (b) ¿A partir de que puntuacion seencuentra el 25 % de los trabajadores con mejor conocimientode la ambientalizacion? (c) El inspector visita otra empresa yal aplicar el mismo test a sus trabajadores encuentra que laspuntuaciones se distribuyen segun una N (82, 169). ¿Que sepuede decir? ¿Hay en la segunda empresa trabajadores conmejor conocimiento de los problemas ambientales que en laprimera?
Solucion. (a) p[X ≤ x] = 0,25; p(X − 80
12≤ z
)= 0,25.
z = −0,67;X − 80
12= −0,67; X = 71,96.
El 25 % de los trabajadores con menor conocimiento en am-bientalizacion obtiene puntuaciones inferiores a 71,96.
(b) P [X ≤ x] = 0,75; p(X − 80
12≤ z
)= 0,75. z = 0,67;
X − 80
12= 0,67; X = 88,04
A partir de 88,04 se encuentra el 25 % de los trabajadores conmejor conocimiento de los problemas ambientales.
(c) Teniendo en cuenta que en el intervalo (µ − σ, µ + σ) se
114 J. L. Dıaz–Barrero
halla el 68,2 % de los individuos; en (µ−2σ, µ+2σ) el 95,4 %y en (µ − 3σ, µ + 3σ) el 99,7 %, entonces
68.2 % 95.4 % 99.7 %Empresa 1 (68,92) (56,104) (44,116)Empresa 2 (69,95) (56,108) (43,121)
Se puede concluir que en la segunda empresa hay trabaja-dores con mejor conocimiento de los problemas ambientalesque en la primera, ya que los lımites inferiores de los inter-valos son muy proximos; en cambio los superiores son sen-siblemente mas altos en la segunda empresa. 2
Problema 6.10 La vida de una hormigonera se distribuye nor-malmente con media 10000 horas. Por la experiencia acumula-da, se sabe que el 50 % de ellas dura menos de 9190 horas omas de 10810 horas. Se pide:
1. ¿Cual es la desviacion estandard del tiempo de vida delas hormigoneras?
2. ¿Cual es el porcentaje de hormigoneras que funcionara masde 11500 horas?
3. Si una hormigonera lleva funcionando 12000 horas, ¿cuales la probabilidad de que continue funcionando despuesde las 13000 horas?
Solucion. La vida de las hormigoneras X se distribuye segununa N(10000, σ2). Tipificando, mediante el cambio de varia-
ble z =x − 10000
σse obtiene que Z ∼ N(0, 1). Entonces:
1. z1 =10810 − 10000
σ=
810
σ, z2 =
9190 − 10000
σ=
−810
σ.
Analisis de Datos 115
Segun el enunciado, tenemos
p[Z >
810
σ
]= p
[Z ≤
−810
σ
]p[Z >
810
σ
]+ p
[Z ≤
−810
σ
]= 0,5
De donde p[Z ≤
810
σ
]= 0,75;
810
σ= 0,675 y σ = 1200.
2. p[X ≥ 11500] = 1 − p[X < 11500] = 1 − p[Z < 1,25] =1 − 0,8944 = 0,1056.
3. p[X > 13000|X ≥ 12000] =p[X > 13000 ∩ X ≥ 12000]
p[X ≥ 12000]=
p[X > 13000]
p[X ≥ 12000]= 0,1278. 2
Problema 6.11 La temperatura que se registra en la superfıciede un satelite meteorologico se puede considerar que se distri-buye segun una variable aleatoria normal. Cuando se encuen-tra afectado por la sombra de la Tierra, se tiene que en un 95 %de los casos la temperatura es inferior a los 263◦K, mientrasque supera los 253◦K en el 40 % de las mediciones.
1. Calcular la media y la varianza de la temperatura en es-tas condiciones.
2. Cuando el satelite recibe directamente la luz solar, la tem-peratura en su superfıcie presenta la misma varianza queen el caso anterior, pero su media se incrementa en 35◦K.¿Cual es la probabilidad que la temperatura supere los278◦K?
Solucion. (1) La variable aleatoria temperatura en la sombrase distribuye segun una normal X ∼ N(µ, σ2). Ademas,
p[X < 263] = 0,95, y p[X > 253] = 0,4
116 J. L. Dıaz–Barrero
o equivalentemente,
263 − µ
σ= 1,645, y
253 − µ
σ= 0,255
Resolviendo el sistema anterior resulta: µ = 251,16◦K y σ =7,19◦K.
(2) La variable aleatoria temperatura al sol se distribuye segununa normal Y ∼ N(µ + 35, σ2). Entonces,
p[Y > 278] = 1−p[Y ≤ 278] = 1−p
[278 − 286,16
7,19
]= 0,871.
2
Problema 6.12 La probabilidad que un cliente pague con VI-SA la compra de unos materiales de lampisteria es del 50 %.Hallar la probabilidad que de los 100 proximos clientes:
1. Exactamente 60 paguen con VISA.
2. A lo sumo 40 paguen con VISA.
3. Mas de 40 paguen con VISA.
Solucion. Ahora se trata de una distribucion Binomial B(100, 0,5).Como np = 50 > 5 y nq = 50 > 5, entonces aplicandoel teorema de De Moivre se puede aproximar mediante unaN(µ, σ) donde µ = np = 50 y σ =
√npq = 5. Por tanto,
1. P [X = 60] ∼ P [59,5 ≤ X ≤ 60,5] = P [1,9 ≤ Z ≤2,1] = 0,0108
2. P [X ≤ 40,5] = P [Z ≤ −1,9] = 0,0287.
3. P [X > 40,5] = 1 − P [X ≤ 40,5] = 1 − 0,0287 = 0,9713.
2
Capıtulo 7
Inferencia Estadıstica:Estimacion de Parametros.Contrastes de Hipotesis
7.1. Introduccion
La inferencia estadıstica tiene como objetivo obtener infor-macion sobre la poblacion (lo que se quiere estudiar) a partirde una o varias muestras de ella misma (lo que se puedeestudiar). La inferencia es un conjunto de tecnicas y procedi-mientos que permiten de alguna forma cuantificar la incerti-dumbre acerca del modelo y de sus parametros. Es deseable,que la tecnica elegida sea la mas apropiada para seleccionarel modelo que permita tomar las mejores decisiones a partirde la informacion obtenida en las muestras.Sintetizando, podrıamos decir que el objetivo de la estadısticaes obtener conclusiones sobre una caracterıstica de la po-blacion a partir de la informacion proporcionada por unamuestra, para lo cual, es clave garantizar que la muestra searepresentativa de la poblacion.
117
118 J. L. Dıaz–Barrero
7.2. Muestreo
Por poblacion se entiende un conjunto homogeneo de ele-mentos en los que se estudia una cracterıstica o variable da-da. Una muestra es un conjunto representativo de los ele-mentos de la poblacion. Para obtener datos de una pobla-cion se puede proceder de dos formas, mediante un censo(se estudia toda la poblacion) o seleccionando una muestra(se estudia parte de la poblacion). Este ultimo procedimientose denomina muestreo. Existen varios tipos de muestreo:
1. Muestreo aleatorio simple. Es un procedimiento de se-leccion de una muestra de forma que cada individuo dela poblacion tiene la misma probabilidad de ser elegido.Cuando la seleccion se realiza con reemplazamiento,de forma que la poblacion es identica en todas las ex-tracciones, la muestra se llama aleatoria simple.
2. Muestreo aleatorio sistematico. Se utiliza cuando elnumero de individuos de la poblacion es elevado. Pararealizarlo, se calcula primero el parametro k que es laparte entera del cociente entre el tamano del censo N yel tamanno de la muestra n. A continuacion, se selec-ciona aleatoriamente el primer elemento de la muestraentre los k primeros elementos de la poblacion (orde-nados siguiendo algun criterio), el segundo entre los ksiguientes y ası hasta completar la muestra.
3. Muestreo aleatorio estratificado. Se utiliza en pobla-ciones heterogeneas cuando los individuos de la pobla-cion se agrupan en estratos (grupos de caracterısticashomogeneas, como sexo, renta,...). Consiste en dividirla poblacion en estratos y mediante muestreo aleatoriosimple seleccionar una muestra representativa de ca-da uno de ellos. Puede ser constante (cuando se extraeel mismo numero de individuos de cada estrato) o pro-porcional (cuando el numero de elementos que se se-
Analisis de Datos 119
leccionan de cada estrato es proporcional al numero deelementos del estrato en la poblacion).
4. Muestreo aleatorio por clusters o conglomerados. Seutiliza cuando no se dispone de un censo de la poblaciono cuando sus individuos se hallan muy dispersos geo-graficamente. Asume como unidades muestrales gruposde la poblacion y no individuos particulares. El procedi-miento consiste es seleccionar tantos clusters o conglo-merados como individuos tenga la muestra y despuesseleccionar mediante muestro aleatorio simple un indi-viduo de cada cluster para poder ası formar una mues-tra representativa de la poblacion.
5. Muestreo aleatorio dirigido. Consiste en seleccionaruna muestra con un cierto criterio, de forma que losindividuos selecionados se supongan representativos dela poblacion.
6. Muestreo no aleatorio por cuotas. Se utiliza en en-cuestas de opinion. Se basa en un buen conocimientode la poblacion. El investigador selecciona, segun su cri-terio, el numero de estratos o individuos que consideramas apropiados para su investigacion.
7. Muestreo no aleatorio deliberado. Consiste en selec-cionar la muestra a partir de un segmento concreto dela poblacion (por ejemplo, la guia telefonica) o seleccio-nando deliberadamente los individuos que se conside-ran mas apropiados para constituir la muestra objetode estudio.
Finalmente, comentaremos que la representatividad de unamuestra no se halla solamente en el metodo de muestreo sino que el tamano de la muestra es fundamental. Los criteriosgenerales para seleccionar el tamano de una muestra son:
120 J. L. Dıaz–Barrero
1. El objetivo perseguido.
2. Las caracterısticas de la poblacion investigada.
3. El grado de error que se pueda tolerar.
7.3. Estimacion de Parametros
Dada una poblacion caracterizada por una variable aleatoriaX, se llama muestra aleatoria a un conjunto X1, X2, . . . , Xn
de variables aleatorias independientes, identicamente distri-buidas, todas con la misma distribucion y los mismos prame-tros que X. La funcion de densidad conjunta de la muestraes
f(x1, x2, . . . , xn) =n∏
i=1
f(xi).
Observese que antes de tomar la muestra los Xi son variablesaleatorias que al realizarse generan la muestra x1, x2, . . . , xn.
Un estimador es una funcion de la muestra apropiada paraestimar un parametro de la poblacion. Es una variable alea-toria y cada vez que se realiza ( sustitucion de la v.a. por unamuestra) produce una estimacion puntual del parametro,i.e., un numero.
7.3.1. Metodos de Estimacion Puntual
Dada una muestra aleatoria X1, X2, . . . , Xn, y una realiza-cion de la misma x1, x2, . . . , xn, el metodo de los momen-tos consiste en identificar los momentos muestrales con losmomentos poblacionales. Los estimadores de los parametros
Analisis de Datos 121
son las soluciones del sistema de ecuaciones
µk = E(Xk) =1
n
n∑i=1
Xki = m′
k, k = 1, 2, . . .
El sistema, que tiene tantas ecuaciones como parametros aestimar, no siempre tiene solucion unica. Tambien puedenutilizarse los momentos centrados en torno a la media.
El metodo de la maxima verosimilitud consiste en hallarlos valores de los parametros que hacen mas verosımil (pro-bable) la muestra. Es decir, se trata de hallar los valores delos parametros que maximizan la funcion de verosimilitud
L(θ1, θ2; x1, x2, . . . , xn) =n∏
k=1
f(xk; θ1, θ2).
En la practica es mas comodo maximizar el logaritmo de lafuncion de verosimilitud, i.e.,
ln L(θ1, θ2; x1, x2, . . . , xn) =n∑
k=1
ln f(xk; θ1, θ2).
Uno de los objetivos que se ha de procurar conseguir cuandose hace la estimacion de un parametro es, obtener de en-tre todos los posibles, el que sea mas adecuado. Al intentarobtener este estimador es util el concepto de error cuadati-co medio (RMS) del estimador. Si θ = ϑ(X1, X2, . . . , Xn) esun estimador de θ, se llama error cuadatico medio de θ a laesperanza de la diferencia entre θ y θ, i.e.,
RMS(θ) = E[(θ − θ)2].
Desarrollando la expresion anterior, se obtiene
RMS(θ) = E[(θ − θ)2] = V ar(θ) + [θ − E(θ)]2.
122 J. L. Dıaz–Barrero
Como puede observarse el error cuadratico medio es la sumade dos cantidades no negativas, la varianza del estimador yel cuadrado de su sesgo respecto al parametro desconocido.Esto pone de manifiesto que las propiedades deseables de unestimador han de ser que su varianza sea lo mas pequenaposible y que la distribucion muestral de θ se concentre alre-dedor del parametro.
Un estimador se dice que es insesgado o centrado cuandoE(θ) = θ. Es decir, cuando su sesgo E(θ) − θ = 0. Un es-timador con sesgo negativo subestima al parametro y si elsesgo es positivo lo sobrestima. Si,
lımn→∞
E(θ) = θ,
entonces el estimador es asintoticamente insesgado. Un es-timador se dice que es consistente en media cuadratica si ysolo si,
lımn→∞
E[(θ − θ)2] = 0.
Se dice que el estimador θ1 es mas eficiente que θ2 si
V ar(θ1) < V ar(θ2).
Un estimador es optimo cuando es insesgado y de varianzamınima. Finalmente, un estimador θ se dice que es suficien-te para un parametro θ, cuando utiliza en la estimacion todala informacion contenida en la muestra sobre el parametro θ.
7.3.2. Intervalo de probabilidad e intervalo deconfianza
Dada una muestra aleatoria X1, X2, . . . , Xn, sean `1, `2 dosfunciones de la muestra, i.e.,
`i = `i(X1, X2, . . . , Xn), i = 1, 2,
Analisis de Datos 123
tales que `1 ≤ `2 y p[`1 < θ < `2] = 1 − α. Entonces, sedice que (`1, `2) es un intervalo de probabilidad 1 − α, (0 <α < 1) para θ. Su realizacion, que se obtiene al sustituir enla muestra aleatoria los valores obtenidos, se llama intervalode confianza al 100(1 − α). %
7.4. Distribucion de la Media Muestral
Si se considera una caracterıstica de una poblacion que sedistribuye segun una variable aleatoria de parametros µ yσ2, i.e., X ∼ X(µ, σ2) y se seleccionan un gran numero demuestras aleatorias simples de tamano n, entonces la mediamuestral X es una variable aleatoria que tiene por media
µX = µ y por varianza σ2X
=σ2
n. Es decir,
X ∼ X(µ, σ2) =⇒ X ∼ X(µ,
σ2
n
).
Segun el Teorema del Lımite Central se tiene que indepen-dientemente de la poblacion original, la distribucion de la me-dia muestral X sera aproximadamente normal para muestrassuficientemente grandes (n > 30). Es decir, si X es normal,entonces X sera normal independientemente del tamano delas muestras. En cambio, si X no es normal X sera aproxi-madamente normal solo para valores grandes de n.
7.5. Intervalos de confianza en pobla-ciones normales
En lo que sigue, consideraremos muestras aleatorias proce-dentes de variables aleatorias normales o muestras grandesde poblaciones cualesquiera.
124 J. L. Dıaz–Barrero
1. Intervalo de confianza para la media con varianzaconocida. Supongamos que X ∼ N(µ, σ2), en don-de el parametro µ es desconocido y deseamos obtenerun intervalo de confianza para µ al nivel de confianza100(1 − α) %. Para ello tomamos una muestra de ta-mano n, X1, X2, . . . , Xn de una poblacion normal o deuna poblacion cualquiera con n > 30 y hallamos dosnumeros `1, `2 tales que
p[`1 ≤ X ≤ `2] = 1 − α.
Para determinar los valores de `1, `2 utilizaremos la me-dia muestral X (que se distribuye segun una normal deparametros µ y σ2/n). Entonces, tipificando, resulta
Z =x − µ
σ/√
n
que se distribuye como una N(0, 1) y por tanto, utilizan-do la normal estandard, podemos encontrar dos valores`1, `2 tales que
p[`1 ≤
x − µ
σ/√
n≤ `2
]= 1 − α (7.1)
de donde se deduce
p[x − `2
σ√
n≤ µ ≤ x − `1
σ√
n
]= 1 − α
y en consecuencia el intervalo[x − `2
σ√
n, x − `1
σ√
n
]. (7.2)
Pero la expresion (7.1) no quiere decir que `1, `2 seanunicos. Entonces, de entre todos los posibles valorestendremos que elegir aquellos que hagan mınima la lon-gitud del in tervalo (7.2). Es decir, hemos de minimizarla funcion (longitud del intervalo):
L(`1, `2) =(x − `1
σ√
n
)−
(x − `2
σ√
n
)=
σ√
n(`2 − `1)
Analisis de Datos 125
sujeta a la condicion dada en (7.1), i.e.,
p[`1 ≤ Z ≤ `2] =
∫ `2
`1
fZ(z) dz = 1 − α.
Aplicando un metodo de minimizacion, por ejemplo, elde los multiplicadores de Lagrange, se obtienen los valo-res `1 = −zα/2 y `2 = zα/2. Ası, el intervalo de confianzapara la media de una normal con varianza conocida vie-ne dado por [
x − zα/2
σ√
n, x + zα/2
σ√
n
]donde x es la media muestral observada y zα/2 es tal
que p[Z > zα/2] =α
2.
2. Intervalo de confianza para la media con varianzadesconocida.
Cuando la varianza es desconocida, y la media y la va-rianza muestrales observadas son x y s2, entonces unintervalo de confianza para la media poblacional µ al100(1 − α) % de confianza viene dado por[
x − tα/2,n−1
s√
n, x + tα/2,n−1
s√
n
]donde tα/2,n−1 es tal que p[tn−1 > tα/2,n−1] =
α
2y tn−1
sigue una distribucion t−Student con n − 1 grados delibertad.
7.6. Contraste de Hipotesis
El objetivo de este tipo de inferencia es determinar, a partirdel analisis de una muestra, si hay o no evidencia estadısti-ca suficiente para concluir si es o no razonable la hipotesishecha sobre un parametro de la poblacion.
126 J. L. Dıaz–Barrero
Dada una variable aleatoria X con funcion de densisdadfX(x) y una muestra aleatoria X1, X2, . . . , Xn, un contrastede hipotesis o test parmetrico sobre los parametros de lapoblacion consta de las siguientes fases:
1. Una hipotesis nula o primaria que se representa porH0 especifica siempre el valor de uno o varios parame-tros de la poblacion. Si se reduce a un unico valor sedice simple y en caso contrario compuesta.
2. Una hipotesis alternativa que se representa por Ha oH1.
3. El test de prueba que es una funcion de la muestraaleatoria con funcion de densidad conocida. Habitual-mente un estimador del parametro.
4. El nivel de significacion del contraste. Se acostumbraa representar por α.
5. La regla de decision para aceptar o rechazar la hipote-sis nula. Define el rango de valores del test de pruebapara rechazar la hipotesis primaria H0.
La hipotesis nula puede ser verdadera o falsa y por tanto sonposibles dos decisiones correctas:
1. No rechazarla cuando es correcta.
2. Rechazarla cuando es incorrecta.
Pero tambien son posibles dos decisiones incorrectas:
1. Rechazar H0 cuando es correcta.
2. No rechazarla cuando es incorrecta.
Analisis de Datos 127
En este ultimo caso, a (1) se le llama error de tipo I y a(2) error de tipo II. La probabilidad de un error de tipo I serepresenta por α y la de un error de tipo II por β. Se llamapotencia del contraste al valor 1 − β. Cuando la hipotesisH1 es compuesta el error de tipo II esta definido para unainfinidad de valores. Entonces, β es una curva (caracterısticade operacion) y en este caso 1 − β es la funcion de potenciadel test.
7.6.1. Contrastes para la media
1. Test de dos colas
Hipotesis nula : H0 : µ = µ0
Hipotesis alternativa : HA : µ 6= µ0
Test de prueba: z =x − µ0
σ/√
n
Regla de decision : Rechazo de H0 si z > zα/2 o siz < −zα/2, o equivalentmente, rechazo de H0 si |z| >zα/2.
2. Test de una cola por la derecha
Hipotesis nula : H0 : µ = µ0
Hipotesis alternativa : HA : µ > µ0
Test de prueba: z =x − µ0
σ/√
n
Regla de decision : Rechazo de H0 si z > zα.
128 J. L. Dıaz–Barrero
3. Test de una cola por la izquierda
Hipotesis nula: H0 : µ = µ0
Hipotesis alternativa: HA : µ < µ0
Test de prueba: z =x − µ0
σ/√
n
Regla de decision : Rechazo de H0 si z < −zα.
En poblaciones de varianza desconocida σ ≡ sx. A continua-cion, se exponen algunos ejemplos de test parametricos.
7.7. Analisis de la Varianza
El objetivo que se pretende con este analisis es la compa-racion de las medias de dos o mas poblaciones cuando losdatos son cuantitativos. La tecnica que se utiliza emplea lasvarianzas muestrales para detectar las diferencias entre lasmedias, siendo esta la razon por la que se conoce como anali-sis de la varianza o metodo ANOVA. Dadas k poblaciones
Xi ∼ N(µi, σ2), i = 1, 2, . . . , n,
que se suponen normales con medias desconocidas y varian-zas desconocidas pero iguales (homocedasticas), se seleccio-nan k muestras independientes
Mi(ni, xi, s2i ), i = 1, 2, . . . , k.
A continuacion se realiza el siguiente test de hipotesis:
1. Hipotesis nula: H0 : µ1 = µ2 = . . . = µk.
Analisis de Datos 129
2. Hipotesis alternativa: H1 : Al menos dos medias sondiferentes.
3. Test de prueba: El estadıstico de prueba que se utilizatiene en cuenta tanto la variabilidad entre los grupos(muestras) como la variabilidad dentro de cada gru-po (muestra). Se denotan por SST (sum of squares fortreatments) y SSE (sum of squares for error) respecti-vamente. Se definen por
SST =k∑
j=1
nj(xj − x)2,
donde x es la media de todas las observaciones, y
SSE =k∑
j=1
nj∑i=1
(xij − xj)2 =
k∑j=1
(nj − 1)s2j .
A continuacion se evaluan las medias de los cuadra-dos:
MST =SST
k − 1, MSE =
SSE
n − k
y el test de prueba que se utiliza es
F =MST
MSE
con ν1 = k − 1 grados de libertad del numerador y ν2 =n − k grados de libertad del denominador.
4. Regla de decision: Rechazo de H0 si F > Fα,k−1,n−k.Los calculos anteriores se acostumbran a disponer enuna tabla como la que se describe a continuacion.
130 J. L. Dıaz–Barrero
Tabla ANOVA
variabilidad df SS MS F-ratio
e.m. k-1 SST MST=SST
k − 1
d.c.m n-k SSE MSE=SSE
n − kF=
MST
MSETotal n-1 SS(Total)
Ejemplo 7.7.1 Un nuevo producto ha sido introducido en elmercado de los materiales de construccion. Para saber si haydiferencia entre las medias de ventas de tres importantes mer-cados regionales se han anotado las ventas de los ultimos 8dıas y se han obtenido (en unidades apropiadas) los siguien-tes resultados:
Mercado 1 15 17 22 20 18 16 14 19Mercado 2 10 12 15 17 12 13 15 16Mercado 3 13 18 19 16 17 16 15 18
¿Se puede concluir al 5 % de significacion que hay diferenciaentre las medias de ventas de los tres mercados? (Se suponeque las poblaciones son normales y con varianzas iguales).
Solucion. En este caso las hipotesis son:
1. H0 : µ1 = µ2 = µ3
2. H1 : Al menos dos medias son diferentes.
Analisis de Datos 131
3. Estadıstico de prueba:
x1 =15 + 17 + . . . + 19
8=
141
8= 17,625
x2 =10 + 12 + . . . + 16
8=
110
8= 13,750
x3 =13 + 18 + . . . + 18
8=
132
8= 16,500
x =15 + 17 + . . . + 18
24=
383
24= 15,958
SST =3∑
j=1
nj(xj − x)2 = 63,59.
s21 = 7,125, s2
2 = 5,643, s23 = 3,714
SSE = (n1 − 1)s21 + (n2 − 1)s2
2 + (n3 − 1)s23 = 115,375
MST =SST
k − 1=
63,59
3 − 1= 31,80
MSE =SSE
n − k=
115,375
24 − 3= 5,49
F =MST
MSE=
31,80
5,49= 5,79.
El numero de grados de libertad del numerador es ν1 =k − 1 = 3 − 1 = 2 y los del denominador ν2 = n − k =24 − 3 = 21, por tanto, Fα,ν1,ν2 = F0,05,2,21 = 3,47.
4. Regla de decision: Rechazamos H0 si F > Fα,ν1,ν2. Portanto, dado que 3,47 < 5,79, en base a los datos analiza-dos, rechazaremos la hipotesis primaria al 5 % de nivelde significacion.
2
132 J. L. Dıaz–Barrero
Los datos de la tabla ANOVA se pueden utilizar para obtenerintervalos de confianza para las medias de cada una de laspoblaciones y para la diferencia de medias entre dos de ellasmediante las expresiones:
xj ± tα/2,n−k
√MSE
nj
(xj − xm) ± tα/2,n−k
√MSE
( 1
nj
+1
nm
).
Considerando el mismo ejemplo de antes hallaremos interva-los de confianza al 95 % para µ1 y µ1 − µ2 respectivamente.
En el primer caso es x1 = 17,625 y s1 = 2,67. Por tanto, si1 − α = 95 % el metodo tradicional da:
x1 ± tα/2,n1−1
s1√n
= 17,625 ± 2,365 ×2,67√
8= 17,625 ± 2,23
con una cota de error E = 2,23. En cambio, utilizando latabla ANOVA se obtiene
x1 ± tα/2,21
√MSE
n1
= 17,625 ± 2,080
√5,49
8= 17,625 ± 1,72
con una cota de error E = 1,72. Dado que en este caso lacota de error es menor la estimacion es mejor.
En el segundo caso, el intervalo pedido es
(x1 − x2) ± tα/2,n−k
√MSE
( 1
n1
+1
n2
)= (17,625 − 13,75) ± 2,080
√5,49(1/8 + 1/8) = 3,875 ± 2,44
y el intervalo de confianza es [1,435, 6,315].
Analisis de Datos 133
7.8. Test de Chi-cuadrado
El objetivo que se pretende con este tipo de tests es compararlas proporciones de dos o mas poblaciones. La tecnica utili-zada es parecida a la que se utiliza en las tablas ANOVA perocon variables cualitativas. Los test que habitualmente se rea-lizan son los de bondad del ajuste y de independencia.
Supongamos que realizamos un experimento tal que sus re-sultados se pueden clasificar en k categorıas o celulas, y quelo repetimos n veces. Ademas supondremos que las probabi-lidades o proporciones de los diferentes resultados son
p1, p2, · · · , pk, p1 + p2 + · · · + pk = 1,
y que en el total de las n repeticiones las frecuencias obser-vadas de cada uno de estos resultados ha sido:
O1, O2, · · · , Ok, O1 + O2 + · · · + Ok = n.
Entonces un Test de bondad de ajuste consiste en :
1. H0 : π1 = p10, π2 = p20, · · · , πk = pk0.
2. Ha : Al menos un πi 6= pi0.
3. Nivel de significacion : α.
4. Estadıstico de contraste:
χ2 =k∑
i=1
(Oi − ei)2
ei
donde ei = npi (frecuencia esperada).
5. Regla de decision: Rechazo de H0 si χ2 > χ2α,k−1.
134 J. L. Dıaz–Barrero
Ejemplo 7.8.1 Cosiderar 300 repeticiones de un mismo expe-rimento con 5 celulas donde las frecuencias observadas son:
Categorıa 1 2 3 4 5Frecuencia 24 65 86 70 55
contrastar las hipotesis :
1. H0 : π1 = 0,1, π2 = 0,2, π3 = 0,3, π4 = 0,2, π5 = 0,2
2. H1 : Al menos un πi 6= pi0.
con un nivel de significacion del 1 %.
Solucion. Una vez hechas las hipotesis y fijado el nivel de sig-nificacion se procedera a evaluar el estadıstico de contraste:
e1 = np1 = 300(0,1) = 30, e2 = np2 = 300(0,2) = 60
e3 = np3 = 300(0,3) = 90, e4 = np4 = 300(0,2) = 60,
e5 = np5 = 300(0,2) = 60.
χ2 =5∑
i=1
(Oi − ei)2
ei
=(24 − 30)2
30+
(65 − 60)2
60
+(86 − 90)2
90+
(70 − 60)2
60+
(55 − 60)2
60
=36
30+
25
60+
16
90+
100
60+
25
60= 3,88.
El valor de χ20,01,4 = 13,27. Dado que 3,88 < 13,27, en base a
estos datos, no se puede rechazar la hipotesis nula. 2
El segundo test de chi-cuadrado trata con datos ordenadosen una tabla de contingencia y determina si dos clasifica-ciones de una poblacion cualitativa son o no independientes.Las hipotesis a contrastar son:
Analisis de Datos 135
1. H0 : Las dos clasificaciones son independientes.
2. H1 : Las dos clasificaciones son dependientes.
3. Estdıstico de contraste:
χ2 =h∑
i=1
k∑j=1
(Oij − eij)2
eij
, eij =(∑
Fi) × (∑
Cj)
n.
4. Nivel de significacion : α.
5. Regla de decision: Rechazo de H0 si χ2 > χ2α,(h−1)(k−1),
donde h es el numero de filas de la matriz de contingen-cia y k el numero de columnas.
Ejemplo 7.8.2 En un momento determinado el gobierno deuna Cominudad Autonoma tiene dos opciones en polıtica economi-ca: recortar el Gasto publico o subir los impuestos. Antes de to-mar ninguna descision se realiza un sondeo entre la poblaciondel que resulta:
Afiliacion R.G.P S.I. TotalesA 62 90 152B 103 85 188C 31 29 60
Totales 196 204 400
¿Se puede concluir al 10 % de nivel de significacion que hayrelacion entre la afiliacion polıtica y el soporte del electorado acada una de las opciones economicas?.
Solucion. Las hipotesis a contrastar son:
1. H0 : Las dos opciones son independientes.
2. H1 : Las dos opciones son dependientes.
136 J. L. Dıaz–Barrero
3. Estadıstico de contraste:
χ2 =h∑
i=1
k∑j=1
(Oij − eij)2
eij
, eij =(∑
Fi) × (∑
Cj)
n.
Afiliacion R.G.P S.I. TotalesA 62(74.48) 90(77.52) 152B 103(92.12) 85(95.88) 188C 31(29.40) 29(30.60) 60
Totales 196 204 400
χ2 =h∑
i=1
k∑j=1
(Oij − eij)2
eij
=(62 − 74,48)2
74,48
+(103 − 92,12)2
92,12+
(31 − 29,40)2
29,40+
(90 − 77,52)2
77,52
+(85 − 95,88)2
95,88+
(29 − 30,60)2
30,60= 6,79
El valor del modelo de probabilidad es χ20,1,(3−1)(2−1) = χ2
0,1,2 =4,60517. Dado que 6,79 > 4,60 hemos de rechazar H0, lo quesignifica que los datos obtenidos en este sondeo aportan evi-dencia estadıstica suficiente para creer que hay relacion en-tre la afiliacion polıtica y el soporte a la opcion economica.2
7.9. Problemas de inferencia
Problema 7.1 El gerente de una fabrica de pinturas para lasenalizacion de las carreteras ha observado que el conntenidode las bolsas medianas (33 kg.) se distribuye normalmentecon media 33,2 y desviacion estandard 0,3. Se pide:
Analisis de Datos 137
1. Hallar la probabilidad que una bolsa de pintura compra-da por un cliente contenga menos de 33 kg.
2. Probabilidad de que si compra un paquete de 6 bolsas, lamedia del contenido de estas sea inferior a 33 kg.
Solucion. El contenido de las bolsas de pintura es una v.a. Xque se distribuye normalmente con media 33,2 y desviacionesandard 0,3, i.e. X = N(33,2, 0,3).
1. En este caso la ecuacion de tipificacion es z =x − µ
σ=
33 − 33,2
0,3= −0,667 y P [x < 33] = P [z < −0,667] =
0,2514.
2. X es una v.a. normalmente distribuida con media 33,2y desviacion estandard σ/
√n = 0,2/
√6 = 0,12. Por
tanto, X = N(33,2, 0,12), z =x − 33,2
0,12= −1,667 y
P [x < 33] = P [z < −1,667] = 0,0485.
2
Problema 7.2 Sea X1, X2, . . . , Xn una muestra aleatoria deuna distribucion normal con funcion de densidad de probabili-dad
fX(x) =1
σ√
2πexp
[−
1
2
(x − µ
σ
)2].
Hallar por metodo de la maxima verosimilitud estimadores deµ y σ2. En una realizacion de la muestra con n = 10 se han ob-servado los valores: 26,3, 35,1, 23,0, 28,4, 31,6, 30,9, 25,2, 28,0,27,3, 29,2. Utilizar los resultados anteriores para obtener esti-maciones de los parametros µ y σ2.
138 J. L. Dıaz–Barrero
Solucion. En primer lugar definiremos la funcion de verosimi-litud que dependera de los parametros µ y σ2. Es decir,
L(µ, σ2; x) =n∏
k=1
1
σ√
2πexp
[−
1
2
(xk − µ
σ
)2]
=( 1
σ√
2π
)n
exp[−
1
2σ2
n∑k=1
(xk − µ)2].
A continuacion procederemos a maximizar la funcion
ln L(µ, σ2; x) = −n
2ln 2π −
n
2ln σ2 −
1
2σ2
n∑k=1
(xk − µ)2.
Para ello calcularemos sus derivadas parciales respecto a µy σ2 y resolveremos el sistema de ecuaciones
∂ ln L(µ, σ2; x)
∂µ= −
1
σ2
n∑k=1
(xk − µ) = 0
∂ ln L(µ, σ2; x)
∂σ2= −
n
2σ2+
1
2σ4
n∑k=1
(xk − µ)2 = 0.
Despejando µ de la primera ecuacion y sustituyendo en lasegunda se obtienen los estimadores
µ =1
n
n∑k=1
Xk; σ2 =1
n
n∑k=1
(Xk − X)2.
Una vez tenemos una realizacion de la muestra, una estima-cion de la media es x = 28,5 y una estimacion de la varianzaes s2 = 10,71. 2
Problema 7.3 Sea X una variable aleatoria que se distribuyesegun una N(µ, σ2) con σ conocida. Se pide:
Analisis de Datos 139
1. ¿Cual es el nivel de confianza para el intervalo(x − 2,58
σ√
n, x + 2,58
σ√
n
).
2. ¿Cual es el nivel de confianza para el intervalo x±1,645σ
√n
.
3. Calcular un intervalo para la media µ al 95 % de confian-za cuando n = 100 y x = 58,3 (Tomar σ = 3).
Solucion.
1. Si zα/2 = 2,58 esto significa que p[z > 2,58] = α/2 oeqivalentemente que p[z ≤ 2,58] = 1 − α/2. Directa-mente de las tablas de la N(0, 1) se obtiene 1 − α/2 =0,9951, α = 0,0098 y el nivel de confianza es 100(1 −α) % = 99 %.
2. Procediendo como en el caso anterior el nivel de con-fianza es 100(1 − α) % = 90 %.
3. Un intervalo de confianza para la media viene dado por
x ± zα/2
σ√
n= 58,3 ± 1,96
3√
100= 58,3 ± 0,588 o equi-
valentemente (57,71, 58,89).
2
Problema 7.4 Un test de turbidez realizado sobre 16 mues-tras de aguas arenosas en el delta de un rio arrojo los siguien-tes resultados:
26,7 25,8 24,0 24,9 26,4 25,9 24,4 21,724,1 25,9 27,3 26,9 27,3 24,8 23,6 25,0
Suponiendo que el muestreo se llevo a cabo sobre una pobla-cion normal, estimar intervalos al 90 %, 95 % y 99 % de nivelde confianza para la media de turbidez .
140 J. L. Dıaz–Barrero
Solucion. Se trata de obtener estimaciones de intervalos deconfianza para la media de una poblacion normal de varianzadesconocida a partir de una muestra de 16 observaciones.Las estimaciones las obtendremos al realizar los estimadores
`1 = X−tα/2,n−1
S√
ny `2 = X+tα/2,n−1
S√
nsobre la muestra.
Teniendo en cuenta que x = 25,29 y s = 1,47, entonces:
1. Si 1 − α = 90 %, α/2 = 0,05, tα/2,15 = 1,753 y la estima-
cion del intervalo es 25,29±1,753×1,47
4= 25,29±0,64,
i.e., (24,65, 25,93).
2. Si 1−α = 95 %, α/2 = 0,025, tα/2,15 = 2,131 y la estima-
cion del intervalo es 25,29±2,131×1,47
4= 25,29±0,78,
i.e., (24,51, 26,07).
3. Si 1−α = 99 %, α/2 = 0,005, tα/2,15 = 2,947 y la estima-
cion del intervalo es 25,29±2,947×1,47
4= 25,29±1,08,
i.e., (24,21, 26,37).
2
Problema 7.5 Una companıa que produce neumaticos paraautomoviles de turismo esta considerando la posibilidad de in-torducir una cierta modificacion en el diseno de sus productos.El gerente de la companıa considera que la inversion economi-ca que supone dicha modificacion estarıa justificada solo sise aumentase la duracion promedio de los neumaticos que ac-tualmente es de 20000 km. Se selecciona una muestra aleato-ria de 16 prototipos del neumatico modificado y se observa quela duracion promedio de los mismos es de 20758 km. Suponien-do que la vida media de los neumaticos se distribuye normal-mente con desviacion estandard 1500 km. (La del neumaticoque actualmente se fabrica), ¿sugiere este experimento que se
Analisis de Datos 141
dan las condiciones apropiadas para que el gerente autorice elcambio de diseno? (Tomar α = 0,01).)
Solucion. Se realizara un test parametrico para la media queconsta de las siguientes fases:
1. Hipotesis primaria H0 : µ = 20000.
2. Hipotesis alternativa H1 : µ > 20000.
3. Nivel de significacion y cuantil que marca la zona derechazo de la hipotesis primaria: α = 0,01, zα = z0,01 =2,33.
4. Estadıstico de contraste: z =x − µ0
σ/√
n=
20758 − 20000
1500/√
16=
2,02.
5. Como z = 2,02 < 2,33 = z0,01, en base a los datoscontenidos en esta muestra, no se puede rechazar lahipotesis primaria y por tanto se recomienda continuarla produccion tal y como se venia haciendo hasta ahora.
2
Problema 7.6 Una empresa de telefonıa movil realiza una en-cuesta entre 470 personas para determinar si la opinion de laspersonas respecto a la instalacion de una antena, depende dela distancia entre su lugar de residencia y la ubicacion de laantena. Para ello se clasifico a los encuestados en tres zonas(zona 1, zona 2, zona 3) siendo la zona 1 la mas proxima y lazona 3 la mas alejada del lugar donde se piensa instalar laantena. La informacion obtenida es
142 J. L. Dıaz–Barrero
Opinion zona 1 zona 2 zona 3 TotalA favor 40 55 60 155
En contra 85 70 50 205Indecisos 30 40 40 110
Total 155 165 150 470
1. Contrastar la independencia entre la opinion acerca de laantena y la distancia a la misma (α = 0,05).
2. Comentar la discrepancia entre las frecuencias observa-das y esperadas para la zona 1.
Solucion. 1) Las frecuencias esperadas son
Opinion zona 1 zona 2 zona 3 TotalA favor 51.12 54.51 49.47 155
En contra 67.61 71.97 65.43 205Indecisos 36.28 38.62 35.11 110
Total 155 165 150 470
Entonces χ2 = 14,448 y χ20,05,4 = 9,49. Por tanto, RH0.
(2) Para la zona 1, el rechazo es mayor que el que serıa deesperar si las caracterısticas fueran independientes. 2