1. Estadistica descriptiva (1)

7/29/2019 1. Estadistica descriptiva (1)

http://slidepdf.com/reader/full/1-estadistica-descriptiva-1 1/75

CAPITULO I

ESTADISTICA DESCRIPTIVA

1.1. LA ESTADISTICA Y LA VARIABILIDAD.

La Estadística se ocupa de la recolección y análisis de datos que corresponden afenómenos o situaciones en donde está presente la variabilidad.

La finalidad del análisis es explicar tal variabilidad.

Si con suficiente resolución, se realizan mediciones del peso de un artículo, seencontrará que éstas varían. Esta variabilidad puede deberse a diversas razones: alinstrumento de medición, a la persona que realiza las mediciones, a las condiciones enque se realiza la medición, etc. Si se eligen 10 personas al azar y se mide su estatura sepodrá observar nuevamente el fenómeno de la variabilidad y ella puede deberse: alinstrumento de medida, a factores de herencia, al tipo de alimentación, etc. Para cruzarun río no es suficiente saber que en promedio la profundidad del agua es 0.50 m; Esnecesario conocer como varía la profundidad.

La variabilidad aparece en muchos procesos. La finalidad de la

Estadística es explicarla.

A partir del conocimiento de la variabilidad se podrá realizar inferencias, predecir, ymuchas veces, controlar resultados.

El estudio de la variabilidad se realiza a partir de la Probabilidad. En el segundo y tercercapítulos se introducen los conceptos básicos de esta teoría. Se indica en estos capítulos

los modelos probabilísticos principales que servirán para representar situaciones endonde está presente la variabilidad.

En este primer capítulo se desarrollan métodos esenciales de la Estadística Descriptiva ,métodos que tienen que ver con la codificación, tabulación, representación gráfica y lasíntesis numérica de datos que presentan variabilidad. Se estudian las técnicas básicaspara organizar y presentar los datos antes de pretender cualquier interpretación. A partirde la Estadística Descriptiva, mediante gráficos y diagramas, se identifican los modelosprobabilísticos que servirán para llevar a cabo la inferencia de las características de todauna población sobre la base de los datos recolectados



2. Estad ístic a Descr iptiva . Carlos Véliz Capuñay

1.2. POBLACION. UNIDAD DE ANALISIS. VARIABLE.

Población, unidad de análisis y variable son conceptos sobre los que se basan lastécnicas estadísticas para analizar los datos. Si se estudia la opinión que tienen losperuanos respecto de una ley recién promulgada, la población será el Perú, cada una de

los pobladores es una unidad de análisis y la variable está relacionada a la opiniónacerca de la ley. Si se desea estudiar la variación de la edad de los habitantes de laregión Sur, habrá que referirse a la población formada a los habitantes de la región Sur,a las unidades de análisis (cada uno de los pobladores de la región) y a la variable edad.Si se estudia el grado de conservación de los monumentos históricos de una ciudad, lapoblación estará formada por los monumentos históricos de la ciudad, la unidad deanálisis es cada uno de los monumentos históricos y la variable es el grado deconservación. Si para esta misma población y para estas mismas unidades de análisis seestudia la antigüedad que éstos tienen, la variable es el tiempo que tiene cada uno de losmonumentos.

Lo anterior indica que una población no necesariamente estará formada por personas yque en ella pueden definirse una o más variables.

Población.

Cualquier conjunto A es una población y cada uno de sus elementos es

una unidad de análisis.

A cada unidad de análisis también se le llama unidad estadística o unidad experimental.

1.1. Ejemplo.

El conjunto formado por todos los trabajadores que laboran actualmente en la industriatextil de un país es una población. Cada trabajador es una unidad estadística o deanálisis.

El conjunto formado por todos los artículos producidos por una fábrica es una

población. Cada uno de los artículos es una unidad estadística o unidad experimental.

Cualquier subconjunto de una población se llama muestra.

1.2. Ejemplo.

Interesaba conocer si el programa de TV “0007”, que se propaga entre las 8 p.m. y las 9

p.m., tiene o no aceptación entre los televidentes del país. Para ello se propuso estimar laproporción de las personas que ven el programa entre todos los televidentes que tienenencendido su televisor en dicho horario. La estimación se realizó escogiendo sólo 165familias entre todas las que acostumbran encender su televisor en el horario indicado. Lapoblación la constituyen todas las familias del país que encienden su televisor entre las 8p.m. y las 9 p.m. Las 165 familias escogidas forman una muestra.



C ar l os Vé l i z C apuñay Es t ad í s t i ca D es cr i p t iva . 3

En Estadística interesan las poblaciones cuyos elementos tienen características comunesy que pueden traducirse en números. Esta idea tiene que ver con el concepto de variable.

Variable o carácter.

Para referirnos a una característica de los elementos de una población, por ejemplo laedad, el lugar de procedencia, el coeficiente de inteligencia de un grupo de personas, oel peso de los artículos que produce una fábrica, se usa el concepto de variable ocarácter . Una variable es susceptible de adoptar distintos valores. Así, la variable edad

definida en la población “Región Sur” puede tomar los valores: 10, 50, 65, etc., años; lavariable opinión, establecida para estudiar si los ciudadanos de una país están deacuerdo o no con una determinada ley, puede tomar el valor 1, si el poblador está deacuerdo, el valor 2, si no está de acuerdo y el valor 3, si su posición es indiferente.

El establecimiento de una variable es una de las etapas más importante de

toda tarea “estadística”. Mediante una variable el investigador cuantifica,transforma en cifras las características de una cualidad de los elementos de la población.

Para estudiar una característica de una población, se hace corresponder a cada unidad deanálisis un número real. De ahí que

se define una variable , como una función X que a cada elemento de una población le hace corresponder un número real.

A una variable, también se le llama carácter.

1.3. Ejemplo.

En la población determinada por todos los trabajadores de la industria del automóvil sepuede definir la variable X , que a cada trabajador le asigna su edad correspondiente.

En la misma población también se puede definir la variable Y , que a cada trabajador leasigna el número 0 si es soltero, el número 1 si es casado y el número 3 si es viudo odivorciado. La asociación de números en lugar de palabras que indican el estado civildel trabajador será muy útil en general, pues así se evita escribir las frases: soltero,casado, etc., ahorrando tiempo y espacio al escribir.

1.4. Ejemplo.

En la población formada por los artículos producidos en una fabrica, se puede definir lavariable que a cada artículo le hace corresponder el número de defectos que tiene.




Variables y encuestas

A menudo se realizan encuestas, a través de cuestionarios, para recoger información deuna población.Cada pregunta puede relacionarse con una variable, como en el caso siguiente:

¿Está usted de acuerdo con la ley antitabaco?.

Las respuestas pueden ser: si, no, no sabe / no contesta.

El entrevistado debe dar sólo una respuesta. Esta respuesta puede ser codificada,respectivamente, con los valores 1, 2 y 3, correspondiendo estos valores a una variableque puede llamarse “ley antitabaco”.

Otras veces, a una pregunta de un cuestionario están ligadas varias variables como en elsiguiente ejemplo.

¿Cuáles de estos medios de transporte público usa para trasladarse a su centro de laboresy con qué frecuencia?.

Esta pregunta puede ser relacionada con dos variables: una de éstas puede llamarse bus,

la cual puede tomar los valores: 1, si viaja en bus y con gran frecuencia; 2, si viaja enbus y con poca frecuencia y 3, si no viaja en bus y la otra, que puede nombrarse con taxi y que se define de manera análoga a la anterior.

Si con gran frecuencia

Si con poca frecuencia No

BusTaxi

11

22

33

Matrices de datos.

Los datos que se recogen de una población pueden escribirse en tablas formándosecuadros llamados matrices de datos.

1.5. Ejemplo.

En la siguiente tabla se presenta una serie de variables definidas en el conjunto formadopor los países: Perú, Colombia, Chile, Bolivia, Argentina, Venezuela, Brasil y Japón.

En la tabla se indican las siguientes variables : número de habitantes en 1992 en millo-nes (V 1), superficie en miles de kilómetros cuadrados (V 2), producto nacional brutopromedio por habitante (PNB) en dólares y para 1992 (V 3), tasa media de inflaciónanual en porcentaje para 1980 - 1990 (V 4), y esperanza de vida al nacer en años (V 5).

Como referencia se indica los valores de cada una de las variables para toda la poblaciónmundial.




Se han indicado algunos elementos que son esenciales para su interpretación. Estoselementos son:

- el título de la tabla: INDICADORES BASICOS

- la fuente de la cual se ha extraído la información: Banco Mundial.

- signos empleados: el símbolo < indica "menor que".

- las unidades que se usan para representar las cifras: dólares, porcentajes, etc.

INDICADORES BASICOS

País

N.Habit.

(millón)

V 1

Superficie.

(en miles de km2)

V 2

PNB

(en $)

V 3

Tasa inf.

(en %)

V 4

Esper. vida

(en años)

V 5

Perú

ColombiaChile

Bolivia

Argentina

Venezuela

Brasil

Japón

22

3213

7

32

20

150

124

1285

1139757

1099

2767

912

8512

378

1160

12601940

630

2370

2560

2680

25430

233.9

24.820.5

317.9

395.2

19.3

284.3

< 5

63

6972

60

71

70

66

79

Población

mundial

5284 133342 4200 14.7 66

Fuente: Banco Mundial. Informe sobre el desarrollo mundial 1992.

< 5 indica "menor que 5, "

En lo que sigue y cuando sea necesario, se tratará de que aparezcan los principaleselementos que describen la tabla.

1.6. Ejemplo.

En la siguiente tabla se presentan los valores de la variable X que a cada uno de losnueve países indicados le hace corresponder la "inflación" en el mes de Octubre de1993; esto es, la variación del promedio de los precios de los principales bienes conrespecto al mes anterior.

También se presentan los valores de la variable Y que a cada uno de los países queaparecen en la tabla les hace corresponder la "inflación anual acumulada" durante el año1993. (Los conceptos sobre inflación se explican más adelante).




INFLACION (Variación porcentual)

PAISES X: InflaciónOctubre 1993

Y : Inflaciónanual 1993

BrasilVenezuelaEcuadorChileUruguayPerúColombiaArgentinaBolivia

34.125.005.132.602.181.501.060.600.51

2567.4644.132.312.152.339.522.47.78.8

Fuente: INEI

1.3. ESCALAS DE MEDIDA. Tipos de escala.

La asignación de números a los elementos de una población se hace siguiendodeterminadas reglas y teniendo en cuenta los diferentes niveles de medida de la variable

en estudio. Así, a cada persona se le asigna su coeficiente de inteligencia, calculandopreviamente un número que corresponde a respuestas ante determinadas situacionestípicas. En general, cuando tal procedimiento se realiza se dice que se ha establecido unaescala de medida. El conocimiento de los diferentes tipos de escalas de medida permiteuna mejor aplicación de los métodos estadísticos, de ahí que sea importante su estudio.

La tradicional clasificación en cuatro escalas fundamentales: nominales, ordinales,intervalares y de razón o cociente, fue realizada por S.S. Stevens (1946).

Escala nominal.

Se tiene una escala nominal si a todos las unidades estadísticas equivalentes respecto dela propiedad o atributo en estudio se les hace corresponder un mismo número real, quefunciona sólo como "etiqueta". Las operaciones que se puedan realizar con los númerosasignados a las unidades estadísticas, así como el orden que entre ellos se puedanestablecer, no tienen significado en relación con el atributo que se mide. Con una escalade este tipo se consigue la agrupación de las unidades estadísticas en clases equivalentesllamadas modalidades o categorías. La escala nominal es el tipo de escala más sencillo.Con ella se logra una notación abreviada, por lo que su uso se ha incrementado con laaparición de la computadora.

1.7. Ejemplo.

Consideremos la población formada por todos los estudiantes de la universidad AA y enésta, la variable sexo. Asignemos a los de sexo masculino el número 1 y a los de sexofemenino, el número 0. Se tiene así una escala nominal con las modalidades o




categorías: "masculino" y "femenino". Los elementos que forman la población hanquedado agrupados en dos clases: los de sexo masculino y los de sexo femenino.

Es cierto que 1 es mayor que 0, pero no se puede decir lo mismo respecto de laspersonas de sexo masculino y femenino. A lo más se puede decir que la persona a la quese asignó el número 1 es diferente de la persona que se le asignó el número 0.

También se tiene una escala nominal si a los estudiantes de Ciencias se les asigna elvalor 1, a los de Derecho, el valor 2, a los de Sicología, el valor 3, etc.

Tampoco se puede decir que un estudiante de Sicología es igual a un estudiante deCiencias más un estudiante de Derecho, aún cuando 3 = 1+2.

El número de modalidades de una variable, cuyos valores corresponden a una escalanominal, depende de la información disponible. Por ejemplo, la variable "estado civil"definida en una población formada por miembros de una comunidad puede tener:

- dos modalidades: casado y soltero;

- tres modalidades: casado, soltero, viudo o divorciado;

- cuatro modalidades: casado, soltero, viudo o divorciado, no declara.

Escala ordinal.

Se tiene una escala ordinal , cuando el orden de los números asignados a las unidadesestadísticas refleja diferentes grados de la propiedad o atributo en estudio. De modo quesi la cifra asignada al elemento w es mayor que la asignada al elemento u, se puedeinferir que w posee un mayor grado que u en la propiedad que se estudia. Los númerosasignados, según la escala ordinal, sólo tienen sentido en cuanto a orden se refiere. Ladiferencia entre los números asignados no necesariamente tiene significado. Así, elordenamiento en categorías de los vendedores de una tienda, asignándoles el 1, al que

logró las ventas más altas, el 2 al que logró ventas intermedias y el 3 al que logró lasventas más bajas, no indica que la diferencia en ventas entre los vendedores de ventasbajas y los de ventas intermedias es igual a la diferencia en ventas entre los vendedoresde ventas intermedias y los de vendedores de ventas altas, aún cuando 3 - 2 = 2 - 1.

1.8. Ejemplo.

Si al considerar la población formada por los alumnos del curso de Geografía se asigna acada uno el orden de mérito, según las calificaciones que obtuvieron, se tendrá unaescala ordinal. Si a un alumno se le asignó el número 5 y a otro se le asignó el número 8,se puede decir que el primer alumno está en mejor posición que el segundo pero no

podemos decir nada respecto a la diferencia 8 - 5 = 3.




1.9. Ejemplo.

Si se considera la población formada por todos los minerales que se producen en cierta

región y a cada uno de éstos le asignamos un número, de acuerdo al "grado de dureza"que poseen, la escala asignada es ordinal.

Si al mineral a le asignamos el valor 2; al mineral b, el valor 4; al mineral c, el valor 10

y al mineral d , el valor 12; se puede decir que el mineral a es menos "duro" que elmineral b; que el mineral d es más "duro" que el mineral c; sin embargo, si al asignar lasmedidas sólo se tuvo en cuenta el orden de los valores, no se puede decir que ladiferencia del grado de dureza que existe entre a y b es igual, a la diferencia del gradode dureza que hay entre c y d . La diferencia que existe entre los números asignados nonecesariamente tiene significación en esta escala.

Escala intervalar.

Se tiene una escala intervalar, cuando los valores asignados a las unidades estadísticasno sólo permiten que éstas puedan ser ordenadas, sino que además, las diferenciasiguales entre éstos indican diferencias iguales en las cuantías de las propiedades a medir.

Como ejemplo de escalas intervalares, tenemos las escalas de Fahrenheit y de Celsius(centígrada) para medir la temperatura.

Para cada una de estas escalas, por ejemplo la de Celsius, los números más grandessignifican mayor temperatura; el orden de los números asignados tiene significado, pero

también tienen significado expresiones como “la temperatura de hoy es 50

C más altaque la de ayer”. La diferencia entre las temperaturas tiene sentido.

PROPIEDAD.

Una propiedad importante de este tipo de escalas indica que si para medir el mismo

atributo en tres elementos w w w1 2 3, , se usan, respectivamente, los números x x x

1 2 3, ,

en la escala intervalar E1 y los valores y y y1 2 3, , en una segunda escala intervalar E2 ,

entonces el cociente x x

x x1 31 2

−

− es igual al cociente y y

y y1 31 2

−

− .

Se conoce, por ejemplo que

Grados centígrados Grados Fahrenheit

El agua se congela aEl agua hierve aTemperatura de uncuerpo A.

0100

5

32212

41



C a r lo s V é l i z C a p u ñ a y E s ta d í s t i c a D e sc r ip t i v a . 9

Observando los valores de la escala centígrada, se tiene que la razón de diferencias,100 0

5 020

−

−= , es igual a la que se observa en los valores correspondientes de la escala

Fahrenheit,212 32

41 3220

−

−= .

En general, la propiedad anterior, referente a la igualdad de la proporcionalidad de lasdiferencias de dos escalas diferentes, de manera equivalente, puede enunciarse de lasiguiente manera:

Si x e y son dos valores asignados al mismo elemento para medir la misma cualidad,según dos escalas de intervalo diferentes, entonces entre estos valores se cumple larelación lineal y a bx= +

y2

y1

y

Es ca la II

x2 x1 x

Es ca la I

y = a + bx Se observa que y y

y y

x x

x x

−

−=

−

−

2

2 1

2

2 1

Figura 1.1

Así por ejemplo, entre los valores x, en grados centígrados, y los valores y, en gradosFahrenheit, se cumple:

y x= +32 9 5( / ) .

En estas escalas, el 0 no indica ausencia de temperatura, no tiene significado. Así, bajociertas condiciones, el agua se congela a 0

0C y a los 32

0Fahrenheit.

La elección arbitraria del origen asignado en las escalas indicadas, tampoco permitedecir, por ejemplo, que “300 es dos veces más caliente que 150.

1.10. Ejemplo.

Al asignarle a cada individuo de una población su edad, estamos considerando unaescala intervalar. Si José, Tito, María y Juan tienen las edades: 2, 4, 10 y 12,respectivamente, se podrá decir que José es menor que Tito, etc., pero además se podráindicar que la diferencia entre el tiempo vivido entre José y Tito es igual a la que existeentre el tiempo vivido por María y Juan. Podemos decir que “la distancia entre José yTito es igual a la que existe entre María y Juan”.

1.11. Ejemplo.

La estatura de una persona corresponde a una escala intervalar.



10. Est adí sti ca Descr ipt iva. Carlos Véliz Capuñay

Muchas veces, en el estudio del comportamiento humano se realizan diversasmediciones que no corresponden exactamente a escalas intervalares; sin embargo, suelenusarse como si lo fueran. Tal es el caso, por ejemplo, de mediciones de la inteligencia,del rendimiento de una persona en Matemáticas, etc. Esto permite aplicar una serie demétodos de la Estadística que se aplican para escalas intervalares.

Se puede decir que la escala intervalar es una escala cuantitativa y con ella puedenaplicarse muchos de los procedimientos estadísticos conocidos.

Nótese que si para los valores 100 y 5 en la escala centígrada se realiza el cociente100/5, el resultado es diferente al que se obtiene al realizar el cociente entre los valores

correspondientes en la escala Farenheit, 212 y 41. En general, la razón entre los valorespara las dos escalas de temperatura no es constante. Sin embargo, esta propiedad secumple para las escalas de razón, que a continuación se estudian.

Escala de razón.

La escala de razón o cociente, es una escala intervalar en donde los cocientes o razonesde los números asignados reflejan los cocientes o razones en las cuantías de las

propiedades que se miden. Para este tipo de escalas, además del cociente entre losnúmeros asignados, tienen sentido el orden y las diferencias que entre ellos se puedanestablecer. Es decir toda escala de razón es intervalar y ordinal.

Así, una persona que gana $1200 tiene mayor “poder adquisitivo” que otra que gana$400. El orden en esta escala tiene sentido. También se puede indicar la cantidad quegana más el primero que el segundo. La diferencia entre los números asignados tienesentido. Además los cocientes de los valores indicados tienen significación; tienesentido, por ejemplo, la expresión “el primero gana tres veces más que el segundo”.

PROPIEDAD.Si x e y son dos valores asignados a un mismo elemento para medir la misma cualidad,

según dos escalas de razón diferentes, entonces entre estos valores se cumple larelación y = bx.

y1

y

Es ca la II

x1 x

Es ca la I

y = bx .Se observa que

y

x

y

x

1

1=

Figura 1.2



C a r lo s V é l i z C a p u ñ a y E s ta d í s t i c a D e sc r ip t i v a . 1 1

Según esta relación, el 0 tiene el mismo significado para cualquier escala de razón.Indica ausencia de la propiedad en estudio.

Si el salario de una persona se expresa en dólares ( x) o en soles ( y), entonces se cumplela relación y = 2.5 x, si se supone que un dólar equivale a 2.5 soles . La constante 2.5

corresponde a lo que se denomina tipo de cambio.

El cociente entre los salarios de dos personas expresados en dólares es igual al cocientede los mismos expresados en soles. Si dos personas ganan 200 y 300 dólares,respectivamente, entonces la razón entre los salarios, 300/200, es igual a la razón entrelos salarios expresados en soles, 750/500.

1.4. CLASIFICACION DE LAS VARIABLES.

De acuerdo a la escala usada, las variables pueden ser: cualitativas o categóricas y

cuantitativas.

Variables cualitativas o categóricas.

Si para un variable, la asignación de valores sólo tiene sentido cuando se usa una escalanominal u ordinal, ésta se llama variable cualitativa o categórica; así por ejemplo, el“lugar de procedencia” de un conjunto de personas, "el color" de los autos producidospor una fábrica, corresponden a variables cualitativas.

Variables cuantitativas.

Una variable se llama cuantitativa o también estadística si tiene sentido para las escalasintervalar o de razón. Por ejemplo, la variable que a cada persona le hace correspondersu salario es una variable cuantitativa.

La variable que a cada uno de los aparatos electrónicos producidos por una fábrica leasigna su tiempo de vida es una variable cuantitativa.

De acuerdo al conjunto de valores de la variable, éstas se clasifican en: discretas y

continuas.

Variables discretas

Una variable es discreta, si el conjunto de valores que puede tomar es finito o infinitoenumerable. (Un conjunto es "infinito enumerable" si sus elementos se pueden contar).

1.12. Ejemplo.

La variable X , definida en la población formada por los trabajadores de la industriaautomotriz y que indica "el número de hijos, es una variable discreta. Los valores quepuede tomar esta variable sólo pueden ser los del conjunto discreto {0, 1, 2, 3, 4, ... , n}.




Una variable discreta cuyo conjunto de valores está formado por dos elementos, se llama binaria o dicotómica.

Variables continuas.

Una variable es continua, si sus valores pueden ser cualesquiera de los elementos de unintervalo o de la reunión de intervalos.

1.13. Ejemplo.

La variable que indica el tiempo de vida de los aparatos electrónicos es una variablecontinua, la variable que indica la estatura de cada habitante de un país es una variablecontinua. Los valores que pueden tomar estas variables son no negativos. Para efectos demejor estudio de estas variables, se considera que el intervalo en donde pueden variarlos valores es [ , [0 +∞ .

Muchas variables estadísticas que teóricamente son continuas, en la práctica se expresancomo variables discretas. Por ejemplo, la estatura de una persona es una variablecuantitativa continua pero por la limitación de los instrumentos de medición tal vezpodamos expresarla, a lo más, en centésimas de milímetro.

Por otro lado, una variable cuantitativa discreta o continua, en la práctica, tambiénpuede ser considerada como una variable cualitativa. Por ejemplo, si la edad de unapersona se clasifica en: menos de 20 años, entre 20 y menos de 60 años y más de 60años, se tendrá que esta variable puede tratarse como cualitativa con las modalidadescorrespondientes a: “joven”, “adulto” y “anciano”, respectivamente.

Las variables, de acuerdo al papel que cumplen en una investigación, pueden clasificarseen independientes, dependientes y de control.

Variables independientes.

Una variable es independiente, (con relación a otra u otras) si sus valores influyen enotra u otras variables.

Variables dependientes.

Una variable es dependiente si sus valores dependen de los valores que tiene unavariable independiente.

Las variables independientes y dependientes también se llaman explicativas yexplicadas, respectivamente.

Así, para ver como influye una droga A en el tratamiento de una enfermedad, elinvestigador aplica diferentes dosis al enfermo para observar si éste mejora o no. Lavariable cuyos valores son las distintas dosis de droga suministrada es una variable




independiente, mientras que la variable que indica el grado de mejoría del enfermo esuna variable dependiente. En este caso, los valores de la variable independiente puedenser manejados por el experimentador; otras veces esto no es posible, pues los valores dela variable independiente son intrínsecas al individuo al cual se aplica. Así sucedecuando se considera la variable independiente “años de estudio” y la variabledependiente “sueldo”.

Variables de control.

Las variables de control ayudan a comprender la relación entre una variableindependiente y una dependiente.

Algunas veces se puede observar que los valores de una variable aumentan (disminuyen)cuando los valores de otra también aumentan (disminuyen); sin embargo, no essuficiente para indicar que la característica que mide una es la causa de la característicaque mide la otra variable. En una encuesta se determinó que la altura de una persona ysus ingresos estaban relacionados: la gente más alta ganaba más; sin embargo, esto nofue suficiente como para indicar que la relación era “causal”. No se necesitaba ser altopara tener mejor remuneración, pues un estudio posterior, en donde se introdujo lavariable sexo, indicó que los hombres eran más altos que las mujeres y que los sueldosde éstas, a pesar de la igualdad de condiciones de trabajo, eran más bajos que el de loshombres. De este modo se determinó que las variables estatura y sueldo estabanrelacionadas por su relación con la variable sexo. Existía tan sólo una relación espuria,de tipo práctico (relación estadística) pero no una relación de causa - efecto (relacióncausal).

Las variables de control también se usan para entender una relación causal, cuyaexistencia no se discute. Así, para explicar por qué el grado de instrucción influye en laposición política de los electores de un país, se puede usar la variable de control“ingreso”, pues se piensa que las personas con mayores estudios ganan más dinero, y elhecho de ser más o menos rico determina el comportamiento político de los electores deun país.

1.5. CLASIFICACION DE LA INFORMACION: Codificacióny tabulación.

Muchas veces los números que se asignan a los elementos de una población se obtienendirectamente, como por ejemplo cuando se recopila la edad de los pobladores de unaregión. Otras veces, la asignación de números se realiza a partir de las posiblesrespuestas que se obtienen al realizar el trabajo de observación; así por ejemplo, cuandose trata de obtener información sobre la opinión que un grupo de personas tiene acercade una determinada ley, se escribe 0, si el poblador está de acuerdo; 1, si no está de




acuerdo y 2 si no sabe o no opina. La codificación de las respuestas da lugar a categoríaso modalidades.

La codificación facilita la tabulación y el conteo y debe ser cuidadosamente realizada,pues de ella depende la obtención de una buena información. Determinadas sugerencias

se hacen para obtener una buena codificación sobre todo cuando la recogida se hacesobre la base de cuestionarios.

Si el cuestionario comprende preguntas abiertas, (preguntas cuya respuesta es libre departe de la persona que responde) éstas deben ser previamente clasificadas encategorías. Asignando de manera biunívoca un número a cada categoría se tendrá uncódigo para cada respuesta.

Por ejemplo, ante la pregunta ¿cuál cree usted que pueden ser las consecuencias de unaguerra para el país?, las respuestas pueden ser:

- Desastre económico. - No inversión de capitales.

- Retiro de capitales. - Retraso de la cultura.

- Pérdida de muchas vidas. - Emigración de la población.

- Desastre ecológico. - No sé.

- Me abstengo de contestar.

La categorización puede ser:

Para “Deterioro económico” (comprende las respuestas de tipo económico), el 1.

Para “Deterioro humano” (comprende las respuestas que tienen que ver con la vida y la

cultura), el 2.

Para “No hay respuesta” (comprende las respuestas: No sé y me abstengo de contestar),

el 3.

Para “otros” (comprende cualquier otro tipo de respuesta), el 4.

De este modo, el código que le corresponde a la respuesta “retiro de capitales” es 1; a“retraso de la cultura” le corresponde el código 2, etc.

Para formar categorías se recomienda:

• El análisis previo del objetivo de la investigación que se realiza. Así por ejemplo,si con la pregunta anterior deseamos conocer la proporción de personas que creen




que la consecuencia de la guerra tienen que ver con la economía, bastará con formarsólo las tres categorías siguientes:

1. Deterioro económico. 2. Otras consecuencias y 3. No sabe, no contesta.

• Estudios previos de la muestra de algunos cuestionarios. Estos nos darán las pautasde las posibles respuestas y por lo tanto de las categorías que debemos formar.Algunas veces se realizan “investigaciones pilotos” antes de realizar todainvestigación.

• Que las categorías contemplen todas las respuestas posibles. Existirán categoríasprincipales, para las respuestas relevantes y categorías de tipo general quecomprendan a las respuestas que no caen en las categorías principales.

• Que las categorías no se traslapen. Cada respuesta debe pertenecer a una únicacategoría.

• Que las categorías sean descritas de manera clara, tratando que sean lo másdetalladas posibles y útiles en la investigación que se realiza.

• Que las categorías de tipo general no comprendan una gran cantidad derespuestas. Se sugiere que cada categoría comprenda alrededor del 5% de todas laspreguntas.

Cuando las preguntas son “cerradas”; esto es, cuando las respuestas posibles sonespecificadas de antemano, cada categoría se identifica con cada una de las respuestasposibles.

Así por ejemplo, si la pregunta es ¿cuál es su región de procedencia? y las posiblesrespuestas son: 1. Costa, 2. Sierra y 3. Selva, se tendrán los siguientes códigos y

categorías:

Código Categoría

1 Costa

2 Sierra

3 Selva

Como se ha indicado, las categorías que deben tomarse dependen de la investigación

que se desee realizar. Por ejemplo, ante la pregunta ¿cuál es su edad en años?, se puedeusar tantas categorías como posibles respuestas existan o usar como categorías lassiguientes:




Código Categoría

1 de 0 a 13 años

2 de 14 a 18 años

3 de 19 a más años

Esta codificación no será útil si, por ejemplo, el objetivo es determinar la edad promediode los habitantes; sin embargo, ésta si será de utilidad si el deseo es, por ejemplo,analizar la relación que exista entre la edad y otra variable cualitativa.

1.6. PRESENTACION DE LA INFORMACION

Tablas de distribución de frecuencias.

Algunas veces la información requerida puede obtenerse directamente de los datos sinhaber sido previamente tratados; muchas veces; sin embargo, es necesario agrupar losdatos y presentarlos en tablas y diagramas sencillos. Precisamente, las tablas de

distribución de frecuencias son cuadros que indican la distribución de un conjunto dedatos en clases o categorías, y en donde se muestra el número de elementos y laproporción que en cada una de ellas existe. Una tabla de frecuencias describe la maneracomo están distribuidos o como varían los valores de una variable, permitiendo unabuena ayuda para formularse interrogantes acerca de los datos y un punto de partida enla búsqueda de un modelo teórico para analizar tal distribución.

Los "paquetes computacionales estadísticos" disponibles en la actualidad soninnumerables y muchos de ellos, aparte de realizar una serie de análisis, tienenexcelentes presentaciones de gráficas y cuadros. Entre los paquetes estadísticos están: elSPSS, el STATGRAPHICS, el SAS, el BMDP, el STATPAC, el SYSTAT, etc.También existen otros tipos de "software", tales como el QUATRO, el EXCEL, etc., quesin ser de tipo estadístico, permiten la construcción de tablas y gráficos de frecuencias.

En secciones anteriores se utilizaron algunas tablas de distribución de frecuencia. En loque sigue se presentan de manera sistemática otros ejemplos.

Caso cualitativo.

1.14. Ejemplo.

Se considera la población formada por 50 personas y en ésta, la variable cualitativasexo. Si existen 30 varones y 20 mujeres, se puede escribir la siguiente tabla defrecuencias.




Modalidad Frecuencia Frec. relativa Frec. relativaen porcentaje

Varón 30 30/50 = 0.60 60

Mujer 20 20/50 = 0.40 40

Total 50 1.00 100

En la tabla, la " frecuencia" indica las veces que se repite cada modalidad. La" frecuencia relativa" de cada modalidad es igual a la frecuencia de la modalidad entre eltotal de observaciones. La frecuencia relativa puede expresarse en " porcentaje", talcomo se indica en la última columna. La frecuencia relativa es útil para hacercomparaciones entre dos poblaciones diferentes. Por ejemplo, cuando se desea compararla distribución de la variable sexo en la comunidad A y en la comunidad B.

En forma general, una tabla de frecuencias correspondiente a una variable cualitativa C con modalidades o categorías C 1, ... , C k , es de la forma siguiente y en donde

ni indica la frecuencia o las veces que se repite la modalidad C i ,

T es el total de datos y

f i = ni / T es la frecuencia relativa de tal modalidad.

DISTRIBUCION DE FRECUENCIAS DE ACUERDO A LA VARIABLE C .

Modalidad dela variable

ni f i = ni / T (ni / T )100%

C 1 n1 n1 / T (n1 / T )100

... ... ... ...

C i ni ni / T (ni / T )100

... ... ... ...

C k nk nk / T (nk / T )100

Total T 1 100

Las frecuencias relativas pueden expresarse en porcentajes y el orden elegido para lasmodalidades es arbitrario.

1.15. Ejemplo.

En una entidad estatal existen 18 abogados, 32 ingenieros, 45 topógrafos, 20 obreros y15 secretarias. La distribución de los empleados de acuerdo a la variable "ocupación"aparece en la siguiente tabla, en donde 1 corresponde a “abogado”, 2, corresponde a“ingeniero”, etc.




Las frecuencias que se indican en las columnas de la tabla pueden representarse con barras rectangulares o mediante sectores circulares.

Ocupación. ni ni / T (ni / T )100

(1): Abogados

(2): Ingenieros(3): Topógrafos(4): Obreros(5): Secretarias

18

32452015

0.1385

0.24610.34620.15380.1154

13.85

24.6134.6215.3811.54

TOTAL T = 130 1.0000 100.00

Se representa por ejemplo, las frecuencias ni utilizando barras rectangulares (figura 1.3.a) y luego mediante sectores circulares (figura 1.3. b).

En el gráfico de barras, cada barra rectangular corresponde a una modalidad, tiene baseconstante y su altura puede ser medida en unidades de frecuencia o de frecuenciarelativa. En la gráfica, para la modalidad "abogado" se tiene una barra vertical de alturaigual a 18.

En los " sectores circulares", cada sector corresponde a una modalidad y sucorrespondiente ángulo en el centro es θi = 360oni / T , en donde n

ies la frecuencia en la

modalidad. A la modalidad "abogado", por ejemplo, le corresponde un sector circularcuyo ángulo en el centro es igual a (360)(18)/130 = 49.84o.

0

10

20

30

40

50

ABOG INGE TOPO OBRE SECR

ABOG

INGE

TOPO

OBRE SECR

(a) (b)

Figura 1.3

1.16. Ejemplo.

En la industria, para mejorar la calidad de un proceso, lo primero que generalmente sehace es reunir datos sobre la frecuencia de cada tipo de fallas. Así por ejemplo, en lafabricación de cierto tipo de piezas metálicas se detectaron las siguientes causas defallas.




Causas de fallas Frecuencias

Herramienta gastada 12

Errores de operación 7Mal diseño 3Mala calidad del material 5.

La representación gráfica se hace mediante un diagrama de barras como el que sigue.

12

7

3

5

1 2 43

1: Herram. gastada

2: Errores operacio.3: Mal diseño4: Mala calidad

Figura 1.4. Diagrama de fallas.

Caso cuantitativo discreto.

1.17. Ejemplo.

En una población formada por 100 lotes de 50 artículos cada uno, se consideró lavariable cuantitativa discreta X = "número de artículos defectuosos en cada lote". Losresultados fueron:

1 5 4 2 3 4 5 3 5 4 2 4 5 6 4 5 2 5 3 2 4 6 3 4 5 1 6 3 2 5 4 3 6 3 5 7 2 5 4 2 7 4 6 5 2 8 3

3 6 4 2 4 3 4 8 1 5 3 7 3 7 2 4 1 3 5 3 8 4 6 5 4 5 4 5 4 5 2 6 3 4 3 5 2 3 4 3 1 4 5 4 4 7 46 2 6 2 4 5.

La información puede organizarse como en la siguiente tabla

DISTRIBUCION DE 100 LOTES DE ACUERDOAL NUMERO DE ARTICULOS DEFECTUOSOS.

xi Computo ni f i=ni /T N i F i

12345

678

|||||||||| ||||| ||||||||| ||||| ||||| |||||||| ||||| ||||| ||||| |||||||||| ||||| ||||| |||||

||||| |||||||||||||

514182520

1053

0.050.140.180.250.20

0.100.050.03

519376282

9297

100

0.050.190.370.620.820.920.971.00

Total T = 100 1




en donde,

xi , corresponde a los distintos valores que puede tomar la variable,

ni , indica la frecuencia con que se repite xi (ej. la frecuencia para 3 es 18),

f i = ni / T , es la frecuencia relativa respecto del número total, T, de los datos. (ej. lafrecuencia relativa para 3 es 0.18). Se presenta también en porcentajes (multiplicandocada valor por 100),

N i , es la frecuencia acumulada. Es igual a la suma de las frecuencias de los valoresque son menores o iguales a xi, (ej. la frecuencia acumulada para 3 es 5 + 14 + 18 =37),

F i , es la frecuencia acumulada relativa. Es igual a la suma de las frecuenciasrelativas de los valores que son menores o iguales a xi (ej. la frecuencia acumulada

relativa para 3 es 0.05 + 0.14 + 0.18 = 0.37).

En la tabla se ha incluido una columna de "cómputo". Las marcas facilitan el conteo.

En la tabla se observa que los datos varían entre 1 y 8 y que la mayoría de los valoresestán entre 3 y 5.

La representación gráfica de las frecuencias relativas f i, , por ejemplo, puede hacerse enun sistema de ejes coordenados cartesianos (figura 1.5), colocando en el eje de las X losdistintos valores xi de la variable y en el eje de las Y , las frecuencias relativas.

Se obtienen así gráficos llamados de bastones. Para el ejemplo anterior la frecuenciarelativa tiene la siguiente representación. Uniendo los puntos superiores de los“bastones” se tiene el polígono de frecuencias (en este caso relativas).

81 2 3 4 5 6 70

0.25

X

-

f

i

Figura 1.5. Gráfico de bastones.

Cada una de las siguientes figuras puede usarse para representar a la frecuencia

acumulada relativa, F i.




1

X

F i

81 2 3 4 5 6 7

0.62

0.92

0.05

1

X

F i

81 2 3 4 5 6 7

0.62

0.92

0.05

Figura 1.6 Gráficas de la frecuencia acumulada relativa

Los gráficos indican el punto de partida en la búsqueda del “mejor” modeloque servirá al estadístico para estudiar la variabilidad de los resultados.

Caso cuantitativo continuo.

Para organizar datos de variables estadísticas continuas se procede como en el siguienteejemplo.

1.18. Ejemplo.

Se desea estudiar la distribución de 36 niños de acuerdo a su peso en kilos. Los datos

fueron como sigue:

34.51 40.00 31.60 35.40 30.00 32.91 33.29 33.15 35.61 33.00 36.20 37.1035.47 33.20 35.93 36.57 38.24 34.55 36.23 36.88 30.16 36.00 36.80 37.8536.96 31.54 31.57 33.80 34.50 34.60 33.98 34.90 34.00 36.70 38.20 38.10

La variable en estudio es X = peso. Esta variable es continua.

Si se sigue un procedimiento como el que se usó en el caso discreto, podría tenerse unatabla de hasta 36 líneas (una línea por cada valor diferente de la variable). Esto no esconveniente, por lo que se desarrolla el siguiente procedimiento.

Los valores indicados se encuentran comprendidos entre 30 y 40 y pueden serclasificados en "clases". Estas se obtienen dividiendo el intervalo I = [30, 40] en

subintervalos de longitud igual, para simplificar.

Si se acuerda dividir el intervalo I en k = 8 subintervalos de igual longitud, se tendrá quecada subintervalo obtenido mide

h = x x

k max min−

=−

=40 30

81.25.

en donde: xmax = dato mayor , xmin = dato menor y k = número de subintervalos.

Al valor xmax - xmin se le llama recorrido o rango de la variable.



22. Esta dísti ca Descrip tiva. Carlos Véliz Capuñay

Los subintervalos pueden ser de longitudes diferentes, para mayor facilidad se usan delongitudes iguales.

Los subintervalos obtenidos se toman, por convención, cerrados por la izquierda yabiertos por la derecha, a excepción del último, que es cerrado en ambos extremos. Losintervalos que así se forman se llaman intervalos de clase.

I 1 = [30.00, 31.25[ I 2 = [31.25, 32.50[

I 3 = [32.50, 33.75[ I 4 = [33.75, 35.00[

I 5 = [35.00, 36.25[ I 6 = [36.25, 37.50[

I 7 = [37.50, 38.75[ I 8 = [38.75, 40.00]

30 4031.25 38.7532.50 33.75 35.00 36.25 37.50

Figura 1.7

NOTA.Si la longitud de cada intervalo de clase no es exacta, se aproximará por exceso; de estemodo la reunión de los intervalos de clase cubrirá a todos los datos considerados. Losdatos ahora pueden presentarse como en la siguiente tabla.

DISTRIBUCION DE LOS 100 VALORES DELA VARIABLE PESO.

Intervalos xi ni f i N i F i

I 1 30.6250 2 0.0555 2 0.0555

I 2 31.8750 3 0.0833 5 0.1388

I 3 33.1250 5 0.1388 10 0.2776

I 4 34.3750 8 0.2222 18 0.4998

I 5 35.6250 7 0.1944 25 0.6942

I 6 36.8750 6 0.1666 31 0.8608

I 7

38.1250 4 0.1111 35 0.9719

I 8 39.3750 1 0.0277 36 1

En la tercera columna de la tabla se indica la frecuencia o número de datos que existenen cada intervalo de clase. Así, en el intervalo de clase I 3 hay 5 datos.

En la segunda columna aparecen las marcas de clase que son los puntos medios de cadaintervalo de clase. Se puede considerar que cada uno de estos valores es un representantede los datos que caen en el respectivo intervalo de clase. En este sentido, se puede decirque 33.1250 se repite 5 veces, el valor 34.3750 se repite 8 veces, etc. De ello se deducela importancia que tiene el escoger un número conveniente de intervalos de clase; si seeligen pocos, la longitud de cada intervalo de clase es grande y las marcas






n

n’

a c b

Figura 1.8.

En efecto, usando la semejanza de triángulos se tiene quen

b a

n

c a−=

′−

, de donde resulta

lo antes indicado.

En particular, si c es la marca de clase del intervalo, en [a, c[ hay n n' ( / )= 1 2 .

El resultado anterior se extiende para el caso de las frecuencias relativas De este modo sila frecuencia relativa en [a, b[ es f , entonces la frecuencia relativa en [a, c[ es f' = [(c - a)/(b - a)] f .

1.19. Ejemplo.

La distribución de frecuencias de 80 alumnos, de acuerdo a sus notas de Historia es

ni f i N i F i

[10, 12[ 12 0.150 12 0.150

[12, 14[ 30 0.375 42 0.525

[14, 16[ 28 0.350 70 0.875

[16, 18] 10 0.125 80 1.000

Si se desea asignar el calificativo "excelente" al 5% de los estudiantes, ¿cuál es el valoraproximado de la nota A que se debe considerar como mínima para tener tal calificativo?.

Solución. En la tabla se lee que el 87.5% de estudiantes tienen nota inferior a 16. La nota A

buscada está en el intervalo [16, 18[.

El 5% de los estudiantes debe tener notas comprendidas entre los valores A y 18.

Luego,18 16

0125

18

0 05

−=

−

. .

A

Despejando, resulta que la nota a considerar, por encima de la cual existe el 5%, es A =17.2

1.20. Ejemplo.

Las notas de N estudiantes están distribuidas tal como se indica en la siguiente tabla.



C ar l os Vé l i z C apuñay Es t ad í s t i ca D es cr i p t iva . 2 5

Notas f i

[8, 11[ f 1

[11, 14[ f 2

[14, 17[ f 3

[17, 20] f 4

Calcular las frecuencias relativas si el 40% de los estudiantes tienen notas menores que12.5, el 80% tienen notas menores que 15.5 y el 85% tienen notas menores o iguales a16.

Solución.Se tiene que

f f f f

f f la proporción de datos en es f

1 2 3 4

1 2 2

1

0 5 0 4 11 12 5 0 5

+ + + =

+ =. . ( [ , . [ . )

f f f la proporción de datos en es f

f f f la proporción de datos en es f

1 2 3 3

1 2 3 3

05 080 14 155 0 5

2 3 085 14 16 2 3

+ + =

+ + =

. . ( [ , . [ . )

( / ) . ( [ , [ ( / ) )

Resolviendo las ecuaciones, se tiene: f 1 = 0.15, f 2 = 0.5, f 3 = 0.30 y f 4 = 0.05.

HISTOGRAMAS

Como en el caso discreto, las frecuencias de los conjuntos de datos que corresponden avariables continuas se representan gráficamente con la finalidad de obtener patrones queindiquen la variabilidad o distribución de los mismos. A menudo se usan curvas cuyasformas se obtienen a partir de los gráficos llamados histogramas.

Los histogramas se obtienen al yuxtaponer bandas rectangulares. Cada bandacorresponde a cada intervalo de clase I i. La base es el intervalo y la altura puede tomarse proporcional a la frecuencia que se desea representar. Así, para representar la frecuencia

relativa, f i, cada altura puede tomarse igual a f i / li, en donde l

ies la longitud del

intervalo de clase correspondiente. De este modo se tiene que la suma de las áreas de lasbandas es igual a 1 y el histograma es un histograma de frecuencias relativas.

4030 I i

polígono de

de frecuencias

i

I i

l

f i li /

Figura 1.9. Histograma correspondiente al ejemplo 1.17




OBSERVACION.A menudo se usa como altura de cada banda rectangular al lado de longitud f i, sobre todosi todos los intervalos de clase tienen la misma longitud. Cuando los intervalos de claseson de longitudes diferentes, la altura de cada banda rectangular se toma igual a f i / li.

POLIGONOS DE FRECUENCIA.

Uniendo los puntos medios de los lados superiores de cada banda rectangular del

histograma se obtiene un polígono llamado polígono de frecuencias. (Figura 1.9)

El polígono de frecuencias, como en el caso discreto, ayuda en la búsqueda de la curva omodelo teórico que mejor describe la variabilidad o distribución de los elementos de lapoblación de acuerdo a la variable en estudio. A continuación se presentan de manera"suavizada" diversas formas de polígonos de frecuencias.

El gráfico que aparece en (a) indica que el grupo de datos se acumula a la izquierda; quehay pocos datos con valores altos. Se dice que este tipo de polígono es sesgado con cola

a la derecha. De manera análoga, se puede decir que el gráfico que aparece en (b) es

sesgado con cola a la izquierda.

El gráfico que aparece en (c) corresponde a un histograma simétrico, indica que losdatos están distribuidos de manera simétrica, que éstos están acumulados en su mayoríaen la parte central mientras que a la izquierda y a la derecha del centro hay pocos. Lasdistribuciones con este tipo de gráficos son muy comunes y a menudo se llaman

“distribuciones normales”; sin embargo, para que las distribuciones tengan estecalificativo necesitan ciertas condiciones adicionales, que estudiaremos posteriormente.La gráfica (d) corresponde a una distribución bimodal ; los datos están agrupados en dossectores de la recta.

(a) (b) (c) (d )

Figura 1.10. Diversas formas de los polígonos suavizados de frecuencias.

1.21. Ejemplo.

En la siguiente tabla se presenta la distribución de 50 alumnos de un centro de educaciónsuperior de acuerdo a las calificaciones de una prueba de aptitud. El polígono defrecuencias absolutas y la curva que las suaviza aparecen a continuación. Se observa quees una gráfica asimétrica con una cola a la derecha.




DISTRIBUCION DE 50 ALUMNOS DE ACUERDO A LA VARIABLE "APTITUD"

Puntuaciones Frec. absoluta

[30, 40[

[40, 50[[50, 60[[60, 70[

[70, 80[[80, 90[[90, 100[[100, 110[[110, 120]

4

117

14

55301

Figura 1.11. Polígono de frecuencias y su "suavización".

Las frecuencias acumulada absoluta y acumulada relativa de un grupo de datos serepresentan de manera análoga a las frecuencias absoluta y relativa. En este caso lasbandas yuxtapuestas tienen altura igual al valor de la frecuencia acumuladacorrespondiente. (Figura 1.12).

La representación de un polígono de frecuencias acumuladas, por ejemplo, relativas, sehace considerando que los datos se distribuyen de manera uniforme en cada uno de losintervalos de clase, de tal modo que en cada uno de éstos la frecuencia acumulada sepuede aproximar con un segmento tal como AB en el intervalo [750, 1000[. Figura 1.13a). La poligonal que se forma con los segmentos se llama ojiva. En la figura 1.13 b). semuestra la ojiva suavizada.

Los diagramas de frecuencias acumulada son herramientas que se usan a menudo paradescubrir corrimientos en los datos. Así, para comparar la calidad del aire en Enero yJulio para un grupo de ciudades se puede graficar las frecuencias acumuladas relativasdel número de días que tuvieron un índice de contaminación mayor que un determinadovalor.

1.22. Ejemplo

La siguiente tabla corresponde a la distribución de los salarios de 25 obreros. Losvalores que aparecen en la última columna corresponden a la frecuencia acumuladarelativa.

DISTRIBUCION DE LOS SALARIOS DE 25 OBREROS.

Intervalos xi ni f i F i

[250,500[ 375 2 0.08 0.08

[500,750[ 625 4 0.16 0.24

[750,1000[ 875 6 0.24 0.48

[1000,1250[ 1125 7 0.28 0.76

[1250,1500[ 1375 3 0.12 0.88

[1500,1750] 1625 3 0.12 1.00

Los histogramas para la frecuencia relativa y acumulada relativa son los siguientes:

5

10

15

-

-

-

20-

30 120

Polígono de frecuencias

40 50 60 70 80 90 100 110




250

500

750

1000

1250

1500

1750

0.08

0.16

0.24

0.28

1 f

-

-

-

-

250

500

750

1000

1250

1500

1750

0.08

0.24

0.48

0.76

1 F

-

-

-

-

Figura 1.12. f: frecuencia relativa y F: frecuencia acumulada relativa.

La ojiva y su suavización se presentan a continuación.

250

500

750

1000

1250

1500

1750

0.08

0.24

0.48

0.76

1 F

-

-

-

-

(a)

A

B

Ojiva

1

x

x

F ( x )

(b )

F ( x )

Figura 1.13. (a) Ojiva. (b) Ojiva suavizada

1.23. Ejemplo.

Completar la siguiente tabla de distribución de frecuencias si el histogramacorrespondiente es simétrico, el 75% de los datos son mayores que 43.5 y los intervalosde clase son de igual longitud. (Se considera que n = frecuencia y N = frecuenciaacumulada).

n N

[a, b] n1

[b, c[ n1+5

[c, d [ 30

[d, e[

[e, f [

[60, h] 150

Solución.

Como la distribución es simétrica, se tiene que las frecuencias en los intervalos [ d , e[, [e, f [ y [60, h] son: 30, n

1+5 y n

1, respectivamente.




La frecuencia acumulada en el intervalo [60, h] es 150, luego,

150 = 2n1+ 2(n

1+ 5) + 2(30).

Desarrollando resulta n1

= 20. A partir de este valor se obtienen las frecuencias

respectivas de los otros intervalos: 25, etc.

Obtenidas las frecuencias para cada intervalo se encuentran las frecuencias acumuladasque faltan: 20, 45, 75, 105, 130.

Para obtener los extremos de los intervalos de clase, obsérvese que si A es la longitud decada intervalo, el extremo izquierdo del primer intervalo es 60 - 5 A. El histograma de

frecuencias acumuladas para los dos primeros intervalos de clase es como sigue.

n1 20=

n2 25=17.5

60-5 A 60-4 A 60-3 A43.5

Figura. 1.14

Hasta b se han acumulado 20 datos (menos del 25%). Hasta c se han acumulado 45 datos(más del 25%). Luego, el valor 43.5, hasta donde existe el 25% de los datos, estará en elsegundo intervalo.

Por semejanza de triángulos:435 60 4

17.5 25

. ( )− −=

A A, de donde resulta que A = 5.

Los extremos del primer intervalo son 35 y 40, del segundo, 40 y 45, etc.

1.24. Ejemplo.

La siguiente tabla resume la distribución porcentual de 500 familias en función de surenta. Como en los casos anteriores, los intervalos de clase incluyen el límite izquierdo yexcluyen el derecho, a excepción del último intervalo. El histograma se ha construido detal manera que el área de cada banda rectangular es igual a la frecuencia porcentualcorrespondiente. La suma de las áreas de todas las bandas rectangulares es igual a 100%.

La altura del rectángulo con base el intervalo [7000, 10000[, por ejemplo, es de 15%/3 =5% por cada mil dólares.




N iv e l d e in g %

[0 , 1 0 0 0 [ 1[1 0 0 0 , 2 0 0 0 [ 2[2 0 0 0 , 3 0 0 0 [ 3[3 0 0 0 , 4 0 0 0 [ 4[4 0 0 0 ,5 0 0 0 [ 5[5 0 0 0 ,6 0 0 0 [ 5[6 0 0 0 , 7 0 0 0 [ 5[7 00 0, 1 00 0 0[ 1 5[ 10 0 00 , 1 50 0 0[ 2 6[ 15 0 00 , 2 50 0 0[ 2 6[ 25 0 00 , 5 00 0 0] 9 0 5 1 0 1 5 2 5 5 0

Renta (m i l e s de dó l a re s)

% po r mi l dó l a re s

12

3

4

5

6

Figura. 1.15

Cuando la variable en estudio es discreta y posee muchos valores, se usan tambiénhistogramas. En tal caso, los intervalos de clase están centrados en los valores de lavariable.

Histogramas y control sobre una variable.

Uno de los temas a investigar que eligió un grupo de estudiantes de medicina fue el

efecto del número de hijos que tenía una mujer sobre la presión sanguínea. Parecíanatural comparar los histogramas de la presión sanguínea de grupos de mujeres condiferentes números de hijos y así se hizo. Si bien es cierto que se comparó grupos demujeres con diferentes números de hijos, se presenta a continuación esbozos de lasuavización de los polígonos de frecuencias de grupos de mujeres con 2 y 4 hijos.

Con 2 hijos

Con 4 hijos

90 mm 160 mm

Figura. 1.16

Al parecer y según el gráfico, el número de hijos influye en el aumento de presión en lasmujeres y podría concluirse que las mujeres con cuatro hijos tienen la presión más altaque las mujeres que tienen dos hijos; sin embargo, no se puede indicar que ello es unaprueba de causalidad; es decir que sea el mayor número de hijos la causa del aumento dela presión sanguínea en las mujeres, pues hay que tener en cuenta que generalmente lasmujeres con mayor número de hijos tienen mayor edad y podría suceder que sea la edadun factor cuyos efectos se confunden con el tener hijos. Para poder estudiar con claridadel efecto del número de hijos era necesario efectuar comparaciones independientes paracada grupo de edad, esto es, establecer un control sobre la variable edad y así se pudocomprobar que no existía asociación entre el número de niños que una mujer habíatenido y su presión sanguínea.




En muchas ocasiones un factor que cause confusión puede ser controlado, como seindicará más adelante mediante el empleo de las tablas de frecuencias.

Diagrama de tallo y hojas.

Los histogramas y gráficos de bastones nos muestran la manera como varían los datos.Sin embargo, éstos no permiten la identificación de los datos que se han usado para ello.El gráfico de tallo y hojas indica no sólo la manera como están distribuidos los datossino que además los muestra.

El gráfico de "tallos y hojas” se construye, básicamente, partiendo las cifras que formanal dato en dos grupos: uno con las primeras cifras para formar el tallo y el otro con lascifras restantes para formar las hojas. Así por ejemplo, si tenemos el dato 68, la cifra 6de las décimas corresponderá al tallo mientras que el 8, que es la cifra de las unidades,formará la hoja. El tallo y las hojas que se formen se dividen con una línea vertical.

Tallo Hojas

6 8

1.25. Ejemplo.

Representar, usando el diagrama de tallo y hojas, los siguientes datos correspondientes alas puntuaciones de un test de memoria.

21 22 32 36 38 42 44 44 46 46 46 48 51 52 54 55 56 64 65 70 82.

Solución. Tomando las decenas como tallos y las unidades como hojas resulta

23456

78

1 22 6 82 4 4 6 6 6 81 2 4 6 54 5

02

En el diagrama se observa que existe cierta simetría en la dispersión; y que el valor 82 esdiscordante con el resto de datos.

En el caso de datos que tienen cifras decimales, al construir el diagrama de tallo y hojas,el punto decimal se pierde, por tal razón se acostumbra indicar las unidades que los datosdel tallo representan.

1.26. Ejemplo.

En el siguiente diagrama la indicación "Unidad = 0.01" significa que, por ejemplo, 41|2representa al dato 4.12.




Unidad = 0.01 Ejemplo. 41|2 representa 4.12.

414243

444546

2 26 6 81 0 3 2 5 1

2 312

Si se indicara: "Unidad = 0.1", se tendría, por ejemplo, que 41|2 representa al dato 41.2.

1.7. EJERCICIOS.

1. Se ha indicado que el porcentaje de varones mayores de 20 años que no tienen empleo en una ciudad de 5millones de habitantes es 6 %. Los resultados fueron obtenidos a partir de un cuestionario aplicado a 2000personas de la ciudad, elegidas de entre las personas mayores de 20 años.

a) ¿Sobre qué población se ha realizado la encuesta?. ¿Cuáles son las unidades estadísticas?.b) ¿Cuál ha sido la muestra utilizada?.

Rpta. Población: conjunto formado por las personas mayores de 20 años. Unidad estadística: cadavarón mayor de 20 años. Muestra: conjunto formado por los 2000 personas mayores de 20 años.

2. El gerente de ventas de una tienda de prendas de vestir desea saber cuál será la demanda de pantalones en elpróximo mes, así como las tallas que más demanda tendrán. Si el gerente dispone de un registro del total delas ventas realizadas por la tienda durante los 10 meses anteriores y usa esta información como una muestrapara predecir las ventas del próximo mes, ¿cuál es la población?.

3. En los siguientes casos, indicar la población, las unidades estadísticas y el tipo de escala a usar si se trata

de:

a) Asignar a los distritos de la capital su código postal.b) Asignar a las personas de una ciudad, el número de teléfono que poseen.c) Asignar a cada profesor de una universidad su categoría (profesor auxiliar, profesor asociado o profesorprincipal).d) Asignar a cada par de ciudades de un país la distancia, en kilómetros, que existe entre ellas.

Rpta. a) Nominal b) nominal, c) ordinal, d) intervalar y de razón.

4. El censo de alumnos de una universidad considera las siguientes variables: Facultad, año de ingreso,

nacionalidad, tiempo de residencia en el país, número de semestres que lleva en la universidad, grado en laescala de pensiones, grado de instrucción del padre, número de hermanos, ingreso mensual familiarpromedio. Clasifique las variables e indique el tipo de escala en que están medidas.

5. Un profesor propone a sus alumnos del curso de Aritmética, una prueba de 10 ejercicios de cálculo de

sumas. Si alguno de los ejercicios presenta, al resolverlo, algún error de cálculo, el profesor califica laprueba con 0, de otro modo la califica con 1. ¿Qué tipo de escala empleó?.

Rpta. Ordinal.

6. Si el profesor del ejercicio anterior cuenta los ejercicios correctos y considera que tal número corresponde ala “habilidad de cálculo”, ¿qué tipo de escala ha empleado?.

7. A los elementos w, y y z de una población se les asignó los números 8, 16 y 30 respectivamente, para medir

cierto atributo. Si en lugar del número asignado a w se le asignara el 20 y el número 40 a y, ¿qué número sele puede asignar a z si las escalas usadas son:




a) nominales?. b) ordinales?. c) intervalares?.Rpta. a) Cualquier número diferente de 20 y 40, b) Cualquier número mayor que 40, c) 75.

8. Ciento setenta y cinco médicos fueron clasificados de acuerdo a su especialidad. Los resultados fueron lossiguientes: de Medicina General: 25, de Pediatría: 50, de Medicina Interna: 80, de otras especialidades: 20.

Construir un diagrama de barras para ilustrar la distribución de los 175 médicos de acuerdo a su

especialidad.

9. En Marzo de 1995 la inversión extranjera en el Perú y de acuerdo al país de origen fue como sigue:

España 46% Países Bajos 6%EE.UU. 16% Panamá 5%Reino Unido 8% Chile 4%Otros 15%.a) Identificar la variable medida.b) Representar usando un diagrama de sectores circulares, la información anterior

10. En Marzo de 1995 la inversión extranjera en el Perú de acuerdo al sector de destino fue como sigue:

Comunicaciones 45% Finanzas 6%Minería 20% Comercio 5%Industria 12% Otros 4%Energía 8%

a) Identificar la variable medida.b) Representar, usando un gráfico de barras, la información anterior.

11. Usando un diagrama de barras, mostrar la extensión territorial de los países Perú, Chile, Ecuador,Argentina y Brasil.

12. Construir un diagrama adecuado que permita comparar la predilección de los estudiantes por las carrerasde ciencias en tres universidades si se tienen los siguientes datos:

Universidad

Alumnos deCiencias

Total dealumnos

A 150 2000

B 50 5000

C 140 3000

13. Los siguientes datos proporcionan los ingresos anuales en miles de dólares de 50 personas:

7.9 10.3 45.7 95 43.0 56.0 38.0 6.7 48.0 30.5 25.0 40.0 30.0 25.5 50.0 17.1 25.5 43.5 31.6 59.041.5 13.5 12.0 9.2 42.0 41.9 35.0 11.7 55.3 27.0 58.4 57.0 29.6 38.5 26.0 16.5 18.0 24.9 20.028.0 28.5 36.4 39.5 5.0 9.0 5.0 6.9 7.0 12.0 8.3.

a) Construir un histograma de frecuencias relativas con 6 in tervalos de clase para los ingresos anuales.b) Interpretar el histograma.c) Usar las marcas de clase construido para estimar la proporción de ingresos que están entre 12500 dólaresy 52500 dólares.d) Estimar la proporción de sueldos que están debajo de 50000.e) Estimar la proporción de sueldos que están por encima de 40000.

14. Un censo realizado a 10 jefes de familia proporcionó los datos que aparecen en la siguiente tabla, endonde




V 1 = Procedencia, V 2 = Edad, V 3 = Estado civil, V 4 = Sueldo, V 5 = Número de hijos y V 6 = Cantidad dedinero que asigna en alimentación de la familia.

a) Indicar a que tipo pertenece cada una de las variables consideradas.b) Para la variable "procedencia" construir una tabla de frecuencias y represente gráficamente ladistribución mediante una gráfico de barras y de sectores circulares.c) Como en la parte b), para la variable "estado civil".

Familia V 1 V 2 V 3 V 4 V 5 V 6

1

23456789

10

P

PLPLLLPPP

32

284538495030325249

S

CCCSVSCCV

600

700650850900

1000860550890900

1

122323203

300

400350380400380560300350400

L = Lima, P = provincias, S = soltero, C = casado, V = viudoRpta. V 1: Cualitativa, V 2: Cuantitativa, continua, V 3: Cualitativa, V 4: Cuantitativa, continua, V 5:Cuantitativa, discreta, V 6: Cuantitativa, continua.

15. El consumo de agua, en metros cúbicos, de 30 viviendas en el mes de Julio fue como sigue:

4.3 78 6.1 15.7 12.8 17.2 3.5 16.1 12.4 6.9 18.0 11 .5 13.4 6.5 14.3 8.7 13.0 9.2 12.8 3.0 4.211.2 16.2 7 4 .5 7.8 15.9 16.5 8.4 5. 9.

a) Construir una tabla de distribución de frecuencias usando 5 intervalos de clase y graficar: el histogramade frecuencias relativas, el polígono de frecuencias relativas y la ojiva.b) Indicar de manera aproximada el porcentaje de viviendas que consumieron entre 10 y 15 metros cúbicos.c) Graficar la ojiva y usando ésta, indicar de manera aproximada, el porcentaje de viviendas queconsumieron entre 12 y 15 metros cúbicos.

16. El número de periódicos que un canillita vendió durante los últimos 24 días fue como sigue:

13 21 16 30 42 5 33 26 28 45 17 28 39 32 8 34 27 33 27 26 24 28 16 21.

¿Cuál es el porcentaje de días en los que el canillita vendió más de 20 periódicos?. Usar el método de los

intervalos de clase indicado para variables continuas, para obtener una tabla de distribución de frecuencias.con cuatro intervalos de clase y responder la pregunta anterior. Comentar los resultados, con respecto a losmétodos usados.

Rpta. 75%.

17. Los salarios que una empresa ofrece a los practicantes oscilan entre $150 y $270 y se encuentran divididosen cuatro intervalos de clase de igual longitud. Si se supone que los salarios se distribuyen de manerauniforme, que el 40% de los practicantes ganan no más de $195, el 80% ganan $225 o menos y el 15%

gana más de $232.5,

a) ¿cuál es el porcentaje de practicantes en cada categoría o intervalo de clase?.b) ¿Cuánto debe aumentar la compañía a cada practicante para que el 20% de ellos supere los $240 desalario?.

18. Completar la siguiente tabla. Indicar los extremos de cada intervalo de clase.




Intervalos declase.

Marca de clase Frecuencia.relativa

Frecuenciaacumulada. relativa

A .. 0.10 ...

B 6 ... 0.25

C ... 0.55 ...

D 14 ... 0.9E ... 0.10 ...

19. En la siguiente tabla de distribución, un agente de seguros ha ordenado los datos mensualescorrespondiente a la cantidad de dólares de las pólizas de seguros que ha vendido durante los tres añosanteriores:

Venta mensual Frecuencia Venta mensual Frecuencia

[10000, 12000[

[12000, 14000[

[14000, 16000[

[16000, 18000[

2

4

7

5

[18000, 20000[

[20000, 22000[

[22000, 24000[

[24000, 26000]

6

8

2

1

a) Construir el histograma de frecuencias relativasb) Construir el polígono de frecuencias relativas.c) Indicar la ojiva correspondiente

d) Indicar las características de la distribución indicada.

20. El peso, en gramos, de 30 objetos de un mismo tipo fue como sigue.

21.3 15.8 18.4 22.7 19.6 15.8 26.4 17.3 11.2 23.9 26.8 22.7 18.0 20.5 11.0 18.5 23.0 24.6 20.116.2 08.3 21.9 12.3 22.3 13.4 17.9 12.2 13.4 15.1 19.1.Construir un diagrama de tallo y hojas para los datos indicados. Indicar las características de la distribución.

21. La siguiente figura es un histograma que muestra la distribución de la presión sanguínea de un grupo demujeres que participaron en un estudio.

4

3

2

1

0

%

1 5 01 4 01 3 01 2 01 1 01 0 0 1 6 09 0

P r e s i ó n s a n g u í n e a .

Figura. 1.17.

a) ¿En qué intervalo hay más mujeres: en [135, 140] o en [140, 150] ?.b) ¿Qué intervalo es más denso: [135, 140] o [140, 150]?.

c) ¿Cuál es el intervalo más denso de todo el histograma?.




1.8. METODOS NUMERICOS PARA DESCRIBIR DATOS.

La naturaleza de los datos permite, en muchos casos, cierto tipo de análisis a partir de losgráficos de la distribución. Sin embargo, también es necesario considerar resúmenesnuméricos que permitan tener una mejor idea de la manera como los datos están

distribuidos a lo largo de la recta. Estas características numéricas, que se estudiarán enesta sección, se llaman estadígrafos.

Los estadísticos han tratado de establecer estadígrafos que sean objetivos y fáciles decalcular. Algunas de estas medidas dependen de todas las observaciones y son muysensibles a las fluctuaciones de éstas; ótras, sin embargo, no dependen de todas lasobservaciones, siendo resistentes ante los cambios de los valores extremos.

La mayor parte de los conjuntos de datos muestran una tendencia a agruparse alrededorde un valor central. Estos valores, que de alguna manera tipifican al conjunto, se llamanmedidas de tendencia central. Entre estas medidas se tienen: la moda, la media

aritmética, la mediana, la media geométrica y la media armónica.

Además de las medidas de tendencia central están las medidas que indican la dispersión

que se produce en torno del centro de los datos. Entre estas medidas se tiene: el rango o recorrido, la varianza, la desviación estándar, el coeficiente de variación, los

intercuartiles, etc.

La manera como están distribuidos los datos de un conjunto puede resumirse en lo que

se llama la simetría y el apuntamiento de la curva que los describe.

MEDIDAS DE TENDENCIA CENTRAL.

La moda.

Para un grupo de datos, correspondientes a una variable, la moda es elvalor de la variable que más se repite.

La moda es el dato "más frecuente". Se denotará con M 0. (Figura 1.18 a).

1.27. Ejemplo.

Para el siguiente grupo de datos: 3 3 3 5 3 4 5 7 3 5 7 8 3 4 9 2 8 1, la moda es 3.

1.28. Ejemplo.

En la siguiente tabla se presenta la distribución de los valores de la variable “grado deinstrucción” correspondiente a 40 personas. En esta tabla se observa que la categoría quemás se repite corresponde al grado de instrucción secundaria, la cual se ha nombrado conel número 3. La moda es 3. La mayoría de las 40 personas tienen educación secundaria.




Grado de Instruc. Frecuencia

Analfabetos: 1

Primaria: 2

Secundaria: 3

Técnica: 4

Universit: 5

3

11

25

0

1

Un grupo de datos puede tener una moda, dos modas, etc. En tales casos la distribución

se llama, respectivamente, unimodal , bimodal , etc.

La moda se puede usar para cualquier tipo de escala.

Si los datos están agrupados en una tabla de intervalos de clase y corresponden a unavariable continua, no será posible determinar exactamente la moda; pero sí el intervalo

de mayor frecuencia; a éste se le llama intervalo modal (Figura 1.18 b).

M 0

a b

(a) Moda (b) [a, b] es el intervalo modal

Figura 1.18.

La media aritmética.

La media aritmética o simplemente media de un grupo de datos, caracteriza a los gruposde datos cuyo polígono de frecuencias presenta simetría y poca dispersión. Se define dela siguiente manera:

Si x1, ... , xn es un grupo de valores, la media aritmética o simplemente media de estos datos es el número

x x x

n n x

ni

i

n

=+ +

==

∑1

1

1...

1.29. Ejemplo.

Los siguientes datos corresponden al tiempo, en minutos, que utilizan 30 empleados enrealizar una tarea.

4.1 2.2 6.7 2.9 5.0 3.2 3.7 3.4 4.0 7.5 3.1 8.0 2.4 7.6 6.2 8.7 4.5 4.7 6.1 3.52.7 4.5 3.9 5.1 3.0 4.6 4.6 3.6 4.0 3.7.




La media es x =+ +

=41 37

3045733

. ... .. .

OBSERVACIONES.

1. Observar que la media no necesariamente es uno de los datos.

2. La media aritmética resulta afectada por valores extremos que no son representativosdel resto de los datos. Esto es una desventaja.

Si los valores x1, ... , xk se repiten, respectivamente, n1, ..., nk veces (n1 +... + nk = totalde datos), entonces,

x x n x n

n n f x

k k

k i i

i

k

=+ +

+ +=

=

∑1 1

1 1

.. .

.. .

en donde f i = ni / n, ( frecuencia relativa de xi).

A esta igualdad se le llama a menudo fórmula de la media para datos agrupados. Estaexpresión permite interpretar la media aritmética como una suma ponderada de los

diferentes datos del grupo. La ponderación de cada valor xi es f i. (Nótese que la suma delas ponderaciones es 1).

En general, dados los valores x x xk 1 2

, , ... , , la media ponderada de éstos se define

como el número

x w xi i

i

k

==∑

1

con wi

=∑ 1 ,

en donde wi es un “peso o ponderación” que indica la importancia relativa de la i-ésima

observación.

1.30. Ejemplo.

Para la confección de un artículo una compañía utiliza: 1 hora para armado y 5 horaspara acabado. El salario por hora que paga la compañía es de $5 por hora para el armadoy de $9 por el acabado. La compañía desea saber el promedio del costo de trabajo porhora para confeccionar dicho producto.

El simple promedio aritmético de los salarios pagados por trabajo es

x =+

=5 9

27




Utilizando este promedio, se tendría que el costo del trabajo realizado para confeccionaruna unidad del producto es 7(1 + 5) = 42. Lo que es incorrecto.

Como se realizan diferentes actividades para confeccionar el producto, es obvio que ellodebe tomarse en cuenta. El promedio correcto se puede determinar considerando que elcosto total por el trabajo realizado es (5x1) + (9x5) = 49 y como se invierten 6 horas detrabajo, el costo promedio de trabajo por hora es 49/6 = 8.17 aprox.

Se obtiene el mismo resultado si se considera que para confeccionar una unidad delproducto es necesario 6 horas. Un 1/6 de ese tiempo es para el armado y 5/6 para elacabado. Utilizando estas fracciones como ponderaciones se tendrá que una hora de

trabajo realizado cuesta en promedio

(1/6)5 + (5/6)9 = 8.17 aprox.

Se tiene que el costo promedio por hora para confeccionar un producto es la mediaponderada de los valores 5 y 9.

El aumento del precio de un bien puede ser “insignificante” para algunos pero “muy

importante” para otros. Si el aumento del precio del consumo de electricidad es 20%, elde la vivienda el 10% y el de la alimentación, el 3%, se tendrá que la media del aumentode los precios es 11%; sin embargo, para una persona que dedica el 1% de su sueldo aconsumo de electricidad, el 9% a vivienda y el 90% para alimentación, el promedio delaumento de los precios es 3.80%; para otra persona que dedica el 10% de su sueldo aelectricidad, el 40% a vivienda y el 50% a alimentación, el promedio es 7.5%.

Si los datos están agrupados en intervalos de clase, la media se aproxima usando lasmarcas de clase, x ' :

xn

x ni ii

k

≈ ′=

∑1

1

,

1.31. Ejemplo.

En la siguiente tabla de frecuencias aparecen los intervalos de clase, las marcas de clasey la frecuencia de un conjunto de 17 datos.

Intervalos xi ni

[5 9[ 7 2

[9 13[ 11 4

[13 17[ 15 7

[17 21[ 19 3

[21 25] 23 1

Una aproximación de la media es




x ≈+ + + +

=2 7 4 11 7 15 3 19 1 23

1714 294

( ) ( ) ( ) ( ) ( ). .

La media no tiene significación si los datos, para los cuales se calcula, han resultado deaplicar una escala nominal u ordinal.

Propiedades de la media aritmética.

a) La suma de n datos es igual a n veces su media. Esto es,

x nxii

n

=

∑ =1

b) Si a cada uno de los datos se le suma una constante k, la media de losdatos transformados es igual a la media de los datos originales más la

constante k.

En particular, si a cada uno de los valores x1 , ... , xn , se les resta la

media del grupo, la media de los nuevos valores es 0. Esto es,

( ) x x

n

ii

n

−

==

∑1

0

c) De la relación anterior se tiene que la suma de las desviaciones decada dato respecto de su media es 0. Esto es,

( ) x xii

n

− ==

∑ 01

d) Si a cada uno de los datos se les multiplica (divide) por una constante

k, la media de los datos transformados es igual a la media de los datosoriginales multiplicada (dividida) entre la constante.

e) Si el conjunto de m datos, x1, ..., xm tiene media x y el conjunto de ndatos, y1, ..., yn tiene media y , entonces el conjunto x1, ..., xm , y1, ..., yn,

tiene media

mx ny

m n

+

+.

f) La media x de los valores x1, ... , xn corresponde al valor de a quehace mínima a la expresión




( ) , x a ai

i

n

− ∀=∑ 2

1

.

Esto es, ( ) ( ) , . x x x a aii

n

ii

n

− ≤ − ∀= =∑ ∑

2

1

2

1

Nota.

Obviamente, k x x k x a ai

i

n

ii

n

( ) ( ) ,− ≤ − ∀= =∑ ∑2

1

2

1

y para cualquiera valor de la

constante k.

1.32. Ejemplo.

El promedio de los precios de los artículos que conforman “la canasta familiar” en ciertaciudad es 400 unidades monetarias. Si cada artículo de la canasta aumenta el 10% de suprecio entonces el nuevo promedio de los precios de la canasta es igual a (1.10)(400) =440.

1.33. Ejemplo.

Si el salario promedio de las 20 mujeres que trabajan en una compañía A es 200unidades monetarias y el de los 30 hombres que trabajan en la compañía B es 250unidades monetarias, se tendrá que el salario promedio de las 50 personas que trabajanen ambas compañías es

( )( ) ( )( ).

20 200 30 250

20 30230

+

+=

1.34. Ejemplo.

En un grupo de personas conformado por obreros y empleados, la edad promedio es 32años. La edad promedio de los obreros es 25 y la de los empleados, 35. ¿Cuál es elporcentaje de obreros y empleados?.

Solución. Si se denota con a al número de obreros y con b al número de empleados se tiene que

3225 35

=+

+

a b

a b.

Escribiendo A =a

a b+y B =

b

a b+, resulta: 32 = 25 A + 35 B.

Considerando que A + B = 1, se tendrá: A = 0.3 y B = 0.7. Es decir, el 30% de laspersonas que conforman el grupo son obreros y el resto son empleados.




1.35. Ejemplo

En la siguiente tabla se indica el Producto Nacional Bruto (PNB) promedio por personay la población en tres países.

País PNB ($) Población

PerúColombiaBolivia

11601260630

22 mill.32 mill.7 mill.

Fuente: Banco Mundial. 1992.

Se deduce que el PNB promedio por persona en los tres países es

PNB promedio =1160 22 1260 32 630 7

22 32 7

( ) ( ) ( )+ +

+ + = 1151.63 dólares.

1.36. Ejemplo.

El costo por unidad para producir 3000 pantalones es 12 unidades monetarias, el costopor unidad para producir 5000 camisas es 10 unidades monetarias y el costo por unidadpara producir 2000 sacos es 50 unidades monetarias. Hallar el costo promedio por

unidad de producción.

Solución.

El costo promedio de producción es

x =+ +

+ +=

12 3000 10 5000 50 2000

3000 5000 200018 6

( ) ( ) ( ). unidades monetarias.

1.37. Ejemplo.

El costo de producción de un artículo en cada una de las tres fábricas que una compañíatiene en la costa (C), en la sierra (S) y en la selva (U) es, respectivamente, 2, 2.3 y 2.5.

En C se produce el 90% de los artículos que se producen en S, mientras que en U seproduce 30% más artículos que en S.

a) Hallar el costo promedio por artículo en las tres fábricas.b) Hallar el precio promedio de venta por artículo si el estado establece que se debe

ganar el 10% por artículo.

Solución.

Si x es la producción en S, entonces en C la producción es 0.9 x y en U, 1.3 x. Laproducción total es 0.9 x + x + 1.3 x = 3.2 x.

El costo de producción es 2(0.9 x) + 2.3( x) + 2.5(1.3 x) = 7.35 x.

a) El costo promedio es 7.35 x /3.2 x = 2.2968.




b) Como el precio de venta es 1.10 × ( precio de costo), el promedio del precio de ventaes 1.10(costo promedio) = 1.10(2.2968) = 2.5265.

1.38. Ejemplo.

Tres poblados A, B y C (en ese orden), se encuentran situados a lo largo de una carreterarecta. La distancia entre A y B es 15 km, entre B y C, 22 km. Se desea construir en un

punto M de la carretera un centro de recreo de tal manera que al transportar a este centro30 personas de A, 20 de B y 40 de C, el costo total por transporte sea mínimo. Hallar elpunto M si el costo por transportar a cada persona de cada poblado es proporcional alcuadrado de la distancia recorrida.

Solución.

Asignemos las coordenadas 0; 15 y 37 a los poblados A, B y C, respectivamente.

Si la coordenada de M es a, el costo total por transportar las 90 personas es

Costo k a k a k a= − + − + −30 0 20 15 40 372 2 2( ) ( ) ( ) , en donde k es la constante de

proporcionalidad.

Según la propiedad f), el valor de a que hace mínimo al costo es la media de los valores

0 0 0 15 15 37 37

30 20 40

, , . .. , , , ... , , , ... ,

veces veces veces1 24 34 1 24 34 1 24 34

Luego la coordenada de M es a = 19.7777. El centro de recreo debe estar 4.7777 km. dela ciudad A.

La propiedad e) de la media puede extenderse de la siguiente manera: Si k conjuntos dedatos constan de n n nk 1 2, , ... , observaciones y si tienen medias x x xk 1 2, . , .. . , ,

respectivamente, entonces la media global de los k conjuntos es

xn x

n

i ii

k

ii

k =

∑

∑

=

=

1

1

La media de un conjunto de datos se calcula a partir de todos ellos, por ello es necesariotener cuidado en el momento de hacer la interpretación correspondiente, pues los datosextremos pueden influenciar fuertemente en el resultado, desvirtuando de este modo laimagen real de la media aritmética.En la siguiente tabla se indica la distribución de 11 personas de acuerdo a su sueldo.




Sueldos ( xi) Frecuencia (ni)

100

120

2000

3000

4

5

1

1

La media de los sueldos es x =+ + +

=100 4 120 5 2000 1 3000 1

11545 45

( ) ( ) ( ) ( ). ; sin embargo, 9

de las 11 personas tiene una remuneración menor o igual a 121. Los valores extremos2000 y 3000 han influido grandemente en el resultado. (Si se construye el polígono defrecuencias de la tabla anterior, podrá notarse que éste tiene un sesgo con cola a laderecha).

La observación anterior indica que si una distribución de datos tiene un sesgo (con cola ala derecha o con cola a la izquierda) es mejor utilizar otra medida de tendencia centralque sea resistente a los valores extremos, tal como la mediana, que a continuación seestudia.

La mediana.

Para un grupo de n datos ordenados, la mediana M e es el valor central,

si n es impar y es igual al promedio de los dos datos centrales, si n es par.

Para establecer el concepto de mediana se ha hecho uso del orden de los números querepresentan a los datos, luego esta medida no tiene significación si los datos se obtienenal usar una escala nominal.

Propiedades de la mediana.

a). La mediana M e es un valor que está en el centro de los datos. Estogeneralmente no ocurre con la media ni con la moda. Sin embargo,

cuando el polígono de frecuencias es simétrico, los tres valores coinciden y están en el centro de los datos.

b). La mediana M e es una medida de centralización resistente. Al variar uno de los datos que no sean los de la posición central, ésta no varía. Por

ello se usa para resumir grupos de datos en donde existen valoresexcepcionalmente grandes o pequeños y cuya forma del polígono de

frecuencias no sea simétrica.

1.39. Ejemplo.

La mediana de los datos: 3 4 5 8 12 15 17, es 8, y la mediana de: 4 5 6 7 es 5.5.




Debajo de la mediana existe aproximadamente el 50% de los datos (Figura 1.19 (a))

Suavizando la ojiva de la frecuencia acumulada relativa se ubica la mediana de un

conjunto de datos correspondientes a una variable continua. (Figura 1.19 (b)).

M

50% 50%

e

(a)

1

F 0.5

M e

(b) Figura 1.19

En el caso discreto siempre será posible determinar exactamente la mediana, ya sea quelos datos se presenten de manera enumerativa o en una tabla de frecuencias. En el casocontinuo y cuando los datos se presentan en una tabla de intervalos de clase no seráposible determinar exactamente el valor de la mediana por cuanto no se tiene la

información completa. Sin embargo, puede aproximarse como se indica a continuación.

Aproximación de la mediana para datos agrupados en una tabla deintervalos de clase.

En una tabla de frecuencias de intervalos de clase, a partir de la frecuencia acumuladarelativa se puede indicar el intervalo en donde se encuentra la mediana.

Suponiendo que la mediana M e

está en el intervalo [a b[ (hasta a la frecuencia

acumulada relativa F a es menor que 0.5 y hasta b la frecuencia acumulada relativa F b

es mayor o igual a 0.5), (Figura 1.20 a) y considerando la aproximación lineal de laparte de la gráfica de la ojiva F en el intervalo [a, b], el valor de la mediana se aproximausando la semejanza de triángulos.

En M e

el valor de la frecuencia relativa es aproximadamente igual a 0.5, haciendo uso

de la semejanza de triángulos, se tiene

M a

b a

F

F F

e a

b a

−

−≈

−

−

05.o

M a b aF

F F e

a

b a

≈ + −−

−( )

.05




a b

F a

F b

Ojiva de fr.ac.relativa

(a)

a M b

0.5

F

F b

F a

Ojiva en [a, b]

(b)

e

Figura 1.20.

en donde

a es el extremo izquierdo del intervalo que contiene la mediana,b es el extremo derecho del intervalo que contiene a la mediana,F a es el valor de la frecuencia acumulada relativa "hasta el extremo" a yF b es el valor de la frecuencia acumulada relativa "hasta el extremo" b.

1.40. Ejemplo.

A partir de la información que se encuentra en la siguiente tabla de frecuencias no esposible indicar directamente el valor de la mediana M e; sin embargo, se puede decir queésta se encuentra en el intervalo de clase [a, b[ = [14, 17[.

Interv. Clase xi ni f i F i

[5, 8[ 6.5 3 0.125 0.125

[8, 11[ 9.5 6 0.250 0.375

[11, 14[ 12.5 2 0.083 0.458

[14, 17[ 15.5 9 0.375 0.833

[17, 20[ 18.5 3 0.125 0.958

[20, 23] 21.5 1 0.041 1.000

Se tiene que

M e 14≈ + (17 - 14)0 50 0 458

0 833 0 458

. .

. .

−

−= 14.336.

Otra propiedad de la mediana

c). Se puede demostrar que para un grupo de datos x1, ... , xn, la mediana M e de éstos corresponde al valor que hace mínima la expresión

| | x ai

i

n−

=∑

1

, en donde a es un número real cualquiera.




Esto es,

| | | | x M x a a reali ei

n

ii

n

− ≤ − ∀= =

∑ ∑1 1

.

Relaciones entre la moda, la media y la mediana.

Para distribuciones simétricas unimodales, la moda, la mediana y la media coinciden.Para curvas de frecuencia que están sesgadas a la derecha o a la izquierda, la posición dela moda, de la mediana y la media se indican en la siguiente figura.

M o

x

M 0

x

Figura 1.21.

Cuando la curva de frecuencias tiene cola a la derecha, M M xe0 ≤ ≤ .

Cuando la curva de frecuencias tiene cola a la izquierda, x M M e≤ ≤ 0

La media geométrica y la media armónica.

Dados los valores positivos x1, x2, ... , xn , se llama media geométrica

de éstos, al valor G x x xn

n=1 2

... .

Se observa que lnG es la media aritmética de ln( x1), ln( x2), ... , ln( xn)

Se llama media armónica de los valores x1, ... , xn , diferentes de 0, al

valor H n

x

x

ii

n i= ≠

=∑

1 0

1

, ( ) .

OBSERVACIONES

1. La media armónica es el inverso de la media de los inversos de cada uno de losvalores.

2. Nótese que si los valores x1, ... , xk tienen frecuencias n1, ..., nk , respectivamente, (n1 + ... + nk = n), entonces




H

f x

x

iii

k i= ≠

=∑

1

10

1

en donde f i = ni / n es la frecuencia relativa de xi. A esta expresión se le llama media

armónica ponderada.

1.41. Ejemplo.

Para el conjunto de datos 7 8 8 9 10 11, la media geométrica es

G = ( )( )( )( )( )( )7 8 8 9 10 116 = 8.7328,

mientras que la media armónica es

H =+ + + + +

=6

1 7 1 8 1 8 1 9 1 10 1 1186346

/ / / / / / . .

1.42. Ejemplo.

En cierta región la producción de arroz, durante tres años consecutivos, aumentórespecto del año anterior en: 70%, 50%, 10%. ¿En qué razón promedio anual aumentó laproducción?.

Solución. Si A es la producción inicial se tendrá que después del primer año, la producción es(1.7)( A), después del segundo año, la producción es (1.5)(1.7)( A), y después del terceraño es (1.1)(1.5)(1.7)( A).

Por otro lado, si llamamos con a a la razón anual promedio, se tendrá que después delprimer año, la producción es (a + 1) A, después del segundo año, (1 + a)(1 + a) A, y

después del tercer año, (1 + a)(1 + a)(1 + a) A = ( )13

+ a A

Luego:

( )1 3+ a A = (1.1)(1.5)(1.7) A, de donde a = 0.41.

El aumento porcentual promedio es 41.00%. Se observa que 1+a es la media geométricade las cantidades 1.1, 1.5, y 1.7.

1.43. Ejemplo.

Los precios de una acción de la bolsa de valores en tres días consecutivos fueron: A,0.5 A y A, respectivamente. Luego la variación de los precios con respecto al día anteriorfue como sigue: -50% y 100%, respectivamente.




Un número adecuado para indicar la tasa de variación promedio de los precios de laacción no es la media aritmética de -50 y 100. ¿Por qué?. Procediendo como en elejemplo anterior, se tiene que si r es la tasa promedio de variación, entonces

( )( . ) ( )1 1 1 0 5 1 2+ − = + A r A .

De donde r = 0. Luego, la tasa promedio de variación es 0.

1.44. Ejemplo.

Una persona recorre la distancia de A a B con una velocidad de 30 km./h; otra personarecorre la misma distancia con una velocidad de 60 km./h. ¿Cuál es el "promedio"adecuado de las velocidades de las dos personas?.

Solución. Si la distancia de A a B es e km, entonces la primera persona utiliza e /30 horas pararecorrer la distancia de A a B y la segunda persona, e /60.

La velocidad "promedio" es 2e /[(e /30) + (e /60)] = 2/[(1/30) + (1/60)] = 40. (Es la mediaarmónica de las cantidades 30 y 60).

MEDIDAS DE DISPERSIONDos grupos diferentes de datos pueden tener iguales medidas de tendencia central; sinembargo, las características de su distribución pueden ser diferentes. Un grupo de datospuede tener mayor o menor dispersión que el otro con respecto de la medida central.Precisamente, para interpretar mejor los datos se construyen medidas de dispersión oestadígrafos de dispersión.

Las medidas de dispersión ilustran sobre la manera como varían los datos observadosalrededor de una medida de tendencia central, indican como están concentrados los datosalrededor del parámetro de centralización, permiten comparar una información con otray ayudan a verificar si determinadas medidas de tendencia central son o no significativas.Por ejemplo, cuando la dispersión es muy grande la media aritmética no tiene muchasignificación; sin embargo si la dispersión es baja, la media adquiere significación. Entre

las medidas de dispersión están: el recorrido o rango, la varianza, la desviación

estándar, el coeficiente de variación, los intercuartiles, etc.

El recorrido o rango.

Aunque de uso muy limitado, el recorrido o rango de un conjunto de datos es ladiferencia entre el dato mayor y el dato menor.

Por ejemplo, si los datos de cierta variable son: 23, 24, 24.5, 24.6, 24.7, 24.9, 25, 26,9, 27, 28, 100, elrango es, como en el caso anterior, 100 - 23 = 77.




Sin embargo, puede observarse que la forma como están distribuidos los datos no es lamisma en ambos casos. En el segundo caso, los datos están más agrupados hacia el datomenor. Esto muestra que el rango no indica la manera como están distribuidos los datos.

La varianza y la desviación estándar .

Si x1, ... , xn es un conjunto de datos con media aritmética x , la varianza

de los n datos, se denota con s '2, o con V y se define como

sn

x xii

n

' ( )2

1

21= −

=

∑ .

La varianza es el promedio de las desviaciones al cuadrado de los datos respecto de sumedia. Indica la manera como los datos están dispersos alrededor de la media.

La raíz cuadrada positiva de la varianza se llama desviación estándar. Se denota con s' .

La desviación estándar representa, aproximadamente, el promedio de las desviaciones decada uno de los datos respecto de su media aritmética. Como se notará más adelante, lamayor parte de los datos estará a una distancia de una desviación estándar de la media.Muy pocos estarán más allá de dos o tres veces la desviación estándar.

La media de 1, 3, 5 y 7 es 4 y su varianza, V =− + − + − + −

=( ) ( ) ( ) ( )1 4 3 4 5 4 7 4

45

2 2 2 2

.

La desviación estándar es 2.2360.

NOTAS.1. La varianza se expresa también como

sn

x xii

n

'2 2

1

21= −

=

∑

Esta fórmula se justifica pues,

sn

x xn

x x x xn

x xii

n

ii

n

ii

n

i

n

ii

n

' ( )2

1

2 2

1 1

2

1

2

1

21 12

1= − = − +

= −

= = = = =∑ ∑ ∑ ∑ ∑ .

2. Si x1 se repite n1 veces, ... , xk se repite nk veces; la varianza puede escribirse como




′ =

−

= −=

=

=

=

∑

∑

∑

∑

s

x x n

n

x n

n

xi i

i

k

j j

k

i ii

k

j j

k

2

2

1

1

2

1

1

2

( )

( ) ,

1.45. Ejemplo.

En la siguiente tabla de distribución de frecuencias

xi 3 5 7

ni 10 15 9

la media aritmética y la varianza son:

x = [10(3) + 15(5) + 9(7)]/[10 + 15 + 9] = 4.9412 y

s ' ( . ) ( ) ( . ) ( ) ( . ) ( ). .2

2 2 23 4 9412 10 5 4 9412 15 7 4 9412 9

10 15 92 2316=

− + − + −

+ +=

Si n datos están agrupados en k intervalos de clase y en cada intervalo hay ni

datos,

usando las marcas de clase x i' , se obtiene la siguiente aproximación de la varianza:

s

x x n

n

i ii

k

'

( )2

2

1=

′ −=∑

.

1.46. Ejemplo.

Para los datos, cuya distribución se muestra en la siguiente tabla, hallar la media y ladesviación estándar de manera aproximada.

Inter. de clase marca declase

x'i

frecuenc.ni

[2, 4[[4, 6[[6, 8[[8, 10[[10, 12]

3579

11

57

1042

Solución.

Usando las marcas de clase se tiene que

x

x n

n

i ii

k

≈ =+ + + +

+ + + +==

∑ '( ) ( ) ( ) ( ) ( )

.1 3 5 5 7 7 10 9 4 11 2

5 7 10 4 263571.




s

x x n

n

s

i ii

k

'

( ' )( . ) ( ) ... ( . ) ( )

.

' . .

2

2

12 23 6 3571 5 11 6 3571 2

2851581

2 2711

≈

−

=− + + −

=

≈

=∑

NOTA. Otra forma de medir la dispersión de los datos, es mediante la varianza muestral que se define con

( ) x x

n

ii

n−

−=∑ 2

1

1.

PROPIEDADES DE LA VARIANZA.

A partir de la definición de la varianza se pueden deducir las siguientes propiedades:

a) La varianza es un número no negativo.

b) Si todos los datos son iguales a una constante c, su varianza es igual a 0. ( En este caso la media es igual a c). No hay dispersión.

c) Si a cada uno de los datos x1, ..., xn se les suma una constante b,entonces la varianza de los datos transformados: x1 + b, ... , xn + b esigual a la varianza de los datos originales.

d) Si a cada uno de los datos x1, ... , xn se les multiplica por una constantek, entonces la varianza de los datos transformados: kx1, ... , kxn es igual ala varianza de los datos originales multiplicada por el cuadrado de la

constante. Esto es, si la varianza de los datos originales es s'2 entonces la

varianza de los datos transformados es k s2 2' .

e) Si el conjunto de m datos: x xm1

, . . . tiene media x y varianza s x'2 ,

mientras que el conjunto de n datos: y yn1

, . . . tiene media y y varianza

s y'2 , entonces el conjunto de datos x x y y

m n1 1, ... , , ... , tiene varianza

sms ns

m n

m

m n x M

n

m n y M

x y'

' '( ) ( )2

2 22 2=

+

++

+− +

+− ,

en donde M es la media del conjunto x x y ym n1 1

, ... , , ... , .




Si las medias x e y son iguales, entonces

sms ns

m n

x y'

' '2

2 2

=+

+

f) Existe una propiedad muy importante, llamada de Chebyshev, que permite la interpretación de la desviación estándar:

Para cualquier conjunto de datos con media y desviación estándar muestral x sy ' , respectivamente, la proporción de datos que caen en el

intervalo [ ' , ' ] x ks x ks− + , en donde k = 1, 2, ... , es mayor o igual a

1 12

− ( / )k .

Así, en el intervalo [ ', '] x s x s- 2 + 2 por lo menos hay el 75% de los datos,

en el intervalo [ ' , '] x s x s- 3 + 3 por lo menos hay el 89% de los datos.

1.47. Ejemplo.

Aplicando las propiedades de la varianza, el lector puede observar que, si x1, ... , xm , esun conjunto de datos cuya varianza es V

X , entonces, el conjunto de datos y

1, ..., y

m,

obtenidos al realizar la transformación y ax bi i

= + , en donde a y b son constantes,

tienen media, varianza y desviación estándar

xY = ax b+ , V a V Y X = 2 , s a sY X ' | | '= , respectivamente.

1.48. Ejemplo.

N estudiantes se matricularon, cada cual, en un número de créditos cuya media y varianzason iguales a: 19.4 y 1.84, respectivamente. Si cada estudiante pagó el costo fijo de $20,más $60 por cada crédito, ¿cuál es la media y la varianza de los pagos que realizaron losestudiantes?.

Solución.

Si el número de créditos en que se matricularon los estudiantes es: x x x N 1 2

, , ... , .

Los pagos realizados son: 20 + 60( x1), 20 + 60( x2 ),... , 20 + 60( x N ).

Aplicando las propiedades del ejemplo anterior se tiene que la media y la varianza de lospagos realizados son, respectivamente,

20 + 60(19.4) = 1184 y (60)2(1.84) = 6624.

1.49. Ejemplo.En un salón de clase estudian hombres y mujeres. El promedio general en el curso de

Estadística es 25 y la desviación estándar, 5. La media de las notas en el grupo de los




varones es 27 y la desviación estándar, 4. Si la media en el grupo de las mujeres es 22,hallar la desviación estándar en este grupo.

Solución. Denotemos con M al grupo de las mujeres, con H al grupo de los hombres, con m alnúmero de mujeres, con h al número de hombres y con t al total de personas (t = m + h).

De los datos se tiene:

x media general desv est general

x media hmbr desv est hmbr

x media muje desv est muje

G G

H H

M M

= = = =

= = = =

= = = =

25 5

27 4

22

, . .

. , . . .

. , . . ?

σ

σ

σ

Hallaremos la varianza en el grupo de las mujeres: σ M i

M M

m x x2 2 21= −∑( / ) ( ) (1)

A partir de los datos se tienen las siguientes relaciones:

2527 22

=+h m

t (2)

25 25 25

2

2

2 2

2= − =

+

−

∑ ∑ ∑ x

t

x x

t

iG

i H

i M

( ) ( ) (3)

16 27

2

2= −

∑ x

h

i H

( ) (4)

De (3) y (4), se tiene que x t hi M

2 2 225 25 16 27∑ = + − +[ ( ) ] [ ( ) ] (5)

Reemplazando en (1), resulta

σ M

t h

m

2 2650 745

22=

−

− ( ) (6)

De (2) y considerando que m + h = t, se obtiene t / m = 5/2 y h / m = 3/2. Luego,

σ M

t h

m

2 2650 74522=

−− ( ) = 650(5/2) - 745(3/2) - 484 = 23.5.

La desviación estándar de las notas en el grupo de las mujeres es 23 5. = 4.8476.

1.50. Ejemplo.

Se han registrado durante 30 días, el número de viajeros que hacen reservaciones a unaagencia de viajes pero que no las hacen efectivas:




12 18 14 12 10 10 20 9 19 15 18 16 16 16 14 18 16 18 14 19 19 15 13 1513 18 12 17 14 14.

La media del número de pasajeros que hacen reservaciones y no las hacen efectivas esigual a 15.1333 y la desviación estándar es 2.8952.

En el intervalo [9.3429, 20.9237], que tiene la media como centro y dos desviacionesestándar muestrales como radio, existe, según Chebyshev, el 75% de los datos, por lomenos.

Demostración de la propiedad de Chebyshev.

Se desea demostrar que para un conjunto de datos, x xn1 , . . . , , la proporción de datos que

existen en el intervalo [ , ] x ks x ks− ′ + ′ es por lo menos 1 - (1/ k 2).

Al conjunto de datos que están dentro del intervalo lo llamaremos con D y al conjunto delos datos que están fuera con F .

Llamando con a al número de datos en F , se tiene:

′ =

− + −

≥

−

>

′

=′∈ ∈ ∈ ∈

∑ ∑ ∑ ∑s

x x x x

n

x x

n

k s

n

ak s

n

i xi D

i xi F

i xi F xi F 2

2 2 2 2 2

2 2( ) ( ) ( )

,

de donde resulta, tomando los extremos, ′ >′

sak s

n

22 2

o12k

a

n> .

La última relación indica que la proporción de datos que están fuera del intervalo esmenor que 1/ k 2. Por tanto la proporción de datos que están dentro del intervalo es mayoro igual a 1 - 1/ k 2.

1.51. Ejemplo. N datos correspondientes a la producción diaria de gasolina de una plantatienen media 150000 galones con una desviación estándar de 1000 galones.

a) Hallar la proporción de días cuya producción de gasolina está entre 148000 y152000.

b) Si se sabe que la menor producción es 147000, calcular un intervalo quecontenga por lo menos 90% de los datos.c) ¿Con qué frecuencia se puede decir que la producción será mayor que157000 galones diarios?.




Solución.

a ) E l intervalo [148000 , 152000] co rresponde a [ , x ks x ks− ′ + ′] con x = 150000

, ′s = 1000 y k = 2.

Aplicando la propiedad de Chebyshev con k = 2, se tiene que la proporción dedías cuya producción está en el intervalo indicado es por lo menos igual 1 -

(1 / k 2) = 0.75.

b) Un intervalo que satisface lo pedido es uno de la forma [ , x ks x ks− ′ + ′] donde

k es tal que 11

0 902

− =k

. . Luego k = 10 = 3.1622 y [ , x ks x ks− ′ + ′] =

[146837.80, 153162.20].

Como la menor producción es 147000, un intervalo que satisface la condiciónes

[147000, 153162.20].

c) La distancia entre 157000 y la media de la producción expresada en

desviaciones estándar de la misma es

157000 150000

10007

−= .

Esto indica que 157000 está a 7 desviaciones estándar de la media.

Aplicando la propiedad de Chebyshev, se tiene que la proporción de días cuyoproducción está en el intervalo [150000 - 7(1000), 150000 + 7(1000)] =

[143000, 157000] es por lo menos 11

11

71 0 0204 0 9796

2 2− = − = − =

k . . .

Como la menor producción es 147000 podemos decir que la producción será

mayor que 157000, en el (1-

0.9796)100% = 2.04% de los días, a lo más.

Datos tipificados o estandarizados

Si a cada elemento de un grupo de m datos, x xm1

, . . . , se les resta su media y a este

resultado se le divide entre su desviación estándar, entonces se dice que éstos se han

estandarizado o tipificado. Las expresiones estandarizadas de los datos anteriores son:

x x

s

x x

s

m1− −

', . . . ,

'




Las expresiones estandarizadas permiten describir la posición relativa de una medidaparticular en un conjunto de datos y sirven para realizar comparaciones. Para ilustrar,supondremos que en el aula A la media de las notas de Matemáticas es 13 y ladesviación estándar es 2, mientras que en el aula B las notas de Matemáticas tienenmedia 16 y desviación estándar 1.

Si Juan, que estudia en el aula A, tiene la nota 12, y Pedro, quien estudia en el aula B,tiene la nota 14, entonces se tendrá que, dentro de cada uno de sus salones, Juan estaráen mejor posición en su salón que Pedro en el suyo, ya que la nota estandarizada de Juan(-0.5) es mayor que la nota estandarizada de Pedro (-2).

Nótese que, en virtud de las propiedades de la media y de la varianza, para cualquier conjunto de datos estandarizados su media es 0 y suvarianza es 1.

Coeficiente de variación.

El coeficiente de variación se define como

CV s

x=

'

Este coeficiente expresa la desviación estándar en “medias aritméticas”; también seindica en porcentaje y a menudo se usa para comparar la variabilidad de dos o másconjuntos de datos que están expresados en diferentes unidades. El grupo de datos que

tiene el mayor coeficiente de variación, es el que tiene la mayor dispersión. Si las mediasde los dos grupos son iguales, entonces el grupo que tenga mayor desviación estándarserá el de mayor variación o dispersión.

Así por ejemplo, para cada grupo de datos: 0, 1, 2, 3, 4, y 50, 75, 100, 125, 150, lasdesviaciones estándar son 1.4142 y 35.3553, respectivamente; sin embargo, no se puededecir que en el segundo grupo existe mayor dispersión que en el primero. Los

coeficientes de variación son: para el primer grupo, CV 1 = 0.7071 (70.71%) y para elsegundo grupo, CV 2 = 0.3535 (35.35%), indicando que en el primer grupo existe mayordispersión, que en el segundo.

El coeficiente de variación tiene sentido para la escala de razón.

1.52. Ejemplo.

Una serie de mediciones de la temperatura de un cuerpo realizadas con el termómetro A,tiene media 12.01 y desviación estándar 0.027; mientras que con otro termómetro B, lamedia de las mediciones fue 11.97 y la desviación estándar, 0.014. Suponiendo que lapersona que opera los instrumentos no introduce sesgo alguno en las mediciones, ¿cuáles el termómetro relativamente más consistente?.




Solución. El termómetro más consistente es el que tiene menor coeficiente de variación. El

coeficiente de variación del termómetro A es 0.0022 (0.22%), mientras que para eltermómetro B este coeficiente es 0.0012 (0.12%). El termómetro B es más consistente.

1.53. Ejemplo.

En una entidad estatal los sueldos de los directivos, de los empleados y de los obrerosson como aparece en la siguiente tabla.

Media Desv. Estánd.

Directivos 2000 100

Empleados 1200 100

Obreros 1100 100

En este caso no podemos decir que la dispersión de los sueldos de los directivos, de losempleados y de los obreros son iguales, aún cuando las desviaciones estándar lo son. Loscoeficientes de variación son: para los directivos, 0.0500 (5%), para los empleados,0.0833 (8.3%) y para los obreros, 0.0909 (9.09%). Ahora podemos indicar que, conrespecto a la media, la dispersión es mayor en los obreros y que la de los empleados esmayor que la de los directivos.

1.54. Ejemplo.

La media y el coeficiente de variación de los salarios de los empleados de una fábricason $200 y 0.1, respectivamente. Si a cada empleado se le aumenta el 15% de su sueldomás $20 por concepto de movilidad, ¿cómo cambia el coeficiente de variación?.

Solución.

Antes de los aumentos, la media y el coeficiente de variación son iguales,respectivamente, a 200 y 0.1. Luego, la desviación estándar antes del aumento es igual a(200)(0.1) = 20. Por las propiedades de la media y de la varianza, la media de lossueldos después de los aumentos es (1.15)(200) + 20 = 250 mientras que la varianza es(1.15)2(20)2 = 529.00 (la desviación estándar es (1.15)(20) = 23).

Después de los aumentos el coeficiente de variación es (1.15)(20)/[1.15(200) + 20] =23/250 = 0.092. La dispersión disminuyó el [(0.1 - 0.092)/(0.1)](100) = 8% con

respecto al valor anterior.

1.55. Ejemplo.

En una empresa los salarios para los hombres tiene media $500 y desviación estándar$50. Para las mujeres, que constituyen el 30% del total de trabajadores, la media de lossalarios es $490 y la desviación estándar 30. Para el próximo mes, la empresa proyectarealizar un aumento general del 15% a hombres y mujeres. Use el coeficiente de

variación para indicar si cambia o no la dispersión de los salarios. ¿Cómo cambia lavariación de los salarios si en lugar de aumentar el 15%, se aumenta $50 a cada hombrey a cada mujer?.




Solución. La media de todos los trabajadores es xT = + =0 7 500 0 3 490 497. ( ) . ( ) .

La varianza de todos los salarios es

sT

2 2 2 2 2

0 7 50 0 3 30 0 7 500 497 0 3 490 497 2041= + + − + − =. ( ) . ( ) . ( ) . ( ) .

La desviación estándar de todos los salarios es 45.1774. El coeficiente de variación es45.1774/497 = 0.0900 (= 9%)

Después de aumentar el 15%, la media es igual a (1.5)(497) = 571.55, la desviaciónestándar es (1.5)(45.1774) = 51.9540 y el coeficiente de variación es 0.0909 (= 9.09%).La dispersión de los salarios aumentó.

Después de aumentar $50, la media aumenta a 547, la desviación estándar siguesiendo igual a 45.1774 y el coeficiente de variación es 45.1774/547 = 0.0826,esto es 8.26%. La dispersión de los salarios disminuyó.

Percentiles e intercuartil para un grupo de datos.

Muchas veces se desea describir la posición de una cierto valor en un conjunto de datos,así por ejemplo, supongamos que se desea conocer si la nota 13, que un alumno haobtenido en una determinada asignatura, es "grande" o "pequeña" dentro de su grupo.Para responder esta inquietud se usan los percentiles.

Para introducir la definición de percentil, ordenemos el conjunto de datos x x xn1 2, . , ... ,

de tal manera que x( )1 sea el menor, x( )2 sea el que le sigue y así sucesivamente hasta

tener el mayor valor x n( ) . Así se tiene que x x x n( ) ( ) ( ).. .1 2≤ ≤ ≤ .

A cada número entre paréntesis se le llama rango de la observación.

Por definición,

el valor x i( ) es el percentil 100 0 5[( . ) / ]i n− del conjunto de datos.

1.56. Ejemplo.

Ordenando el siguiente conjunto de datos: 15 18 23 15 16 25 17 19 21 25 se tiene:

15 15 16 17 18 19 21 23 25 25≤ ≤ ≤ ≤ ≤ ≤ ≤ ≤ ≤ .

El valor x( )3 16= es el percentil 100(3 - 0.5)/10 = 25. Nótese que debajo de 16 existe

aproximadamente el 25% de los datos.




El valor x( )5 18= es el percentil 45. Aproximadamente, el 45% de los datos son

menores o iguales que 18.

El percentil 35 corresponde al dato cuyo rango es 4. Esto es, el percentil 35 es 17.

En efecto,35

05 100

10=

−( . )i, de donde i = + =

10 35

1000 5 4

( ). .

Luego, el percentil 35 es x( )

.4

17=

En general, de la definición se tiene que el percentil k es la observación con rango (nk/ 100) + 0.5. Cuando este valor no es entero, se toma el promedio de los datos cuyosrangos son próximos a este número.

OBSERVACIONES.

1. Aproximadamente, el k % de los datos es menor o igual que el percentil k .

2. El percentil 50 es igual a la mediana, pues para éste el rango es n(50)/100 + 0.5 =

n /2 + 0.5, valor que corresponde al dato central cuando n es impar y al promedio de losdos datos centrales cuando n es par.

3. A x i( ) se le llama también cuantil de orden (i - 0.5)/ n.

Denotaremos con C k al percentil k.

A partir de la “suavización”, y = F ( x), de la ojiva correspondiente a la frecuenciaacumulada relativa de un grupo de datos (figura 1.22 b) se observa que F (C k ) esaproximadamente igual a k/ 100.

Así, F (C 25) ≅ 25/100 = 0.25, F (C 50) ≅ 50/100 = 0.5, etc.

C 25

C 50

C 75

25% 25% 25% 25%

área área áreaárea

C

25

0.25

0.50

C 50

1

C 75

F

0.75

(a) (b)

Figura 1.22. Centiles.




A los percentiles 25, 50 y 75 se les llama primer cuartil, segundo cuartil y tercer

cuartil , respectivamente.

1.57. Ejemplo.

Si los sueldos de 15 personas son, respectivamente, 100, 300, 400, 1300, 1370, 1450,1500, 1650, 1670, 1710, 1800, 1900, 1950, 2000, 2050, se tiene que:

El percentil 25 (primer cuartil) corresponde al rango (25)(15)/100 + 0.5 = 4.25.

Como el rango no es entero, el percentil 25 es el valor

[ ] / [ ] / .( ) ( ) x x4 5 2 1300 1370 2 1335+ = + =

el percentil 75 corresponde al rango (75)(15)/100 + 0.5 = 11.75. Luego, el percentil 75es el valor

[ ] / [ ] / .( ) ( ) x x11 12 2 1800 1900 2 1850+ = + =

1.58. Ejemplo.

Los tiempos respectivos, en minutos, que 10 personas demoran en ir de A a B son:

81 77 76 86 79 79 80 89 77 78 85 76 88 78 83.

Ordenando los datos:

76 76 77 77 78 78 79 79 80 81 83 85 86 88 89≤ ≤ ≤ ≤ ≤ ≤ ≤ ≤ ≤ ≤ ≤ ≤ ≤ ≤

La mediana es el valor cuyo rango es 15/2 +0.5 = 8. Luego, la mediana es x( )8 79= .

El primer y tercer cuartil corresponden a los valores cuyos rangos son: 15/4 + 0.5 = 4.25y 15(3/4) + 0.5 = 11.75. Como los rangos no son enteros el primer y tercer cuartil seaproximan con:

[ ] / .( ) ( ) x x4 5 2 77 5+ = y [ ] / .( ) ( ) x x11 12 2 84 5+ = .

Utilizando los percentiles es posible formar intervalos cuyas longitudes suelenconsiderarse como índices de dispersión de los datos. El intervalo que más se usa es elque tiene como extremos el primer y tercer cuartil; la longitud de éste se llama rango

intercuartil .En el ejemplo, el rango intercuartil es 84.50 - 77.50 = 7.00.

Las ventajas del rango intercuartil, como medida de dispersión, son: la rapidez en sucálculo y la resistencia ante fluctuaciones de los datos extremos. Un dato extremo puedecambiar sensiblemente pero no el rango intercuartil.






C 75

90 50 7500 0 7383

0 9076 0 738390 3455≈ +

−

−=( )

. .

. .. .

El intercuartil es 90.3455 - 75.1444 = 15.2011, aproximadamente. Hay 50% de los

alumnos que tienen puntuaciones entre 75.1444 y 90.3455.

MEDIDA DE ASIMETRIA: Sesgo de Pearson.

La asimetría de los gráficos de distribuciones unimodales se mide con el sesgo de Pearson. Este índice se calcula teniendo en cuenta que en este tipo de curvas la mediaaritmética tiende a situarse, con respecto de la moda, al mismo lado de la cola más larga.(Figura 1.23).

Una medida para el sesgo se obtiene con la diferencia media - moda. Si la diferencia es

positiva, la curva tiene una cola a la derecha; si la diferencia es cero la curva essimétrica; si la diferencia es negativa la curva tiene una cola a la izquierda.

La medida obtenida depende de las unidades que en cada caso se usen, por ello para

comparar la simetría de dos o más curvas es necesario estandarizar los sesgos,obteniéndose la medida que se conoce como el sesgo de Pearson:

Media Moda

Desv est

−

. .

x M 0 M 0

x

M 0

x

Figura 1.23.

En distribuciones que no son muy asimétricas se cumple la relación empírica

Moda x x Mediana≈ − −3( ) .

Usando esta relación, el sesgo de Pearson se aproxima con




Sesgo de Pearson ≈−3( )

. .

Media Mediana

Desv estd .

Esta aproximación es más fácil de calcular y como en el caso anterior, es igual a cerocuando la curva de distribución es simétrica. Si este valor es positivo, la curva de

distribución tiene una cola a la derecha y si es negativo la curva de distribución tiene unacola a la izquierda.

La asimetría o simetría del polígono de frecuencias suele también calcularse con

A =C C C

C C

75 25 50

75 25

2+ −

−.

C C C 25 50 75

| | |

Figura 1.24.

Como C C C C C C C 75 25 50 75 50 50 252+ − = − − −( ) ( ), se puede indicar que el polígono

de frecuencias es

* simétrico, si C C C 75 25 502+ − = 0, (las longitudes de los intervalos [ , ]C C 25 50 y

[ , ]C C 50 75 deben ser iguales). Esto es, si A = 0.

* asimétrico, con cola a la derecha, si C C C 75 25 502+ − > 0. Esto es, si A > 0.

* asimétrico, con cola a la izquierda, si C C C 75 25 502+ − < 0. Esto es, si A < 0.

NOTAS. 1. A partir de un conjunto de datos cuyo polígono de frecuencias no es simétrico, sepuede lograr un nuevo conjunto de datos cuyo polígono de frecuencias si es simétrico.Para ello se eleva cada dato a una determinada potencia positiva, tal como 1/2, 1/3 o

aplicando el logaritmo. La elección de la potencia adecuada puede lograrse, en primerainstancia, por ensayo y luego, con ayuda del histograma, observar si se ha cumplido elobjetivo.

2. Otra medida de la asimetría es el coeficiente de Fisher que se define como

γ µ

13

3=

′s

en donde µ3

3

1

1= −

=∑

n x x

ii

n

( ) y ′s es la desviación estándar de x xn1

, . . . , .




El coeficiente de Fisher no tiene dimensión y es igual a 0 cuando la distribución essimétrica. Si la distribución es unimodal, el coeficiente de Fisher es positivo si ésta esasimétrica con cola a la derecha y es negativo en el caso contrario.

MEDIDA DE APUNTAMIENTO O AGUDEZA: Curtosis.

El coeficiente de curtosis de un grupo de datos, es una medida delapuntamiento o aplastamiento de su polígono de frecuencias; se define como

k C C

C C =

−

−

( . )( )0 5 75 25

90 10,

en donde C 75 es el percentil 75, etc.

Cuando el coeficiente de curtosis tiende a 0.5; esto es, si las diferencia C 75 −C 25 y C 90 − C 10 son aproximadamente iguales, la curva se llama leptocúrtica.

Si el coeficiente de curtosis tiende a 0; esto es, cuando la diferencia C 75

−C 25

es

pequeña, respecto de C 90 − C 10 , la curva se llama platicúrtica.

Si el coeficiente de curtosis es aproximadamente 0.25; esto es, si C 90 − C 10 es

aproximadamente el doble de C 75 −C 25, la curva se llama mesocúrtica.

M e s o c ú r t i c a

P l a t i c ú r t i c a

Figura 1.25.

NOTA.

Otra medida de la curtosis es el coeficiente de apuntamiento de Fisher que se definecomo

γ µ

24

43=

′−

s

en donde µ4

4

1

1= −

=∑

n x x

ii

n

( ) y ′s es la desviación estándar de x xn1

, . . . , .

Este es un coeficiente sin dimensión. La constante 3 se elige de tal manera que elcoeficiente sea nulo cuando la distribución sea mesocúrtica.

Leptocúrtica.




El coeficiente de apuntamiento de Fisher es positivo cuando la distribución esleptocúrtica y negativo cuando la distribución es platicúrtica.

GRAFICOS DE CAJAS. (“Box Plots”).

En los gráficos de cajas se representan: la mediana y los cuartiles, permitiendo tener unaidea de la dispersión de los datos.

Un gráfico de cajas es un rectángulo, como el de la siguiente figura,

L U C 25

C 75

M

| | | | |

| |

e

Figura 1.26.

en donde los lados "laterales" indican los percentiles C 25 y C 75, respectivamente. En elrectángulo se indica la mediana, con un segmento. De los lados que representan a los

percentiles 25 y 75 parten, respectivamente, un segmento hasta el valor L = C d 25

15− . ,

en donde d es el rango intercuartil y un segmento hasta el valor U = C d 75

15+ . .

De un gráfico de cajas se obtiene información acerca de:

• La centralización de los datos (con la mediana).

• La dispersión (con el rango intercuartil C 75 - C 25).

• La simetría (observando la posición de la mediana).

• La longitud de las "colas" (con los segmentos que parten de los lados laterales).

En muchos casos, observaciones inconsistentes son incluidas en un conjunto de datos.

Estas observaciones atípicas o discordantes se conocen con el nombre de " outliers" (enel idioma inglés). Un "outlier" aparece generalmente debido a las siguientes causas:

a) Por observación incorrecta, por anotación incorrecta o por introducción incorrecta deldato al computador.

b) Porque la observación es de una población diferente a la población de la cual viene elresto de las observaciones.




c) Porque la medida es correcta pero el evento es raro.

Una regla práctica indica que una observación es outlier si es menor que L o mayor queU . Las observaciones de este tipo se representan en el gráfico con *.

1.60. Ejemplo.

La siguiente figura representa un gráfico de cajas correspondiente a 58 notas de losalumnos de un curso de Historia.

28 9 12 18

*

19

0 20| |

Notas

| *|

Figura 1.27.

Se observa que el "centro" de los datos es 9 (la mediana). El percentil 25 es 8, elpercentil 75 es 12. El rango intercuartil es 4 (el 50% de las notas están entre 9 y 14). Lasnotas 19 y 20 son datos discordantes o outliers.

Los gráficos de cajas se usan para comparar la dispersión de dos o más grupos de datos,cuando éstos están expresados en la misma unidad de medida. Tal caso se presenta en lasiguiente representación, en donde se nota, por ejemplo, que el grupo B tiene un outlierque es mayor que el “outlier” que se presenta en A. En el grupo A hay mayor dispersiónque en el grupo B. El grupo B es más simétrico que el grupo A. El grupo A tiene unacola a la izquierda.

*

*

| | | | | | | |

0 20 40 60 80 100 120 140

Grupo A

Grupo B

Figura 1. 28.

1.9. CARACTERISTICAS DE CONCENTRACION: Indice deGini.

Para medir la manera como están concentrados los salarios o la riqueza, en distintosgrupos de una población se usa el índice de concentración de Gini.




Para establecer el índice de concentración de Gini, consideremos la siguiente tabla, endonde se observa la distribución de 58058 obreros de acuerdo a su salario.

En esta tabla, ni es la frecuencia en cada intervalo de clase, F i es la frecuenciaacumulada relativa. La columna indicada con S i expresa la suma total de los ni sueldosque se encuentran en el respectivo intervalo y la columna indicada con q

i

expresa laproporción de la masa total monetaria que han ganado los n1 + n2 + ... + ni primerosobreros. Esto es,

q

S

S i

i j

i

==

∑1

en donde S es el total de masa monetaria ganada por todos los obreros.

DISTRIBUCION DE 58058 OBREROS DE ACUERDO A SUS SALARIOS.

inter.de clase N i F i S i qi

[100, 120[

[120, 130[

[130, 140[

[140, 150[

[150, 160[

[160, 170[

[170, 180[

[180, 190[

[190, 200]

2413

4342

8642

13300

14500

10200

4093

443

125

0.0416

0.1164

0.2652

0.4942

0.7440

0.9196

0.9901

0.9978

1.0000

253365

525382

1192596

1888600

2276500

1652400

732647

81955

24875

0.0293

0.0903

0.2284

0.4473

0.7112

0.9027

0.9876

0.9971

1.0000

Total 58058 8628320

en donde S es el total de masa monetaria ganada por todos los obreros.

En la tabla podemos leer, por ejemplo, que el 49.42% de los trabajadores reciben el

44.73% de la masa total de los salarios de los 58058 trabajadores, que el 74.40% de lostrabajadores perciben el 71.12% del total de los salarios, etc.

Uniendo los puntos (qi , F i) se obtiene la curva de concentración de Lorenz, que en lasiguiente figura se indica.




Curva de Lorenz

10

1

q

F i

i -

qi

F i -

11

q

F

A

Figura 1.29.

El índice de concentración de Gini , se define como el doble del área dela región comprendida entre la curva de concentración de Lorenz y labisectriz principal.

OBSERVACIONES

1. El índice de Gini es un valor comprendido entre 0 y 1.

2. El mínimo valor del índice de Gini es igual a 0 y se obtiene cuando todos losgrupos, se reparten por igual la masa monetaria.

3. Si un grupo, digamos el primero, gana toda la masa monetaria, se demuestra queel índice de Gini es igual a 1.

Lo anterior indica que si la curva de concentración tiende a los lados del rectángulo,existe una " fuerte concentración"; un alto porcentaje de los asalariados se reparte unapequeña parte de los salarios mientras que un pequeño porcentaje de ellos se reparte casila masa total de los salarios. Si la curva de concentración tiende a la bisectriz delcuadrado se dice que existe "una concentración débil"; el índice de Gini tiende a 0 y lossalarios son casi idénticos para toda la masa de trabajadores.

Una expresión aproximada del índice de Gini, se encuentra aproximando el área A de laregión comprendida entre la bisectriz y la curva de concentración. Se tiene que

Area A ≈ 0.5 - [ ]0 5 1 1. ( )( )q q F F i i i i+ −− −∑ .

Luego,

Indice de Gini = 2( Area A) ≈ 1 - [ ]( )( )q q F F i i i i+ −− −∑ 1 1

Para los datos registrados en la tabla de distribución de los 58058 obreros, el índice deGini es igual a 0.4399. La concentración de los salarios es baja.




1.10. EJERCICIOS.

1.- Calcular la media, la mediana y la moda de los datos 2 5 5 6 6 6 7 7 60. Comentar los resultados .¿Cuál de las medidas calculadas describe mejor el centro de la distribución de los datos?.

Rpta. x M M e= = =115555 0 6 6. , , .

2. El siguiente conjunto de datos, corresponde a los porcentajes de humedad en diferentes lugares en unadeterminada región: 90 63 20 18 12 60 24 28 14 11 85 29 25 8 10 86 16 25 6 1180 16 20 16 6.

a) Calcular la media y la desviación estándar s’ b) ¿Qué porcentaje de datos está en el intervalo [ , ] x s x s− ′ + ′2 2 ?.

Rpta. a) x s= =311600 27 2597. ' . .

3. A continuación se presenta la distribución de 53 tiendas de abarrotes de acuerdo al número de empleadosque tienen.

Núm. de

emplead.

Núm. de

tiendas

2 11

3 16

4 17

5 9

Usar la información de la tabla para calcular la media, la mediana y la desviación estándar del número deempleados.

4. Los siguientes resultados indican el rendimiento de dos marcas de llantas:

Llanta Mediana, en Km.. Media en Km.

A 25000 27000B 27000 25000

Si las llantas de cualquier marca se venden al mismo precio, ¿qué marca de llanta se recomienda?.

5. Los datos siguientes corresponden al tiempo, en minutos, que demora una oficina "en darle trámite" a 50documentos que ha recibido.

400 392 358 304 108 156 438 60 360 168 448 224 576 384 194 216 120 208 232 72 264 168128 256 72 136 168 308 340 64 480 114 80 246 224 184 104 112 184 152 152 536 224 464

72 152 168 288 264 208.

a) A partir de la tabla de frecuencias, construir el histograma de frecuencias relativas. Graficar el polígonode frecuencias relativas. Indicar las características de la distribución.b) Calcular la media, varianza, desviación estándar y el coeficiente de variación de los datos.c) Calcular la mediana, utilizando directamente los datos y utilizando la ojiva de la frecuencia acumuladarelativa.

d) Calcular los percentiles C 10, C 20, C 75, y C 90.

6. Se informa que en el salón B las notas de Historia de los alumnos que lo forman se distribuyen tal como loindica la siguiente tabla y en donde f i son las frecuencias relativas




Notas f i

[8, 12[ f 1

[12, 16[ f 2

[16, 20] f 3

Calcular aproximadamente la media de las notas en B si el 45% tiene una nota inferior a 11 y el 70% tienenuna nota inferior a 17.

Rpta. Los valores respectivos de las frecuencias relativas son 0.60, 0 y 0.4. La media es 13.2

7. Indicar una lista de 10 números de forma que la desviación estándar sea lo más grande posible con lacondición de que:

a) cada número sea un 1 o un 5.b) cada número sea un 1 o un 5 o un 9 y, a lo más, dos de ellos sean 5.

8. Un investigador toma una muestra de 100 hombres cuyas edades están comprendidas entre 18 y 24 años deedad en una ciudad determinada. Otro investigador toma una muestra de 1000 hombres cuyas edadestambién están entre 18 y 24 años.

a) ¿Habrá una muestra con una media mayor que la media de la otra muestra o serán ambas parecidas?.b) ¿Habrá una muestra con una desviación estándar mayor o serán ambas parecidas?.

9. Tres profesores están comparando las notas de los exámenes finales que han realizado. Cada profesor tiene99 alumnos. En la clase A, un estudiante obtuvo 1 punto, otro obtuvo 99 puntos, y el resto obtuvieron 50puntos. En la clase B, 49 estudiantes lograron una puntuación de 1, un estudiante logró 50 puntos y 49alumnos llegaron a los 99 puntos. En la clase C, un estudiante logró 1 punto, otro estudiante 2 puntos, otroestudiante 3 puntos y así sucesivamente hasta llegar el estudiante número 99 que logró los 99 puntos.

a) ¿Existe alguna clase que tenga una media de notas superior a las demás o todas las medias son iguales?.b) ¿Existe alguna clase que tenga una desviación estándar de notas superior a las demás o todas lasdesviaciones estándar son iguales?.

10. En un conjunto de números positivos, ¿puede ser mayor la desviación estándar que la media en algunaocasión?.

11. Un conjunto está formado por 10 números. Cada número es: o el 1, o el 2 o el 3.

a) La media es 2 y la desviación estándar es 0. ¿Cómo es el conjunto de datos exactamente?.b) La desviación estándar es 1. ¿Cómo es el conjunto exactamente?.

c) ¿Puede ser la desviación estándar superior a 1?.

12. Un profesor está haciendo a sus alumnos un examen que tiene una calificación máxima de 20 puntos. Susistema es tal, que las notas deben ser necesariamente múltiplos de 5. Al final, una vez corregidos losexámenes obtiene la siguiente distribución de notas.

40% obtuvieron la nota 20, 30% obtuvieron 15, 20% obtuvieron 10 y 10% obtuvieron 5.

a) Si se supone que hay 20 alumnos, ¿se puede hallar la media y la desviación estándar?.b) Si no se sabe el número de alumnos, ¿se puede calcular la media y la desviación estándar?.

13. La repartición de un grupo de 75 alumnos de un colegio de acuerdo a su talla en cm, es como se indica enla siguiente tabla.a) Graficar la frecuencia relativa y la frecuencia acumulada relativa.




b) Usar las marcas de clase para aproximar la media, la mediana y la desviación estándar.

Talla Frecuencia

[80, 85[

[85, 90[

[90, 95[[95, 100[

[100, 105[

[105, 110]

4

14

2317

11

6

14. A continuación se presenta la distribución de los tiempos totales, en minutos, que diferentes estaciones deradio dedican a los avisos comerciales entre las 8:00 a. m. y las 12:00 m.

Tiempo # radios

[0.5, 6.5[

[6.5, 12.5[

[12.5, 18.5[

[18.5, 24.5[

[24.5, 30.5[

[30.5, 36.5[[36.5, 42.5[

[42.5, 48.5[

[48.5, 54.5[

[54.5, 60.5]

1

3

18

2

1

100

0

2

14

a) Usar las marcas de clase para aproximar la media y la desviación estándar del tiempo que las estacionesde radio dedican a los avisos comerciales entre las 8:00 a.m. y las 12:00 m.

b) Calcular el porcentaje de tiempos de avisos comerciales que están en el intervalo [ , ] x s x s− ′ + ′3 3 .

c) Calcular la mediana, utilizando la ojiva de la frecuencia acumulada relativa.

15. Los 100 alumnos de una sección A se distribuyen de acuerdo a sus notas de Historia tal como indica lasiguiente tabla (ni indica la frecuencia).

Notas ni

[8, 10[ 28[10, 12[ 50

[12, 14] 22

De manera aproximada, calcular la nota debajo de la cual está el 40% de las notas. También calcular,aproximadamente, la mediana.

Rpta. El percentil 40 es 10.48.

16. Se encontró que en 800 datos la media aritmética y la desviación estándar eran 9.496 y 0.345,respectivamente. Una revisión de los resultados mostró que en lugar del valor 9.56 se introdujo 1.56.Recalcular la media aritmética y la desviación estándar.

Rpta. 9.506, 0.200.

17. Calcular la media de un grupo de 80 datos que ha sido dividido en tres subgrupos: A, B y C , para loscuales se tienen las medias y el número de datos correspondiente:




x A N A A x B N B B xC N C C = = = = = = = = =50 10 80 20 60 50, #( ) , , #( ) , #( ) .y

Rpta. 63.75.

18. Aplicando las propiedades de la media, probar que si x1, ... , xm , es un conjunto de datos cuya media es

x , entonces el conjunto de datos y1, ... , ym , obtenidos al realizar la transformación yi axi b= + , donde a

y b son constantes, tienen media y ax b= + .

19. Calcular la media y la desviación estándar de un grupo de 30 datos que ha sido dividido en dos grupos: A y B, para los cuales se tiene:

x A N A s A x B N B s B= = = = =50 10 80 20 8, , , , .= 5 y

Rpta. La media es 70 y la desviación estándar, 15.84.

20. El 70% del personal de una compañía son varones y el resto, mujeres. El promedio de los sueldos de losvarones es $ 700 y el promedio en el grupo de mujeres es $ 600. Hallar el sueldo promedio del personal dela compañía.

21. La media y la varianza de los tiempos x xn1,..., utilizados en realizar n tareas similares son 14 y 2.89,

respectivamente. El costo por realizar cada tarea es yi xi xi= + +20 0 5 01 2. . , hallar la media de los costos.

22. En una empresa pública el promedio de los sueldos de los obreros es 40 unidades monetarias (u.m.) y el delos empleados, 50 u.m. Si la empresa decide aumentar 20 u .m. a cada empleado y obrero; hallar el promediogeneral de los sueldos actuales (considerando el aumento) si el número de obreros es el 10% del número deempleados.Rpta. 69.09.

23. Durante el mes de marzo el sueldo promedio de los trabajadores del sector industrial era de $100. Para elmes de abril se considera para cada trabajador un aumento del 30%, con respecto del mes de marzo más unadicional de $50. Si el coeficiente de variación en marzo era de 0.25, ¿se puede decir que la distribución desueldos en abril es más homogénea?.Rpta. Si, el nuevo coeficiente de variación es 0 .1805.

24. En el mes de enero, el promedio de los salarios de los empleados de una empresa era 40 u.m.; en el mes defebrero, la empresa consideró un incremento del 25% en el número de empleados y con un salario igual al80% del promedio de los salarios de los antiguos empleados. En el mes de marzo, la empresa hizo efectivoun aumento del 25% en el salario de cada uno de los empleados, más una asignación de 20 u.m. porescolaridad. Hallar el sueldo promedio de los salarios de los empleados en el mes de marzo.

25. El coeficiente de variación de un grupo de datos es 0.1. Si a cada dato se le aumenta primero el 20% de suvalor y luego 5 unidades, el coeficiente de variación es igual a 0.05. Halle el valor de la media y la varianzade los datos originales. Halle el valor de la media y de la varianza después del aumento.

Rpta. La media y la desviación estándar originales son: 4.1666, 0.4166.

26. El tiempo que 30 operarios demoraron en ejecutar una tarea fue registrado en minutos, obteniéndose:

7.0 9.0 11.4 7.2 10.2 13.5 17.0 14.0 14.5 8.0 9.1 9.4 13.1 8.5 10.4 15.5 12.0 11.0 11.2 9.6 9.29.5 15.6 8.4 10.8 13.0 12.5 12.4 10.5 7.8.

Construir una distribución de frecuencias con cinco intervalos de igual longitud y a partir de ésta estudiar,usando medidas estadísticas adecuadas las siguientes afirmaciones:a) “Calculando una medida central representativa para esta distribución, se deduce que el tiempo promediode ejecución de la tarea por operario llega a superar los 11 minutos”.b) “La mitad de los operarios no demoró más de 10.8 minutos”.




c) “Un operario cualquiera nunca demoró un tiempo que excedió al tiempo medio en más de dosdesviaciones estándar”.

Si se eligiera al azar a uno de los operarios y se deseara predecir el tiempo en que éste ejecutó la tarea, de talmanera que el promedio de los cuadrados de los errores fuera mínimo, ¿cuál sería el valor de predicción?.

Si se eligiera al azar a uno de los operarios y se deseara predecir el tiempo en que éste ejecutó la tarea, de tal

manera que el promedio de los de los errores en valor absoluto fuera mínimo, ¿cuál sería el valor depredicción?.

27. La distribución de mujeres cuyas edades fluctúan entre 40 y 50 años, de acuerdo al número de hijos en lascomunidades A y B es como se indica en la siguiente tabla.

Número de mujeres

Número hijos A B

0 6 81 9 152 23 203 28 154 22 10

Comparar las distribuciones en A y B usando las medias y los coeficientes de variación.

a) ¿Las mujeres, de qué comunidad, tienen el mayor promedio de hijos?.b) ¿Para que comunidad, la d istribución del número de hijos es más homogénea?.

28. En un grupo de datos, el 1 se repite el 25% de las veces y el 2 se repite el 75% restante. Para tal grupo,

hallar el valor a que hace que la suma (1 − a)2 + ... + (1 − a)2 + (2 − a)2 + ... + (2 − a)2 , sea mínima.

Rpta. 1.75

29. Las ciudades A, B, y C (en ese orden) están unidas en línea recta por una carretera. La distancia entre lasciudades A y B es 4 km, mientras que entre B y C la distancia es 5 km. Se desea construir un centro derecreo en un punto de la carretera para un total de 200 niños distribuidos de la siguiente manera: 25% de losniños viven en A, 35% de los niños viven en B y el resto vive en C. ¿Cuál debe ser la ubicación del centrode recreo si se considera que el costo de transporte por cada niño es proporcional a la distancia recorrida yel costo total al transportar a todos los niños debe ser mínima?.

Rpta. La respuesta corresponde a la mediana de los valores: 0, repetido 50 veces, 4 repetido 70 veces y 9repetido 50 veces.

30. Usando los datos del ejercicio 5, calcular los percentiles 10, 20, 50 y 75.

31. Usando los da tos de la tabla del ejercicio 8, calcular aproximadamente el intercuartil.

32. Durante cuatro años consecutivos un banco aumentó su capital en 100%, 150%, 300% y 400%. Indicar latasa de aumento promedio del capital si al inicio fue 50 millones de dólares.

33. El aumento de la tasa de cambio en el país durante las cuatro semanas del mes de Junio y con respecto a lasemana anterior fue como sigue: 1%, 2%, 3%, y 2%. Calcular, usando la media geométrica, el aumentopromedio de la tasa de cambio.

Rpta. El aumento promedio de la tasa de cambio es 1.9975%.




34. Determinar la tasa de crecimiento promedio de la población en los últimos tres años si en 1992 lapoblación fue 18000000, en 1993 fue 2000000 y en 1994 fue 25500000. Indicar por qué la mediaaritmética no es adecuada para indicar el cambio promedio de crecimiento.

35. La velocidad con que escriben tres personas el mismo texto es 60, 70 y 65 palabras por minuto,respectivamente. Calcular la velocidad promedio.

Rpta. 64.74 palabras por minuto.

36. En la siguiente tabla se registran: el tiempo que emplean 5 obreros en fabricar un artículo así como eltiempo total trabajado por cada uno de ellos. Calcular el tiempo promedio que se utiliza en fabricar unartículo.

Obreros Tiempo total trab.

en minuto.

Tiempo. usado porartículo en minuto.

1

2

3

4

5

480

480

480

480

240

0.80

1.00

1.20

1.20

1.50

37. Dos alumnos desarrollaron, cada uno, una prueba que tenía 40 "ítems". El primero hizo una pregunta cada2 minutos y el segundo una pregunta cada 2.5 minutos. Calcular el promedio de preguntas desarrolladas

cada 5 minutos.Rpta. 2.22 preguntas cada 5 minutos.

38. Una propiedad importante de la media dice que si x xn1, .. ., tienen media x y si y f x= ( ) es una

función cóncava hacia abajo entonces f xn

f xii

n( ) ( )≥

=∑

1

1

( Desigualdad de Jensen).

Usando la desigualdad de Jensen, probar que G x≤ , en donde G es la media geométrica de los datos.

39. Para los datos del ejercicio 5, hallar el sesgo y el coeficiente de curtosis. ¿A qué tipo de curvacorresponde?.

40. El índice de Gini puede usarse también para analizar la concentración de la población de una determinadaregión. A partir de la siguiente información, analizar la concentración de la población.

Habitantes Número de

distritos

Población

total[500, 1000[

[1000, 1500[

[1500, 2000[

[2000, 2500[

[2500, 3000[

[3000, 3500[

320

130

110

80

30

10

192000

143000

187000

192000

79500

34500

Date post:	14-Apr-2018
Category:	Documents
Upload:	carolina-mamani-cruz
View:	223 times
Download:	0 times

1. Estadistica descriptiva (1)

Documents