+ All Categories
Home > Education > Estadistica ii

Estadistica ii

Date post: 16-Jun-2015
Category:
Upload: juan-fguevara
View: 1,969 times
Download: 9 times
Share this document with a friend
Popular Tags:
99
Estadística Introducción a la estadística Estadistica (2003 – 2004) – UNFV- Song : without you by air supply
Transcript
Page 1: Estadistica ii

Estadística

Introducción a la estadística

Estadistica (2003 – 2004) – UNFV- Estadistica (2003 – 2004) – UNFV-

Song : without you by air supply

Page 2: Estadistica ii

¿Para qué sirve la estadística? La Ciencia se ocupa en general de fenómenos observables

La Ciencia se desarrolla observando hechos, formulando leyes que los explican y realizando experimentos para validar o rechazar dichas leyes

Los modelos que crea la ciencia son de tipo determinista o aleatorio (estocástico)

La Estadística se utiliza como tecnología al servicio de las ciencias donde la variabilidad y la incertidumbre forman parte de su naturaleza

“La Bioestadística [...] enseña y ayuda a investigar en todas las áreas de las Ciencias de la Vida donde la variablidad no es la excepción sino la regla”

Page 3: Estadistica ii

post-grado en administración UNFV

DefiniciónLa Estadística es la Ciencia de la

• Sistematización, recogida, ordenación y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico, con objeto de

• deducir las leyes que rigen esos fenómenos,

• y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones.

Descrip

tiva

Probabili

dad

Infe

rencia

Page 4: Estadistica ii

Pasos en un estudio estadístico Plantear hipótesis sobre una población

Los fumadores tienen “más bajas” laborales que los no fumadores ¿En qué sentido? ¿Mayor número? ¿Tiempo medio?

Decidir qué datos recoger (diseño de experimentos) Qué individuos pertenecerán al estudio (muestras)

Fumadores y no fumadores en edad laboral. Criterios de exclusión ¿Cómo se eligen? ¿Descartamos los que padecen enfermedades

crónicas? Qué datos recoger de los mismos (variables)

Número de bajas Tiempo de duración de cada baja ¿Sexo? ¿Sector laboral? ¿Otros factores?

Recoger los datos (muestreo) ¿Estratificado? ¿Sistemáticamente?

Describir (resumir) los datos obtenidos tiempo medio de baja en fumadores y no (estadísticos) % de bajas por fumadores y sexo (frecuencias), gráficos,...

Realizar una inferencia sobre la población Los fumadores están de baja al menos 10 días/año más de media que los no fumadores.

Cuantificar la confianza en la inferencia Nivel de confianza del 95% Significación del contraste: p=2%

No tenéis que entenderlo (aún)

Page 5: Estadistica ii

Plantear hipótesis

Obtenerconclusiones

Recoger datosy analizarlos

Diseñar experimento

Método científico y estadística

Page 6: Estadistica ii

post-grado en administración - 2004 -

Población y muestra

Población (‘population’) es el conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia). Normalmente es demasiado grande para poder abarcarlo.

Muestra (‘sample’) es un subconjunto suyo al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones) Debería ser “representativo” Esta formado por miembros “seleccionados” de la población

(individuos, unidades experimentales).

Page 7: Estadistica ii

jfgt

Variables Una variable es una característica observable que varía entre los diferentes

individuos de una población. La información que disponemos de cada individuo es resumida en variables.

En los individuos de la población española, de uno a otro es variable:

El grupo sanguíneo {A, B, AB, O} Var. Cualitativa

Su nivel de felicidad “declarado” {Deprimido, Ni fu ni fa, Muy Feliz} Var. Ordinal

El número de hijos {0,1,2,3,...} Var. Numérica discreta

La altura {1’62 ; 1’74; ...} Var. Numérica continua

Page 8: Estadistica ii

CualitativasSi sus valores (modalidades) no se pueden asociar naturalmente a un número (no se pueden hacer operaciones algebraicas con ellos)

Nominales: Si sus valores no se pueden ordenar Sexo, Grupo Sanguíneo, Religión, Nacionalidad, Fumar (Sí/No)

Ordinales: Si sus valores se pueden ordenar Mejoría a un tratamiento, Grado de satisfacción, Intensidad del dolor

Cuantitativas o NuméricasSi sus valores son numéricos (tiene sentido hacer operaciones algebraicas con ellos)

Discretas: Si toma valores enteros Número de hijos, Número de cigarrillos, Num. de “cumpleaños”

Continuas: Si entre dos valores, son posibles infinitos valores intermedios. Altura, Presión intraocular, Dosis de medicamento administrado, edad

Tipos de variables

Page 9: Estadistica ii

Es buena idea codificar las variables como números para poder procesarlas con facilidad en un ordenador.

Es conveniente asignar “etiquetas” a los valores de las variables para recordar qué significan los códigos numéricos.

Sexo (Cualit: Códigos arbitrarios) 1 = Hombre 2 = Mujer

Raza (Cualit: Códigos arbitrarios) 1 = Blanca 2 = Negra,...

Felicidad Ordinal: Respetar un orden al codificar.

1 = Muy feliz 2 = Bastante feliz 3 = No demasiado feliz

Se pueden asignar códigos a respuestas especiales como

0 = No sabe 99 = No contesta...

Estas situaciones deberán ser tenidas en cuentas en el análisis. Datos perdidos (‘missing data’)

Page 10: Estadistica ii

Aunque se codifiquen como números, debemos recordar siempre el verdadero tipo de las variables y su significado cuando vayamos a usar programas de cálculo estadístico.

No todo está permitido con cualquier tipo de variable.

Page 11: Estadistica ii

Los posibles valores de una variable suelen denominarse modalidades.

Las modalidades pueden agruparse en clases (intervalos) Edades:

Menos de 20 años, de 20 a 50 años, más de 50 años Hijos:

Menos de 3 hijos, De 3 a 5, 6 o más hijos

Las modalidades/clases deben forman un sistema exhaustivo y excluyente Exhaustivo: No podemos olvidar ningún posible valor de la variable

Mal: ¿Cuál es su color del pelo: (Rubio, Moreno)? Bien: ¿Cuál es su grupo sanguíneo?

Excluyente: Nadie puede presentar dos valores simultáneos de la variable

Estudio sobre el ocio Mal: De los siguientes, qué le gusta: (deporte, cine) Bien: Le gusta el deporte: (Sí, No) Bien: Le gusta el cine: (Sí, No) Mal: Cuántos hijos tiene: (Ninguno, Menos de 5, Más de 2)

Page 12: Estadistica ii

jfgt

Presentación ordenada de datos

0

1

2

3

4

5

6

7

Hombre Mujer

Las tablas de frecuencias y las representaciones gráficas son dos maneras equivalentes de presentar la información. Las dos exponen ordenadamente la información recogida en una muestra.

Género Frec.

Hombre 4

Mujer 6

Page 13: Estadistica ii

Tablas de frecuencia

Nivel de felicidad

467 30,8 31,1 31,1

872 57,5 58,0 89,0

165 10,9 11,0 100,0

1504 99,1 100,0

13 ,9

1517 100,0

Muy feliz

Bastante feliz

No demasiado feliz

Total

Válidos

No contestaPerdidos

Total

Frecuencia PorcentajePorcentaje

válidoPorcentajeacumulado

Sexo del encuestado

636 41,9 41,9

881 58,1 58,1

1517 100,0 100,0

Hombre

Mujer

Total

VálidosFrecuencia Porcentaje

Porcentajeválido

Número de hijos

419 27,6 27,8 27,8

255 16,8 16,9 44,7

375 24,7 24,9 69,5

215 14,2 14,2 83,8

127 8,4 8,4 92,2

54 3,6 3,6 95,8

24 1,6 1,6 97,3

23 1,5 1,5 98,9

17 1,1 1,1 100,0

1509 99,5 100,0

8 ,5

1517 100,0

0

1

2

3

4

5

6

7

Ocho o más

Total

Válidos

No contestaPerdidos

Total

Frecuencia PorcentajePorcentaje

válidoPorcentajeacumulado

Exponen la información recogida en la muestra, de forma que no se pierda nada de información (o poca).

Frecuencias absolutas: Contabilizan el número de individuos de cada modalidad

Frecuencias relativas (porcentajes): Idem, pero dividido por el total

Frecuencias acumuladas: Sólo tienen sentido para variables ordinales y numéricas Muy útiles para calcular cuantiles (ver más adelante)

¿Qué porcentaje de individuos tiene menos de 3 hijos? Sol: 83,8 ¿Entre 4 y 6 hijos? Soluc 1ª: 8,4%+3,6%+1,6%= 13,6%. Soluc 2ª: 97,3% - 83,8% = 13,5%

Page 14: Estadistica ii

Datos desordenados y ordenados en tablas

Variable: Género Modalidades:

H = Hombre M = Mujer

Muestra:

M H H M M H M M M H

equivale aHHHH MMMMMM

Género Frec. Frec. relat.

porcentaje

Hombre 4 4/10=0,4=40%

Mujer 6 6/10=0,6=60%

10=tamaño muestral

Page 15: Estadistica ii

Número de hijos

419 27,8 27,8

255 16,9 44,7

375 24,9 69,5

215 14,2 83,8

127 8,4 92,2

54 3,6 95,8

24 1,6 97,3

23 1,5 98,9

17 1,1 100,0

1509 100,0

0

1

2

3

4

5

6

7

Ocho+

Total

Frec.Porcent.(válido)

Porcent.acum.

Ejemplo ¿Cuántos individuos tienen

menos de 2 hijos? frec. indiv. sin hijos

+ frec. indiv. con 1 hijo = 419 + 255= 674 individuos

¿Qué porcentaje de individuos tiene 6 hijos o menos? 97,3%

¿Qué cantidad de hijos es tal que al menos el 50% de la población tiene una cantidad inferior o igual? 2 hijos

≥50%

Page 16: Estadistica ii

Gráficos para v. cualitativas Diagramas de barras

Alturas proporcionales a las frecuencias (abs. o rel.)

Se pueden aplicar también a variables discretas

Diagramas de sectores (tartas, polares) No usarlo con variables ordinales. El área de cada sector es proporcional a su

frecuencia (abs. o rel.)

Pictogramas Fáciles de entender. El área de cada modalidad debe ser proporcional a

la frecuencia. ¿De los dos, cuál es incorrecto?.

Page 17: Estadistica ii

Gráficos diferenciales para variables numéricas

Son diferentes en función de que las variables sean discretas o continuas. Valen con frec. absolutas o relativas. Diagramas barras para v. discretas

Se deja un hueco entre barras para indicar los valores que no son posibles

Histogramas para v. continuas El área que hay bajo el histograma entre

dos puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en el intervalo.

0 1 2 3 4 5 6 7 Ocho o más

Número de hijos

100

200

300

400

Rec

uen

to

419

255

375

215

127

54

24 23 17

20 40 60 80

Edad del encuestado

50

100

150

200

250

Rec

uen

to

Page 18: Estadistica ii

Diagramas integrales Cada uno de los anteriores diagramas tiene su correspondiente diagrama integral. Se realizan

a partir de las frecuencias acumuladas. Indican, para cada valor de la variable, la cantidad (frecuencia) de individuos que poseen un valor inferior o igual al mismo. No los construiremos en clase. Se pasan de los diferenciales a los integrales por integración y a la inversa por derivación (en un sentido más general del que visteis en bachillerato.)

Page 19: Estadistica ii

¿Qué hemos visto?

Definición de estadística Población Muestra Variables

Cualitativas Numéricas

Presentación ordenada de datos Tablas de frecuencias

absolutas relativas acumuladas

Representaciones gráficas Cualitativas Numéricas

Diferenciales Integrales

Page 20: Estadistica ii

Inferencia estadística 1.- Principales conceptos. Muestreo.Distribución muestral de un estadístico. Principales distribuciones muestrales.

Maestria en Administración –

(2003- 2004 ) - UNFV -

Maestria en Administración –

(2003- 2004 ) - UNFV -

Song : big in japan by Alphaville

Page 21: Estadistica ii

Principales conceptos en inferencia estadística

Idea básica: Hacer inferencias sobre la población a partir de la muestra que hemos extraído de la misma.

Ello nos lleva a tratar (brevemente) el tema del muestreo. Pensemos que la muestra habrá de ser representativa de la población, para que podamos efectuar inferencias que tengan sentido.

Page 22: Estadistica ii

MuestreoDefinición: Proceso que nos permite la extracción de una muestra a partir de una población

Hay dos tipos básicos de muestreo:

1. Muestreo probabilístico. En este tipo de muestreo, la probabilidad de aparición en una muestra de cualquier elemento de la población es conocida (o calculable). Es el único científicamente válido, y es sobre el que nos extenderemos especialmente.

2. Muestreo no probabilístico. Es aquel en el que la selección de los elementos de la muestra no se hacen al azar.

Page 23: Estadistica ii

Muestreo probabilístico

Este muestreo garantiza que, a la larga, las muestras que se van obteniendo de la población sean representativas de la misma. Vamos a ver varios tipos de muestreo probabilístico.

1. Muestreo aleatorio simple

2. Muestreo estratificado

3. Muestreo por conglomerados

4. Muestreo por etapas (o polietápico)

5. Muestreo sistemático (?)

020406080

100120140

Obs 2000 Meta 2001 Meta 2000

Meta 2002 Normalizada

Page 24: Estadistica ii

Muestreo probabilístico

1. Muestreo aleatorio simple

Es aquel en el que, a priori, todos los elementos de la muestra tienen la misma probabilidad de aparición.

Supongamos que tengamos una población de 50.000 individuos, y que tenemos un listado con sus nombres. Si queremos elegir 100 personas, lo que necesitamos es que el ordenador elija al azar a 100 individuos de esos 50.000.

Page 25: Estadistica ii

Muestreo probabilístico

2. Muestreo estratificado

En el muestreo estratificado, los investigadores han de dividir a los sujetos en diferentes subpoblaciones (o estratos), en función de cierta característica relevante, y después lo que hacen es un muestro aleatorio simple de cada estrato.

Evidentemente, cada individuo debe pertenecer a un estrato (y solo uno), y cada individuo del estrato habrá de tener la misma probabilidad de ser escogido como parte de la muestra.

Ejemplo: Supongamos que, en Cajamarca, 70% de los niños de primaria van a escuela pública y el 30% a concertada. Si queremos 1,000 niños, lo que haremos es dividir los alumnos en 2 estratos (pública y concertada) y se eligen aleatoriamente 700 niños de la pública y aleatoriamente 300 de la concertada.

Page 26: Estadistica ii

Muestreo probabilístico

3. Muestreo por conglomerados

En el muestreo por conglomerados, en lugar de considerar cada elemento de la población, lo que consideramos son “conglomerados de elementos”. El proceso es elegir aleatoriamente uno o varios conglomerados y la muestra estará formada por TODOS los elementos de los conglomerados.

Ejemplos:

-En las encuestas durante las elecciones, los conglomerados pueden ser las mesas electorales, y lo que se hace es escoger algunas mesas al azar (y de ahí se toman todos los votos de las mesas seleccionadas).

-En otros ejemplos, los conglomerados pueden ser los bloques de viviendas, los municipios, etc.

Page 27: Estadistica ii

Muestreo probabilístico

4. Muestreo por etapas

En este caso se combina el muestreo aleatorio simple con el muestreo por conglomerados:

Primero se realiza un muestreo por conglomerados (v.g., si los conglomerados son colegios en Lince, se seleccionan aleatoriamente varios de ellos).

Segundo, no se eligen todos los alumnos (como ocurriría en un muestro por conglomerados), sino que se elige una muestra aleatoria. (Dicha muestra puede ser obtenida por muestreo aleatorio simple o puede ser estratificado.)

Es decir, hemos tenido 2 etapas de muestreo. Y claro está, es posible tener más de 2 etapas...

Page 28: Estadistica ii

Muestreo probabilístico

5. Muestreo aleatorio sistemático

Supongamos que tengamos una lista de N elementos (e.g., estudiantes de secundaria) y queramos una muestra de tamaño “n”. En este caso, lo que se hace es ordenarlos (v.g., en función de los apellidos) y después se elige aleatoriamente un elemento entre los N/n=k primeros, y luego se elige de manera sistemática el que esté k lugares después del primer elemento, y así sucesivamente.

Ejemplo: Tenemos 10000 estudiantes (en una lista) y queremos obtener una muestra de 100 estudiantes. Primero elegimos al azar un estudiante entre los 10000/100=100 primeros (supongamos que salga el 26), el segundo elemento será el estudiante 100+26 (126), el siguiente será el 226, luego el 326, etc.

Page 29: Estadistica ii

Muestreo no probabilístico

1. Muestreo sin norma (o de conveniencia)

Se elige a una muestra por ser conveniente, fácil, económica. Pero no se hace en base a un criterio de aleatoridad.

Ejemplo: las encuestas en los periódicos electrónicos; el muestreo habitual en los trabajos en psicología.

2. Muestreo intencional

En este caso, si bien el muestreo no es probabilístico, los investigadores procuran que se garantice la representatividad de la muestra

Page 30: Estadistica ii

Distribución muestral de un estadístico

Supongamos que tenemos una variable aleatoria, cuya

distribución es f ( x)

Supongamos, por simplicidad, que obtenemos una muestra aleatoria simple con tamaño n = X1, X2, ... Xn

Entonces, un estadístico es cualquier función h definida sobre X1,

X2, ... Xn y que no incluye parámetro desconocido alguno:

Y=h(X1, X2, ... Xn)

La distribución de dicho estadístico Y la vamos a denominar g(y)

Page 31: Estadistica ii

Distribución muestral de un estadístico

Observad:

f(x) es la distribución de la v.a. bajo estudio

g(y) es la distribución del estadístico que tenemos

Es vital conocer la distribución muestral del estadístico de interés para poder efectuar inferencias sobre el parámetro correspondiente.

Esto es, para efectuar inferencias sobre la media poblacional , necesitamos conocer la distribución muestral de X

Page 32: Estadistica ii

Distribución muestral de la media

Veremos primero el caso de que la distribución subyacente sea normal, con media y varianza

La media de la distribución muestral de medias es

La varianza de la distribución muestral de medias es

2 / n 2 / n

2

La forma de la distribución muestral de la media es normal.

Nota: La desviación típica de la distribución muestral suele ser denominada: error típico de tal estadístico (v.g., “error típico de la media”, etc.)

Nota: La desviación típica de la distribución muestral suele ser denominada: error típico de tal estadístico (v.g., “error típico de la media”, etc.)

Page 33: Estadistica ii

Distribución muestral de la media. Ejemplo 1

N10

400

300

200

100

0

Desv. típ. = 4.75

Media = 99.9

N = 3600.00

Distribución poblacional subyacente (dist. Normal):

Media=100

(Varianza=225)

Desv.Típica=15

Distribución muestral de la media:

Tamaño muestral=10

Media=100

(Varianza=225/10=22.5)

Desv.típica=

Distribución muestral de la media:

Tamaño muestral=10

Media=100

(Varianza=225/10=22.5)

Desv.típica= 22.5 4.74

La línea (en este y sucesivos ejemplos) es una curva normal

En este y sucesivos gráficos: Número de réplicas

Page 34: Estadistica ii

Distribución muestral de la media. Ejemplo 2

N20

500

400

300

200

100

0

Desv. típ. = 3.36

Media = 100.0

N = 3600.00

Distribución poblacional subyacente (dist. Normal):

Media=100

Desv.Típica=15

Distribución muestral de la media:

Tamaño muestral=20

Media=100

(Varianza=225/20=11.3)

Desv.típica=3.35

Distribución muestral de la media:

Tamaño muestral=20

Media=100

(Varianza=225/20=11.3)

Desv.típica=3.35

Page 35: Estadistica ii

Distribución muestral de la media. Ejemplo 3

N50

700

600

500

400

300

200

100

0

Desv. típ. = 2.12

Media = 99.95

N = 3600.00

Distribución poblacional subyacente (dist. Normal):

Media=100

Desv.Típica=15

Distribución muestral de la media:

Tamaño muestral=50

Media=100

(Varianza=225/50=4.5)

Desv.típica=2.12

Distribución muestral de la media:

Tamaño muestral=50

Media=100

(Varianza=225/50=4.5)

Desv.típica=2.12

Page 36: Estadistica ii

Distribución muestral de la media

Veremos ahora el caso de que la distribución subyacente sea arbitraria, si bien sabemos que la media es y la varianza sea

La media de la distribución muestral de medias es

La varianza de la distribución muestral de medias es

2 / n

2

La forma de la distribución muestral de la media TAMBIÉN tiende a ser normal. En concreto, la distribución muestral se acercará más y más a la distribución normal (media y varianza 2/n) a medida que se aumente el tamaño de cada muestra.

La forma de la distribución muestral de la media TAMBIÉN tiende a ser normal. En concreto, la distribución muestral se acercará más y más a la distribución normal (media y varianza 2/n) a medida que se aumente el tamaño de cada muestra.

Page 37: Estadistica ii

Distribución muestral de la media. Ejemplo 4

Distribución poblacional subyacente (dist. GAMMA):

Media=100=

Varianza=100=

0

0.005

0.01

0.015

0.02

0.025

0.03

0.035

0.04

0.045

80 85 90 95 100 105 110 115 120

La distribución GAMMA tiene 2 parámetros:

que es un parámetro de escala (1)

p que es un parámetro de forma (100)

100100

1

p

2 2

100100

1

p

Page 38: Estadistica ii

Distribución muestral de la media. Ejemplo 4

DISGAMMA

500

400

300

200

100

0

Desv. típ. = 3.12

Media = 100.0

N = 3600.00

Distribución poblacional subyacente (dist. GAMMA):

Media=100

Varianza=100

Distribución muestral de la media:

Tamaño muestral=10

Media=100

(Varianza=100/10=10)

Desv.típica= 10 3.16

Page 39: Estadistica ii

Distribución muestral de la media. Ejemplo 5

Distribución poblacional (dist. EXPONENCIAL):

Media=0.1=1/

Varianza=0.01=1/2

0

2

4

6

8

10

12

0 0.1 0.2 0.3 0.4 0.5 0.6

La distribución EXPONENCIAL tiene 1 parámetro: (en el ejemplo: 10)

Ejemplo de distr.exponencial en psicología: v.g., tiempo transcurrido entre 2 pulsaciones de una rata en una caja de Skinner.

Page 40: Estadistica ii

Distribución muestral de la media. Ejemplo 5a

EXPON10

400

300

200

100

0

Desv. típ. = .03

Media = .100

N = 3600.00

Distribución muestral de la media:

Tamaño muestral=10

Media=.100

(Varianza=0.01/10=.001)

Desv.típica=.03

Distribución poblacional (dist. EXPONENCIAL):

Media=0.1=1/

Varianza=0.01=1/2

Observad que la dist. muestral se aproxima a la normal

Page 41: Estadistica ii

Distribución muestral de la media. Ejemplo 5b

Distribución muestral de la media:

Tamaño muestral=20

Media=.100

(Varianza=0.01/20=.0005)

Desv.típica=.022

EXPON20

500

400

300

200

100

0

Desv. típ. = .02

Media = .099

N = 3600.00

Distribución poblacional (dist. EXPONENCIAL):

Media=0.1=1/

Varianza=0.01=1/2

Observad que la distribución muestral se aproxima más a la normal (al elevar el tamaño muestral).

Page 42: Estadistica ii

Distribución muestral de/

X

s n

/

X

s n

Cuando la distribución de la que obtenemos las medias muestrales es gaussiana (“distr.normal”), la expresión anterior se distribuye según la distribución t de Student con tn-1 grados de libertad. (Esta distribución es básica para efectuar inferencias entre dos medias.)

OTRAS DISTRIBUCIONES MUESTRALES (1)

Distribución muestral de

Cuando las distribuciones de la que obtenemos las varianzas muestrales son gaussianas, la expresión anterior se distribuye según la distribución F de Fisher con n1-1 grados de libertad en el numerador y n2-1 grados de libertad en el denominador. (Recordad que la distribución F es básica para la razón de varianzas: ANOVA.)

Asumiendo varianzas poblacionales iguales

21

22

ss

Page 43: Estadistica ii

jfgt

Distribución muestral de

Cuando las distribución de la que obtenemos la varianza muestral es gaussiana, la anterior expresión se distribuye según la distribución chi-cuadrado con n-1 grados de libertad.

OTRAS DISTRIBUCIONES MUESTRALES (2)

2 2/ns

Page 44: Estadistica ii

Simulación a eventos discretos

Song . California dreaming by The mamas and the papas.

Page 45: Estadistica ii

Independencia de las muestrasLos resultados de una corrida de simulación, son muestras de alguna distribución.

Esos resultados los llamamos "respuestas".Las respuestas pueden ser: promedios de valores recolectados en toda o parte de la corrida, o simplemente una única medida (ej. largo de la cola al final de la corrida).

Las respuestas son muestras de distribuciones, por lo tanto pueden variar de una corrida a otra o en la misma corrida.

El promedio de la distribución de respuestas la notamos y lo llamamos la media (valor medio) de la distribución.

Page 46: Estadistica ii

Independencia de las muestras

Cuando los resultados son promedios de valores recolectados en estado estacionario, una sola respuesta “puede” ser usada como la estimación de la media de la distribución.

En sistemas terminales o no estacionarios siempre deben realizarse varias corridas, de modo de obtener varias muestras como respuestas, tanto para calcular la media como para calcular la varianza,

Page 47: Estadistica ii

Dispersión de la muestra

La dispersión de la variable aleatoria respecto de su media, se mide mediante la desviación estándar o la varianza 2.

Si la varianza es grande quiere decir que no todos los valores que toma la V.A. están cerca de la media.

Para calcular la varianza de la distribución muestreada es necesario obtener varias respuestas independientes.

Page 48: Estadistica ii

Análisis de resultados

En general es aconsejable realizar varias corridas independientes para tomar varias muestras como respuestas tanto para calcular la media como la varianza (y la desviación estándar).

Por lo tanto.... El análisis estadístico de los experimentos de simulación requieren de varias respuestas independientes x1, ...,xn.

Cada una de estas muestras se obtienen a partir de alguno de los siguientes métodos.

Page 49: Estadistica ii

Métodos muestreo resultados (1)

1.-

Se realizan n corridas que generan x1, ..., xn.

Cada corrida con torrentes de números aleatorios diferentes e independientes.

Cada corrida es una replicación.

Se pueden registrar resultados solamente en determinados períodos de interés.

Page 50: Estadistica ii

Métodos muestreo resultados (2)

2.-

El método de replicación en sistemas estacionarios.

Los datos se toman solamente en el período estacionario, la muestra o resultado es un promedio de los datos obtenidos durante la corrida o replicación.

Page 51: Estadistica ii

Métodos muestreo resultados (3)

3.-

Método batch means, usado en simulaciones de estado estacionario, aquellos que llevan mucho tiempo en alcanzar ese estado.

Se corre el período run-in una sola vez; a partir de allí se registran valores de xi en intervalos sucesivos de tiempo de igual longitud, 1 ... n.

Riesgo: correlación entre resultados sucesivos.

Page 52: Estadistica ii

Métodos muestreo resultados (4)4.- El método regenerativo se utiliza cuando nos interesan medidas en períodos o instantes específicos (particulares) del tiempo.

Por ejemplo nos interesa el largo de la cola cuando se rompe una máquina (cantidad de máquinas rotas en esa ocasión).

Entonces consideramos un punto regenerativo (la ruptura de la máquina), y se registra una muestra independiente inmediatamente después de cada ruptura.

Page 53: Estadistica ii

Cálculo media y varianza

Media, Varianza son los parámetros que mas interesan calcular.

Si xi es la i-ésima respuesta de n replicaciones o batches entonces podemos estimar la media ,

s2 un estimador sin sesgo de la varianza 2 de las respuestas.

n

i

n

iii x

nx

nn

XX

1

2

1

2

n

1i

2

i2

n

1ii 1

11

1

x s

n

x

Page 54: Estadistica ii

Intervalo de confianza

Nos interesa saber con qué grado de seguridad estamos estimando el valor medio de la distribución.

La estimación es el promedio muestreado de un conjunto de respuestas, entonces el intervalo de confianza nos brinda una medida de la confianza que le podemos tener a esa estimación; Los límites de un 95% de confianza son los puntos extremos de un intervalo alrededor de la media de la muestra; significa que la media de la distribución se muestreará con una probabilidad de 0.95.

Page 55: Estadistica ii

Intervalo de ConfianzaLa varianza de la media de la muestra de tamaño n es

mediante estimada 2

22

xsn

s

n

n

i

n

iii x

nx

nn

X

1

2

1

2

n

1i

2

i2 1

11

1

x s

Page 56: Estadistica ii

Intervalo de ConfianzaLos límites del 95% del intervalo de confianza se pueden calcular de tablas de distribución Student para muestras pequeñas y de tablas de la distribución Normal para muestras grandes .

Para la Normal los límites de un intervalo de confianza de 95% son

xsX 96.1

Page 57: Estadistica ii

Intervalo de Confianza

xs

xmxP

D 96.1

95.0 1 D D

2

22

Page 58: Estadistica ii

Otras técnicas de análisisLa Técnica predictiva se usa en simulaciones no terminales que no alcanzan estado estacionario.

Se toma una medida de la media xt en un intervalo de tiempo t y se grafican los valores tomados (xt vs t) para tener una idea de como varían los valores con el tiempo.

Si queremos una idea mas precisa, se pueden realizar varias y diferentes corridas y tomar promedios de ellas.

También se puede usar técnicas de regresión múltiple para ajustar los valores obtenidos a algún tipo de curva, aunque a veces el patrón de conducta de xt puede ser complejo, lo que dificulta el análisis de la misma.

Page 59: Estadistica ii

Verificación de hipótesis

Esta técnica se usa para determinar cuando las respuestas de simulaciones comparativas son significantes estadísticamente. Si x es una respuesta de una v.a de media x de una corrida e y ( media y) es la respuesta de la corrida con valores cambiados de las var. de decisión, entonces la hipótesis a verificar es x = y.

Si realizamos n corridas para un conjunto de valores de las variables de decisión y repetimos el mismo número de corridas para los valores cambiados, entonces la media muestreada de la primera experiencia es X y de la segunda es Y. La verificación se basa en la diferencia entre X e Y y cuánto se aleja la desviación estándar de la media. El cálculo de la desviación estándar dependerá de cuan independientes son los valores xi e yi de las corridas realizadas (distribución t o Normal).

Page 60: Estadistica ii

Análisis de factores (1)Esta técnica estadística se utiliza para evaluar o determinar los efectos que los cambios en las variables de decisión producen en las salidas o resultados de la simulación.

Las variables de decisión se llaman factores, por lo tanto corremos la simulación con distintos valores asignados a los factores (niveles) para medir cuánto afecta a los resultados de la simulación, los distintos factores ya sea individualmente como interactuando uno con otro.

Page 61: Estadistica ii

Análisis de factores (2)

La complejidad del análisis crece exponencialmente con la cantidad de factores, ya que si tenemos n factores y nos interesa el factor i medido en el nivel mi, tenemos mi diferentes posibles formas de hacerlo.

Esto además se complica mas, si existe mas de una salida a considerar.

Page 62: Estadistica ii

Análisis de factores (2)Esta técnica es usable para simulaciones con muchos factores a ser testeados en varios niveles. Pero es una técnica muy costosa en tiempo y por lo tanto muchos test estadísticos no pueden ser terminados. De todos modos es valiosa para tener una idea o imágen de los efectos ocasionados por distintos cambios en los factores de la simulación. (Law y Kelton 82). Depende tambien de la cantidad de torrentes accesibles

Page 63: Estadistica ii

Resumen cap. 5

Simulación terminal , estacionaria.

Detección estado estacionario.

Parámetros interesantes como registrarlos y presentarlos.

Facilidades de PascalSIM.

Técnicas de Análisis de resultados

Page 64: Estadistica ii

Modelo de simulación

Producir un modelo de simulación no es solamente escribir código.

La estructura de la simulación y sus distribuciones se derivarán de :

OBJETIVOS HIPOTESIS DE TRABAJORESPUESTASVARIABLES DE DECISION

Page 65: Estadistica ii

Modelo de simulación

El modelo se compone de:

+ Objetivos, hipótesis, variables de decisión y

respuestas,+ diagramas de actividades+ especificación+ pesudocódigo+ código

Page 66: Estadistica ii

Modelo de simulación

OBJETIVOS

deben ser claros, subjetivos o muy detallados, pero determinarán:

i) las variables de decisión, ii) cuándo es necesaria una salida visual, un

detallado tratamiento estadístico o ambos yiii) qué salidas son importantes.

Page 67: Estadistica ii

Modelo de simulación

HIPOTESIS DE TRABAJO.

Existen hipótesis implícitas al modelo y otras explícitas. Ambas deben ser documentadas.

Los programas deben ser diseñados de forma de permitir cambios en etapas posteriores del proyecto. (reducen la complejidad del modelo)

Page 68: Estadistica ii

Modelo de simulación

RESPUESTAS tipos de parámetros y medidas de interés, así como estadísticas y datos a recolectar para el análisis.

VARIABLES DE DECISION. Los objetivos indicarán cuáles serán fijos y cuáles cambiables.

Page 69: Estadistica ii

Especificación Sala internación

El sistema es una simplificación del problema real (describirlo).

La especificación del problema está dada por el detalle de los objetivos,

las hipótesis de trabajo, las variables de decisión, las respuestas y las duraciones de las distintas actividades (tabla 6.1) y el diagrama de actividades (fig 2.2).

Page 70: Estadistica ii

Especificación Sala internación

Aclaración de hipótesis: a) El arribo de los pacientes se describe mediante Proceso

Poisson de tasa constante (aproximación burda pero inicial)b) El sistema opera continuamente, cuando en realidad

pacientes agendados para operación no arriban por la noche.

Consideraremos el sistema en estado estacionario, por lo tanto investigaremos el efecto de cambiar valores de las variables de decisión en parámetros estables. (estudio completo cap 8).

Medidas importantes: utilización de camas y tiempos de espera.

Page 71: Estadistica ii

Programa

Se programa según algún método elegido.

La sala de operaciones es agendada por dos tipos de eventos:fin de operación, y tiempo en que está cerrada.

Se define una variable booleana que controla esas condiciones en la entidad "sala de operaciones" que siempre está en el calendario

(ver record en libro pag 107).

Las variables de decisión se declaran como constante globales.

Page 72: Estadistica ii

ProgramaEl unidad de tiempo de la simulación es la hora.

q4 es una cola ficticia, ventaja: cada actividad está compuesta por el par de eventos C y B, lo que facilita la modificación posterior del programa.

Los histogramas se declaran y nuevos valores son ingresados cada vez que haya un cambio en algún tipo de evento C o B.

Page 73: Estadistica ii

Período Run-in

Simulación del Hospital es de tipo "Estacionaria", debemos determinar cuando comenzar a tomar datos para procesar.

Utilizamos el método de promedios acumulados (tabla 6.2) se agrega código en la fase B del ejecutivo para producir promedios de las respuestas cada 49 hs simuladas. La Fig 6.1 grafica los datos obtenidos.

Page 74: Estadistica ii

Período Run-in Observar que: la cola de solo internados y el tiempo de espera para operación alcanzan el estado estable rápidamente ( se admite para operación si no hay pacientes tipo solo internación). La estabilidad se alcanza alrededor de las 720 hs.

En un proyecto real, se deben obtener un cierto número considerable de promedios acumulados de respuestas, usando diferentes torrentes de números para asegurarse de que realmente se ha alcanzado el estado estacionario.

Page 75: Estadistica ii

ResultadosSe simularon 14 días luego de alcanzada la estabilidad. Se utilizaron números distintos que los utilizados para determinar el período run-in.Observar:

- La distribución de las filas de "solo internados" y pacientes a operar, tienen una varianza grande.

- Las camas han tenido un gran porcentaje de utilización ( 20 en 318 hs de 336 simuladas)

- 26 pacientes fueron operados y su tiempo de espera fue muy variado.

Cada corrida con un conjunto de diferentes torrentes producen una replicación. Se necesitan varias replicaciones para obtener datos mas acertados. Los datos ameritan reducción de varianza.

Page 76: Estadistica ii

Taller de reparaciones

Simulación terminal. Alcanza estabilidad enseguida. Se toman datos durante toda la simulación.Se podrían considerar las máquinas como variables de decisión. La lógica del programa se presta para adecuarlo a este cambio.A tener en cuenta: cómo continuar luego de teminada la jornada de trabajo (estudienlo!).

Page 77: Estadistica ii

Taller de reparaciones (2)

Buena práctica: declarar los niveles de recursos y torrentes de número como constantes globales. Fácil de alterar durante la experimentación.Resultados: el número de máquinas rotas varió entre 0 y 10. La utilización de mecánicos fue mayor que la de equipos (84.25% vs 68.7%). Durante un gran período de tiempo los mecánincos estuvieron todos ocupados.

Page 78: Estadistica ii

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

1998 1999 2000

Ejecutado

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

1998 1999 2000

Ejecutado

IMPORTANTE

Maestristas a nivel nacional en administración

Page 79: Estadistica ii

MUESTREO

POBLACIÓN DE TAMAÑO N

MUESTRA DE TAMAÑO n

Page 80: Estadistica ii

Censo

Conocer parámetros+ Tiempo para realizarlo

+ Costo

Muestreo

Estimar parámetros- Tiempo para realizarlo

-CostoPersonal profesional

Promedio

Proporción

Total T

P

t

p

x

Page 81: Estadistica ii

MUESTREO

DISEÑOS DEMUESTREO

ESTADÍSTICO

ALEATORIO IRRESTRICTO (MAI; MSA)

MUESTREO SISTEMÁTICO

ESTRATIFICADO

POLIETÁPICO

POR CONGLOMERADOS

IGUALPROPORCIONALNEYMANÓPTIMA

Page 82: Estadistica ii

MUESTREO

ESTUDIO DEMUESTREO

QUE DISEÑO DE MUESTREO SE DEBE UTILIZAR

CUAL ES EL TAMAÑO ÓPTIMO DE LA MUESTRA

QUEDISEÑO

CARACTERÍSTICAS DE LA POBLACIÓN

TAMAÑO DELA MUESTRA TAMAÑO DE LA POBLACIÓN N

GRADO DE VARIABILIDAD

NIVEL DE PRECISIÓN

NIVEL DE CONFIABILIDAD t (TABLAS)

2d

DISEÑO DE MUESTREO

PARÁMETRO A ESTIMAR (PROMEDIO, PROPORCIÓN, TOTAL

Page 83: Estadistica ii

MUESTREO SIMPLE ALEATORIO

POBLACIÓN DE TAMAÑO N

MUESTRA DE TAMAÑO nEN FORMA ALEATORIA

Page 84: Estadistica ii

PARA ESTIMAR EL VALOR DEPARÁMETROS DE INTERÉS

PARA QUE SE UTILIZA:

CUANDO SE UTILIZA:CUANDO LA VARIABILIDAD DELOS ELEMENTOS DE LAPOBLACIÓN BAJO ESTUDIO,SEA MÍNIMA

SUGERENCIAPRÁCTICA

CUANDO EL COEFICIENTE DEVARIACIÓN < 15 %

Page 85: Estadistica ii

ETAPAS EN UN ESTUDIO DE MUESTREO:

1.OBJETIVOS DEL ESTUDIO2.DEFINICIÓN DE LA POBLACIÓN BAJO ESTUDIO3.ESTABLECIMIENTO DEL MARCO DE MUESTREO4.DEFINIR PARAMETROS A ESTIMAR5.MUESTREO PRELIMINAR6.DEFINIR EL DISEÑO DE MUESTREO7.DETERMINAR CONFIABILIDAD Y PRECISIÓN8.DETERMINAR EL TAMAÑO DE LA MUESTRA9.DEFINIR LAS VARIABLES BAJO ESTUDIO10.ESTRUCTURACIÓN DEL CUESTIONARIO11.PRUEBA DEL CUESTIONARIO12.REALIZACIÓN DEL TRABAJO DE CAMPO

Page 86: Estadistica ii

szd

N

Nsn

2

1

DETERMINACIÓN DEL TAMAÑO ÓPTIMO DE LA MUESTRA

pqzd

N

Npqn

2

1

szd

N

Nsn

2

1

Indicadores 1989 1994 1998

99 75 67

5.6 4.8 4.2

12.2 17.8 25.3

13.3 15.7 7.6

Cobertura de Parto Institucional 37,6 42.3 59.2

Cobertura de IRA 28.7 43.4 47.2

Cobertura de EDA 24 32.4 36.2

PAI

DPT 3 28.4 42.8 48.6

Sarampión 57.5 55.7 50.8

Polio 37.8 47.5 39.1Elaboración: Unidad de Reforma de Salud - MSyPS 1998* Informe Preliminar

Tasa de mortalidad infantil (por 1000 nacidos vivos)

ENDSA

% de mujeres que usan anticonceptivos modernos

% de niños menores de 5 años con desnutrición moderada

Tasa global de fecundidad

Indicadores 1989 1994 1998

99 75 67

5.6 4.8 4.2

12.2 17.8 25.3

13.3 15.7 7.6

Cobertura de Parto Institucional 37,6 42.3 59.2

Cobertura de IRA 28.7 43.4 47.2

Cobertura de EDA 24 32.4 36.2

PAI

DPT 3 28.4 42.8 48.6

Sarampión 57.5 55.7 50.8

Polio 37.8 47.5 39.1Elaboración: Unidad de Reforma de Salud - MSyPS 1998* Informe Preliminar

Tasa de mortalidad infantil (por 1000 nacidos vivos)

ENDSA

% de mujeres que usan anticonceptivos modernos

% de niños menores de 5 años con desnutrición moderada

Tasa global de fecundidad

Page 87: Estadistica ii

UNIDAD 5: TEORIA DEL MUESTREOEL MUESTREO

Por ser la técnica del muestreo de aplicación casi general en las investigaciones sociales, es evidente la importancia que tiene su estudio y la necesidad en que se halla en investigador social de conocer por lo menos sus principios y prácticas básicos, aunque se trate de una materia basada en las leyes de azar y el cálculo de probabilidades, que pertenece al campo matemático de la estadística.

Una muestra es una parte representativa de un conjunto, población o universo, cuyas características debe reproducir en pequeño lo más exactamente posible.

De momo más científico, se pueden definir las muestras como una parte de un conjunto o población debidamente elegida, que se somete a observación científica en representación del conjunto, con el propósito de obtener resultados válidos, también para el universo total investigado.

Las muestras tienen un fundamento matemático-estadístico. Este consiste en que obtenidos de una muestra, elegida correctamente y en proporción adecuada, unos determinados resultados, se puede hacer la inferencia o generalización, fundada matemáticamente, de que dichos resultados son válidos para el universo del que se ha extraído la muestra, dentro de unos límites de error y probabilidad, que se pueden determinar estadísticamente en cada caso.

Page 88: Estadistica ii

UNIDAD 5: TEORIA DEL MUESTREO : EL MUESTREO

Las muestras presentan las siguientes ventajas:1. Mediante ellas, con una muestra relativamente reducida con relación al

universo, se pueden encuestar grandes poblaciones y núcleos humanos, que de otra manera sería muy difícil o prácticamente imposible investigar.

2. Las muestras suponen una gran economía en las encuestas y la posibilidad de mayor rapidez en su ejecución.

3. Una muestra puede ofrecer resultados más precisos que una encuesta total, aunque esté afectada del error que resulta de limitar el todo a una parte.

La condiciones de las muestras son:1. Que comprendan parte del universo y no la totalidad de este.2. Que su amplitud sea estadísticamente proporcionada a la magnitud del

universo. Esta condición e halla en relación con el punto práctico de determinación del tamaño de la muestra y sirve para decidir si, según las unidades que comprende respecto al universo, una muestra es o no admisible.

3. La ausencia de distorsión en la elección de los elementos de la muestra. Si esta elección presenta alguna anomalía, la muestra resultará por este mismo viciada.

Page 89: Estadistica ii

UNIDAD 5: TEORIA DEL MUESTREOEL MUESTREO

•La selección de las unidades de observación es un paso primordial en toda investigación. De cómo se realice dicha operación dependerá la calidad de los resultados de la investigación.

•Una de las primeras decisiones a tomar es la especificación y acotación de la población a analizar. Esta depende de cuál sea el problema y los objetivos principales de la investigación.

•Universo o Población se refieren al conjunto total de elementos que constituyen un área de interés analítico. Comúnmente se entiende como un conjunto de unidades sobre las cuales se desea obtener información.

•Las unidades pueden ser personas, familias, viviendas, organizaciones, artículos de prensa, etc.

•Lo que constituye la población total está definido por problemáticas de tipo teórico. El universo puede ser la población total de la humanidad, la población de un país, de una región, etc.

•En la definición y acotación de la población se deben mencionar ls características esenciales que la ubiquen en un espacio y tiempo concreto. Ej. En una investigación sobre la ocupación del tiempo luego de jubilar, una posible definición del universo de estudio sería la siguiente: Población de 65 años y màs que residen en la V región.

Page 90: Estadistica ii

UNIDAD 5: TEORIA DEL MUESTREO . EL MUESTREO

Una vez definida la población, se procede al diseño de la muestra: la selección de unas unidades concretas de dicha población.

Aunque el universo sea de pequeña dimensión, por razones de economía (en tiempo y dinero), rara vez se observa a cada una de las unidades que lo forman. Por el contrario, se decide la extracción de una muestra de entre los integrantes del universo.

La representatividad depende del tamaño de la muestra y del procedimiento seguido para la selección de las unidades muestrales.

Si a partir de los datos obtenidos en una muestra, quieren inferirse las características correspondientes de la población (parámetros poblacionales), es necesario diseñar una muestra que constituya una representación a pequeña escala de la población a la que pertenece.

Los diseños muestrales probabilísticos se fundamentan en la Estadística Inferencial configurada a partir de la Teoría de las Probabilidades.

Cualquier diseño muestral comienza con la búsqueda de documentación que ayude a la identificación de la población de estudio.

Con el término marco se hace referencia al “listado que comprende las unidades de la población”. Puede ser un Censo general de la población, un registro de individuos o cualquier otro procedimiento que lleve a la identificación de los miembros de una población.

Page 91: Estadistica ii

UNIDAD 5: TEORIA DEL MUESTREO : EL MUESTREO

Los elementos principales de la muestra son la base y la unidad de la misma.La base de la muestra es la población de la que se obtiene o saca la muestra.La importancia de la base de la muestra se deriva de que esa, operativamente, es el resultado de la elección de unidades dentro de una población o conjunto previamente determinado de aquellas. Por ello, fundamento básico de la muestra, es la existencia de un registro de dicho conjunto, en el que aparezcan individualizadas todas sus unidades y permita realizar la elección mediante un sorteo riguroso.Esta concreción individualizada de las unidades del universo es el punto de partida y el fundamento necesario para realizar con rigor al elección en que consiste la muestra y por ello se dice que constituye la base de la muestra en sentido estricto.Esta puede consistir en un Censo, un registro, una lista, un fichero, un catálogo, un mapa, un plano, etc.En la base de la muestra deben figurar individualizadas todas las unidades que forman la población con expresión de su número en el universo, nombre, domicilio en su caso, etc.La base de la muestra hace posible la identificación de los elementos que se hayan seleccionado mediante la muestra y su encuesta posterior.La base de la muestra no siempre existe. Ej. Público que circula por las calles ni los asistentes a un espectáculo. Aquí se elige una muestra con un procedimiento aleatorio imperfecto como encuestar uno de cada cinco que se encuentren en la calle.

Page 92: Estadistica ii

UNIDAD 5: TEORIA DEL MUESTREO: REQUISITOS DEL MARCO MUESTRAL

El marco muestral debe cumplir los siguientes requisitos para que sea un descriptor válido de la población:

1. Debe ser lo más completo posible. La muestra escogida sólo podrá considerarse representativa de la población comprendida en el marco de muestreo elegido, es decir, a aquellos que han tenido la probabilidad de ser elegidos para participar en la muestra. Por esta razón, la comprehensividad se convierte en una exigencia básica de todo marco muestral.

2. La comprehensividad del marco muestral conlleva la exigencia de su actualización. En la medida que el marco muestral se halle actualizado las posibilidades de omisiones se restringen. Por el contrario, aumenta la probabilidad de que éste contenga a los miembros reales de la población que representa.

3. Cuando la investigación persigue la generalización de los datos muestrales (a la población que conforma el marco muestral) es preciso que cada componente de la población esté igualmente representado en el marco de muestreo. Es decir, no deben haber duplicidades.

4. El marco muestral no debe incluir unidades que no correspondan a la población que se analiza. La inclusión de estas unidades reduce la probabilidad de elección de las unidades que sí pertenecen a la población.

5. El marco muestral debe contener información suplementaria que ayude a la localización de las unidades seleccionadas: teléfono y dirección.

Page 93: Estadistica ii

93

UNIDAD 5: TEORIA DEL MUESTREOEJEMPLOS DE MARCOS MUESTRALES

Ejemplo de comprehensividad del marco de muestreo:La Guía Telefónica es un marco de muestreo habitual en una encuesta telefónica. Pero tiene restricciones porque limita la población a las personas con un número de teléfono registrado y excluye a aquellos que no tienen teléfono. Por otro lado, generalmente el número está registrado a nombre del jefe de hogar, apareciendo la mayoría hombres.Si la finalidad de la investigación fuese conocer la opinión de los psicólogos españoles sobre su actividad profesional, un marco de muestreo idóneo sería el directorio de psicólogos colegiados. Pero la muestra sólo será representativa de los psicólogos colegiados y no de la totalidad de los psicólogos españoles. Tampoco incluye a los psicólogos que se han inscrito recientemente.

Ejemplo de supresión en un marco de muetreo:Si se hiciera una encuesta a la población mayor de 40 años, habría que circunscribir la población a esta cuota de edad. Las personas de 40 años y menos deberían eliminarse del marco muestral. Esto podría hacerse a priori (antes de proceder a la extracción de la muestra) o a posteriori (una vez que la muestra ha sido seleccionada). Aquí, de la muestra obtenida, se sustraen aquellas unidades que no pertenezcan a la población de interés.

Page 94: Estadistica ii

94

UNIDAD 5: TEORIA DEL MUESTREOELECCION DE LA MUESTRA

Operativamente la muestra es una selección de unidades dentro de un conjunto, que no es otro que la base de la muestra. Esta es, entonces, el resultado de una elección y por tanto, su bondad depende de la bondad de la elección.

La bondad de esta elección depende de dos condiciones fundamentales: una estadística y otra teórica.

De acuerdo con la primera, debe ser válida la generalización de los resultados obtenidos en la muestra a la población.

Según la teórica, la muestra elegida debe ser adecuada para el logro de la investigación y la prueba de las hipótesis teóricas que constituyan su razón de ser.

Estadísticamente, el principio básico de elección de la muestra es que ésta se haga, siempre que sea posible, de tal modo que cada elemento de la población tenga la misma probabilidad de ser elegido.

Esto se cumple si la elección tiene lugar por un procedimiento aleatorio riguroso.

Pero no siempre es posible realizarlo así, de aquí que existen diversos procedimientos de elección de la muestra que se pueden clasificar según se conozca o no la probabilidad de elección de cada unidad.

Page 95: Estadistica ii

UNIDAD 5: TEORIA DEL MUESTREO EJERCICIOS MUESTREO

Dadas las investigaciones que se encuentran a continuación, determine razonablemente si se basan en una muestra del universo correspondiente y si, en caso afirmativo, la muestra es correcta.

Para realizar el sociograma de una clase, se pide a todos los alumnos que expresen en una papeleta los nombres de sus compañeros de clase que les gustaría tener sentados a su lado y aquellos que no.

Respuesta: No es muestra pues fueron encuestados todos los alumnos de la clase.

Para estudiar las prácticas sexuales de los varones en una prisión se entrevistó a todos los que se presentaron voluntariamente a responder el cuestionario que se había preparado.

Respuesta: Genéricamente se puede decir que hay una muestra ya que se hizo la encuesta a sólo una parte del universo. Sin embargo, se trata de una muestra viciada, basada en un sistema de elección inadecuado, por lo que no se puede considerar representativa del universo ni sus resultados extensibles a este.

Page 96: Estadistica ii

post-grado en administración UNFV

UNIDAD 5: TEORIA DEL MUESTREO EJERCICIOS MUESTREO

Un antropólogo social ha convivido durante dos años con una familia típica de una localidad de Chile, se ha ganado su confianza y ha logrado que sus miembros le expusieran los aspectos de su vida de interés para su investigación.

Respuesta: Este estudio, aunque se diga que se basa en una familia típica, no se puede considerar como muestra, pues un solo caso no es suficiente.

Para estudiar las infracciones de circulación cometidas por no detención ante el signo PARE, un equipo permaneció de 8 de la mañana a 8 de la noche ante la señal durante tres días de la semana consecutivos.

Respuesta: El universo son todas las infracciones. Como sólo se investiga una parte, se puede hablar de una muestra de todas ellas. Pero esta muestra es desviada y no representativa del universo porque sólo proporciona información de unas horas determinadas y de sólo tres días de la semana.

Page 97: Estadistica ii

UNIDAD 5: TEORIA DEL MUESTREO EJERCICIOS MUESTREO

Para predecir los resultados de elección municipal en una comunidad, el encuestador preguntó su candidato preferido a todos los hombres y mujeres con derecho a voto.

Respuesta: No existe muestra pues se consulta a todo el universo y no parte de ellos.

En otra elección a diputados en que se presentaba un candidato de derecha y otro de izquierda, se realizó el sondeo de opinión a una muestra elegida al azar con base en la lista telefónica, por medio del teléfono. Se obtuvo un resultado favorable al candidato de derecha, aunque fue elegido luego el de izquierda.

Respuesta: En este sondeo, la muestra tampoco es representativa, aunque se halla escogido al azar. Presenta la distorsión que supone el hecho de que los que poseen teléfono son de un cierto nivel económico.

Page 98: Estadistica ii

UNIDAD 5: TEORIA DEL MUESTREO EJERCICIOS MUESTREO

Para estudiar las actitudes políticas de una sociedad cultural que agrupa 5.000 miembros se ha decidido realizar una encuesta por cuestionario a 500 de ellos elegidos arbitrariamente, además de 200 entrevistas a otros tantos socios elegidos al azar, si bien en la realidad los entrevistadores se permitieron sustituir frecuentemente los socios elegidos por otros.

Respuesta: Hay en los dos casos, en principio, muestra del universo. Sin embargo, la primera es inadmisible por cuanto no reúne la condición de basarse la elección en un procedimiento racional, si es posible al azar, y además se opone al principio de que dicha elección no debe ser arbitraria, pues hay un gran peligro de que prevalezcan criterios subjetivos en ella.

En el segundo caso, la muestra correcta inicialmente ha resultado viciada en la realidad por la sustitución personal y, por tanto, subjetiva que los entrevistadores se han permitido.

Page 99: Estadistica ii

UNIDAD 5: TEORIA DEL MUESTREO: EJERCICIOS MUESTREO

Supuestos los siguientes estudios que se ha pensado realizar por encuesta muestral, se pide indicar la base y la unidad de la muestra.

Un estudio sobre las condiciones estructurales y funcionales de las asociaciones voluntarias privadas de España, con exclusión de las económicas, religiosas, políticas y sindicales.

Respuesta: La base de la muestra es el registro oficial de asociaciones. La unidad es cada aosciación.

Una investigación sobre la relación entre la estabilidad familiar y la clase social en una ciudad pequeña.

Respuesta: La Base sería el Censo o padrón de vecinos de la ciudad. La unidad sería la familia.

Un estudio sobre las condiciones de vivienda familiares de la zona madrileña de Vallecas.

Respuesta: La base sería el plano de la zona. Las manzanas serían la unidad de la muestra

Que tengas un buen día..


Recommended