Date post: | 22-Nov-2015 |
Category: |
Documents |
Upload: | victor-stronsky |
View: | 129 times |
Download: | 10 times |
APUNTES DE ESTADISTICA
Nancy Lacourly
Con la colaboracion de Ernesto San Martn y Felipe Faras
PREFACIO
Este curso de estadstica hace parte del plan comun de ingeniera
Como para algunas
carreras es el unico curso que tendra el alumno de Ingenieria se ha trata aqu dar una
vision de la metodologa basica de la Inferencia Estadstica y una introduccion a los modelos
lineales y metodos multidimensionales Se busca preparar al futuro ingeniero en la aplicacion
de modelos estadsticos para tratar fenomenos aleatorios en fsica mecanica o economa en
donde se encuentra errores de medicion errores de muestreo etc as como grandes volumenes
de datos que en la actualidad pueden ser estudiados facilmente
Si bien el calculo de las probabilidades es una teora matematica abstracta que deduce conse
cuencias de un conjunto de axiomas al contrario la estadistica necesita dar una interpretacion
concreta a la nocion de probabilidad Varias interpretaciones fueron propuestas por los es
tadisticos que se pueden resumir en dos puntos de vista diferentes la nocion frecuentista y
la nocion intuicionista
El punto de vista frecuentista asocia la nocion de probabilidad a la nocion emprica de frecuen
cia basada en observaciones aleatorias repetidas mientras que el punto de vista intuicionista
liga la nocion de probabilidad a lo incierto para denir un grado de creencia
Este texto fue nanciado parcialmente por la Escuela de Ingeniera y Ciencias Proyecto Docente
INDICE
INTRODUCCION A LA ESTADISTICA
HISTORICO
EJEMPLOS DE PROBLEMAS ESTADISTICOS
EL RAZONAMIENTO ESTADISTICO
Recoleccion de los datos
Descripcion estadstica de los datos
Analisis de los datos
Decision o prediccion
TEORIA DE MUESTREO
DISTRIBUCIONES EN EL MUESTREO
INTRODUCCION
TIPOS DE VARIABLES
FUNCION DE DISTRIBUCION EMPIRICA
Caso de variables numericas reales o enteras
Caso de variables no son numericas nominal u ordinal
DISTRIBUCIONES EN EL MUESTREO Y EN LA POBLACION
Media muestral
Varianza muestral
Caso de una distribucion normal
Valores extremos
Cuantilas
ESTIMACION PUNTUAL
INTRODUCCION
METODO DE LOS MOMENTOS
METODO DE MAXIMA VEROSIMILITUD
EJEMPLOS
PROPIEDADES
Invarianza
Consistencia
Estimador insesgado
Suciencia
ESTIMADORES BAYESIANOS
Distribuciones a priori
Distribuciones a posteriori
Funciones de perdida
Estimadores de Bayes
Estimadores de Bayes para muestras grandes
EJERCICIOS
ESTIMACION POR INTERVALO
INTRODUCCION
CASO BAYESIANO
INTERVALO DE CONFIANZA DE NEYMANN
EJERCICIOS
TESTS DE HIPOTESIS
GENERALIDADES
HIPOTESIS ESTADISTICAS
TEST DE HIPOTESIS PARAMETRICAS
Funcion de potencia
Tests para hipotesis simples
Tests UMP
Tests usuales
TESTS
La distribucion normal multivariada
La distribucion multinomial
Test de ajuste para un modelo multinomial
Test de ajuste para una distribucion discreta
Test de ajuste para una distribucion continua
Test de independencia en una tabla de contingencia
EJERCICOS
INTRODUCCION A LA ESTADISTICA
INTRODUCCION A LA ESTADISTICA
La estadstica es una rama del metodo cientco que trata datos empricos es decir datos
obtenidos contando o midiendo propiedades sobre poblaciones de fenomenos naturales cuyo
resultado es incierto
En teoria de las probabilidades estudiaron el experimento relativo a tirar un dado y hicieron
el supuesto que el dado no esta cargado sucesos elementales equiprobables lo que permite
deducir que la probabilidad de sacar un numero par es igual a A partir de un modelo
probabilitico adecuado se deduce nuevos modelos o propiedades En Estadistica tratamos
responder a la pregunta el dado no esta cargado comprobando si el modelo probabilistico
de equiprobable subyacente esta en acuerdo con datos experimentales obtenidos tirando el
dado un cierto numero de veces Se propone entonces un modelo probabilitico que debe seguir
los datos y no lo contrario
La teora de las probabilidades permite deducir propiedades a partir de una serie de axiomas
mientras que la Estadtica propone metodos para vericar hipotesis
Esta introduccion se inicia con una breve presentacion historica de la estadstica para seguir
con algunos ejemplos de problemas estadsticos Siguen las etapas del razonamiento que se
usa para resolver tales problemas Terminamos esta introduccion con la presentacion de la
teora de muestreo que es la base de la solucion de todo problema estadstisco
HISTORICO
Antes de la aparicion del calculo de las probabilidades en el siglo la estadstica se ha
desarrollado poco y se limita a estudio descriptivo que es la parte de la estadstica que no se
apoya sobre la nocion de probabilidad En efecto es una actividad bien antigua aquella de
recolectar datos para conocer la situacion de los estados el emperador chino Yao organizo
un censo de producciones agricolas en AC en Egipto ya se hacan catastros y censos
en AC mas cerca los Incas con sus quipus mantenan al da las estadsticas de las
cosechas Durante este perodo los censos de poblaciones y recursos naturales son solo cifras
informativas y descriptivas Es solo en el siglo que se expande la idea introducida por el
ingles John Grant que las estadsticas demogracas podran servir de base a predicciones
Con Adophe Quetelet se empieza a concebir que la estadstica puede ser fundada en el calculo
de las probabilidades Pero hay que esperar los primeros estadsticos matematicos ingleses
despues de para ver realmente una metodologa estadstica como una teora inductiva
bien formalizada que permite inducir a partir de datos observados particulares conclusiones
generales sobre el comportamiento probabilstico de fenomenos observados Despues de la
Estadstica Matematica que se desarrolla entre y los estadsticos neobayesianos
proponen hacer inferencia no solo a partir de los datos observados sino tomando tambien en
cuenta el conocimiento a priori respecto de los modelos probabilsticos En la misma epoca
la aparicion de los computadores potentes permite el auge del analisis de grandes
INTRODUCCION A LA ESTADISTICA
volumenes de datos con mas observaciones y mas variables Un conjunto de tecnicas para
estudiar datos multidimensionales que se basan en modelos no probabilsticos permiten
describir clasicar y simplicar los datos con el objeto de facilitar su interpretacion ademas
de sugerir leyes modelos o explicar fenomenos
EJEMPLOS DE PROBLEMAS ESTADISTICOS
Probar si una moneda esta cargada
Hacer predicciones demogracas a partir de un censo
Controlar de la calidad de un proceso de fabricacion
Estudiar la conabilidad de un material
Evaluar el efecto de un fertilizante sobre la cosecha del choclo
Evaluar la ecacia de una droga para combatir una enfermedad
Predecir los resultados de una eleccion presidencial
Evaluar la audiencia de los programas de television
Evaluar el efecto del consumo de alcohol sobre los reejos del conductor
Evaluar la pobreza en un pas
Todos estos problemas son distintos algunos se podran basar en datos censales y otros en
datos muestrales Pero hay una lnea general del razonamiento que es la misma para todos
EL RAZONAMIENTO ESTADISTICO
Las etapas del razonamiento estadstico son generalmente las siguientes
Recoleccion de los datos
Descripcion estadstica de los datos
Analisis de los datos
Decision o prediccion
INTRODUCCION A LA ESTADISTICA
Recoleccion de los datos
Se distingue los censos en que los datos estan recolectados sobre la integralidad de las
unidades de la poblacion considerada de los muestreos en los cuales se recoge informaciones
sobre solo una parte de la poblacion La forma de elegir la muestra depende del problema
diseno de muestreo y diseno de experimentos y puede ser muy compleja pero generalmente
la muestra esta obtenida aleatoriamente y llama a usar la teora de las probabilidades
Descripcion estadstica de los datos
La descripcion estadstica permite resumir reducir y presentar el contenido de los datos con el
objeto de facilitar su interpretacion sin considerar que estos datos provienen de una muestra
Las tecnicas dependeran del volumen de las observaciones de la cantidad de las variables de
la naturaleza de los datos y de los objetivos del problema
Analisis de los datos
El analisis estadstico es la etapa mas importante del razonamiento estadstico y general
neralmente se basa en un modelo matematico o probabilstico Tal modelo dependera de
los datos y eventualmente del conocimiento a priori que se puede tener sobre el fenomeno
estudiado El modelo no esta en general totalmente determinado es decir se plantea una
familia de modelos de un cierto tipo por ejemplo en el caso de modelos probabilsticos
podra ser una distribucion normal una distribucion de Poisson o una distribucion Beta o en
el caso de modelos matematicos podra ser un modelo lineal Estos modelos tendran algunos
parametros indeterminados Se trata entonces de jar lo mejor posible tales parametros
desconocidos a partir de datos empricos obtenidos sobre una muestra es un problema de
estimacion estadstica Por otro lado antes o durante el analisis se tienen generalmente
consideraciones teoricas respecto del problema estudiado y se trata entonces de comprobarlas
o rechazarlas a partir de los datos empricos es un problema de test estadstico
Decision o prediccion
Una vez analizados los datos se tiene en general que tomar una decision o proceder a alguna
prediccion que dependera del analisis previo Por ejemplo se tiene que decidir a partir de
algunos experimentos si un tratamiento es ecaz o bien predecir el IPC del proximo mes
TEORIA DE MUESTREO
Una base importante de la estadstica esta contenida en la teora de muestreo
INTRODUCCION A LA ESTADISTICA
Los datos experimentales son obtenidos sobre conjunto de individuos u objetos llamado
poblacion sobre el cual se quiere conocer algunas caractersticas La poblacion puede ser
nita por ejemplo en una encuesta de opinion es la poblacion de un pas o una region los
productos fabricados por una maquina o innita cuando la poblacion se dene a partir del
experimento de tirar un dado o sacar valores de la distribucion de probabilidad de la va
N es el espacio muestral Como generalmente la poblacion a estudiar es demasiado
vasta o incluso innita se extrae solamente un subconjunto de la poblacion llamadamuestra
sobre la cual se observan caractersticas llamadas variables Como entonces sacar una
muestra de una poblacion o de una distribucion de probabilidad desconocida para obtener
informaciones dedignas sobre la poblacion de la cual proviene Es lo que pretende contestar
la teora de muestreo planteando la pregunta de otra manera Si la distribucion probabilidad
de obtener la muestra que se obtuvo La teora de muestreo permite de demir el tamano
de la muestra a tomar pero la forma de seleccionar los elementos de la muestra tambien
Se tiene varios metodos de muestreo para obtener muestras que dependiendo del problema
pueden ser muy complejos
Los valores de las variables obtenidos sobre los elementos de la muestra se llaman valores
muestrales Ahora bien cuando se emiten conclusiones sobre una poblacion a partir solo de
valores muestrales entonces estos resultados estan afectados de errores debidos al muestreo
Pero se tiene generalmente errores de medicion tambien que pueden inuir sobre la precision
de las conclusiones
Ahora bien hay que observar que los errores de muestreo decrecen con el tamano de la muestra
pero los errores de observacion crecen con este tamano Lo ideal es entonces tener un buen
equilibrio entre estos tipos de errores
Se vio en el curso de probabilidad que el muestreo aleatorio simple mas permite sacar
muestras de tamano dado equiprobables distinguiendo el mas con reemplazo del mas sin
reemplazo
Dado un experimento aleatorio E y una poblacion o espacio muestral de sucesos ele
mentales el conjunto de n realizaciones del experimento E es una muestra de tamano
n
Una muestra aleatoria simple con reemplazo o con repeticion se obtiene realizando n
repeticiones independientes del experimento E tomando sobre los sucesos elementales
equiprobables Se obtiene entonces una ntupla de
Una muestra aleatoria simple sin reemplazo o sin repeticion se obtiene de la poblacion
realizando el experimento E
sobre Se obtiene un suceso
con equiprobabilidad
sobre n f
g Se obtiene un suceso
con equiprobabilidad
sobre n f
g Se obtiene un suceso
con equiprobabilidad etc
As se obtienen elementos de todos distintos
INTRODUCCION A LA ESTADISTICA
El muestreo aleatorio simple es un metodo para obtener muestras de tamano jo de tal
forma que todas las muestras de mismo tamano tengan la misma probabilidad de ser
seleccionadas Pero no es la unica forma de proceder
DISTRIBUCIONES EN EL MUESTREO
DISTRIBUCIONES EN EL MUESTREO
INTRODUCCION
Los metodos estadsticos permiten confrontar modelos matematicos o probabilsticos con los
datos empricos obtenidos sobre una muestra
Dadas observaciones obtenidas sobre una muestra de tamano n se busca deducir
propiedades de la poblacion de la cual provienen
Si se tiene una sola variable aleatoria X cuya funcion de distribucion F es desconocida
obteniendo observaciones de esta variable X buscaremos conocer a la funcion de distribucion
F de la poblacion Los valores X
X
X
n
de una va X obtenidos sobre una muestra de
tamano n son los valores muestrales
Se busca entonces por ejemplo estimar la media de la distribucion F a partir de los valores
muestrales Esto tendra sentido si la muestra es representativa de la poblacion
TIPOS DE VARIABLES
La cantidad y la naturaleza de las cactersticas que se puede medir sobre los elementos de
una poblacion son de varios tipos Supondremos aqu una sola variable que es una funcion
X Q Se distingue la naturaleza de la variable X segun el conjunto Q
variable cuantitativa tambien llamada intervalar si Q es un intervalo de IR o todo IR
es una va real continua
variable discreta si Q es un subconjunto de IN
variable cualitativa o nominal si Q es un conjunto nito de atributos o modalidades
no numericos
variable ordinal si Q es un conjunto de atributos no numericos que se pueden ordenar
El tratamiento estadstico depende del tipo de variable considerada
FUNCION DE DISTRIBUCION EMPIRICA
Caso de variables numericas reales o enteras
Sean X
X
X
n
los valores muestrales obtenidos de un mas
DISTRIBUCIONES EN EL MUESTREO
F
n
x
CardfX
i
x
i
xg
n
es la proporcion de observaciones de la muestra inferiores o iguales
a x F
n
x tiene las propiedades de una funcion de distribucion F nx es monotona no
decreciente tiene limites a la derecha y a la izquierda es continua a la derecha F
F Ademas sus puntos de discontinuidad son en numero nito y son con salto
x
F
Figura Una distribucion emprica
Ademas para x jo F
n
x es una variable aleatoria y nF
n
x es una va igual a la suma de
variables de Bernoulli independientes de mismo parametro F x o sea nF
n
x Bn F x
Teorema Para todo x F
n
x converge casiseguramente hacia la distribucion teorica
Fx de X
Demostracion Como nF
n
x Bn F x de la ley de los grandes numeros se concluye que
P lim
n
F
n
x F x
O sea que F
n
x
cs
F x
Teorema GlivenkoCantelli
D
n
sup
x
j F
n
x F x j
Teorema Kolmogorov
La distribucion asintotica de D
n
es conocida y no depende de X
lim
n
P
p
nD
n
y
X
K
expK
y
No se demuestran estos dos teoremas
DISTRIBUCIONES EN EL MUESTREO
Caso de variables no son numericas nominal u ordinal
Cuando las variables no son numericas Q es un conjunto nito
Q fq
q
q
r
g La distribucion de poblacion esta denida por las probabilidades
IP X q
k
k r
Dada una muestra aleatoria simple X
X
X
n
de tamano n se dene las proporciones en
el muestreo s
j
CardfX
i
q
j
g
n
j r
Consideramos el caso r por ejemplo una pieza es defectuosa o no es defectuosa sea p la
probabilidad desconocida que una pieza este defectuosa Dada una muestra aleatoria simple
de tamano n si f
n
es la proporcion de piezas defectuosas encontradas entre las n observadas
nf
n
sigue una distribucion Binomialnp y ademas f
n
N p p pn
DISTRIBUCIONES EN EL MUESTREO Y EN LA POBLACION
Sean X
X
X
n
los valores muestrales
Denicion Las funciones de los valores muestrales son va llamadas estadsticos y
las distribuciones de los estadsticos se llaman distribuciones en el muestreo
La distribucion de la va X que es generalmente desconocida se llama distribucion de
poblacion Se le da en general una expresion teorica Se supone por ejemplo que la dis
tribucion de poblacion pertenece a una familia de distribuciones por ejemplo la distribucion
normal la distribucion beta o la distribucion de Poisson Quedan desconocidas en este caso
solo algunas caractersticas Estas caractersticas son los parametros de la distribucion de
poblacion
Los estadsticos y sus distribuciones en el muestreo o sus distribuciones asintoticas cuando n
tiende a permiten estimar los parametros desconocidos de la distribucion de poblacion
Media muestral
Sean X
X
X
n
los valores muestrales independientes e identicamente distribuidos iid
de una va X Se dene la media muestral como
X
n
P
X
i
n Si la distribucion de poblacion
tiene como esperanza y varianza y
respectivamente EX
i
y V arX
i
para
todo i entonces E
X
n
y V ar
X
n
n Si ademas la distribucion de poblacion es
normal entonces la distribucion en el muestreo de
X
n
tambien lo es Los valores muestrales
X
i
no provienen necesariamente de una distribucion normal pero si son iid entonces la
distribucion asintotica de
X
n
p
n
es N TEOREMA DEL LIMITE CENTRAL
DISTRIBUCIONES EN EL MUESTREO
Varianza muestral
Sea una mas fX
X
Xng con EX
i
y VarX
i
S
n
n
P
n
i
X
i
X
n
n
P
X
i
X
n
n
P
n
i
X
i
X
n
Propiedades
S
n
cs
n
P
n
i
X
i
cs
EX
y
X
n
cs
EX
S
n
mc
E
S
n
Calculo de ES
n
ES
n
E
n
P
X
i
X
n
E
n
P
X
i
X
n
ES
n
n
P
V arX
i
V ar
X
n
n
P
n
ES
n
n
n
Calculo de V arS
n
V arS
n
n
n
n
n
en que
E
X
es el momento teorico de orden de la va X
Se deja este calculo como ejercicio
V arS
n
n
Calculo de Cov
X
n
S
n
Cov
X
n
S
n
E
X
n
S
n
n
n
Cov
X
n
S
n
E
n
P
X
i
n
P
X
j
X
n
n
n
Cov
X
n
S
n
E
n
P
X
i
n
P
X
j
X
n
n
n
EX
i
i y EX
i
X
j
i j
Cov
X
n
S
n
n
E
P
X
i
E
X
n
Cov
X
n
S
n
n
E
P
X
i
n
E
P
X
i
Cov
X
n
S
n
n
n
n
n
si n Cov
X
n
S
n
lo que no signica que hay independencia
En particular si la distribucion es simetrica
entonces Cov
X
n
S
n
Caso de una distribucion normal
X
i
N
iid
X
n
N
n
DISTRIBUCIONES EN EL MUESTREO
S
n
n
P
X
i
X
n
nS
n
P
X
i
X
n
p
n
Como las va
X
i
son iid de una N entonces U
P
X
i
es una suma de
los cuadrados de n va independientes de N cuya distribucion es facil de calcular y se
llama Jicuadrado con n grados de libertad y se denota
n
Por otro lado
X
n
p
n
sigue una distribucion
con grado de libertad
En efecto recordemos en primer lugar la distribucion de Y Z
en que Z N
Sea x la funcion de distribucion de Z N y Fy la de Y Z
F y P Y y P Z
y P
p
y Z
p
y
p
y
p
y
Se deduce la funcion de densidad de Y
fy
p
y
expy y
Se dice que Y sigue una distribucion Jicuadrado con grado de libertad
Observando que la
tiene una distribucion Gamma particular ! la funcion gen
eratriz de momentos fgm se escribe
"
Y
t Ee
tY
t
t
Sea U
P
n
Y
i
P
n
Z
i
en que las Z
i
son
independientes entonces
"
U
t
t
n
que es la fgm de una distribucion Gamma
n
Se deduce as la funcion de densidad de U la va
n
una Jicuadrado con n gl
fu
n
u
n
!n
expu u
Se observa que EU n y V arU n y se tiene el siguiente resultado
Corolario La suma de k va independientes y de distribucion
a r
r
r
k
gl
respectivamente sigue una distribucion
a r
r
r
k
gl
Aplicamos estos resultados al calculo de la distribucion de S
n
cuando X N
Teorema Si X
X
X
n
son iid de la N
entonces la va nS
n
sigue una
distribucion
n
DISTRIBUCIONES EN EL MUESTREO
Demostracion Sea X el vector de las n va y una transformacion ortogonal Y BX tal
que la primera la de B es igual a
p
n
p
n Se tiene entonces que
Y
p
n
X
n
P
Y
i
P
X
i
P
X
i
X
n
n
X
n
Y
Y
n
nS
n
Y
p
n
Y
Y
n
X
X
n
La densidad conjunta de Y
Y
n
es entonces proporcional a
expfy
p
n
Y
Y
n
g
Luego Y
Y
n
son independientes y
p
n
X
n
Y
N
p
n
nS
n
Y
Y
n
g
n
Ademas
X
n
y S
n
son independientes
Teorema Sean X
X
X
n
va iid entonces
X
n
y S
n
son independientes si y solo
si las X
i
provienen de una distribucion normal
La demostracion se deduce del teorema y del corolario
Denemos a continuacion la distribucion t de Student Student es un seudonimo utilizado por
el estadstico ingles W S Gosset para publicar que tiene muchas aplicaciones en inferencia
estadstica como la distribucion
Denicion Si X e Y son dos va independientes X N e Y
n
entonces la
va T
X
p
Y
n
tiene una distribucion t de Student a n grados de libertad
Buscamos la funcion de densidad de la va T Si fx y es la densidad conjunta de X Y
y f
x y f
y las densidades marginales de X e Y respectivamente entonces fx y
f
xf
y
f
x
p
exp
x
x IR
f
y
n
y
n
!n
expy y
DISTRIBUCIONES EN EL MUESTREO
El jacobiano del cambio de variables X T
p
Wn e Y W es J
p
Wn Deducimos la
densidad conjunta de TW
gt w
r
w
n
e
t
w
n
p
w
n
e
w
n
!
n
w t
gt w
w
n
e
t
n
w
p
n
n!
n
w t
ht
!
n
x
n
n
p
n!
n
t IR
Se observa que la funcion de densidad de T es simetrica y ET y varT
n
n
para n Ademas para n se tiene la distribucion de Cauchy y para n grande se puede
aproximar la distribucion de T a una N
Aplicando estos resultados deducimos que la distribucion de la va
V
X
n
p
S
n
n
es una t de Student con n grados de libertad
Valores extremos
Es importante estudiar entre que valores podrian estar los valores muestrales
Si X
X
n
los estadsticos de orden los valores muestrales ordenados de menor a mayor
X
X
X
n
entonces X
inffX
X
n
g y X
n
supfX
X
n
g
En el curso de Probabilidades se estudio las distribuciones de estos estadsticos de orden en
funcion de la distribucion de poblacion Fx de X En particular
La distribucion de X
es F x
n
La distribucion de X
n
es F x
n
El rango W X
n
X
es otro estadstico interesante a estudiar
DISTRIBUCIONES EN EL MUESTREO
Cuantilas
Denicion Dada una funcion de distribucion Fx de X se llama cuantila de orden p
al valor x
p
tal que F x
p
p
Si tomamos p # entonces x
es tal que hay tantos valores por debajo que por arriba de
x
que se llamamediana de la distribucion Se llaman cuartilas a x
y x
y intervalo
intercuartila a x
x
Se observara que para una distribucion discreta o emprica F
n
una cuantila para un p dado
no es unica Se dene entonces como x
p
al valor tal que IP X x
p
p IP X x
p
ESTIMACION PUNTUAL
ESTIMACION PUNTUAL
INTRODUCCION
En un problema estadstico si los datos fueron generados a partir de una distribucion de
probabilidad Fx desconocida los metodos de la Inferencia Estadstica permite decir
algo respecto de esta distribucion Cuando se supone que tal distribucion no es totalmente
desconocida por ejemplo pertenece a una determinada familia de distribuciones entonces
son desconocidos solo uno o varios parametros que denen cada distribucion de esta familia
En este caso la teora de estimacion tiene por objetivo dar valores a estos parametros a partir
de los valores muestrales
Por ejemplo F x pertenece a la familia de las distribuciones normales N de varianza
igual a y de esperanza desconocida Aqu es el unico parametro desconocido de la
distribucion Pero si se supone la varianza tambien desconocida se tendran dos parametros
desconocidos la media y la varianza
Los parametros son constantes que toman valores en un espacio llamado espacio de parametros
$
N $ IR
N $ IR
Exp $
Binomialp $
Sean X
X
n
los valores muestrales obtenidos sobre una muestra aleatoria simple de una
va X de funcion de densidad fx en que es desconocido Hay varias maneras de
decir algo sobre Lo mas simple consiste en dar un valor unico para Es la estimacion
puntual se busca elegir un valor para a partir de los valores muestrales Es decir se tiene
que denir una funcion IR
n
$ que es un estadstico llamado estimador de El valor
tomado por esta funcion sobre una muestra particular de tamano n es una estimacion Otra
forma de estimar un parametro consiste en buscar no un solo valor para sino un conjunto
de valores un intervalo en general en el cual se tiene alta probabilidad de encontrar Es la
estimacion por intervalo
Procediendo as tratamos de estimar el valor de los parametros que son considerados
como constantes a partir de estadsticos que son aleatorios Ahora bien frecuentemente se
sabe algo mas sobre los parametros este conocimiento obviamente no es preciso sino no
se tendra el problema de estimar estos parametros pero se tienen ideas sobre sus posibles
valores que pueden ser traducidas a una funcion de distribucion a priori sobre el espacio
de parametro $ Los estimadores bayesianos toman en cuenta la distribucion a priori y los
valores muestrales
El problema es encontrar metodos que permitan construir estos estimadores
A continuacion daremos los metodos usuales de estimacion puntual
ESTIMACION PUNTUAL
METODO DE LOS MOMENTOS
Vimos en el captulo anterior que la media muestral
X
n
cs
EX Mas generalmente
si el momento
r
EX
r
existe entonces por la ley de los grandes numeros
m
r
n
X
X
r
i
cs
r
IP lim
n
m
r
r
Luego se puede estimar
r
como %
r
m
r
Ejemplo este metodo produce como estimador de la media %
X
n
y como estimador de
la varianza
m
X
n
S
n
METODO DE MAXIMA VEROSIMILITUD
Sean x
x
x
n
una muestra aleatoria simple de una va de densidad fx en que $
el espacio de parametros
Denicion Se llama funcion de verosimilitud a la densidad conjunta del vector de
los valores muestrales para todo vector observado x x
x
x
n
en la muestra se denota
f
n
x
Como los valores son independientes se tiene
f
n
x f
n
x
x
x
n
n
Y
i
fx
i
Un estimador del parametro basado en una muestra de tamano n es una funcion de los
valores muestrales x
x
x
n
a valores en el espacio de parametro $
El valor que toma el estimador sobre una muestra x
x
n
se llama estimacion o valor
estimado
El estimador de Maxima Verosimilitud es el estimador que hace f
n
x maxima
Tal estimador puede entonces no ser unico o bien no existir
EJEMPLOS
Ejemplo Una maquina produce diariamente un lote de piezas Un criterio basado sobre
normas de calidad vigente permite clasicar cada pieza fabricada como defectuosa o no defec
tuosa El cliente aceptara el lote si la proporcion de piezas defectuosas contenidas en el lote
no sobrepasa el valor
o
El fabricante tiene que controlar entonces la proporcion de piezas
ESTIMACION PUNTUAL
defectuosas contenidas en cada lote que fabrica Pero si la cantidad de piezas N de cada lote
es muy grande no podra examinar cada una para determinar el valor de El fabricante
efectua entonces el control de calidad de una muestra aleatoria pequena con n piezas Se
dene la va X que toma el valor si la pieza es defectuosa y en el caso contrario Sean
x
x
x
n
los valores obtenidos sobre la muestra
x
i
Bernoulli
f
n
x
n
Y
i
x
i
x
i
max
f
n
x max
Logf
n
x
Logf
n
x
n
X
i
x
i
Log x
i
Log
dLogf
n
x
d
P
x
i
n
P
x
i
Luego el estimador de maxima verosimilitud EMV
%
de es la proporcion de piezas
defectuosas observada
P
x
i
n
Ejemplo El ministerio de la salud quiere conocer la talla promedia de las mujeres chilenas
adultas Si X
X
X
N
son las tallas de todas las chilenas adultas
P
X
i
N Dado
el tamano grande de esta poblacion se obtiene la talla de una muestra aleatoria de tamano
pequeno n Sean x
x
x
n
Se supone que x
i
N
con y
desconocidos
f
n
x
n
expf
X
x
i
g
Logf
n
x es maximo cuando
X
n
la media muestral y
S
n
la varianza muestral
Notas
Si se supone la varianza poblacional
conocida el EMV de queda igual a la media
muestral
X
n
Se puede buscar el estimador de la varianza o bien de su raz El resultado no cambia
Ejemplo x
i
Uniforme
f
n
x
n
si x
i
i
Cuando x
i
para todo i f
n
x es no nulo y es decreciente en luego f
n
x es
maxima para el valor mas pequeno de que hace f
n
x no nulo el EMV de es entonces
%
maxfx
x
x
n
g
El metodo de los momentos produce un estimador bien diferente En efecto como
EX el estimador de los momentos es
X
n
ESTIMACION PUNTUAL
En este ejemplo una dicultad se presenta cuando se toma el intervalo abierto dado
que no se puede tomar como estimador el maximo
%
en este caso no existe EMV Puede
ocurrir que no es unico tambien si se dene el intervalo la funcion de verosimilitud
es
f
n
x si x
i
i
es decir
f
n
x si maxfx
x
n
g minfx
x
n
g
Por lo cual todo elemento del intervalo maxfx
x
n
g minfx
x
n
g es EMV
Aqu el estimador de los momentos que es igual a
X
n
es bien diferente tambien
PROPIEDADES
Como elegir un estimador Como decidir si un estimador es aceptable Para ayudarnos
en esta eleccion se puede estudiar si el estimador cumple ciertas propiedades razonables
Invarianza
Observamos en las notas del ejemplo que el EMV de se puede obtener directamente o
como la raiz del EMV de
Eso se debe de la propiedad de invarianza del EMV por
transformacion funcional
Proposicion Si
%
es el EMV del parametro si g $ $ es biyectiva entonces
g
%
es el EMV de g
Demostracion en efecto si g como g es biyectiva g
si f
n
x
f
n
xg
es maxima para % tal que g
%
%
% es necesariamente el EMV y como g
es biyectiva % g
%
Consistencia
Un estimador depende del tamano de la muestra a traves de los valores muestrales los
estimadores
%
n
asociados a muestras de tamano n n IN constituyen sucesiones de va
Un buen estimador deberia converger en algun sentido hacia
Denicion Se dice que un estimador
%
n
de un parametro es consistente cuando
converge en probabilidad hacia
IP j
%
n
j
n
ESTIMACION PUNTUAL
Los momentos empricos de una va real son estimadores consistentes de los momentos
teoricos correspondientes Mas aun la convergencia es casisegura y la distribucion asintotica
de estos estimadores es normal
Estimador insesgado
Denicion Se dice que un estimador
%
de es insegado si E
%
Vimos que la media muestral
X
n
es un estimador insesgado de la media poblacional si la mues
tra es aleatoria simple pero la varianza muestral S
n
n
P
x
i
x
n
no es un estimador
insesgado para la varianza poblacional
ES
n
n
n
Pero la diferencia jES
n
j
n que es el sesgo tiende a cero
Denicion Se dice que el estimador
%
es asintoticamente insesgado cuando E
%
n
Por otro lado se puede construir un estimador insesgado de
a partir de S
n
P
x
i
X
n
n Pero observamos que
n
n
es decir que el estimador
insesgado
tiene mayor varianza que S
n
Por otro lado observamos que si
%
n
es un estimador sesgado de se tiene
E
%
n
V ar
%
n
sesgo
En efecto
E
%
n
E
%
n
E
%
n
E
%
n
E
%
n
E
%
n
E
%
n
E
%
n
Si E
%
n
entonces
%
n
converge en media cuadratica hacia
%
n
mc
Proposicion
E
%
n
V ar
%
n
y E
%
n
Como la convergencia en media cuadratica implica la convergencia en probabilidad se tiene
Proposicion Si
%
n
es un estimador consistente de y E
%
n
es nito entonces
%
n
es
asintoticamente insesgado
Proposicion Si V ar
%
n
y E
%
n
entonces
%
n
es un estimador consistente
de
Nota Es una condicion suciente pero no necesaria
ESTIMACION PUNTUAL
Suciencia
En el ejemplo se busca deducir de las observaciones de una muestra aleatoria de n piezas
una informacion sobre la proporcion de piezas defectuosas en el lote total Es mas simple
considerar el numero de piezas defectuosas encontradas en la muestra en vez de la sucesion
de resultados x
x
x
n
El conocimiento de los valores individuales no procura ninguna
informacion aditiva para la proporcion que
n
X
i
x
i
Se redujo los n datos a un solo valor
que es funcion de estos datos sin perder informacion para determinar
En el ejemplo la media muestral
X
n
permite simplicar la informacion dada por los n
valores muestrales Pero nos preguntamos si se pierde informacion usando la media muestral
para estimar la media de la poblacion
Observamos que si suponemos la varianza conocida la funcion de verosimilitud puede es
cribirse como funcion unicamente de la media muestral y del tamano n de la muestra
f
n
x
p
n
expfn
X
n
g
Es decir que la unica informacion relevante para estimar es dada por la media muestral En
este caso se dice que la media muestral es un estadstico suciente Un estadstico suciente
que se toma como estimador del parametro debera contener toda la informacion que llevan
los valores muestrales sobre
Denicion Un estadstico T x
x
n
funcion de los valores muestrales y con valor en
$ se dice suciente para si la distribucion conjunta de los valores muestrales condicional
mente a T x
x
n
no depende de
Denicion Se dice que un estadstico T es suciente minimal si no se puede encontrar
otro estadstico suciente que hace una mejor reduccion de los datos que T
No es siempre facil detectar si un estadstico es suciente Los dos siguientes teoremas
permiten enunciar condiciones para que un estadstico sea suciente
Teorema Teorema de factorizacion
Si T x es suciente para y gT x es la densidad de T x entonces
f
n
x gT xhxT x
Teorema Theorema de DarmoisKoopman
Si X es una variable real cuyo dominio de variacion no depende del parametro una
condicion necesaria y suciente para que existe un estadstico suciente es que la funcion
de densidad de X sea de la forma
fx bxcexpfaxqg
ESTIMACION PUNTUAL
T
n
X
n
X
i
aX
i
es un estadstico suciente minimal
Si X N y una muestra aleatoria es x
x
n
de X
f
n
x
x
n
n
exp
X
x
i
exp
n
n
X
El termino exp
P
x
i
no depende de y el termino exp
n
n x
n
depende de y
X
n
n
X
P
x
i
es un estadstico suciente tambien toda funcion biyectiva de
X
n
lo es en
particular
X
n
ESTIMADORES BAYESIANOS
Distribuciones a priori
En el problema de estimacion de un parametro de una distribucion de funcion de densidad
fx es frecuente tener algunas ideas sobre los valores que puede tomar en este caso
conviene tomar en cuenta este conocimiento o creencia que se puede traducir en una dis
tribucion de probabilidad sobre el espacio de parametros $ sea Es decir que ahora
ya no es un parametro constante sino una variable aleatoria Esta distribucion no depende
de los valores muestrales Esta denida previo al muestreo
Por ejemplo en un proceso de fabricacion se tiene la proporcion desconocida de piezas
defectuosas Si no se sabe nada respecto a se puede suponer que todos los valores son
equiprobables U Pero uno puede sopechar que los valores alrededor de son
mas probables en este caso se podra tomar una distribucion mas concentrada en
Denicion Se llama distribucion a priori a la distribucion atribuida a un parametro
poblacional antes de tomar alguna muestra
Distribuciones a posteriori
Ahora hay que relacionar los valores muestrales con la distribucion a priori
La funcion de verosimilitud f
n
x es ahora una densidad condicional y hx f
n
x
es la densidad conjunta de x De la cual se puede deducir la distribucion condicional de
dado los valores muestrales x
ESTIMACION PUNTUAL
Denicion La distribucion condicional de dada la muestra x
x
n
se llama dis
tribucion a posteriori y su densidad es igual a x
f
n
x
g
n
x
en que
g
n
x
R
hx d es la densidad marginal de x
La distribucion a posteriori representa la actualizacion de la informacion a priori en vista
de la informacion contenida en los valores muestrales f
n
x Podemos entonces estudiar
esta distribucion a posteriori de dando la moda la media la mediana la varianza etc Un
estimador natural en este caso es tomar la moda de x que aparece como el maximo de
la verosimilitud corregida
Ejemplo Sean X Bernoullip y p eta con y dados
f
n
xp p
n
X
n
p
nn
X
n
p p
p
B p
en que B
La densidad a posteriori de p es entonces
px p
n
X
n
p
nn
X
n
B n
X
n
n n
X
n
que es la distribucion eta n
X
n
n n
X
n
La moda de esta distribucion cuando
esta denida es igual a n
X
n
n
Ejemplo Sean X N y N
x f
n
x se reere a la proporcionalidad con respecto a
x exp
P
x
i
x exp
n
X
n
x exp
n
X
n
La distribucion a posteriori de es entonces N
n
X
n
La moda de la distribucion es la
media
n
X
n
Funciones de perdida
Los metodos de estimacion propuestos hasta ahora no toman en cuenta un aspecto importante
del problema que son las consecuencias de tales estimaciones
Dado que los estimadores son la base de una decision nal es importante poder comparar los
procedimientos que conducen a estas decisiones mediente algun criterio de evaluacion que
mide las consecuencias de cada estimacion en funcion de los valores del parametro
ESTIMACION PUNTUAL
Denicion Se llama funcion de perdida o funcion de costo a la funcion
L $ $ en que L es creciente con el error entre el parametro y su
estimador
No es siempre facil denir esta funcion de perdida que es especca de cada problema y
puede tener algun aspecto subjectivo nocion de utilidad Sin embargo se puede elegir entre
diversas funciones de perdida clasicas cuando no se puede construir una propia
Funcion de perdida cuadratica
Es la funcion de perdida mas utilizada y mas criticada
L
que penaliza demasiado los errores grandes
Funcion de perdida absoluta
Una solucion alternativa a la funcion cuadradica es usar el valor absoluto
L j j
o bien una funcion afn por parte
L
k
si
k
si no
Funcion de perdida
Sea I
el intervalo de centro y largo
L
si I
si no
Estimadores de Bayes
La funcion de perdida L es una funcion de considerada como aleatoria con la dis
tribucion a posteriori x Luego es natural de buscar un estimador
x de tal que la
perdida promedio sea mnima
Denicion El estimador de Bayes es solucion de min
EL x
Funcion de perdida cuadratica
Para la funcion de perdida cuadratica L
el estimador de Bayes es simple
de encontrar E
x es mnimo para
x Ex
ESTIMACION PUNTUAL
Funcion de perdida absoluta
Para la funcion de perdida absoluta L jj el estimador de Bayes es la mediana
de la distribucion a posteriori Mostramos un resultado mas general
Proposicion El estimador de Bayes asociado a la distribucion a posteriori y a
la funcion de perdida
L
k
si
k
si no
es la fractila
k
k
k
de
Demostracion Se tiene
EL x k
Z
xd k
Z
xd
Derivando con respecto a se obtiene
k
IP x k
IP x
Es decir
IP x
k
k
k
En particular si k
k
se obtiene la mediana de la distribucion a posteriori de
Funcion de perdida
EL es mnimo cuando
R
I
xd es maximo Si entonces EL
es mnimo cuando x es maximo El estimador de Bayes es la moda de x
Teorema Theorema de RaoBlackwell
Si TX es un estadstico suciente para y si bX es un estimador insesgado de entonces
T EbXT
es un estimador insesgado de basado sobre T mejor que bX
Este teorema permite entonces construir estimadores insesgados mejores
Estimadores de Bayes para muestras grandes
Se muestra aqu a traves de un ejemplo los efectos de la distribucion a priori y de la funcion
de perdida sobre el estimador de Bayes para muestras grandes Sea la proporcion de
defectuosos Tomamos dos distribuciones a priori y dos funciones de perdida
ESTIMACION PUNTUAL
para y
para
L
y L
j j Las distribuciones a posteriori son respectivamente
x
n
X
n
nn
X
n
que es una eta n
X
n
n n
X
n
y
x
n
X
n
nn
X
n
que es una eta n
X
n
n n
X
n
Los estimadores de Bayes para la perdida cuadratica son las respectivas esperanzas de la
distribucion eta
n
X
n
n para y
n
X
n
n para
Los estimadores de Bayes para la perdida absoluta son las respectivas medianas de la dis
tribucion eta que se obtienen resolviendo la ecuacion
K
Z
d
en que n
X
n
y n n
X
n
para y n n
X
n
para
Si n y n
X
n
entonces y
para la perdida
cuadratica Se observara como la muestra corrige la distribucion a priori con las medias a
priori E con y E con
Encontramos ambos estimadores de Bayes a posteriori muy cercanos con n y cercanos
de la media muestral
X
n
En este ejemplo observamos que el estimador de Bayes cuadratico es consistente No se puede
siempre asegurar que el estimador de Bayes es consistente pero bajo condiciones bastante
generales es cierto
EJERCICIOS
Sea X
i
i n una muestra aleatoria simple de una va X de funcion de distribucion
Gamma
Estime EX por Maxima Verosimilitud Muestre que el estimador resultante es insesgado
convergente en media cuadratica y es consistente
Sea una mas x
x
n
de una va X de funcion de densidad fx x
I
Encuentre el estimador de Maxima Verosimilitud
%
de y pruebe que
%
es consistente y
asintoticamente insesgado
Sea Y una va de Bernoulli de parametro Considere una mas y
y
n
y una
distribucion a priori Betaab para Obtenga el estimador de Bayes
%
para usando
una funcion de perdida cuadratica Muestre que
%
es sesgado asintoticamente insesgado
convergente en media cuadratica y consistente
ESTIMACION PUNTUAL
Sean dos preguntas complementarias Qvota por Pedro y Q&no vota por Pedro
Se obtiene una mas de n personas que contestan a la pregunta Q o Q& lo unico que se sabe
es que cada persona ha contestado a Q con probabilidad conocida y Q& con probabilidad
Se denen
p la probabilidad que una persona contesta SI a la pregunta Q o Q&
la proporcion desconocida de votos para Pedro en la poblacion
a De la proporcion en funcion de p y
b De el estimador de Maxima Verosimilitud de p y deduzca un estimador % para Calcule
la esperanza y la varianza de %
c Estudie las propiedades de % estudie en particular la varianza % cuando
Suponga que X tiene una funcion de densidad fx y que T X es un estimador de
Bayes insesgado para con la funcion de perdida cuadratica y una distribucion a priori
a Demuestre que E T X
b Asuma que fx es una N Pruebe que E
X
n
n
Concluya si
X
n
puede
ser un estimador de Bayes para perdida cuadratica
Sea x
x
x
n
una mas de una distribucion tal que IP x
i
a b
Se dene y
i
si x
i
a b
en caso contrario
a De la distribucion de y
i
b De el estimador de maxima verosimilitud
%
de
c De la esperanza y la varianza de
%
d Sean las distribuciones a priori de
!
!!
Distribucion Beta y
De los estimadores de Bayes y sus varianzas cuando se usa una funcion de perdida cuadratica
e Aplicacion numerica de las soluciones a las preguntas anteriores con los valores n
x
i
y ab
Sea fX
X
X
n
g una mas de una va X con funcion de densidad fx Sea
Y
X
X
n
un estimador de Se dene Y
i
el estimador calculado sobre la muestra
salvo la observacion i i n Y
i
nY n Y
i
y Y
n
P
n
i
Y
i
a Calcule la varianza S
de Y
cuando Y
X
n
la media muestral y EX
b Deducir la distribucion de Y
S
cuando Y
X
n
y X N
Sea X una va real con densidad fx $ f
N
g nito
Sean una distribucion de probabilidad a priori sobre $ y la funcion de perdida
L
si
c si
c
ESTIMACION PUNTUAL
a Pruebe que la perdida esperada se escribe como EL c
x en donde es
la distribucion a posteriori sobre $
b Deduzca la condicion que debe satisfacer para ser el estimador de Bayes de asociado
a Pruebe que el estimador no depende de c
c Si es la distribucion uniforme sobre $ pruebe que el estimador de Bayes de y el
estimador de maxima verosimilitud coinciden
Se considera la distribucion discreta IP X x a
x
x
h con x en donde
h es diferenciable y a
x
puede ser nulo para algunos x
Sea fx
x
x
n
g una mas de esta distribucion
a De las expresiones de h y h
b De el estimador de maxima verosimilitud de en funcion de h y h
c Muestre que el estimador de maxima verosimilitud es el mismo que el del metodo de los
momentos
d Aplique lo anterior para los casos siguientes
i X BinomialN p N conocido
ii X Poisson
Sean T
i
i I estimadores del parametro tales que ET
i
b
i
b
i
R
Se dene un nuevo estimador T de como T
P
I
i
i
T
i
a De una condicion sobre los
i
para que T sea insesgado
b Suponga que b
i
i estimadores insesgados Plantee el problema de encontrar los
coecientes
i
para que la varianza de T sea mnima
c Suponiendo que los T
i
son no correlacionados resuelva el problema planteado antes
d Sean X
ij
i M j n
i
M mas independientes entre si de variables aleatorias
X
i
con distribuciones normales de varianza comun
Sea s
i
n
i
P
n
i
j
X
ij
X
i
el estimador insesgado de la varianza calculado en la muestra
i
Demuestre que S
P
M
i
n
i
M
P
M
i
n
i
s
i
es el estimador lineal insesgado de varianza
mnima para
ESTIMACION POR INTERVALO
ESTIMACION POR INTERVALO
INTRODUCCION
Vimos en el captulo anterior metodos de estimacion puntual Pero no podemos esperar
que la estimacion que produce coincida exactamente con el verdadero valor del parametro
desconocido Aqu buscamos entonces construir un intervalo
tal que la probabilidad
que este en el intervalo sea alta
Esta probabilidad tiene diferente interpretacion segun estemos en el caso bayesiano o no Se
tiene entonces dos clases de metodos para construir estos intervalos
CASO BAYESIANO
En el bayesiano el intervalo tiene una interpretacion imediata a partir de la distribucion a
posteriori de Lo unico inconviente es la falta de unicidad de tal intervalo Pero es natural
buscar el intervalo de largo mnimo
Ejemplo Vimos que si X Bernoullip y p eta entonces la distribucion a
posteriori de p es una eta n
X
n
n n
X
n
px p
n
X
n
p
nn
X
n
B n
X
n
n n
X
n
Se dene entonces un intervalo p
p
de probabilidad tal que IP p
p p
calculada
a partir de la distribucion
INTERVALO DE CONFIANZA DE NEYMANN
En el caso de estimacion no bayesiana el parametro no es una variable aleatoria En este
caso es el intervalo
que es aleatorio y se habla de la probabilidad de que el parametro
cubre el intervalo Los valores
y
son entonces funciones de los valores muestrales
SeanX
X
X
n
los valores muestrales se tiene que encontrar dos funciones
t
X
X
X
n
y
t
X
X
X
n
tales que
IP
siendo la cantidad jada a priori y llamada el nivel de conanza Generalmente se
determinan las funciones t
y t
a partir de un estimador de
Ejemplo Intervalo para una media
Sea X N
con la media desconocido y la varianza
conocida y una muestra de
tamano n Sea X
X
n
los valores muestrales si
X es la media muestral Z
X
p
n
ESTIMACION POR INTERVALO
N Si IP u
Z u
X u
p
n
X u
p
n
dene un intervalo para de
nivel de conanza
Hay una innidad de intervalos de mismo nivel de conanza Pero se puede mostrar
que el intervalo
X u
X u simetrico con respecto a
X tiene el largo mnimo entre los
intervalos de mismo nivel de conanza igual a Por ejemplo para se obtiene
el intervalo
X
p
n
X
p
n
Si no se supone que es conocida se tiene que usar un estadstico cuya distribucion muestral
no depende de Eso nos lleva a usar el estadstico
T
X
q
P
X
i
X
n
que sigue una distribucion t Student a n gl
El estadstico T puede escribirse en funcion del estimador sesgado %
de T
X
%
p
n
Si IP t
t t
X t
%
p
n
X t
%
p
n dene un intervalo para de nivel de
conanza
Como en el caso de la distribucion normal el intervalo mas corto de nivel de conanza
es simetrico con respecto a
X
X t%
p
n
X t%
p
n con t tal que IP t t
n
t
Ejemplo Intervalo para una varianza
Si los valores muestrales X
X
n
son iid de la N
U
P
X
i
X
n
Un intervalo de nivel de conanza se obtiene a partir de IP u
U u
IP
P
X
i
X
u
P
X
i
X
u
Ejemplo Intervalo para la diferencia de dos medias
Sean dos poblaciones normales N
y N
Se consideran una muestra aleatoria
de tamano n
de la primera poblacion y una muestra aleatoria de tamano n
de la segunda
poblacion las dos muestras siendo independientes Si
X
y
X
son las medias muestrales
respectivas d
X
X
N
n
n
Si las varianzas son conocidas entonces un intervalo para d esta dado por
X
X
u
r
n
n
X
X
u
r
n
n
con u determinado a partir de las tablas de la distribucion
normal segun el nivel de conanza
Si las varianzas no son conocidas para encontrar un estadstico que nos sirve y cuya dis
tribucion no depende de estas varianzas hay que hacer alguno supuesto suplementario En
efecto si tomamos como estimador de la varianza de la diferencia
n
n
con %
y %
las
varianzas muestrales sesgadas
n
%
n
%
n
n
y
ESTIMACION POR INTERVALO
X
X
r
n
n
r
n
n
n
n
t
n
n
que depende de la varianzas desconocidas
y
Si se supone que estas varianzas son proporcionales
k
entonces se tiene un estadstico
que no depende de
y
X
X
r
k
n
n
k
n
n
k
n
n
n
n
t
n
n
Usualmente si toma k
Ejemplo Intervalo para el cuociente de dos varianzas la distribucion F de Fisher
Sean dos poblaciones normales N
y N
nos interesamos al cuociente de las
varianzas
El estadstico n
%
n
y el estadstico n
%
n
siendo estos independientes
Mostramos que si U
r
y V
s
y son independientes entonces Y sUrV sigue una
distribucion de Fisher a r y s grados de libertad con una funcion de densidad igual a
hy
!
rs
!
r
!
s
r
r
s
s
y
r
ry s
rs
y
Como U y V son independientes se puede calcular facilmente la funcion de densidad conjunta
de UV
fu v
u
r
e
u
r
!r
v
s
e
v
s
!s
Con el cambio de variablesU V Y Z con U rY Zs y V Z obtenemos la densidad
conjunta de Y Z
gy z
rsz
rs
!r!s
rs
r
y
r
z
rs
e
rysz
Se deduce la densidad marginal de Y
fy
Z
gy zdz
!
rs
r
r
s
s
y
r
!r!sry s
rs
Observamos que si Y F
rs
entonces Y F
sr
ESTIMACION POR INTERVALO
Ejercicio Muestre que
rYs
rWs
eta
r s
Aqu el estadstico
n
%
n
n
%
n
F
n
n
lo que permite construir un intervalo de
conanza para el cuociente
Ejemplo Intervalo para una proporcion
Sea la proporcion de piezas defectuosas en un lote de piezas fabricadas por una industria
El numero de piezas defectuosas encontradas en una muestra aleatoria simple de tamano n
sigue una distribucion binomial Bn Para construir un intervalo de conanza para una
proporcion es mas complicado que para una media o varianza Cuando n es pequeno hay
que recorrer a la distribucion binomial tablas y abacos fueron calculados para determinar
valores de
y
para los diferentes valores de k y n y del nivel de conanza
Cuando n es grande se puede usar la aproximacion a la distribucion normal
N n n pero la varianza depende tambien de
Si %p
Y
n
se tiene
IP j
p
n%p
p
j u
Lo que equivale a
IP n%p
u
Las soluciones de la ecuacion
n u
n%p u
n%p
siendo
n%p u
p
u
n%pu
nu
%p
n u
se obtiene
IP
n
n u
%p
u
n
u
s
%p %p
n
u
n
n
n u
%p
u
n
u
s
%p %p
n
u
n
Para n muy grande se puede aproximar por
IP %p u
s
%p %p
n
%p u
s
%p %p
n
EJERCICIOS
Sea una mas fx
x
n
g de una distribucion normal de media desconocida y varianza
conocida
a De el numero mnimo n del tamano de la muestra para que un intervalo de conanza I a
' tenga un largo L a lo mas igual a
ESTIMACION POR INTERVALO
b Sea L De el nivel de conanza cuando n y
c Repetir b con
desconocido Comente
d De el intervalo de conanza de largo mnimo para con un nivel de conanza de '
cuando
Una empresa desea estimar el promedio de tiempo que necesita una secretaria para llegar
a su trabajo Se toma una mas de secretarias y se encuentra que un promedio de
minutos Suponiendo que el tiempo de trayecto proviene de una N
con de un
intervalo de conanza para la media
Se dispone de muestras de sangre tomadas en las mismas condiciones a una misma
persona Se obtiene para cada una la dosis de Colesterol en gramos
Cada medida puede considerarse como una realizacion particular de
la variable tasa de Colesterol X N
a De un intervalo de conanza para al ' suponiendo
b De un intervalo de conanza para al ' suponiendo
desconocido
c Construya un intervalo de conanza para
al '
En el ejercicio del capitulo muestre que para construir un intervalo de conanza al
' para en el caso no bayesiano hay que resolver una inecuacion de segundo grado en
y escriba la inecuacion
En el ejercicio del capitulo suponiendo las Y
i
independientes y n grande de un
intervalo de conanza para a '
Se tienen muestras de tamanos n
y n
de una misma va X medida sobre dos
poblaciones distintas Se asume que para ambas poblacionesX sigue una distribucion Normal
con medias
y varianzas
respectivamente
a Construya un intervalo de conanza para
suponiendo que
k
en que k es
una constante conocida
b Muestre que los extremos del intervalo anterior convergen en probabilidad si los tamanos
de las muestras crecen
c Se supone ahora la constante k desconocida De un metodo para construir un intervalo de
conanza para la constante k
d Que inconveniente cree ud que tiene este metodo
Se considera una va X N y una mas de X con una sola observacion x Dada
una constante a se dene el intervalo aleatorio C
a
x min x a max x a
a Muestre que IP C
a
x x
b Muestre que C
a
x es un intervalo de conanza para de nivel de conanza '
cuando a
c Sea una distribucion a priori para Deducir la distribucion a posteriori
de dado x
d Sea la funcion de distribucion de la normal N Muestre que se encuentra una
ESTIMACION POR INTERVALO
probabilidad condicional
IP C
a
xx
x a si x a
a a si a x a
a x si x a
e Deducir que para a la probabilidad condicional IP C
a
xx y que
lim
a
IP C
a
xx
TESTS DE HIPOTESIS
TESTS DE HIPOTESIS
GENERALIDADES
En el captulo se presentaron metodos que permiten encontrar los valores de los parametros
desconocidos de la distribucion de poblacion y en el captulo anterior la estimacion por
intervalo permite dar una cierta indicacion sobre la precision de la estimacion puntual Tales
estimaciones puntuales y por intervalo que fueron obtenidas a partir de valores muestrales
permiten formarse una opinion sobre la poblacion y entonces darse una hipotesis de trabajo
Ejemplos
Antes de apostar cara o sello en el lanzamiento de una moneda se tiene que postular
que la moneda esta equilibrada La hipotesis de trabajo es entonces que el parametro
pprobabilidad de sacar cara de la Bernoulli es
p
Un agricultor se compromete a entregar a una fabrica de azucar remolacha con un cierto
porcentaje p
o
de glucosa la hipotesis de trabajo es entonces
p p
o
o p p
o
Los hombres chilenos pretenden ser mas altos que los argentinos en promedio si
y
son las tallas promedias respectivas de los hombres chilenos y argentinos la hipotesis
de trabajo es
Cuando se hizo la estimacion puntual de la talla promedia
de los hombres chilenos
se hizo la hipotesis de trabajo que la va X talla de los hombres chilenos sigue una
distribucion
F Normal
En los cuatro casos se procedera de la misma manera se tiene una hipotesis de trabajo y
una muestra de observaciones se trata de decidir si la hipotesis planteada es compatible con
lo que se puede aprender del estudio de los valores muestrales Se tiene que encontrar un
procedimiento para decidir si la muestra que se obtuvo esta de acuerdo con la hipotesis de
trabajo Naturalmente no se espera que para cualquier muestra el valor emprico obtenido
en la muestra coincide con el valor esperado de la hipotesis el problema es entonces decidir
si la desviacion encontrada entre el valor esperado y el valor observado en la muestra es
demiasiado grande para poner en duda la hipotesis de trabajo Ahora bien si se pone en
duda la hipotesis original entonces se la rechaza en favor de una hipotesis alternativa
TESTS DE HIPOTESIS
En efecto en el ejemplo de la moneda si se encuentra una proporcion de en lanza
mientos debemos rechazar la hipotesis p# y si se rechaza sera a favor de la hipotesis
p
Se distingue la hipotesis de trabajo llamandola hipotesis nula y una hipotesis nula se con
fronta a una hipotesis alternativa
Con que grado de desacuerdo uno tiene que abandonar la hipotesis nula para la
hipotesis alternativa
Para decidir se necesita una regla de decision Cualquier regla de decision debera tratar de
minimizar los errores de decision Si es la regla de decision adoptada y
la probabilidad
de equivocarse cuando la hipotesis nula es cierta y
la probabilidad de equivocarse cuando
la hipotesis alternativa es cierta uno buscara minimizar ambas probabilidades de error Pero
veremos a traves de un ejemplo que a tener
nula se hace
igual a e inversamente
Dada una hipotesis nula H
o
vimos que
es la probabilidad condicional de rechazar la
hipotesis H
o
con la regla cuando H
o
es cierta Ahora bien la regla se basa en los valores
muestrales si la muestra es de tamano n y los valores muestrales en IR una regla de decision
consiste en dividir el dominio IR
n
del conjunto de todas las muestras de tamano n en dos
partes disjuntas la parte W en donde se rechaza la hipotesis nula H
o
y la parte W en donde
no se rechaza La parte W se llama region de rechazo de H
o
o region crtica del test
Como la region crtica del test es aquella en donde se rechaza H
o
debera tomar en cuenta
la hipotesis alternativa
Una regla de decision consiste entonces en determinar la region crtica del test en funcion de
las dos hipotesis
HIPOTESIS ESTADISTICAS
Las hipotesis estadsticas son muy precisas se reeren al comportamiento de variables aleato
rias Pero en los ejemplos expuestos en el parrafo anterior se observara que las hipotesis no
son todas del mismo tipo En los tres primeros ejemplos la hipoptesis concierne solamente a
los valores de parametros de una distribucion cuya forma no esta puesta en duda y es especi
cada a priori Tales hipotesis se llaman hipotesis parametricas En el ultimo ejemplo es
la distribucion completa que esta puesta en juicio se habla de hipotesis no parametricas
Por ejemplo sea una va X de distribucion F x que depende de un parametro Si
es el espacio del parametro y
o
un subconjunto de entonces
H
o
es una hipotesis parametrica mientras que
H F Normal
TESTS DE HIPOTESIS
es una hipotesis no parametrica
Se puede clasicar tambien las hipotesis parametricas segun su grado de especidad Cuando
en la hipotesis parametrica
H
o
o
esta reducido a un solo valor entonces se habla de hipotesis simple sino se habla de
hipotesis compuesta
TEST DE HIPOTESIS PARAMETRICAS
Trataremos en primer lugar los tests de hipotesis parametricas para hipotesis simples antes
de tratar el caso general apoyandonos en los resultados del caso de las hipotesis simples
Encontrar una regla de decision es encontrar una region crtica del test Como hacerlo
minimizando los errores de decision Para eso usaremos la funcion de potencia
Funcion de potencia
Sea un test de hipotesis sobre el parametro de la distribucion F de una va X
H
o
o
contra H
Si una regla de decision nos condujo a una region crtica W para el test entonces para cada
valor de determinaremos la probabilidad que la regla de decision nos conduce a
rechazar H
o
cuando el parametro vale
Denicion La funcion IP rechazarH
o
se llama FUNCI
ON DE POTENCIA
del test
(OJO) aqu no es una variables aleatoria
W es la region crtica del test y x el vector de los valores muestrales entonces
IP x W
Luego la region crtica ideal es aquella que produce una funcion de potencia tal que
si
o
si
En efecto para todo
o
la decision de rechazar H
o
es una decision equivocada entonces
es una probabilidad de error de tipo I o riesgo de primer especie Por otro lado
para todo
la decision de rechazar H
o
es una decision correcta entonces es
una probabilidad de error de tipo II o riesgo de segundo especie
DiegoHighlight
TESTS DE HIPOTESIS
Denicion Se llama TAMA
NO del test a supf
o
g
El problema es que tal region crtica ideal no existe como lo veremos en el siguiente ejemplo
cuando se disminuye uno de los errores a se aumenta el otro a
Ejemplo Sea x
x
x
n
una mas de una va X uniforme en con
Consideramos la hipotesis nula H
o
contra la hipotesis alternativa H
o
Supongamos que una regla de decision nos llevo a decidir de no rechazar a la hipotesis
nula H
o
cuando maxfx
x
x
n
g de una mas de la va X esta en el intervalo y a
rechazar H
o
en el caso contrario Luego la region crtica del test es un subconjunto W IR
n
tal que maxfx
x
x
n
g o g La funcion de potencia del test es entonces
IP maxfx
x
x
n
g IP maxfx
x
x
n
g
Si
IP maxfx
x
x
n
g
IP maxfx
x
x
n
g
Si
IP maxfx
x
x
n
g
n
IP maxfx
x
x
n
g
n
Si
IP maxfx
x
x
n
g
n
IP maxfx
x
x
n
g
n
n
n
El tamano del test es igual a Supf g
n
En los gracos se muestra la funcion de potencia para los casos n y Se observa que
el tamano del test es decir que en el intervalo la probabilidad de equivocarse
no sobrepasa ' Pero el error de tipo II que es igual a cuando
o
puede ser
muy elevado entre y el error disminuye de a pero entre y es casi igual a
En este ejemplo si queremos disminuir el tamano del test hay que elegir un intervalo W
mas
grande o una muestra de tamano mayor Pero en ambos casos se aumentara el error de tipo
II Para tratar de acercarnos a la situacion ideal se puede por ejemplo buscar minimizar una
funcion de los dos errores o bien jarse una cota maxima para el error de tipo I y minimizar
el error de tipo II
TESTS DE HIPOTESIS
0 1 2 3 4 5 6 7 80
0.2
0.4
0.6
0.8
1
Graco Funcion de potencia para
la region crtica con n
0 1 2 3 4 5 6 7 80
0.2
0.4
0.6
0.8
1
Graco Funcion de potencia para
la region crtica con n
Tests para hipotesis simples
Sean x
x
x
n
los valores muestrales independientes de una va de funcion de densidad
fx Se plantea las hipotesis simples
H
o
o
contra H
Dada una regla de decision se tienen los dos errores
IP rechazarH
o
o
error de tipo I
IP no rechazarH
o
error de tipo II
Presentaremos en primer lugar comominimizar una funcion simple de los dos errores tomando
una funcion del tipo
a
b
Usaremos la solucion anterior para encontrar la forma de construir la region crtica tal que
si uno se ja una cota maxima para el error de tipo I el error de tipo II sea mnima
Dados dos escalares a y b buscamos minimizar la funcion a
b
Se denota f
o
x y
f
x a las funciones de verosimilitud dado H
o
y dado H
respectivamente
f
o
x
n
Y
i
fx
i
o
y f
x
n
Y
i
fx
i
Teorema Si
es la regla de decision tal que
se rechaza H
o
cuando af
o
x bf
x
se acepta H
o
cuando af
o
x bf
x
TESTS DE HIPOTESIS
entonces a
b
a
b
Demostracion Si W es la region crtica asociada a una regla de decision
Z
Z
W
f
o
xdx
dx
n
Z
Z
W
f
xdx
dx
n
a
b
a
Z
Z
W
f
o
xdx
dx
n
b
Z
Z
W
f
xdx
dx
n
Luego a
b
es mnimo cuando
R
R
W
af
o
x bf
xdx
dx
n
es mnimo
Es decir si
af
o
x bf
x x W
af
o
x bf
x x W
entonces
es optimo para estos valores a y b dados Se observara que f
o
x bf
x es
irrelevante dado que no cambia el mnimo
Denicion Se llama RAZ
ON DE VEROSIMILITUD de la muestra al cuociente
f
x
f
o
x
Sea
o
la cota maxima de error de tipo I que se quiere aceptar
Denicion Se llama NIVEL DE SIGNIFICACI
ON del test a la cota maxima de error
de tipo I aceptada
Se tiene entonces que buscar una regla de decision que produce un error de tipo I
o
y tal que
sea mnimo El siguiente lema que deriva del teorema anterior nos da la
forma de proceder
Lema NEYMANPEARSON
Si
es una regla de decision tal que para algun k jo
se rechaza H
o
si
f
x
f
x
k
no se rechaza H
o
si
f
x
f
x
k
entonces para toda regla tal que
se tiene
Ejemplo sea x
x
n
de una muestra aleatoria simple de la va X N
descono
cido y
conocido Se estudia H
o
contre H
La razon de verosimilitud se
escribe
f
x
f
o
x
expf
X
x
i
X
x
i
g
TESTS DE HIPOTESIS
f
x
f
o
x
expf
X
x
i
ng
f
x
f
o
x
expf
P
x
i
n
g
La regla de decision que minimiza a a
b
consiste en rechazar H
o
si
f
x
f
o
x
a
b
es decir
X
ln
a
b
Si
y n la region crtica R que es de la forma f
X cg depende de a y b
si ab c# pero si a b y c o si a b y c en particular si a# y
b# R f
X g pero si a# y b# R f
X g
El error de tipo I
es IP
X C Como
X N
n bajo H
o
c
p
n
en que x es la funcion de distribucion de N
El error de tipo II
es IP
X c IP
X c
c
p
n
Si ab como c# para n se obtiene
pero con
n
Si se obtuvo una media muestral
X para una muestra aleatoria de tamano no se
rechaza H
o
con un error de tipo I de cuando se toma ab si se toma a y
b se rechaza H
o
a favor de H
con un error de tipo I igual a
Si ahora se tiene un nivel de signicacion jado a
o
entonces se obtiene una region
crtica R f
X cg tal que
IP
X c
Como
p
n
X N
IP
X c
p
nc
p
Como se obtiene que
p
nc
p
es decir que c y
R f
X g En este caso no se rechaza H
o
Tests UMP
Vamos extender ahora los resultados del lema de NeymanPearson para hipotesis compuestas
Sean las hipotesis compuestas H
o
o
contra H
Si nos jamos un nivel de signicacion
o
buscamos una regla de decision tal que la funcion
de potencia cumple
o
o
y sea maxima
TESTS DE HIPOTESIS
Ahora bien no es siempre posible encontrar un test que satisfaga esta condicion En efecto
si f
g un test podra tener una potencia maxima para
pero no necesariamente
para
Retomando el ejemplo anterior si tomamos como una hipotesis alternativa con dos valores
H
f g entonces para la region crtica mas potente sera de la formaR f
X cg
que como lo vimos no es la region crtica mas potente para
Denicion Si un test maximiza la funcion de potencia para todo valor de la hipotesis
alternativa H
se dice que el test es uniformemente mas potente UMP es
decir que
es un test UMP al nivel de signicacion
o
si
o
y si para todo otro
test tal que
o
se tiene
Observamos en el ejemplo que la razon de las verosimilitud dado
y
se escribe
f
n
x
f
n
x
expf
n
X
g
Se observa que
f
n
x
f
n
x
depende de x a traves solo de la media muestral
X ademas crece
en funcion de
X si
Es decir que este cuociente es monotono con respecto a
X
Denicion Se dice que f
n
x tiene una razon de verosimilitud monotona para un
estadstico gx si y solo si
tal que
el cuociente
f
n
x
f
n
x
depende del vector
x a traves de la funcion gx y el cuociente es una funcion creciente de gx x
En el ejemplo anterior f
n
x tiene una razon de verosimilitud monotona en x Veamos
otro ejemplo una muestra aleatoria de una Bernoulli de parametro p
Tomando y
P
x
i
f
n
xp p
y
p
ny
Si p
p
f
n
xp
f
n
xp
p
p
p
p
y
p
p
n
cuociente que depende de x a traves de y y es una funcion creciente de y tiene una razon
de verosimilitud monotona en
P
x
i
Denicion Un test sobre las hipotesis H
o
o
contra H
o
se dice test
unilateral y un test sobre las hipotesis H
o
o
contra H
o
se dice test bilateral
Vamos a mostrar que si f
n
x tiene una razon de verosimilitud monotona en algun es
tadstico T entonces existe un test UMP para las hipotesis H
o
o
contra H
o
Teorema Si f
n
x tiene una razon de verosimilitud monotona en el estadstico T y
si c es la constante tal que IP T c
o
o
entonces la regla de decision que permite
rechazar la hipotesis nula si T c es un test UMP para H
o
o
contra H
o
al
nivel de signicacion
o
TESTS DE HIPOTESIS
Demostracion Sea
tal que
o
IP rechazar H
o
o
o
IP aceptar H
o
Del lema de NeymanPearson se deduce que entre todos los procedimientos tales que el error
de tipo I
o
el valor de
sera mnimo para el procedimiento
que consiste en
rechazar H
o
cuando
f
n
x
f
n
x
o
k k siendo elegido de tal forma que
IP rechaza H
o
o
o
Como
f
n
x
f
n
x
o
es una funcion creciente de T un procedimiento que rechaza H
o
cuando el
cuociente es al menos igual a k es equivalente al procedimiento que rechaza H
o
cuando T es
al menos igual a una constante c
La constante c es elegida de tal forma que IP rechazar H
o
o
o
Ahora bien esto es cierto para todo
o
Luego este procedimiento es U M P para
H
o
o
contra H
o
Por otro lado la funcion de potencia es no decreciente en y por lo tanto que si
o
o
entonces
o
o
Cuando f
n
x no tiene una razon de verosimilitud monotona el test de razon de verosim
itud permite resolver una gran cuantidad de problemas
Si H
o
$
o
contra H
$
se dene
x
Supf
n
x $
Supf
n
x $
o
El test de razon de verosimilitud consiste en rechazar H
o
si x k y no rechazar H
o
si
x k
El problema es encontrar la dis