Apunte Profesora Nancy Lacourly

APUNTES DE ESTADISTICA

Nancy Lacourly

Con la colaboracion de Ernesto San Martn y Felipe Faras

PREFACIO

Este curso de estadstica hace parte del plan comun de ingeniera

Como para algunas

carreras es el unico curso que tendra el alumno de Ingenieria se ha trata aqu dar una

vision de la metodologa basica de la Inferencia Estadstica y una introduccion a los modelos

lineales y metodos multidimensionales Se busca preparar al futuro ingeniero en la aplicacion

de modelos estadsticos para tratar fenomenos aleatorios en fsica mecanica o economa en

donde se encuentra errores de medicion errores de muestreo etc as como grandes volumenes

de datos que en la actualidad pueden ser estudiados facilmente

Si bien el calculo de las probabilidades es una teora matematica abstracta que deduce conse

cuencias de un conjunto de axiomas al contrario la estadistica necesita dar una interpretacion

concreta a la nocion de probabilidad Varias interpretaciones fueron propuestas por los es

tadisticos que se pueden resumir en dos puntos de vista diferentes la nocion frecuentista y

la nocion intuicionista

El punto de vista frecuentista asocia la nocion de probabilidad a la nocion emprica de frecuen

cia basada en observaciones aleatorias repetidas mientras que el punto de vista intuicionista

liga la nocion de probabilidad a lo incierto para denir un grado de creencia

Este texto fue nanciado parcialmente por la Escuela de Ingeniera y Ciencias Proyecto Docente

INDICE

INTRODUCCION A LA ESTADISTICA

HISTORICO

EJEMPLOS DE PROBLEMAS ESTADISTICOS

EL RAZONAMIENTO ESTADISTICO

Recoleccion de los datos

Descripcion estadstica de los datos

Analisis de los datos

Decision o prediccion

TEORIA DE MUESTREO

DISTRIBUCIONES EN EL MUESTREO

INTRODUCCION

TIPOS DE VARIABLES

FUNCION DE DISTRIBUCION EMPIRICA

Caso de variables numericas reales o enteras

Caso de variables no son numericas nominal u ordinal

DISTRIBUCIONES EN EL MUESTREO Y EN LA POBLACION

Media muestral

Varianza muestral

Caso de una distribucion normal

Valores extremos

Cuantilas

ESTIMACION PUNTUAL

INTRODUCCION

METODO DE LOS MOMENTOS

METODO DE MAXIMA VEROSIMILITUD

EJEMPLOS

PROPIEDADES

Invarianza

Consistencia

Estimador insesgado

Suciencia

ESTIMADORES BAYESIANOS

Distribuciones a priori

Distribuciones a posteriori

Funciones de perdida

Estimadores de Bayes

Estimadores de Bayes para muestras grandes

EJERCICIOS

ESTIMACION POR INTERVALO

INTRODUCCION

CASO BAYESIANO

INTERVALO DE CONFIANZA DE NEYMANN

EJERCICIOS

TESTS DE HIPOTESIS

GENERALIDADES

HIPOTESIS ESTADISTICAS

TEST DE HIPOTESIS PARAMETRICAS

Funcion de potencia

Tests para hipotesis simples

Tests UMP

Tests usuales

TESTS

La distribucion normal multivariada

La distribucion multinomial

Test de ajuste para un modelo multinomial

Test de ajuste para una distribucion discreta

Test de ajuste para una distribucion continua

Test de independencia en una tabla de contingencia

EJERCICOS



La estadstica es una rama del metodo cientco que trata datos empricos es decir datos

obtenidos contando o midiendo propiedades sobre poblaciones de fenomenos naturales cuyo

resultado es incierto

En teoria de las probabilidades estudiaron el experimento relativo a tirar un dado y hicieron

el supuesto que el dado no esta cargado sucesos elementales equiprobables lo que permite

deducir que la probabilidad de sacar un numero par es igual a A partir de un modelo

probabilitico adecuado se deduce nuevos modelos o propiedades En Estadistica tratamos

responder a la pregunta el dado no esta cargado comprobando si el modelo probabilistico

de equiprobable subyacente esta en acuerdo con datos experimentales obtenidos tirando el

dado un cierto numero de veces Se propone entonces un modelo probabilitico que debe seguir

los datos y no lo contrario

La teora de las probabilidades permite deducir propiedades a partir de una serie de axiomas

mientras que la Estadtica propone metodos para vericar hipotesis

Esta introduccion se inicia con una breve presentacion historica de la estadstica para seguir

con algunos ejemplos de problemas estadsticos Siguen las etapas del razonamiento que se

usa para resolver tales problemas Terminamos esta introduccion con la presentacion de la

teora de muestreo que es la base de la solucion de todo problema estadstisco

HISTORICO

Antes de la aparicion del calculo de las probabilidades en el siglo la estadstica se ha

desarrollado poco y se limita a estudio descriptivo que es la parte de la estadstica que no se

apoya sobre la nocion de probabilidad En efecto es una actividad bien antigua aquella de

recolectar datos para conocer la situacion de los estados el emperador chino Yao organizo

un censo de producciones agricolas en AC en Egipto ya se hacan catastros y censos

en AC mas cerca los Incas con sus quipus mantenan al da las estadsticas de las

cosechas Durante este perodo los censos de poblaciones y recursos naturales son solo cifras

informativas y descriptivas Es solo en el siglo que se expande la idea introducida por el

ingles John Grant que las estadsticas demogracas podran servir de base a predicciones

Con Adophe Quetelet se empieza a concebir que la estadstica puede ser fundada en el calculo

de las probabilidades Pero hay que esperar los primeros estadsticos matematicos ingleses

despues de para ver realmente una metodologa estadstica como una teora inductiva

bien formalizada que permite inducir a partir de datos observados particulares conclusiones

generales sobre el comportamiento probabilstico de fenomenos observados Despues de la

Estadstica Matematica que se desarrolla entre y los estadsticos neobayesianos

proponen hacer inferencia no solo a partir de los datos observados sino tomando tambien en

cuenta el conocimiento a priori respecto de los modelos probabilsticos En la misma epoca

la aparicion de los computadores potentes permite el auge del analisis de grandes


volumenes de datos con mas observaciones y mas variables Un conjunto de tecnicas para

estudiar datos multidimensionales que se basan en modelos no probabilsticos permiten

describir clasicar y simplicar los datos con el objeto de facilitar su interpretacion ademas

de sugerir leyes modelos o explicar fenomenos

EJEMPLOS DE PROBLEMAS ESTADISTICOS

Probar si una moneda esta cargada

Hacer predicciones demogracas a partir de un censo

Controlar de la calidad de un proceso de fabricacion

Estudiar la conabilidad de un material

Evaluar el efecto de un fertilizante sobre la cosecha del choclo

Evaluar la ecacia de una droga para combatir una enfermedad

Predecir los resultados de una eleccion presidencial

Evaluar la audiencia de los programas de television

Evaluar el efecto del consumo de alcohol sobre los reejos del conductor

Evaluar la pobreza en un pas

Todos estos problemas son distintos algunos se podran basar en datos censales y otros en

datos muestrales Pero hay una lnea general del razonamiento que es la misma para todos

EL RAZONAMIENTO ESTADISTICO

Las etapas del razonamiento estadstico son generalmente las siguientes







Se distingue los censos en que los datos estan recolectados sobre la integralidad de las

unidades de la poblacion considerada de los muestreos en los cuales se recoge informaciones

sobre solo una parte de la poblacion La forma de elegir la muestra depende del problema

diseno de muestreo y diseno de experimentos y puede ser muy compleja pero generalmente

la muestra esta obtenida aleatoriamente y llama a usar la teora de las probabilidades


La descripcion estadstica permite resumir reducir y presentar el contenido de los datos con el

objeto de facilitar su interpretacion sin considerar que estos datos provienen de una muestra

Las tecnicas dependeran del volumen de las observaciones de la cantidad de las variables de

la naturaleza de los datos y de los objetivos del problema


El analisis estadstico es la etapa mas importante del razonamiento estadstico y general

neralmente se basa en un modelo matematico o probabilstico Tal modelo dependera de

los datos y eventualmente del conocimiento a priori que se puede tener sobre el fenomeno

estudiado El modelo no esta en general totalmente determinado es decir se plantea una

familia de modelos de un cierto tipo por ejemplo en el caso de modelos probabilsticos

podra ser una distribucion normal una distribucion de Poisson o una distribucion Beta o en

el caso de modelos matematicos podra ser un modelo lineal Estos modelos tendran algunos

parametros indeterminados Se trata entonces de jar lo mejor posible tales parametros

desconocidos a partir de datos empricos obtenidos sobre una muestra es un problema de

estimacion estadstica Por otro lado antes o durante el analisis se tienen generalmente

consideraciones teoricas respecto del problema estudiado y se trata entonces de comprobarlas

o rechazarlas a partir de los datos empricos es un problema de test estadstico


Una vez analizados los datos se tiene en general que tomar una decision o proceder a alguna

prediccion que dependera del analisis previo Por ejemplo se tiene que decidir a partir de

algunos experimentos si un tratamiento es ecaz o bien predecir el IPC del proximo mes

TEORIA DE MUESTREO

Una base importante de la estadstica esta contenida en la teora de muestreo


Los datos experimentales son obtenidos sobre conjunto de individuos u objetos llamado

poblacion sobre el cual se quiere conocer algunas caractersticas La poblacion puede ser

nita por ejemplo en una encuesta de opinion es la poblacion de un pas o una region los

productos fabricados por una maquina o innita cuando la poblacion se dene a partir del

experimento de tirar un dado o sacar valores de la distribucion de probabilidad de la va

N es el espacio muestral Como generalmente la poblacion a estudiar es demasiado

vasta o incluso innita se extrae solamente un subconjunto de la poblacion llamadamuestra

sobre la cual se observan caractersticas llamadas variables Como entonces sacar una

muestra de una poblacion o de una distribucion de probabilidad desconocida para obtener

informaciones dedignas sobre la poblacion de la cual proviene Es lo que pretende contestar

la teora de muestreo planteando la pregunta de otra manera Si la distribucion probabilidad

de obtener la muestra que se obtuvo La teora de muestreo permite de demir el tamano

de la muestra a tomar pero la forma de seleccionar los elementos de la muestra tambien

Se tiene varios metodos de muestreo para obtener muestras que dependiendo del problema

pueden ser muy complejos

Los valores de las variables obtenidos sobre los elementos de la muestra se llaman valores

muestrales Ahora bien cuando se emiten conclusiones sobre una poblacion a partir solo de

valores muestrales entonces estos resultados estan afectados de errores debidos al muestreo

Pero se tiene generalmente errores de medicion tambien que pueden inuir sobre la precision

de las conclusiones

Ahora bien hay que observar que los errores de muestreo decrecen con el tamano de la muestra

pero los errores de observacion crecen con este tamano Lo ideal es entonces tener un buen

equilibrio entre estos tipos de errores

Se vio en el curso de probabilidad que el muestreo aleatorio simple mas permite sacar

muestras de tamano dado equiprobables distinguiendo el mas con reemplazo del mas sin

reemplazo

Dado un experimento aleatorio E y una poblacion o espacio muestral de sucesos ele

mentales el conjunto de n realizaciones del experimento E es una muestra de tamano

n

Una muestra aleatoria simple con reemplazo o con repeticion se obtiene realizando n

repeticiones independientes del experimento E tomando sobre los sucesos elementales

equiprobables Se obtiene entonces una ntupla de

Una muestra aleatoria simple sin reemplazo o sin repeticion se obtiene de la poblacion

realizando el experimento E

sobre Se obtiene un suceso

con equiprobabilidad

sobre n f

g Se obtiene un suceso

con equiprobabilidad

sobre n f

g Se obtiene un suceso

con equiprobabilidad etc

As se obtienen elementos de todos distintos


El muestreo aleatorio simple es un metodo para obtener muestras de tamano jo de tal

forma que todas las muestras de mismo tamano tengan la misma probabilidad de ser

seleccionadas Pero no es la unica forma de proceder



INTRODUCCION

Los metodos estadsticos permiten confrontar modelos matematicos o probabilsticos con los

datos empricos obtenidos sobre una muestra

Dadas observaciones obtenidas sobre una muestra de tamano n se busca deducir

propiedades de la poblacion de la cual provienen

Si se tiene una sola variable aleatoria X cuya funcion de distribucion F es desconocida

obteniendo observaciones de esta variable X buscaremos conocer a la funcion de distribucion

F de la poblacion Los valores X

X

X

n

de una va X obtenidos sobre una muestra de

tamano n son los valores muestrales

Se busca entonces por ejemplo estimar la media de la distribucion F a partir de los valores

muestrales Esto tendra sentido si la muestra es representativa de la poblacion

TIPOS DE VARIABLES

La cantidad y la naturaleza de las cactersticas que se puede medir sobre los elementos de

una poblacion son de varios tipos Supondremos aqu una sola variable que es una funcion

X Q Se distingue la naturaleza de la variable X segun el conjunto Q

variable cuantitativa tambien llamada intervalar si Q es un intervalo de IR o todo IR

es una va real continua

variable discreta si Q es un subconjunto de IN

variable cualitativa o nominal si Q es un conjunto nito de atributos o modalidades

no numericos

variable ordinal si Q es un conjunto de atributos no numericos que se pueden ordenar

El tratamiento estadstico depende del tipo de variable considerada

FUNCION DE DISTRIBUCION EMPIRICA

Caso de variables numericas reales o enteras

Sean X

X

X

n

los valores muestrales obtenidos de un mas


F

n

x

CardfX

i

x

i

xg

n

es la proporcion de observaciones de la muestra inferiores o iguales

a x F

n

x tiene las propiedades de una funcion de distribucion F nx es monotona no

decreciente tiene limites a la derecha y a la izquierda es continua a la derecha F

F Ademas sus puntos de discontinuidad son en numero nito y son con salto

x

F

Figura Una distribucion emprica

Ademas para x jo F

n

x es una variable aleatoria y nF

n

x es una va igual a la suma de

variables de Bernoulli independientes de mismo parametro F x o sea nF

n

x Bn F x

Teorema Para todo x F

n

x converge casiseguramente hacia la distribucion teorica

Fx de X

Demostracion Como nF

n

x Bn F x de la ley de los grandes numeros se concluye que

P lim

n

F

n

x F x

O sea que F

n

x

cs

F x

Teorema GlivenkoCantelli

D

n

sup

x

j F

n

x F x j

Teorema Kolmogorov

La distribucion asintotica de D

n

es conocida y no depende de X

lim

n

P

p

nD

n

y

X

K

expK

y

No se demuestran estos dos teoremas


Caso de variables no son numericas nominal u ordinal

Cuando las variables no son numericas Q es un conjunto nito

Q fq

q

q

r

g La distribucion de poblacion esta denida por las probabilidades

IP X q

k

k r

Dada una muestra aleatoria simple X

X

X

n

de tamano n se dene las proporciones en

el muestreo s

j

CardfX

i

q

j

g

n

j r

Consideramos el caso r por ejemplo una pieza es defectuosa o no es defectuosa sea p la

probabilidad desconocida que una pieza este defectuosa Dada una muestra aleatoria simple

de tamano n si f

n

es la proporcion de piezas defectuosas encontradas entre las n observadas

nf

n

sigue una distribucion Binomialnp y ademas f

n

N p p pn

DISTRIBUCIONES EN EL MUESTREO Y EN LA POBLACION

Sean X

X

X

n

los valores muestrales

Denicion Las funciones de los valores muestrales son va llamadas estadsticos y

las distribuciones de los estadsticos se llaman distribuciones en el muestreo

La distribucion de la va X que es generalmente desconocida se llama distribucion de

poblacion Se le da en general una expresion teorica Se supone por ejemplo que la dis

tribucion de poblacion pertenece a una familia de distribuciones por ejemplo la distribucion

normal la distribucion beta o la distribucion de Poisson Quedan desconocidas en este caso

solo algunas caractersticas Estas caractersticas son los parametros de la distribucion de

poblacion

Los estadsticos y sus distribuciones en el muestreo o sus distribuciones asintoticas cuando n

tiende a permiten estimar los parametros desconocidos de la distribucion de poblacion

Media muestral

Sean X

X

X

n

los valores muestrales independientes e identicamente distribuidos iid

de una va X Se dene la media muestral como

X

n

P

X

i

n Si la distribucion de poblacion

tiene como esperanza y varianza y

respectivamente EX

i

y V arX

i

para

todo i entonces E

X

n

y V ar

X

n

n Si ademas la distribucion de poblacion es

normal entonces la distribucion en el muestreo de

X

n

tambien lo es Los valores muestrales

X

i

no provienen necesariamente de una distribucion normal pero si son iid entonces la

distribucion asintotica de

X

n

p

n

es N TEOREMA DEL LIMITE CENTRAL


Varianza muestral

Sea una mas fX

X

Xng con EX

i

y VarX

i

S

n

n

P

n

i

X

i

X

n

n

P

X

i

X

n

n

P

n

i

X

i

X

n

Propiedades

S

n

cs

n

P

n

i

X

i

cs

EX

y

X

n

cs

EX

S

n

mc

E

S

n

Calculo de ES

n

ES

n

E

n

P

X

i

X

n

E

n

P

X

i

X

n

ES

n

n

P

V arX

i

V ar

X

n

n

P

n

ES

n

n

n

Calculo de V arS

n

V arS

n

n

n

n

n

en que

E

X

es el momento teorico de orden de la va X

Se deja este calculo como ejercicio

V arS

n

n

Calculo de Cov

X

n

S

n

Cov

X

n

S

n

E

X

n

S

n

n

n

Cov

X

n

S

n

E

n

P

X

i

n

P

X

j

X

n

n

n

Cov

X

n

S

n

E

n

P

X

i

n

P

X

j

X

n

n

n

EX

i

i y EX

i

X

j

i j

Cov

X

n

S

n

n

E

P

X

i

E

X

n

Cov

X

n

S

n

n

E

P

X

i

n

E

P

X

i

Cov

X

n

S

n

n

n

n

n

si n Cov

X

n

S

n

lo que no signica que hay independencia

En particular si la distribucion es simetrica

entonces Cov

X

n

S

n

Caso de una distribucion normal

X

i

N

iid

X

n

N

n


S

n

n

P

X

i

X

n

nS

n

P

X

i

X

n

p

n

Como las va

X

i

son iid de una N entonces U

P

X

i

es una suma de

los cuadrados de n va independientes de N cuya distribucion es facil de calcular y se

llama Jicuadrado con n grados de libertad y se denota

n

Por otro lado

X

n

p

n

sigue una distribucion

con grado de libertad

En efecto recordemos en primer lugar la distribucion de Y Z

en que Z N

Sea x la funcion de distribucion de Z N y Fy la de Y Z

F y P Y y P Z

y P

p

y Z

p

y

p

y

p

y

Se deduce la funcion de densidad de Y

fy

p

y

expy y

Se dice que Y sigue una distribucion Jicuadrado con grado de libertad

Observando que la

tiene una distribucion Gamma particular ! la funcion gen

eratriz de momentos fgm se escribe

"

Y

t Ee

tY

t

t

Sea U

P

n

Y

i

P

n

Z

i

en que las Z

i

son

independientes entonces

"

U

t

t

n

que es la fgm de una distribucion Gamma

n

Se deduce as la funcion de densidad de U la va

n

una Jicuadrado con n gl

fu

n

u

n

!n

expu u

Se observa que EU n y V arU n y se tiene el siguiente resultado

Corolario La suma de k va independientes y de distribucion

a r

r

r

k

gl

respectivamente sigue una distribucion

a r

r

r

k

gl

Aplicamos estos resultados al calculo de la distribucion de S

n

cuando X N

Teorema Si X

X

X

n

son iid de la N

entonces la va nS

n

sigue una

distribucion

n


Demostracion Sea X el vector de las n va y una transformacion ortogonal Y BX tal

que la primera la de B es igual a

p

n

p

n Se tiene entonces que

Y

p

n

X

n

P

Y

i

P

X

i

P

X

i

X

n

n

X

n

Y

Y

n

nS

n

Y

p

n

Y

Y

n

X

X

n

La densidad conjunta de Y

Y

n

es entonces proporcional a

expfy

p

n

Y

Y

n

g

Luego Y

Y

n

son independientes y

p

n

X

n

Y

N

p

n

nS

n

Y

Y

n

g

n

Ademas

X

n

y S

n

son independientes

Teorema Sean X

X

X

n

va iid entonces

X

n

y S

n

son independientes si y solo

si las X

i

provienen de una distribucion normal

La demostracion se deduce del teorema y del corolario

Denemos a continuacion la distribucion t de Student Student es un seudonimo utilizado por

el estadstico ingles W S Gosset para publicar que tiene muchas aplicaciones en inferencia

estadstica como la distribucion

Denicion Si X e Y son dos va independientes X N e Y

n

entonces la

va T

X

p

Y

n

tiene una distribucion t de Student a n grados de libertad

Buscamos la funcion de densidad de la va T Si fx y es la densidad conjunta de X Y

y f

x y f

y las densidades marginales de X e Y respectivamente entonces fx y

f

xf

y

f

x

p

exp

x

x IR

f

y

n

y

n

!n

expy y


El jacobiano del cambio de variables X T

p

Wn e Y W es J

p

Wn Deducimos la

densidad conjunta de TW

gt w

r

w

n

e

t

w

n

p

w

n

e

w

n

!

n

w t

gt w

w

n

e

t

n

w

p

n

n!

n

w t

ht

!

n

x

n

n

p

n!

n

t IR

Se observa que la funcion de densidad de T es simetrica y ET y varT

n

n

para n Ademas para n se tiene la distribucion de Cauchy y para n grande se puede

aproximar la distribucion de T a una N

Aplicando estos resultados deducimos que la distribucion de la va

V

X

n

p

S

n

n

es una t de Student con n grados de libertad

Valores extremos

Es importante estudiar entre que valores podrian estar los valores muestrales

Si X

X

n

los estadsticos de orden los valores muestrales ordenados de menor a mayor

X

X

X

n

entonces X

inffX

X

n

g y X

n

supfX

X

n

g

En el curso de Probabilidades se estudio las distribuciones de estos estadsticos de orden en

funcion de la distribucion de poblacion Fx de X En particular

La distribucion de X

es F x

n

La distribucion de X

n

es F x

n

El rango W X

n

X

es otro estadstico interesante a estudiar


Cuantilas

Denicion Dada una funcion de distribucion Fx de X se llama cuantila de orden p

al valor x

p

tal que F x

p

p

Si tomamos p # entonces x

es tal que hay tantos valores por debajo que por arriba de

x

que se llamamediana de la distribucion Se llaman cuartilas a x

y x

y intervalo

intercuartila a x

x

Se observara que para una distribucion discreta o emprica F

n

una cuantila para un p dado

no es unica Se dene entonces como x

p

al valor tal que IP X x

p

p IP X x

p

ESTIMACION PUNTUAL

ESTIMACION PUNTUAL

INTRODUCCION

En un problema estadstico si los datos fueron generados a partir de una distribucion de

probabilidad Fx desconocida los metodos de la Inferencia Estadstica permite decir

algo respecto de esta distribucion Cuando se supone que tal distribucion no es totalmente

desconocida por ejemplo pertenece a una determinada familia de distribuciones entonces

son desconocidos solo uno o varios parametros que denen cada distribucion de esta familia

En este caso la teora de estimacion tiene por objetivo dar valores a estos parametros a partir

de los valores muestrales

Por ejemplo F x pertenece a la familia de las distribuciones normales N de varianza

igual a y de esperanza desconocida Aqu es el unico parametro desconocido de la

distribucion Pero si se supone la varianza tambien desconocida se tendran dos parametros

desconocidos la media y la varianza

Los parametros son constantes que toman valores en un espacio llamado espacio de parametros

$

N $ IR

N $ IR

Exp $

Binomialp $

Sean X

X

n

los valores muestrales obtenidos sobre una muestra aleatoria simple de una

va X de funcion de densidad fx en que es desconocido Hay varias maneras de

decir algo sobre Lo mas simple consiste en dar un valor unico para Es la estimacion

puntual se busca elegir un valor para a partir de los valores muestrales Es decir se tiene

que denir una funcion IR

n

$ que es un estadstico llamado estimador de El valor

tomado por esta funcion sobre una muestra particular de tamano n es una estimacion Otra

forma de estimar un parametro consiste en buscar no un solo valor para sino un conjunto

de valores un intervalo en general en el cual se tiene alta probabilidad de encontrar Es la

estimacion por intervalo

Procediendo as tratamos de estimar el valor de los parametros que son considerados

como constantes a partir de estadsticos que son aleatorios Ahora bien frecuentemente se

sabe algo mas sobre los parametros este conocimiento obviamente no es preciso sino no

se tendra el problema de estimar estos parametros pero se tienen ideas sobre sus posibles

valores que pueden ser traducidas a una funcion de distribucion a priori sobre el espacio

de parametro $ Los estimadores bayesianos toman en cuenta la distribucion a priori y los

valores muestrales

El problema es encontrar metodos que permitan construir estos estimadores

A continuacion daremos los metodos usuales de estimacion puntual

ESTIMACION PUNTUAL

METODO DE LOS MOMENTOS

Vimos en el captulo anterior que la media muestral

X

n

cs

EX Mas generalmente

si el momento

r

EX

r

existe entonces por la ley de los grandes numeros

m

r

n

X

X

r

i

cs

r

IP lim

n

m

r

r

Luego se puede estimar

r

como %

r

m

r

Ejemplo este metodo produce como estimador de la media %

X

n

y como estimador de

la varianza

m

X

n

S

n

METODO DE MAXIMA VEROSIMILITUD

Sean x

x

x

n

una muestra aleatoria simple de una va de densidad fx en que $

el espacio de parametros

Denicion Se llama funcion de verosimilitud a la densidad conjunta del vector de

los valores muestrales para todo vector observado x x

x

x

n

en la muestra se denota

f

n

x

Como los valores son independientes se tiene

f

n

x f

n

x

x

x

n

n

Y

i

fx

i

Un estimador del parametro basado en una muestra de tamano n es una funcion de los

valores muestrales x

x

x

n

a valores en el espacio de parametro $

El valor que toma el estimador sobre una muestra x

x

n

se llama estimacion o valor

estimado

El estimador de Maxima Verosimilitud es el estimador que hace f

n

x maxima

Tal estimador puede entonces no ser unico o bien no existir

EJEMPLOS

Ejemplo Una maquina produce diariamente un lote de piezas Un criterio basado sobre

normas de calidad vigente permite clasicar cada pieza fabricada como defectuosa o no defec

tuosa El cliente aceptara el lote si la proporcion de piezas defectuosas contenidas en el lote

no sobrepasa el valor

o

El fabricante tiene que controlar entonces la proporcion de piezas

ESTIMACION PUNTUAL

defectuosas contenidas en cada lote que fabrica Pero si la cantidad de piezas N de cada lote

es muy grande no podra examinar cada una para determinar el valor de El fabricante

efectua entonces el control de calidad de una muestra aleatoria pequena con n piezas Se

dene la va X que toma el valor si la pieza es defectuosa y en el caso contrario Sean

x

x

x

n

los valores obtenidos sobre la muestra

x

i

Bernoulli

f

n

x

n

Y

i

x

i

x

i

max

f

n

x max

Logf

n

x

Logf

n

x

n

X

i

x

i

Log x

i

Log

dLogf

n

x

d

P

x

i

n

P

x

i

Luego el estimador de maxima verosimilitud EMV

%

de es la proporcion de piezas

defectuosas observada

P

x

i

n

Ejemplo El ministerio de la salud quiere conocer la talla promedia de las mujeres chilenas

adultas Si X

X

X

N

son las tallas de todas las chilenas adultas

P

X

i

N Dado

el tamano grande de esta poblacion se obtiene la talla de una muestra aleatoria de tamano

pequeno n Sean x

x

x

n

Se supone que x

i

N

con y

desconocidos

f

n

x

n

expf

X

x

i

g

Logf

n

x es maximo cuando

X

n

la media muestral y

S

n

la varianza muestral

Notas

Si se supone la varianza poblacional

conocida el EMV de queda igual a la media

muestral

X

n

Se puede buscar el estimador de la varianza o bien de su raz El resultado no cambia

Ejemplo x

i

Uniforme

f

n

x

n

si x

i

i

Cuando x

i

para todo i f

n

x es no nulo y es decreciente en luego f

n

x es

maxima para el valor mas pequeno de que hace f

n

x no nulo el EMV de es entonces

%

maxfx

x

x

n

g

El metodo de los momentos produce un estimador bien diferente En efecto como

EX el estimador de los momentos es

X

n

ESTIMACION PUNTUAL

En este ejemplo una dicultad se presenta cuando se toma el intervalo abierto dado

que no se puede tomar como estimador el maximo

%

en este caso no existe EMV Puede

ocurrir que no es unico tambien si se dene el intervalo la funcion de verosimilitud

es

f

n

x si x

i

i

es decir

f

n

x si maxfx

x

n

g minfx

x

n

g

Por lo cual todo elemento del intervalo maxfx

x

n

g minfx

x

n

g es EMV

Aqu el estimador de los momentos que es igual a

X

n

es bien diferente tambien

PROPIEDADES

Como elegir un estimador Como decidir si un estimador es aceptable Para ayudarnos

en esta eleccion se puede estudiar si el estimador cumple ciertas propiedades razonables

Invarianza

Observamos en las notas del ejemplo que el EMV de se puede obtener directamente o

como la raiz del EMV de

Eso se debe de la propiedad de invarianza del EMV por

transformacion funcional

Proposicion Si

%

es el EMV del parametro si g $ $ es biyectiva entonces

g

%

es el EMV de g

Demostracion en efecto si g como g es biyectiva g

si f

n

x

f

n

xg

es maxima para % tal que g

%

%

% es necesariamente el EMV y como g

es biyectiva % g

%

Consistencia

Un estimador depende del tamano de la muestra a traves de los valores muestrales los

estimadores

%

n

asociados a muestras de tamano n n IN constituyen sucesiones de va

Un buen estimador deberia converger en algun sentido hacia

Denicion Se dice que un estimador

%

n

de un parametro es consistente cuando

converge en probabilidad hacia

IP j

%

n

j

n

ESTIMACION PUNTUAL

Los momentos empricos de una va real son estimadores consistentes de los momentos

teoricos correspondientes Mas aun la convergencia es casisegura y la distribucion asintotica

de estos estimadores es normal

Estimador insesgado

Denicion Se dice que un estimador

%

de es insegado si E

%

Vimos que la media muestral

X

n

es un estimador insesgado de la media poblacional si la mues

tra es aleatoria simple pero la varianza muestral S

n

n

P

x

i

x

n

no es un estimador

insesgado para la varianza poblacional

ES

n

n

n

Pero la diferencia jES

n

j

n que es el sesgo tiende a cero

Denicion Se dice que el estimador

%

es asintoticamente insesgado cuando E

%

n

Por otro lado se puede construir un estimador insesgado de

a partir de S

n

P

x

i

X

n

n Pero observamos que

n

n

es decir que el estimador

insesgado

tiene mayor varianza que S

n

Por otro lado observamos que si

%

n

es un estimador sesgado de se tiene

E

%

n

V ar

%

n

sesgo

En efecto

E

%

n

E

%

n

E

%

n

E

%

n

E

%

n

E

%

n

E

%

n

E

%

n

Si E

%

n

entonces

%

n

converge en media cuadratica hacia

%

n

mc

Proposicion

E

%

n

V ar

%

n

y E

%

n

Como la convergencia en media cuadratica implica la convergencia en probabilidad se tiene

Proposicion Si

%

n

es un estimador consistente de y E

%

n

es nito entonces

%

n

es

asintoticamente insesgado

Proposicion Si V ar

%

n

y E

%

n

entonces

%

n

es un estimador consistente

de

Nota Es una condicion suciente pero no necesaria

ESTIMACION PUNTUAL

Suciencia

En el ejemplo se busca deducir de las observaciones de una muestra aleatoria de n piezas

una informacion sobre la proporcion de piezas defectuosas en el lote total Es mas simple

considerar el numero de piezas defectuosas encontradas en la muestra en vez de la sucesion

de resultados x

x

x

n

El conocimiento de los valores individuales no procura ninguna

informacion aditiva para la proporcion que

n

X

i

x

i

Se redujo los n datos a un solo valor

que es funcion de estos datos sin perder informacion para determinar

En el ejemplo la media muestral

X

n

permite simplicar la informacion dada por los n

valores muestrales Pero nos preguntamos si se pierde informacion usando la media muestral

para estimar la media de la poblacion

Observamos que si suponemos la varianza conocida la funcion de verosimilitud puede es

cribirse como funcion unicamente de la media muestral y del tamano n de la muestra

f

n

x

p

n

expfn

X

n

g

Es decir que la unica informacion relevante para estimar es dada por la media muestral En

este caso se dice que la media muestral es un estadstico suciente Un estadstico suciente

que se toma como estimador del parametro debera contener toda la informacion que llevan

los valores muestrales sobre

Denicion Un estadstico T x

x

n

funcion de los valores muestrales y con valor en

$ se dice suciente para si la distribucion conjunta de los valores muestrales condicional

mente a T x

x

n

no depende de

Denicion Se dice que un estadstico T es suciente minimal si no se puede encontrar

otro estadstico suciente que hace una mejor reduccion de los datos que T

No es siempre facil detectar si un estadstico es suciente Los dos siguientes teoremas

permiten enunciar condiciones para que un estadstico sea suciente

Teorema Teorema de factorizacion

Si T x es suciente para y gT x es la densidad de T x entonces

f

n

x gT xhxT x

Teorema Theorema de DarmoisKoopman

Si X es una variable real cuyo dominio de variacion no depende del parametro una

condicion necesaria y suciente para que existe un estadstico suciente es que la funcion

de densidad de X sea de la forma

fx bxcexpfaxqg

ESTIMACION PUNTUAL

T

n

X

n

X

i

aX

i

es un estadstico suciente minimal

Si X N y una muestra aleatoria es x

x

n

de X

f

n

x

x

n

n

exp

X

x

i

exp

n

n

X

El termino exp

P

x

i

no depende de y el termino exp

n

n x

n

depende de y

X

n

n

X

P

x

i

es un estadstico suciente tambien toda funcion biyectiva de

X

n

lo es en

particular

X

n

ESTIMADORES BAYESIANOS

Distribuciones a priori

En el problema de estimacion de un parametro de una distribucion de funcion de densidad

fx es frecuente tener algunas ideas sobre los valores que puede tomar en este caso

conviene tomar en cuenta este conocimiento o creencia que se puede traducir en una dis

tribucion de probabilidad sobre el espacio de parametros $ sea Es decir que ahora

ya no es un parametro constante sino una variable aleatoria Esta distribucion no depende

de los valores muestrales Esta denida previo al muestreo

Por ejemplo en un proceso de fabricacion se tiene la proporcion desconocida de piezas

defectuosas Si no se sabe nada respecto a se puede suponer que todos los valores son

equiprobables U Pero uno puede sopechar que los valores alrededor de son

mas probables en este caso se podra tomar una distribucion mas concentrada en

Denicion Se llama distribucion a priori a la distribucion atribuida a un parametro

poblacional antes de tomar alguna muestra

Distribuciones a posteriori

Ahora hay que relacionar los valores muestrales con la distribucion a priori

La funcion de verosimilitud f

n

x es ahora una densidad condicional y hx f

n

x

es la densidad conjunta de x De la cual se puede deducir la distribucion condicional de

dado los valores muestrales x

ESTIMACION PUNTUAL

Denicion La distribucion condicional de dada la muestra x

x

n

se llama dis

tribucion a posteriori y su densidad es igual a x

f

n

x

g

n

x

en que

g

n

x

R

hx d es la densidad marginal de x

La distribucion a posteriori representa la actualizacion de la informacion a priori en vista

de la informacion contenida en los valores muestrales f

n

x Podemos entonces estudiar

esta distribucion a posteriori de dando la moda la media la mediana la varianza etc Un

estimador natural en este caso es tomar la moda de x que aparece como el maximo de

la verosimilitud corregida

Ejemplo Sean X Bernoullip y p eta con y dados

f

n

xp p

n

X

n

p

nn

X

n

p p

p

B p

en que B

La densidad a posteriori de p es entonces

px p

n

X

n

p

nn

X

n

B n

X

n

n n

X

n

que es la distribucion eta n

X

n

n n

X

n

La moda de esta distribucion cuando

esta denida es igual a n

X

n

n

Ejemplo Sean X N y N

x f

n

x se reere a la proporcionalidad con respecto a

x exp

P

x

i

x exp

n

X

n

x exp

n

X

n

La distribucion a posteriori de es entonces N

n

X

n

La moda de la distribucion es la

media

n

X

n

Funciones de perdida

Los metodos de estimacion propuestos hasta ahora no toman en cuenta un aspecto importante

del problema que son las consecuencias de tales estimaciones

Dado que los estimadores son la base de una decision nal es importante poder comparar los

procedimientos que conducen a estas decisiones mediente algun criterio de evaluacion que

mide las consecuencias de cada estimacion en funcion de los valores del parametro

ESTIMACION PUNTUAL

Denicion Se llama funcion de perdida o funcion de costo a la funcion

L $ $ en que L es creciente con el error entre el parametro y su

estimador

No es siempre facil denir esta funcion de perdida que es especca de cada problema y

puede tener algun aspecto subjectivo nocion de utilidad Sin embargo se puede elegir entre

diversas funciones de perdida clasicas cuando no se puede construir una propia

Funcion de perdida cuadratica

Es la funcion de perdida mas utilizada y mas criticada

L

que penaliza demasiado los errores grandes

Funcion de perdida absoluta

Una solucion alternativa a la funcion cuadradica es usar el valor absoluto

L j j

o bien una funcion afn por parte

L

k

si

k

si no

Funcion de perdida

Sea I

el intervalo de centro y largo

L

si I

si no

Estimadores de Bayes

La funcion de perdida L es una funcion de considerada como aleatoria con la dis

tribucion a posteriori x Luego es natural de buscar un estimador

x de tal que la

perdida promedio sea mnima

Denicion El estimador de Bayes es solucion de min

EL x

Funcion de perdida cuadratica

Para la funcion de perdida cuadratica L

el estimador de Bayes es simple

de encontrar E

x es mnimo para

x Ex

ESTIMACION PUNTUAL

Funcion de perdida absoluta

Para la funcion de perdida absoluta L jj el estimador de Bayes es la mediana

de la distribucion a posteriori Mostramos un resultado mas general

Proposicion El estimador de Bayes asociado a la distribucion a posteriori y a

la funcion de perdida

L

k

si

k

si no

es la fractila

k

k

k

de

Demostracion Se tiene

EL x k

Z

xd k

Z

xd

Derivando con respecto a se obtiene

k

IP x k

IP x

Es decir

IP x

k

k

k

En particular si k

k

se obtiene la mediana de la distribucion a posteriori de

Funcion de perdida

EL es mnimo cuando

R

I

xd es maximo Si entonces EL

es mnimo cuando x es maximo El estimador de Bayes es la moda de x

Teorema Theorema de RaoBlackwell

Si TX es un estadstico suciente para y si bX es un estimador insesgado de entonces

T EbXT

es un estimador insesgado de basado sobre T mejor que bX

Este teorema permite entonces construir estimadores insesgados mejores

Estimadores de Bayes para muestras grandes

Se muestra aqu a traves de un ejemplo los efectos de la distribucion a priori y de la funcion

de perdida sobre el estimador de Bayes para muestras grandes Sea la proporcion de

defectuosos Tomamos dos distribuciones a priori y dos funciones de perdida

ESTIMACION PUNTUAL

para y

para

L

y L

j j Las distribuciones a posteriori son respectivamente

x

n

X

n

nn

X

n

que es una eta n

X

n

n n

X

n

y

x

n

X

n

nn

X

n

que es una eta n

X

n

n n

X

n

Los estimadores de Bayes para la perdida cuadratica son las respectivas esperanzas de la

distribucion eta

n

X

n

n para y

n

X

n

n para

Los estimadores de Bayes para la perdida absoluta son las respectivas medianas de la dis

tribucion eta que se obtienen resolviendo la ecuacion

K

Z

d

en que n

X

n

y n n

X

n

para y n n

X

n

para

Si n y n

X

n

entonces y

para la perdida

cuadratica Se observara como la muestra corrige la distribucion a priori con las medias a

priori E con y E con

Encontramos ambos estimadores de Bayes a posteriori muy cercanos con n y cercanos

de la media muestral

X

n

En este ejemplo observamos que el estimador de Bayes cuadratico es consistente No se puede

siempre asegurar que el estimador de Bayes es consistente pero bajo condiciones bastante

generales es cierto

EJERCICIOS

Sea X

i

i n una muestra aleatoria simple de una va X de funcion de distribucion

Gamma

Estime EX por Maxima Verosimilitud Muestre que el estimador resultante es insesgado

convergente en media cuadratica y es consistente

Sea una mas x

x

n

de una va X de funcion de densidad fx x

I

Encuentre el estimador de Maxima Verosimilitud

%

de y pruebe que

%

es consistente y

asintoticamente insesgado

Sea Y una va de Bernoulli de parametro Considere una mas y

y

n

y una

distribucion a priori Betaab para Obtenga el estimador de Bayes

%

para usando

una funcion de perdida cuadratica Muestre que

%

es sesgado asintoticamente insesgado

convergente en media cuadratica y consistente

ESTIMACION PUNTUAL

Sean dos preguntas complementarias Qvota por Pedro y Q&no vota por Pedro

Se obtiene una mas de n personas que contestan a la pregunta Q o Q& lo unico que se sabe

es que cada persona ha contestado a Q con probabilidad conocida y Q& con probabilidad

Se denen

p la probabilidad que una persona contesta SI a la pregunta Q o Q&

la proporcion desconocida de votos para Pedro en la poblacion

a De la proporcion en funcion de p y

b De el estimador de Maxima Verosimilitud de p y deduzca un estimador % para Calcule

la esperanza y la varianza de %

c Estudie las propiedades de % estudie en particular la varianza % cuando

Suponga que X tiene una funcion de densidad fx y que T X es un estimador de

Bayes insesgado para con la funcion de perdida cuadratica y una distribucion a priori

a Demuestre que E T X

b Asuma que fx es una N Pruebe que E

X

n

n

Concluya si

X

n

puede

ser un estimador de Bayes para perdida cuadratica

Sea x

x

x

n

una mas de una distribucion tal que IP x

i

a b

Se dene y

i

si x

i

a b

en caso contrario

a De la distribucion de y

i

b De el estimador de maxima verosimilitud

%

de

c De la esperanza y la varianza de

%

d Sean las distribuciones a priori de

!

!!

Distribucion Beta y

De los estimadores de Bayes y sus varianzas cuando se usa una funcion de perdida cuadratica

e Aplicacion numerica de las soluciones a las preguntas anteriores con los valores n

x

i

y ab

Sea fX

X

X

n

g una mas de una va X con funcion de densidad fx Sea

Y

X

X

n

un estimador de Se dene Y

i

el estimador calculado sobre la muestra

salvo la observacion i i n Y

i

nY n Y

i

y Y

n

P

n

i

Y

i

a Calcule la varianza S

de Y

cuando Y

X

n

la media muestral y EX

b Deducir la distribucion de Y

S

cuando Y

X

n

y X N

Sea X una va real con densidad fx $ f

N

g nito

Sean una distribucion de probabilidad a priori sobre $ y la funcion de perdida

L

si

c si

c

ESTIMACION PUNTUAL

a Pruebe que la perdida esperada se escribe como EL c

x en donde es

la distribucion a posteriori sobre $

b Deduzca la condicion que debe satisfacer para ser el estimador de Bayes de asociado

a Pruebe que el estimador no depende de c

c Si es la distribucion uniforme sobre $ pruebe que el estimador de Bayes de y el

estimador de maxima verosimilitud coinciden

Se considera la distribucion discreta IP X x a

x

x

h con x en donde

h es diferenciable y a

x

puede ser nulo para algunos x

Sea fx

x

x

n

g una mas de esta distribucion

a De las expresiones de h y h

b De el estimador de maxima verosimilitud de en funcion de h y h

c Muestre que el estimador de maxima verosimilitud es el mismo que el del metodo de los

momentos

d Aplique lo anterior para los casos siguientes

i X BinomialN p N conocido

ii X Poisson

Sean T

i

i I estimadores del parametro tales que ET

i

b

i

b

i

R

Se dene un nuevo estimador T de como T

P

I

i

i

T

i

a De una condicion sobre los

i

para que T sea insesgado

b Suponga que b

i

i estimadores insesgados Plantee el problema de encontrar los

coecientes

i

para que la varianza de T sea mnima

c Suponiendo que los T

i

son no correlacionados resuelva el problema planteado antes

d Sean X

ij

i M j n

i

M mas independientes entre si de variables aleatorias

X

i

con distribuciones normales de varianza comun

Sea s

i

n

i

P

n

i

j

X

ij

X

i

el estimador insesgado de la varianza calculado en la muestra

i

Demuestre que S

P

M

i

n

i

M

P

M

i

n

i

s

i

es el estimador lineal insesgado de varianza

mnima para



INTRODUCCION

Vimos en el captulo anterior metodos de estimacion puntual Pero no podemos esperar

que la estimacion que produce coincida exactamente con el verdadero valor del parametro

desconocido Aqu buscamos entonces construir un intervalo

tal que la probabilidad

que este en el intervalo sea alta

Esta probabilidad tiene diferente interpretacion segun estemos en el caso bayesiano o no Se

tiene entonces dos clases de metodos para construir estos intervalos

CASO BAYESIANO

En el bayesiano el intervalo tiene una interpretacion imediata a partir de la distribucion a

posteriori de Lo unico inconviente es la falta de unicidad de tal intervalo Pero es natural

buscar el intervalo de largo mnimo

Ejemplo Vimos que si X Bernoullip y p eta entonces la distribucion a

posteriori de p es una eta n

X

n

n n

X

n

px p

n

X

n

p

nn

X

n

B n

X

n

n n

X

n

Se dene entonces un intervalo p

p

de probabilidad tal que IP p

p p

calculada

a partir de la distribucion

INTERVALO DE CONFIANZA DE NEYMANN

En el caso de estimacion no bayesiana el parametro no es una variable aleatoria En este

caso es el intervalo

que es aleatorio y se habla de la probabilidad de que el parametro

cubre el intervalo Los valores

y

son entonces funciones de los valores muestrales

SeanX

X

X

n

los valores muestrales se tiene que encontrar dos funciones

t

X

X

X

n

y

t

X

X

X

n

tales que

IP

siendo la cantidad jada a priori y llamada el nivel de conanza Generalmente se

determinan las funciones t

y t

a partir de un estimador de

Ejemplo Intervalo para una media

Sea X N

con la media desconocido y la varianza

conocida y una muestra de

tamano n Sea X

X

n

los valores muestrales si

X es la media muestral Z

X

p

n


N Si IP u

Z u

X u

p

n

X u

p

n

dene un intervalo para de

nivel de conanza

Hay una innidad de intervalos de mismo nivel de conanza Pero se puede mostrar

que el intervalo

X u

X u simetrico con respecto a

X tiene el largo mnimo entre los

intervalos de mismo nivel de conanza igual a Por ejemplo para se obtiene

el intervalo

X

p

n

X

p

n

Si no se supone que es conocida se tiene que usar un estadstico cuya distribucion muestral

no depende de Eso nos lleva a usar el estadstico

T

X

q

P

X

i

X

n

que sigue una distribucion t Student a n gl

El estadstico T puede escribirse en funcion del estimador sesgado %

de T

X

%

p

n

Si IP t

t t

X t

%

p

n

X t

%

p

n dene un intervalo para de nivel de

conanza

Como en el caso de la distribucion normal el intervalo mas corto de nivel de conanza

es simetrico con respecto a

X

X t%

p

n

X t%

p

n con t tal que IP t t

n

t

Ejemplo Intervalo para una varianza

Si los valores muestrales X

X

n

son iid de la N

U

P

X

i

X

n

Un intervalo de nivel de conanza se obtiene a partir de IP u

U u

IP

P

X

i

X

u

P

X

i

X

u

Ejemplo Intervalo para la diferencia de dos medias

Sean dos poblaciones normales N

y N

Se consideran una muestra aleatoria

de tamano n

de la primera poblacion y una muestra aleatoria de tamano n

de la segunda

poblacion las dos muestras siendo independientes Si

X

y

X

son las medias muestrales

respectivas d

X

X

N

n

n

Si las varianzas son conocidas entonces un intervalo para d esta dado por

X

X

u

r

n

n

X

X

u

r

n

n

con u determinado a partir de las tablas de la distribucion

normal segun el nivel de conanza

Si las varianzas no son conocidas para encontrar un estadstico que nos sirve y cuya dis

tribucion no depende de estas varianzas hay que hacer alguno supuesto suplementario En

efecto si tomamos como estimador de la varianza de la diferencia

n

n

con %

y %

las

varianzas muestrales sesgadas

n

%

n

%

n

n

y


X

X

r

n

n

r

n

n

n

n

t

n

n

que depende de la varianzas desconocidas

y

Si se supone que estas varianzas son proporcionales

k

entonces se tiene un estadstico

que no depende de

y

X

X

r

k

n

n

k

n

n

k

n

n

n

n

t

n

n

Usualmente si toma k

Ejemplo Intervalo para el cuociente de dos varianzas la distribucion F de Fisher

Sean dos poblaciones normales N

y N

nos interesamos al cuociente de las

varianzas

El estadstico n

%

n

y el estadstico n

%

n

siendo estos independientes

Mostramos que si U

r

y V

s

y son independientes entonces Y sUrV sigue una

distribucion de Fisher a r y s grados de libertad con una funcion de densidad igual a

hy

!

rs

!

r

!

s

r

r

s

s

y

r

ry s

rs

y

Como U y V son independientes se puede calcular facilmente la funcion de densidad conjunta

de UV

fu v

u

r

e

u

r

!r

v

s

e

v

s

!s

Con el cambio de variablesU V Y Z con U rY Zs y V Z obtenemos la densidad

conjunta de Y Z

gy z

rsz

rs

!r!s

rs

r

y

r

z

rs

e

rysz

Se deduce la densidad marginal de Y

fy

Z

gy zdz

!

rs

r

r

s

s

y

r

!r!sry s

rs

Observamos que si Y F

rs

entonces Y F

sr


Ejercicio Muestre que

rYs

rWs

eta

r s

Aqu el estadstico

n

%

n

n

%

n

F

n

n

lo que permite construir un intervalo de

conanza para el cuociente

Ejemplo Intervalo para una proporcion

Sea la proporcion de piezas defectuosas en un lote de piezas fabricadas por una industria

El numero de piezas defectuosas encontradas en una muestra aleatoria simple de tamano n

sigue una distribucion binomial Bn Para construir un intervalo de conanza para una

proporcion es mas complicado que para una media o varianza Cuando n es pequeno hay

que recorrer a la distribucion binomial tablas y abacos fueron calculados para determinar

valores de

y

para los diferentes valores de k y n y del nivel de conanza

Cuando n es grande se puede usar la aproximacion a la distribucion normal

N n n pero la varianza depende tambien de

Si %p

Y

n

se tiene

IP j

p

n%p

p

j u

Lo que equivale a

IP n%p

u

Las soluciones de la ecuacion

n u

n%p u

n%p

siendo

n%p u

p

u

n%pu

nu

%p

n u

se obtiene

IP

n

n u

%p

u

n

u

s

%p %p

n

u

n

n

n u

%p

u

n

u

s

%p %p

n

u

n

Para n muy grande se puede aproximar por

IP %p u

s

%p %p

n

%p u

s

%p %p

n

EJERCICIOS

Sea una mas fx

x

n

g de una distribucion normal de media desconocida y varianza

conocida

a De el numero mnimo n del tamano de la muestra para que un intervalo de conanza I a

' tenga un largo L a lo mas igual a


b Sea L De el nivel de conanza cuando n y

c Repetir b con

desconocido Comente

d De el intervalo de conanza de largo mnimo para con un nivel de conanza de '

cuando

Una empresa desea estimar el promedio de tiempo que necesita una secretaria para llegar

a su trabajo Se toma una mas de secretarias y se encuentra que un promedio de

minutos Suponiendo que el tiempo de trayecto proviene de una N

con de un

intervalo de conanza para la media

Se dispone de muestras de sangre tomadas en las mismas condiciones a una misma

persona Se obtiene para cada una la dosis de Colesterol en gramos

Cada medida puede considerarse como una realizacion particular de

la variable tasa de Colesterol X N

a De un intervalo de conanza para al ' suponiendo

b De un intervalo de conanza para al ' suponiendo

desconocido

c Construya un intervalo de conanza para

al '

En el ejercicio del capitulo muestre que para construir un intervalo de conanza al

' para en el caso no bayesiano hay que resolver una inecuacion de segundo grado en

y escriba la inecuacion

En el ejercicio del capitulo suponiendo las Y

i

independientes y n grande de un

intervalo de conanza para a '

Se tienen muestras de tamanos n

y n

de una misma va X medida sobre dos

poblaciones distintas Se asume que para ambas poblacionesX sigue una distribucion Normal

con medias

y varianzas

respectivamente

a Construya un intervalo de conanza para

suponiendo que

k

en que k es

una constante conocida

b Muestre que los extremos del intervalo anterior convergen en probabilidad si los tamanos

de las muestras crecen

c Se supone ahora la constante k desconocida De un metodo para construir un intervalo de

conanza para la constante k

d Que inconveniente cree ud que tiene este metodo

Se considera una va X N y una mas de X con una sola observacion x Dada

una constante a se dene el intervalo aleatorio C

a

x min x a max x a

a Muestre que IP C

a

x x

b Muestre que C

a

x es un intervalo de conanza para de nivel de conanza '

cuando a

c Sea una distribucion a priori para Deducir la distribucion a posteriori

de dado x

d Sea la funcion de distribucion de la normal N Muestre que se encuentra una


probabilidad condicional

IP C

a

xx

x a si x a

a a si a x a

a x si x a

e Deducir que para a la probabilidad condicional IP C

a

xx y que

lim

a

IP C

a

xx

TESTS DE HIPOTESIS

TESTS DE HIPOTESIS

GENERALIDADES

En el captulo se presentaron metodos que permiten encontrar los valores de los parametros

desconocidos de la distribucion de poblacion y en el captulo anterior la estimacion por

intervalo permite dar una cierta indicacion sobre la precision de la estimacion puntual Tales

estimaciones puntuales y por intervalo que fueron obtenidas a partir de valores muestrales

permiten formarse una opinion sobre la poblacion y entonces darse una hipotesis de trabajo

Ejemplos

Antes de apostar cara o sello en el lanzamiento de una moneda se tiene que postular

que la moneda esta equilibrada La hipotesis de trabajo es entonces que el parametro

pprobabilidad de sacar cara de la Bernoulli es

p

Un agricultor se compromete a entregar a una fabrica de azucar remolacha con un cierto

porcentaje p

o

de glucosa la hipotesis de trabajo es entonces

p p

o

o p p

o

Los hombres chilenos pretenden ser mas altos que los argentinos en promedio si

y

son las tallas promedias respectivas de los hombres chilenos y argentinos la hipotesis

de trabajo es

Cuando se hizo la estimacion puntual de la talla promedia

de los hombres chilenos

se hizo la hipotesis de trabajo que la va X talla de los hombres chilenos sigue una

distribucion

F Normal

En los cuatro casos se procedera de la misma manera se tiene una hipotesis de trabajo y

una muestra de observaciones se trata de decidir si la hipotesis planteada es compatible con

lo que se puede aprender del estudio de los valores muestrales Se tiene que encontrar un

procedimiento para decidir si la muestra que se obtuvo esta de acuerdo con la hipotesis de

trabajo Naturalmente no se espera que para cualquier muestra el valor emprico obtenido

en la muestra coincide con el valor esperado de la hipotesis el problema es entonces decidir

si la desviacion encontrada entre el valor esperado y el valor observado en la muestra es

demiasiado grande para poner en duda la hipotesis de trabajo Ahora bien si se pone en

duda la hipotesis original entonces se la rechaza en favor de una hipotesis alternativa

TESTS DE HIPOTESIS

En efecto en el ejemplo de la moneda si se encuentra una proporcion de en lanza

mientos debemos rechazar la hipotesis p# y si se rechaza sera a favor de la hipotesis

p

Se distingue la hipotesis de trabajo llamandola hipotesis nula y una hipotesis nula se con

fronta a una hipotesis alternativa

Con que grado de desacuerdo uno tiene que abandonar la hipotesis nula para la

hipotesis alternativa

Para decidir se necesita una regla de decision Cualquier regla de decision debera tratar de

minimizar los errores de decision Si es la regla de decision adoptada y

la probabilidad

de equivocarse cuando la hipotesis nula es cierta y

la probabilidad de equivocarse cuando

la hipotesis alternativa es cierta uno buscara minimizar ambas probabilidades de error Pero

veremos a traves de un ejemplo que a tener

nula se hace

igual a e inversamente

Dada una hipotesis nula H

o

vimos que

es la probabilidad condicional de rechazar la

hipotesis H

o

con la regla cuando H

o

es cierta Ahora bien la regla se basa en los valores

muestrales si la muestra es de tamano n y los valores muestrales en IR una regla de decision

consiste en dividir el dominio IR

n

del conjunto de todas las muestras de tamano n en dos

partes disjuntas la parte W en donde se rechaza la hipotesis nula H

o

y la parte W en donde

no se rechaza La parte W se llama region de rechazo de H

o

o region crtica del test

Como la region crtica del test es aquella en donde se rechaza H

o

debera tomar en cuenta

la hipotesis alternativa

Una regla de decision consiste entonces en determinar la region crtica del test en funcion de

las dos hipotesis

HIPOTESIS ESTADISTICAS

Las hipotesis estadsticas son muy precisas se reeren al comportamiento de variables aleato

rias Pero en los ejemplos expuestos en el parrafo anterior se observara que las hipotesis no

son todas del mismo tipo En los tres primeros ejemplos la hipoptesis concierne solamente a

los valores de parametros de una distribucion cuya forma no esta puesta en duda y es especi

cada a priori Tales hipotesis se llaman hipotesis parametricas En el ultimo ejemplo es

la distribucion completa que esta puesta en juicio se habla de hipotesis no parametricas

Por ejemplo sea una va X de distribucion F x que depende de un parametro Si

es el espacio del parametro y

o

un subconjunto de entonces

H

o

es una hipotesis parametrica mientras que

H F Normal

TESTS DE HIPOTESIS

es una hipotesis no parametrica

Se puede clasicar tambien las hipotesis parametricas segun su grado de especidad Cuando

en la hipotesis parametrica

H

o

o

esta reducido a un solo valor entonces se habla de hipotesis simple sino se habla de

hipotesis compuesta

TEST DE HIPOTESIS PARAMETRICAS

Trataremos en primer lugar los tests de hipotesis parametricas para hipotesis simples antes

de tratar el caso general apoyandonos en los resultados del caso de las hipotesis simples

Encontrar una regla de decision es encontrar una region crtica del test Como hacerlo

minimizando los errores de decision Para eso usaremos la funcion de potencia

Funcion de potencia

Sea un test de hipotesis sobre el parametro de la distribucion F de una va X

H

o

o

contra H

Si una regla de decision nos condujo a una region crtica W para el test entonces para cada

valor de determinaremos la probabilidad que la regla de decision nos conduce a

rechazar H

o

cuando el parametro vale

Denicion La funcion IP rechazarH

o

se llama FUNCI

ON DE POTENCIA

del test

(OJO) aqu no es una variables aleatoria

W es la region crtica del test y x el vector de los valores muestrales entonces

IP x W

Luego la region crtica ideal es aquella que produce una funcion de potencia tal que

si

o

si

En efecto para todo

o

la decision de rechazar H

o

es una decision equivocada entonces

es una probabilidad de error de tipo I o riesgo de primer especie Por otro lado

para todo

la decision de rechazar H

o

es una decision correcta entonces es

una probabilidad de error de tipo II o riesgo de segundo especie

DiegoHighlight

TESTS DE HIPOTESIS

Denicion Se llama TAMA

NO del test a supf

o

g

El problema es que tal region crtica ideal no existe como lo veremos en el siguiente ejemplo

cuando se disminuye uno de los errores a se aumenta el otro a

Ejemplo Sea x

x

x

n

una mas de una va X uniforme en con

Consideramos la hipotesis nula H

o

contra la hipotesis alternativa H

o

Supongamos que una regla de decision nos llevo a decidir de no rechazar a la hipotesis

nula H

o

cuando maxfx

x

x

n

g de una mas de la va X esta en el intervalo y a

rechazar H

o

en el caso contrario Luego la region crtica del test es un subconjunto W IR

n

tal que maxfx

x

x

n

g o g La funcion de potencia del test es entonces

IP maxfx

x

x

n

g IP maxfx

x

x

n

g

Si

IP maxfx

x

x

n

g

IP maxfx

x

x

n

g

Si

IP maxfx

x

x

n

g

n

IP maxfx

x

x

n

g

n

Si

IP maxfx

x

x

n

g

n

IP maxfx

x

x

n

g

n

n

n

El tamano del test es igual a Supf g

n

En los gracos se muestra la funcion de potencia para los casos n y Se observa que

el tamano del test es decir que en el intervalo la probabilidad de equivocarse

no sobrepasa ' Pero el error de tipo II que es igual a cuando

o

puede ser

muy elevado entre y el error disminuye de a pero entre y es casi igual a

En este ejemplo si queremos disminuir el tamano del test hay que elegir un intervalo W

mas

grande o una muestra de tamano mayor Pero en ambos casos se aumentara el error de tipo

II Para tratar de acercarnos a la situacion ideal se puede por ejemplo buscar minimizar una

funcion de los dos errores o bien jarse una cota maxima para el error de tipo I y minimizar

el error de tipo II

TESTS DE HIPOTESIS

0 1 2 3 4 5 6 7 80

0.2

0.4

0.6

0.8

1

Graco Funcion de potencia para

la region crtica con n

0 1 2 3 4 5 6 7 80

0.2

0.4

0.6

0.8

1

Graco Funcion de potencia para

la region crtica con n

Tests para hipotesis simples

Sean x

x

x

n

los valores muestrales independientes de una va de funcion de densidad

fx Se plantea las hipotesis simples

H

o

o

contra H

Dada una regla de decision se tienen los dos errores

IP rechazarH

o

o

error de tipo I

IP no rechazarH

o

error de tipo II

Presentaremos en primer lugar comominimizar una funcion simple de los dos errores tomando

una funcion del tipo

a

b

Usaremos la solucion anterior para encontrar la forma de construir la region crtica tal que

si uno se ja una cota maxima para el error de tipo I el error de tipo II sea mnima

Dados dos escalares a y b buscamos minimizar la funcion a

b

Se denota f

o

x y

f

x a las funciones de verosimilitud dado H

o

y dado H

respectivamente

f

o

x

n

Y

i

fx

i

o

y f

x

n

Y

i

fx

i

Teorema Si

es la regla de decision tal que

se rechaza H

o

cuando af

o

x bf

x

se acepta H

o

cuando af

o

x bf

x

TESTS DE HIPOTESIS

entonces a

b

a

b

Demostracion Si W es la region crtica asociada a una regla de decision

Z

Z

W

f

o

xdx

dx

n

Z

Z

W

f

xdx

dx

n

a

b

a

Z

Z

W

f

o

xdx

dx

n

b

Z

Z

W

f

xdx

dx

n

Luego a

b

es mnimo cuando

R

R

W

af

o

x bf

xdx

dx

n

es mnimo

Es decir si

af

o

x bf

x x W

af

o

x bf

x x W

entonces

es optimo para estos valores a y b dados Se observara que f

o

x bf

x es

irrelevante dado que no cambia el mnimo

Denicion Se llama RAZ

ON DE VEROSIMILITUD de la muestra al cuociente

f

x

f

o

x

Sea

o

la cota maxima de error de tipo I que se quiere aceptar

Denicion Se llama NIVEL DE SIGNIFICACI

ON del test a la cota maxima de error

de tipo I aceptada

Se tiene entonces que buscar una regla de decision que produce un error de tipo I

o

y tal que

sea mnimo El siguiente lema que deriva del teorema anterior nos da la

forma de proceder

Lema NEYMANPEARSON

Si

es una regla de decision tal que para algun k jo

se rechaza H

o

si

f

x

f

x

k

no se rechaza H

o

si

f

x

f

x

k

entonces para toda regla tal que

se tiene

Ejemplo sea x

x

n

de una muestra aleatoria simple de la va X N

descono

cido y

conocido Se estudia H

o

contre H

La razon de verosimilitud se

escribe

f

x

f

o

x

expf

X

x

i

X

x

i

g

TESTS DE HIPOTESIS

f

x

f

o

x

expf

X

x

i

ng

f

x

f

o

x

expf

P

x

i

n

g

La regla de decision que minimiza a a

b

consiste en rechazar H

o

si

f

x

f

o

x

a

b

es decir

X

ln

a

b

Si

y n la region crtica R que es de la forma f

X cg depende de a y b

si ab c# pero si a b y c o si a b y c en particular si a# y

b# R f

X g pero si a# y b# R f

X g

El error de tipo I

es IP

X C Como

X N

n bajo H

o

c

p

n

en que x es la funcion de distribucion de N

El error de tipo II

es IP

X c IP

X c

c

p

n

Si ab como c# para n se obtiene

pero con

n

Si se obtuvo una media muestral

X para una muestra aleatoria de tamano no se

rechaza H

o

con un error de tipo I de cuando se toma ab si se toma a y

b se rechaza H

o

a favor de H

con un error de tipo I igual a

Si ahora se tiene un nivel de signicacion jado a

o

entonces se obtiene una region

crtica R f

X cg tal que

IP

X c

Como

p

n

X N

IP

X c

p

nc

p

Como se obtiene que

p

nc

p

es decir que c y

R f

X g En este caso no se rechaza H

o

Tests UMP

Vamos extender ahora los resultados del lema de NeymanPearson para hipotesis compuestas

Sean las hipotesis compuestas H

o

o

contra H

Si nos jamos un nivel de signicacion

o

buscamos una regla de decision tal que la funcion

de potencia cumple

o

o

y sea maxima

TESTS DE HIPOTESIS

Ahora bien no es siempre posible encontrar un test que satisfaga esta condicion En efecto

si f

g un test podra tener una potencia maxima para

pero no necesariamente

para

Retomando el ejemplo anterior si tomamos como una hipotesis alternativa con dos valores

H

f g entonces para la region crtica mas potente sera de la formaR f

X cg

que como lo vimos no es la region crtica mas potente para

Denicion Si un test maximiza la funcion de potencia para todo valor de la hipotesis

alternativa H

se dice que el test es uniformemente mas potente UMP es

decir que

es un test UMP al nivel de signicacion

o

si

o

y si para todo otro

test tal que

o

se tiene

Observamos en el ejemplo que la razon de las verosimilitud dado

y

se escribe

f

n

x

f

n

x

expf

n

X

g

Se observa que

f

n

x

f

n

x

depende de x a traves solo de la media muestral

X ademas crece

en funcion de

X si

Es decir que este cuociente es monotono con respecto a

X

Denicion Se dice que f

n

x tiene una razon de verosimilitud monotona para un

estadstico gx si y solo si

tal que

el cuociente

f

n

x

f

n

x

depende del vector

x a traves de la funcion gx y el cuociente es una funcion creciente de gx x

En el ejemplo anterior f

n

x tiene una razon de verosimilitud monotona en x Veamos

otro ejemplo una muestra aleatoria de una Bernoulli de parametro p

Tomando y

P

x

i

f

n

xp p

y

p

ny

Si p

p

f

n

xp

f

n

xp

p

p

p

p

y

p

p

n

cuociente que depende de x a traves de y y es una funcion creciente de y tiene una razon

de verosimilitud monotona en

P

x

i

Denicion Un test sobre las hipotesis H

o

o

contra H

o

se dice test

unilateral y un test sobre las hipotesis H

o

o

contra H

o

se dice test bilateral

Vamos a mostrar que si f

n

x tiene una razon de verosimilitud monotona en algun es

tadstico T entonces existe un test UMP para las hipotesis H

o

o

contra H

o

Teorema Si f

n

x tiene una razon de verosimilitud monotona en el estadstico T y

si c es la constante tal que IP T c

o

o

entonces la regla de decision que permite

rechazar la hipotesis nula si T c es un test UMP para H

o

o

contra H

o

al

nivel de signicacion

o

TESTS DE HIPOTESIS

Demostracion Sea

tal que

o

IP rechazar H

o

o

o

IP aceptar H

o

Del lema de NeymanPearson se deduce que entre todos los procedimientos tales que el error

de tipo I

o

el valor de

sera mnimo para el procedimiento

que consiste en

rechazar H

o

cuando

f

n

x

f

n

x

o

k k siendo elegido de tal forma que

IP rechaza H

o

o

o

Como

f

n

x

f

n

x

o

es una funcion creciente de T un procedimiento que rechaza H

o

cuando el

cuociente es al menos igual a k es equivalente al procedimiento que rechaza H

o

cuando T es

al menos igual a una constante c

La constante c es elegida de tal forma que IP rechazar H

o

o

o

Ahora bien esto es cierto para todo

o

Luego este procedimiento es U M P para

H

o

o

contra H

o

Por otro lado la funcion de potencia es no decreciente en y por lo tanto que si

o

o

entonces

o

o

Cuando f

n

x no tiene una razon de verosimilitud monotona el test de razon de verosim

itud permite resolver una gran cuantidad de problemas

Si H

o

$

o

contra H

$

se dene

x

Supf

n

x $

Supf

n

x $

o

El test de razon de verosimilitud consiste en rechazar H

o

si x k y no rechazar H

o

si

x k

El problema es encontrar la dis

Date post:	22-Nov-2015
Category:	Documents
Upload:	victor-stronsky
View:	129 times
Download:	10 times

Apunte Profesora Nancy Lacourly

Documents