Estad´ıstica Miguel Angel Chong R.´ [email protected] ... · 1 de octubre del 2012 Miguel Chong...

Curso Inferencia

Estadıstica

Miguel Angel Chong [email protected]

1 de octubre del 2012

Miguel Chong Inferencia

Definicion Estadıstico suficiente

Un estadıstico es suficiente respecto al parametro ✓ si la distribucion de probabilidad

de la muestra X = (X

1

, . . . ,Xn

) condicionada al estadıstico t (X

1

, . . . ,Xn

) no depende

del parametro ✓, es decir

P ((X

1

, . . . , Xn

) |T (X

1

, . . . , Xn

) = t) =

P ((X

1

, . . . , Xn

) ,T (X

1

, . . . , Xn

) = t)

P (T (X

1

, . . . , Xn

) = t)

no depende de ✓

Teorema de Factorizacion

Una condicion necesaria y suficiente para que el estadıstico T (X ) sea suficiente, es

que la funcion de verosimilitud de la muestra la podamos escribir de la siguiente forma

L(✓;X ) =

nY

i=1

f (x

i

; ✓) = g (T (X ) ; ✓) · h(X )

donde g(T (X ) ; ✓) depende del parametro y de la muestra, a traves del estadıstico

T (X ), y h(X ) no depende de ✓.


Teorema

Los estadısticos T

1

(X ) y T

2

(X ) son conjuntamente suficientes para ✓1

y ✓2

respectivamente si solo si

L(✓1

, ✓2

;X ) = g (T

1

(X ) ,T2

(X ) ; ✓1

, ✓2

) · h(X)

donde

g (T

1

(X ) ,T2

(X ) ; ✓1

, ✓2

) depende de los parametro ✓1

y ✓2

y de la muestra, a traves

de los estadısticos T

1

(X ) y T

2

(X ) y h(X ) no depende de ✓.

Definicion Estadıstico suficiente y minimal

Un estimador es suficiente minimal, si es suficiente y cualquier reduccion de la

informacion definida por el ya no es suficiente, es decir desprecia informacion que esta

contenida en la muestra, acerca del parametro ✓.


Existe un metodo general debido a Lehmann y She↵e paraencontrar estadıstico(s) suficiente(s) minimal(es), este metodosupone la existencia de dos muestras aleatorias de tamano n,X = (X

1

= x

1

, . . . ,Xn

= x

n

) y Y = (Y1

= y

1

, . . . ,Yn

= y

n

), y secalcula el cociente de sus verosimilitudes, es decir

Qn

i=1

f (xi

; ✓)Qn

i=1

f (yi

; ✓)=

L(✓;X )

L(✓;X )=

g (T (X ) ; ✓) · h (X )

g (T (Y ) ; ✓) · h (Y ).

Para que esta ultima igualdad no dependa del parametro ✓necesitamos que

g (T (X ) ; ✓) = g (T (Y ) ; ✓) ,

y entonces diremos que T (X ) es suficiente y minimal para ✓.


La familia exponencial

Existe una clase o familia de distribuciones en la que todos losparametros de las distribuciones que la integran tienen estadısticossuficientes. Este grupo de distribuciones recibe el nombre defamilia exponencial de distribuciones, y como veremos serabastante facil obtener estadısticos suficientes para conseguirinformacion acerca del parametro correspondiente.


Definicion Familia exponencial de distribuciones uniparametrica.

Diremos que una familia de distribuciones es exponencialuniparametrica si la forma de la funcion de masa de probabilidadP (X = x) en el caso discreto o la densidad densidad f (x ; ✓) sepuede factorizar de la siguiente forma

f (x ; ✓) = a (✓) b (x) ec(✓)d(x),

donde:

a (✓) y c (✓) son funciones reales de ✓ y

b (x) y d (x) son funciones reales de x .


A partir de un elemento de la familia exponencial podemos encontrar estimadores

suficientes y minimal usando el metodo de Lehmann y Sche↵e para obtener un

estadıstico suficiente y minimal de la familia exponencial

Supongamos que tenemos dos muestras (X

1

, . . . ,Xn

) (Y

1

, . . . ,Yn

) .

Notemos que la verosimilitud con respecto a la primera muestra la podemos escribir

como

L (x

1

, . . . , xn

; ✓) = f (x

1

, . . . , xn

; ✓) =nY

i=1

f (x

i

; ✓)

=

nY

i=1

a (✓) b (x

i

) e

c(✓)d(xi

)

= a

n

(✓)nY

i=1

b (x

i

) e

c(✓)

nX

i=1

d(x

i

)

.

De forma analoga tenemos que para la segunda muestra

L (y

1

, . . . , yn

; ✓) = a

n

(✓)nY

i=1

b (y

i

) e

c(✓)

nX

i=1

d(y

i

)

.


Por lo tanto el cociente de verosimilitudes queda como

L (x

1

, . . . , xn

; ✓)

L (y

1

, . . . , yn

; ✓)=

a

n

(✓)Q

n

i=1

b (x

i

) e

c(✓)

nX

i=1

d(x

i

)

a

n

(✓)Q

n

i=1

b (y

i

) e

c(✓)

nX

i=1

d(y

i

)

.

=

Qn

i=1

b (x

i

)

Qn

i=1

b (y

i

)

e

c(✓)

0

B@

nX

i=1

d(x

i

)�nX

i=1

d(y

i

)

1

CA

,

entonces el cociente de verosimilitudes no dependera de ✓, siempre que

nX

i=1

d (x

i

)�nX

i=1

d (y

i

) = 0, o equivalentemente si

nX

i=1

d (x

i

) =

nX

i=1

d (y

i

), y por lo tanto

nX

i=1

d (x

i

) es el estadıstico suficiente y minimal.


La propiedad de suficiencia en un estimador juega un papel muyimportante en dos teoremas que veremos a continuacion, dichosteoremas buscan obtener estimadores con varianzas menores, ybajo cierta condicion podemos encontrar estimador es insesgadosde mınima varianza (UMVUE).


Teorema de Rao-Blackwell

Sea una poblacion con funcion de densidad f (x ; ✓) y sea ✓ un estimadorinsesgado para el parametro ✓ y T un estadıstico suficiente del mismoparametro ✓. Entonces si hacemos:

g(T ) = Eh✓|T

i

se verifica:

1

g(T ) es un estadıstico que es funcion del estadıstico suficiente.2

g(T ) es insesgado para ✓, es decir que E [g(T )] = ✓.

3

Var (g (T )) Var

⇣✓⌘.

Es decir, el estadıstico g(T ) es funcion del estadıstico suficiente, es unestimador insesgado de ✓ y su varianza es menor que la del estimadorinsesgado ✓.

Notemos que aunque Var (g (T )) tiene menor varianza no podemosasegurar que alcanza la CICR, para poder garantizar que la alcanza hayque pedir que el estadıstico g (T ), sea completo. A continuaciondefiniremos que entenderemos por completez.


Una buena pregunta es, por que en el Teorema de Rao Blackwell el nuevo estimador

g(t) = Ehˆ✓|T

i, se necesita que T sea suficiente. La respuesta es porque si no g(T )

no serıa un estadıstico, en otras palabras dependerıa del parametro.

Ejemplo. Sea una muestra de tamano n = 2, X

1

,X2

, de una poblacion N (✓, 1).

ˆ✓ =

X

1

+X

2

2

es un estimador insesgado para ✓.

Sea T = X

1

es un estimador, pero no es suficiente para ✓. Entonces

g(T ) = Ehˆ✓|T

i

= EX

1

+ X

2

2

|X1

�

=

1

2

E [X

1

|X1

] +

1

2

E [X

2

|X1

]

=

1

2

X

1

+

1

2

E [X

2

]

= =

1

2

X

1

+

1

2

✓, esto no es un estadıstico.

Esto paso porque T no fue un estadıstico suficiente .


Una muestra aleatoria X1

,X2

, . . . ,Xn

, de una poblacion Ber(p). Encontrar elUMVUE usando el teorema de Rao Blackwell

Primero veamos que p = X1

es un estimador insesgado para p y en la clase

pasada vimos que T =

Pn

i=1

Xi

es suficiente para p. Entonces

g(T ) = E [p|T = t] = E"X

1

|nX

i=1

Xi

= t

#

= 0 · P X

1

= 0|nX

i=1

Xi

= t

!+ 1 · P

X

1

= 1|nX

i=1

Xi

= t

!

= 1 · P X

1

= 1|nX

i=1

Xi

= t

!=

Pn

i=1

Xi

n=

tn.

La ultima igualdad la explico en la lamina siguiente, lo que quiero que noten es

que el estadıstico g(T ) =

Pn

i=1

X

i

n

es insesgado para p y tiene menor varianza

que p.


P

0

@X

1

= 0|nX

i=1

X

i

= t

1

A=

P�X

1

= 0,P

n

i=1

X

i

= t

�

P⇣P

n

i=1

X

i

= t

⌘=

P�X

1

= 0,P

n

i=2

X

i

= t

�

P⇣P

n

i=1

X

i

= t

⌘

=

P (X

1

= 0) P�P

n

i=2

X

i

= t

�

P⇣P

n

i=1

X

i

= t

⌘=

(1 � ✓)⇣n�1

t

⌘✓t (1 � ✓)n�1�t

⇣n

t

⌘✓t (1 � ✓)n�t

=

⇣n�1

t

⌘

⇣n

t

⌘=

n � t

n

= 1 �t

n

Entonces la probabilidad del complemento es la siguiente

P

0

@X

1

= 1|nX

i=1

X

i

= t

1

A=

t

n

.


Completez

Definicion Familia completa

Una familia de distribuciones {F (x ; ✓)} es completa si paracualquier funcion h(x) la identidad:

E [h(x)] = 0 implica que P (h(x) = 0) = 1

en todos los puntos para los cuales f (x ; ✓) > 01 para algun ✓.

Esta definicion nos indica que una familia de distribuciones escompleta si el unico estimador insesgado de cero es el mismo cero.

1

El rango o recorrido de la variable aleatoria


Un estadıstico T es completo si la correspondiente familia dedistribuciones de T es completa.

Notemos que la propiedad de completez es una propiedad de lafamilia de distribuciones.Definicion Estadıstico suficiente completo.

Diremos que un estadıstico suficiente T es completo, si la familiade distribuciones del estadıstico suficiente T es completa.


Veamos la familia de distribuciones {Bin (n, p)}es completa

0 = E (h (x)) =nX

x=0

h (x) px (1� p)n�x = (1� p)nnX

x=0

h (x)

✓p

1� p

◆x

,

es un polinomio de grado n y con variable p, para que siempre seaigual a cero sin importar el grado del polinomio ni el valor de p

entonces tiene que pasar que h (x) = 0 para x 2 {0, 1, . . . , n}entonces P (h (x) = 0) = 1 para cualquier p 2 (0, 1).


Teorema de Lehmann-Sche↵e

Si T es un estadıstico suficiente y completo para ✓, y si existe unestimador insesgado ✓, del parametro ✓, entonces existe un unicoestimador UMVUE dado por

g(T ) = Eh✓|T

i.


Definicion Estimador invariante.

Un estimador ✓ del parametro ✓ es invariante si una funcion delestimador ✓, es igual a la funcion del estimador del parametro

f (✓) = df (✓).


Metodos para obtener estimadores

Si suponemos que una poblacion se comporta como una funcion de probabilidad

P(xi

; ✓1

, . . . , ✓k

) en el caso discreto o con funcion de densidad f (x ; ✓1

, . . . , ✓k

) en el

caso continuo, donde los parametros ✓1

, . . . , ✓k

son desconocidos y los vamos a

estimar usando una muestra aleatoria de tamano n, (X

1

, . . . ,Xn

).

Sea E (X

r

) = ↵r

con r 2 {1, . . . , k} los k-primeros momentos respecto al origen de la

poblacion. En general ↵r

sera una funcion de los k-parametros ✓1

, . . . , ✓k

, es decir que

↵r

(✓1

, . . . , ✓k

).

Por otro lado usando la muestra aleatoria (X

1

, . . . ,Xn

) calculemos los k-primeros

momentos respecto al origen para estas observaciones muestrales,

a

r

=

nX

i=1

X

r

i

n

.

Igualando los k primeros momentos poblacionales, ↵r

, a los correspondientes

momentos muestrales, a

r

, tenemos un sistema de k ecuaciones con k-incognitas

E�X

1

�↵1

(✓1

, . . . , ✓k

) = a

1

.

.

.

E (X

r

) = ↵k

(✓1

, . . . , ✓k

) = a

k

.

y resolviendo este sistema tendremos las soluciones

ˆ✓1

, . . . , ˆ✓n

que son los estimadores

por momentos de los parametros ✓1

, . . . , ✓n

.


Propiedades de los estimadores obtenidos por el metodo demomentos

Consistencia: el estimador ar

son estimadores consistentespara ↵

r

.

Normalidad asintotica : Si los parametros que pretendemosestimar son los momentos poblacionales ↵

r

, entonces losestimadores obtenidos a

r

seran asıntoticamente normales, esdecir

a

r

d! N

✓↵r

,↵2r

� ↵2

r

n

◆.

En general, no son insesgados, y por tanto no son eficientes.


Metodo de la maxima verosimilitud

Ya habıamos dicho que la funcion de verosimilitud con respecto auna muestra aleatoria (X

1

, . . . ,Xn

) como la funcion de probabilidadP (X = x), o funcion de densidad f

X

(x) de las n variables.

L(x ; ✓) = L(x1

, . . . , xn

; ✓) = f (x1

, . . . , xn

; ✓) =nY

i=1

f (xi

; ✓).

Observaciones

La funcion de verosimilitud L(x1

, . . . , xn

; ✓) es funcion de lamuestra observada y por tanto sera una funcion aleatoriadependiente del parametro ✓, para cada muestra aleatoriatomara un valor.

Para una muestra dada (x1

, . . . , xn

), la verosimilitudL(x

1

, . . . , xn

; ✓) solo depende del parametro ✓, ya que(x

1

, . . . , xn

) son valores fijos.


Definicion Metodo de la maxima verosimilitud.

El metodo de la maxima verosimilitud consiste en elegir comoestimador del parametro desconocido ✓ al valor ✓(X

1

, . . . ,Xn

) quemaximixa la funcion de verosimilitud L(x

1

, . . . , xn

; ✓), es decir

L(x1

, . . . , xn

; ✓) = max✓2⇥

L(x1

, . . . , xn

; ✓).

A este estimador ✓(X1

, . . . ,Xn

) se le llamamos el estimadormaximo-verosımil (EMV) para el parametro ✓.

El EMV de la funcion de verosimilitud L(xl

, . . . , xn

; ✓) dada unamuestra representa la verosimilitud o plausibilidad de que elparametro ✓ tome un cierto valor, tomando como informacion laproporcionada por la muestra.

Por lo tanto si L(x1

, . . . , xn

; ✓1

) > L(x1

, . . . , xn

; ✓2

) esto nos indicaque la verosimilitud de que el parametro ✓ tome el valor ✓

1

, esmayor que la verosimilitud de que el parametro tome el valor ✓

2

,dado a la luz de la muestra.


En general maximizar la funcion de verosimilitud L(x1

, . . . , xn

; ✓)suele ser difıcil. Como la verosimilitud es una funcion positiva y losmaximos de L(x

1

, . . . , xn

; ✓) son los mismos que ln L(x1

, . . . , xn

; ✓),entonces en el mayor de los casos preferiremos buscar

ln L(x1

, . . . , xn

; ✓) = max ln L(x1

, . . . , xn

; ✓)

= maxnX

i=1

ln f (xi

; ✓).

Es decir que hay que buscar la solucion de la ecuacion

@ln L(x1

, . . . , xn

; ✓)

@✓=

nX

i=1

@ln f (xi

; ✓)

@✓= 0.


De forma mas general, si la funcion de densidad de la poblaciondepende de k parametros, f (x ; ✓

1

, . . . , ✓k

), entonces losestimadores maximo-verosimiles de estos parametros se obtienenresolviendo el sistema de ecuaciones de verosimilitud en ✓

1

, . . . , ✓k

.

@ln L(x1

, . . . , xn

; ✓1

, . . . , ✓k

)

@✓1

=nX

i=1

@ln f (xi

; ✓1

, . . . , ✓k

)

@✓1

= 0

...

@ln L(x1

, . . . , xn

; ✓1

, . . . , ✓k

)

@✓k

=nX

i=1

@ln f (xi

; ✓1

, . . . , ✓k

)

@✓k

= 0

y al resolver este sistema de ecuaciones tendremos los EMV�s✓1

(X1

, . . . ,Xn

), . . . , ✓k

(X1

, . . . ,Xn

) de los parametros (✓1

, . . . , ✓k

).

Generalmente el sistema de ecuaciones de verosimilitud no sepuede resolver de forma analıtica y hay que recurrir aaproximaciones numericas.


Propiedades de los estimadores de maxima verosimilitud

Bajo condiciones de regularidad bastante generales se cumplen lassiguientes propiedades

Consistencia

Los estimadores de maxima verosimilitud son consistentes, es decirpara 8✏ > 0, se verifica

lımn!1P(|✓

EMV

� ✓| < ✏) = 1 cuado n ! 1


Insesgadez

En general los estimadores de maxima verosimilitud no son insesgados sino

asintoticamente insesgados.

Eficiencia asıntotica Los estimadores de maxima verosimilitud son asıntoticamente

eficientes.

Normalidad asıntotica

Los estimadores de maxima verosimilitud son asıntoticamente normales.

ˆ✓ ! N

✓✓,q

Var(

ˆ✓)

◆

en donde Var(

ˆ✓) o incide con la CICR, es decir Var(

ˆ✓) = 1

nE⇣

@ ln f (x ;✓)@✓

⌘2

�

Suficiencia

Si

ˆ✓ es un estimador suficiente del parametro ✓ , entonces el estimador de maxima

verosimilitud de ✓ , si es unico, es funcion del estimador suficiente

ˆ✓.

Invarianza

Los estimadores maximo-verosımiles son invanantes

2

. Es decir, si

ˆ✓ es el estimador de

maxima verosimilitud del parametro ✓ y g(·) es una funcion con inversa unica,

entonces se verifica que g(

ˆ✓), es el estimador de maxima verosimilitud de g(✓).

2

Con transformaciones biunıvocas


Date post:	11-Jul-2020
Category:	Documents
Upload:	others
View:	1 times
Download:	0 times

Estad´ıstica Miguel Angel Chong R.´ [email protected] ... · 1 de octubre del 2012 Miguel Chong...

Documents