Curso Inferencia
Estadıstica
Miguel Angel Chong [email protected]
1 de octubre del 2012
Miguel Chong Inferencia
Definicion Estadıstico suficiente
Un estadıstico es suficiente respecto al parametro ✓ si la distribucion de probabilidad
de la muestra X = (X
1
, . . . ,Xn
) condicionada al estadıstico t (X
1
, . . . ,Xn
) no depende
del parametro ✓, es decir
P ((X
1
, . . . , Xn
) |T (X
1
, . . . , Xn
) = t) =
P ((X
1
, . . . , Xn
) ,T (X
1
, . . . , Xn
) = t)
P (T (X
1
, . . . , Xn
) = t)
no depende de ✓
Teorema de Factorizacion
Una condicion necesaria y suficiente para que el estadıstico T (X ) sea suficiente, es
que la funcion de verosimilitud de la muestra la podamos escribir de la siguiente forma
L(✓;X ) =
nY
i=1
f (x
i
; ✓) = g (T (X ) ; ✓) · h(X )
donde g(T (X ) ; ✓) depende del parametro y de la muestra, a traves del estadıstico
T (X ), y h(X ) no depende de ✓.
Miguel Chong Inferencia
Teorema
Los estadısticos T
1
(X ) y T
2
(X ) son conjuntamente suficientes para ✓1
y ✓2
respectivamente si solo si
L(✓1
, ✓2
;X ) = g (T
1
(X ) ,T2
(X ) ; ✓1
, ✓2
) · h(X)
donde
g (T
1
(X ) ,T2
(X ) ; ✓1
, ✓2
) depende de los parametro ✓1
y ✓2
y de la muestra, a traves
de los estadısticos T
1
(X ) y T
2
(X ) y h(X ) no depende de ✓.
Definicion Estadıstico suficiente y minimal
Un estimador es suficiente minimal, si es suficiente y cualquier reduccion de la
informacion definida por el ya no es suficiente, es decir desprecia informacion que esta
contenida en la muestra, acerca del parametro ✓.
Miguel Chong Inferencia
Existe un metodo general debido a Lehmann y She↵e paraencontrar estadıstico(s) suficiente(s) minimal(es), este metodosupone la existencia de dos muestras aleatorias de tamano n,X = (X
1
= x
1
, . . . ,Xn
= x
n
) y Y = (Y1
= y
1
, . . . ,Yn
= y
n
), y secalcula el cociente de sus verosimilitudes, es decir
Qn
i=1
f (xi
; ✓)Qn
i=1
f (yi
; ✓)=
L(✓;X )
L(✓;X )=
g (T (X ) ; ✓) · h (X )
g (T (Y ) ; ✓) · h (Y ).
Para que esta ultima igualdad no dependa del parametro ✓necesitamos que
g (T (X ) ; ✓) = g (T (Y ) ; ✓) ,
y entonces diremos que T (X ) es suficiente y minimal para ✓.
Miguel Chong Inferencia
La familia exponencial
Existe una clase o familia de distribuciones en la que todos losparametros de las distribuciones que la integran tienen estadısticossuficientes. Este grupo de distribuciones recibe el nombre defamilia exponencial de distribuciones, y como veremos serabastante facil obtener estadısticos suficientes para conseguirinformacion acerca del parametro correspondiente.
Miguel Chong Inferencia
Definicion Familia exponencial de distribuciones uniparametrica.
Diremos que una familia de distribuciones es exponencialuniparametrica si la forma de la funcion de masa de probabilidadP (X = x) en el caso discreto o la densidad densidad f (x ; ✓) sepuede factorizar de la siguiente forma
f (x ; ✓) = a (✓) b (x) ec(✓)d(x),
donde:
a (✓) y c (✓) son funciones reales de ✓ y
b (x) y d (x) son funciones reales de x .
Miguel Chong Inferencia
A partir de un elemento de la familia exponencial podemos encontrar estimadores
suficientes y minimal usando el metodo de Lehmann y Sche↵e para obtener un
estadıstico suficiente y minimal de la familia exponencial
Supongamos que tenemos dos muestras (X
1
, . . . ,Xn
) (Y
1
, . . . ,Yn
) .
Notemos que la verosimilitud con respecto a la primera muestra la podemos escribir
como
L (x
1
, . . . , xn
; ✓) = f (x
1
, . . . , xn
; ✓) =nY
i=1
f (x
i
; ✓)
=
nY
i=1
a (✓) b (x
i
) e
c(✓)d(xi
)
= a
n
(✓)nY
i=1
b (x
i
) e
c(✓)
nX
i=1
d(x
i
)
.
De forma analoga tenemos que para la segunda muestra
L (y
1
, . . . , yn
; ✓) = a
n
(✓)nY
i=1
b (y
i
) e
c(✓)
nX
i=1
d(y
i
)
.
Miguel Chong Inferencia
Por lo tanto el cociente de verosimilitudes queda como
L (x
1
, . . . , xn
; ✓)
L (y
1
, . . . , yn
; ✓)=
a
n
(✓)Q
n
i=1
b (x
i
) e
c(✓)
nX
i=1
d(x
i
)
a
n
(✓)Q
n
i=1
b (y
i
) e
c(✓)
nX
i=1
d(y
i
)
.
=
Qn
i=1
b (x
i
)
Qn
i=1
b (y
i
)
e
c(✓)
0
B@
nX
i=1
d(x
i
)�nX
i=1
d(y
i
)
1
CA
,
entonces el cociente de verosimilitudes no dependera de ✓, siempre que
nX
i=1
d (x
i
)�nX
i=1
d (y
i
) = 0, o equivalentemente si
nX
i=1
d (x
i
) =
nX
i=1
d (y
i
), y por lo tanto
nX
i=1
d (x
i
) es el estadıstico suficiente y minimal.
Miguel Chong Inferencia
La propiedad de suficiencia en un estimador juega un papel muyimportante en dos teoremas que veremos a continuacion, dichosteoremas buscan obtener estimadores con varianzas menores, ybajo cierta condicion podemos encontrar estimador es insesgadosde mınima varianza (UMVUE).
Miguel Chong Inferencia
Teorema de Rao-Blackwell
Sea una poblacion con funcion de densidad f (x ; ✓) y sea ✓ un estimadorinsesgado para el parametro ✓ y T un estadıstico suficiente del mismoparametro ✓. Entonces si hacemos:
g(T ) = Eh✓|T
i
se verifica:
1
g(T ) es un estadıstico que es funcion del estadıstico suficiente.2
g(T ) es insesgado para ✓, es decir que E [g(T )] = ✓.
3
Var (g (T )) Var
⇣✓⌘.
Es decir, el estadıstico g(T ) es funcion del estadıstico suficiente, es unestimador insesgado de ✓ y su varianza es menor que la del estimadorinsesgado ✓.
Notemos que aunque Var (g (T )) tiene menor varianza no podemosasegurar que alcanza la CICR, para poder garantizar que la alcanza hayque pedir que el estadıstico g (T ), sea completo. A continuaciondefiniremos que entenderemos por completez.
Miguel Chong Inferencia
Una buena pregunta es, por que en el Teorema de Rao Blackwell el nuevo estimador
g(t) = Ehˆ✓|T
i, se necesita que T sea suficiente. La respuesta es porque si no g(T )
no serıa un estadıstico, en otras palabras dependerıa del parametro.
Ejemplo. Sea una muestra de tamano n = 2, X
1
,X2
, de una poblacion N (✓, 1).
ˆ✓ =
X
1
+X
2
2
es un estimador insesgado para ✓.
Sea T = X
1
es un estimador, pero no es suficiente para ✓. Entonces
g(T ) = Ehˆ✓|T
i
= EX
1
+ X
2
2
|X1
�
=
1
2
E [X
1
|X1
] +
1
2
E [X
2
|X1
]
=
1
2
X
1
+
1
2
E [X
2
]
= =
1
2
X
1
+
1
2
✓, esto no es un estadıstico.
Esto paso porque T no fue un estadıstico suficiente .
Miguel Chong Inferencia
Una muestra aleatoria X1
,X2
, . . . ,Xn
, de una poblacion Ber(p). Encontrar elUMVUE usando el teorema de Rao Blackwell
Primero veamos que p = X1
es un estimador insesgado para p y en la clase
pasada vimos que T =
Pn
i=1
Xi
es suficiente para p. Entonces
g(T ) = E [p|T = t] = E"X
1
|nX
i=1
Xi
= t
#
= 0 · P X
1
= 0|nX
i=1
Xi
= t
!+ 1 · P
X
1
= 1|nX
i=1
Xi
= t
!
= 1 · P X
1
= 1|nX
i=1
Xi
= t
!=
Pn
i=1
Xi
n=
tn.
La ultima igualdad la explico en la lamina siguiente, lo que quiero que noten es
que el estadıstico g(T ) =
Pn
i=1
X
i
n
es insesgado para p y tiene menor varianza
que p.
Miguel Chong Inferencia
P
0
@X
1
= 0|nX
i=1
X
i
= t
1
A=
P�X
1
= 0,P
n
i=1
X
i
= t
�
P⇣P
n
i=1
X
i
= t
⌘=
P�X
1
= 0,P
n
i=2
X
i
= t
�
P⇣P
n
i=1
X
i
= t
⌘
=
P (X
1
= 0) P�P
n
i=2
X
i
= t
�
P⇣P
n
i=1
X
i
= t
⌘=
(1 � ✓)⇣n�1
t
⌘✓t (1 � ✓)n�1�t
⇣n
t
⌘✓t (1 � ✓)n�t
=
⇣n�1
t
⌘
⇣n
t
⌘=
n � t
n
= 1 �t
n
Entonces la probabilidad del complemento es la siguiente
P
0
@X
1
= 1|nX
i=1
X
i
= t
1
A=
t
n
.
Miguel Chong Inferencia
Completez
Definicion Familia completa
Una familia de distribuciones {F (x ; ✓)} es completa si paracualquier funcion h(x) la identidad:
E [h(x)] = 0 implica que P (h(x) = 0) = 1
en todos los puntos para los cuales f (x ; ✓) > 01 para algun ✓.
Esta definicion nos indica que una familia de distribuciones escompleta si el unico estimador insesgado de cero es el mismo cero.
1
El rango o recorrido de la variable aleatoria
Miguel Chong Inferencia
Un estadıstico T es completo si la correspondiente familia dedistribuciones de T es completa.
Notemos que la propiedad de completez es una propiedad de lafamilia de distribuciones.Definicion Estadıstico suficiente completo.
Diremos que un estadıstico suficiente T es completo, si la familiade distribuciones del estadıstico suficiente T es completa.
Miguel Chong Inferencia
Veamos la familia de distribuciones {Bin (n, p)}es completa
0 = E (h (x)) =nX
x=0
h (x) px (1� p)n�x = (1� p)nnX
x=0
h (x)
✓p
1� p
◆x
,
es un polinomio de grado n y con variable p, para que siempre seaigual a cero sin importar el grado del polinomio ni el valor de p
entonces tiene que pasar que h (x) = 0 para x 2 {0, 1, . . . , n}entonces P (h (x) = 0) = 1 para cualquier p 2 (0, 1).
Miguel Chong Inferencia
Teorema de Lehmann-Sche↵e
Si T es un estadıstico suficiente y completo para ✓, y si existe unestimador insesgado ✓, del parametro ✓, entonces existe un unicoestimador UMVUE dado por
g(T ) = Eh✓|T
i.
Miguel Chong Inferencia
Definicion Estimador invariante.
Un estimador ✓ del parametro ✓ es invariante si una funcion delestimador ✓, es igual a la funcion del estimador del parametro
f (✓) = df (✓).
Miguel Chong Inferencia
Metodos para obtener estimadores
Si suponemos que una poblacion se comporta como una funcion de probabilidad
P(xi
; ✓1
, . . . , ✓k
) en el caso discreto o con funcion de densidad f (x ; ✓1
, . . . , ✓k
) en el
caso continuo, donde los parametros ✓1
, . . . , ✓k
son desconocidos y los vamos a
estimar usando una muestra aleatoria de tamano n, (X
1
, . . . ,Xn
).
Sea E (X
r
) = ↵r
con r 2 {1, . . . , k} los k-primeros momentos respecto al origen de la
poblacion. En general ↵r
sera una funcion de los k-parametros ✓1
, . . . , ✓k
, es decir que
↵r
(✓1
, . . . , ✓k
).
Por otro lado usando la muestra aleatoria (X
1
, . . . ,Xn
) calculemos los k-primeros
momentos respecto al origen para estas observaciones muestrales,
a
r
=
nX
i=1
X
r
i
n
.
Igualando los k primeros momentos poblacionales, ↵r
, a los correspondientes
momentos muestrales, a
r
, tenemos un sistema de k ecuaciones con k-incognitas
E�X
1
�↵1
(✓1
, . . . , ✓k
) = a
1
.
.
.
E (X
r
) = ↵k
(✓1
, . . . , ✓k
) = a
k
.
y resolviendo este sistema tendremos las soluciones
ˆ✓1
, . . . , ˆ✓n
que son los estimadores
por momentos de los parametros ✓1
, . . . , ✓n
.
Miguel Chong Inferencia
Propiedades de los estimadores obtenidos por el metodo demomentos
Consistencia: el estimador ar
son estimadores consistentespara ↵
r
.
Normalidad asintotica : Si los parametros que pretendemosestimar son los momentos poblacionales ↵
r
, entonces losestimadores obtenidos a
r
seran asıntoticamente normales, esdecir
a
r
d! N
✓↵r
,↵2r
� ↵2
r
n
◆.
En general, no son insesgados, y por tanto no son eficientes.
Miguel Chong Inferencia
Metodo de la maxima verosimilitud
Ya habıamos dicho que la funcion de verosimilitud con respecto auna muestra aleatoria (X
1
, . . . ,Xn
) como la funcion de probabilidadP (X = x), o funcion de densidad f
X
(x) de las n variables.
L(x ; ✓) = L(x1
, . . . , xn
; ✓) = f (x1
, . . . , xn
; ✓) =nY
i=1
f (xi
; ✓).
Observaciones
La funcion de verosimilitud L(x1
, . . . , xn
; ✓) es funcion de lamuestra observada y por tanto sera una funcion aleatoriadependiente del parametro ✓, para cada muestra aleatoriatomara un valor.
Para una muestra dada (x1
, . . . , xn
), la verosimilitudL(x
1
, . . . , xn
; ✓) solo depende del parametro ✓, ya que(x
1
, . . . , xn
) son valores fijos.
Miguel Chong Inferencia
Definicion Metodo de la maxima verosimilitud.
El metodo de la maxima verosimilitud consiste en elegir comoestimador del parametro desconocido ✓ al valor ✓(X
1
, . . . ,Xn
) quemaximixa la funcion de verosimilitud L(x
1
, . . . , xn
; ✓), es decir
L(x1
, . . . , xn
; ✓) = max✓2⇥
L(x1
, . . . , xn
; ✓).
A este estimador ✓(X1
, . . . ,Xn
) se le llamamos el estimadormaximo-verosımil (EMV) para el parametro ✓.
El EMV de la funcion de verosimilitud L(xl
, . . . , xn
; ✓) dada unamuestra representa la verosimilitud o plausibilidad de que elparametro ✓ tome un cierto valor, tomando como informacion laproporcionada por la muestra.
Por lo tanto si L(x1
, . . . , xn
; ✓1
) > L(x1
, . . . , xn
; ✓2
) esto nos indicaque la verosimilitud de que el parametro ✓ tome el valor ✓
1
, esmayor que la verosimilitud de que el parametro tome el valor ✓
2
,dado a la luz de la muestra.
Miguel Chong Inferencia
En general maximizar la funcion de verosimilitud L(x1
, . . . , xn
; ✓)suele ser difıcil. Como la verosimilitud es una funcion positiva y losmaximos de L(x
1
, . . . , xn
; ✓) son los mismos que ln L(x1
, . . . , xn
; ✓),entonces en el mayor de los casos preferiremos buscar
ln L(x1
, . . . , xn
; ✓) = max ln L(x1
, . . . , xn
; ✓)
= maxnX
i=1
ln f (xi
; ✓).
Es decir que hay que buscar la solucion de la ecuacion
@ln L(x1
, . . . , xn
; ✓)
@✓=
nX
i=1
@ln f (xi
; ✓)
@✓= 0.
Miguel Chong Inferencia
De forma mas general, si la funcion de densidad de la poblaciondepende de k parametros, f (x ; ✓
1
, . . . , ✓k
), entonces losestimadores maximo-verosimiles de estos parametros se obtienenresolviendo el sistema de ecuaciones de verosimilitud en ✓
1
, . . . , ✓k
.
@ln L(x1
, . . . , xn
; ✓1
, . . . , ✓k
)
@✓1
=nX
i=1
@ln f (xi
; ✓1
, . . . , ✓k
)
@✓1
= 0
...
@ln L(x1
, . . . , xn
; ✓1
, . . . , ✓k
)
@✓k
=nX
i=1
@ln f (xi
; ✓1
, . . . , ✓k
)
@✓k
= 0
y al resolver este sistema de ecuaciones tendremos los EMV�s✓1
(X1
, . . . ,Xn
), . . . , ✓k
(X1
, . . . ,Xn
) de los parametros (✓1
, . . . , ✓k
).
Generalmente el sistema de ecuaciones de verosimilitud no sepuede resolver de forma analıtica y hay que recurrir aaproximaciones numericas.
Miguel Chong Inferencia
Propiedades de los estimadores de maxima verosimilitud
Bajo condiciones de regularidad bastante generales se cumplen lassiguientes propiedades
Consistencia
Los estimadores de maxima verosimilitud son consistentes, es decirpara 8✏ > 0, se verifica
lımn!1P(|✓
EMV
� ✓| < ✏) = 1 cuado n ! 1
Miguel Chong Inferencia
Insesgadez
En general los estimadores de maxima verosimilitud no son insesgados sino
asintoticamente insesgados.
Eficiencia asıntotica Los estimadores de maxima verosimilitud son asıntoticamente
eficientes.
Normalidad asıntotica
Los estimadores de maxima verosimilitud son asıntoticamente normales.
ˆ✓ ! N
✓✓,q
Var(
ˆ✓)
◆
en donde Var(
ˆ✓) o incide con la CICR, es decir Var(
ˆ✓) = 1
nE⇣
@ ln f (x ;✓)@✓
⌘2
�
Suficiencia
Si
ˆ✓ es un estimador suficiente del parametro ✓ , entonces el estimador de maxima
verosimilitud de ✓ , si es unico, es funcion del estimador suficiente
ˆ✓.
Invarianza
Los estimadores maximo-verosımiles son invanantes
2
. Es decir, si
ˆ✓ es el estimador de
maxima verosimilitud del parametro ✓ y g(·) es una funcion con inversa unica,
entonces se verifica que g(
ˆ✓), es el estimador de maxima verosimilitud de g(✓).
2
Con transformaciones biunıvocas
Miguel Chong Inferencia