Infer^encia e Modela˘c~ao Estat...

50 000 100 000 150 000 200 000

5. ´ 10-6

0.00001

0.000015

0.00002

Distribuiç ã o Estimada:

[email protected], 2.4, 2111.D

Coleccao Metodos Estocasticos

Inferencia e Modelacao Estatıstica

Notas de Licoes

Manuel L. Esquıvel

Professor Associadode

Probabilidade e Processos Estocasticos

18 de Setembro de 2018

2

Prefacio

...real statistics is not primarily about the Mathematics which underlies it: common sense andscientific judgement are more important. (But, as stated earlier, this is no excuse for not usingthe right Mathematics when it is available.)

In David Williams, Weighing the Odds. A Course in Probability and Statistics, CambridgeUniversity Press 2001, page 239.

Neste texto apresentam-se umas notas de licoes da unidade curricular Inferencia eModelacao Estatıstica, do segundo ano do mestrado em Matematica e Aplicacoes daFCT/UNL.

No primeiro capıtulo passam-se em revista alguns dos principais resultados da mo-derna teoria das Probabilidades – segundo Andrei Kolmogorov – que serao necessariospara o estudo da Inferencia Estatıstica. Em razao da importancia que tem, apresenta-mos leis dos grandes numeros – a lei forte de Kolmogorov com uma demonstracao numcaso particular – e o teorema do limite central que sera de novo apresentado no segundocapıtulo.

No segundo capıtulo introduzem-se as funcoes geradoras de momentos com dois ob-jectivos: o primeiro e aplicar o integral de Lebesgue e as suas propriedades operativasessenciais ao calculo de valores esperados; o segundo e o estudo da lei forte dos grandesnumeros e de alguns teoremas limites – por exemplo o teorema do limite central – paravariaveis aleatorias que admitam uma funcao geradora de momentos nao trivial.

No terceiro capıtulo, usando o formalismo introduzido previamente, exploram-se osprincipais conceitos da Inferencia Estatıstica. Tenta-se uma exposicao rigorosa com aexplicitacao das definicoes e principais resultados associados em cada tematica. Sempreque possıvel desenvolvem-se as demonstracoes para permitir uma melhor apreensao dasrelacoes entre os conceitos.

No quarto capıtulo sao estudados os modelos lineares generalizados numa perspectivapractica mas apoiada no formalismo da Estatıstica estudado. O objectivo e proporcionara formacao de espırito crıtico – na tomada de decisoes quanto aos modelos a adoptar –baseado em bom senso e no domınio das tecnicas estatısticas.

Alguns dos complementos figuram como exercıcios no final dos capıtulos. Quandoum complemento e muito relevante, fornece-se a resolucao.

Esta edicao em 2018, destina-se sobretudo a apoiar a leccionacao da unidade curricu-lar referida acima. O desenvolvimento lectivo em anos anteriores 1 nao segue a sequencia

1http://ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1516/InfModEstWEB2015.html

i

0 Seccao: 0.0

da exposicao destas notas para atender a diferentes necessidades: motivacao dos alunos,encadeamento das avaliacoes e eficacia da exposicao.

A apresentacao dos resultados restringe-os, quase sempre, ao caso unidimensional.Numa futura edicao serao expostas as correspondentes versoes multidimensionais.

IME ii 18 de Setembro de 2018

Conteudo

Prefacio iii

1 Formalismo das Probabilidades 1

1.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 O modelo das probabilidades segundo Kolmogorov . . . . . . . . . . . . . 2

1.3 Leis dos grandes numeros . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.4 Um teorema do limite central . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.5 Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.6 Resolucoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2 FGM e Teoremas Limite 21

2.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.2 Sobre o calculo de valores esperados . . . . . . . . . . . . . . . . . . . . . 21

2.3 Os momentos das variaveis aleatorias . . . . . . . . . . . . . . . . . . . . . 22

2.4 A funcao geradora de momentos . . . . . . . . . . . . . . . . . . . . . . . 24

2.5 Propriedades da funcao geradora de momentos . . . . . . . . . . . . . . . 29

2.6 Teoremas limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.7 Grandes desvios e lei forte dos grandes numeros . . . . . . . . . . . . . . . 42

2.8 Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

2.9 Resolucoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

3 Formalismo da Estatıstica 59

3.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

3.2 Estatısticas e estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

3.3 Os Estimadores da Maxima Verosimilhanca . . . . . . . . . . . . . . . . . 64

3.4 Informacao de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

3.5 Consistencia e Normalidade Assimptotica dos EMV . . . . . . . . . . . . 73

3.6 Estatısticas Suficientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

3.7 Testes de Hipoteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

3.8 Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

3.9 Resolucoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

iii

0 Seccao: 0.0

4 Modelos Lineares Generalizados 954.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 954.2 Distribuicoes de tipo exponencial . . . . . . . . . . . . . . . . . . . . . . . 974.3 A funcao de ligacao canonica . . . . . . . . . . . . . . . . . . . . . . . . . 1004.4 A estimacao nos modelos lineares generalizados . . . . . . . . . . . . . . . 1024.5 Metodos para aferir a qualidade do ajustamento . . . . . . . . . . . . . . 1034.6 O modelo Logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1074.7 O modelo Probit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1124.8 Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1124.9 Resolucoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1144.10 Comentarios sobre as referencias . . . . . . . . . . . . . . . . . . . . . . . 116

IME iv 18 de Setembro de 2018

Capıtulo 1

Formalismo das Probabilidades

In modern probability theory it is customary to relate all objects of study to a basic probabilityspace (Ω,A, P ). ...It should be noted, however, that the reference space Ω is introduced only fortechnical convenience, to provide a consistent mathematical framework. Indeed, the actualchoice of Ω plays no role, and the interest focuses instead on the various induced distributions

L(ξ) = P ξ−1.

In Olav Kallenberg, Foundations of Modern Probability, Second Edition, Springer 2002, page 45.

1.1 Introducao

A teoria das probabilidades evoluiu recentemente – se considerarmos a escala de tempodefinida pela evolucao da geometria – tomando-se como ponto de partida as contribuicoesiniciais de Girolamo Cardamo (1501–1576), Pierre de Fermat (1601–1665) e Blaise Pas-cal (1623 – 1662). Foi Andrei Kolmogorov (1903–1987) quem em 1933 publicou no livroFoundations of Probability Theory – ver [Kol56] – uma interpretacao da teoria das proba-bilidades que, pela sua simplicidade – apesar de requerer a teoria do integral de Lebesgue– e eficacia, permitiu o extraordinario desenvolvimento desta teoria e das suas aplicacoes,em particular, a Estatıstica. A obra de Kolmogorov e ainda hoje uma referencia classicaque importa conhecer. Uma apresentacao com desenvolvimentos mais recentes da teoriadas probabilidades encontra-se na obra Probability de Albert Shiryaev – ver [Shi96] –matematico Russo que sucedeu a Kolmogorov como professor no Instituto Steklov. Naobra de William Feller (1906 – 1970), em dois volumes, An introduction to probabilitytheory and its applications – ver [Fel68] e [Fel71] – o leitor interessado encontrara umaexposicao das probabilidades, rigorosa, tecnicamente exigente mas muito proxima dasintuicoes originais.

A introducao a moderna teoria das probabilidades pode ser feita no inıcio dos es-tudos universitarios – logo apos o estudo do calculo diferencial; na unidade curricularProbabilidades e Estatıstica I 1 sao apresentados os resultados principais necessarios auma primeira abordagem da estatıstica. Em particular, as leis dos grandes numeros eo teorema do limite central – sem recorrer as funcoes caracterısticas – podem ser com-

1Ver http://ferrari.dmat.fct.unl.pt/personal/mle/DocPrSt1/2011-2012/PE1-20112012.html

1

1 Capıtulo 1

pletamente estudados desde que se restrinja o estudo as variaveis aleatorias cujas leisadmitem funcao geradora de momentos.

Uma apresentacao mais completa do modelo de Kolmogorov para a teoria das pro-babilidades requer a teoria do integral de Lebesgue. Na unidade curricular MedidaIntegracao e Probabilidades 2 sao estudados os principais resultados destas teorias comespecial relevo para os teoremas de convergencia, resultados estes de utilizacao constante.

Na sequencia imediata do estudo inicial da teoria das probabilidades pode fazer-se oestudo dos processos estocasticos. O livro de David Williams Probability with Martingales– ver [Wil91] – contem, a par de uma apresentacao completa mas muito expedita dasprobabilidades, uma introducao a um dos principais exemplos de processos estocasticos,as martingalas. Na unidade curricular Processos Estocasticos 3 sao tambem estudadosoutros exemplos de processos estocasticos tais como as cadeias de Markov e os processosde Wiener e Poisson.

Sao muitos e por vezes muito profundos os desenvolvimentos mais actuais da teoriadas probabilidades. No livro Foundations of Modern Probability – ver [Kal02] – de OlavKallemberg pode ter-se uma ideia da variedade dos temas e resultados actuais da teoriadas probabilidades e das suas muitas extensoes, em particular aos processos estocasticos.

1.2 O modelo das probabilidades segundo Kolmogorov

Nesta seccao sumariamos os principais conceitos e resultados relativos ao modelo dasprobabilidades de Kolmogorov. Para complementos de informacao sobre esta seccaovejam-se as referencias indicadas na seccao introdutoria.

Definicao 1 (Espaco de Probabilidade). Um espaco de probabilidade e um trio(Ω,A,P) em que:

1. Ω e um conjunto;

2. A ⊆ P e uma algebra-σ;

3. P e uma probabilidade definida sobre A.

Observacao 1 (Interpretacao de Kolmogorov). O conjunto Ω e o conjunto das rea-lizacoes do fenomeno aleatorio em estudo ou o conjunto dos estados do mundo. Umelemento A ∈ A ⊆ P e um acontecimento, ou seja e um subconjunto do conjunto deestados do mundo ou de realizacoes do fenomeno. A probabilidade P e uma medida defi-nida em A tomando valores em [0, 1] e e tal que para cada A ∈ A se tem que P[A] ∈ [0, 1]nos da o grau de confianca na realizacao do acontecimento A.

2Ver na pagina http://ferrari.dmat.fct.unl.pt/personal/mle/DocMIP/1415/MIP-20142015.html3Ver http://ferrari.dmat.fct.unl.pt/personal/mle/DocPE/PE1314/PE 2013-2014.html

IME 2 18 de Setembro de 2018

CAPITULO 1. FORMALISMO DAS PROBABILIDADES Seccao: 1.2

Exemplo 1 (Espaco de Steinhauss). (Ver [MKAL12, p. 224]) Todo o espaco deprobabilidade – completo e sem atomos – e isomorfo ao espaco de probabilidade([0, 1],L([0, 1]), λ) em que a algebra-σ de Lebesgue L([0, 1]) e a algebra-σ completadade B([0, 1]) – que, por sua vez, e a algebra-σ de Borel sobre [0, 1] – e λ e a medidade Lebesgue sobre L([0, 1]).

Definicao 2 (Variavel aleatoria). Uma funcao X definida em Ω e tomando valoresem R e uma variavel aleatoria se se verificar que:

∀B ∈ B([0, 1]) X−1(B) := ω ∈ Ω : X(ω) ∈ B ∈ A .

As funcoes elementares que tomam apenas um numero finito de valores – denomi-nadas funcoes simples – sao as funcoes que se podem representar como combinacoeslineares de indicatrizes. As funcoes indicatrizes sao funcoes simples que tomam apenasos valores 0 e 1. Estas funcoes mostram que existem muitos exemplos e contra-exemplosde variaveis aleatorias.

Exemplo 2 (Funcoes indicatrizes). Dado A ⊆ P(Ω) a funcao indicatriz de Adefinida por:

1IA(ω) =

1 se ω ∈ A0 se ω ∈ Ω \A ,

(1.1)

e uma variavel aleatoria se e so se A ∈ A.

Um resultado notavel, com consequencias para a definicao do integral de Lebesgue,e que todas as variaveis aleatorias podem representar-se como limite pontual – isto e, naconvergencia simples ou pontual – de uma sucessao de funcoes simples.

Teorema 1 (Teorema de Lebesgue: aproximacao por funcoes simples). Seja X ≥ 0uma variavel aleatoria. Entao a sucessao (sXn )n≥1 definida por:

sXn (ω) =n2n−1∑k=0

k

2n1I k

2n≤X< k+1

2n

(ω) + n1IX≥n(ω) (1.2)

e uma sucessao crescente de funcoes simples mensuraveis nao negativas que convergepontualmente – ou simplesmente – para X.

Observacao 2. Se a variavel aleatoriaX ≥ 0 for limitada entao a convergencia e uniforme.Para uma variavel aleatoria nao necessariamente nao negativa considera-se a decom-posicao de X nas suas partes positiva X+ e e parte negativa X− tais que X = X+−X−,definidas por

X+ = max (X, 0) =|X|+X

2e X− = max (−X, 0) =

|X| −X2

, (1.3)


1 Capıtulo 1

e aplicando o teorema a cada uma dessas partes obtem-se uma sucessao de funcoessimples mensuraveis que converge pontualmente para X.

Observacao 3. Uma variavel aleatoria X tomando valores em Rd pode considerar-secomo um d-uplo de variaveis aleatorias tomando valores em R bastando para tal con-siderar as coordenadas de X, por exemplo, na base canonica de Rd. Assim, X =(X1, X2, . . . Xd) : Ω 7→ Rd e uma variavel aleatoria se e so se

∀j = 1, 2, . . . , d ∀B ∈ B([0, 1]) X−1j (B) ∈ A.

Tal como para o caso univariado, esta aqui implıcito que a algebra-σ sobre Rd e B(Rd)a algebra-σ de Borel sobre Rd, isto e, a algebra-σ gerada pela topologia usual sobre Rd.Ou seja, B(Rd) e a algebra-σ produto de d copias de B(R).

Para o conhecimento de uma variavel aleatoria nao importa tanto a representacaoanalıtica desta ou ate a descricao da corrrespondencia que a um ponto do conjunto departida associa a imagem deste ponto no conjunto de chegada; antes, e crucial conhecera distribuicao dos valores da variavel aleatoria.

Definicao 3 (Lei de uma variavel aleatoria). Seja X uma variavel aleatoria comvalores em R. A lei ou distribuicao de X e a medida de probabilidade LX definidaem B(R), a algebra-σ de Borel sobre R, por:

∀B ∈ B(R) , LX(B) = P[X−1(B)

].

Observacao 4. Na especificacao dos modelos estatısticos por meio de variaveis aleatoriase usualmente especificada a lei ou distribuicao da variavel aleatoria sendo irrelevante oespaco de probabilidade em que a variavel aleatoria esta definida. Dada uma medida deprobabilidade sobre (R,B(R)) existe sempre um espaco de probabilidade e uma variavelaleatoria cuja lei coincide com essa medida de probabilidade dada (veja-se, por exemplo,[Wil91, p. 34]).

A integracao de uma funcao mensuravel – de sinal constante – relativamente a umamedida de probabilidade e sempre possıvel no quadro do integral de Lebesgue. Talcomo no caso do integral de Riemann, o integral de Lebesgue e um funcional linearcontınuo so que os domınios de definicao naturais deste funcional sao espacos de Banach– espacos vectoriais normados completos – de funcoes mensuraveis. A definicao seguintevai introduzindo as diferentes propriedades pretendidas para o integral de Lebesgue,alargando progressivamente o domınio de definicao deste integral.



Definicao 4 (Integral de Lebesgue – I). Seja (Ω,A,P) um espaco de probabilidade.

1. Seja 1IA com A ∈ A uma funcao indicatriz mensuravel (veja-se o exemplo 2).Entao: ∫

Ω1IAdP := P[A] ∈ [0, 1] ;

2. Seja s =∑m

k=1 αk1IAk com Ak ∈ A e αk ≥ 0 uma funcao simples mensuravelpositiva. Entao:∫

ΩsdP =

∫Ω

(m∑k=1

αk1IAk

)dP :=

m∑k=1

αkP [Ak] ∈ [0,+∞[ ;

3. Seja X : Ω 7→ [0,∞] uma variavel aleatoria. Entao:∫ΩXdP = sup

∫ΩsdP : s simples mensuravel, 0 ≤ s ≤ X

∈ [0,+∞].

Com a definicao 4, o integral de Lebesgue ja tem propriedades de continuidadenotaveis atestadas pela proposicao 1 a seguir. Versoes plenas de resultados de continui-dade do integral de Lebesgue sao dadas pelos teoremas de convergencia: lema de Fatou,teorema da convergencia monotona de Lebesgue e teorema da convergencia monotonade Lebesgue.

Proposicao 1 (Integral de Lebesgue – II). Seja X ≥ 0 uma variavel aleatoria eseja (sm)m≥1 a sucessao crescente de funcoes simples mensuraveis positivas dadaspelo teorema 1. Entao: ∫

ΩXdP = lim

m→+∞

∫ΩsmdP .

Contrastando com o que ocorre para as funcoes mensuraveis nao negativas, o integralde Lebesgue de funcoes mensuraveis com sinal qualquer so existe – e nesse caso e umnumero real – quando estas funcoes sao integraveis.

Definicao 5 (Integral de Lebesgue – III). Seja X uma variavel aleatoria. Sejam X+

e X− as partes positiva e negativa, respectivamente, definidas acima nas formulas 1.3da observacao 2. X e integravel se e so se∫

ΩX+dP < +∞ e

∫ΩX−dP < +∞ ,

e neste caso o integral de Lebesgue de X e dado por:∫ΩXdP :=

∫ΩX+dP−

∫ΩX−dP .


1 Capıtulo 1

Observacao 5. Na pratica, os integrais de Lebesgue que se calculam sao aqueles quecoincidem com o integral de Riemann no caso das funcoes ou variaveis aleatorias quesao Riemann integraveis. O resultado de integracao relativamente a lei de probabilidade– que e implicitamente referido na definicao 7 adiante – justifica esta pratica. Tambemse calculam os integrais de combinacoes lineares de medidas de Dirac que mais nao saoque somas finitas.

Observacao 6 (Leis definidas por densidades). As leis contınuas mais usadas na praticasao definidas por densidades – relativamente a medida de Lebesgue – ou seja porfuncoes f : R 7→ R+ = [0,+∞[ tais que:

1. f e mensuravel, isto e:

∀B ∈ B(R) f−1(B) ∈ B(R) ;

2. o integral de Lebesgue de f sobre R vale um, ou seja,∫R

fdλ = 1 .

Entao Lf definida por:

∀B ∈ B(R) Lf (B) =

∫Bfdλ ,

e uma medida de probabilidade que, em consequencia, define uma lei de probabilidade.

Exemplo 3 (Lei normal). Seja X uma variavel aleatoria cuja lei e definida pela

densidade fµ,σ2

X , dada por:

fµ,σ2

X (x) =1√

2πσ2exp

(−(x− µ)2

2σ2

),

isto e tal que,

∀B ∈ B(R) LX(B) =

∫Bfµ,σ

2

X dλ .

Entao X tem distribuicao normal de parametros µ – a media – e σ2 – a variancia– o que representamos por X _ N(µ, σ2).

A distribuicao dos valores tomados por uma variavel aleatoria pode ser completa-mente descrita pela sua funcao de distribuicao.

Definicao 6 (Funcao de Distribuicao). Seja X uma variavel aleatoria com lei deprobabilidade LX . Entao FX : R 7→ [0, 1] a funcao de distribucao de X e definidapor

FX(x) = LX (]−∞, x]) = P[X−1 (]−∞, x] )

]= P [X ≤ x]] .



Observacao 7 (Funcoes de distribuicao de leis definidas por densidades). Atendendo aobservacao 6 e a definicao 6, a funcao de distribuicao de uma variavel aleatoria X cujalei admita uma densidade fX , que seja Riemann integravel e dada por:

FX(x) = P [X ≤ x] =

∫]−∞,x]

fXdλ =

∫ x

−∞fX(t)dt ,

formula que e conhecida de estudos anteriores.

Proposicao 2 (Caracterizacao das funcoes de distribuicao). Uma funcao de distri-buicao FX de uma variavel aleatoria X verifica as seguintes propriedades.

1. FX e crescente (x ≤ y ⇒ FX(x) ≤ FX(y)).

2. FX e contınua a direita (limh→0,h>0 FX(x+ h) = FX(x)).

3. Tem-se os seguintes limites

limx→−∞

FX(x) = 0 e limx→+∞

FX(x) = 1 .

Reciprocamente, para cada funcao F : R 7→ [0, 1] verificando as tres propriedadesacima, existe um espaco de probabilidade e uma variavel aleatoria X definida nesseespaco, com funcao de distribuicao FX tal que F ≡ FX (isto e, tal que para qualquerx ∈ R se tenha que F (x) = FX(x)).

O integral de Lebesgue de funcoes mensuraveis positivas – ou de funcoes integraveis– permite a definicao de operadores lineares importantes definidos sobre os espacos devariaveis aleatorias. Um desses operadores e o valor esperado.

Definicao 7 (Valor Esperado). Seja X uma variavel aleatoria. E[X], o valoresperado de X e, quando os integrais a seguir existam como valores em R,

E[X] =

∫ΩXdP =

∫R

xdLX(x) =

∫R

xfX(x)dλ(x) =

∫ +∞

−∞xfX(x)dx ,

e, no caso em que a lei de X admite a densidade fX – relativamente a medida deLebesgue – que seja Riemann integravel.

Observacao 8. Pode acontecer que para variaveis aleatorias relevantes para a modelacaoestatıstica o valor esperado nao exista porque os integrais acima ou nao estao definidosou nao sao finitos; e o caso das variaveis aleatorias com lei de Cauchy.

1.3 Leis dos grandes numeros

As leis dos grandes numeros sao resultados essenciais na Teoria das Probabilidades eda Estatıstica. A lei fraca recorre a convergencia em probabilidade e a lei forte a con-


1 Capıtulo 1

vergencia quase certa. O contexto em que vamos prosseguir e dado por um espaco deprobabilidade (Ω,A,P).

A definicao formal da convergencia em probabilidade e a seguinte.

Definicao 8 (Convergencia em probabilidade). Seja (Xn)n≥1 uma sucessao devariaveis aleatorias definidas sobre (Ω,A). A sucessao converge em probabilidadepara uma variavel aleatoria X∞ – e escrevemos limn→+∞Xn =Prob. X∞ – se e so se:

∀ε > 0 limn→+∞

P [|Xn −X∞| ≥ ε] = 0 . (1.4)

A desigualdade seguinte descreve o comportamento de cauda – tail behaviour – deuma variavel aleatoria integravel.

Proposicao 3 (Desigualdade de Tchebyshev). Seja X ≥ 0 uma variavel aleatoriatal que E[X] < +∞. Tem-se entao que:

∀ε > 0 P [X ≥ ε] ≤ E[X]

ε. (1.5)

Demonstracao. Com efeito tem-se, em resultado das propriedades de monotonia do in-tegral de Lebesgue, que:

+∞ > E[X] =

∫ΩXdP ≥

∫X≥ε

XdP ≥ ε∫X≥ε

dP = ε ·P [X ≥ ε] ,

o que demonstra o resultado anunciado.

Teorema 2 (Lei fraca dos grandes numeros). Seja X uma variavel aleatoria tal queE[X2] < +∞. Seja X = (X1, X2, . . . Xm, . . . ) uma amostra de X. Tem-se entaoque:

limm→+∞

1

m

m∑j=1

Xj

=Prob. E[X] .

Demonstracao. Resulta da desigualdade de Tchebychev na proposicao 3. Note-se quepodemos supor, sem perda de generalidade que E[X] = 0. Com efeito, se for para cadam ≥ 1 por definicao X ′m = Xm −E[X] tem-se que (X ′1, X

′2, . . . X

′m, . . . ) e uma amostra

de X ′ = X −E[X] e E[X ′] = 0. Tem-se que para qualquer ε > 0 que,

P

1

m

m∑j=1

Xj ≥ ε

= P

m∑j=1

Xj

2

≥ m2ε2

≤ 1

m2ε2E

m∑j=1

Xj

2 .



Agora como

E

m∑j=1

Xj

2 = E

m∑j=1

X2j +

m∑i,j=1,i 6=j

XiXj

=

m∑j=1

E[X2] +

m∑i,j distintos i,j=1

E[XiXj ] ,

e, pela independencia, E[XiXj ] = E[Xi]E[Xj ] = 0, tem-se que:

P

1

m

m∑j=1

Xj ≥ ε

≤ 1

m2ε2mE[X2] ≤ E[X2]

mε2,

o que pela formula (1.4) da definicao 8, conduz a conclusao pretendida.

Observacao 9. A lei fraca e valida com a hipotese menos restritiva E[|X|] < +∞; e umresultado que se deve a Aleksandr Khintchin (1894–1959) . A demonstracao baseia-senum processo de truncatura das variaveis aleatorias (veja-se [Res99, p. 205]).

Definicao 9 (Convergencia quase certa). Seja (Xn)n≥1 uma sucessao de variaveisaleatorias definidas sobre (Ω,A). A sucessao converge quase certamente parauma variavel aleatoria X∞ – e escrevemos limn→+∞Xn =q.c. X∞ – se e so se:

∃Ω1 ∈ A P[Ω \ Ω1] = 0 ∀ω ∈ Ω1 limn→+∞

X(ω) = X∞(ω) . (1.6)

Teorema 3 (Lei forte dos Grandes Numeros de Kolmogorov). Seja X e umavariavel aleatoria tal que E[|X|] < +∞. Seja X = (Xm)m≥1 uma sucessao deveriaveis aleatorias independentes e com a mesma distribuicao que X. Entao, tem-se que, quase certamente,

limm→+∞

1

m

m∑j=1

Xj

= E[X] . (1.7)

Demonstracao. A demonstracao deste e de outros casos mais gerais pode ser vistaem [Kal02, p. 73]. Vamos considerar o caso em que as variaveis aleatorias da su-cessao (Xn)n≥1 sao independentes – nao tendo que ser equidistribuıdas – e tais queE[X4

n] ≤ K < +∞ para K constante e independente de n ≥ 1 (veja-se [Wil91, p. 72]).Tal como no caso da lei fraca podemos supor que E[X] = 0 (veja-se o exercıcio 12).


1 Capıtulo 1

Note-se que: m∑j=1

Xj

4

=m∑

i,j,k,l=1

XiXjXkXl =m∑j=1

X4i +

m∑i,j,k distintos i,j,k=1

X2iXjXk+

+m∑

i,j distintos i,j=1,

X2iX

2j +

m∑i,j distintos i,j=1,

X3iXj +

m∑i,j,k,l distintos i,j,k,l=1

XiXjXkXl ,

mas que se tem que, pela independencia – e porque as variaveis sao centradas – que,para i, j, k, l distintos:

E [XiXjXkXl] = E[X2iXjXk

]= E

[X3iXj

]= 0 .

Logo, com os mesmos argumentos que usamos na demonstracao da lei fraca, tem-setambem que

E

m∑j=1

Xj

4 =

m∑j=1

E[X4]+

m∑i,j=1

E[X2i ]E[X2

j ] ≤ mK+3m(m−1)K ≤ 3Km2 , (1.8)

uma vez que pela desiguladade de Cauchy-Schwarz E[X2j ] ≤

√P[Ω]

√E[X4

j ] ≤√K e

que, para obter a soma mais a direita temos que escolher de entre 4 possıveis, 2 a 2 ecada um desses temos escolher entre m possıveis, logo,(

4

2

)(m

2

)=

4!

2!2!

m!

2!(m− 2)!= 3m(m− 1) .

Em consequencia da formula 1.8 temos que:

E

p∑m=1

(∑mj=1Xj

m

)4 =

p∑m=1

1

m4E

m∑j=1

Xj

4 ≤ p∑m=1

3K

m2≤ 3K

π2

6< +∞

Pelo que, pelo teorema da convergencia monotona e pelas propriedades do integral deLebesgue, se tem que a serie de termo geral ((1/m4)(

∑mj=1Xj)

4)m≥1 converge quasecertamente e, por isso, o seu termo geral tende para zero quase certamente, ou seja,

limm→+∞

1

m

m∑j=1

Xj =q.c. 0 ,

tal como no enunciado se afirma.

Observacao 10. A conclusao do teorema pode interpretar-se deste modo. Existe Ω1 ⊂ Ωtal que P[Ω \ Ω1] = 0 e tal que:

∀ω ∈ Ω1 limm→+∞

1

m

m∑j=1

Xj(ω) = E[X] ,



ou seja se a = (a1, a2, . . . , an, . . . ) for a realizacao generica de X tal que para j ≥ 1 severifica Xj(ω) = aj , entao com probabilidade um, na escolha de a,

limm→+∞

1

m

m∑j=1

aj = E[X] .

Esta interpretacao e da maior importancia em Estatıstica.

1.4 Um teorema do limite central

O teorema do limite central recorre ainda a um outro tipo de convergencia de variaveisaleatorias: a convergencia em distribuicao. Numa primeira aproximacao, uma sucessaode variaveis aleatorias converge em distribuicao se as correspondentes funcoes de distri-buicao convergem; dado que num ponto de discontinuidade, da funcao de distribuicaolimite, pode nao haver convergencia (veja-se o exemplo em [Wil91, p. 180]), tem-se adefinicao seguinte.

Definicao 10 (Convergencia em distribuicao). Seja (Xm)m≥1 uma sucessao devariaveis aleatorias e (FXm)m≥1 a sucessao das correspondentes funcoes de distri-buicao. A sucessao (Xm)m≥1 converge em distribuicao para a variavel aleatoriaX∞ – e escrevemos limm→+∞Xm =Distrib. X∞ – se e so se para todo o ponto decontinuidade x de FX∞ ,

limm→+∞

FXm(x) = FX∞(x) .

A convergencia em distribuicao e tambem a convergencia fraca das leis de probabi-lidade das variaveis aleatorias (veja-se [Wil91, p. 182] ou [vdV00, p. 6]).

Proposicao 4 (Criterios de convergencia em distribuicao). Uma sucessao (Xm)m≥1

de variaveis aleatorias converge em distribuicao para a variavel aleatoria X∞ se eso se uma das seguintes propriedades equivalentes se verifica:

1. Qualquer que seja h funcao contınua e limitada h:

limm→+∞

E [h(Xm)] = E [h(X∞)] .

2. Qualquer que seja h funcao de Lipschitz h, isto e tal que para x, y ∈ R seja|h(x)− h(y)| ≤ K |x− y| para K > 0 constante, se tenha:

limn→+∞

E [h(Xm)] = E [h(X∞)] .

A proposicao seguinte mostra como se podem deduzir outros resultados de con-vergencia de sucessoes de variaveis aleatorias (veja-se [vdV00, p. 11]).


1 Capıtulo 1

Proposicao 5 (Propriedades das convergencias). Sejam (Xm)m≥1 e (Ym)m≥1 su-cessoes de variaveis aleatorias. Se se verificar que,

limm→+∞

Xm =Distrib. X∞ e limm→+∞

Ym =Prob. c ∈ R ,

entao,

limm→+∞

(Xm + Ym) =Distrib. X∞ + c limm→+∞

XmYm =Distrib. X∞c .

O resultado seguinte e importante em Estatıstica, nomeadamente para estabelecer ometodo delta (ver para outras demonstracoes, por exemplo, [Res99, p. 268] ou [vdV00,p. 10]).

Teorema 4 (Teorema de Slutsky). Sejam (Xm)m≥1 e (Ym)m≥1 sucessoes devariaveis aleatorias tais que:

limm→+∞

Xm =Distrib. X∞ e limm→+∞

Xm − Ym =Prob. 0 .

Entao,lim

m→+∞Ym =Distrib. X∞ .

Demonstracao. Vamos usar o segundo criterio de convergencia em probabilidade na pro-posicao 4. Seja entao, h uma funcao de Lipschitz com a constante K > 0 e limitada pelaconstante M > 0. Como se tem que:∫

Ω|h(Ym)− h(X∞)| dP ≤

∫Ω|h(Ym)− h(Xm)| dP+

∫Ω|h(Xm)− h(X∞)| dP , (1.9)

e, por hipotese,

limm→+∞

∫Ω|h(Xm)− h(X∞)| dP = lim

m→+∞E [h(Xm)− h(X∞)] = 0 ,

basta-nos estudar o primeiro integral do membro a direita na formula (1.9). Tem-se,entao, que, para qualquer ε > 0,∫

Ω|h(Ym)− h(Xm)| dP =

∫|Xm−Ym|<εE

|h(Ym)− h(Xm)| dP+

+

∫|Xm−Ym|≥ε

|h(Ym)− h(Xm)| dP ≤

≤ 2Kε P [|Xm − Ym| < ε] + 2M P [|Xm − Ym| ≥ ε] ,

o que implica a conclusao, dado que ε e arbitrario e P [|Xm − Ym| < ε] ≤ 1.



Apresentamos seguidamente uma versao simples to teorema do limite central queservira para fundamentar alguns resultados importantes a seguir (para a demosntracaoque requer as funcoes caracterısticas, veja-se [Wil91, p. 189] ou [Shi96, p. 308] ou ainda[Res99, p. 293]).

Teorema 5 (Teorema do Limite Central para variaveis aleatorias IID). Seja(Xm)m≥1 uma sucessao de variaveis aleatorias independentes e identicamente dis-tribuıdas, tais que

E[X] = 0 e V[X] = σ2 < +∞ .

Entao sendo Z _ N(0, 1) tem-se que,

limm→+∞

1

σ√m

(X1 +X2 + · · ·+Xm) =Distrib. Z . (1.10)

Observacao 11. Pode exprimir-se a formula (1.10) do teorema 5 recorrendo as funcoesde distribuicao das variaveis aleatorias intervenientes. Com efeito, tem-se que,

limm→+∞

P

[X1 +X2 + · · ·+Xm

σ√m

≤ x]

=1√2π

∫ x

0e−

t2

2 dt

e a conclusao do teorema do limite central.

1.5 Exercıcios

1.5.1 Revisoes sobre o modelo de Kolmogorov

Os exercıcios desta seccao tem por objectivo relembrar os principais conceitos relativosao integral de Lebesgue e ao modelo de Kolmogorov das probabilidades. As notas amargem assinalam a dificuldade dos exercıcios, graduada de [1] - aplicacoes imediatasdos conceitos introduzidos - ate [3] - exercıcios que podem requerer domınio de conceitosestudados noutras unidades curriculares.

Exercıcio 1 (As Funcoes Indicatrizes). Demonstre a assercao sobre a mensurabilidade das funcoes [1]indicatrizes do exemplo 2.

Exercıcio 2 (As Funcoes Simples). Mostre que toda a funcao simples – isto e, toda a funcao tomando [1]apenas um numero finito de valores – mensuravel pode representar-se como combinacao linear, com oscoeficientes todos distintos, de conjuntos, disjuntos dois a dois e mensuraveis. Uma tal representacao –que e unica a menos da ordenacao dos coeficientes – denomina-se representacao canonica.

Exercıcio 3 (Lei de uma variavel aleatoria). Mostre que a lei de uma variavel aleatoria definida na [1]definicao 3 e uma medida de probabilidade.

Exercıcio 4 (Existencia de variaveis com leis dadas). Mostre que dada uma medida de probabilidade L [1]sobre (R,B(R)) existe sempre um espaco de probabilidade e uma variavel aleatoria X sobre esse espacode probabilidade cuja lei LX coincide com essa medida de probabilidade dada.


1 Capıtulo 1

Exercıcio 5 (Aproximacao por funcoes simples). Seja X uma variavel aleatoria tomando valores reais. [2]

1. Mostre que existe uma sucessao de funcoes simples mensuraavie que converge pontualmente paraX.

2. Mostre que se X for limitada, entao a sucessao de funcoes simples construıda na alınea anteriorconverge uniformemente para X.

Exercıcio 6 (Integrais de Lebesgue e de Riemann). Seja f : [a, b] ⊂ R 7→ R uma funcao limitada e [3]contınua 4.

1. Mostre que f e uniformemente contınua sobre [a, b].

2. Mostre que se para cada n ≥ 1 for a = xn0 < xn1 < · · · < xnpn = b uma particao de [a, b] entaotem-se que se definirmos

fn(x) =

pn−1∑k=0

f(ξk)1I[xnk ,xnk+1[(x)

em que ξk ∈ [xnk , xnk+1[ arbitrario mas fixo, entao (fn)n≥1 e uma sucessao de funcoes simples

mensuraveis – em escada, isto e, constantes por intervalos – que converge uniformemente para fsobre [a, b].

3. Mostre que f e Lebesgue integravel sobre [a, b] e que o integral de Lebesgue de f sobre [a, b] coincidecom o integral de Riemann de f sobre [a, b].

Exercıcio 7 (Continuidade do Integral de Lebegue). Demonstre a proposicao 1. [2]

Exercıcio 8 (Integral do modulo de uma variavel aleatoria). Mostre que a variavel aleatoria X, e [1]integravel se e so se a variavel aleatoria |X| for integravel.

Exercıcio 9 (Integracao relativamente a lei de probabilidade). Seja X uma variavel aleatoria integravel [2]e LX a lei de probabilidade de X. Mostre, aplicando os passos das definicoes 4 e 5, que:∫

Ω

XdP =

∫R

xdLX(x) .

Exercıcio 10 (Propriedades das Funcoes de Distribuicao). Demonstre a proposicao 2. [2]

Exercıcio 11 (Limite quase certo de variaveis aleatorias). Seja (Xn)n≥1 uma sucessao de variaveis [2]aleatorias definidas sobre (Ω,A) e tomando valores reais.

1. Mostre que se a sucessao (Xn)n≥1 converge pontualmente – ou simplesmente – para uma funcaoX∞ : Ω 7→ R entao X∞ e uma variavel aleatoria.

2. Mostre que se a sucessao (Xn)n≥1 converge quase certamente sobre (Ω,A), isto e, se quase cer-tamente:

lim supm→+∞

Xn = lim infm→+∞

Xn ,

entao existe X∞ : Ω 7→ R variavel aleatoria tal que (Xn)n≥1 converge quase certamente para X∞.

Exercıcio 12 (Independencia e transladacao de variaveis integraveis). Seja (Xn)n≥1 uma sucessao de [2]variaveis aleatorias independentes e tais que para n ≥ 1 e p ≥ 1, se tenha E[|Xn|p] < +∞. Mostre quese definirmos (X ′n)n≥1 em que X ′n := Xn − E[Xn] se tem que (X ′n)n≥1 e uma sucessao de variaveisaleatorias independentes e tais que para n ≥ 1 e p ≥ 1, se tenha tambem E[|X ′n|

p] < +∞.



Exercıcio 13 (Desigualdade de Cauchy-Schwarz). Sejam X,Y variaveis aleatorias de quadrado in- [1]tegravel, isto e, tais que E[X2] < +∞ e E[Y 2] < +∞.

1. Considerando a variavel aleatoria λ |X| − |Y |, mostre que para qualquer λ ∈ R se tem que:

0 ≤ λ2E[X2]− 2λE[|X · Y |] +E[Y 2] .

2. Conclua que se verifica a desigualdade de Cauchy-Schwarz:

|E[X · Y ]| ≤ E[|X · Y |] ≤√E[X2] ·

√E[Y 2] .

3. Mostre aplicando a desiguladade de Cauchy-Schwarz ao produto 1IΩ ·X2 que se se tiver E[X4] <+∞ entao,

E[X2]2 ≤ E[X4] .

Exercıcio 14 (A convergencia quase certa implica a convergencia em probabilidade). Seja (Xn)n∈Nconvergindo quase certamente para X. Entao, (Xn)n∈N converge em probabilidade para X, isto e: [3]

Xnq.c.−−−−−→

n→+∞X ⇒ Xn

pr.−−−−−→n→+∞

X .

Exercıcio 15 (A convergencia em probabilidade NAO implica a convergencia quase certa). Seja uma [2]sucessao de variaveis aleatorias independentes (Xn)n∈N verificando:

∀n ∈ N P[Xn = 1] =1

n, P[Xn = 0] = 1− 1

n.

1. Mostre que a sucessao converge para X ≡ 0 em probabilidade.

2. Mostre que a sucessao nao converge quase certamente.

Exercıcio 16 (Conjuntos de probabibilidade arbitrariamente pequena). Mostre que se X for finita P [1]quase certamente verifica-se que:

∀δ > 0 ∃Aδ > 0 P[|X| > Aδ] ≤ δ . (1.11)

Exercıcio 17 (Propriedades da convergencia em probabilidade). Sejam (Xn)n∈N e (Yn)n∈N conver- [2]gindo em probabilidade para duas variaveis aleatorias X e Y , respectivamente, variaveis finitas P quasecertamente. Seja ϕ : R −→ R uma funcao contınua. Entao:

1. A sucessao (Xn + Yn)n∈N converge em probabilidade para X + Y .

2. A sucessao (ϕ(Xn))n∈N converge em probabilidade para ϕ(X).

3. A sucessao (Xn · Yn)n∈N converge em probabilidade para X · Y .

Exercıcio 18 (Propriedade notavel da convergencia em probabilidade). Sejam (Xn)n∈N e (Yn)n∈Nsucessoes de variaveis aleatorias tais que: [1]

Ynpr.−−−−−→

n→+∞Y e (Xn − Yn)

pr.−−−−−→n→+∞

0 .

Entao, (Xn)n∈N converge em probabilidade para Y , isto e:

Xnpr.−−−−−→

n→+∞Y .


1 Capıtulo 1

Exercıcio 19 (Propriedade notavel das convergencias em probabilidade e em distribuicao). Sejam(Xn)n∈N e (Yn)n∈N sucessoes de variaveis aleatorias tais que: [1]

XnDistr.−−−−−→n→+∞

X e Ynpr.−−−−−→

n→+∞0 .

Entao, (XnYn)n∈N converge em probabilidade para 0, isto e:

XnYnpr.−−−−−→

n→+∞0 .

1.6 Resolucoes

Resolucao:[Exercıcio 14] A hipotese pode ser expressa escrevendo que ha convergenciapontual da sucessao de funcoes mensuraveis (Xn)n∈N para a funcao mensuravel X salvo,talvez, num conjunto de probabilidade nula. Ou seja, tem-se para um dado Ω

′:

Ω′

:=

ω ∈ Ω : lim inf

n→+∞Xn(ω) = X(ω) = lim sup

n→+∞Xn(ω)

∈ A, P[Ω

′] = 1 .

Seja ε > 0 fixo. Pela definicao;

∀ω ∈ Ω′ ∃n ∈ N ∀m ≥ n |Xn(ω)−Xn(ω)| ≤ ε

o que implica.

Ω′ ⊂

⋃n∈N

⋂m≥n|Xm −Xn| ≤ ε = lim inf

n→+∞|Xm −Xn| ≤ ε ,

ou passando aos complementares pelas leis de Morgan,

lim supn→+∞

|Xm −Xn| > ε ⊂ (Ω′)c .

Em consequencia do lema de Fatou inverso (veja-se [Wil91, p. 53]) pode afirmar-se que:

0 ≤ lim infn→+∞

P [|Xm −Xn| > ε] ≤ lim supn→+∞

P [|Xm −Xn| > ε] ≤

≤ P[lim supn→+∞

|Xm −Xn| > ε]≤ P[(Ω

′)c] = 0 ,

o que implica limn→+∞ P[|Xm −Xn| > ε] = 0, como pretendıamos demonstrar. ♦

Resolucao:[Exercıcio 15] Com efeito, para ε > 0 se tem que P[| Xn |> ε] = P[Xn =1] = 1/n. Para verificarmos que a sucessao indicada nao converge quase certamenteapliquemos o lema de Borel-Cantelli. Observe-se que se, para n ∈ N considerarmos oacontecimento An := Xn = 1 tem-se que (An)n∈N e uma sucessao de acontecimentos

4O resultado permanece valido se se verificar apenas que o conjunto de pontos de discontinuidade def tem medida de Lebesgue nula.



independentes tal que∑+∞

n=1 P[An] =∑+∞

n=1(1/n) = +∞. Por Borel-Cantelli deduz-seque P[lim supn→+∞An] = 1 ou seja:

P

+∞⋂n=1

⋃m≥n

Am

= P

+∞⋂n=1

⋃m≥nXm = 1

= 1 .

Quer isto dizer que se pode considerar Ω′ ∈ A tal que P[Ω\Ω′ ] = 0 e tal que para ω ∈ Ω

′,

se tem ω ∈ ∩+∞n=1 ∪m≥n Xm = 1, ou ainda:

∀ω ∈ Ω′ ∀n ∈ N ∃mn(ω) ≥ n Xmn(ω) = 1 ,

existindo assim uma subsucessao (Xmn(ω))n∈N de (Xn(ω))n∈N que admite 1 como li-mite. Do mesmo modo, considerando os acontecimentos definidos para cada n ∈ N porBn := Xn = 0 se pode inferir a existencia de uma outra subsucessao (Xln(ω))n∈N de(Xn(ω))n∈N que admite 0 como limite para ω ∈ Ω

′′ ∈ A e tal que P[Ω\Ω′′ ] = 0. Suponha-mos que a sucessao de variaveis aleatorias (Xmn)n∈N era convergente P quase certamente.Entao, para cada ω pertencente a um conjunto de probabilidade plena (no caso Ω

′ ∩Ω′′,

por exemplo) verificar-se-ia que a sucessao (Xmn(ω))n∈N seria uma sucessao numericaconvergente. Mas isso e impossıvel porque uma sucessao numerica convergente nao podeadmitir duas subsucessoes numericas distintas (no caso, (Xmn(ω))n∈N e (Xln(ω))n∈N)para dois numeros distintos (no caso, 1 e 0, respectivamente). ♦

Resolucao:[Exercıcio 16] E suficiente considerar os conjuntos Bn := |X| ≥ n paran ∈ N. Verifica-se imediatamente que a sucessao (Bn)n∈N e uma sucessao decrescentede conjuntos mensuraveis pelo que:

limn→+∞

Bn =+∞⋂n=1

Bn = |X| = +∞ .

Em consequencia, pela popriedade de continuidade inferior da medida:

0 = P[|X| = +∞] = P[

limn→+∞

Bn

]= lim

n→+∞P [Bn] = lim

n→+∞P [|X| ≥ n] .

A igualdade entre o primeiro e o ultimo termo desta cadeia de igualdades garante oresultado enunciado no lema. ♦

Resolucao:[Exercıcio 17] A primeira propriedade resulta de uma observacao simples.Considere-se Ω

′ ∈ A tal que, sobre Ω′X e Y sao finitas e P[Ω

′] = 1. Como, para cada

ω ∈ Ω′,

|(Xn(ω) + Yn(ω))− (X(ω) + Y (ω)| ≤ |Xn(ω)−X(ω)|+ |Yn(ω)− Y (ω)| ,

tem-se que para qualquer ε > 0 queω ∈ Ω

′: |Xn(ω)−X(ω)| ≤ ε

2

∩ω ∈ Ω

′: |Yn(ω)− Y (ω)| ≤ ε

2

⊂

⊂ω ∈ Ω

′: |(Xn(ω) + Yn(ω))− (X(ω) + Y (ω))| ≤ ε

,


1 Capıtulo 1

pelo que, pelas leis de Morgan, pela subaditividade da medida e pela condicao sobre Ω′,

se tem que:

P [|(Xn + Yn)− (X + Y )| > ε] ≤ P [|Xn −X| > ε] + P [|Yn − Y | > ε] ,

desigualdade que implica o resultado anunciado. A segunda propriedade e muito im-portante. Para maior simplicidade da demonstracao que vai seguir-se supomos que Xtoma valores em R, sendo assim finita P quase certamente. A tıtulo de exercıcio, o leitordevera redigir a demostracao no caso geral do enunciado. De acordo com o exercıcio 16,no caso em que X e finita quase certamente, o conjunto em que X nao e limitadatem uma probabilidade arbitrariamente pequena. Assim, fixe-se δ > 0. Vamos mos-trar limn→+∞ P [|ϕ(Xn)− ϕ(X)| > δ] = 0. Seja agora ε > 0 qualquer e Aε/2 > 0 dadopela formula (1.11) do exercıcio 16 acima. Considere-se o intervalo fechado limitado[−2Aε/2, 2Aε/2]. A restricao de ϕ, funcao contınua, a este compacto e uniformementecontınua pelo que:

∃η > 0, η ≤ Aε/2 ∀x, y ∈ [−2Aε/2, 2Aε/2] |x− y| ≤ η ⇒ |ϕ(x)− ϕ(y)| ≤ δ .

Em consequencia de se ter,

∀ω ∈ Ω ||Xn(ω)| − |X(ω)|| ≤ |Xn(ω)−X(ω)| ,

vem que para |X(ω)| ≤ Aε/2 que |Xn(ω)| ≤ |X(ω)|+ η ≤ 2Aε/2 e por isso verifica-se que

|X| ≤ Aε/2 ∩ |Xn −X| ≤ η ⊂ |ϕ(Xn)− ϕ(X)| ≤ δ ,

ou seja, pelas leis de Morgan que

|ϕ(Xn)− ϕ(X)| > δ ⊂ |X| > Aε/2 ∪ |Xn −X| > η .

Considere-se agora n0 ∈ N tal que para n ≥ n0 se verifica que P[|Xn −X| > η] ≤ ε/2.Vem entao que para n ≥ n0

P [|ϕ(Xn)− ϕ(X)| > δ] ≤ P[|X| > Aε/2

]+ P [|Xn −X| > η] ≤ ε

2+ε

2= ε ,

tal como se pretendia demonstrar. A terceira propriedade resulta de se ter que:

Xn · Yn =1

2

((Xn + Yn)2 −X2

n − Y 2n

).

e das duas primeiras propriedades demonstradas. ♦

Resolucao:[Exercıcio 18] Dado que se tem para n ≥ 1,

Xn − Y = Xn − Yn + Yn − Y ,

resulta que|Xn − Y | ≤ |Xn − Yn|+ |Yn − Y | .



Em consequencia, para qualquer ε > 0 tem-se que,

|Xn − Yn| < ε ∩ |Yn − Y | < ε ⊆ |Xn − Y | < 2ε ,

ou seja, pelas leis de Morgan,

|Xn − Y | ≥ 2ε ⊆ |Xn − Yn| ≥ ε ∪ |Yn − Y | ≥ ε ,

donde resulta, pela sub-aditividade da medida de probabilidade P, que:

P [|Xn − Y | ≥ 2ε] ≤ P [|Xn − Yn| ≥ ε] +P [|Yn − Y | ≥ ε]

donde, devido as hipoteses, resulta a conclusao. ♦

Resolucao:[Exercıcio 19] Seja ε > 0 qualquer e κ > 0 um qualquer ponto de conti-nuidade de FX . Tem-se sempre que:

P [|XnYn| > ε] = P[|XnYn| > ε, |Yn| ≤

ε

κ

]+P

[|XnYn| > ε, |Yn| >

ε

κ

]Mas, dado que no conjunto mais a esquerda tem que ser |Yn| > 0, verifica-se sempre que:

|XnYn| > ε, |Yn| ≤

ε

κ

=

|Xn| >

ε

|Yn|, κ ≤ ε

|Yn|

⊆ |Xn| > κ

Por outro lado e obvio que:|XnYn| > ε, |Yn| >

ε

κ

⊆|Yn| >

ε

κ

,

pelo que se tem que:

P [|XnYn| > ε] ≤ P [|Xn| > κ] +P[|Yn| >

ε

κ

].

As hipoteses – para κ e ε fixos mas quaisquer – implicam agora que:

limn→+∞

P

[|Yn| >

ε

κ

]= 0 ,

e

limn→+∞

P [|Xn| > κ] = limn→+∞

(1− FXn(κ)) = 1− FX(κ) ,

e como κ – ponto de continuidade de FX – e arbitrario e pode ser escolhido de tal formaque FX(κ) esteja tao proximo quanto se queira de 1, o resultado anunciado segue. ♦


1 Capıtulo 1

Bibliografia

[Fel68] William Feller. An introduction to probability theory and its applications.Vol. I. Third edition. John Wiley & Sons Inc., New York, 1968.

[Fel71] William Feller. An introduction to probability theory and its applications.Vol. II. Second edition. John Wiley & Sons Inc., New York, 1971.

[Kal02] Olav Kallenberg. Foundations of modern probability. Probability and itsApplications (New York). Springer-Verlag, New York, second edition, 2002.

[Kol56] A. N. Kolmogorov. Foundations of the theory of probability. Chelsea Pu-blishing Co., New York, 1956. Translation edited by Nathan Morrison, withan added bibliography by A. T. Bharucha-Reid.

[MKAL12] P. Malliavin, L. Kay, H. Airault, and G. Letac. Integration and Probability.Graduate Texts in Mathematics. Springer New York, 2012.

[Res99] Sidney I. Resnick. A probability path. Birkhauser Boston Inc., Boston, MA,1999.

[Shi96] A. N. Shiryaev. Probability, volume 95 of Graduate Texts in Mathematics.Springer-Verlag, New York, second edition, 1996. Translated from the first(1980) Russian edition by R. P. Boas.

[vdV00] A.W. van der Vaart. Asymptotic Statistics. Cambridge Series in Statisticaland Probabilistic Mathematics. Cambridge University Press, 2000.

[Wil91] David Williams. Probability with Martingales. Cambridge MathematicalTextbooks. Cambridge University Press, Cambridge, 1991.


Capıtulo 2

Funcoes Geradoras de Momentos eTeoremas Limite

In modern probability theory it is customary to relate all objects of study to a basic probabilityspace (Ω,A, P ). ...It should be noted, however, that the reference space Ω is introduced only fortechnical convenience, to provide a consistent mathematical framework. Indeed, the actualchoice of Ω plays no role, and the interest focuses instead on the various induced distributions

L(ξ) = P ξ−1.

In Olav Kallenberg, Foundations of Modern Probability, Second Edition, Springer 2002, page 45.

2.1 Introducao

Neste capıtulo introduzimos a funcao geradora de momentos que e uma das ferramentastecnicas mais importantes para o calculo de quantidades associadas as leis das variaveisaleatorias. A funcao geradora de momentos pode nao existir, num intervalo aberto naotrivial, para uma dada lei de probabilidade. No entanto, dado que para algumas dasleis mais usadas nas aplicacoes (e.g. binomial, Poisson, normal, exponencial, gama)pode ser definida numa vizinhanca de zero e, ainda assim, de uma utilidade que justificao estudo. Neste capıtulo estudaremos, por meio da funcao geradora de momentos ocalculo de momentos de leis de probabilidade e alguns teoremas limite importantes.Nomeadamente, uma versao do teorema do limite central e teoremas de aproximacaoda normal e da Poisson a binomial. Apresentamos ainda um teorema sobre somasde parcelas aleatorias com um numero aleatorio de parcelas que e importante para asaplicacoes. Com algum conhecimento das funcoes de variavel complexa e possıvel estudara funcao caracterıstica da lei de uma variavel aleatoria que e uma nocao semelhante afuncao geradora de momentos mas que nao tem as principais limitacoes desta existindopara todas as leis de probabilidade

2.2 Sobre o calculo de valores esperados

Nesta seccao apresentamos um resultado de grande utilidade que e enunciado sob formade princıpio dado que a sua demonstracao requer um formalismo fora do ambito do

21

2 Capıtulo 2

programa desta disciplina. Seja X uma variavel aleatoria com valores reais definidanum espaco de probabilidade (Ω,A,P). Sabemos que, por definicao, se verifica que:

∀B ∈ B(R) X−1(B) ∈ A .

Seja h : R 7→ R for uma variavel aleatoria de (R,B(R)) em (R,B(R)). Entao a funcaodefinida em Ω pela composicao h X : Ω 7→ R 7→ R e uma variavel aleatoria. Comefeito, dado que, para qualquer B ∈ B(R) se verifica que:

(h X)−1 (B) = ω ∈ Ω : h(X(ω)) ∈ B = ω ∈ Ω : X(ω) ∈ h−1(B) = h−1(X−1(B))

a aplicacao repetida da definicao de variavel aleatoria mostra que (h X)−1 (B) ∈ A.

O princıpio seguinte que e, de facto, um teorema que se pode demonstrar numcontexto teorico mais avancado, mostra como calcular os valores esperados das variaveisaleatorias hX desde que se conheca a lei de X e, claro esta, caso estes valores esperadosexistam.

[Calculo de valores esperados] Seja h : R 7→ R uma variavel aleatoria de(R,B(R)) em (R,B(R)). Entao, sempre que existam as quantidades a direitanas igualdades seguintes tem-se:

E [h(X)] =∑i∈I

h(xi)P [X = xi] X discreta tomando os valores xi : i ∈ I(2.1)

E [h(X)] =

∫ +∞

−∞h(x)fX(x)dx X contınua com densidade fX (2.2)

Observacao 12 (Sobre a existencia dos valores esperados). No caso em que na formula (2.1)se verificar que I ⊆ N e um conjunto infinito, a existencia do valor esperado de h(X)esta condicionada a convergencia de uma serie. Se I ⊆ N for finito o valor esperadoem questao existe sempre. No que toca a formula (2.2), a existencia do valor esperadode h(X) esta condicionada a convergencia do integral improprio que a define e essaconvergencia tem que ser analisada caso a caso.

2.3 Os momentos das variaveis aleatorias

No capıtulo sobre as variaveis aleatorias definimos o valor esperado de uma variavelaleatoria como sendo uma quantidade que corresponde ao valor que a variavel tomaem media. A definicoes seguintes estendem a nocao de valor esperado fazendo uso doprincıpio 2.2.


CAPITULO 2. FGM E TEOREMAS LIMITE Seccao: 2.4

Definicao 11 (Momentos de uma variavel aleatoria). Seja X uma variavel aleatoria.Para cada inteiro n ≥ 1 o momento de ordem n de X e, quando existe, dado porE[Xn], ou seja,

E [Xn] =∑i∈I

xni P [X = xi] X discreta tomando os valores xi : i ∈ I (2.3)

E [Xn] =

∫ +∞

−∞xnfX(x)dx X contınua com densidade fX (2.4)

Definicao 12 (Momentos centrais). Seja X uma variavel aleatoria. Para cadainteiro n ≥ 2 o momento central de ordem n de X, designado por µn e, quandoexiste, dado por µn := E [(X −E [X])n], em que E [X] e o valor esperado de X, ouseja, definindo µ1 := E [X],

µn =∑i∈I

(xi − µ1)nP [X = xi] X discreta tomando os valores xi : i ∈ I (2.5)

µn =

∫ +∞

−∞(x− µ1)n fX(x)dx X contınua com densidade fX (2.6)

Observacao 13 (Sobre a existencia dos momentos e dos momentos centrais das variaveisaleatorias). Dado o que referimos na observacao 12, a existencia dos momentos de umavariavel aleatoria esta dependente da convergencia de uma serie no caso de uma variavelaleatoria discreta tomando uma infinidade de valores e da convergencia de um integralimproprio no caso de uma lei de probabilidade contınua.

Assume particular importancia o segundo momento central.

Proposicao 6 (Variancia). Seja X uma variavel aleatoria. Sempre que existam oprimeiro e o segundo momentos de X, V(X) a variancia de X que e o segundo

momento central de X, ou seja V(X) := µ2 = E[(X −E [X])2

], e dada por:

V(X) = E[X2]−E [X]2 . (2.7)

Demonstracao. E uma consequencia da linearidade do valor esperado. Com efeito,

E

[(X −E [X])2

]= E

[X2 − 2XE [X] +E [X]2

]= E

[X2]− 2E [X]2 +E

[X2]2,

ficando assim demonstrada a formula (2.7).

Nas tabelas seguintes apresentamos exemplos de momentos para algumas leis impor-tantes nas aplicacoes.


2 Capıtulo 2

LX E[X] E[X2] V[X]

N(0, 1) 0 1 1

N(µ, σ) µ σ2 + µ2 σ2

E(δ) δ 2 δ2 δ

Γ(α, δ) αβ 2 α(1 + α)β2 αβ2

Tabela 2.1: Dois primeiros momentos e variancias de algumas leis contınuas

2.4 A funcao geradora de momentos

Para a definicao da funcao geradora de momentos de uma dada variavel aleatoria Xutilisaremos o princıpio 2.2.

Definicao 13. A funcao geradora de momentos de X, e por definicao, a funcaodefinida por MX(t) = E

[etX], para os t ∈ R tais que E

[etX]

exista. Assim:

MX(t) =∑i∈I

etxiP [X = xi] X discreta tomando os valores xi : i ∈ I (2.8)

MX(t) =

∫ +∞

−∞etxfX(x)dx X contınua com densidade fX (2.9)

Observacao 14 (Motivacao da designacao). Consideremos o caso em que X e discreta etoma um numero finito N de valores. Nesse caso, considerando I = 1, . . . , N temosque

∑Ni=1 h(xi)P [X = xi] existe para qualquer funcao h : R 7→ R. Consideremos para

cada inteiro n ≥ 1 a funcao hn(x) = xn que 1, admitimos define uma variavel aleatoria.Pelo princıpio 2.2 podemos calcular

E [Xn] = E [hn(X)] =N∑i=1

hn(xi)P [X = xi] =N∑i=1

xni P [X = xi] .

Se agora considerarmos o valor da derivada de ordem n de MX(t) tomada no ponto t = 0temos

d(n)

dxnMX(t)

∣∣∣∣∣t=0

=

N∑i=1

xni etxiP [X = xi]

∣∣∣∣∣t=0

=N∑i=1

xni P [X = xi] = E [Xn] ,

o que mostra que os momentos da variavel X podem ser recuperados a partir da funcaogeradora de momentos de X, calculando a derivada desta no ponto zero.

Na tabelas seguintes indicamos, a tıtulo de exemplos, para um conjunto de leisnotaveis as respectivas funcoes geradoras de momentos bem como a expressao geraldos correspondentes momentos.

1Sendo uma funcao real de variavel real contınua e uma variavel aleatoria.



LX fX(t) MX(t) E[Xk]

N(0, 1) 1√2πe−

t2

2 et2

2 (k(k − 2)(k − 4) . . . 2) 1Ik par (k)

N(µ, σ) 1√2πσ

e−(t−µ)2

2σ2 eµt+σ2t2

2

E(δ) 1δ e− tδ 1I[0,+∞[(t)

11−tδ1I[0, 1

δ[(t) δkk!

Γ(α, δ) β−αtα−1e− tβ

Γ(α) 1I]0,+∞[(t)1

(1−tβ)α 1I[0, 1β

[(t) βk∏k−1i=0 (α+ i)

U([a, b]) 1b−a1I[a,b](t)

etb−etat(b−a)

bk+1−ak+1

(k+1)(b−a)

L(µ, β) 12β e− |t−µ|

2β etµ

1−t2β2 1I]− 1β, 1β

[(t) Mk (L(µ, β))

Tabela 2.2: Algumas leis contınuas notaveis

Observacao 15. Note-se que:

Mk (L(µ, β)) =1

2

(e−µβ (−β)k

∫ +∞

−µβ

uk+1e−udu+ eµβ βk

∫ +∞

µβ

uk+1e−udu

)

LX P[X = x] MX(t)

B(0, 1) P[X = 1] = p 1− p+ pet

B(µ, σ) P[X = k] =(Nk

)pk(1− p)N−k (1− p+ pet)N

P(δ) P[X = k] = e−λ λk

k! eλ(et−1)

G(p) P[X = k] = p(1− p)k+1 pet

1−(1−p)et

Tabela 2.3: Algumas leis discretas notaveis

Considerando a variavel aleatoria Y ≡ 1, isto e a variavel aleatoria que toma o valor1 com probabilidade 1, verifica-se imediatamente que a funcao geradora de momentosesta sempre definida em t = 0. Com efeito,

MX(t)|t=0 = E[etX∣∣t=0

]= E [Y ] = 1×P [Y = 1] = 1 .

No entanto, qualquer eventual propriedade de regularidade em t = 0 de MX (e.g. conti-nuidade, derivabilidade, etc) requer que esta funcao esteja definida num intervalo abertocontendo t = 0. O teorema seguinte da uma condicao necessaria e suficiente para paraque tal aconteca. Veja-se [Esq07, p. 52] para uma demonstracao deste resultado que nasua generalidade esta fora do ambito do programa desta unidade curricular.

Teorema 6 (Existencia da funcao geradora de momentos). Seja X uma variavelaleatoria tomado valores reais. Uma condicao necessaria e suficiente para que afuncao geradora de momentos de X esteja definida num intervalo aberto, contendozero, e que:

∃K,C > 0 P [|X| > x] ≤ Ce−Kx .


2 Capıtulo 2

Para as variaveis aleatorias discretas e possıvel demonstrar, no ambito do programada disciplina, uma versao mais fraca do teorema 6.

Proposicao 7 (Sobre a existencia da funcao geradora de momentos). Seja X umavariavel aleatoria discreta tomando uma infinidade de valores reais designados porX(Ω) = xn;n ≥ 1. Considerem-se as duas condicoes seguintes.

1. A variavel X tem caudas com decaımento exponencial, isto e:

∃t0 > 0 ∃C > 0 ∃xC > 0 ∀x ≥ xC P [|X| ≥ x] ≤ Ce−t0x . (2.10)

2. Definindo I+X := n ≥ 1 : xn > 0 e I−X := n ≥ 1 : xn < 0, supoe-se que

tanto (xn)n∈I+Xcomo (xn)n∈I−X

sao conjuntos infinitos e nao limitados e que:

lim infn∈I+X , n→+∞

xnn> 0 e lim sup

n∈I−X , n→+∞

xnn< 0 . (2.11)

Entao, estas condicoes sao suficientes para que MX exista no intervalo ]− t0, t0[.

Demonstracao. Observe-se que com as notacoes introduzidas

MX(t) =+∞∑n=1

etxnP [X = xn] = P [X = 0] +∑n∈I+X

etxnP [X = xn] +∑n∈I−X

etxnP [X = xn]

Consideremos, primeiramente o caso dos valores positivos de X. Sem perda de gene-ralidade, apos re-indexacao, podemos supor que I+

X = xm;m ≥ 1 esta ordenado porordem crescente, isto e, que para m ≥ 1 se tem xm ≤ xm+1. Seja 0 < t < t0. Consi-deremos, entao, o resto de ordem M da serie que define a parte da funcao geradora demomentos correspondente aos valores positivos de X, isto e, o termo mais a direita naigualdade seguinte:

∑m∈I+X

etxmP [X = xm] =M−1∑m=1

etxmP [X = xm] ++∞∑m=M

etxmP [X = xm] .

Escolha-se M(C) ≥ 1 tal que xM(C) ≥ xC e observe-se que com esta escolha se verificaque para m ≥M(C) se tem que xn ≥ xM(C) ≥ xC e que, em consequencia

P [X = xm] ≤ P [X ≥ xm] ≤ Ce−t0xm ,

donde resulta que o resto de ordem M da serie que define a parte de MX(t) correspon-dente aos valores positivos de X verifica, para M ≥M(C)

+∞∑m=M

etxmP [X = xm] ≤ C+∞∑m=M

1

e(t0−t)xm. (2.12)



Dado que, pela segunda hipotese, se tem que:

lim supm→+∞

1/m

√1

e(t0−t)xm= lim sup

m→+∞exp

(−(t0 − t)

xmm

)= exp

(−(t0 − t) lim inf

m→+∞

(xmm

))< 1

pode concluir-se pelo criterio da raız que a serie a direita na formula (2.12) convergeassegurando, assim, que a parte da funcao geradora de momentos correspondente aosvalores positivos de X esta bem definida. Para estudar a parte da funcao geradorade momentos correspondente aos valores negativos de X observe-se que considerandou = −t, ym = −xm e Y = −X se tem:

∑m∈I−X

etxmP [X = xm] =∑m∈I−X

e(−t)(−xm)P [−X = −xm] =

∑m∈I−X

euymP [Y = ym]

em que ym > 0 para m ∈ I−X . Observando que Y verifica obviamente a hipotese daformula (2.10) e que

lim supm∈I−X , m→+∞

xmm

< 0 ⇔ lim infm∈I−X , m→+∞

ymm

> 0

podemos concluir procedendo de igual modo que para u < t0, isto e para t > −t0 que aparte da funcao geradora de momentos correspondente aos valores negativos de X estabem definida, ficando assim demonstrado que a funcao geradora de momentos existepara t ∈]− t0, t0[

Observacao 16. Note-se que se, por exemplo, (xn)n∈I+Xfor uma sucessao limitada entao

(etxn)n∈I+Xtambem e uma sucessao limitada para t ∈ R e, em consequencia, para uma

certa constante M tal que para n ∈ I+X se verifique etxn ≤M , tem-se que:

∑n∈I+X

etxnP [X = xn] ≤M∑n∈I+X

P [X = xn] ≤M∑n≥1

P [X = xn] = M .

Em consequencia desta observacao e com a proposicao 7, fica estudada a existencia dasfunooes geradoras de momentos para todas as variaveis aleatorias discretas (tomandoum numero finito de valores ou um numero infinito de valores).

Na sequencia da observacao 14 pode mostrar-se que sempre que a funcao geradora demomentos tenha como domınio de definicao um intervalo aberto podem determinar-seos momentos da variavel aleatoria por derivacao da funcao geradora de momentos.


2 Capıtulo 2

Teorema 7 (Existencia e calculo dos momentos). Seja X uma variavel aleatoriatomado valores reais cuja funcao geradora de momentos MX(t) esteja definida numintervalo aberto I, por exemplo, I =]− t0, t0[. Entao,

∀t ∈]− t0, t0[ MX(t) =+∞∑n=0

E [Xn]tn

n!, (2.13)

donde se conclui a, derivando sucessivamente, que:

∀n ≥ 1d(n)

dxnMX(t)

∣∣∣∣∣t=0

= E [Xn] . (2.14)

aEsta conclusao pode ser tirada quer recorrendo a formula de Taylor quer recorrendo as pro-priedades das series de potencias; nos exercıcios praticos usaremos, preferencialmente, a primeirajustificacao.

Demonstracao. A demonstracao deste resultado em toda a sua generalidade esta fora doambito do programa. Na referencia [Bil95, p. 278]pode ler-se uma demonstracao que usao integral de Lebesgue. Na referencia [Esq07, p. 53] proposicao 5.3, demonstra-se umresultado mais geral no ambito das funcoes de variavel complexa. E possıvel apresentaruma demonstracao simples no caso particular de uma variavel contınua com densidadecom suporte compacto. Seja entao X uma variavel aleatoria tal que para x /∈ [−A,+A]se verifique que fX(x) = 0. Seja T > 0 qualquer e observe-se que para t ∈ [−T, T ]qualquer mas fixo e para x ∈ [−A,+A] se tem que pelo criterio de Weierstrass que aserie

+∞∑n=0

|(tx)n|n!

≤+∞∑n=0

(AT )n

n!= eAT < +∞

converge uniformemente pelo que se tem, pelo resultado que permite integrar uma seriedesde que haja convergencia uniforme, que para t ∈ [−T, T ],

MX(t) =

∫ +∞

−∞etxfX(x)dx =

∫ +A

−AetxfX(x)dx =

∫ +A

−A

(+∞∑n=0

(tx)n

n!

)fX(x)dx =

=

+∞∑n=0

tn

n!

∫ +A

−AxnfX(x)dx =

+∞∑n=0

tn

n!

∫ +∞

−∞xnfX(x)dx =

+∞∑n=0

E [Xn]tn

n!,

que e o resultado apresentado na formula (2.13). Neste caso, o resultado e valido paraqualquer t ∈ R uma vez que T e arbitrario. A formula (2.14) resulta da formula (2.13)dado ser possıvel derivar uma serie de potencias no interior do intervalo de convergenciaque, neste caso, e ]−∞,+∞[.



2.5 Propriedades da funcao geradora de momentos

A funcao geradora de momentos quando esta definida num intervalo aberto nao trivialgoza de um conjunto de propriedades muito uteis nas aplicacoes.

(a) Se duas variaveis aleatorias sao independentes entao a funcao geradora de momen-tos da soma das variaveis aleatorias e o produto das funcoes geradoras de momentosde cada uma das variaveis aleatorias; veja-se o teorema 9.

(b) A funcao geradora de momentos caracteriza a distribuicao de probabilidade. As-sim quando duas funcoes geradoras de momentos de duas leis de probabilidadecoincidem num intervalo aberto, necessariamente nao vazio, pode concluir-se queas leis tambem coincidem; veja-se o teorema 10.

(c) Se uma sucessao de funcoes geradoras de momentos, correspondente a uma sucessaode leis de probabilidade, converge simplesmente ou pontualmente, num intervaloaberto nao trivial para uma funcao geradora de momentos de uma certa lei deprobabilidade entao a sucessao das leis converge para essa lei; veja-se o teorema 11.

Antes de demonstrarmos rigorosamente estes resultados, relembramos o criterio paraa convergencia de leis de probabilidade enunciado na proposicao 4.

Proposicao 8 (Convergencia de leis de probabilidade). A sucessao de leis de umasucessao de variaveis aleatorias (Xn)n≥1 converge para a lei da variavel aleatoriaX∞ se e so se qualquer que seja h : R 7→ R contınua e limitada se verificar que:

limn→+∞

E [h(Xn)] = E [h(X∞)] .

Observacao 17. A convergencia definida na definicao 8 pode representar-se por

XnL−−−−−→

n→+∞X∞

o que se le: a sucessao (Xn)n≥1 converge em lei para X∞. Esta convergencia e, de facto,uma convergencia das leis de probabilidade e nao necessita da explicitacao das variaveisaleatorias referidas (veja-se [Met79, p. 176] para uma abordagem mais avancada a estanocao).

Proposicao 9 (Condicao necessaria e suficiente para a convergencia de leis de proba-bilidade). Uma sucessao (Xn)n≥1 converge em lei para X∞ se e so se para qualquerponto de continuidade x de FX∞, a funcao de distribuicao de X∞ se verificar que:limn→+∞ FXn(x) = FX∞(x).

Demonstracao. Veja-se [Met79, p. 176] ou [Sin92, p. 114] para demonstracoes desteresultado.


2 Capıtulo 2

Em complemento da proposicao 9, no caso em que a funcao de distribuicao limite econtınua pode garantir-se a convergencia uniforme.

Teorema 8 (Teorema de Polya sobre a convergencia uniforme das funcoes de distri-buicao). Seja (Fn)n≥1 uma sucessao de funces de distribuicao convergindo pontual-mente para uma funcao de distribuicao limite contınua em R. Entao a convergenciae uniforme, isto e,

limn→+∞

supx∈R|Fn(x)− F (x)| = 0 .

Demonstracao. Em [0, 1], contradomınio comum das funcoes de distribuicao de proba-bilidade e para m ≥ 1 a determinar, consideremos m pontos de igualmente espacados deum comprimento igual a 1/m. Dado que F e funcao de distribuicao monotona crescentee contınua, existem m − 1 pontos x1, . . . , xm−1 ∈ R, domınio comum das funcoes dedistribuicao, tais que, dada a hipotese de convergencia pontual se verifica:

∀j = 1, . . . ,m− 1 F (xj) =j

me limn→+∞

Fn(xj) = F (xj) .

Seja agora ε > 0 arbitrario. Escolhendo m igual a parte inteira de 1/m acrescida deuma unidade, temos que pela convergencia pontual, para cada j = 1, . . . ,m − 1 existenj = nj(ε) ≥ 1 tal que:

∀n ≥ nj |Fn(xj)− F (xj)| ≤ ε .Seja agora n0 = max (n1, . . . , nm−1) e considere-se n ≥ n0. Entao para x < x1 tem-seque:

0 < Fn(x) ≤ Fn(x1) ≤ F (x1) + ε ≤ 2ε .

Do mesmo modo para xl ≤ x ≤ xl+1:

F (xl)− ε ≤ Fn(xl) ≤ Fn(x) ≤ Fn(xl+1) ≤ F (xl+1) + ε . (2.15)

Mas tambem se verifica que

F (xl)− ε ≤ F (xl) ≤ F (x) ≤ F (xl+1) ≤ F (xl+1) + ε , (2.16)

tem-se em consequencia das formulas (2.15) e (2.16) que:

∀x ∈ R ∀n ≥ n0 |Fn(x)− F (x)| ≤ ε ,

tal como se pretendia.

Apresentamos seguidamente os enunciados dos resultados referidos acima.

Teorema 9 (FGM da soma de variaveis aleatorias independentes). Sejam X e Yvariaveis aleatorias independentes tomando valores reais cujas funcoes geradoras demomentos MX(t) e MY (t) estejam definidas em intervalos abertos, por exemplo,]− tX , tX [ e ]− tY , tY [, respectivamente. Entao,

∀t ∈]− tX , tX [∩]− tY , tY [ MX+Y (t) = MX(t)×MY (t)



Demonstracao. Consideremos, que X e Y sao discretas, que X(Ω) = xn : n ≥ 1 queY (Ω) = ym : m ≥ 1, que MX(t) existe para t ∈] − tX ,+tX [ e que MY (t) existepara t ∈] − tY ,+tY [, com tX > 0 e tY > 0. Entao, para t ∈] − tX ,+tX [∩] − tY ,+tY [,observando que X + Y e a variavel aleatoria que vale xn + ym quando X vale xn e Yvale ym:

MX+Y (t) = E[et(X+Y )

]=∑n≥1

∑m≥1

et(xn+yn)P [X = xn, Y = ym] =

=∑n≥1

∑m≥1

etxnetynP [X = xn]P [Y = ym] =

=

∑n≥1

etxnP [X = xn]

∑m≥1

etynP [Y = ym]

= MX(t)MY (t)

em que na terceira igualdade usamos a independencia e a na quarta o facto de estarmosa fazer o produto de series a termos positivos convergentes. Suponhamos agora queX e Y sao contınuas admitindo densidades fX e fY e tais que, como no caso em queambas so discretas, MX(t) existe para t ∈] − tX ,+tX [ e que MY (t) existe para t ∈] − tY ,+tY [, com tX > 0 e tY > 0. Dado que X e Y sao independentes sabemos que:F(X,Y )(x, y) = FX(x)FY (y) o que implica que f(X,Y )(x, y) = fX(x)fY (y). Assim, parat ∈]− tX ,+tX [∩]− tY ,+tY [,

MX+Y (t) = E[et(X+Y )

]=

∫ +∞

−∞

∫ +∞

−∞et(x+y)f(X,Y )(x, y)dxdy =

=

∫ +∞

−∞

∫ +∞

−∞etxetyfX(x)fY (y)dxdy =

=

(∫ +∞

−∞etxfX(x)dx

)(∫ +∞

−∞etyfY (y)dy

)= MX(t)MY (t)

em que a quinta igualdade resulta das propriedades dos integrais multiplos. O caso geralque cobre, por exemplo, o caso em que X e discreta e Y e contınua pode ser demonstradomuito simplesmente no ambito do integral de Lebesgue.

Teorema 10 (Caracterizacao da lei pela FGM). Sejam X e Y variaveis aleatoriastomando valores reais cujas funcoes geradoras de momentos MX(t) e MY (t) estejamdefinidas em intervalos abertos, por exemplo, ]−tX , tX [ e ]−tY , tY [, respectivamente.Entao,

(∀t ∈]− tX , tX [∩]− tY , tY [ MX(t) = MY (t))⇒ LX ≡ LY ,

Demonstracao. A demonstracao deste resultado no caso geral requer conhecimentos forado ambito desta disciplina (veja-se, por exemplo [Bil95, p. 388]).


2 Capıtulo 2

Teorema 11 (Convergencia de FGM). Sejam (Xn)n≥1 e X variaveis aleatorias to-mando valores reais cujas funcoes geradoras de momentos MXn(t) e MX(t) estejamdefinidas num intervalo aberto comum, por exemplo, ]− t0, t0[. Entao, se para todoo t ∈] − t0, t0[ se verificar que limn→+∞MXn(t) = MX(t) ter-se-a que a sucessao(Xn)n≥1 converge em lei para X o que implica que para todo o x ∈ R que seja pontode continuidade de FX se tem que limn→+∞ FXn(x) = FX(x).

Demonstracao. A demonstracao deste resultado requer conhecimentos fora do ambitodesta disciplina (veja-se, por exemplo [Bil95, p. 390]).

2.6 Teoremas limite

Os teoremas limite, como os teoremas do limite central, sao, conjuntamente com as leisdos grandes numeros, resultados fundamentais nas aplicacoes das probabilidades, emparticular, nos problemas da Estatıstica. Para alem de permitirem a determinacao dosvalores aproximados de probabilidades, de uma forma simples permitem, tambem, adeterminacao dos intervalos de confianca em muitas situacoes importantes na pratica.Nesta seccao exploraremos alguns exemplos de teoremas em que uma sucessao de dis-tribuicoes converge para a distribuicao de Poisson ou para a distribuicao Gaussiana.Previamente, necessitamos detalhar tres resultados tecnicos.

O primeiro resultado tecnico exprime a funcao geradora de momentos de uma trans-formacao afim da variavel aleatoria.

Proposicao 10 (Transformacao afim da variavel aleatoria). Seja X uma variavelaleatoria tomando valores reais com funcao geradora de momentos MX(t) definidanum intervalo aberto, por exemplo, ]− t0, t0[. Sejam b ∈ R qualquer e a ∈ R \ 0.Entao aX + b e uma variavel aleatoria tomando valores reais cuja funcao geradorade momentos MaX+b(t) esta definida no intervalo aberto ]− t0

|a| ,−t0|a| [ e verifica

∀t ∈]− t0|a|,− t0|a|

[MaX+b(t) = etbMX(at) . (2.17)

Demonstracao. Para t nas condicoes da expressao (2.17) tem-se que:

MaX+b(t) = E[et(aX+b)

]= E

[etbetaX

]= etbE

[etaX

]= etbMX(at)

pelas propriedades do valor esperado uma vez que o factor etb e determinıstico.

O segundo e terceiros resultados resultam da teoria das series de potencias e saoessenciais para toda esta seccao.



Proposicao 11 (Comportamento local do logaritmo na vizinhanca de 1). ExisteRL : R 7→ R contınua em ]− 1,+1[, verificando RL(0) = −1/2 e tal que:

∀x ∈]− 1,+1[ log(1 + x) = x+ x2RL(x) .

Demonstracao. O desenvolvimento em serie de potencias da funcao log(1 + x), obtidopor integracao da serie geometrica de razao −x, para |x| < 1, e dado por:

log(1+x) =

∫dx

1− (−x)= x−x

2

2+x3

3−· · ·+(−1)n+1xn

n+· · · = x+x2

(+∞∑n=0

(−1)n+1xn

n+ 2

).

Se for, por definicao, RL(x) :=∑+∞

n=1(−1)n+1xn/(n+2) para |x| < 1, tem-se pelo criteriode d’Alembert que a serie converge para qualquer x ∈]−1, 1[, sendo neste intervalo abertouma funcao indefinidamente derivavel e tal que RL(0) = −1/2.

Proposicao 12 (Comportamento local da exponencial na vizinhanca de 0). ExisteRE : R 7→ R contınua em R, verificando RE(0) = 1/3! e tal que:

∀x ∈]− 1,+1[ exp(x) = 1 + x+x2

2!+ x3RE(x) .

Demonstracao. O desenvolvimento em serie de potencias da funcao ex e dado para x ∈ Rpor:

ex =+∞∑n=0

xn

n!= 1 + x+

x2

2!+x3

3!+ · · ·+ xn

n!+ · · · = 1 + x+

x2

2!+ x3

(+∞∑n=0

xn

(n+ 3)!

).

Se for, por definicao, RE(x) :=∑+∞

n=1 xn/(n + 3)! para x ∈ R, tem-se pelo criterio de

d’Alembert que a serie converge para x ∈ R, sendo neste conjunto aberto uma funcaoindefinidamente derivavel e tal que RE(0) = 1/3!.

O teorema seguinte, atribuıdo ao matematico Paul Levy, e um resultado util nasaplicacoes.

Teorema 12 (Aproximacao da Poisson a Binomial para eventos raros). Seja(Xn)n≥1 uma sucessao de variaveis aleatorias tais que para n ≥ 1 se tenha queXn _ B(Nn, pn) verificando:

(i) limn→+∞Nn = +∞,

(ii) limn→+∞Nnpn = λ.

Seja X∞ _ P(λ). Entao para t ∈ R tem-se que limn→+∞MXn(t) = MX∞(t)donde resulta que para todo o ponto de continuidade x de FX∞ se tem quelimn→+∞ FXn(x) = FX∞(x).


2 Capıtulo 2

Demonstracao. Sabemos (ver tabela 2.3 ou exercıcio 29) que se tem:

MXn(t) =(1 + pn(et − 1)

)Nn =

(1 +

NnpnNn

(et − 1)

)Nn= e

Nn log(

1+NnpnNn

(et−1))

Observe-se que, pelas hipoteses acima, dado t ∈ R existe n0 ≥ 1 tal que para n ≥ n0 setem que ∣∣∣∣Nnpn

Nn(et − 1)

∣∣∣∣ < 1 .

Em consequencia, pelo lema 11 temos

limn→+∞

Nn log

(1 +

NnpnNn

(et − 1)

)=

= limn→+∞

Nn

(NnpnNn

(et − 1) +

(NnpnNn

(et − 1)

)2

RL

(NnpnNn

(et − 1)

))=

= limn→+∞

(Nnpn(et − 1) +

((Nnpn)2

Nn(et − 1)2

)2

RL

(NnpnNn

(et − 1)

))=

= λ(et − 1)

donde resulta imediatamente, (ver tabela 2.3 ou exercıcio 30) que:

limn→+∞

MXn(t) = eλ(et−1) = MX∞(t) ,

resultando a ultima conclusao de uma aplicacao directa do teorema 11.

Observacao 18. Na pratica e de uso comum aplicar a aproximacao da lei de Poissona lei binomial para X _ B(N, p) com N ≥ 50 e Np < 5 (veja-se [SS99, p. 158]).O leitor podera atraves de uma simulacao computacional verificar a qualidade destaaproximacao.

O teorema seguinte permite considerar uma variavel aleatoria adequadamente norma-lizada, com lei de Poisson, como assimptoticamente normal, no caso em que o parametrocresce indefinidamente.

Teorema 13 (Aproximacao da normal estandardizada a Poisson). Consideremos(Xn)n≥1 uma sucessao de variaveis aleatorias tais que Xn _ P(λn), isto e, Xn e umavariavel com lei de Poisson de parametro λn. Suponha-se que limn→+∞ λn = +∞.Seja X∞ _ N(0, 1). Entao para t ∈ R tem-se que

limn→+∞

MXn−λn√λn

(t) = MX∞(t) ,

donde resulta, em consequencia dos teoremas 11 e 8, que

limn→+∞

supx∈R

∣∣∣∣FXn−λn√λn

(x)− 1√2π

∫ x

−∞e−

t2

2 dt

∣∣∣∣ = 0 .



Demonstracao. A demonstracao segue a mesma linha de raciocınio que a a demonstracaodo teorema 12. Com efeito, aplicando a proposicao 10, temos que para t ∈ R :

MXn−λn√λn

(t) = e−√λntMXn(

t√λn

) = e−√λnteλn(e

t√λn −1) = eλn(e

t√λn −1)−

√λnt

uma vez que Xn sendo Poisson tem a funcao geradora de momentos conhecida (vertabela 2.3 ou exercıcio 29). Aplicando agora a proposicao 12 temos que:

λn(et√λn − 1)−

√λnt = λn

(1 +

t√λn

+1

2!

(t√λn

)2

+

(t√λn

)3

RE(t√λn

)− 1

)−

−√λnt =

=t2

2+

t3√λnRE(

t√λn

) ,

donde resulta que:

limn→+∞

MXn−λn√λn

(t) = limn→+∞

eλn(et√λn −1)−

√λnt = e

t2

2 = MX∞(t) ,

uma vez que a distribuicao normal estandardizada tem funcao geradora de momentosconhecida (ver tabela 2.2 ou exercıcio 21). A ultima conclusao resulta, mais uma vez,de uma aplicacao directa do teorema 11.

Observacao 19. O teorema 15 tem como aplicacao a determinacao de intervalos de con-fianca (segundo a definicao 22 do capıtulo relativo ao formalismo da Estatıstica) paravalores da variavel de Poisson (veja-se, por exemplo, o exercıcio 51).

O primeiro teorema limite central que estudaremos e a versao de Lindeberg-Levydo teorema do limite central que e simples mas ainda assim muito util, em particular,em Estatıstica. A demonstracao apresentada e trabalhosa mas e do mesmo tipo dasanteriores.


2 Capıtulo 2

Teorema 14 (Teorema do limite central para variaveis iid). Seja (Xn)n≥1, umasucessao de variaveis aleatorias, independentes e identicamente distribuıdas comX uma variavel aleatoria cuja funcao geradora de momentos exista num intervaloaberto, por exemplo, ] − t0,+t0[. Seja, para simplificar as notacoes, E [X] = 0 eV [X] = σ2. Seja, por definicao,

YN :=1√N

N∑n=1

Xn .

Entao, para t ∈]− t0,+t0[ tem-se que

limN→+∞

MYN (t) = et2σ2

2 ,

donde resulta, em consequencia dos teoremas 11 e 8, que:

limN→+∞

supx∈R

∣∣∣∣∣P[

1√N

N∑n=1

Xn ≤ x

]− 1

σ2√

2π

∫ x

−∞e−

t2

2σ2 dt

∣∣∣∣∣ = 0 . (2.18)

Demonstracao. Observe-se que se tem imediatamente, em resultado da independencia(ver teorema 9) e de todas as variaveis Xn terem a mesma distribuicao que X, que:

MYN (t) = E[etYN

]= E

[e∑Nn=1

tXn√N

]= E

[N∏n=1

etXn√N

]=

N∏n=1

E

[etXn√N

]=

(MX(

t√N

)

)N.

Observemos agora que para t ∈]− t0,+t0[ que consideraremos fixo de agora em diante,dado que MX e uma funcao contınua que vale 1 em t = 0, existe N0 ≥ 1 tal que paraN ≥ N0 se tem ∣∣∣∣MX

(t√N

)− 1

∣∣∣∣ < 1 .

Pela formula (2.13) do teorema 7, e com as hipoteses de que E [X] = 0 e V [X] = σ2,sabemos que:

MX

(t√N

)− 1 =

σ2t2

2N+

+∞∑k=3

E[Xk]

k!

(t√N

)k=

=σ2t2

2N+

(t√N

)3(

+∞∑k=0

E[Xk+3

](k + 3)!

(t√N

)k)

Note-se que se considerarmos a funcao RN , soma da serie de potencias dada para t ∈ Rpor

RN (t) :=

+∞∑k=0

E[Xk+3

](k + 3)!

(t√N

)k



temos que RN esta bem definida por aplicacao do criterio de D’Alembert a serie daformula (2.13). Com efeito, dado que essa serie converge temos, pelo criterio de D’Alembert,que:

limk→+∞

∣∣∣∣∣E[Xk+1

]tk+1

(k + 1)!

k!

E [Xk] tk

∣∣∣∣∣ = limk→+∞

∣∣∣∣∣E[Xk+1

]E [Xk]

∣∣∣∣∣ |t|k + 1≤ 1 .

Em consequencia, aplicando o mesmo criterio a serie que define RN temos para N ≥sup(N0, 2) que:

limk→+∞

∣∣∣∣∣∣E[Xk+4

](k + 4)!

(t√N

)k+1 (k + 3)!

E [Xk+3]

(√N

t

)k∣∣∣∣∣∣ ≤ limk→+∞

∣∣∣∣∣E[Xk+4

]E [Xk+3]

∣∣∣∣∣ |t|k + 4

1√N0

< 1

pelo que a serie converge e RN esta bem definida, sendo uma funcao contınua da variavelt que vale E

[X3]/3! para t = 0. Note-se ainda que para N ≥ sup(N0, 2)

|RN (t)| ≤+∞∑k=0

∣∣E [Xk+3]∣∣

(k + 3)!

(|t|√N0

)ksendo que, pelo mesmo tipo de argumentacao que apresentamos para RN , a serie a direitadefine uma funcao contınua, que denominaremos R+

N0e que vale

∣∣E [X3]∣∣ /3! para t = 0.

Podemos agora concluir comecando por observar que:

MYN (t) =

(MX

(t√N

))N= exp

(N log

(1 + MX

(t√N

)− 1

))=

= exp

(N log

(1 +

σ2t2

2N+

(t√N

)3

RN (t)

)).

De seguida, escolha-se N1 ≥ 1 tal que para N ≥ N1:∣∣∣∣∣σ2t2

2N+

(t√N

)3

RN (t)

∣∣∣∣∣ ≤ σ2t2

2N+

(|t|√N

)3

R+N0

(t) < 1 .

Para N ≥ sup(N0, 2, N1) pode aplicar-se, de novo, a proposicao 11 vindo que:

MYN (t) = exp

(σ2t2

2+

t3√NRN (t)+

+N

(σ2t2

2N+

(t√N

)3

RN (t)

)2

RL

(σ2t2

2N+

(t√N

)3

RN (t)

) .

Dado o que sabemos sobre RL e sobre RM fica claro que:

limN→+∞

MYN (t) = et2σ2

2 , (2.19)

tal como querıamos demonstrar, sendo que a ultima conclusao decorre do teorema 11 edo facto da funcao a direita na formula (2.19) ser a funcao geradora de momentos deuma variavel aleatoria com lei N(0, σ2).


2 Capıtulo 2

Observacao 20. O teorema 14 e valido para qualquer sucessao de variaveis aleatoriasindependentes e identicamente distribuıdas com media nula e variancia finita, isto e,sem a hipotese de que a funcao geradora de momentos existe num intervalo aberto.A demonstracao, sem a hipotese restritiva faz-se com recurso a funcao caracterıstica,seguindo uma linha de argumentacao semelhante a que seguimos acima (veja-se, porexemplo, [Met79, p. 209]).

O teorema seguinte mostra que a distribuicao binomial tambem pode ser aproximadapela normal estandardizada quando as variancias crescem sem limite real.

Teorema 15 (De Moivre - Laplace; Aproximacao da normal estandardizada a bi-nomial). Consideremos (Xn)n≥1 uma sucessao de variaveis aleatorias tais que paran ≥ 1 se tem que Xn _ B(Nn, pn), isto e, uma sucessao de variaveis binomiais deparametros Nn ≥ 1 e pn ∈ [0, 1]. Seja X∞ _ N(0, 1). Suponha-se que:

(i) limn→+∞√Nnpn(1− pn) = +∞;

(ii) Existe 0 < u < 1/2 tal que u ≤ pn ≤ 1− u.

Entao para t ∈ R, tem-se que:

limn→+∞

M Xn−Nnpn√Nnpn(1−pn)

(t) = MX∞(t) ,

donde resulta, em consequencia dos teoremas 11 e 8, que

limn→+∞

supx∈R

∣∣∣∣F Xn−Nnpn√Nnpn(1−pn)

(x)− 1√2π

∫ x

−∞e−

t2

2 dt

∣∣∣∣ = 0 .

Demonstracao. A prova segue o metodo que vimos usando nesta seccao. Consideremosas seguintes notacoes para facilitar a apresentacao.

µn := Nnpn , σn :=√Nnpn(1− pn) , Yn :=

Xn −Nnpn√Nnpn(1− pn)

=Xn − µnσn

.

Tem-se entao por aplicacao da proposicao 10 que

MYn(t) = e−µntσn MXn(

t

σn) = e−

µntσn

(1 + pn

(etσn − 1

))Nn=

= exp

(Nn log

(1 + pn

(etσn − 1

))− µnt

σn

)Observamos seguidamente, a semelhanca do que se afirmou na proposicao 11, que existeRL,3 : R 7→ R contınua em ]− 1,+1[, verificando RL,3(0) = 1/3 e tal que:

∀x ∈]− 1,+1[ log(1 + x) = x− x2

2+ x3RL,3(x) ,



(veja-se o exercıcio 33). Pelo que temos com an = pn

(etσn − 1

)log(

1 + pn

(etσn − 1

))= pn

(etσn − 1

)− 1

2

[pn

(etσn − 1

)]2+ a3

nRL,3(an) .

Usando agora o comportamento local da exponencial na vizinhanca de zero, detalhadona proposicao 12 temos que:

etσn − 1 =

t

σn+

t2

2σ2n

+t3

σ3n

RE(t

σn)

e ainda reagrupando todos os termos de ordem superior ou igual a 3 em t/σn na funcaoR?E , funcao contınua tal que R?E(0) = 0:(

etσn − 1

)2=

t2

σ2n

+t3

2σ3n

+t4

σ4n

RE(t

σn) +

t4

4σ4n

+t5

σ5n

RE(t

σn) +

t6

σ6n

RE(t

σn)2 =

=t2

σ2n

+t3

2σ3n

R?E(t

σn) .

Temos entao, dado que µn := Nnpn que:

Nn log(

1 + pn

(etσn − 1

))− µnt

σn= µn

(t

σn+

t2

2σ2n

+t3

σ3n

RE(t

σn)

)−

− µnpn2

(t2

σ2n

+t3

2σ3n

R?E(t

σn)

)+Nna

3nRL,3(an)− µnt

σn=

=

(µnσ2n

− µnpnσ2n

)t2

2+µnt

3

σ3n

RE(t

σn)− µnpnt

3

4σ3n

R?E(t

σn) +Nna

3nRL,3(an) .

Observando agora, dado que µn = Nnpn e que que σ2n = Nnpn(1− pn)

µnσ2n

− µnpnσ2n

=1

1− pn− pn

1− pn= 1 ,

e que se verifica, em virtude das hipoteses, que:

limn→+∞

µnt3

σ3n

= 0 , limn→+∞

µnpnt3

4σ3n

= 0 , limn→+∞

Nna3n = 0 ,

podemos concluir que

limn→+∞

MYn(t) = et2

2 ,

tal como se afirmou no enunciado, ficando assim demonstrado o teorema.

Observacao 21. A primeiras versoes referenciadas do teorema 15 sao de Abraham DeMoivre em 1733, num artigo e em 1738 num livro. Em [Sin92, p. 30] e em [Fel71, p.186] pode-se encontrar discussoes do teorema de De Moivre - Laplace para variaveisbinomiais com lei B(N, p) em que o parametro N cresce indefinidamente, estando oparametro p ∈]0, 1[ fixo.


2 Capıtulo 2

O ultimo teorema que estudaremos e um terorema de limite central para somasde variaveis aleatorias independentes com um numero de termos aleatorio, com lei dePoisson. Este tipo de teoremas e de grande utilidade em Matematicas Actuariais dadoque uma tal soma pode representar a soma das indemnizacoes pagas por uma companhiade seguros num dado instante (ver, por exemplo, [BGH+97, p. 386]).

Teorema 16 (Limite central para somas de variaveis iid com numero aleatorio determos com lei de Poisson). Seja (Xn)n≥1, uma sucessao de variaveis aleatorias, in-dependentes e identicamente distribuıdas com X uma variavel aleatoria cuja funcaogeradora de momentos exista num intervalo aberto, por exemplo, ] − t0,+t0[. Seja(Nn)n≥1 uma sucessao de variaveis aleatorias com lei de Poisson P(λn) tal quelimn→+∞ λn = +∞.Seja, para simplificar as notacoes, E [X] = µ, E

[X2]

= µ2 e V [X] = σ2. Seja, pordefinicao,

Sn :=

Nn∑i=1

Xi e Zn :=Sn − λnµ√

λnµ2

Entao, para t ∈]− t0/√µ2,+t0/

√µ2[ tem-se que

limn→+∞

MZn(t) = et2

2 ,

donde resulta, em consequencia dos teoremas 11 e 8, que:

limN→+∞

supx∈R

∣∣∣∣∣P[Sn −E [Sn]√

V [Sn]≤ x

]− 1√

2π

∫ x

−∞e−

t2

2 dt

∣∣∣∣∣ = 0 .

Demonstracao. A demonstracao segue a metodologia das outras demostracoes ja feitas.Determinemos a funcao geradora de momentos de S. Temos 2 que:

MSn(t) = E[et∑Nni=1Xi

]=

+∞∑k=0

P [Nn = k]E[et∑ki=1 Xi | Nn = k

]=

=

+∞∑k=0

P [Nn = k]M∑ki=1 Xi

(t) =

+∞∑k=0

P [Nn = k] (MX(t))k =

=

+∞∑k=0

P [Nn = k] ek log(MX(t)) = MNn (log (MX(t)))

Aplicando agora o teorema 7 mostra-se que:

E [Sn] =d

dtMSn(t)

∣∣∣∣t=0

= E [N ]E [X] = λnµ ,

2Usando os resultados relativos a esperanca condicional referidos no capıtulo III.



e que

E[S2n

]=

d2

dt2MSn(t)

∣∣∣∣t=0

= E[N2]E [X]2 +E [N ]

(E[X2]−E [X]2

).

Destes dois resultados pode concluir-se que:

V[S2n

]= E

[S2n

]−E [Sn]2 = λnµ2 .

Tal como anteriormente, aplicando a proposicao 10, tem-se que:

MZn(t) = e− λnµ√

λnµ2tMSn

(t√λnµ2

)= e− λnµ√

λnµ2tMNn

(logMX

(t√λnµ2

))=

= e− λnµ√

λnµ2teλn

(MX

(t√λnµ2

)−1

).

Em virtude da hipotese feita sobre a funcao geradora de momentos de X, invocando oteorema 7 e reagrupando os termos de ordem superior ou igual a tres em t, temos que

MX

(t√λnµ2

)= 1 +

E [X] t√λnµ2

+E[X2]t2

2λnµ2+

(1√λn

)3 +∞∑k=3

E[Xk]tk

k!(√λn)k−3 (√

µ2

)k .Dado que para t ∈]− t0/

√µ2, t0/

√µ2[, e para λn ≥ 1 se tem que

+∞∑k=3

∣∣E [Xk]tk∣∣

k!(√λn)k−3 (√

µ2

)k ≤ +∞∑k=3

∣∣E [Xk]tk∣∣

k!(√µ2

)k < +∞ , (2.20)

tem-se que

λn

(MX

(t√λnµ2

)− 1

)=

λnµ√λµ2

t+λnµ2

λnµ2

t2

2+

1√λn

+∞∑k=3

E[Xk]tk

k!(√λn)k−3 (√

µ2

)k .Agora, com a funcao R3,λn(t) definida para t ∈]− t0/

√µ2, t0/

√µ2[, e para λn ≥ 1 por

R3,λn(t) :=

+∞∑k=3

E[Xk]tk

k!(√λn)k−3 (√

µ2

)kvem que

MZn(t) = et2

2+ 1√

λnR3,λn (t)

o que atendendo a majoracao dada na formula (2.20) mostra que

limn→+∞

MZn(t) = et2

2



2 Capıtulo 2

Observacao 22. Os teoremas de limite central mostram que sob certas condicoes e paradeterminados grandes valores de um parametro e valida uma aproximacao pela distri-buicao normal. A questao natural que e coloca e a de saber a partir de que ordem degrandeza do parametro e valida uma tal aproximacao? Ou, mais precisamente, qual ea velocidade de convergencia da aproximacao? Um teorema celebre, a desigualdade deBerry-Esseen, diz-nos que no caso do teorema 14 a velocidade de convergencia para zerona formula (2.19) e maior que C/

√N , sendo C uma constante que depende dos segun-

dos e terceiros momentos dos termos. A demostracao deste teorema faz-se com recursoas funcoes caracterısticas. Um interessante tema de trabalho aprofundado que propo-mos neste final de seccao e o de demonstrar resultados de tipo Berry-Esseen, usando asfuncoes geradoras de momentos, para os teoremas demonstrados acima.

2.7 Grandes desvios e lei forte dos grandes numeros

Nesta seccao, com um caracter mais tecnico, apresentamos uma lei dos grandes numerospara as amostras de variaveis aleatorias que admitem funcoes geradoras de momentosnao triviais, ou seja definidas numa vizinhanca de zero. Fazemo-lo usando o teoremarelativo aos grandes desvios de Cramer-Chernov; este teorema, por sua vez requer adesigualdade de Jensen, resultado para as funcoes convexas que tem enorme relevanciadevido as inumeras aplicacoes

2.7.1 As funcoes convexas com domınio em Rn

Comecamos por estudar as nocoes de conjunto convexo e de funcao convexa no casomultidimensional.

Definicao 14 (Segmento). Sejam x, y ∈ Rn. O segmento de extremidades x e y epor definicao:

[| x, y |] := z ∈ Rn : ∃λ ∈ [0, 1] z = λy + (1− λ)x .

Observacao 23. Se x, y ∈ R e x ≤ y, entao [| x, y |] = [x, y] = z ∈ R : x ≤ z ≤ y, istoe, o segmento e o intervalo de R com as extremidades correspondentes. Com efeito, sez ∈ [| x, y |] entao, uma verificacao algebrica imediata mostra que:

z =

(y − zy − x

)x+

(z − xy − x

)y

com (y − zy − x

)≥ 0 ,

(z − xy − x

)≥ 0 ,

(y − zy − x

)+

(z − xy − x

)= 1

pelo que z ∈ [| x, y |]. Reciprocamente, se z ∈ [| x, y |], entao para λ ∈ [0, 1] tem-se quez = λy+ (1−λ)x = x+λ(y− x) pelo que, como (y− x) ≥ 0, se tem que x ≤ z ≤ y, istoe, z ∈ [| x, y |].



O resultado seguinte mostra que para representar um segmento qualquer no plano,e suficiente saber desenhar um intervalo.

Exercıcio 20 (Segmentos em dimensao superior a um). Mostre que todo o segmento em Rn e a imagempor um deslocamento 3 de um intervalo de R.

A definicao seguinte descreve uma propriedade geometrica com conteudo intuitivofacil de apreender. O leitor e desde ja convidado a representar graficamente e no planoesta definicao.

Definicao 15 (Conjunto convexo). Um conjunto C ⊆ Rn e convexo se e so se

∀x, y ∈ C [| x, y |] ⊂ C ,

isto e, se dados dois quaisquer pontos de C o segmento que os une esta contido emC.

Apresentamos seguidamente alguns exemplos fundamentais de conjuntos convexos.

Exemplo 4 (Bolas abertas e fechadas com centro em zero). Dada uma qualquernorma ‖·‖ sobre Rn, as bolas aberta e fechada de centro em zero e raio r > 0

(respectivamente Ba‖·‖(0, r) e Bf

‖·‖(0, r)) sao conjuntos convexos. Tal resulta de severificar, por exemplo para a bola fechada,

‖λy + (1− λ)x‖ ≤ ‖λy‖+ ‖(1− λ)x‖ ≤ λr + (1− λ)r = r .

Exemplo 5 (Transladados de conjuntos convexos). Sendo C ⊆ Rn um conjuntoconvexo, entao para qualquer a ∈ Rn, tem-se que C + a := c + a : c ∈ C e umconvexo, isto e todo o transladado de um convexo e convexo. A verificacao e simplescomo se pode ver ja a seguir. Sejam x, y ∈ C+a, podendo escrever-se pela definicaox = cx + a, y = cy + a com cx, cy ∈ C. Para z ∈ [| x, y |] tem-se que:

z = λ(cy + a) + (1− λ)(cx + a) = (λcy + (1− λ)cx) + a = cz + a ,

com cz = λcy + (1− λ)cx ∈ C uma vez que C e convexo.

3Relembre que todo o deslocamento no plano se pode representar como a composicao de uma trans-ladacao, de uma rotacao e de uma dilatacao.


2 Capıtulo 2

Exemplo 6 (Bolas abertas e fechadas). E uma consequencia dos dois exemplos ante-riores que, para uma qualquer norma sobre Rn, qualquer bola (aberta ou fechada)e um conjunto convexo. Com efeito, para uma qualquer bola aberta verifica-seimediatamente que:

Ba‖·‖(b, r) = b+Ba

‖·‖(0, r) ,

sendo verdade uma formula semelhante para qualquer bola fechada como o leitorverificara facilmente.

Enquanto que a reuniao de conjuntos convexos nao e, em geral, um conjunto convexo,veja-se no exemplo 7 o caso da reuniao de dois pontos em Rn, o mesmo nao acontececom a interseccao de conjuntos convexos.

Proposicao 13 (Interseccao de conjuntos convexos). Seja (Ci)i∈I uma famılia qual-quer de conjuntos convexos. Entao ⋂

i∈ICi

e convexo, isto e, toda a interseccao de conjuntos convexos e um conjunto convexo.

Demonstracao. E uma simples consequencia das definicoes que se verifica sem qualquerdificuldade.

Esta proposicao tem uma consequencia importante. Dado um conjunto arbitrarioexiste sempre um convexo que o contem e que e o menor com essa propriedade.

Definicao 16. Dado A ⊆ Rn o envolucro convexo de A, representado por con(A)e por definicao

con(A) =⋂

C convexo, A⊂CC ,

isto e, e o menor conjunto convexo que contem A.

Observacao 24. Observe-se que Rn ∈ C convexo, A ⊂ C 6= ∅, pelo que con(A) estasempre bem definido. Note-se ainda que, pela proposicao anterior, con(A) e um con-junto convexo. Por outro lado, todo o conjunto convexo contendo A tem que conter ainterseccao de todos os convexos que contem A, pelo que con(A) e o menor conjuntoconvexo contendo A.



Exemplo 7 (Contra-exemplo de conjunto convexo). Note-se que se A = x, y ⊂ Rnentao A nao e convexo. Tem-se ainda que con(A) = [| x, y |]. Com efeito, tem-seobviamente que A = x, y ⊂ [| x, y |]. Verifica-se ainda que [| x, y |] e convexo. Defacto, se z1, z2 ∈ [| x, y |] com z1 = µ1y + (1 − µ1)x e z2 = µ2y + (1 − µ2)x, sendoµ1, µ2 ∈ [0, 1], tem-se que para λ ∈ [0, 1]:

λz2 + (1− λ)z1 = (λµ1 + (1− λ)µ2)y + (λ(1− µ1) + (1− λ)(1− µ2))x ∈ [| x, y |] ,

uma vez que se α := λµ1 + (1− λ)µ2 vem que α ∈ [0, 1] e como

(λµ1 + (1− λ)µ2) + (λ(1− µ1) + (1− λ)(1− µ2)) = 1

vem tambem 1− α = λ(1− µ1) + (1− λ)(1− µ2).

Os conjuntos convexos permitem agora definir as funcoes convexas. O leitor e acon-selhado a representar graficamente exemplos das duas nocoes introduzidas na definicaoseguinte.

Definicao 17 (Epıgrafo; Funcao convexa). Seja C ⊆ Rn um convexo e ϕ : C −→ R.

1. O epıgrafo de ϕ e por definicao o conjunto

Eπ(ϕ) := (x, y) ∈ C × R : ϕ(x) ≤ y ;

2. A funcao ϕ e convexa se e so se Eπ(ϕ) for um conjunto convexo.

Exemplo 8 (Funcoes lineares e Afins). As funcoes lineares e as aplicacoes afins saoconvexas. Note-se que se uma aplicacao ϕ : Rn −→ R for linear entao:

∃a1, . . . , an ∈ R ∀x = (x1, . . . , xn) ϕ(x) = a1x1 + · · ·+ anxn . (2.21)

Com efeito sendo δji o delta de Kronecker dado por

δji =

1 se i = j

0 se i 6= j ,

se considerarmos (e1, . . . , en), a base canonica de Rn em que os vectores da basesao dados por ei = (δ1

i , δ2i , . . . , δ

ni ) entao vem necessariamente ai = ϕ(ei). Ora,

uma funcao com a forma dada pela formula 2.21 e necessariamente convexa peladefinicao 17 uma vez que:

ϕ(λy + (1− λ)x) = λϕ(y) + (1− λ)ϕ(x) .

O mesmo se passa com uma funcao afim que e a soma de uma funcao convexa comum vector fixo.


2 Capıtulo 2

O teorema seguinte fornece uma caracterizacao das funcoes convexas que muitasvezes aparece dada como a definicao inicial de funcao convexa.

Teorema 17 (Caracterizacao fundamental das funcoes convexas). Seja C ⊆ Rn umconvexo e ϕ : C −→ R. A uma funcao ϕ e convexa se e so se:

∀x, y ∈ C ∀λ ∈ [0, 1] ϕ(λy + (1− λ)x) ≤ λϕ(y) + (1− λ)ϕ(x) .

Demonstracao. Sejam entao (x1, y1), (x2, y2) ∈ Eπ(ϕ) e λ ∈ [0, 1]. Observando que setem λ(x1, y1)+(1−λ)(x2, y2) = (λx1 +(1−λ)x2, λy1 +(1−λ)y2), vem por ϕ ser convexaque

ϕ(λx1 + (1− λ)x2) ≤ λϕ(x1) + (1− λ)ϕ(x2) ≤ λy1 + (1− λ)y2 ,

pelo que λ(x1, y1) + (1 − λ)(x2, y2) ∈ Eπ(f) e este conjunto e convexo. Suponhamosagora que Eπ(ϕ) e convexo e seja λ ∈ [0, 1]. Como (x1, ϕ(x1)), (x2, ϕ(x2)) ∈ Eπ(ϕ) viraque λ(x1, ϕ(x1)) + (1− λ)(x2, ϕ(x2)) ∈ Eπ(ϕ) pelo que

ϕ(λx2 + (1− λ)x1) ≤ λϕ(x2) + (1− λ)ϕ(x1) ,


Dado o nosso objectivo imediato, que e o de contextualizar a apresentacao da desi-gualdade de Jensen, vamos passar imediatamente ao estudo das funcoes convexas defi-nidas em R.

No que vai seguir vamos debrucar-nos com mais detalhe no caso particular das funcoesconvexas de variavel real. Para melhor apreensao das ideias subjacentes a nocao defuncao convexa atente-se na representacao grafica seguinte4.

Considere-se uma funcao ϕ e os pontos do plano definidos por:

Px = (x, ϕ(x)) , Pu = (u, ϕ(u)) , Py = (y, ϕ(y)) ,

em que u = tx+ (1− t)y. Designaremos pela justaposicao sobrelinhada 5 de dois pontosa recta que passa por esses dois pontos. Assim, PxPu designa a recta que passa por Pxe Pu. Pelo teorema 17 a funcao e convexa se para cada u ∈ [| x, y |] se verificar que Puesta abaixo de PxPy (confirme-se esta afirmacao na figura 2.1).

Uma primeira observacao que esclarece o caracter geometrico da nocao de convexi-dade e a que e formulada na proposicao seguinte.

Proposicao 14. Seja dada uma funcao ϕ : [a, b] −→ R. Entao, para a < x < u <y < b com u = tx+ (1− t)y, sao equivalentes as seguintes afirmacoes.

1. O ponto Pu esta abaixo da recta PxPy (isto e, ϕ e convexa).

2. O declive de PxPy e inferior ou igual ao declive de PuPy.

3. O declive de PxPu e inferior ou igual ao declive de PxPy.

4Veja-se o endereco seguinte: http://en.wikipedia.org/wiki/Convex function .5Usamos a palavra sobrelinhada por oposicao a sublinhada.



Figura 2.1: O grafico de uma funcao convexa f de variavel real

Demonstracao. Nesta demonstracao usaremos a caracterizacao de funcao convexa quenos e dada pelo teorema 17. A recta PxPy pode representar-se por:

ϕ(x) +ϕ(y)− ϕ(x)

y − x(u− x) ,

pelo que a primeira afirmacao se pode representar como

ϕ(u) ≤ ϕ(x) +ϕ(y)− ϕ(x)

y − x(u− x) .

Com as hipoteses feitas sobre x, u, y, esta expressao e obviamente equivalente a

ϕ(u)− ϕ(x)

u− x≤ ϕ(y)− ϕ(x)

y − x,

ou seja, verificando-se assim a equivalencia entre a primeira e a segunda afirmacao. Paraa equivalencia entre a primeira e terceira afirmacao pode observar-se que a recta PxPytambem se pode representar por:

ϕ(y) +ϕ(y)− ϕ(x)

y − x(u− y) ,

pelo que a primeira afirmacao se pode representar como

ϕ(u) ≤ ϕ(y) +ϕ(y)− ϕ(x)

y − x(u− y) .

Esta expressao e equivalente a

ϕ(y)− ϕ(x)

y − x≤ ϕ(y)− ϕ(u)

y − u,

o que representa a terceira afirmacao.


2 Capıtulo 2

Esta proposicao pode ser reformulada num segundo criterio de convexidade parafuncoes de variavel real.

Corolario 1 (Caracterizacao das funcoes convexas). Seja dada uma funcao ϕ : [a, b] −→R. Entao ϕ e convexa se e so se:

∀a < x < u < y < bϕ(u)− ϕ(x)

u− x≤ ϕ(y)− ϕ(x)

y − x≤ ϕ(y)− ϕ(u)

y − u. (2.22)

O resultado seguinte (veja-se o exerıcio 13.34 em [HS65, p. 202] ou o texto em [Rud87,p. 62]) e da maior importancia e admite uma generalizacao as dimensoes superiores

baseada nos teoremas de separacao. Dado um intervalo I representaremos porI o

interior de I.

Teorema 18 (Condicao necessaria de convexidade). Seja ∅ 6= I ⊂ R um intervaloe ϕ : I −→ R uma funcao convexa. Entao:

∀u ∈I ∃β ∈ R ∀x ∈

I ϕ(x) ≥ β(x− u) + ϕ(u) , (2.23)

isto e, existe um numero β tal que a linha recta com declive β que passa pelo pontoPu = (u, ϕ(u)) esta sempre abaixo do grafico de ϕ.

Demonstracao. Em resultado da caracterizacao dada pela formula 2.22 tem-se para a <x < u < y < b que

ϕ(u)− ϕ(x)

u− x≤ β = sup

a<x<u

ϕ(u)− ϕ(x)

u− x≤ ϕ(y)− ϕ(x)

y − x≤ ϕ(y)− ϕ(u)

y − u,

pelo que, por um lado se verifica para a < x < u que −ϕ(x) ≤ β(u− x)− ϕ(u) ou sejaϕ(x) ≥ β(x−u) +ϕ(u) e por outro para u < y < b que ϕ(y) ≥ β(y−u) +ϕ(u), podendopois concluir-se como pretendido.

Este resultado tem como consequencia uma outra caracterizacao importante e muitoutil das funcoes convexas (veja-se [Phe66, p. 18 e 19]), a saber, que toda a funcaoconvexa num intervalo aberto e o envolucro superior das funcoes afins que a minoram.



Teorema 19 (As funcoes convexas sao envolucros superiores das funcoes afins queas minoram). Seja A o conjunto das funcoes afins de variavel real isto e:

A = h : R −→ R : ∃a, b ∈ R ∀x ∈ R h(x) = ax+ b .

Seja ∅ 6= I ⊂ R um intervalo aberto e ϕ : I −→ R uma funcao. Seja ϕ : I −→ Rdefinida por:

∀x ∈ I ϕ(x) = sup h(x) : h ∈ A , h ≤ ϕ .

Tem-se entao que:

1. ϕ minora ϕ, isto e, ϕ ≤ f .

2. ϕ e convexa.

3. ϕ = ϕ se e so se ϕ for convexa.

Demonstracao. A primeira propriedade e obvia pela definicao. A segunda propriedadedecorre de se verificar para uma qualquer famılia de funcoes (hi)i∈J que

Eπ(supi∈J

hi) =⋂i∈J

Eπ(hi)

e de ser obvio que toda a funcao afim e uma funcao convexa. Pelo que, se as funcoes(hi)i∈J forem convexas entao supi∈J hi tambem e uma vez que o seu epıgrafo se representacomo uma interseccao de conjuntos convexos que, ja sabemos, e um conjunto convexopela proposicao 13. Para a terceira propriedade note-se que se se verificar ϕ = ϕ entaopela segunda propriedade ϕ e convexa. Suponha-se entao que ϕ e convexa. Para u ∈ I,seja hu(x) = β(x − u) + ϕ(u) a funcao afim que minora ϕ e que passa pelo pontoPu = (u, ϕ(u)) com declive β, dada pelo teorema 18. Tem-se que

ϕ(u) = hu(u) ≤ sup h(u) : h ∈ A , h ≤ f = ϕ(u) ≤ ϕ(u) ,

tal como querıamos demonstrar.

A desigualdade seguinte e de grande importancia se considerarmos a utilizacao fre-quente que dela poderemos fazer.

Teorema 20 (Desigualdade de Jensen). Seja I ⊆ R um intervalo aberto e ϕ : I →R uma funcao convexa. Seja X uma variavel aleatoria tal que E [|X|] < +∞ e tal

que X(Ω) ⊆ I e E [X] ∈I . Suponhamos que,

E [|ϕ(X)|] < +∞ .

Entao tem-se a desigualdade de Jensen,

E [ϕ(X)] ≥ ϕ (E [X]) .


2 Capıtulo 2

Demonstracao. Pela propriedade (2.23) no teorema 18, seja β tal que para u = E [X] setenha,

∀x ∈ I ϕ(x)− [β (x−E [X]) + ϕ (E [X])] ≥ 0 .

Agora, dado que X(Ω) ⊆ I, tem-se que, usando as hipoteses relativas a integrabilidadede X e ϕ(X), que

E [ϕ(x)− [β (x−E [X]) + ϕ (E [X])]] = E [ϕ(x)]− ϕ (E [X]) ≥ 0 ,

ou seja a desigualdade de Jensen.

Uma aplicacao da desigualdade de Jensen dar-nos-a o teorema dos grandes desviosde Cramer-Chernov para variaveis aleatorias admitindo funcao geradora de momentos.

Teorema 21 (Teorema de Cramer-Chernov). Seja X uma variavel aleatoria, to-mando valores reais, tal que DX o domınio da sua funcao geradora de momentos,definido por,

DX :=

∈ R :

∫ΩetXdP < +∞

,

seja um conjunto aberto (ou contenha uma vizinhanca de zero). Seja a funcao hXdefinida por:

hX(x) := supt∈DX

(at− log(E

[etX])

,

designada pela transformada de Legendre-Fenchel de X. Entao para quaisquerε > 0, N ≥ 1 e X = (Xi)i≥1 amostra de X, tem-se as desigualdades dos grandesdesvios:

P

[1

N

N∑i=1

Xi ≥ E [X] + ε

]≤ e−NhX(E[X]+ε)

e

P

[1

N

N∑i=1

Xi ≤ E [X]− ε

]≤ e−NhX(E[X]−ε) .

Demonstracao. Seja a ∈ R e t ∈ DX tal que t > 0. temos entao, devido a monotonia dafuncao exponencial e a desigualdade de Tchebychev que:

P

[1

N

N∑i=1

Xi ≥ a

]= P

[N∑i=1

tXi ≥ tNa

]= P

[e∑Ni=1 tXi ≥ etNa

]≤E

[e∑Ni=1 tXi

]etNa

.

Agora, em consequencia da independencia das variaveis aleatorias da amostra X tem-seque:

E

[e∑Ni=1 tXi

]etNa

= e−tNaE

[N∏i=1

etXi

]= e−tNa

N∏i=1

E[etX]

= e−N(ta−logE[etX ]] ,



tendo-se finalmente uma vez que a ∈ R e t ∈ DX e tal que t > 0,

P

[1

N

N∑i=1

Xi ≥ a

]≤ e−N(ta−logE[etX ]] ≤ inf

t>0,t∈DXe−N(ta−logE[etX ]] ≤

≤ e−N supt>0,t∈DX (ta−logE[etX ]] .

Para obtermos a primeira desigualdade anunciada consideremos agora t > 0 e t ∈ DX eobservemos que como para ε > 0 se tem (E [X] + ε)−E [X] > 0, entao,

e−t((E[X]+ε)−E[X]) > 1 ,

e como ϕ(x) := etx e convexa em R – visto que ϕ′′(x) = t2etx ≥ 0 – tem-se que:

E[etX]e−t((E[X]+ε)−E[X]) > E

[etX]≥ etE[X] .

Usando agora a monotonia da funcao logaritmo, temos que,

logE[etX]− t (E [X] + ε) + tE [X] ≥ tE [X] ,

o que implica que

t (E [X] + ε)− logE[etX]≤ 0 .

Observando que para t = 0 se tem que t (E [X] + ε)− logE[etX]

= 0, podemos afirmarque

P

[1

N

N∑i=1

Xi ≥ a

]≤ e−N supt∈DX (t(E[X]+ε)−logE[etX ]] = e−NhX(E[X]+ε) ,

uma vez que para qualquer t > 0,

e−N(t(E[X]+ε)−logE[etX ]) ≥ 1 .

A segunda desigualdade demonstra-se mutatis mutandi (ver exercıcio 35).

Temos, por fim, a lei forte dos grandes numeros para variaveis aleatorias que admitamuma funcao geradora de momentos nao trivial.


2 Capıtulo 2

Teorema 22 (Lei forte dos grandes numeros). Seja X = (Xi)i≥1 amostra de Xuma variavel aleatoria, tomando valores reais, tal que DX o domınio da sua funcaogeradora de momentos, definido por,

DX :=

∈ R :

∫ΩetXdP < +∞

,

contenha uma vizinhanca de zero. Entao com probabilidade igual a um,

limN→+∞

(1

N

N∑i=1

Xi

)= E [X] ,

isto e,

P

[ω ∈ Ω : lim

N→+∞

1

N

N∑i=1

Xi(ω) = E [X]

]= 1 .

Demonstracao. Como consequencia do teorema de Cramer-Chernov, tem-se que paraN ≥ 1 e ε > 0,

P

[∣∣∣∣∣ 1

N

N∑i=1

Xi(ω)−E [X]

∣∣∣∣∣ ≥ ε]≤ e−N min(hX(E[X]+ε),hX(E[X]−ε)) (2.24)

Considere-se a seguinte notacao,

CX(ε) := min (hX(E [X] + ε), hX(E [X]− ε)) ,

e ainda,

AN (ε :=⋃M≥N

∣∣∣∣∣ 1

M

M∑i=1

Xi(ω)−E [X]

∣∣∣∣∣

para simplificar o que vai seguir-se. Em consequencia da estimativa dada na formula (2.24),vem que:

P [AN (ε] ≤∑M≥N

e−MCX(ε) =e−NCX(ε)

1− e−CX(ε).

Seja agora um qualquer k ≥ 1 e fixe-se ε := 1/k definindo-se ainda,

Ak :=⋂N≥1

AN

(1

k

).

Dado que,

∀k ≥ 1 ∀N ≥ 1 Ak ⊆ AN(

1

k

),



tem-se que para qualquer N ≥ 1,

0 ≤ P [Ak] ≤ P[AN

(1

k

)]≤ e−NCX( 1

k)

1− e−CX( 1k

),

e logo, necessariamente, para todo o k ≥ 1 tem-se P [Ak] = 0. Para terminarmos, seja:

ω0 ∈ Ω \

ω ∈ Ω : lim

N→+∞

1

N

N∑i=1

Xi(ω) = E [X]

.

Entao, tem-se necessariamente que:

∃k ≥ 1 ∀N ≥ 1 ∃M ≥ N

∣∣∣∣∣ 1

M

M∑i=1

Xi(ω0)−E [X]

∣∣∣∣∣ ≥ 1

k,

ou seja

ω0 ∈⋃k≥1

Ak .

Como se tem que:

P

⋃k≥1

Ak

≤∑k≥1

P [Ak] = 0 ,

temos o resultado anunciado.

2.8 ExercıciosExercıcio 21 (Lei normal estandardizada). Considere uma variavel aleatoria X _ N(0, 1) isto e, uma [1]variavel contınua com densidade

fX(t) =1√2πe−

t2

2 .

1. Determine MX(t) a funcao geradora de momentos e o domınio de existencia desta.

2. Determine, se possıvel, os dois primeiros momentos de X.

3. Determine, se possıvel, uma formula geral para os momento de X.

Exercıcio 22 (Lei de Cauchy). Considere uma variavel aleatoria X _ C isto e, uma variavel contınua [1]com densidade

fX(t) =1

1 + t2.




Exercıcio 23 (Lei Gaussiana ou de Laplace-Gauss geral). Considere uma variavel aleatoria X _ N(µ, σ) [1]isto e, uma variavel contınua com densidade

fX(t) =1√2πσ

e− (t−µ)2

2σ2 .


2 Capıtulo 2




Exercıcio 24 (Lei exponencial). Considere uma variavel aleatoria X _ E(δ) isto e, uma variavel[1]contınua com densidade

fX(t) =1

δe−

tδ 1I[0,+∞[(t) .




Exercıcio 25 (Lei uniforme). Considere uma variavel aleatoria X _ U([a, b]) isto e, uma variavel[1]contınua com densidade

fX(t) =1

b− a1I[a,b](t) .




Exercıcio 26 (Lei gama). Considere uma variavel aleatoria X _ Γ(α, δ) isto e, uma variavel contınua[2]com densidade

fX(t) =β−αtα−1e

− tβ

Γ(α)1I]0,+∞[(t) .




Exercıcio 27 (Lei de Laplace). Considere uma variavel aleatoria X _ L(µ, β) isto e, uma variavel[2]contınua com densidade

fX(t) =1

2βe− |t−µ|

2β .




Exercıcio 28 (Lei de Bernoulli). Considere uma variavel aleatoria X _ B(p), para p ∈]0, 1[, isto e,[1]uma variavel discreta tal que X(Ω) = 0, 1 com lei dada por

P [X = 1] = p .






Exercıcio 29 (Lei Binomial). Considere uma variavel aleatoria X _ B(N, p), para p ∈]0, 1[ e N ≥ 2[1]inteiro, isto e, uma variavel discreta tal que X(Ω) = 0, 1, . . . , N com lei dada por

P [X = k] =

(N

k

)pk(1− p)N−k .




Exercıcio 30 (Lei de Poisson). Considere uma variavel aleatoria X _ P(λ), para λ > 0, isto e, uma [1]variavel discreta tal que X(Ω) = N com lei dada por

P [X = k] = e−λλk

k!.




Exercıcio 31 (Lei geometrica). Considere uma variavel aleatoria X _ G(p) isto e, uma variavel discreta [1]tal que X(Ω) = N \ 0 com lei dada por

P [X = k] = p(1− p)k−1 .




Exercıcio 32 (Teorema do limite central para variaveis nao centradas). Seja (Xn)n≥1, uma sucessao [3]de variaveis aleatorias, independentes e identicamente distribuıdas com X uma variavel aleatoria cujafuncao geradora de momentos exista num intervalo aberto, por exemplo, ]−t0,+t0[. Seja, para simplificaras notacoes, E [X] = µ e V [X] = σ2. Seja, por definicao,

YN :=1

σ√N

N∑n=1

(Xn − µ) .

1. Mostre que, para t ∈]− t0,+t0[ se tem que:

limN→+∞

MYN (t) = et2

2 .

2. Mostre que, em consequencia, para x ∈ R:

limN→+∞

supx∈R

∣∣∣∣∣P[

1

σ√N

N∑n=1

(Xn − µ) ≤ x

]− 1√

2π

∫ x

−∞e−

t2

2 dt

∣∣∣∣∣ = 0 .

Exercıcio 33 (Comportamento local de ordem 2, do logaritmo na vizinhanca de 1). Mostre que existe [2]RL,3 : R 7→ R contınua em ]− 1,+1[, verificando RL,3(0) = 1/3 e tal que:

∀x ∈]− 1,+1[ log(1 + x) = x− x2

2+ x3RL,3(x) .

Exercıcio 34. Com as notacoes do teorema 15 verifique que: [2]

limn→+∞

µnt3

σ3n

= 0 , limn→+∞

µnpnt3

4σ3n

= 0 , limn→+∞

Nna3n = 0 .

Exercıcio 35. Demonstre a segunda desigualdade do enunciado do teorema 21. [1]


2 Capıtulo 2

2.9 Resolucoes

Resolucao:[Exercıcio 35] Para a ∈ R e t ∈ DX tal que t < 0

P

[1

N

N∑i=1

Xi ≤ a

]= P

[N∑i=1

tXi ≥ tNa

]≤ e−N(ta−logE[etX ]]

≤ inft<0,t∈DX

e−N(ta−logE[etX ]] ≤

≤ e−N supt<0,t∈DX (ta−logE[etX ]] .

Agora, para ε > 0, tem-se que (E [X]− ε)−E [X] < 0 e logo para t > 0 e t ∈ DX temos:

e−t((E[X]−ε)−E[X]) > 1 ,

de onde resulta,

t (E [X]− ε)− logE[etX]≤ 0 .

procedendo-se como na primeira desigualdade. ♦

Bibliografia

[BGH+97] Newton Bowers, Hans Gerber, James Hickman, Donald Jones, and CecilNesbitt. Actuarial Mathematics. Second edition. Society of Actuaries, 1997.

[Bil95] Patrick Billingsley. Probability and measure. Wiley Series in Probability andMathematical Statistics. John Wiley & Sons Inc., New York, third edition,1995. A Wiley-Interscience Publication.

[Esq07] M. L. Esquıvel. Probability generating functions for discrete real-valued ran-dom variables. Teor. Veroyatn. Primen., 52(1):129–149, 2007.

[Fel71] William Feller. An introduction to probability theory and its applications.Vol. II. Second edition. John Wiley & Sons Inc., New York, 1971.

[HS65] Edwin Hewitt and Karl Stromberg. Real and abstract analysis. A moderntreatment of the theory of functions of a real variable. Springer-Verlag, NewYork, 1965.

[Met79] M. Metivier. Notions fondamentales de la theorie des probabilites. Dunoduniversite. Dunod, second edition, 1979.

[Phe66] Robert R. Phelps. Lectures on Choquet’s theorem. D. Van Nostrand Co.,Inc., Princeton, N.J.-Toronto, Ont.-London, 1966.

[Rud87] Walter Rudin. Real and complex analysis. McGraw-Hill Book Co., New York,third edition, 1987.



[Sin92] Yakov G. Sinai. Probability theory. Springer Textbook. Springer-Verlag,Berlin, 1992. An introductory course, Translated from the Russian and witha preface by D. Haughton.

[SS99] Murray Spiegel and Larry Stephens. Theory and Problems of Statistics.Schaum Outline. McGraw-Hill, New York, third edition, 1999.


58

Capıtulo 3

Formalismo da Estatıstica

The likelihood method has been particularly successful in the analysis of exponential families,but it also applies successfully to many other types of statistical models. However, there aremodels in which the likelihood estimator behaves badly and do not even get near the trueparameter it is supposed to estimate. This does not mean that the likelihood method isinadequate; but it means that the likelihood method, like all other methods of statistics inventedso far, has its limitations.

In J. Hoffmann-Jørgensen, Probability with a View Toward Statistics, Volume II, Chapman & Hall1994, page 318.

3.1 Introducao

O formalismo estatıstico abordado neste capıtulo e – na forma apresentada – um desen-volvimento natural da moderna teoria das probabilidades. No entanto, a Estatıstica teveum desenvolvimento proprio que comecou no tempo de Arquimedes – tendo por objectoa descricao quantitativa da situacao demografica, economica e polıtica dos estados – eatingiu uma idade de ouro nas primeiras decadas do seculo XX com os trabalhos deGalton, Pearson, Gosset e sobretudo Ronald Fisher (1890–1962). As contribuicoes desteultimo foram realmente notaveis; de entre estas contribuicoes destacamos: a analise davariancia, a maxima verosimilhanca, a inferencia fiducial e as nocoes de informacao deFisher e de estatıstica suficiente.

Mais recentemente sao de realcar resultados da escola matematica Russa, na sequenciados trabalhos de Tchebychev, Kolmogorov, Khinchine, Prohorov, Shiryaev e da escolaIndiana sobretudo com Rao e Parthasarathy.

Figura 3.1:Ronald Fishera quem deve-mos muitos dosconceitos queexploramos nestetexto.

59

3 Capıtulo 3

Ha excelentes obras em lıngua Portuguesa sobre os fundamentos e as aplicacoes daEstatıstica. A obra de referencia de Dinis Pestana e Sıvio Velosa (veja-se [PV08]) temmuita informacao que permite – a par do estudo dos detalhes tecnicos – a educacao deum espırito crıtico essencial as aplicacoes da Estatıstica. Uma outra obra de referencia– a de Bento Murteira e Marılia Antunes (veja-se [MM12]) – permite uma introducaorigorosa aos principais temas da Estatıstica.

3.2 Estatısticas e estimadores

As estatısticas sao funcoes dos segmentos iniciais das amostras, construıdas a partir defuncoes mensuraveis cujos valores nao dependem dos parametros do modelo. A definicaoformal e a seguinte.

Definicao 18 (Estatıstica). Seja X _ G(θ) com θ ∈ Θ ⊆ Rd um modelo cuja leidepende do parametro θ. Seja X = (X1, X2, . . . , Xm, . . . ) uma amostra de X e paraN ≥ 1 a funcao ψm definida em

∏mj=1Xj(Ω) tomando valores em Rp tal que:

1. para quaisquer x1 ∈ X1(Ω), . . . , xm ∈ Xm(Ω), tem-se que ψN (x1, . . . , xm) naodepende de θ.

2. ψm e mensuravel de∏mj=1Xj(Ω) em Rp.

Entao, a sucessao de variaveis aleatorias ψX = (ψm(X1, . . . , Xm))m≥1 e uma es-tatıstica.

Observacao 25. Se a amostra X = (X1, X2, . . . , Xm, . . . ) for a amostra canonica deX composta a partir de copias independentes de X, sendo X uma variavel aleatoriatomando valores reais, entao

∏mj=1Xi(Ω) ⊆ Rm e ψm devera ser mensuravel de Rm em

Rp.

Exemplo 9 (Estatıstica do valor medio). Seja para cada m ≥ 1, a funcao tal queψm : Rm 7→ R e que a xm = (x1, x2, . . . , xm) associa:

ψm(xm) = ψm(x1, x2, . . . , xm) =1

m

m∑j=1

xj .

Seja X _ G(θ) um modelo e X = (X1, X2, . . . , Xm, . . . ) uma amostra do modelo eXm = (X1, X2, . . . , Xm) o segmento inicial de comprimento m da amostra. EntaoψX = (ψm(X1, . . . , Xm))nm≥1 em que,

ψm(Xm) = ψm(X1, X2, . . . , Xm) =1

m

m∑j=1

Xj ,

e uma estatıstica.


CAPITULO 3. FORMALISMO DA ESTATISTICA Seccao: 3.2

Definicao 19 (Estimador de um parametro: definicao informal). Uma estatısticaψX = (ψm(X1, . . . , Xm))m≥1 e um estimador se para quase todas as realizacoesda amostra x = (x1, x2, . . . , xm . . . ) se tiver que, desde que m seja suficientementegrande,

ψm(xm) = ψm(x1, x2, . . . , xm) ≈ θ ,

em que a aproximacao indicada ≈ e num sentido a determinar.

Observacao 26 (Proposta de definicao). Com as notacoes da definicao 19, uma estatısticaψX diz-se um estimador de θ se p = d e se se verificar que, em distribuicao,

limm→+∞

ψm(X1, . . . , Xm) = δθ .

em que δθ e a lei de Dirac em θ.

Exemplo 10 (Estimador do valor esperado). Com as notacoes do exemplo 9 se X _G(θ) e se θ = E[X] entao uma vez que pela lei dos grandes numeros se tem quequase certamente,

limm→+∞

ψN (X1, X2, . . . , Xm) = limm→+∞

1

m

m∑j=1

Xi = E[X] ,

ψX = (ψN (X1, . . . , Xm))m≥1 e um estimador de θ = E[X].

Exercıcio 36 (Estimacao dos parametros de uma lei discreta pelo metodo dos momentos). Seja τ :Ω 7→ R uma variavel aleatoria tomando um numero finito m de valores distintos α1, α2, . . . , αm. A leide probabilidade discreta de τ e definida pelos parametros θ1, θ2, . . . θm verificando:

∀i ∈ 1, 2, . . . ,m P [τ = αi] = θi .

1. Mostre que:

∀k ∈ 1, 2, . . . ,m E[τk]

=

m∑i=1

αki θi .

2. Mostre que com Θ = (θ1, θ2, . . . θm)t and Γ = (1,E [τ ] ,E[τ2], . . .E

[τm−1

])t e com,

A =

1 1 · · · 1α1 α2 · · · αmα2

1 α22 · · · α2

m

......

. . ....

αm−11 αm−1

2 · · · αm−1m

se tem A ·Θ = Γ.

3. Mostre que se T := (T1, T2, . . . Tn, . . . ) for uma amostra de τ entao tem-se, quase certamente,que:

∀k ∈ 1, 2, . . . ,m E[τk]

= limN→+∞

1

N

N∑n=1

T kn .


3 Capıtulo 3

4. Mostre que a inversa A−1 existe e que se for, por definicao, para N ≥ 1 ΘN = A−1 · ΓN , com:

∀N ≥ 1 ,ΓN :=

(1,

1

N

N∑n=1

Tn,1

N

N∑n=1

T 2n , . . . ,

1

N

N∑n=1

Tm−1n

),

entao (ΘN )N≥1 e um estimador de Θ.

Dado que um estimador de uma quantidade dependente do parametro desconhecido, euma variavel aleatoria e conveniente que a localizacao dessa variavel aleatoria, descritapelo valor esperado – ou pela mediana – seja tao proxima quanto possıvel do verdadeirovalor essa quantidade.

Definicao 20 (Estimador centrado ou nao enviesado). Seja Seja τ : Θ 7→ R umadada funcao do parametro que pretendemos estimar. Seja Xm = (X1, X2, . . . , Xm)o segmento inicial de comprimento m da amostra X = (X1, X2, . . . , Xm, . . . ). Oestimador ψXτ = (ψτm(Xm))m≥1 de τ(θ) e centrado ou nao enviesado, se e so se:

∀m ≥ 1 E [ψτm(Xm)] = τ(θ) .

A qualidade dum estimador pode ser aferida de variadas formas. Seja τ : Θ 7→ R

uma dada funcao do parametro que pretendemos estimar e seja Tc,2,τ a famılia dosestimadores centrados de quadrado integravel de τ(θ), isto e tal que:

∀ ψXτ = (ψτm(Xm))m≥1 ∈ Tc,2,τ ∀m ≥ 1 Eθ [ψτm(Xm)] = τ(θ) e Vθ [ψτm(Xm)] < +∞ ,

sendo Xm = (X1, X2, . . . , Xm) o segmento inicial da amostra de comprimento m.

Definicao 21 (Estimador optimo). Um estimador ψX?,τ = (ψ?,τm (Xm))m≥1 ∈ Tc,2,τ eum estimador optimo na classe Tc,2,τ se se verificar que:

∀ ψXτ = (ψτm(Xm)m≥1 ∈ Tc,2,τ ∀m ≥ 1 Vθ [ψ?,τm (Xm)] ≤ Vθ [ψτm(Xm)] ,

isto e se for um estimador centrado de τ(θ) de variancia mınima.

Veremos adiante, no teorema 23, que ha um limite inferior para variancia de umestimador centrado e que qualquer estimador de variancia mınima tem uma estruturaespecial.

3.2.1 Estimacao por intervalo de confianca

Recordamos seguidamente a definicao de intervalo de confianca para um caso que ocorrefrequentemente nas aplicacoes elementares da Estatıstica. Seja X _ G(θ) uma variavelaleatoria tomando valores reais com distribuicao G(θ) em que θ ∈ Θ ⊆ R e um paramerodesconhecido de que se pretende estimar uma funcao τ(θ). SejaX = (X1, X2, . . . , Xm, . . . )uma amostra de X e S = (SN )N≥1 uma estatıstica pivot para a funcao do parametro



τ(θ), isto e, para N ≥ 1 tem-se que SN = SN (X1, . . . , XN , θ) = g(h(X1, . . . , XN ) · τ(θ))sendo que a distribuicao de SN nao depende de θ. Suponha-se ainda que e g e invertıvele a inversa g−1 e monotona crescente.

Definicao 22 (Intervalo de confianca). Um intervalo de confianca de nıvel α para afuncao do parametro τ(θ), com o numero de observacoes N0, constroi-se da seguinteforma:

1. Consideram-se cα, dα tais que:

α = P [cα ≤ SN0 ≤ dα] = P

[g−1(cα)

h(X1, . . . , XN0)≤ τ(θ) ≤ g−1(dα)

h(X1, . . . , XN0)

].

2. Se A = (a1, a2, . . . , am, . . . ) for uma qualquer realizacao da amostra, corres-pondente por exemplo as observacoes efectuadas, tem-se que:[

g−1(cα)

h(a1, a2, . . . , aN0)≤ τ(θ) ≤ g−1(dα)

h(a1, a2, . . . , aN0)

],

e um intervalo de confianca de nıvel α para a funcao do parametro τ(θ) quandoas observacoes foram (a1, a2, . . . , aN0).

Exercıcio 37 (Intervalo de confianca para o desvio padrao da lei normal). Seja um fenomeno, denatureza aleatoria, admitindo como modelo X _ N(µ, σ2) em que ambos os parametros µ e σ2 saodesconhecidos. Suponha-se que se fizeram 30 oservacoes do fenomeno, realizacoes de uma amostra X =(X1, X2, . . . , Xm, . . . ) de X, constatando-se que:

S2N |N=30,X1=a1,...XN=aN :=

[1

N − 1

N=N∑n=1

(Xi −XN

)2]N=30,X1=a1,...XN=aN

= 2.89 .

Pretende-se determinar um intervalo de confianca para σ, ao nıvel α = 95%.

1. Mostre que

QN :=(N − 1)S2

N

σ2_ χ2

N−1 ,

em que χ2N−1 e a distribuicao do qui-quadrado com N − 1 graus de liberdade e que, portanto,

(QN )n≥2 e uma estatıstica pivot para σ.

2. Mostre, por exemplo consultando uma tabela, que se tem para os quantis indicados da distribuicaoχ2

29:qχ2

29:97.5% = 16 , qχ229:2.5% = 47.5 ,

e conclua que um intervalo de confianca para σ a 95% na base das observacoes efectuadas e:[1.33, 2.29]. Comente o facto de se ter que

√S2N |N=30,X1=a1,...XN=aN = 1.7 ∈ [1.33, 2.29].

Observacao 27 (Extencao da nocao de intervalo de confianca ao caso de distribuicaoassimptotica do estimador). Tal como ja referimos, o teorema 15 pode ser aplicado nadeterminacao de intervalos de confianca (com a extensao adequada da definicao 22 parao parametro de um modelo com variavel aleatoria de Poisson (por exemplo, no exercıcio51).


3 Capıtulo 3

3.3 Os Estimadores da Maxima Verosimilhanca

Nesta seccao desenvolvemos resultados que descrevem as principais proriedades dos es-timadores de maxima verosimilhanca (veja-se [IM90, p. 92] e [KPS83, p. 490]).

Seja X _ G(θ) uma variavel aleatoria em que o parametro θ ∈ Θ ⊂ R e desconhe-cido 1. Suponhamos que a lei de X admite a densidade fθX . Consideremos as observacoesX = (X1, . . . Xm, . . . ), isto e uma amostra de X e, para m ≥ 1, seja Xm = (X1, . . . Xm)o segmento inicial de comprimento m da amostra. Como habitualmente os dados obser-vados x = (x1, x2, . . . , xm, . . . ) sao as realizacoes da amostra X e, xm = (x1, x2, . . . , xm)e o segmento inicial da realizacao da amostra x.

Definicao 23 (Verosimilhanca de uma amostra). Para m ≥ 1, LθXm

, a verosimi-lhanca de Xm = (X1, . . . Xm) e a densidade da lei conjunta de Xm, isto e, e a funcaodefinida em Rm tomando valores reais dada por:

∀x1, x2, . . . xm ∈ R LθXm(x1, x2, . . . xm) =

m∏j=1

fθXj (xj) =

m∏j=1

fθX(xj)

A seguinte ideia e fundamental. Suponhamos que, em resultado de uma experienciaforam a = (a1, a2, . . . , am, . . . ) os valores observados na realizacao da amostra. Dadoque o parametro θ e desconhecido podemos considerar Lθ

Xm(a1, a2, . . . am) como funcao

de θ definida em Θ. Uma vez que LθXm

e uma densidade, e natural supor que o valor

de θ que corresponde aos dados observados a = (a1, a2, . . . , am, . . . ) e o valor θm =θm(a1, a2, . . . , am) que maximiza Lθ

Xm(a1, a2, . . . am).

No que vai seguir-se distinguiremos estimativa e estimador. Um estimador e umaestatıstica e portanto e dado como uma funcao das variaveis aleatorias da amostra; umaestimativa e o valor que toma o estimador na realizacao da amostra que corresponde aosvalores observados.

Definicao 24 (Estimativa e Estimador de Maxima Verosimilhanca). Uma esti-mativa da maxima verosimilhanca (EaMV) do parametro θ com os valores daamostra observados a = (a1, a2, . . . , am, . . . ) e θm = θm(a1, a2, . . . , am) ∈ Θ, tal que:

LθmXm

(a1, a2, . . . am) = supθ∈Θ

LθXm(a1, a2, . . . am) .

O estimador da maxima verosimilhanca (EMV) do parametro θ e a es-tatıstica (θm)m≥1 = (θm(X1, X2, . . . , Xm))m≥1 tal que para cada ω ∈ Ω se verifica

θm(X1(ω), X2(ω), . . . , Xm(ω)) ∈ Θ e para cada m ≥ 1 sendo Xm = (X1, . . . Xm) osegmento inicial de comprimento m da amostra X = (X1, . . . Xm, . . . ), se tem,

∀ω ∈ Ω LθmXm

(X1(ω), X2(ω), . . . Xm(ω)) = supθ∈Θ

LθXm(X1(ω), X2(ω), . . . Xm(ω)) .

1O que a seguir apresentamos e valido mutatis mutandis para θ ∈ Θ ⊂ Rd com d > 1.



A existencia do estimador da maxima verosimilhanca decorre de hipoteses simples,dado que a imagem de um compacto por uma funcao contınua e um compacto.

Proposicao 15 (Existencia do EMV). Se Θ for compacto e se para cada x =(x1, x2, . . . , xm, . . . ), se tiver que Lθ

Xm(x1, x2, . . . xm) for uma funcao contınua defi-

nida sobre Θ, o estimador de maxima verosimilhanca existe e tem-se que θm ∈ Θ.

A determinacao pratica do EMV pode fazer-se observando que se a verosimilhancafor regular o EMV corresponde a um ponto crıtico da verosimilhanca.

Proposicao 16 (Determinacao da EaMV - 1). Se para quaisquer x1, . . . xm ∈ Rfixos Lθ

Xm(x1, x2, . . . xm) atingir o maximo num ponto interior de Θ e se Lθ

Xmfor

diferenciavel relativamente a θ entao θm = θm(a1, a2, . . . , am) e solucao da equacao

∂LθXm

(a1, a2, . . . , am)

∂θ= 0 ,

denominada, equacao de verosimilhanca.

Demonstracao. Veja-se o exercıcio 41.

Dado que a funcao logaritmo e regular e estritamente crescente, pode considerar-sea log-verosimilhanca como alternativa a verosimilhanca.

Definicao 25 (Log-verosimilhanca de uma amostra). Com as notacoes da de-

finicao 23, para m ≥ 1, lXm,θ, a log-verosimilhanca de Xm = (X1, . . . Xm) e:

∀x1, x2, . . . xm ∈ R lXm,θ(x1, x2, . . . xm) = log(LθXm(x1, ax2, . . . xm)

)

Proposicao 17 (Estimativa de Maxima Verosimilhanca). A estimativa da maximaverosimilhanca do parametro θ com os valores da amostra observados a =(a1, a2, . . . , am, . . . ) e θm = θm(a1, a2, . . . , am) ∈ Θ tal que:

lXm,θm

(a1, a2, . . . am) = supθ∈Θ

lXm,θ(a1, a2, . . . am) .

Resulta imediatamente que a determinacao do EMV pode tambem fazer-se usandoa log-verosimilhanca.


3 Capıtulo 3

Proposicao 18 (Determinacao do EMV - 2). Com as notacoes e hipoteses daproposicao 16, entao θm = θm(a1, a2, . . . , am) e solucao da equacao

∂ lXm,θ(a1, a2, . . . am)

∂θ= 0 , (3.1)

tambem denominada, equacao de verosimilhanca.

Demonstracao. Exercıcio.

Exemplo 11 (Modelo Exponencial). Seja X _ E(λ) com densidade fλX(x) =λe−λx1Ix≥0(x). A EaMV de λ e dada por:

λm =1

1m

∑mj=1Xj

.

Desenvolvimento: Considerando para simplificar λ = λm e dado que

LλXm(x1, x2, . . . xm) =

m∏j=1

fλX(xj) = λm exp

−λ m∑j=1

xj

m∏j=1

1Ixj≥0(xj)

tem-se que

lXm,λ(x1, x2, . . . xm) = m log(λ)− λm∑j=1

xj +m∑j=1

log(

1Ixj≥0(xj))

pelo que

∂ lXm,λ(x1, x2, . . . xm)

∂λ=m

λ−

m∑j=1

xj .

A solucao da equacao (3.1) da entao:

1

λm=

1

m

m∑j=1

xj .

Dado que E[X] = 1/λ a lei forte dos grandes numeros garante que para quase todas asescolhas x1, x2, . . . , xm, . . .

limm→+∞

1

m

m∑j=1

xj =1

λ,

pelo que o EMV de λ e (fortemente) consistente. 5



Exemplo 12 (Modelo Normal). Seja X _ N(µ, σ2) com densidade

fµ,σ2

X (x) =1√

2πσ2exp

(−(x− µ)2

2σ2

).

Entao, µm e σ2m as estimativas de maxima verosimilhanca das componentes do

parametro (µ, σ) sao dadas por:

µm =1

m

m∑j=1

xj Ee σ2m =

1

m

m∑j=1

xj − 1

m

m∑j=1

xj

2

.

Desenvolvimento: Vamos usar a proposicao 18. Para tal, observemos que:

log fµ,σ2

X (x) = −1

2log 2π − log σ − 1

2σ2(x− µ)2 , (3.2)

pelo que a log-verosimilhanca se pode representar por:

l = lXm,θ(x1, x2, . . . xm) = −m1

2log 2π −m log σ − 1

2σ2

m∑j=1

(xj − µ)2 .

A primeira equacao de verosimilhanca – relativa a componente µ do parametro – podeser obtida pela derivacao seguinte.

∂ l

∂µ=

1

σ2

m∑j=1

xj

− mµ

σ2,

de onde esulta a solucao da primeira equacao de verosimilhanca:

∂ l

∂µ= 0⇔ µ =

1

m

m∑j=1

xj .

A segunda equacao de verosimilhanca – relativa a componente σ do parametro – podeser obtida pela derivacao seguinte.

∂ l

∂σ= −m

σ− 1

σ3

m∑j=1

(xj − µ)2 ,

de onde resulta como solucao da segunda equacao de verosimihanca,

∂ l

∂σ= 0⇔ σ2 =

1

m

m∑j=1

(xj − µ)2 =1

m

m∑j=1

xj − 1

m

m∑j=1

xj

2

,

A verificacao de que as solucoes obtidas correspondem a valores maximos e deixada comoexercıcio. 5


3 Capıtulo 3

Observacao 28. Exemplos de determinacao das EaMV para variados modelos usuais,para alem do modelo normal – Binomial, Geometrico, Poisson, Exponencial, Pareto,Uniforme Exponencial transladada, Logarıtmica - podem ser estudados em [PV08, pp.523–526].

A proposicao seguinte da-nos propriedades da log-verosimilhanca com consequenciasimportantes.

Proposicao 19 (Propriedades notaveis da log-verosimilhanca). Com as notacoes dadefininicao 25 e, sob hipoteses de regularidade que permitam aplicar o teorema 28,tem-se que:

Eθ

[∂ lXm,θ(X1, X2, . . . Xm)

∂θ

]= Eθ

[∂

∂θlXm,θ(Xm)

]= 0 , (3.3)

e ainda,

Eθ

[(∂

∂θlXm,θ(Xm)

)2]

= −Eθ[∂2

∂θ2lXm,θ(Xm)

]. (3.4)

Demonstracao. Com efeito tem-se que:

Eθ

[∂

∂θlXm,θ(Xm)

]=

∫R

· · ·∫R

∂

∂θlXm,θ(xm)

m∏j=1

fθXj (xj)

dx1 · · · dxm =

=

∫R

· · ·∫R

∂∂θL

θXm

(xm)

LθXm

(xm)

m∏j=1

fθXj (xj)

dx1 · · · dxm =

=

∫R

· · ·∫R

∂∂θL

θXm

(xm)

LθXm

(xm)LθXm(xm)dx1 · · · dxm =

=

∫R

· · ·∫R

∂

∂θLθXm(xm)dx1 · · · dxm =

=∂

∂θ

∫R

· · ·∫R

LθXm(xm)dx1 · · · dxm =∂

∂θ1 = 0 .



A segunda formula e uma consequencia da primeira. Com efeito,

0 =∂

∂θEθ

[∂

∂θlXm,θ(Xm)

]=

∂

∂θ

∫R

· · ·∫R

(∂

∂θlXm,θ(xm)

)LθXm(xm)dx1 · · · dxm =

=

∫R

· · ·∫R

(∂2

∂θ2lXm,θ(xm)

)LθXm(xm)dx1 · · · dxm+

+

∫R

· · ·∫R

(∂

∂θlXm,θ(xm)

)(∂

∂θLθXm(xm)

)dx1 · · · dxm =

= Eθ

[∂2

∂θ2lXm,θ(Xm)

]+

∫R

· · ·∫R

(∂

∂θlXm,θ(xm)

)2

LθXm(xm)dx1 · · · dxm =

= Eθ

[∂2

∂θ2lXm,θ(Xm)

]+Eθ

[(∂

∂θlXm,θ(Xm)

)2],

uma vez que pela definicao de log-verosimilhanca se tem que:

∂

∂θLθXm(xm) =

(∂

∂θlXm,θ(xm)

)LθXm(xm) .

3.4 Informacao de Fisher

O conceito de informacao de Fisher de uma amostra e da maior importancia em Es-tatıstica. Intervem em muitos resultados importantes – veja-se o teorema 23 adiante.

Definicao 26 (Informacao de Fisher de uma amostra). Com as notacoes, hipotesese resultados da proposicao 19, a Informacao de Fisher do segmento inicial Xm

de uma amostra X e:

I(θ,Xm) = Eθ

[(∂

∂θlXm,θ(Xm)

)2]

= Vθ

[∂

∂θlXm,θ(Xm)

]. (3.5)

Proposicao 20 (Propriedade essencial da Informacao de Fisher). Com as notacoesda proposicao 19 e da definicao 26 e, sob hipoteses de regularidade que permitamaplicar o teorema 28, tem-se que:

I(θ,Xm) = −Eθ[∂2

∂θ2lXm,θ(Xm)

]= −mEθ

[∂2

∂θ2lXm,θ(X1)

]= mI(θ,X1) . (3.6)

Demonstracao. Veja-se a resolucao do exercıcio 40.


3 Capıtulo 3

Observacao 29. A informacao de Fisher I(θ,Xm) pode interpretar-se como uma medidada quantidade de informacao contida no segmento inicial da amostra de comprimentom e varia linearmente com m, a dimensao do segmento inicial da amostra.

Exemplo 13 (Modelo normal com variancia conhecida). Seja X _ N(θ, σ2) sendoque se supoe que σ2 e conhecido. Mostre que:

I(θ,Xm) =m

σ2.

Interprete a variacao de I(θ,Xm) em funcao da variacao de σ.

Desenvolvimento: Pela formula (3.2) e pela formula (3.5) da definicao 26 temosque

I(θ,X1) = Vθ

[∂

∂θlX1,θ(X1)

]= Vθ

[∂

∂θlog fθ,σ

2

X1(X1)

]= Vθ

[−X − θ

σ2

]=

1

σ2.

Pela igualdade mais a direita na formula (3.6), temos que

I(θ,Xm) = mI(θ,X1) =m

σ2,

tal como enunciado. Quanto menor for a variancia σ2 do modelo maior sera a informacaode Fisher de qualquer segmento inicial da amostra. 5

O resultado seguinte mostra que ha um limite inferior notavel para a variancia dosestimadores nao enviesados (seguimos a obra [Wil01, p. 190] para esta exposicao, emboracom as notacoes adaptadas ao contexto que assumimos).

Teorema 23 (Limite inferior de Cramer-Rao). Seja X _ G(θ) um modelo e ψX

um estimador do parametro θ nao enviesado, ou seja, tal que:

∀m ≥ 1 Eθ [ψm(Xm)] = θ .

Tem-se entao que:

Vθ [ψm(Xm)] ≥ 1

I(θ,Xm)(3.7)

sendo que a igualdade ocorre se e so se:

ψm(Xm)− θ =

(∂

∂θlXm,θ(Xm)

)×H(θ) (3.8)

em que H e uma funcao so de θ.

Demonstracao. A hipotese do estimador ser nao enviesado pode ainda representar-se,∫Rm

ψm(xm)LθXm(xm)dx1 · · · dxm = θ .



Mais uma vez usando,

∂

∂θLθXm(xm) =

(∂

∂θlXm,θ(xm)

)LθXm(xm) ,

vem, derivando em ordem a θ que:

1 =

∫Rm

ψm(xm)

(∂

∂θLθXm(xm)

)dx1 · · · dxm =

=

∫Rm

ψm(xm)

(∂

∂θlXm,θ(xm)

)LθXm(xm)dx1 · · · dxm ,

isto e, usando mais uma vez o facto do estimador ser nao enviesado, que:

1 = Eθ

[ψm(Xm)

(∂

∂θlXm,θ(Xm)

)]= Eθ

[(ψm(Xm)− θ)

(∂

∂θlXm,θ(Xm)

)],

donde se conclui pela desigualdade de Cauchy-Schwarz, que:

12 ≤ Eθ[(ψm(Xm)− θ)2

]Eθ

[(∂

∂θlXm,θ(Xm)

)2]

= VθE [ψm(Xm)]× I(θ,Xm) ,

tal como se pretendia. A formula (3.8) e uma consequencia da demonstracao do casogeral da desigualdade de Cauchy-Schwarz num espaco com produto interno a partir doteorema de Pitagoras.

Observacao 30. O inverso da informacao de Fisher e denominado o limite inferiorda variancia mınima. E notavel que o limite inferior da variancia do estimador naodependa do estimador em questao, dependendo apenas do modelo atraves da densidadeda lei de probabilidade deste.

No caso de um modelo com densidade de tipo exponencial reduzido existe um esti-mador notavel do parametro – a media das observacoes – que tem a variancia mınimade Cramer–Rao. Os modelos exponenciais sao essenciais no estudo dos modelos linearesgeneralizados que faremos adiante.

Teorema 24 (Densidade de tipo exponencial: estimador de variancia mınima).Seja X uma variavel aleatoria com densidade da forma:

∀x ∈ R fθX(x) = r(θ)s(x) exp (xQ(θ)) , (3.9)

em que r, s e Q sao funcoes regulares. Sendo X = (X1, X2, . . . , Xm . . . ) uma amostrade X, entao:

θm =1

m

m∑j=1

Xj ,

e um estimador de variancia mınima no sentido da desigualdade de Cramer–Rao.


3 Capıtulo 3

Demonstracao. Vamos verificar que para um modelo exponencial – como o que se indicou– vale a formula (3.8) do teorema 23. Consideremos as funcoes definidas por,

r1(θ)(x) = log(r(θ)) e s1(θ)(x) = log(s(θ)) .

A formula (3.9) pode escrever-se agora com estas funcoes:

∀x ∈ R fθX(x) = exp (xQ(θ) + r1(θ) + s1(x)) ,

Seja X = (X1, . . . , Xm, . . . ) uma amostra de X e a notacao para a media amostral deordem m,

∀m ≥ 1 Xm :=1

m

m∑j=1

Xj .

Pela formula (3.3) da proposicao 19 temos que para qualquer m ≥ 1:

0 = Eθ

[∂

∂θlXm,θ(Xm)

]= Eθ

[∂

∂θlX1,θ(X1)

]= Eθ

[XQ′(θ) + r′1(θ)

]=

= Eθ [X]Q′(θ) + r′1(θ) ,

de onde resulta que

Eθ

[Xm

]= Eθ [X] = − r

′1(θ)

Q′(θ). (3.10)

Teremos que Xm sera um estimador nao enviesado de θ se se verificar Eθ[Xm

]= θ de

onde resulta, pela formula 3.10, que

θQ′(θ) + r′1(θ) = 0 . (3.11)

Assim sendo, tem-se, usando a formula (3.11), que:

∂

∂θlXm,θm(Xm) =

∂

∂θ

mXmQ(θ) +mr1(θ) +

m∑j=1

s1(Xj)

=

= mXmQ′(θ) +mr′1(θ) = mQ′(θ)

(Xm − θ

),

isto e, finalmente,

Xm − θ =1

Q′(θ)

[∂

∂θlXm,θ(Xm)

],

o que pela formula (3.8) do teorema 23 nos garante que a variancia de Xm coincide como limite inferior de Cramer–Rao, estabelecendo o teorema.

Observacao 31. A informacao de Fisher e fundamental para a descricao do comporta-mento assimptotico dos estimadores de maxima verosimilhanca; veja-se o teorema 25 aseguir.



3.5 Consistencia e Normalidade Assimptotica dos EMV

Os estimadores de maxima verosimilhanca possuem propriedades notaveis; sao consis-tentes e assimptoticamente normais. Comecamos com a versao do resultado fundamentalpara um parametro unidimensional.

A demonstracao da consistencia requer desenvolvimentos – tecnicamente elaborados– que nao faremos nesta edicao.

Observacao 32. A partir dos estimadores de maxima verosimilhanca, de um dado pa-rametro, e possıvel construir estimadores assimptoticamente normais de uma funcaoregular do parametro. Para tal, um resultado essencial e o metodo-δ que pode serestudado no exercıcio 50.

Teorema 25 (Consistencia e Normalidade Assimptotica). Suponhamos verificadasas seguintes condicoes.

1. Para k = 1, 2, 3 as derivadas parciais

∂k log fθX(x)

∂θk,

existem para quaisquer θ ∈ Θ e x ∈ R,

2. Para k = 1, 2, 3 existem funcoes integraveis gk tais que∣∣∣∣∂k log fθX(x)

∂θk

∣∣∣∣ ≤ gk(x) e supθ∈Θ

∫R

g3(x)fθX(x)dx < +∞ .

3. A quantidade I(θ,X), denominada a informacao de Fisher de θ dada por

I(θ,X) = I(θ) :=

∫R

[∂ log fθX(x)

∂θ

]2

fθX(x)dx , (3.12)

e nao negativa, finita e nao nula.

Entao, θm = θm(X1, X2, . . . , Xm) o EMV do parametro θ e consistente, isto e:

limm→+∞

θm =Prob. θ

e e assimpoticamente normal, isto e, para uma v.a. W _ N(0, I(θ)−1),

limm→+∞

√m(θm − θ

)=Distrib. W .

Demonstracao. Vamos seguir as linhas gerais da demonstracao da normalidade assimp-totica para o caso do parametro ser unidimensional em [IM90, p. 92]. Consideremos a


3 Capıtulo 3

variavel aleatoria,

Um(θ) =m∑j=1

∂

∂θlog(fθX(Xj)

).

Seja θm o EMV do parametro θ e seja θ0 o verdadeiro valor do parametro. Seja, dadoque Um(θm)(ω) para cada ω ∈ Ω fixo, o desenvolvimento em serie de Taylor de segundaordem,

0 = Um(θ0)(ω) +(θm − θ0

) d

dθUm(θ0)(ω) +

1

2

(θm − θ0

)2 d2

dθ2Um(θ?)(ω) =

= Um(θ0)(ω) +(θm − θ0

)[ ddθUm(θ0)(ω) +

1

2

(θm − θ0

) d2

dθ2Um(θ?)(ω)

],

de onde resulta que:(θm − θ0

)=

−Um(θ0)(ω)[ddθUm(θ0)(ω) + 1

2

(θm − θ0

)d2

dθ2Um(θ?)(ω)] .

em que θm = θm(ω) e em que θ? ∈[∣∣∣θ0, θm

∣∣∣], o envolucro convexo de θ0, θm e claro,

θ? = θ?(ω). Tem-se entao dado que I(θ) definida em (3.12) e nao nula,

√m(θm − θ0

)=Um(θ0)(ω)√

mI(θ)

−1[ddθUm(θ0)(ω)+ 1

2(θm−θ0) d2

dθ2Um(θ?)(ω)

mI(θ)

] , (3.13)

pelo que finalmente se tem,

√m(θm − θ0

)=Um(θ0)(ω)√

mI(θ)

[−1

mI(θ)

dUm(θ0)(ω)

dθ+

−1

2mI(θ)

(θm − θ0

) d2

dθ2Um(θ?)(ω)

]−1

.

Note-se que em virtude da hipotese 2 do teorema,

∣∣∣∣ 1

2mI(θ)

(θm − θ0

) d2

dθ2Um(θ?)(ω)

∣∣∣∣ ≤∣∣∣θm − θ0

∣∣∣2I(θ)

1

m

m∑j=1

g3(Xj) ,

mas como pela hipotese referida,

supθ∈Θ

Eθ [g3(X)] = supθ∈Θ

∫R

g3(x)fθX(x)dx < +∞ ,

vem pela lei dos grandes numeros que quase certamente

limm→+∞

1

m

m∑j=1

g3(Xj) ∈ R ,



pelo que, como se tem limm→+∞ θm =Prob. θ, tambem,

limm→+∞

1

2mI(θ)

(θm − θ0

) d2

dθ2Um(θ?) =Prob. 0 .

Note-se ainda que, como se tem

1

m

dUm(θ0)(ω)

dθ=

1

m

m∑j=1

∂2

∂θ2log(fθX(Xj)

),

pela lei dos grandes numeros vem que quase certamente,

limm→+∞

1

mI(θ)

dUm(θ0)

dθ=

1

I(θ)lim

m→+∞

1

m

m∑j=1

∂2

∂θ2log(fθX(Xj)

)=

=1

I(θ)Eθ

[∂2

∂θ2log(fθX(X)

)]E =

=1

I(θ)

∫R

[∂ log fθX(x)

∂θ

]2

fθX(x)dx =1

I(θ)I(θ) = 1

Para concluir temos apenas que aplicar o teorema do limite central, por exemplo naversao apresentada no primeiro capıtulo no teorema 5. Com efeito, observe-se primeira-mente que:

Um(θ0)(ω)√mI(θ)

=1√

mI(θ)

m∑j=1

∂

∂θlog(fθX(Xj)

).

Seguidamente tem-se que,

EθE

[∂

∂θlog fθX(X)

]=

∫R

(∂

∂θlog fθX(x)

)fθX(x)dx =

=

[(fθX(x)

)2]+∞

−∞−∫R

fθX(x)

(∂

∂θlog fθX(x)

)dx =

= −∫R

fθX(x)

(∂

∂θlog fθX(x)

)dx ,

donde resulta que

Eθ

[∂

∂θlog fθX(X)

]= 0 .

Em terceiro lugar tem-se que

VθE

[∂

∂θlog(fθX(X)

)]= Eθ

[(∂

∂θlog fθX(X)

)2]

=

=

∫R

[∂ log fθX(x)

∂θ

]2

fθX(x)dx = I(θ) .


3 Capıtulo 3

Em consequencia, e uma vez que as variaveis aleatorias ∂∂θ log

(fθX(Xj)

)para j ≥ 1 sao

independentes podemos aplicar o teorema do limite central tal como enunciado acimano teorema 5. Assim tem-se que se Z _ N(0, 1),

limm→+∞

1√m√I(θ)

m∑j=1

∂

∂θlog(fθX(Xj)

)=Distrib. Z ,

e consequentemente, se W _ N(0, I(θ)−1)

limm→+∞

1√mI(θ)

m∑j=1

∂

∂θlog(fθX(Xj)

)=Distrib. W ,

pelo que pela formula (3.13) se tem a conclusao do teorema, uma vez que o factor dolado direito da formula converge quase certamente – e por isso tambem em probabilidade– para 1 (veja-se a proposicao 5).

3.6 Estatısticas Suficientes

Uma estatıstica que contem toda a informacao que a amostra nos traz sobre o modelo edenominada estatıstica suficiente. Apresentamos seguidamente a definicao sob forma deuma condicao de factorizacao da verosimilhanca. A definicao usual faz-se por meio dasprobabilidades condicionais e o criterio que apresentamos seguidamente como definicaofoi obtido por Halmos e Savage em 1949 (veja-se [HS49]).

Definicao 27 (Estatıstica Suficiente). Seja X um modelo e X =(X1, X2, . . . , Xm, . . . ) uma amostra desse modelo. Com as notacoes da de-finicao 19, a estatıstica ψX = (ψN (X1, . . . , Xm))m≥1 e suficiente se e sse param ≥ 1 a verosimilhanca da amostra Lθ

Xm(x1, x2, . . . xm) se factoriza sob a forma:

LθXm(x1, x2, . . . xm) = G(θ, ψN (x1, . . . , xm)H(x1, . . . , xm) , (3.14)

em que G e H sao funcoes apenas das variaveis indicadas.

Observacao 33. Resulta imediatamente da definicao que se ψX for uma estatıstica sufici-ente e se ϕ for bijectiva e regular entao a estatıstica ϕ ψX = (ϕ ψN (X1, . . . , Xm))m≥1

tambem e uma estatıstica suficiente.

Mais uma vez, no caso do modelo exponencial reduzido, o valor medio amostral euma estatıstica sufciciente.

Proposicao 21 (Modelo exponencial: estatıstica suficiente). Seja X uma variavelaleatoria com densidade de tipo exponencial reduzido. Entao a media amostral euma estatıstica suficente para esse modelo.



Demonstracao. Com as notacoes da proposicao 24 e da correspondente demonstracaoseja a densidade de X dada por:

∀x ∈ R fθX(x) = exp (xQ(θ) + r1(θ) + s1(x)) ,

de onde resulta que:

LθXm(x1, x2, . . . xm) =m∏j=1

fθX(xj) = exp

Q(θ)

m∑j=1

xj

+mr1(θ) +m∑j=1

s1(xj)

.

Considerando

G

θ, m∑j=1

xj

= exp

Q(θ)

m∑j=1

xj

+mr1(θ)

,

e ainda

H(x1, . . . , xm) = exp

m∑j=1

s1(xj)

,

tem-se que a verosimilhanca do modelo exponencial reduzido verifica bem a condicaoexpressa pela formula (3.14) da definicao 27.

O teorema seguinte mostra a importancia das estatısticas suficientes.

Teorema 26 (Rao-Blackwell-Kolmogorov). Se existir um estimador optimo segundoas definicoes 20 e 21 – para uma qualquer funcao do parametro desconhecido – esseestimador e, necessariamente, funcao da estatıstica suficiente.

3.7 Testes de Hipoteses

Em estudos anteriores – veja-se por exemplo as apresentacoes 24 e 25 das aulas da uni-dade curricular Probabilidades e Estatıstica E 2 ou as notas de licoes [Mig05] – e, geral-mente, assim descrita a metodologia dos testes de hipoteses para modelos parametricos:

• Identificar a hipotese nula que pretendemos rejeitar se os dados nos derem, paratal, evidencia por nos considerada como significativa;

• Escolher um estimador para o parametro;

• Determinar uma estatıstica de teste que meca a discrepancia entre o estimadorescolhido e um possıvel valor para o parametro desconhecido;

2http://ferrari.dmat.fct.unl.pt/personal/mle/DocPE-E/2012-2013/PE E-2012-2013.html


3 Capıtulo 3

• Para um dado nıvel de significancia, determinar a regiao do espaco amostral –denominada a regiao crıtica – tal que se a amostra observada provier dessa regiaoconsideramos haver evidencia suficiente para rejeitar a hipotese nula.

Vamos desenvolver e esclarecer rigorosamente – no que vai seguir- se – esta metodologiaque acabamos de descrever; tal sera feito num contexto bastante geral que nos sera utilna avaliacao dos resultados de ajustamento de modelos estatısticos tais como os modeloslineares generalizados.

As ideias fundamentais sobre a metodologia dos testes de hipoteses que apresentamossao bem conhecidas desde os trabalhos de Ronald Fisher. Para estear a apresentacoesdos testes de hipoteses que fazemos seguidamente, veja-se por exemplo [Wil01, p. 222],ou [IM90, p. 204] ou [CB08, p. 373].

A ideia fundamental num teste de hipotese e que, tal como na moderna teoria doconhecimento cientıfico desenvolvida por Karl Popper 3 – veja-se [Pop02, p. 18] – emEstatıstica, procura-se rejeitar – e nao, aceitar – a hipotese de base; define-se entao aHipotese Nula, que rejeitamos, se existir – nos dados observados – evidencia suficientepara o podermos fazer controlando os riscos associados aos erros da decisao de rejeitaressa hipotese nula 4. No teste de hipoteses, a hipotese nula e comparada a HipoteseAlternativa que visa complementar, relativamente a hipotese nula, as escolhas possıveisentre os diferentes estados do mundo.

Definicao 28 (Testes de Hipoteses – I). Seja X _ G(θ) um modelo em que θ ∈Θ ⊆ Rd. Seja X = (X1, X2, . . . Xm, . . . ) uma amostra generica desse modelo epara cada m ≥ 1 seja Xm = (X1, X2, . . . Xm) o segmento inicial de comprimentom da amostra. Seja x = (x1, x2, . . . , xm, . . . ) uma realizacao generica da amostrae xm = (x1, x2, . . . , xm) o segmento inicial de comprimento m dessa realizacao daamostra. Sejam Θ0,Θ1 ⊂ Θ e tais que Θ0 ∩ Θ1 = ∅. A Hipotese Nula H0 e aHipotese Alternativa HA sao definidas por:

H0 : θ ∈ Θ0 HA : θ ∈ Θ1 .

Um Teste de Hipoteses consiste num procedimento – baseado nos dados da rea-lizacao da amostra – para decidir sobre uma eventual rejeicao da hipotese nula.

A aplicacao de um qualquer procedimento Estatıstico comeca por uma analise preli-minar as caracterısticas dos dados. So apos esta analise e aconselhavel a escolha do mo-delo que vai condicionar os procedimentos estatısticos a adoptar. No exercıcio seguinte,semelhante a outros estudados nas unidades curriculares introdutorias de Probabilidadese Estatısica na universidade e que adaptamos a partir de um dos exercıcios das notas delicoes em [Mig05] ilustra-se a metodologia a seguir para efectuar um teste de hipoteses

3...it must be possible for an empirical scientific system to be refuted by experience.4Esclarece Dinis Pestana (ver [PV08, p. 559]): Uma ideia, mesmo que pareca muito boa, deve ser

pelo menos transitoriamente negada, e so se a evidencia factual nos levar a rejeitar essa negacao e quedeve ser acolhida como promissora.



num modelo simples. O leitor e convidado a resolve-lo para rememorar conceitos jaestudados.

Exercıcio 38 (Testes de Hipoteses – Exemplo practico inicial de revisao). Suponhamos que se ob-servaram os seguintes valores numa experiencia aleatoria. Considere que, apos analise preliminar, seconsiderou serem estes dados, uma realizacao do segmento inicial de uma amostra de X _ N(µ, σ2) emque ambos µ e σ sao desconhecidos.

x1 x2 x3 x4 x5 x6 x7 x8787 783 777 783 781 785 778 782

1. Considere os estimadores da media e da variancia dados por:

XN =1

N

N∑i=i

Xi e S2N =

1

N − 1

N∑i=i

(Xi −XN

)2,

e verifique que:

x8 =1

8

8∑i=i

xi = 782 e s28 =

1

7

8∑i=i

(xi − x8)2 = 3.33809 .

2. Pretende-se testar a hipotese da media do modelo µ, ser superior a 780 com um nıvel de signi-ficancia de 10%. Comente a seguinte escolha para o teste a realizar:

H0 : µ ≤ 780 H1 : µ > 780 .

3. Considerando a estatıstica pivot dada por

TN :=√NXN − µSN

_ tN−1 ,

em que tN−1 e a distribuicao do t de Student com N−1 graus de liberdade, mostre que debaixo dahipotese nula e considerando os dados se tem que t8 = 1.69464. Represente graficamente a regiaocrıtica correspondente ao nıvel de significancia de 10% para a estatıstica TN , verifique o valorseguinte para o quantil adequado qt7:0.1 = 1.41 e conclua sobre a eventual rejeicao da hipotesenula.

4. Mostre que: valor-p=0.067 e comente este resultado.

Uma proporcao assinalavel de testes de hipoteses aplicados na pratica resultam doprocedimento descrito seguidamente. Este procedimento – construıdo considerando vero-similhancas – justifica-se com o mesmo argumento que justifica os estimadores da maximaverosimilhanca, a saber, para um dado conjunto de dados observados, o parametro dadistribuicao no modelo mais adequado deve ser o que maximiza a densidade conjuntado segmento inicial da amostra.


3 Capıtulo 3

Definicao 29 (Testes de Hipoteses – II: Teste da Razao de Verosimilhancas). Comas notacoes das definicoes 23 e 28, a Razao de Verosimilhancas associada aosdados resultantes da realizacao x da amostra X e:

R(xm) :=supθ∈Θ0

LθXm

(xm)

supθ∈Θ1LθXm

(xm). (3.15)

O Teste de Hipoteses da Razao de Verosimilhancas consiste em rejeitar H0

se:R(xm) ≤ κ , (3.16)

para κ constante a determinar.

Observacao 34. Dado que o teste visa rejeitar a hipotese nula – formulada na condicaoθ ∈ Θ0 – quanto menor for R(xm), maior sera a evidencia carreada pelos dados de queo verdadeiro valor do parametro pertence a Θ1, levando-nos, por isso, a rejeitar a hipotesenula. Note-se que a formula 3.16 define no espaco amostral da estatıstica R(Xm) umaregiao denominada regiao crıtica – neste caso Rc := xm : R(xm) ∈]−∞, κ] – que ea regiao de rejeicao do teste de hipoteses, isto e, sempre que com os dados observadosx se tenha xm ∈ Rc temos evidencia suficiente para rejeitar a hipotese nula.

Observacao 35. Por vezes considera-se que a hipotese alternativa se define com Θ1 =Θ \Θ0. Nesse caso, dado que o teste fica descrito apenas por Θ0 e que,

supθ∈Θ1

LθXm(xm) ≤ supθ∈Θ

LθXm(xm)

pode-se definir uma outra razao de verosimilhancas R# tal que:

R#(xm) :=supθ∈Θ0

LθXm

(xm)

supθ∈Θ LθXm

(xm)≤

supθ∈Θ0LθXm

(xm)

supθ∈Θ1LθXm

(xm)= R(xm) .

e sem perda de generalidade usar R# em vez de R.

Para poder efectuar o procedimento descrito na definicao 29 e necessario dar o valornumerico adequado a κ. Tal e feito recorrendo a um dos dois tipos de erro que podemoscometer quando efectuamos o teste. O erro de tipo I descrito e a seguir.

Definicao 30 (Testes de Hipoteses – III: Erro de Tipo I). Com as notacoes dadefinicao 28, o Erro de Tipo I consiste em rejeitar H0 quando H0 e verdadeira.

Observacao 36. Para determinar um valor para κ considerado adequado fixa-se um valoraceitavel para o erro de tipo I. Tradicionalmente consideram-se tres valores que descre-vem o nıvel de significancia com que os dados permitirao, eventualmente, rejeitar ahipotese nula: 5% (significante), 1% (muito significante) e 0.1% (extremamentesignificante).



Observacao 37 (Probabilidade de Erro de tipo I). Seja Rc a regiao crıtica do teste dehipoteses. Se se verificar que θ ∈ Θ0 cometeremos um erro de tipo I se ocorrer quexm ∈ Rc. A probabilidade de cometer um erro de tipo I, dado que,

Xm ∈ Rc = ω ∈ Ω : Xm(ω) = xm ∈ Rc ,

e, por isso,Pθ [Xm ∈ Rc] . (3.17)

Definicao 31 (Testes de Hipoteses – IV: Nıvel de significancia do teste de hipoteses).Com as notacoes das definicoes 28 e 29, fixado o Nıvel de Significancia α, o valoradequado de κ – para esse nıvel de significancia – e κα tal que se verifique:

α = supθ∈Θ0

Pθ [R(Xm) ≤ κα] ,

ou seja, κα e o valor limiar mınimo de κ para rejeitar a hipotese nula consistentecom a hipotese nula ser verdadeira.

Observacao 38. A notacao Pθ indica que calculamos a probabilidade usando a lei deprobabilidade do modelo em que o parametro vale θ. A determinacao efectiva de κα faz-se, geralmente, recorrendo a distribuicao da estatıstica R(Xm), se esta for conhecida.Caso contrario, o teorema de Wilks– ver o teorema 27 adiante – da, sob condicoes muitogerais, a distribuicao assimptotica das razoes de verosimilhancas.

O conceito de valor-p definido a seguir e de grande utilidade; e a probabilidade deobter uma valor da estatıstica pelo menos tao extremo como o que se obteve com osdados observados supondo verdadeira a hipotese nula.

Definicao 32 (Testes de Hipoteses – V: valor-p (p-value)). Com as notacoes dasdefinicoes 28 e 29, o valor-p e definido por

valor-p = valor-p (xm) = supθ∈Θ0

Pθ [R(Xm) ≤ R(xm)] ,

Rejeita-se a hipotese nula se

valor-p (xm) ≤ α ,

ou seja, um valor-p pequeno, relativamente a α, deve ser tomado como evidenciacontra a hipotese nula.

Observacao 39. O valor-p e o valor da probabilidade – calculada admitindo que a hipotesenula H0 e verdadeira – de se observarem valores da estatıstica de teste – neste caso arazao de verosimilhancas – tanto ou mais desfavoraveis a hipotese nula H0 do que foramos dados efectivamente observados. O valor-p e, ainda, o valor maximo da probabilidadede rejeitar a hipotese nula, consistente com a hipotese nula ser verdadeira, sendo que osdados observados contra a hipotese nula ocorrem aleatoriamente.


3 Capıtulo 3

Observacao 40. Note-se que o sentido das desigualdades nas definicoes 29, 31 e 32 de-pende da escolha feita na formula (3.15) de considerar o termo relativo a Θ0 no nu-merador. Alguns autores fazem a escolha oposta – Θ0 no denominador da razao deverosimilhancas – o que obriga a que as desigualdades subsequentes devam ser, tambem,as opostas. Sublinhe-se, de novo que tanto o valor κα como o valor-p sao determinadosadmitindo que a hipotese nula e verdadeira.

Na decisao a tomar sobre a eventual rejeicao da hipotese nula pode cometer-se umoutro erro, para alem do ja referido erro de tipo I.

Definicao 33 (Testes de Hipoteses – VI: Erro de Tipo II). Com as notacoes dadefinicao 28, o Erro de Tipo II consiste em nao rejeitar H0 quando H0 e falsa.

Observacao 41 (Probabilidade de Erro de tipo II). Seja Rc a regiao crıtica do teste dehipoteses. Se se verificar que θ ∈ Θ1 cometeremos um erro de tipo I se ocorrer quexm ∈ (Rc)

c. A probabilidade de cometer um erro de tipo I e, por isso,

Pθ [Xm ∈ (Rc)c] = 1−Pθ [Xm ∈ Rc] . (3.18)

Para o controle dos erros de tipo I e II e util definir a funcao potencia do teste.

Definicao 34 (Testes de Hipoteses – VII: Funcao Potencia). Com as notacoes dadefinicao 28, a Funcao Potencia do teste de hipoteses definida sobre Θ e:

π(θ) = Pθ [ rejeitar H0] = Pθ [R(Xm) ≤ κα] = Pθ [Xm ∈ Rc] ,

pretendendo-se que:

• π(θ) seja pequena para θ ∈ Θ0 (erro de tipo I com pequena probabilidade);

• π(θ) seja grande para θ ∈ Θ1 (erro de tipo II com pequena probabilidade);

sendo que a probabilidade de erro de tipo II e: 1− π(θ) para θ ∈ Θ1.

Observacao 42. Dado ser impossıvel ter, simultaneamente, as probabilidades de erro detipo I e II arbitrariamente pequenas, comeca-se por controlar a probabilidade de errode tipo I procurando-se, depois, que a probabilidade de erro de tipo II seja tao pequenaquanto possıvel. De acordo com Casela e Berger (ver [CB08, p. 383]), qualitativamenteum bom teste tem uma funcao potencia proxima de 1 para quase todos os θ ∈ Θ1 eproxima de 0 para quase todos os θ ∈ Θ0.

Caso nao seja possıvel determinar exactamente a lei da estatıstica R(Xm) – que eessencial para a determinacao da regiao de rejeicao da hipotese nula – pode geralmenteusar-se o teorema de Wilks, que apresentamos a seguir, desde que haja um numerosuficiente de dados observados no segmento inicial da realizacao da amostra.



Teorema 27 (Teorema de Wilks (ver o artigo original [Wil38])). Com as notacoesdas definicoes 28, 29 e 31, suponha-se adicionalmente que Θ0 e um subconjunto deRd com dimensao r0 – isto e, em que o numero de parametros reais livres e r0 – eque Θ1 e um outro subconjunto de Rd com dimensao r1 > r0. Entao supondo H0

verdadeira, tem-se que:

limm→+∞

−2 logR(Xm) =Distrib. χ2r1−r0

Demonstracao. Ver por exemplo [MM12, p. 408] para a demonstracao num caso simples,[IM90, p. 206] para o caso da hipotese nula simples e [PH94] para demonstracoes emcasos mais gerais.

Observacao 43. Tal como foi referido na observacao 38, torna-se assim possıvel desde queo segmento inicial dos dados observados seja suficientemente grande a determinacao dasquantidades de interesse definidas pela razao de verosimilhancas. Nas aplicacoes assume-se que as dimensoes dos conjuntos, referidas no teorema, coincidem com o numero deparametros independentes de cada uma das hipoteses.

Vamos estudar um exemplo classico de teste de hipoteses na perspectiva dum testede razao de verosimilhancas (veja-se [MM12, p. 404] ou [IM90, p. 204]). Testamos ahipotese nula µ = µ0 contra a hipotese alternativa µ 6= µ0, num modelo normal commedia e variancia desconhecidas; trata-se de uma hipotese simples para a media. Sejamas notacoes usuais: X = (X1, X2, . . . Xm, . . . ) uma amostra deX,Xm = (X1, X2, . . . Xm)um segmento inicial desta amostra, x = (x1, x2, . . . xm, . . . ) uma realizacao generica daamostra e xm = (x1, x2, . . . xm) um segmento inicial desta realizacao. Sabemos que asucessao das medias amostrais e das variancias amostrais, dadas para m ≥ 1 por,

µm =1

m

m∑j=1

Xj e σ2m =

1

m

m∑j=1

(Xj − µm)2 (3.19)

sao os EMV de µ e σ2 (ver exemplo 12).

Exemplo 14 (Modelo Normal: media e variancia desconhecidas, razao de verosimi-lhancas para a hipotese simples para a media). Seja X _ N(µ, σ2) com µ e σ2

desconhecidos. Sendo:H0 : µ = µ0 e HA : µ 6= µ0 ,

tem-se que:

R(xm) =

[∑mj=1 (xj − µm)2∑mj=1 (xj − µ0)2

]m2

.

Desenvolvimento: A densidade do modelo e dada por:

fµ,σ2

X (X) =1√

2πσ2exp

(−(x− µ)2

2σ2

).


3 Capıtulo 3

Assim, a verosimilhanca para o segmento inicial da realizacao da amostra xm e dadapor,

Lµ,σ2

Xm(xm) =

(1

2πσ2

)m2

exp

− m∑j=1

(xj − µ)2

2σ2

.

Sob a hipotese H0 : µ = µ0, o EMV de σ2 e,

σ20,m =

1

m

m∑j=1

(Xj − µ0)2 .

Assim, sob a hipotese H0 tem-se fazendo as substituicoes evidentes, que:

sup(µ,σ2)∈Θ0

Lµ,σ2

Xm(xm) = L

µ0,σ20,m

Xm(xm) =

(1

2πσ20,m

)m2

exp

− m∑j=1

(xj − µ0)2

2 σ20,m

=

=

[m

2π∑m

j=1 (xj − µ0)2

]m2

e−m2 .

Da mesma forma, tem-se que sob a hipotese HA : µ 6= µ0 se tem – usando os EMV paraµ e σ sem restricoes referidos nas formulas (3.19) – que,

sup(µ,σ2)∈Θ\Θ0

Lµ,σ2

Xm(xm) = L

µm,σ2m

Xm(xm) =

(1

2πσ2m

)m2

exp

− m∑j=1

(xj − µm)2

2 σ2m

=

=

[m

2π∑m

j=1 (xj − µm)2

]m2

e−m2 .

Em consequencia tem-se que:

R(xm) =sup(µ,σ2)∈Θ0

Lµ,σ2

Xm(xm)

sup(µ,σ2)∈Θ\Θ0Lµ,σ2

Xm(xm)

=

[∑mj=1 (xj − µm)2∑mj=1 (xj − µ0)2

]m2

, (3.20)

tal como anunciado. 5



Exemplo 15 (Modelo Normal: media e variancia desconhecidas, teste de hipotesesimples para a media, lei da razao de verosimilhancas). Com as notacoes implıcitasno exemplo 14 tem-se que

R(Xm) =

1

1 + m(µm−µ0)2∑mj=1(Xj−µm)2

m2

=

[1

1 + T 2

m−1

]m2

, (3.21)

em que, sob a hipotese H0,

T =

√m− 1(µm − µ0)

σm_ tm−1 .

Assim, dado que φm(x) = [1/(1+(x2/(m−1)))]m/2 e bijectiva e com inversa explıcitapodemos considerar conhecida a distribuicao de R(Xm).

Desenvolvimento: Com efeito, dado que se tem a formula (3.20), a substituicao

m∑j=1

(xj − µ0)2 =

m∑j=1

(xj − µm)2 +m(µm − µ0)2 ,

da imediatamente a parte a esquerda da formula (3.21). Por definicao, (ver [IM90, p.40] ou [MM12, p. 103]), se Z1 e Z2 sao variaveis aleatorias independentes tais queZ1 _ N(0, 1) e Z2 _ χ2

m entao, √mZ1√Z2

_ tm .

E claro que sendo a funcao φ com o grafico dado na figura seguinte tem-se que,

Figura 3.2: Funcao φ10.

-4 -2 2 4

0.2

0.4

0.6

0.8

1.0

P [R(Xm) ≤ x] = P[φ(T )m/2 ≤ x

]= P

[|T | ≥ φ−1(x2/m)

],

sendo pois facil determinar a regiao crıtica de um teste de hipoteses com um nıvel designificancia α para a hipotese nula do exemplo 14 acima. 5


3 Capıtulo 3

Exemplo 16 (Modelo Normal: media e variancia desconhecidas, teste de hipotesesimples para a media, aplicacao do teorema de Wilks). Em resultado do teorema 27,tem-se que, para m suficientemente grande,

−2 logR(Xm) =Distrib. χ21 ,

pelo que para grandes amostras se pode considerar conhecida a distribuicao deR(Xm) com uma justificacao distinta da que se indicou no exemplo 15.

Observacao 44. Muitos outros testes de hipoteses podem ser desenhados por meio dasrazoes de verosimilhancas. Assim, no caso do modelo normal veja-se [Pes98, pp. 155,156, 158]; o teste de ajustamento do χ2 em [Pes98, p. 168]; o teste de independencia doχ2 em [Pes98, p. 176].

Observacao 45. As funcoes geradoras de momentos, estudadas no capıtulo anterior, eas funcoes geradoras de probabilidade, que lhes estao naturalmente associadas, podemser usadas para construir estimadores consistentes de contraste mınimo (veja-se porexemplo [Esq05] e [Esq09]). O contraste, para estes estimadores, e definido com a somados quadrados dos desvios entre os valores das funcoes geradoras de probabilidade numconjunto de pontos que se escolhem consoante as distribuicoes em presenca.

3.8 Exercıcios

Nesta seccao propomos exercıcios sobre as ideias fundamentais que estudamos no forma-lismo da Estatıstica. As notas a margem assinalam a dificuldade dos exercıcios, graduadade [1] - aplicacoes imediatas dos conceitos introduzidos - ate [3] - exercıcios que podemrequerer domınio de conceitos estudados noutras unidades curriculares.

Exercıcio 39 (Estatıstica da razao de Verosimilhancas). Mostre que a variavel aleatoria R(Xm) da [1]definicao 31 e uma estatıstica.

Exercıcio 40 (Propriedade essencial da informacao de Fisher). Demonstre a proposicao 20. [1]

Exercıcio 41 (Equacoes de verosimilhanca). Neste exercıcio esclarecem-se os resultados sobre a ob- [2]tencao dos estimadores da maxima verosimilhanca (ver [ZC04, p. 215, 463]).

1. Demonstre o lema de Fermat; seja f : Θ ⊆ R 7→ R uma funcao derivavel admitindo um extremo– maximo ou mınimo – num ponto interior de θ0 ∈ Θ. Mostre que entao f ′(θ0) = 0.

2. Demonstre a proposicao 16.

Exercıcio 42 (Estimador da Maxima Verosimilhanca: Modelo de Poisson). Seja o modelo X _ P(θ)[1]isto e, uma variavel aleaoria com distribuicao de Poisson de parametro θ. Considere a parametrizacaoda funcao de probabilidade de X dada por:

∀k ∈ N fθX(k) = e−θθk

k!.



1. Mostre que a log-verosimilhanca do modelo verifica, para m ≥ 1,

lXm,θ(k1, k2, . . . km) = −mθ +m

(1

m

m∑j=1

kj

)log(θ)−

m∑j=1

log(kj !) .

2. Mostre que o estimador da maxima verosimilhanca do parametro θ e dado por:

∀m ≥ 1 θm =1

m

m∑j=1

kj .

3. Que propriedades notaveis tem este estimador?

Exercıcio 43 (Estimador da Maxima Verosimilhanca: Modelo de Bernoulli). Seja o modelo X _ B(π) [1]isto e, uma variavel aleaoria com distribuicao de Bernoulli de parametro π. Considere a parametrizacaoda funcao de probabilidade de X dada por:

∀k ∈ 0, 1 fπX(k) = πk(1− π)(1−k) .


lXm,θ(k1, k2, . . . km) = m

[(1

m

m∑j=1

kj

)log(π) +

(1−

(1

m

m∑j=1

kj

))log(1− π)

].

2. Mostre que o estimador da maxima verosimilhanca do parametro π e dado por:

∀m ≥ 1 πm =1

m

m∑j=1

kj .


Exercıcio 44 (Estimador da Maxima Verosimilhanca: Modelo Gama). Seja o modelo X _ Γ(θ, λ) [1]isto e, uma variavel aleaoria com distribuicao gama de parametros θ e λ sendo que este parametro econhecido. Considere a parametrizacao da densidade de X dada por:

∀x ∈ [0,+∞[ fθX(x) =θλ

Γ(λ)xλ−1e−θx .


lXm,θ(k1, k2, . . . km) = λm log(θ)−m log Γ(λ) + (λ− 1)

m∑j=1

log(xj)− θm∑j=1

xj .

2. Mostre que o estimador da maxima verosimilhanca do parametro π e dado por:

∀m ≥ 1 θm =λ

1m

∑mj=1 xj

.


Exercıcio 45. Mostre que se um estimador tem variancia mınima no sentido do limite inferior de [1]Cramer–Rao entao esse estimador e uma estatıstica suficiente.


3 Capıtulo 3

Exercıcio 46 (Densidade de tipo exponencial: estimador eficiente). Seja X uma variavel aleatoria com[1]densidade de tipo exponencial, ou seja, tal que:

fθ,φX (x) = exp

[xθ − b(θ)a(φ)

+ c(x, φ)

],

em que θ e φ sao parametros e a, b e c sao funcoes regulares. Seja X = (X1, X2, . . . , Xm, . . . ) umaamostra de X e Xm a media amostral de ordem m:

Xm =1

m

m∑j=1

Xj .

1. Considerando a formula (3.3) na proposicao 19, mostre que:

E[Xm

]= E [X] = b′(θ) .

2. Mostre que se (E[Xm

])m≥1 for um estimador centrado – nao enviesado – de θ, entao:

Xm − θ =a(φ)

m

∂

∂θlXm,θ(Xm) ,

ou seja, (E[Xm

])m≥1 e um estimador de variancia mınima – de θ – no sentido de Cramer–Rao.

Exercıcio 47 (Limite inferior de Cramer–Rao para funcoes enviesadas do parametro). Seja X _ G(θ) [2]um modelo e ψXτ = (ψτm(Xm))m≥1 um estimador de uma funcao τ do parametro θ, com vies v, isto e,tal que:

∀m ≥ 1 Eθ [ψτm(Xm)] = τ(θ) + v(θ) .

Tem-se entao que:

Vθ [ψτm(Xm)] ≥ (τ ′(θ) + v′(θ))2

I(θ,Xm)(3.22)

sendo que a igualdade ocorre se e so se:

ψτm(Xm)− (τ(θ) + v(θ)) =

(∂

∂θlXm,θ(Xm)

)×H(θ) (3.23)

em que H e uma funcao so de θ. (Veja-se [IM90, p. 61–62]).

Exercıcio 48 (Modelo de Poisson: hipotese simples). Seja X _ P(λ) uma variavel com distribuicao de [1]Poison de parametro λ ∈ R?+ desconhecido e em que a parametrizacao da funcao de probabilidade fλX edada por:

∀k ∈ N fλX(k) = e−λλk

k!.

Seja o teste de hipoteses dado por:

H0 : λ = λ0 e HA : λ 6= λ0 ,

isto e, com Θ0 = λ0 e Θ1 = R?+ \ λ0.

1. Mostre com a notacoes usuais, e particular com km = (k1, k2, . . . , km) segmento inicial de umarealizacao observada da amostra Xm = (X1, . . . , Xm, . . . ), que o EMV do parametro λ e dadopor:

λm :=1

m

m∑j=1

kj .



2. Mostre que:

supλ∈Θ0

LλXm

(km) = Lλ0Xm

(km) = e−mλ0λmλm0∏mj=1 kj

e supλ∈Θ\Θ0

LλXm

(km) = e−mλmλmλmm∏mj=1 kj

.

3. Mostre que se for

Xm =1

m

m∑j=1

Xj ,

entao tem-se que:

−2 log (R(Xm) =) = 2m

[(λ0 −Xm) +Xm log

(Xm

λ0

)]_ χ2

1 .

4. Mostre que se justiifica rejeitar a hipotese nula com o nıvel de significancia α se,

2m

[(λ0 − λm) + λm log

(λmλ0

)]≥ quantilα

(χ2

1

).

Exercıcio 49 (Modelo normal: teste de hipotese composta). (Veja-se o exemplo 14 e [MM12, p. 406].)Seja o modelo X _ N(µ, σ2) em que ambos µ e σ sao desconhecidos e se tem (µ, σ2) ∈ Θ = R ×R?+. [1]Seja o teste de hipoteses definido por:

H0 : (µ, σ2) = (µ, σ20) e HA : (µ, σ2) 6= (µ, σ2

0) ,

isto e, com Θ0 = R× σ20 e Θ1 = R× (R?+ \ σ2

0).

1. Mostre que, com as notacoes usuais implıcitas na formula (3.19),

sup(µ,σ2)∈Θ0

Lµ,σ2

Xm(xm) = L

µm,σ20

Xm(xm) e sup

(µ,σ2)∈Θ1

Lµ,σ2

Xm(xm) = L

µm,σ2m

Xm(xm) .

2. Mostre que com

Qm−1 =1

σ20

m∑j=1

(Xj −Xm)2 _ χ2m−1 ,

se tem,

R(Xm) =sup(µ,σ2)∈Θ0

Lµ,σ2

Xm(Xm)

sup(µ,σ2)∈Θ1Lµ,σ2

Xm(Xm)

=

(Qm−1

M

)m2

exp

(−Qm−1 −m

2

)3. Determine, com duas justificacoes distintas, regioes crıticas para um teste da razao de verosimi-

lhancas com nıvel de significancia α para a hipotese nula descrita acima.

Exercıcio 50 (Metodo Delta). (ver [IM90, p. 91] e [TdO82]) Considere um modelo X _ G(θ) com θ ∈ [2]Θ ⊆ Rd cuja distribuicao depende do parametro θ. Seja X = (X1, X2, . . . , Xm, . . . ) uma amostra de X eXm = (X1, X2, . . . , Xm) o segmento inicial de comprimento m da amostra X. Seja ψX = (ψm(Xm))m≥1

um estimador consistente do parametro θ – pertencente ai interior de Θ – tal que se Zσ2(θ) _ N(0, σ2(θ))se tenha,

limm→+∞

√m (ψm(Xm)− θ) =Distrib. Zσ2(θ) . (3.24)

1. Seja Φ uma funcao derivavel e com derivada nao nula. Mostre que entao se tem que, para umavariavel aleatoria Z(Φ′(θ))2·σ2(θ) _ N(0, (Φ′(θ))2 · σ2(θ)),

limm→+∞

√m (Φ(ψm(Xm))− Φ(θ)) =Distrib. Z(Φ′(θ))2·σ2(θ) .

2. Seja Φ uma funcao derivavel, com derivada contınua e nao nula. Mostre que entao se tem que,para uma variavel aleatoria Zσ2(θ) _ N(0, σ2(θ)),

limm→+∞

√m (Φ(ψm(Xm))− Φ(θ))

Φ′(ψm(Xm))=Distrib. Zσ2(θ) .

Exercıcio 51 (Intervalos de confianca para Poisson de parametro grande). Determine intervalos de [2]confianca para variaveis de Poisson de parametros λ = 200 e λ = 300 usando a aproximacao normal.


3 Capıtulo 3

3.9 Resolucoes

Resolucao:[Exercıcio 50] Dado que Φ e diferenciavel tem-se pelo teorema de Taylor(ver, por exemplo, [ZC04, p. 220]) que para x ∈ Vθ, vizinhanca de θ,

Φ(x) = Φ(θ) + (x− θ)[Φ′(θ) + S(x)

]com lim

x→θS(x) = 0 . (3.25)

Seja ε > 0; pela condicao sobre S sabemos que existe δ = δ(ε) tal que

|x− θ| < δ ⇒ |S(x)| < ε .

Em consequencia, tem-se que:

ω ∈ Ω : |S(ψm(Xm)(ω))| ≥ ε ⊆ ω ∈ Ω : |ψm(Xm)(ω)− θ| ≥ δ ,

donde resulta, dado que o estimador ψX e consistente, que

limm→+∞

S(ψm(Xm)) =Prob. 0 . (3.26)

Seja Ωθ = ω ∈ Ω : ψm(Xm)(ω) ∈ Vθ. Sobre Ωθ, pela formula (3.25), tem-se que:

√m [Φ(ψm(Xm))− Φ(θ)]−

√m [(ψm(Xm)− θ)] Φ′(θ) =

=√m [(ψm(Xm)− θ)]S(ψm(Xm))

Pelas formulas (3.24) e (3.26) tem-se que:

limm→+∞

√m [(ψm(Xm)− θ)]S(ψm(Xm)) =Prob. 0

donde resulta pelo teorema de Slutsky (teorema 4) que:

limm→+∞

√m [Φ(ψm(Xm))− Φ(θ)] =Distrib.

√m [(ψm(Xm)− θ)] Φ′(θ) =Distrib. Zσ2(θ) ,

ou seja que

limm→+∞

√m [Φ(ψm(Xm))− Φ(θ)] =Distrib. Z(Φ′(θ))2·σ2(θ) ,

isto e, a primeira conclusao do exercıcio. Seguidamente, dado que ψX e consistente eque Φ′ e contınua, tem-se (ver exercıcio 17) que,

limm→+∞

Φ′(ψm(Xm)) =Prob. Φ′(θ) ,

donde resulta a segunda conclusao do exercıcio pela proposicao sobre as propriedadesdas convergencias (ver proposicao 5). ♦



Apendice

Nesta seccao enunciamos resultados que sao uteis para o desenvolvimento do texto acima.O primeiro resultado permite a derivacao de um integral em quea funcao integrandadepende de um parametro.

Teorema 28 (O teorema de derivacao do integral relativamente a um parametroda funcao integranda). Seja (X,A, µ) um espaco de medida, U um aberto de R ef : X × U 7→ R uma funcao tal que:

(i) Para qualquer t0 ∈ U , a funcao f(·, t0) : X 7→ R e integravel.

(ii) f e derivavel em qualquer t0 ∈ U ,

∀x ∈ X, ∂f(x, t0)

∂t:=

∂f(x, t)

∂t

∣∣∣∣t=t0

:= limh→0,h6=0

f(x, t0 + h)− f(x, t0)

h∈ R .

e esta derivada e uma funcao (de x ∈ X) integravel.

(iii) Existe uma funcao F : X 7→ R+ integravel tal que para qualquer x ∈ X,

∀t ∈ U∣∣∣∣∂f(x, t)

∂t

∣∣∣∣ ≤ F (x)

Entaod

dt

∫Xf(x, t)dµ(x)

∣∣∣∣t=t0

=

∫X

∂f(x, t)

∂t

∣∣∣∣t=t0

dµ(x)

Demonstracao. Resulta de uma aplicacao do teorema dos valores intermediarios e doteorema da convergencia dominada de Lebesgue (ver [Lan69, p. 375]). Com efeito, pelahipotese (i), tem-se que:

d

dt

∫Xf(x, t)dµ(x)

∣∣∣∣t=t0

= limh→0

1

h

(∫Xf(x, t0 + h)dµ(x)−

∫Xf(x, t0)dµ(x)

)=

= limh→0

∫X

(f(x, t0 + h)− f(x, t0)

h

)dµ(x) .

Para que a conclusao do teorema resulte e suficiente garantirmos que se verificam ashipoteses de aplicacao do teorema da convergencia dominada de Lebesgue. Para talobservemos que, pelo teorema dos valores intermedios e pela hipotese (iii),

|f(x, t0 + h)− f(x, t0)| ≤ |h| supt∈[|t0,t0+h|]

∣∣∣∣∂f(x, t)

∂t

∣∣∣∣ ≤ |h|F (x) ,


3 Capıtulo 3

em que [|t0, t0 +h|] e o segmento de estremidades t0 e t0 +h, isto e, o intervalo [t0, t0 +h]se for h > 0 e o intervalo [t0 + h, t0] se for h < 0. Tem-se assim que, para h 6= 0:∣∣∣∣f(x, t0 + h)− f(x, t0)

h

∣∣∣∣ ≤ F (x)

Dado que F e integravel e que ha convergencia, pela hipotese (ii)podemos concluir comose pretende.

Bibliografia

[CB08] G. Casella and R.L. Berger. Statistical Inference. Duxbury advanced series.Duxbury Thomson Learning, 2008.

[Esq05] Manuel L. Esquıvel. Aplicacoes das funcoes geradoras de probabilidade a varia-veis aleatorias reais. In Carlos Braumann, Paulo Infante, Manuela M. Oliveira,Russell Alpızar-Jara, and Fernando Rosado, editors, Estatıstica Jubilar - Actasdo XII congresso Anual da Sociedade Portuguesa de Estatıstica, volume 1, pages235–246. Edicoes SPE, Lisbon, Portugal, 1 edition, 2005. Book of invited confe-rences and accepted refereed papers submitted to the Procedings XII congressoAnual da Sociedade Portuguesa de Estatıstica (Evora, Portugal, 2005).

[Esq09] Manuel L. Esquıvel. Some applications of probability generating function basedmethods to statistical estimation. Discuss. Math., Probab. Stat., 29(2):131–153,2009.

[HS49] Paul R. Halmos and L. J. Savage. Application of the radon-nikodym theorem tothe theory of sufficient statistics. Ann. Math. Statist., 20(2):225–241, 06 1949.

[IM90] G.I. Ivchenko and Yu.I. Medvedev. Mathematical Statistics. Mir PublishersMoscow, 1990.

[KPS83] V.S. Koroljuk, N.I. Portenko, and A.V. Skorohod. Aide-memoire de theoriedes probabilites et de statistique mathematique. Editions de Moscou. EditionsMir, 1983.

[Lan69] S. Lang. Analysis II. Number v. 2 in Addison-Wesley series in mathematics.Addison-Wesley Pub. Co., 1969.

[Mig05] Maria de Fatima Miguens. Probabilidades e Estatıstica I. Edicao da Autora,Outubro 2005. Notas de licoes na FCT/UNL.

[MM12] B. Murteira and Antunes M. Probabilidades e Estatıstica, volume 2. EscolarEditora, 2012.

[Pes98] Wiebe R. Pestman. Mathematical statistics. An introduction. Berlin: de Gruy-ter, 1998.



[PH94] J. Pfanzagl and R. Hamboker. Parametric Statistical Theory. De Gruyter text-book. W. de Gruyter, 1994.

[Pop02] K. Popper. The Logic of Scientific Discovery. Routledge Classics. Taylor &Francis, 2002.

[PV08] Dinis Pestana and Sılvio Velosa. Introducao a Probabilidade e a Estatıstica. Vol.I. Textos Universitarios. Fundacao Calouste Gulbenkian, Lisboa, third edition,2008. Terceira edicao revista e aumentada.

[TdO82] J. Tiago de Oliveira. The δ–method for obtention asymptotic distributions;applications,. Publ. Inst. Statist. Univ. Paris, 1(XXVII):49–70, 1982.

[Wil38] S. S. Wilks. The large-sample distribution of the likelihood ratio for testingcomposite hypotheses. Ann. Math. Statist., 9(1):60–62, 03 1938.

[Wil01] David Williams. Weighing the Odds: A Course in Probability and Statistics.Cambridge University Press, 2001.

[ZC04] V.A. Zorich and R. Cooke. Mathematical Analysis I. Mathematical Analysis.Springer, 2004.


94

Capıtulo 4

Modelos Lineares Generalizados

Firstly, a model with more parameters leads to predictions with less bias but with higher varianceand, we have to balance one against the other. Secondly, a model with more parameters tends to bemore sensitive to small changes in the data.

In David Williams, Weighing the Odds. A Course in Probability and Statistics, CambridgeUniversity Press 2001, page 236.

4.1 Introducao

De acordo com [Agr07, p. 72], todos os modelos lineares generalizados tem tres com-ponentes: a componente aleatoria que identifica a variavel aleatoria Y assumindo umadada distribuicao; a componente sistematica que especifica as variaveis explicativas e,por ultimo, a ligacao que da a relacao funcional entre a componente sistematica e o valoresperado da componente aleatoria. Seguidamente desenvolveremos estas ideias.

Um modelo linear generalizado (GLM de Generalized Linear Model em Ingles), temmuitas semelhancas com um modelo linear usual. Assim - numa primeira aproximacao -podemos descrever um GLM – a que chamaremos GLM ocasional – a partir da estru-tura dos dados e das correspondentes observacoes descritas seguidamente. Os conceitosrelevantes no contexto dos GLM serao detalhados progressivamente.

1. O modelo constituıdo pelas variaveis aleatorias Y,X1, X2, . . . , XN em que Y , avariavel independente tem uma relacao funcional com as variaveisX1, X2, . . . , XN ,os preditores, que podem nao ser independentes entre si - por exemplo, pode ter-se que X1 = X2 ·X3.

2. As observacoes, isto e, as amostras, Y = (Y1, Y2, . . . Ym) de Y e, para cadai ∈ 1, 2, . . . , N Xi = (Xi,1, Xi,2, . . . Xi,m) amostra de Xi, cujas realizacoes daoorigem aos dados:

y1 x1,1 x2,1 . . . xN,1y2 x1,2 x2,2 . . . xN,2. . . . . . . . . . . . . . .ym x1,m x2,m . . . xN,m .

(4.1)

95

4 Capıtulo 4

3. Uma relacao linear 1 entre as variaveis aleatorias X1, X2, . . . , XN tambem deno-minadas factores do modelo e uma funcao h, denominada a funcao de ligacaodo modelo, aplicada a esperanca condicional da variavel dependente Y :

h (E [Yj | X1,j , X2,j , . . . XN,j ]) = α0 + α1X1,j + α2X2,j + · · ·+ αNXN,j (4.2)

em que α0, α1, . . . , αN sao parametros do modelo 2.

4. Condicoes que asseguram a coerencia da definicao a saber:

(a) A variavel aleatoria Y tem tipo exponencial(ver o desenvolvimento desteconceito na seccao 4.5); cada distribuicao de tipo exponencial tem um parametronatural que e dado por uma funcao da media da distribuicao.

(b) A funcao de ligacao h que seja funcao do parametro natural da distribuicao ea funcao de ligacao canonica.

Observacao 46. Note-se que a formula (4.2) e equivalente a

h (E [Yj | X1,j = a1, X2,j = a2, . . . XN,j = aN ]) = α0 + α1a1 + α2a2 + · · ·+ αNaN (4.3)

em que, tal como acima, α0, α1, . . . , αN sao parametros do modelo e em que para cadai ∈ 1, 2, . . . , N ai ∈ Xi,j(Ω), isto e, os ai sao quaisquer elementos dos contradomıniosrespectivos de cada uma das respectivas variaveis aleatorias Xi,j .

Observacao 47. Suponhamos que α0, α1, . . . , αN designam os valores estimados dos para-metros do modelo descritos em (4.2) ou (4.3) a partir dos dados (4.1). Veremos adiantea forma natural de estimar estes parametros que decorre do metodo da maxima verosi-milhanca. E natural que para cada j ∈ 1, 2, . . . ,m exista εj um erro de ajustamento– ou um resıduo – tal que se verifique para j ∈ i, 2, . . . ,m:

Eh (E [Yj | X1,j = x1,j , X2,j = x2,j , . . . XN,j = xN,j ]) = α0 + α1x1,j + · · ·+ αNxN,j + εj

de onde resultara, se h for invertıvel,

E [Yj | X1,j = x1,j , . . . XN,j = xN,j ] = h−1 (α0 + α1x1,j + · · ·+ αNxN,j + εj) ,

o que no caso em que h−1 nao e linear faz com que os resıduos nao sejam aditivos. Talcomo noutros modelos estatısticos estudos sobre os resıduos podem aferir a qualidade doajustamento do modelo com os parametros estimados. Mas nao serao os resıduos – talcomo os definimos acima – os mais adequados para aferir a qualidade do ajustamento(ver a seccao 4.5).

1Veja-se por exemplo [MN89, p. 12] para esta interpretacao.2Na formula acima (4.2), a expressao E [Y | X1, X2, . . . XN ] representa a esperanca condicional de Y

dadas X1, X2, . . . XN .


CAPITULO 4. MODELOS LINEARES GENERALIZADOS Seccao: 4.2

4.2 Distribuicoes de tipo exponencial

Nesta seccao vamos desenvolver as principais propriedades das distribuicoes de tipoexponencial (veja-se, por exemplo, [SS94, p. 300]).

Definicao 35 (Distribuicao de Tipo Exponencial). Uma variavel aleatoria Y temdistribuicao de Tipo Exponencial se e so se a sua densidade fY – no caso contınuo– (ou a sua funcao de probabilidade, no caso discreto) se puder representar na forma,

fY (y) = fθ,φY (y) = exp

[yθ − b(θ)a(φ)

+ c(y, φ)

], (4.4)

em que θ e φ sao parametros e a, b e c sao funcoes regulares. O parametro θ edenominado o parametro natural da famılia exponencial.

Observacao 48. O parametro φ supoe-se conhecido; caso contrario e considerado umnuisance parameter e e estimado previamente ao resto do estudo estatıstico.

Na tabela seguinte podem ver-se alguns exemplos de distribuicoes de tipo exponencialcom os parametros e as funcoes a e b indicadas. Para um exemplo de como se podemobter estes termos da decomposicao da densidade da distribuicao veja-se a proposicao 22.

Distribuicao de Y θ = θ(E[Y ]) b(θ) a(φ)

Poisson P(λ) log(λ) eθ 1

Bernoulli B(π) log(

π1−π

)log(1 + eθ

)1

Normal N(µ, σ) µ θ2/2 σ2

Gama G(α, β) −1/α − log(−θ) 1/β

Tabela 4.1: Exemplos de distribuicoes de tipo exponencial com os parametros e asfuncoes.

Proposicao 22 (Forma Canonica). No caso em que a(φ) = φ – sendo φ, neste caso,denominado parametro de dispersao – uma variavel aleatoria Y tem distribuicaode tipo exponencial se e so se a sua densidade fY se pode representar na forma

fY (y) = r(θ)s(y) exp [yQ(θ)] , (4.5)

em que r, s e Q sao funcoes regulares.

Demonstracao. E imediato se se considerar, na formula (4.5), as definicoes seguintes:

Q(θ) =θ

φ, r(θ) = exp

[−b(θ)

φ

], s(y) = exp [c(y, φ)] .


4 Capıtulo 4

Exemplo 17 (A distribuicao Binomial). Seja Y _ B(M,π) isto e, com distribuicaobinomial de parametros M e π. Verifique que Y tem uma distribuicao de tipoexponencial.

Resolucao: Com efeito, dado que,

∀k ∈ 0, 1, . . . ,M fY (k) = P[Y = k] =

(M

k

)πk(1− π)M−k ,

e que podemos representar esta funcao de probabilidade

fY (k) = exp

(log

(M

k

))exp

(log(1− π)M

)exp

(k log

(π

1− π

)),

fica claro que com

φ = 1, r(θ) = exp(log(1− π)M

), s(k) = exp

(log

(M

k

)), Q(θ) = log

(π

1− π

),

se tem a representacao de fY na forma canonica. ♦

Exercıcio 52 (Exemplos de distribuicoes de tipo exponencial). Mostre que a distribuicao normal e detipo exponencial. Exprima a densidade na forma canonica explicitando as funcoes r, s e Q correspon-dentes. Mesma questao para a distribuicao binomial.

Uma das justificacoes para o parametro θ se denominar parametro natural da distri-buicao advem do resultado seguinte.

Teorema 29 (Media e Variancia). Seja Y uma variavel aleatoria com distribuicaode tipo exponencial de acordo com as notacoes da definicao 35. Entao:

E[Y ] =db(θ)

dθ, V[Y ] = a(φ)

d2b(θ)

d2θ. (4.6)

Demonstracao. Suponhamos que a variavel Y e contınua. Dado que fθ,φY e uma densi-dade, tem-se que:

1 =

∫R

fθ,φY (y)dy .

Derivando a expressao acima em ordem ao parametro θ teremos, aplicando um resultadoconhecido de derivacao de um integral em ordem a um parametro (veja-se o teorema 28em apendice),

0 =∂

∂θ

∫R

fθ,φY (y)dy =

∫R

∂

∂θ

(fθ,φY (y)

)dy . (4.7)



Dado que

∂

∂θ

(fθ,φY (y)

)=

∂

∂θexp

[yθ − b(θ)a(φ)

+ c(y, φ)

]=

=1

a(φ)

(y − db(θ)

dθ

)exp

[yθ − b(θ)a(φ)

+ c(y, φ)

]=

=y

a(φ)fθ,φY (y)− 1

a(φ)

db(θ)

dθfθ,φY (y) ,

tem-se que, usando a formula (4.7) e supondo que a(φ) 6= 0,∫R

yfθ,φY (y)dy − db(θ)

dθ

∫R

fθ,φY (y)dy = 0 ,

de onde resulta

E[Y ] =

∫R

yfθ,φY (y)dy =db(θ)

dθ,

tal como figura no enunciado. Para demonstrar a formula relativa a variancia o proce-dimento e semelhante. Assim,

∂2

∂θ2

(fθ,φY (y)

)=

d

dθ

(y


a(φ)

db(θ)

dθfθ,φY (y)

)=

=y

a(φ)

(y


a(φ)

db(θ)

dθfθ,φY (y)

)−

− 1

a(φ)

(d2b(θ)

dθ2fθ,φY (y) +

db(θ)

dθ

(y


a(φ)

db(θ)

dθfθ,φY (y)

))=

=y2

a(φ)2fθ,φY (y)− y

a(φ)2

db(θ)

dθfθ,φY (y)− 1

a(φ)

d2b(θ)

dθ2fθ,φY (y)−

− y

a(φ)2

db(θ)

dθfθ,φY (y) +

1

a(φ)2

(db(θ)

dθ

)2

fθ,φY (y) ,

ou seja em resumo,

∂2

∂θ2

(fθ,φY (y)

)=y2fθ,φY (y)

a(φ)2−

2yfθ,φY (y)

a(φ)2

db(θ)

dθ−fθ,φY (y)

a(φ)

d2b(θ)

dθ2+fθ,φY (y)

a(φ)2

(db(θ)

dθ

)2

.

Obviamente que se tem que:

0 =

∫R

∂2

∂θ2

(fθ,φY (y)

)dy ,

pelo que, supondo mais uma vez que a(φ) 6= 0 e usando o facto de fY ser uma densidade,

0 =

∫R

y2fθ,φY (y)dy − 2db(θ)

dθ

∫R

yfθ,φY (y)dy − a(φ)d2b(θ)

dθ2+

(db(θ)

dθ

)2

,


4 Capıtulo 4

ou seja ainda, usando o resultado do teorema ja obtido,

E[Y 2] =

∫R

y2fθ,φY (y)dy = 2

(db(θ)

dθ

)2

+ a(φ)d2b(θ)

dθ2−(db(θ)

dθ

)2

,

de onde se conclui que

V[Y ] = E[Y 2]−E[Y ]2 = a(φ)d2b(θ)

dθ2,

tal como se indicou no enunciado. A demonstracao para o caso de uma variavel aleatoriadiscreta e semelhante sendo que a condicao de partida e que se se tiver Y (Ω) = I ⊆ N,∑

k∈IfY (k) =

∑k∈IP[Y = k] = 1

dado que fY representa, neste caso, uma funcao de probabilidade.

4.3 A funcao de ligacao canonica

Nesta seccao definimos precisamente a funcao de ligacao canonica de um modelo GLMsocorrendo-nos de uma segunda interpretacao de um tal modelo. Note-se que os pressu-postos com que definimos o modelo GLM ocasional podem ter uma interpretacao dife-rente se supusermos que os dados resultam de uma experiencia planeada previamente.Esta interpretacao da origem a um modelo que denominaremos GLM controlado 3.Neste modelo, a estrutura das observacoes apenas comporta a variavel resposta ou inde-pendente dado que se considera que os valores, do que no modelo GLM ocasional eram asvariaveis independentes, sao agora valores previamente fixados de acordo com o desenhointencional da experiencia.

1. A matriz de desenho da experiencia e dada por

X =

1 x1,1 x2,1 . . . xN,11 x1,2 x2,2 . . . xN,2. . . . . . . . . . . . . . .1 x1,m x2,m . . . xN,m

. (4.8)

2. Os dados y1, y2, . . . ym resultam da realizacao das observacoes, isto e da rea-lizacao de uma amostra Y = Y1, Y2, . . . Ym da variavel aleatoria Y , isto e, tal quepara ω ∈ Ω

Y1(ω) = y1, Y2(ω) = y2, . . . Ym(ω) = ym (4.9)

3A distincao entre um modelo controlado e um modelo ocasional – referido na seccao 4.1 – e feitatambem em [Pru11, p. 357] sendo que o modelo que denominamos ocasional e referido como observationalstudy.



3. Uma relacao entre a matriz de desenho da experiencia X e uma funcao Hh,denominada a funcao de ligacao do modelo, aplicada a esperanca do vectorY = (Y1, Y2, . . . Ym)t das observacoes da variavel dependente Y :

Hh (E [Y ]) = XA (4.10)

em que A = (α0, α1, . . . , αN )t e o vector dos parametros do modelo e em que

Hh(y1, y2, . . . ym) = (h(y1), h(y2), . . . h(ym)) ,

sendo h a funcao de ligacao univariada.

4. As condicoes de coerencia entre a distribuicao de Y e a funcao de ligacao.

(a) A variavel aleatoria Y tem tipo exponencial de acordo com a definicao 35sendo θ o parametro natural.

(b) Atendendo ao teorema 29 em que E [Y ] = db(θ)/dθ, a funcao de ligacaounivariadda h tal que

h (E [Y ]) = h

(db(θ)

dθ

)= θ , (4.11)

isto e, tal que h seja bijectiva e admita uma inversa h−1 verificando

h−1 =db(θ)

dθ, (4.12)

designa-se por funcao de ligacao canonica do modelo.

Observacao 49. Note-se que a formula (4.10) se pode representar na formah (E [Y1])h (E [Y2])

. . .h (E [Ym])

=

α0 + α1x1,1 + +α2x2,1 + · · ·+ αNxN,1α0 + α1x1,2 + +α2x2,2 + · · ·+ αNxN,2

. . .α0 + α1x1,m + +α2x2,m + · · ·+ αNxN,m

, (4.13)

ou seja, para cada j ∈ 1, . . . ,m,

h (E [Yj ]) = α0 + α1x1,j + +α2x2,j + · · ·+ αNxN,j . (4.14)

Observacao 50. A importancia de considerar as funcoes de ligacao canonicas advem dasimplificacao que trazem ao calculo dos estimadores dos parametros dos modelos GLM.


4 Capıtulo 4

4.4 A estimacao nos modelos lineares generalizados

A estimacao dos parametros num modelo linear generalizado faz-se pelo metodo demaxima verosimilhanca4. Retomando as notacoes da seccao 4.3, temos na formula (4.10)o preditor linear comm componentes

Hh (E [Y ]) = XA

sendo que com a funcao de ligacao canonica univariada do modelo h ∈ C2(R), se verifica,

h (E [Yj ]) = h

(db(θj)

dθj

)= θj .

Para m observacoes – independentes dado provirem de uma amostra – tendo em conta

que θ = (θ1, θ2, . . . θm)t depende de A = (α0, α1, . . . , αN )t, a logverosimilhanca l(A)escreve-se,

l(A) =m∑j=1

log(fθj ,φY (yj)

)=

m∑j=1

(yjθj − b(θj)

a(φ)+ c(yj , φ)

). (4.15)

Sendo para abreviar a notacao lj := log(fθj ,φY (yj)

)e µj = E [Yj ], determine-se

∂lj∂αi

=∂lj∂θj

∂θj∂µj

∂µj∂h(µj)

∂h(µj)

∂αi.

Dado que se tem com b′(θj) := db(θj)/dθj e b′′(θj) := d2b(θj)/dθ2j ,

∂lj∂θj

=yj − b′(θj)a(φ)

=yj − µja(φ)

,

∂µj∂θj

=db′(θj)

dθj= b′′(θj) =

V[Yj ]

a(φ),

que, devido a formula (4.14),∂h(µj)

∂αi= xi,j ,

e uma vez que a derivada seguinte depende da funcao de ligacao h,

∂µj∂h(µj)

,

temos o resultado importante seguinte.

Proposicao 23. As equacoes de verosimilhanca sao dadas por

m∑j=1

(yj − µjV[Yj ]

xi,j∂µj

∂h(µj)

)= 0 i = 1, 2, . . . N . (4.16)

4A exposicao que se segue e inspirada em http://wikistat.fr/pdf/st-m-modlin-mlg.pdf



Observacao 51. Estas equacoes sao nao lineares em A pelo que devem ser resolvidas pormetodos iterativos – Newton-Raphson ou Scores de Fisher – pelo que desenvolveremoseste tema adiante. Dado que definem um estimador da maxima verosimilhanca, para ovector dos parametros A, este estimador e consistente e assimptoticamente normal (ver[Lin05, p. 136] ou [IM90, p. 89]) permitindo assim a construcao de testes de hipoteses.

4.5 Metodos para aferir a qualidade do ajustamento

Para aferir a qualidade do ajustamento usam-se sobretudo os desvios e nocoes relativasa resıduos modificados.

4.5.1 Desvios: a Deviance

Compara-se o modelo estimado com o modelo saturado (ou modelo perfeito ou aindamodelo completo), isto e com o modelo em que o numero de observacoes iguala o numerode parametros, ou seja, o modelo em que o valor medio da variavel coincide com o valorobservado da variavel, isto e, E[Yi] = yi (ver [Gil00, p. 56] ou [TS00, p. 59–60]).

Definicao 36 (Deviance). Sejam l a logverosimilhanca do modelo estimado com a

totalidade das observacoes disponıveis e lSat a logverosimilhanca do modelo saturado.Entao a deviance D e dada por

D = −2(

l− lSat

). (4.17)

Observacao 52. A deviance e pois o logaritmo do quadrado da razao das verosimilhancas.Nos GLM e usado em vez da soma dos quadrados usual no caso Gaussiano. Pela suanatureza a deviance permite testes do tipo razao de verosimilhancas (ver [IM90, p. 204]).

Proposicao 24 (Deviance no modelo de Poisson). Seja Y _ P(λ), Y =(Y1, Y2, . . . , Ym) uma amostra de Y , e os dados y1, y2, . . . , ym provenientes de umarealizacao da amostra Y. Entao

D = −2(

l− lSat)

= 2m∑j=1

[λj − yj + yj log

(yjλj

)]

Demonstracao. Temos que no caso do modelo ser um GLM se tem para cada dado yj


4 Capıtulo 4

uma concretizacao λj de λ dado que E[Yj ] = λj ,

l = l((y1, . . . , ym), (λ1, . . . λm)) = log

m∏j=1

e−λλyj

yj !

=

=m∑j=1

[−λj + yj log(λj) + log(yj !)] .

Agora, por definicao, o modelo saturado corresponde a ter (y1, y2, . . . , ym) = (λ1, λ2, . . . λm)pelo que:

lSat =

m∑j=1

[−yj + yj log(yj) + log(yj !)] ,

pelo que

D = −2(

l− lSat

)= −2

m∑j=1

[−λj + yj log(λj) + log(yj !)− (−yj + yj log(yj) + log(yj !))] =

= 2m∑j=1

[λj − yj + yj log

(yjλj

)],

tal como anunciado.

Na tabela 4.2 (confira-se com [Gil00, p. 58] ou com [TS00, p. 66]) figuram as funcoesde desvio calculadas para diferentes distribuicoes de tipo exponencial; as justificacoessao semelhantes a que apresentamos, para a distribuicao de Poisson, na proposicao 24.Veja-se, por exemplo, [MN89, p. 32] para as funcoes de ligacao canonicas.

Distribuicao Ligacao h Deviance (desvio) D

Poisson P(λ) h(λ) = log(λ) 2∑m

j=1

[yj log

(yjλj

)+ λj − yj

]Bernoulli B(π) h(π) = log

(π

1−π

)2∑m

j=1

[log(yjπj

)yj+ log

(1−yj1−πj

)(1−yj)]

Binomial B(M,π) h(π) = log(

π1−π

)2∑m

j=1

[log(yjπj

)yj+ log

(Mj−yjMj−πj

)(Mj−yj)]

Normal N(µ, σ) h(µ) = µ∑m

j=1 |yj − µj |2

Gama G(α, β) h(α) = − 1α 2

∑mj=1

[− log

(yjαj

)+

yj−αjαj

]Bin. Neg. B−(r, π)

Tabela 4.2: Funcoes de Ligacao (link) e desvios (deviances) para algumas distribuicoesde tipo exponencial

Observacao 53. Note-se que a deviance para o modelo saturado nocaso Bernoulli e:

lSat = log

m∏j=1

yyjj (1− yj)(1−yj)

= log(1) = 0 .



Veja-se, por exemplo, [jHLS13, p. 12].

Proposicao 25. Quando m o numero de observacoes tende para infinito a deviancetem distribuicao assimptotica χ2

m−(N+1), isto e a distribuicao do χ2 com m−(N+1)graus de liberdade, em que N + 1 e o numero de parametros.

Observacao 54. A proposicao 25 permite construir um teste de rejeicao do modelo con-soante a deviance seja considerada – ou nao – significativa (veja-se [TS00, p. 50]); se adeviance exceder um α-percentil de um χ2

m−(N+1), podemos afirmar com uma margemde erro α que o modelo saturado difere significativamente do modelo nulo, isto e, omodelo sem preditores, so com o termo constante. A aproximacao do χ2 e consideradapor muitos autores, em muitos casos, como duvidosa.

4.5.2 Resıduos de Pearson

Vamos detalhar os resıduos de Pearson no caso binomial seguindo [Lon97, p. 98]. Reto-mando as notacoes da seccao 4.1, a introducao, seja Xi = (Xi,1, Xi,2, . . . Xi,m) a amostradas variaveis preditoras e Y = (Y1, Y2, . . . Ym) a amostra da variavel dependente. Paraj ∈ 1, 2, . . .m seja

Xx = X1,j = x1,j , X2,j = x2,j , . . . , XN,j) = xN,j

em que para i ∈ 1, 2, . . . N se tem xi,j ∈ Xi(Ω). Tem-se entao que, ara j ∈ 1, 2, . . .m,

πj = E [Yj |Xx] = P [Yj = 1 |Xx] .

Por outro lado tem-se que dado que Yj _ B(πj),

V [Yj |Xx] = πj(1− πj) ,

tem-se a definicao seguinte.

Definicao 37 (Resıduos de Pearson). Sendo para cada j ∈ 1, 2, . . .m a probabi-lidade estimada dada por πj , tem-se que

rPj :=

yj − πj√πj(1− πj)

, (4.18)

sendo que um valor significativo de rPj sugere que o modelo falha no ajustamentoao dado de ordem j.

Observacao 55. Com o objectivo de garantir boas propriedades estatısticas usam-se osresıduos de Pearson estandardizados que notaremos rP-Est

j (veja-se [Lon97, p. 99]). Noentanto, na pratica, os valores de rP

j e rP-Estj sao frequentemente semelhantes.

Na figura 4.1 figuram os resıduos de Pearson para o exemplo pratico detalhado naseccao 4.6.2.


4 Capıtulo 4

0 50 100 150 200 250 300

-20

24

Index

resi

dual

s(fit

, typ

e =

"pea

rson

")

-30 -20 -10 0 10

-4-2

02

4

Valores estimados

Res

íduo

s P

ears

on

Figura 4.1: Resıduos de Pearson e Resıduos de Pearson em funcao dos valores estimados

4.5.3 Resıduos do Desvio

Dado que a deviance D e uma soma de termos dj , j = 1, . . . ,m (veja-se, por exemplo atabela 4.2) cada termo pode ser interpretado como a contribuicao da observacao j paraa deviance total. Se definirmos

rdj :=√dj sinal(yj − πj) ,

temos uma forma de efectuar um diagnostico sobre a qualidade da parte linear do ajus-tamento.

Observacao 56. Note-se que com esta definicao,

D =m∑j=1

dj =m∑j=1

r2dj,

pelo que a deviance ”funciona”como uma soma de quadrados dos erros.

4.5.4 Distancia de Cook

Ver [Pru11, p. 357]

4.5.5 AIC – Akaike Information Criterion

Em [Gil00, p. 64] define-se o AIC como sendo,

AIC := −2 log(L(Y, A

))+ 2(N + 1)



em que L(Y, A

)e o valor da maxima verosimilhanca do modelo – o vector dos parametros

estimados e A e o vector das observacoes e Y – e N + 1 e o numero de parametros domodelo.

4.5.6 BIC – Bayesian Information Criterion

Em [Gil00, p. 65] define-se o BIC

BIC := −2 log(L(Y, A

))+ (N + 1) log (m)

em que L(Y, A

)e o valor da maxima verosimilhanca do modelo – o vector dos parametros

estimados e A e o vector das observacoes e Y – o numero de parametros do modelo eN + 1 e m e o numero de observacoes.

4.5.7 Teste de Wald

No contexto dos MLG efectuam-se o testes de Wald para verificar se os parametros esti-mados pelo metodo da maxima verosimilhanca (MMV) sao significativamente distintosde zero. Assim, seja α um dos coeficientes da regressao estimados pelo MMV. Dado queos estimadores de maxima verosimilhanca sao assimptoticamente normais teremos, nocaso da regressao logıstica em que a variancia dos estimadores e conhecida e, para umnumero de observacoes suficientemente grande, que:

α√V [α]

_ N(0, 1)

ouα2

V [α]_ χ2

1 ,

pelo que se pode testar a hipotese H0 : α = 0 contra H1 : α 6= 0 com um teste designificancia γ, rejeitando H0 se ∣∣∣∣∣ α√

V [α]

∣∣∣∣∣ > zγ/2 .

Veja-se a este proposito [Was13, p. 153].

4.6 O modelo Logit

Um dos principais exemplos de GLM e o seguinte 5. Suponhamos que se observa umapropriedade que um elemento de uma populacao pode ou nao ter; o modelo naturalpara esse fenomeno e uma variavel aleatoria Y _ B(π) com distribuicao binomial de

5Uma referencia muito completa sobre este modelo e [Col02].


4 Capıtulo 4

parametro π em que consideramos que 1 representa o termos observado a propriedade e0 representa o nao termos observado a propriedade, convencionando-se que:

P [Y = 1] = π , P [Y = 0] = 1− π .

Suponhamos que se pretende quantificar a variacao de Y como funcao das variacoesde outras variaveis X1, X2, . . . , XN que supomos tambem observadas – ou, alternativa-mente, as quais podemos atribuir determinados valores – observando em seguida se, comesses valores, o elemento da populacao verifica — ou nao – a propriedade. Se procu-rararmos um modelo para a probabilidade de observar a propriedade e natural suporque, sendo B = (b1, b2, . . . , bN )t, se X1 = b1, X2 = b2, . . . , XN = bN se verifique paraα0, α1, . . . , αN ∈ R,

πB = α0 + α1b1 + α2b2 + · · ·αNbN . (4.19)

Este modelo nao e satisfatorio dado que, na formula (4.19), πA ∈ [0, 1] e tambem α0 +∑Ni=1 αiai ∈ R. Seja, entao h uma funcao estritamente monotona e regular tal que

h : [0, 1] 7→ R. O modelo dado pela formula (4.20) seguinte – em vez do modelo dadopelaa formula (4.19) – ja faz mais sentido.

h(πB) = α0 + α1b1 + α2b2 + · · ·αNbN . (4.20)

Uma escolha intuitiva para a funcao h e a funcao inversa da Logıstica dada por

h(π) = log

(π

1− π

).

0.2 0.4 0.6 0.8 1.0x

0.2

0.4

0.6

0.8

1.0

1

ã5-10 x + 1

Funçã o Logística

0.2 0.4 0.6 0.8 1.0x

0.5

1.0

1.5

2.0

2.5

3.0

2 -

1

5log

x

1 - x

Inversa da Funçã o Logística

Figura 4.2: Exemplo de funcao logıstica h−1(x) = 1e−ax−b+1

e da sua inversa h(x) =log( x

1−x)b − a

b , para a = 10, b = −5.

Dado que a funcao h e invertıvel tem-se que

πB = h−1(α0 + α1b1 + · · ·αNbN ) =eα0+α1b1+···αN bN

1 + eα0+α1b1+···αN bN, (4.21)

ou seja, conseguimos recuperar πB como funcao nao linear dos parametros e dos factores.



Observacao 57 (Resıduos usuais nao aditivos). Suponhamos que A = (α0, α1, . . . , αN ) eum vector de parametros estimados. Em resultado da formula (4.20) e natural ter, paraum dado erro εB,

h(πB) = α0 + α1b1 + α2b2 + · · · αNbN + εB ,

donde resulta, a semelhnaca da formula (4.21),

πB = h−1(α0 + α1b1 + · · · αNbN + εB) =eα0+α1b1+···αN bN+εB

1 + eα0+α1b1+···αN bN+εB,

ou seja, os resıduos resultantes da estimacao dos parametros nao afectam πB de formaaditiva.

Definicao 38 (Modelo Logit). Se Y _ B(π), isto e se a variavel Y tiver distribuicaobinomial de parametro π e se a funcao de ligacao for a funcao h(x) = log (x/(1− x))temos um modelo Logit.

Observacao 58. Com o modelo binomial para a variavel Y ha outras funcoes de ligacaopara alem da funcao de ligacao Logit (veja-se, por exemplo, [MN89, p. 31]). Por exemploa funcao probit e a funcao complementar log–log.

4.6.1 Estimacao dos parametros no modelo Logit

Veja-se [Col02, p. 59–60].

4.6.2 Exemplo de aplicacao do modelo Logit com o R

Para efectuar um ajustamento de uma regressao logıstica o codigo R pode ser o seguinte.O comando para o ajustamento esta na linha 5. Os dados sao os resultantes da simulacaocom o Mathematica.

1 mydata ← read.csv("dada.csv", header=FALSE)

2 # Modelo Logit

3 # V8 resposta bin\’aria

4 # V1-V7 preditores

5 fit ← glm(V8∼V1+V2+V3+ V4+V5+V6+V7,data=mydata ,family=binomial ())

6 summary(fit) # resultados

7 confint(fit) # 95% intervalo de confian\cca para os coeficientes

8 exp(coef(fit)) # coeficientes exponenciados

9 exp(confint(fit)) # 95% intervalo de confiancca para os

coeficientes exponenciados

10 predict(fit , type="response") # valores previstos pelo modelo

11 residuals(fit , type="deviance") # res\’\iduos

Listing 4.1: Regressao Logıstica

Sendo que os primeiros resultados sao:


4 Capıtulo 4

1 Call: glm(formula = V8 ∼ V1 + V2 + V3 + V4 + V5 + V6 + V7 , family

= binomial (), data = mydata)

2 Deviance Residuals:

3 Min 1Q Median 3Q Max

4 -2.25637 -0.17532 -0.01637 0.00563 2.39880

5 Coefficients:

6 Estimate Std. Error z value Pr(>|z|)

7 (Intercept) -60.456 1322 .922 -0.046 0.964

8 V1 -1.189 8.125 -0.146 0.884

9 V2 16.152 3.822 4.226 2.38e-05 ***

10 V3 28.869 1392 .520 0.021 0.983

11 V4 10.424 1.803 5.782 7.40e-09 ***

12 V5 16.721 3.151 5.307 1.12e-07 ***

13 V6 6.919 1.475 4.692 2.71e-06 ***

14 V7 18.350 4.420 4.152 3.30e-05 ***

15 ---

16 Signif. codes: 0 O~O*** 0.001 O~O** 0.01 O~O* 0.05 O~O. 0.1 O~O 1

17 (Dispersion parameter for binomial family taken to be 1)

18 Null deviance: 337 .40 on 299 degrees of freedom

19 Residual deviance: 115.54 on 292 degrees of freedom

20 AIC: 131 .54

21 Number of Fisher Scoring iterations: 17

Listing 4.2: Resultado da regressao Logıstica

Dos resultados acima pode concluir-se que os preditores V2, e V4 a V7 sao estatis-ticamente significativos. Note-se que os resultados a que nos referimos sao o z value e oPr(> |z|) para cada um dos preditores V1 a V7. O z value e o coefficiente da regressao(a coluna Estimate) dividido pelo standard error (a coluna Std. Error) – o desvio padraoda estimativa 6. O Pr(> |z|) da o valor p, o p-value do teste em que a hipotese nula eque o coefficiente da regressao e nulo; o z value e suposto ter distribuicao normal. Como teste de Wald, o efeito global dos termos V2 a V7 e estatisticamente significativo.

1 >wald.test(b = coef(fit ), Sigma = vcov(fit ), Terms = 2:7)

2 Chi-squared test: X2 = 51.3, df = 6, P(> X2) = 2.6e-09

Listing 4.3: Teste de Wald e resultado

1 >with(fit , null.deviance - deviance)

2 [1] 221 .8652

3 > with(fit , df.null - df.residual)

4 [1] 7

5 > with(fit , pchisq(null.deviance - deviance , df.null - df.residual

, lower.tail = FALSE))

6 [1] 2.651357e-44

7 > logLik(fit)

6Ver http://logisticregressionanalysis.com/1577-what-are-z-values-in-logistic-regression/



8 ’log Lik.’ -57.76795 (df=8)

Listing 4.4: Teste da Deviance com resultados

-30 -20 -10 0 10

-2-1

01

2

Predicted values

Residuals

glm(V8 ~ V1 + V2 + V3 + V4 + V5 + V6 + V7)

Residuals vs Fitted

38270

128

-3 -2 -1 0 1 2 3

-2-1

01

2

Theoretical Quantiles

Std

. dev

ianc

e re

sid.

glm(V8 ~ V1 + V2 + V3 + V4 + V5 + V6 + V7)

Normal Q-Q

38270

128

-30 -20 -10 0 10

0.0

0.5

1.0

1.5

Predicted values

Std. deviance resid.

glm(V8 ~ V1 + V2 + V3 + V4 + V5 + V6 + V7)

Scale-Location

38270128

0.0 0.2 0.4 0.6 0.8

-4-2

02

4

Leverage

Std

. Pea

rson

resi

d.

glm(V8 ~ V1 + V2 + V3 + V4 + V5 + V6 + V7)

Cook's distance

10.5

0.51

Residuals vs Leverage

98

238

270

Figura 4.3: Graficos do ajustamento com as 7 variaveis

1 fit ← glm(V8∼V2+V4+V5+V6+V7,data=mydata ,family=binomial ()) #

ajustamento

2 summary(fit)

3 Call:

4 glm(formula = V8 ∼ V2 + V4 + V5 + V6 + V7 , family = binomial (),

5 data = mydata)

6


4 Capıtulo 4

7 Deviance Residuals:

8 Min 1Q Median 3Q Max

9 -3.5402 -0.3366 -0.0590 0.0462 2.3515

10

11 Coefficients:

12 Estimate Std. Error z value Pr(>|z|)

13 (Intercept) -24.820 3.219 -7.712 1.24e-14 ***

14 V2 8.694 1.859 4.676 2.93e-06 ***

15 V4 9.061 1.580 5.736 9.70e-09 ***

16 V5 12.679 2.068 6.132 8.67e-10 ***

17 V6 6.352 1.326 4.790 1.67e-06 ***

18 V7 11.677 2.556 4.569 4.91e-06 ***

19 ---

20 Signif. codes: 0 O~O*** 0.001 O~O** 0.01 O~O* 0.05 O~O. 0.1 O~O 1

21

22 (Dispersion parameter for binomial family taken to be 1)

23

24 Null deviance: 337 .40 on 299 degrees of freedom

25 Residual deviance: 145.39 on 294 degrees of freedom

26 AIC: 157 .39

27

28 Number of Fisher Scoring iterations: 7

29 > wald.test(b = coef(fit ), Sigma = vcov(fit ), Terms = 1:5) #

Needs packages(aod)

30 Chi-squared test:

31 X2 = 64.5, df = 5, P(> X2) = 1.4e-12

Listing 4.5: Resultado da regressao Logıstica com 5 variaveis

4.6.3 Exemplo com o Mathematica

4.7 O modelo Probit

4.8 Exercıcios

As notas a margem assinalam a dificuldade dos exercıcios, graduada de [1] - aplicacoesimediatas dos conceitos introduzidos - ate [3] - exercıcios que podem requerer domıniode conceitos estudados noutras unidades curriculares.

Exercıcio 53 (Tipo exponencial: Bernoulli). Seja Y _ B(π), isto e, uma variavel de Bernoulli de [1]parametro π.

1. Mostre que:

fπY (k) = P [Y = k] = (1− π) exp

(k log

(π

1− π

)),

e deduza que Y e de tipo exponencial.

2. Justifique que θ = log(π/(1− π)) e o parametro natural da distribuicao de Bernoulli.

3. Justifique que a funcao logit e a funcao de ligacao canonica correspondente.



-15 -10 -5 0 5

-4-3

-2-1

01

23

Predicted values

Residuals

glm(V8 ~ V2 + V4 + V5 + V6 + V7)

Residuals vs Fitted

118

191

38

-3 -2 -1 0 1 2 3

-3-2

-10

12

3

Theoretical Quantiles

Std

. dev

ianc

e re

sid.

glm(V8 ~ V2 + V4 + V5 + V6 + V7)

Normal Q-Q

118

191

38

-15 -10 -5 0 5

0.0

0.5

1.0

1.5

Predicted values

Std. deviance resid.

glm(V8 ~ V2 + V4 + V5 + V6 + V7)

Scale-Location

118

191

38

0.0 0.1 0.2 0.3

-25

-20

-15

-10

-50

5

Leverage

Std

. Pea

rson

resi

d.

glm(V8 ~ V2 + V4 + V5 + V6 + V7)

Cook's distance

10.5

0.51

Residuals vs Leverage

98

118

191

Figura 4.4: Graficos do ajustamento com as variaveis 2,4,5,6,7

Exercıcio 54 (Tipo exponencial: Poisson). Seja Y _ P(λ), isto e, uma variavel de Poisson de [1]parametro λ.

1. Mostre que:

fλY (k) = P [Y = k] = exp (−λ)1

k!exp (k log(λ)) ,

e deduza que Y e de tipo exponencial.

2. Justifique que θ = log(λ) e o parametro natural da distribuicao de Poisson.

3. Justifique que a funcao log e a funcao de ligacao canonica correspondente.


4 Capıtulo 4

Exercıcio 55 (Tipo exponencial: gama). Mostre que a distribuicao gama e de tipo exponencial. Indique[1]a respectiva representacao canonica, qual o parametro natural e a funcao de ligacao canonica.

Exercıcio 56 (Tipo exponencial: invariancia por estandardizacao). Seja X uma variavel aleatoria de [2]tipo exponencial. Seja r ∈ R, s > 0 e seja a variavel aleatoria (X − r)/s.

1. Determine a densidade de (X − r)/s exprimindo-a em funcao da densidade de X.

2. Mostre que (X − r)/s tambem de tipo exponencial apresentando a respectiva decomposicao dadensidade em funcao da decomposicao da densidade de X.

Exercıcio 57 (Uma demonstracao). Demonstre o teorema 28. [3]

Exercıcio 58 (Verosimilhanca nos modelos exponenciais). Seja Y uma variavel aleatoria de tipo expo- [1]nencial. Considere Y = (Y1, Y2, . . . , Ym) uma amostra de Y que tem como realizacao y1, y2, . . . , ym ∈Y (Ω). Seja θ ∈ Θ ⊆ Rd o parametro de Y .

1. De uma expressao para a verosimilhanca de Y para a amostra Y e para os dados y1, y2, . . . , ym.2. Defina o estimador de maxima verosimilhanca de θ, enunciando as propriedades suficientes sobre

a lei de Y e sobre Θ que garantem a existencia desse estimador.

3. Enuncie as propriedades do estimador de maxima verosimilhanca de θ que considera mais impor-tantes.

Exercıcio 59 (Deviance em modelos exponenciais). Confirme os resultados apresentados para a deviance [1]nos modelos que figuram na tabela 4.2.

4.9 Resolucoes

Resolucao:[Exercıcio 55] Consideremos X _ G e a densidade fα,βX desta distribuicaogama dada por:

fα,βX (x) =1

Γ(α)βαe−βxxα−1 .

Temos entao que:

log fα,βX (x) = −βx+ α log β + (α− 1) log x− log Γ(α)

=(β/α)x

(−1/α)− log (β/α)

(−1/α)+

[(α− 1) log x− log Γ(α) +

logα

(1/α)

].

Considerando

θ =β

α, b(θ) = log θ , φ = α , a(φ) = −1/α ,

e com

c(x, φ) = (α− 1) log x− log Γ(α) +logα

(1/α),



tem-se que

log fα,βX (x) =xθ − b(θ)a(φ)

+ c(x, φ) ,

tal como se pretendia. O parametro natural, de acordo com a definicao 35 e θ = β/α e,dado que E[X] = α/β, a funcao de ligacao canonica, de acordo com a definicao 4.11E etal que,

β

α= θ = h(E[X]) = h(α/β) ,

pelo que a funcao de ligacao canonica e tal que h(x) = 1/x, tal como se indicou natabela 4.2. ♦

Resolucao:[Exercıcio 56] Seja fX a densidade da variavel aleatoria X. Tem-se que:

P

[X − rs≤ x

]= [X ≤ sx+ r] =

∫ sx+r

−∞fX(u)du .

Com a mudanca de variavel u = sv + r (ou seja v = (u− r)/s) tem-se que:

P

[X − rs≤ x

]=

∫ x

−∞sfX(sv + r)dv ,

e, dado que g(x) := sfX(sx+ r) verifica, com a mudanca de variavel y = sx+ r (ou sejax = (y − r)/s,∫ +∞

−∞g(x)dx =

∫ +∞

−∞sfX(sx+ r)dx =

∫ +∞

−∞fX(y)dy = 1 ,

temos que g(x) e a densidade de (X − r)/s. Seja agora de acordo com a definicao ?? arepresentacao da densidade de X

fX(x) = fθ,φX (x) = exp

[xθ − b(θ)a(φ)

+ c(x, φ)

].

Tem-se entao que:

g(x) = sfθ,φX (sx+ r) = elog s exp

[(sx+ r)θ − b(θ)

a(φ)+ c(sx+ r, φ)

]=

= exp

[(xθ)/(1/s)− (1/s)(b(θ)− rθ)/(1/s)

a(φ)+ c(sx+ r, φ) + log s

]=

= exp

[xθ − (1/s)(b(θ)− rθ)

a(φ)(1/s)+ c(sx+ r, φ) + log s

],

o que mostra que, redefinindo φ de forma a incorporar s, com

b′(θ) =b(θ)− rθ

s, a′(φ′) =

a(φ)

se c′(x, φ′) = c(sx+ r, φ) + log s ,


4 Capıtulo 4

se tem,

g(x) = exp

[xθ − b′(θ)a′(φ′)

+ c′(x, φ′)

],

o que mostra que (X − r)/s e de tipo exponencial. ♦

Resolucao:[Exercıcio 58: Binomial (veja-se [Col02, p. 66–67])] Seja Y _ B(M,π)uma variavel aleatoria Binomial. A log-verosimilhanca correspondente a m observacoese:

l = log

m∏j=1

(Mj

kj

)πkj (1− π)Mj−kj

=

=m∑j=1

[log

(Mj

kj

)+ kj log πj + (Mj − kj) log(1− πj)

].

No modelo saturado as probabilidades ajustadas serao correspondentes as proporcoesobservadas kj/Mj e temos que:

lSat =m∑j=1

[log

(Mj

kj

)+ kj log

(kjMj

)+ (Mj − kj) log

(1− kj

Mj

)]Em consequencia teremos que a deviance sera:

D = −2(

l− lSat

)=

= 2m∑j=1

[kj log

(kj/Mj

πj

)+ (Mj − kj) log

(1− (kj/Mj)

1− πj

)]

Note-se que se o numero de sucessos decorrentes da estimacao do modelo for kj = Mj πjem que πj e a probabilidade estimada no modelo tem-se que:

D = 2

m∑j=1

[kj log

(kj

kj

)+ (Mj − kj) log

(Mj − kjMj − kj

)]=

= 2m∑j=1

log

(kj

kj

)kj+ log

(Mj − kjMj − kj

)Mj−kj .

♦

4.10 Comentarios sobre as referencias

Nesta seccao fazem-se breves comentarios as referencias indicadas com o fim de encorajara sua consulta.



• [HE06] Um texto que tambem auxilia a familiarizacao com as principais tecnicasestatısticas usando o software R.

• [Pru11] E um texto recente onde as principais tecnicas estatısticas podem ser ex-ploradas com o auxılio do software R.

• [Wil01] Um curso sobre Estatıstica por um eminente probabilista; um olhar crıticoe profundo sobre muitos conceitos.

• [MN89] E a obra dos autores que introduziram os princiapais conceitos estudadosneste capıtulo.

• [Agr07] Obra em que e dado mais enfase a discussao aprofundada das caracteısticasproprias de cada um dos muitos exemplos praticos apresentados ilustrando muitosproblemas aplicados e os modelos mais adequados.

• [Gil00] Apresentacao sucinta e bastante completa dos GLM, contendo alguns dosdetalhes tecnicos mais importantes.

• [jHLS13] A regressao logıstica e explicada sem grande detalhe tecnico mas pondoem evidencias as principais ideias e a forma de interpretar os resultados dasanalises.

• [Lon97] Obra completa com bastante detalhe tecnico e analises que permitem umamelhor compreensao das tecnicas e metodos apresentados.

• [TS00] Obra de referencia em lıngua Portuguesa onde se podem encontrar analisesrigorosas de variados exemplos praticos.

Bibliografia

[Agr07] A. Agresti. An Introduction to Categorical Data Analysis. Wiley Series inProbability and Statistics. Wiley, 2007.

[Col02] D. Collett. Modelling Binary Data, Second Edition. Chapman & Hall/CRCTexts in Statistical Science. Taylor & Francis, 2002.

[Gil00] J. Gill. Generalized Linear Models: A Unified Approach. Quantitative Applica-tions in the Social Sciences. SAGE Publications, 2000.

[HE06] T. Hothorn and B.S. Everitt. A Handbook of Statistical Analyses Using R. CRCPress, 2006.

[IM90] G.I. Ivchenko and Yu.I. Medvedev. Mathematical Statistics. Mir PublishersMoscow, 1990.


4 Capıtulo 4

[jHLS13] David W. jun. Hosmer, Stanley Lemeshow, and Rodney X. Sturdivant. Appliedlogistic regression. 3rd ed. Hoboken, NJ: John Wiley & Sons, 3rd ed. edition,2013.

[Lin05] Yu. N. Lin’kov. Lectures in mathematical statistics. Parts 1 and 2. Translatedfrom the Russian original by Oleg Klesov and Vladimir Zayats. Providence, RI:American Mathematical Society (AMS), 2005.

[Lon97] J.Scott Long. Regression models for categorical and limited dependent variables.Thousand Oaks, CA: SAGE Publications, 1997.

[MN89] P. McCullagh and J.A. Nelder. Generalized Linear Models, Second Edition.Chapman & Hall/CRC Monographs on Statistics & Applied Probability. Taylor& Francis, 1989.

[Pru11] Randall Pruim. Foundations and Applications of Statistics: An IntroductionUsing R. Pure and Applied Undergraduate Texts. American MathematicalSociety, 2011.

[SS94] P.K. Sen and J.M. Singer. Large Sample Methods in Statistics: An Introductionwith Applications. Chapman & Hall/CRC Texts in Statistical Science. Taylor& Francis, 1994.

[TS00] Amaral Turkman and G.L. Silva. Modelos Lineares Generalizados - da teoria apratica. Edicoes SPE, Sociedade Portuguesa de Estatıstica, 2000.

[Was13] L. Wasserman. All of Statistics: A Concise Course in Statistical Inference.Springer Texts in Statistics. Springer New York, 2013.

[Wil01] David Williams. Weighing the Odds: A Course in Probability and Statistics.Cambridge University Press, 2001.


Date post:	16-Jul-2020
Category:	Documents
Upload:	others
View:	0 times
Download:	0 times

Infer^encia e Modela˘c~ao Estat...

Documents