Bornes d'estimation Cours 1a 3 : Introduction, Modeles …cappe/2006-2007/cours1-3_2pp.pdf · 2008....

transcript

Première partie I

Cours 1 à 3 : Introduction, Modèles statistiques,Bornes d’estimation (version corrigée, 27 fév. 2007)

Introduction

MAP433 Statistique

L’équipe enseignante

Cours Olivier Cappé, laboratoire traitement etcommunication de l’information, CNRS — ENST

Petites classes

Randal Douc, département de mathématiquesappliquées, Ecole PolytechniqueGabriel Lang, laboratoire Gestion du Risque enSciences de l’Eau, ENGREFStéphane Grégoir, Centre de Recherche enÉconomie et Statistique, INSEE

Introduction

MAP433 Statistique

Le cours

Amphis & PC Vendredi 2 février, 9 février, 16 février, 2 mars,9 mars, 16 mars, 30 mars, 6 avril, 20 avril

Les transparents du cours sont disponibles àpartir dehttp://www.catalogue.polytechnique.fr/Les codes scilab utilisées pour illustrer le courssont également disponibles (même adresse)

Tutorat Le mardi à 17h30, à partir du 27 fév. (informationsauprès de la scolarité)

Projet facultatif Les sujets seront présentés le 9 mars, s’incrirepour le 30 mars, à rendre pour le 1er juin(impérativement)

CC Mercredi 2 mai (attention : date modifiée)

Introduction

1 IntroductionIntroduction à la statistiqueUn exemple élémentaireStatistiques descriptives

2 Modélisation statistique

3 Bornes d’estimation

Introduction Introduction à la statistique

La statistique

A pour but de fournir un ensemble de méthodes permettant, àpartir d’observations,

d’analyser (de décrire) les données observées,mais également d’en déduire des traitements(modèles/interprétations) :aide à la décision, mise en évidence de facteurs explicatifs,prédiction du comportement futur, . . .

Repose sur la modélisation probabiliste des observations


Exemples

Prédire le résultat d’une élection, à partir de sondage(s)

Dire si la qualité de l’air s’est ou non améliorée suite à unaménagement routier, à partir de données de pollution

Analyser les résultats d’un vote, à partir de questionnaires

Analyser les facteurs d’échec scolaire, à partir de donnéessociologiques recueillies lors de recensements

Valider l’efficacité d’un traitement médicamenteux, sur la based’essais cliniques

Mesurer l’impact d’un site web, à partir de mesure deconnectivité (analyse des liens hypertextes)

Détecter automatiquement des courriels non-sollicités, à partirde corpus d’exemples

Optimiser une stratégie de gestion de portefeuille, à partir dedonnées historiques


Les observations sont vues comme des réalisations de variablesaléatoires définies sur un espace probabilisable (Ω,F)

Probabilités

Statistique

ObservationsLoi de probabilité

La théorie des probabilités vise à évaluer le comportement desobservations (espérance, moments, probabilités dedépassement, comportement de sommes, . . .) étantdonné la loi de probabilité P

La statistique fournit des méthodes pour résoudre le problèmeinverse dit d’inférence statistique : caractériser P auvu des observations


En général, l’objectif de déterminer complètement P à partird’observations est trop ambitieux et il est nécessaire

1 de faire des hypothèses plus restrictives sur la loi P ; ceshypothèses reflètent nos connaissances a priori sur leprocessus qui génère les données (cf. cours suivant)

2 de considérer des observations dont la structure probabilisteest raisonnablement simple

Modèle statique ou d’échantillonnage

Dans ce cours, on considérera uniquement le cas d’observationsY1, . . . , Yn indépendantes et, le plus souvent, de même loi

Introduction Un exemple élémentaire

Modèle d’échantillonnage de Bernoulli

On suppose que les observations Y1, . . . , Yn sont des variablesindépendantes et de même loi (ou IID) à valeur dans {0, 1}

Le modèle statistique le plus simple, néanmoins rencontré dans denombreuses applications (tests de qualité, questionnaires . . .)

1 La loi des observations est entièrement déterminée par

θdef=P(Yi = 1)*

2 L’inférence statistique, (( déterminer θ à partir desobservations )), est un objectif raisonnable du fait de la loi desgrands nombres

1n

n∑i=1

Yip.s.−→ θ

*Un petit souci de notation ici (cf. cours suivant)Introduction Un exemple élémentaire

Dans ce modèle particulièrement simple, on sait égalementquantifier les performances de l’inférence statistique à l’aide derésultats

Asymptotiques comme le théorème de la limite centrale

√n

(1n

n∑i=1

Yi − θ

)L−→N (0, θ(1− θ))

c’est à dire

P

[√n

θ(1− θ)

∣∣∣∣∣ 1nn∑i=1

Yi − θ

∣∣∣∣∣ > ε]→ 2 (1− Φ(ε))

Non-asymptotiques comme l’inégalité d’Hoeffding

P

[∣∣∣∣∣ 1nn∑i=1

Yi − θ

∣∣∣∣∣ > ε]≤ 2 exp

(−2nε2

)


n0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000

0.65

0.70

0.75

0.80

0.85

0.90

0.95

1.00

Fig.: 1/n∑n

i=1 Yi(θ = 0.9, 10 réalisations)

n = 10

−3 −2 −1 0 1 2 30.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

1.6

1.8

2.0n = 100

−3 −2 −1 0 1 2 30.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

0.45

0.50n = 1000

−3 −2 −1 0 1 2 30.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

0.45

0.50

−3 −2 −1 0 1 2 3−3

−2

−1

0

1

2

3

−3 −2 −1 0 1 2 3−3

−2

−1

0

1

2

3

−3 −2 −1 0 1 2 3−3

−2

−1

0

1

2

3

Fig.: Histogrammes et QQ-plots de1/√nθ(1− θ)

∑ni=1(Yi − θ)

(θ = 0.9, 100 réalisations)

quantiles empiriques


Approcher θ par 1n∑n

i=1 Yi constitue un exemple d’estimation : θest un paramètre et 1n

∑ni=1 Yi un estimateur

On peut également s’intéresser

aux tests, par ex., (( les données sont-elles compatibles avecl’hypothèse θ = θ0 ? ))aux régions de confiance (( au vu des données, quelles sont lesvaleurs de θ qui sont crédibles ? ))


Une réponse possible (via Hoeffding)

P

[∣∣∣∣∣ 1nn∑i=1

Yi − θ

∣∣∣∣∣ >√

log(1/α)2n

]≤ 2α

Si∣∣ 1n

∑ni=1 Yi − θ0

∣∣ est supérieur à √ log(1/α)2n , par exemplepour α = 0.025, l’affirmation (( θ = θ0 )) est peu vraisemblable

Les valeurs de θ situées au delà de 1n∑n

i=1 Yi ±√

log(1/α)2n

sont peu crédibles


n0 50 100 150 200 250 300

−1.5

−1.0

−0.5

0.0

0.5

1.0

1.5

Fig.: 1/n∑n

i=1(Yi − 0.9) pour θ = 0.9 et θ = 0.75 (5 réalisations)comparé à

√log(1/α)/2n pour α = 0.025


Plus généralement

Au delà ce cas très simple

L’inférence statistique est-elle toujours un objectifraisonnable ?

Quel type de modélisation utiliser pour la loi des observations ?

Comment systématiser l’intuition basée sur la loi des grandsnombres ?

Peut-on traiter les cas où la loi des observations dépend defaçon plus complexe des paramètres θ ?

Comment quantifier les performances de l’estimation ?

Le comportement en n observé précédemment est-ilgénéralisable ?

Peut-on rationaliser et généraliser les constructions de test etde région de confiance ?

Introduction Statistiques descriptives

Un peu de terminologie

L’échantillon désigne l’ensemble des données observées Y1, . . . , Yn

Une statistique est une fonction des observations :par exemple, Sn =

∑ni=1 Yi et

Rn = max{Yi} −min{Yi} sont des statistiques ; lesestimateurs sont des statistiques bien choisies enfonction d’un objectif

Les statistiques sont des variables aléatoires . . .

Les moments empiriques

Moyenne 1/n∑n

i=1 YiVariance 1/n

∑ni=1 Y

2i − (1/n

∑ni=1 Yi)

2

= 1/n∑n

i=1

(Yi − 1/n

∑nj=1 Yj

)2Les quantiles empiriques

Médiane Xi tel que∑n

j=1 1{Xj ≥ Xi} = bn/2cQuartiles médianes de {Xj : Xj ≤ médiane} et{Xj : Xj ≥ médiane} QQ-plot


Représentations graphiques

−50 −40 −30 −20 −10 0 10 20 30 40 500.00

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

Fig.: Mesures historiques de la vitesse de la lumière (Newcomb, 1891) :Données, histogramme, moyenne, quartiles


Nous considérerons souvent des données multivariées

latitude

temperature

25 30 35 40 45 50−20

−15

−10

−5

0

5

10

15

20

Fig.: Températures relevées aux Etats-Unis : Température en fonction dela latitude

Modélisation statistique

1 Introduction

2 Modélisation statistiqueModèles statistiquesModèles conditionnelsProblèmes statistiques

3 Bornes d’estimation

Modélisation statistique Modèles statistiques

Modèle statistique, modèle dominé [Définitions 1.1, 1.6]

Famille de lois de probabilité P = {Pθ, θ ∈ Θ} sur un espace YUn modèle est dit dominé lorsque pour tout θ ∈ Θ, Pθ admet unedensité notée `(y; θ) par rapport à une mesure de domination µfixe*

Classes de modèles statistiques

Modèle paramétrique

P = {Pθ, θ ∈ Θ ⊂ Rp}, θ est le paramètre du modèle

Exemple (Modèle de Bernoulli pour des réponses binaires)Y = {0, 1}, Pθ(Y = 1) = θ, θ ∈ [0, 1]

*On note Pθ la probabilité, Eθ l’espérance, Vθ la variance (ou matrice devariance-covariance) pour une valeur de θ donnée


Classes de modèles statistiques (suite)

Modèle paramétrique avec paramètre(s) de nuisance (ou nonidentifiable)

P = {Pθ, θ ∈ Θ ⊂ Rp}, g(θ) est le paramètre d’intérêt

Exemple (Modèle de dispersion gaussien)

Y = R, `(y;µ, σ) = 1√2πσ

exp[−(y − µ)

2

2σ2

], µ ∈ R, σ ∈ R+


Modèle non-paramétrique P = {Pf , f ∈ F} où F n’est pas unsous ensemble d’un espace vectoriel de dimension finie

Exemple (Estimation d’une loi discrète) Y = N, F estl’ensemble des probabilités sur N

Modèle semi-paramétrique

P = {Pθ,f , θ ∈ Θ, f ∈ F}, θ est le paramètre d’intérêt

Exemple (Modèle de translation) Y = R, Θ = R,`(y; θ) = f(y − θ) où f est une densité de probabilité symétrique(inconnue) sur R


Modèle à variable latente

L’observation Y est une fonction d’une variable aléatoire Z, dontla loi dépend de θ, et qui n’est pas totalement observable

Exemples

Données censurées Y = min(Y ∗, τ)avec Y = R, Y ∗ ∼ Pθ, τ ∈ RDonnées bruitées Y = Y ∗ + Uoù Y ∗ ∼ Pθ et U et Y sont indépendantsDonnées corrompues (par des valeurs aberrantes)

Y =

{Y ∗1 si U > ε

Y ∗2 sinon

avec Y ∗1 ∼ Pθ, Y ∗2 ∼ Q, U ∼ Uniforme([0, 1]) (Y ∗1 , Y ∗2 et Uindépendants) et ε ∈]0, 1[

Modélisation statistique Modèles conditionnels

Modèle conditionnel [Section 2.2]

Les observations sont formées de couples X,Y tels que

La famille de lois conditionnelles Pθ,x (ou de densitésconditionnelles `(y|x; θ) pour un modèle dominé) dépend duparamètre θ ∈ Θ ⊂ Rp

X est de loi marginale inconnue, ne dépendant pas de θ

Dans le cadre de ce cours, on considérera uniquement les modèlesstatiques (ou M.C.S.) dans lesquels les couples (Xi, Yi) observéssont indépendants et de même loi

Y est dite variable endogène ou de réponse

X est dite variable exogène ou explicative


Modèle de régression linéaire [Section 2.2.2]

Y = R, X = Rp, β ∈ Rp,

Eθ[Y |X] = X ′β ou, de façon équivalente Y = X ′β + U

avec Eθ[U |X] = 0

C’est toujours un modèle semi-paramétrique (si on ne spécifie pasla loi de X), mais conditionnellement, il sera dit

1 Paramétrique Si la loi conditionnelle de U sachant X estspécifiée (par ex. U |X ∼ N (0, σ2Id) — modèle gaussien ounormal)

2 Semi-paramétrique Si on suppose juste, par exemple, queEθ[‖U‖2|X]


Dans le polycopié une grande partie des résultats sont donnéesdans le cas (plus général) où X est aléatoire, mais on s’intéresseaussi souvent au cas ou X est déterministe

Exemple (Données de durée du jour)

année

ms

1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007−1.5

−1.0

−0.5

0.0

0.5

1.0

1.5

2.0

2.5

3.0

FIG. : Variation dela durée du jour enms (mesuresjournalières sur 10ans)


NotationEX espérance par rapport à la loi des variables exogènes

Principales propriétés de l’espérance conditionnelle

1 Soit h et g des fonctions (Eθ|h(Y )|

Modélisation statistique Problèmes statistiques

Les grandes classes de problèmes statistiques [Section 1.2]

Estimation Déterminer la valeur du paramètre θ, ou de g(θ) (oùg n’est pas nécessairement injective) ; réponse :valeur estimée θ̂ ∈ Θ

Test Déterminer si θ (ou g(θ)) est ou non élément deG ⊂ Θ ; réponse : décision binaire ∈ {0, 1}

Région de confiance Déterminer un ensemble G ⊂ Θ contenant θ ;réponse : Ĝ ⊂ Θ

Dans les trois cas, on souhaite fournir, en plus du résultat, unefaçon de quantifier sa fiabilité

Remarque : Les observations étant aléatoires, les résultats del’inférence statistiques le sont aussi. Il existe donc toujours uneprobabilité non nulle de fournir un résultat (( incorrect )). On peutnéanmoins s’attendre à ce que cette probabilité deviennearbitrairement faible lorsque le nombre d’observations augmente

Bornes d’estimation

1 Introduction

2 Modélisation statistique

3 Bornes d’estimationRisque quadratique, biais, varianceConditions de régularitéInformation de FisherBorne de Cramer-Rao (Inégalité d’information)Modèles exponentiels

Bornes d’estimation Risque quadratique, biais, variance

Risque quadratique (cas scalaire) [Section 4.1]

Pour quantifier la performance d’un estimateur θ̂ = δ(Y )

On définit une fonction de perte l(ϕ; θ) à valeur dans R+ quireprésente la pénalité liée à l’approximation de θ par ϕ

Pour un paramètre θ réel, le choix le plus courant est la pertequadratique l(ϕ; θ) = (ϕ− θ)2

Le risque mesure, en moyenne, la perte liée à l’estimation de θpar l’estimateur θ̂

Dans le cas de la perte quadratique, on obtient le risquequadratique :

r(θ̂; θ) = Eθ(δ(Y )− θ)2


Décomposition biais/variance

r(θ̂; θ) = Vθ(δ(Y )) + b2(θ̂; θ)

où

b(θ̂; θ) def=Eθ[δ(Y )]− θ est le biais,Vθ[θ̂] = Eθ (δ(Y )− Eθ[δ(Y )])2 est la variance de l’estimateur

Preuve

(δ(Y )− θ)2 = {[δ(Y )− Eθ(δ(Y ))] + [Eθ(δ(Y ))− θ]}2

Puis développer le carré et prendre l’espérance


Exemple (Estimateur à rétrécissement)

Soit θ̂ un estimateur sans biais de θ de variance υ(θ)

L’estimateur γθ̂,avec γ ∈ [0, 1], apour risquequadratique :

(γ − 1)2θ2︸︷︷︸biais2

+ γ2υ(θ)︸︷︷︸variance 0

θ2

θ2

θ2+υ(θ)

θ2υ(θ)θ2+υ(θ)

1

υ(θ)

Si |θ| est suffisamment faible, en particulier si |θ| ≤√υ(θ), γθ̂ est

préférable à θ̂ ; l’inverse est vrai pour les grandes valeurs de |θ|

En général, le risque quadratique ne permet pas d’ordonnertotalement les estimateurs


Risque quadratique (cas vectoriel) [Proposition 4.2]

Dans le cas vectoriel, on définit le risque matriciel d’un estimateurθ̂ = δ(Y ) par

r(θ̂; θ) = Eθ[(δ(Y )− θ)(δ(Y )− θ)′

]Comme dans le cas scalaire,

r(θ̂; θ) = (Eθ[δ(Y )]− θ)︸︷︷︸biais

(Eθ[δ(Y )]− θ)′ + Vθ[δ(Y )]︸︷︷︸matrice decovariance

Si r(θ̃; θ) � r(θ̂; θ), l’estimateur θ̂ sera dit préférable à θ̃ (même àθ fixé, il s’agit d’une relation d’ordre partiel)


Les bornes d’estimationOn cherche à répondre à la question (( quelles sont les meilleuresperformances envisageables en terme de risque quadratique ? ))

Intuitivement, la réponse à cette question est liée à la sensibilité dela vraisemblance `(·; θ) vis à vis de θ :

θθ+∆θθ−∆θ

θθ+∆θθ−∆θ

Bornes d’estimation Conditions de régularité

Modèle régulier [Section 3.3.1]

Le modèle {Pθ, θ ∈ Θ}, avec Θ sous-ensemble ouvert de Rp estdominé par une mesure µ avec des densités de probabilités{`(y, θ), θ ∈ Θ} telles queC1 `(y; θ) > 0 (modèle homogène)C2 `(y; θ) est deux fois différentiable en θ

C3 Eθ∥∥∥∂ log `(Y ;θ)∂θ ∥∥∥2

Bornes d’estimation Information de Fisher

Information de Fisher [Définition 3.7]

Pour un modèle régulier, la matrice d’information de Fisher* estdéfinie par

IF (θ) = Vθ

[∂ log `(Y ; θ)

∂θ

]où, pour un paramètre vectoriel, Vθ désigne la matrice decovariance

Propriété [Théorème 3.8]

IF (θ) = −Eθ[∂2 log `(Y ; θ)

∂θ∂θ′

]

*Ronald A. Fisher (1890 – 1962)Bornes d’estimation Information de Fisher

Preuve

− Eθ[∂2 log `(Y ; θ)

∂θ∂θ′

]=

− Eθ[

1`(Y ; θ)

∂2`(Y ; θ)∂θ∂θ′︸︷︷︸R ∂2`(y;θ)

∂θ∂θ′ µ(dy)

− 1`2(Y ; θ)

∂`(Y ; θ)∂θ

∂`(Y ; θ)∂θ′︸︷︷︸

∂ log `(Y ;θ)∂θ

∂ log `(Y ;θ)

∂θ′

]

= Vθ

[∂ log `(Y ; θ)

∂θ

]En notant que

∫`(y; θ)µ(dy) = 1 pour tout θ ∈ Θ implique que

Eθ[∂ log `(Y ;θ)

∂θ

]et∫ ∂2`(y;θ)

∂θ∂θ′ µ(dy) sont nuls

Bornes d’estimation Information de Fisher

Propriétés de l’information de Fisher

IF (θ) = 0 ssi∥∥∥∂ log `(Y ;θ)∂θ ∥∥∥ = 0 avec Pθ probabilité 1

Si X et Y sont indépendants, IX,YF (θ) = IXF (θ) + I

YF (θ)

en particulier, si Y1, . . . , Yn sont IID,

IY1,...,YnF (θ) = nIY1F (θ)

De façon générale, IX,YF (θ) � IXF (θ), avec égalité uniquementsi la loi conditionnelle de Y sachant X ne dépend pas de θ,avec Pθ probabilité 1 [Section 3.2]

Dans un modèle conditionnel,

IF (θ) = E

{−Eθ

[∂2 log `(Y |X; θ)

∂θ∂θ′

∣∣∣∣X]︸︷︷︸information conditionnelle

}

Bornes d’estimation Borne de Cramer-Rao (Inégalité d’information)

Borne de (Fréchet-Darmois)-Cramér-Rao* [Théorème 4.9]

Si le modèle est régulier et IF (θ) est définie positive pour toutθ ∈ Θ ⊂ Rp ; pour tout estimateur régulier θ̂ = δ(Y ) sans biais deθ

Vθ[δ(Y )] � I−1F (θ)

Remarque M1 �M2 ⇐⇒ ∀α ∈ Rp, αM1α′ ≥ αM2α′, d’où

Vθ

(p∑

k=1

αkθ̂k

)≥ αI−1F (θ)α

′

(pour tout vecteur α ∈ Rd), en particulier Vθ(θ̂k) ≥(I−1F (θ)

)kk

*Maurice Fréchet (1878 – 1973), Georges Darmois (1888 – 1960)Harald Cramér (1893 – 1985), Calyampudi R. Rao (1920)


Preuve (Cas d’un paramètre scalaire)∫d log `(y; θ)

dθ`(y; θ)µ(dy) =

d∫`(y; θ)µ(dy)

dθ= 0 (1)

∫δ(y)

d log `(y; θ)dθ

`(y; θ)µ(dy) =d

θ︷︸︸︷∫δ(y)`(y; θ)µ(dy)

dθ= 1 (2)

d’où ∫(δ(y)− θ)d log `(y; θ)

dθ`(y; θ)µ(dy) = 1

et par application de l’inégalité de Cauchy-Schwarz

12 ≤∫

(δ(y)− θ)2`(y; θ)µ(dy)︸︷︷︸Vθ(θ̂)

∫ (d log `(y; θ)

dθ

)2`(y; θ)µ(dy)︸︷︷︸

IF (θ)


Preuve (Cas d’un paramètre vectoriel) En procédant commeprécédemment

∫(δ(y)− θ)︸︷︷︸

a(y)

∂ log `(y; θ)∂θ′︸︷︷︸b′(y)

`(y; θ)µ(dy)︸︷︷︸λ(dy)

= Id def=

1 . . .1

Puis

∫a(y)b′(y)λ(dy) = Id et M def=

∫b(y)b′(y)λ(dy) � 0 implique∫ (

a(y)−M−1b(y)) (a(y)−M−1b(y)

)′λ(dy)︸︷︷︸R

a(y)a′(y)λ(dy)−M−1

� 0

c’est à dire ∫a(y)a′(y)λ(dy) �M−1


Exemple (Modèle d’échantillonnage de Poisson)

Y1, . . . , Yn sont indépendants de loi

Pθ(Y = y) = e−θθy

y!pour y ∈ N

(Eθ[Y ] = θ, Vθ[Y ] = θ)0 2 4 6 8 10 12 14 16 18 20

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

0.5 5 10

IY1F (θ) = Vθ(−1 + Y1θ

)= 1θ , d’où I

Y1,...,YnF (θ) =

nθ et

Vθ(θ̂n) ≥θ

n

pour tout estimateur θ̂n non biaisé

θ̂n = 1n∑n

i=1 Yi atteint la borne, il est dit estimateur efficacede θ


Remarque En examinant la preuve de l’inégalité de FDCR (casscalaire), on obtient un critère d’efficacité puisque cette dernièrecorrespond au cas d’égalité dans l’inégalité de Cauchy-Schwarz,c’est à dire au cas où

∃C ∈ R : δ(y)− θ = Cd log `(y; θ)dθ

(Pθ presque partout)

La fonction s(y; θ) = d log `(y;θ)dθ est dite fonction de score (nousavons en particulier montré que Eθ[s(Y ; θ)] = 0)

Dans le cas du modèle de Poisson s(y; θ) = −1 + Y/θ, ce quimontre l’efficacité

Le critère se généralise au cas multidimensionnel


Généralisation [Théorème 4.9]

Si δ(Y ) est un estimateur sans biais de g(θ) ∈ Rr

Vθ(δ(Y )) �∂g(θ)∂θ′

I−1F (θ)∂g′(θ)∂θ

(voir la preuve dans le polycopié)

Remarque (1) Dans le cas où ϕ = g(θ) correspond à unereparamétrisation (g bijective), on a

IF (ϕ) =(∂g′(θ)∂θ

)−1IF (θ)

(∂g(θ)∂θ′

)−1=∂(g−1(ϕ)

)′∂ϕ

IF (θ)∂g−1(ϕ)∂ϕ′

(où θ = g−1(ϕ))


Remarque (2) Si θ̂ est un estimateur biaisé de θ, c’est unestimateur non biaisé de g(θ) = b(θ) + θ d’où

Vθ(θ̂) �(

Id +∂b(θ)∂θ′

)I−1F (θ)

(Id +

∂b′(θ)∂θ

)

Remarque (3) La borne n’est pas nécessairement atteignable[Example 4.10]

Dans un modèle régulier, la variance d’un estimateur θ̂n régulierdécrôıt (au mieux) à la vitesse 1/n

Bornes d’estimation Modèles exponentiels

Modèle exponentiel [Définition 3.20]

Un modèle statistique est dit exponentiel sous forme naturelle si

`(y; θ) = C(θ)h(y) exp[θ′T (y)

]où T (y) est la statistique canonique (vectorielle) et θ le paramètrenaturel du modèle

Exemples

Loi exponentielle f(y; θ) = θ exp(−θy)Loi gaussienne à variance connue

f(y;µ) =1√2πσ

exp[−(y − µ)

2

2σ2

]=

1√2πσ

exp[− µ

2

2σ2

]exp

[− y

2

2σ2

]exp

[µy

σ2

]Bornes d’estimation Modèles exponentiels

Exhaustivité de la statistique naturelle [Proposition 3.21]

La statistique T (y) est exhaustive, ce qui implique en particulierque I

T (Y )F (θ) = I

YF (θ)

Modèle d’échantillonnage de Bernoulli

Si Y1, . . . , Yn ∈ {0, 1} sont IID de loi Pθ(Yi = 1) = θ,

`n(Y1, . . . , Yn; θ) =n∏i=1

f(Yi; θ) =

n∏i=1

θYi (1− θ)Yi−1 =n∏i=1

11− θ

(θ

1− θ

)Yi=

n∏i=1

11− θ

exp

[Yi log

(θ

1− θ

)︸︷︷︸

paramètre naturel β

]=(1 + eβ

)nexp

(β

n∑i=1

Yi

)


Information dans le modèle exponentiel [Proposition 3.22]

IF (θ) = Vθ [T (Y )]

On montre de plus que les conditions de régularité du modèle seramènent au fait que la matrice de covariance Vθ [T (Y )] soitdéfinie positive (pour tout θ)


Preuve `(y; θ) = C(θ)h(y) exp [θ′T (y)] implique que

∂ log `(y; θ)∂θ

=∂ logC(θ)

∂θ+ T (y)

Par ailleurs, C(θ) =(∫h(y) exp [θ′T (y)]µ(dy)

)−1, donc

∂ logC(θ)∂θ

= −∫T (y)C(θ)h(y) exp

[θ′T (y)

]µ(dy)︸︷︷︸

Eθ[T (Y )]

D’où

IF (θ) = Eθ[(T (y)− Eθ [T (Y )]) (T (y)− Eθ [T (Y )])′

]= Vθ [T (Y )]

Bornes d'estimation Cours 1a 3 : Introduction, Modeles …cappe/2006-2007/cours1-3_2pp.pdf · 2008....

Documents