Post on 29-Jan-2021
transcript
Première partie I
Cours 1 à 3 : Introduction, Modèles statistiques,Bornes d’estimation (version corrigée, 27 fév. 2007)
Introduction
MAP433 Statistique
L’équipe enseignante
Cours Olivier Cappé, laboratoire traitement etcommunication de l’information, CNRS — ENST
Petites classes
Randal Douc, département de mathématiquesappliquées, Ecole PolytechniqueGabriel Lang, laboratoire Gestion du Risque enSciences de l’Eau, ENGREFStéphane Grégoir, Centre de Recherche enÉconomie et Statistique, INSEE
Introduction
MAP433 Statistique
Le cours
Amphis & PC Vendredi 2 février, 9 février, 16 février, 2 mars,9 mars, 16 mars, 30 mars, 6 avril, 20 avril
Les transparents du cours sont disponibles àpartir dehttp://www.catalogue.polytechnique.fr/Les codes scilab utilisées pour illustrer le courssont également disponibles (même adresse)
Tutorat Le mardi à 17h30, à partir du 27 fév. (informationsauprès de la scolarité)
Projet facultatif Les sujets seront présentés le 9 mars, s’incrirepour le 30 mars, à rendre pour le 1er juin(impérativement)
CC Mercredi 2 mai (attention : date modifiée)
Introduction
1 IntroductionIntroduction à la statistiqueUn exemple élémentaireStatistiques descriptives
2 Modélisation statistique
3 Bornes d’estimation
Introduction Introduction à la statistique
La statistique
A pour but de fournir un ensemble de méthodes permettant, àpartir d’observations,
d’analyser (de décrire) les données observées,mais également d’en déduire des traitements(modèles/interprétations) :aide à la décision, mise en évidence de facteurs explicatifs,prédiction du comportement futur, . . .
Repose sur la modélisation probabiliste des observations
Introduction Introduction à la statistique
Exemples
Prédire le résultat d’une élection, à partir de sondage(s)
Dire si la qualité de l’air s’est ou non améliorée suite à unaménagement routier, à partir de données de pollution
Analyser les résultats d’un vote, à partir de questionnaires
Analyser les facteurs d’échec scolaire, à partir de donnéessociologiques recueillies lors de recensements
Valider l’efficacité d’un traitement médicamenteux, sur la based’essais cliniques
Mesurer l’impact d’un site web, à partir de mesure deconnectivité (analyse des liens hypertextes)
Détecter automatiquement des courriels non-sollicités, à partirde corpus d’exemples
Optimiser une stratégie de gestion de portefeuille, à partir dedonnées historiques
Introduction Introduction à la statistique
Les observations sont vues comme des réalisations de variablesaléatoires définies sur un espace probabilisable (Ω,F)
Probabilités
Statistique
ObservationsLoi de probabilité
La théorie des probabilités vise à évaluer le comportement desobservations (espérance, moments, probabilités dedépassement, comportement de sommes, . . .) étantdonné la loi de probabilité P
La statistique fournit des méthodes pour résoudre le problèmeinverse dit d’inférence statistique : caractériser P auvu des observations
Introduction Introduction à la statistique
En général, l’objectif de déterminer complètement P à partird’observations est trop ambitieux et il est nécessaire
1 de faire des hypothèses plus restrictives sur la loi P ; ceshypothèses reflètent nos connaissances a priori sur leprocessus qui génère les données (cf. cours suivant)
2 de considérer des observations dont la structure probabilisteest raisonnablement simple
Modèle statique ou d’échantillonnage
Dans ce cours, on considérera uniquement le cas d’observationsY1, . . . , Yn indépendantes et, le plus souvent, de même loi
Introduction Un exemple élémentaire
Modèle d’échantillonnage de Bernoulli
On suppose que les observations Y1, . . . , Yn sont des variablesindépendantes et de même loi (ou IID) à valeur dans {0, 1}
Le modèle statistique le plus simple, néanmoins rencontré dans denombreuses applications (tests de qualité, questionnaires . . .)
1 La loi des observations est entièrement déterminée par
θdef=P(Yi = 1)*
2 L’inférence statistique, (( déterminer θ à partir desobservations )), est un objectif raisonnable du fait de la loi desgrands nombres
1n
n∑i=1
Yip.s.−→ θ
*Un petit souci de notation ici (cf. cours suivant)Introduction Un exemple élémentaire
Dans ce modèle particulièrement simple, on sait égalementquantifier les performances de l’inférence statistique à l’aide derésultats
Asymptotiques comme le théorème de la limite centrale
√n
(1n
n∑i=1
Yi − θ
)L−→N (0, θ(1− θ))
c’est à dire
P
[√n
θ(1− θ)
∣∣∣∣∣ 1nn∑i=1
Yi − θ
∣∣∣∣∣ > ε]→ 2 (1− Φ(ε))
Non-asymptotiques comme l’inégalité d’Hoeffding
P
[∣∣∣∣∣ 1nn∑i=1
Yi − θ
∣∣∣∣∣ > ε]≤ 2 exp
(−2nε2
)
Introduction Un exemple élémentaire
n0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
0.65
0.70
0.75
0.80
0.85
0.90
0.95
1.00
Fig.: 1/n∑n
i=1 Yi(θ = 0.9, 10 réalisations)
n = 10
−3 −2 −1 0 1 2 30.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
1.8
2.0n = 100
−3 −2 −1 0 1 2 30.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50n = 1000
−3 −2 −1 0 1 2 30.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50
−3 −2 −1 0 1 2 3−3
−2
−1
0
1
2
3
−3 −2 −1 0 1 2 3−3
−2
−1
0
1
2
3
−3 −2 −1 0 1 2 3−3
−2
−1
0
1
2
3
Fig.: Histogrammes et QQ-plots de1/√nθ(1− θ)
∑ni=1(Yi − θ)
(θ = 0.9, 100 réalisations)
quantiles empiriques
Introduction Un exemple élémentaire
Approcher θ par 1n∑n
i=1 Yi constitue un exemple d’estimation : θest un paramètre et 1n
∑ni=1 Yi un estimateur
On peut également s’intéresser
aux tests, par ex., (( les données sont-elles compatibles avecl’hypothèse θ = θ0 ? ))aux régions de confiance (( au vu des données, quelles sont lesvaleurs de θ qui sont crédibles ? ))
Introduction Un exemple élémentaire
Une réponse possible (via Hoeffding)
P
[∣∣∣∣∣ 1nn∑i=1
Yi − θ
∣∣∣∣∣ >√
log(1/α)2n
]≤ 2α
Si∣∣ 1n
∑ni=1 Yi − θ0
∣∣ est supérieur à √ log(1/α)2n , par exemplepour α = 0.025, l’affirmation (( θ = θ0 )) est peu vraisemblable
Les valeurs de θ situées au delà de 1n∑n
i=1 Yi ±√
log(1/α)2n
sont peu crédibles
Introduction Un exemple élémentaire
n0 50 100 150 200 250 300
−1.5
−1.0
−0.5
0.0
0.5
1.0
1.5
Fig.: 1/n∑n
i=1(Yi − 0.9) pour θ = 0.9 et θ = 0.75 (5 réalisations)comparé à
√log(1/α)/2n pour α = 0.025
Introduction Un exemple élémentaire
Plus généralement
Au delà ce cas très simple
L’inférence statistique est-elle toujours un objectifraisonnable ?
Quel type de modélisation utiliser pour la loi des observations ?
Comment systématiser l’intuition basée sur la loi des grandsnombres ?
Peut-on traiter les cas où la loi des observations dépend defaçon plus complexe des paramètres θ ?
Comment quantifier les performances de l’estimation ?
Le comportement en n observé précédemment est-ilgénéralisable ?
Peut-on rationaliser et généraliser les constructions de test etde région de confiance ?
Introduction Statistiques descriptives
Un peu de terminologie
L’échantillon désigne l’ensemble des données observées Y1, . . . , Yn
Une statistique est une fonction des observations :par exemple, Sn =
∑ni=1 Yi et
Rn = max{Yi} −min{Yi} sont des statistiques ; lesestimateurs sont des statistiques bien choisies enfonction d’un objectif
Les statistiques sont des variables aléatoires . . .
Les moments empiriques
Moyenne 1/n∑n
i=1 YiVariance 1/n
∑ni=1 Y
2i − (1/n
∑ni=1 Yi)
2
= 1/n∑n
i=1
(Yi − 1/n
∑nj=1 Yj
)2Les quantiles empiriques
Médiane Xi tel que∑n
j=1 1{Xj ≥ Xi} = bn/2cQuartiles médianes de {Xj : Xj ≤ médiane} et{Xj : Xj ≥ médiane} QQ-plot
Introduction Statistiques descriptives
Représentations graphiques
−50 −40 −30 −20 −10 0 10 20 30 40 500.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
Fig.: Mesures historiques de la vitesse de la lumière (Newcomb, 1891) :Données, histogramme, moyenne, quartiles
Introduction Statistiques descriptives
Nous considérerons souvent des données multivariées
latitude
temperature
25 30 35 40 45 50−20
−15
−10
−5
0
5
10
15
20
Fig.: Températures relevées aux Etats-Unis : Température en fonction dela latitude
Modélisation statistique
1 Introduction
2 Modélisation statistiqueModèles statistiquesModèles conditionnelsProblèmes statistiques
3 Bornes d’estimation
Modélisation statistique Modèles statistiques
Modèle statistique, modèle dominé [Définitions 1.1, 1.6]
Famille de lois de probabilité P = {Pθ, θ ∈ Θ} sur un espace YUn modèle est dit dominé lorsque pour tout θ ∈ Θ, Pθ admet unedensité notée `(y; θ) par rapport à une mesure de domination µfixe*
Classes de modèles statistiques
Modèle paramétrique
P = {Pθ, θ ∈ Θ ⊂ Rp}, θ est le paramètre du modèle
Exemple (Modèle de Bernoulli pour des réponses binaires)Y = {0, 1}, Pθ(Y = 1) = θ, θ ∈ [0, 1]
*On note Pθ la probabilité, Eθ l’espérance, Vθ la variance (ou matrice devariance-covariance) pour une valeur de θ donnée
Modélisation statistique Modèles statistiques
Classes de modèles statistiques (suite)
Modèle paramétrique avec paramètre(s) de nuisance (ou nonidentifiable)
P = {Pθ, θ ∈ Θ ⊂ Rp}, g(θ) est le paramètre d’intérêt
Exemple (Modèle de dispersion gaussien)
Y = R, `(y;µ, σ) = 1√2πσ
exp[−(y − µ)
2
2σ2
], µ ∈ R, σ ∈ R+
Modélisation statistique Modèles statistiques
Modèle non-paramétrique P = {Pf , f ∈ F} où F n’est pas unsous ensemble d’un espace vectoriel de dimension finie
Exemple (Estimation d’une loi discrète) Y = N, F estl’ensemble des probabilités sur N
Modèle semi-paramétrique
P = {Pθ,f , θ ∈ Θ, f ∈ F}, θ est le paramètre d’intérêt
Exemple (Modèle de translation) Y = R, Θ = R,`(y; θ) = f(y − θ) où f est une densité de probabilité symétrique(inconnue) sur R
Modélisation statistique Modèles statistiques
Modèle à variable latente
L’observation Y est une fonction d’une variable aléatoire Z, dontla loi dépend de θ, et qui n’est pas totalement observable
Exemples
Données censurées Y = min(Y ∗, τ)avec Y = R, Y ∗ ∼ Pθ, τ ∈ RDonnées bruitées Y = Y ∗ + Uoù Y ∗ ∼ Pθ et U et Y sont indépendantsDonnées corrompues (par des valeurs aberrantes)
Y =
{Y ∗1 si U > ε
Y ∗2 sinon
avec Y ∗1 ∼ Pθ, Y ∗2 ∼ Q, U ∼ Uniforme([0, 1]) (Y ∗1 , Y ∗2 et Uindépendants) et ε ∈]0, 1[
Modélisation statistique Modèles conditionnels
Modèle conditionnel [Section 2.2]
Les observations sont formées de couples X,Y tels que
La famille de lois conditionnelles Pθ,x (ou de densitésconditionnelles `(y|x; θ) pour un modèle dominé) dépend duparamètre θ ∈ Θ ⊂ Rp
X est de loi marginale inconnue, ne dépendant pas de θ
Dans le cadre de ce cours, on considérera uniquement les modèlesstatiques (ou M.C.S.) dans lesquels les couples (Xi, Yi) observéssont indépendants et de même loi
Y est dite variable endogène ou de réponse
X est dite variable exogène ou explicative
Modélisation statistique Modèles conditionnels
Modèle de régression linéaire [Section 2.2.2]
Y = R, X = Rp, β ∈ Rp,
Eθ[Y |X] = X ′β ou, de façon équivalente Y = X ′β + U
avec Eθ[U |X] = 0
C’est toujours un modèle semi-paramétrique (si on ne spécifie pasla loi de X), mais conditionnellement, il sera dit
1 Paramétrique Si la loi conditionnelle de U sachant X estspécifiée (par ex. U |X ∼ N (0, σ2Id) — modèle gaussien ounormal)
2 Semi-paramétrique Si on suppose juste, par exemple, queEθ[‖U‖2|X]
Modélisation statistique Modèles conditionnels
Dans le polycopié une grande partie des résultats sont donnéesdans le cas (plus général) où X est aléatoire, mais on s’intéresseaussi souvent au cas ou X est déterministe
Exemple (Données de durée du jour)
année
ms
1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007−1.5
−1.0
−0.5
0.0
0.5
1.0
1.5
2.0
2.5
3.0
FIG. : Variation dela durée du jour enms (mesuresjournalières sur 10ans)
Modélisation statistique Modèles conditionnels
NotationEX espérance par rapport à la loi des variables exogènes
Principales propriétés de l’espérance conditionnelle
1 Soit h et g des fonctions (Eθ|h(Y )|
Modélisation statistique Problèmes statistiques
Les grandes classes de problèmes statistiques [Section 1.2]
Estimation Déterminer la valeur du paramètre θ, ou de g(θ) (oùg n’est pas nécessairement injective) ; réponse :valeur estimée θ̂ ∈ Θ
Test Déterminer si θ (ou g(θ)) est ou non élément deG ⊂ Θ ; réponse : décision binaire ∈ {0, 1}
Région de confiance Déterminer un ensemble G ⊂ Θ contenant θ ;réponse : Ĝ ⊂ Θ
Dans les trois cas, on souhaite fournir, en plus du résultat, unefaçon de quantifier sa fiabilité
Remarque : Les observations étant aléatoires, les résultats del’inférence statistiques le sont aussi. Il existe donc toujours uneprobabilité non nulle de fournir un résultat (( incorrect )). On peutnéanmoins s’attendre à ce que cette probabilité deviennearbitrairement faible lorsque le nombre d’observations augmente
Bornes d’estimation
1 Introduction
2 Modélisation statistique
3 Bornes d’estimationRisque quadratique, biais, varianceConditions de régularitéInformation de FisherBorne de Cramer-Rao (Inégalité d’information)Modèles exponentiels
Bornes d’estimation Risque quadratique, biais, variance
Risque quadratique (cas scalaire) [Section 4.1]
Pour quantifier la performance d’un estimateur θ̂ = δ(Y )
On définit une fonction de perte l(ϕ; θ) à valeur dans R+ quireprésente la pénalité liée à l’approximation de θ par ϕ
Pour un paramètre θ réel, le choix le plus courant est la pertequadratique l(ϕ; θ) = (ϕ− θ)2
Le risque mesure, en moyenne, la perte liée à l’estimation de θpar l’estimateur θ̂
Dans le cas de la perte quadratique, on obtient le risquequadratique :
r(θ̂; θ) = Eθ(δ(Y )− θ)2
Bornes d’estimation Risque quadratique, biais, variance
Décomposition biais/variance
r(θ̂; θ) = Vθ(δ(Y )) + b2(θ̂; θ)
où
b(θ̂; θ) def=Eθ[δ(Y )]− θ est le biais,Vθ[θ̂] = Eθ (δ(Y )− Eθ[δ(Y )])2 est la variance de l’estimateur
Preuve
(δ(Y )− θ)2 = {[δ(Y )− Eθ(δ(Y ))] + [Eθ(δ(Y ))− θ]}2
Puis développer le carré et prendre l’espérance
Bornes d’estimation Risque quadratique, biais, variance
Exemple (Estimateur à rétrécissement)
Soit θ̂ un estimateur sans biais de θ de variance υ(θ)
L’estimateur γθ̂,avec γ ∈ [0, 1], apour risquequadratique :
(γ − 1)2θ2︸ ︷︷ ︸biais2
+ γ2υ(θ)︸ ︷︷ ︸variance 0
θ2
θ2
θ2+υ(θ)
θ2υ(θ)θ2+υ(θ)
1
υ(θ)
Si |θ| est suffisamment faible, en particulier si |θ| ≤√υ(θ), γθ̂ est
préférable à θ̂ ; l’inverse est vrai pour les grandes valeurs de |θ|
En général, le risque quadratique ne permet pas d’ordonnertotalement les estimateurs
Bornes d’estimation Risque quadratique, biais, variance
Risque quadratique (cas vectoriel) [Proposition 4.2]
Dans le cas vectoriel, on définit le risque matriciel d’un estimateurθ̂ = δ(Y ) par
r(θ̂; θ) = Eθ[(δ(Y )− θ)(δ(Y )− θ)′
]Comme dans le cas scalaire,
r(θ̂; θ) = (Eθ[δ(Y )]− θ)︸ ︷︷ ︸biais
(Eθ[δ(Y )]− θ)′ + Vθ[δ(Y )]︸ ︷︷ ︸matrice decovariance
Si r(θ̃; θ) � r(θ̂; θ), l’estimateur θ̂ sera dit préférable à θ̃ (même àθ fixé, il s’agit d’une relation d’ordre partiel)
Bornes d’estimation Risque quadratique, biais, variance
Les bornes d’estimationOn cherche à répondre à la question (( quelles sont les meilleuresperformances envisageables en terme de risque quadratique ? ))
Intuitivement, la réponse à cette question est liée à la sensibilité dela vraisemblance `(·; θ) vis à vis de θ :
θθ+∆θθ−∆θ
θθ+∆θθ−∆θ
Bornes d’estimation Conditions de régularité
Modèle régulier [Section 3.3.1]
Le modèle {Pθ, θ ∈ Θ}, avec Θ sous-ensemble ouvert de Rp estdominé par une mesure µ avec des densités de probabilités{`(y, θ), θ ∈ Θ} telles queC1 `(y; θ) > 0 (modèle homogène)C2 `(y; θ) est deux fois différentiable en θ
C3 Eθ∥∥∥∂ log `(Y ;θ)∂θ ∥∥∥2
Bornes d’estimation Information de Fisher
Information de Fisher [Définition 3.7]
Pour un modèle régulier, la matrice d’information de Fisher* estdéfinie par
IF (θ) = Vθ
[∂ log `(Y ; θ)
∂θ
]où, pour un paramètre vectoriel, Vθ désigne la matrice decovariance
Propriété [Théorème 3.8]
IF (θ) = −Eθ[∂2 log `(Y ; θ)
∂θ∂θ′
]
*Ronald A. Fisher (1890 – 1962)Bornes d’estimation Information de Fisher
Preuve
− Eθ[∂2 log `(Y ; θ)
∂θ∂θ′
]=
− Eθ[
1`(Y ; θ)
∂2`(Y ; θ)∂θ∂θ′︸ ︷︷ ︸R ∂2`(y;θ)
∂θ∂θ′ µ(dy)
− 1`2(Y ; θ)
∂`(Y ; θ)∂θ
∂`(Y ; θ)∂θ′︸ ︷︷ ︸
∂ log `(Y ;θ)∂θ
∂ log `(Y ;θ)
∂θ′
]
= Vθ
[∂ log `(Y ; θ)
∂θ
]En notant que
∫`(y; θ)µ(dy) = 1 pour tout θ ∈ Θ implique que
Eθ[∂ log `(Y ;θ)
∂θ
]et∫ ∂2`(y;θ)
∂θ∂θ′ µ(dy) sont nuls
Bornes d’estimation Information de Fisher
Propriétés de l’information de Fisher
IF (θ) = 0 ssi∥∥∥∂ log `(Y ;θ)∂θ ∥∥∥ = 0 avec Pθ probabilité 1
Si X et Y sont indépendants, IX,YF (θ) = IXF (θ) + I
YF (θ)
en particulier, si Y1, . . . , Yn sont IID,
IY1,...,YnF (θ) = nIY1F (θ)
De façon générale, IX,YF (θ) � IXF (θ), avec égalité uniquementsi la loi conditionnelle de Y sachant X ne dépend pas de θ,avec Pθ probabilité 1 [Section 3.2]
Dans un modèle conditionnel,
IF (θ) = E
{−Eθ
[∂2 log `(Y |X; θ)
∂θ∂θ′
∣∣∣∣X]︸ ︷︷ ︸information conditionnelle
}
Bornes d’estimation Borne de Cramer-Rao (Inégalité d’information)
Borne de (Fréchet-Darmois)-Cramér-Rao* [Théorème 4.9]
Si le modèle est régulier et IF (θ) est définie positive pour toutθ ∈ Θ ⊂ Rp ; pour tout estimateur régulier θ̂ = δ(Y ) sans biais deθ
Vθ[δ(Y )] � I−1F (θ)
Remarque M1 �M2 ⇐⇒ ∀α ∈ Rp, αM1α′ ≥ αM2α′, d’où
Vθ
(p∑
k=1
αkθ̂k
)≥ αI−1F (θ)α
′
(pour tout vecteur α ∈ Rd), en particulier Vθ(θ̂k) ≥(I−1F (θ)
)kk
*Maurice Fréchet (1878 – 1973), Georges Darmois (1888 – 1960)Harald Cramér (1893 – 1985), Calyampudi R. Rao (1920)
Bornes d’estimation Borne de Cramer-Rao (Inégalité d’information)
Preuve (Cas d’un paramètre scalaire)∫d log `(y; θ)
dθ`(y; θ)µ(dy) =
d∫`(y; θ)µ(dy)
dθ= 0 (1)
∫δ(y)
d log `(y; θ)dθ
`(y; θ)µ(dy) =d
θ︷ ︸︸ ︷∫δ(y)`(y; θ)µ(dy)
dθ= 1 (2)
d’où ∫(δ(y)− θ)d log `(y; θ)
dθ`(y; θ)µ(dy) = 1
et par application de l’inégalité de Cauchy-Schwarz
12 ≤∫
(δ(y)− θ)2`(y; θ)µ(dy)︸ ︷︷ ︸Vθ(θ̂)
∫ (d log `(y; θ)
dθ
)2`(y; θ)µ(dy)︸ ︷︷ ︸
IF (θ)
Bornes d’estimation Borne de Cramer-Rao (Inégalité d’information)
Preuve (Cas d’un paramètre vectoriel) En procédant commeprécédemment
∫(δ(y)− θ)︸ ︷︷ ︸
a(y)
∂ log `(y; θ)∂θ′︸ ︷︷ ︸b′(y)
`(y; θ)µ(dy)︸ ︷︷ ︸λ(dy)
= Id def=
1 . . .1
Puis
∫a(y)b′(y)λ(dy) = Id et M def=
∫b(y)b′(y)λ(dy) � 0 implique∫ (
a(y)−M−1b(y)) (a(y)−M−1b(y)
)′λ(dy)︸ ︷︷ ︸R
a(y)a′(y)λ(dy)−M−1
� 0
c’est à dire ∫a(y)a′(y)λ(dy) �M−1
Bornes d’estimation Borne de Cramer-Rao (Inégalité d’information)
Exemple (Modèle d’échantillonnage de Poisson)
Y1, . . . , Yn sont indépendants de loi
Pθ(Y = y) = e−θθy
y!pour y ∈ N
(Eθ[Y ] = θ, Vθ[Y ] = θ)0 2 4 6 8 10 12 14 16 18 20
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.5 5 10
IY1F (θ) = Vθ(−1 + Y1θ
)= 1θ , d’où I
Y1,...,YnF (θ) =
nθ et
Vθ(θ̂n) ≥θ
n
pour tout estimateur θ̂n non biaisé
θ̂n = 1n∑n
i=1 Yi atteint la borne, il est dit estimateur efficacede θ
Bornes d’estimation Borne de Cramer-Rao (Inégalité d’information)
Remarque En examinant la preuve de l’inégalité de FDCR (casscalaire), on obtient un critère d’efficacité puisque cette dernièrecorrespond au cas d’égalité dans l’inégalité de Cauchy-Schwarz,c’est à dire au cas où
∃C ∈ R : δ(y)− θ = Cd log `(y; θ)dθ
(Pθ presque partout)
La fonction s(y; θ) = d log `(y;θ)dθ est dite fonction de score (nousavons en particulier montré que Eθ[s(Y ; θ)] = 0)
Dans le cas du modèle de Poisson s(y; θ) = −1 + Y/θ, ce quimontre l’efficacité
Le critère se généralise au cas multidimensionnel
Bornes d’estimation Borne de Cramer-Rao (Inégalité d’information)
Généralisation [Théorème 4.9]
Si δ(Y ) est un estimateur sans biais de g(θ) ∈ Rr
Vθ(δ(Y )) �∂g(θ)∂θ′
I−1F (θ)∂g′(θ)∂θ
(voir la preuve dans le polycopié)
Remarque (1) Dans le cas où ϕ = g(θ) correspond à unereparamétrisation (g bijective), on a
IF (ϕ) =(∂g′(θ)∂θ
)−1IF (θ)
(∂g(θ)∂θ′
)−1=∂(g−1(ϕ)
)′∂ϕ
IF (θ)∂g−1(ϕ)∂ϕ′
(où θ = g−1(ϕ))
Bornes d’estimation Borne de Cramer-Rao (Inégalité d’information)
Remarque (2) Si θ̂ est un estimateur biaisé de θ, c’est unestimateur non biaisé de g(θ) = b(θ) + θ d’où
Vθ(θ̂) �(
Id +∂b(θ)∂θ′
)I−1F (θ)
(Id +
∂b′(θ)∂θ
)
Remarque (3) La borne n’est pas nécessairement atteignable[Example 4.10]
Dans un modèle régulier, la variance d’un estimateur θ̂n régulierdécrôıt (au mieux) à la vitesse 1/n
Bornes d’estimation Modèles exponentiels
Modèle exponentiel [Définition 3.20]
Un modèle statistique est dit exponentiel sous forme naturelle si
`(y; θ) = C(θ)h(y) exp[θ′T (y)
]où T (y) est la statistique canonique (vectorielle) et θ le paramètrenaturel du modèle
Exemples
Loi exponentielle f(y; θ) = θ exp(−θy)Loi gaussienne à variance connue
f(y;µ) =1√2πσ
exp[−(y − µ)
2
2σ2
]=
1√2πσ
exp[− µ
2
2σ2
]exp
[− y
2
2σ2
]exp
[µy
σ2
]Bornes d’estimation Modèles exponentiels
Exhaustivité de la statistique naturelle [Proposition 3.21]
La statistique T (y) est exhaustive, ce qui implique en particulierque I
T (Y )F (θ) = I
YF (θ)
Modèle d’échantillonnage de Bernoulli
Si Y1, . . . , Yn ∈ {0, 1} sont IID de loi Pθ(Yi = 1) = θ,
`n(Y1, . . . , Yn; θ) =n∏i=1
f(Yi; θ) =
n∏i=1
θYi (1− θ)Yi−1 =n∏i=1
11− θ
(θ
1− θ
)Yi=
n∏i=1
11− θ
exp
[Yi log
(θ
1− θ
)︸ ︷︷ ︸
paramètre naturel β
]=(1 + eβ
)nexp
(β
n∑i=1
Yi
)
Bornes d’estimation Modèles exponentiels
Information dans le modèle exponentiel [Proposition 3.22]
IF (θ) = Vθ [T (Y )]
On montre de plus que les conditions de régularité du modèle seramènent au fait que la matrice de covariance Vθ [T (Y )] soitdéfinie positive (pour tout θ)
Bornes d’estimation Modèles exponentiels
Preuve `(y; θ) = C(θ)h(y) exp [θ′T (y)] implique que
∂ log `(y; θ)∂θ
=∂ logC(θ)
∂θ+ T (y)
Par ailleurs, C(θ) =(∫h(y) exp [θ′T (y)]µ(dy)
)−1, donc
∂ logC(θ)∂θ
= −∫T (y)C(θ)h(y) exp
[θ′T (y)
]µ(dy)︸ ︷︷ ︸
Eθ[T (Y )]
D’où
IF (θ) = Eθ[(T (y)− Eθ [T (Y )]) (T (y)− Eθ [T (Y )])′
]= Vθ [T (Y )]