+ All Categories
Home > Documents > Bornes d'estimation Cours 1a 3 : Introduction, Modeles …cappe/2006-2007/cours1-3_2pp.pdf · 2008....

Bornes d'estimation Cours 1a 3 : Introduction, Modeles …cappe/2006-2007/cours1-3_2pp.pdf · 2008....

Date post: 29-Jan-2021
Category:
Upload: others
View: 2 times
Download: 0 times
Share this document with a friend
25
Premi` ere partie I Cours 1 ` a 3 : Introduction, Mod` eles statistiques, Bornes d’estimation (version corrig´ ee, 27 f´ ev. 2007) Introduction MAP433 Statistique L’´ equipe enseignante Cours Olivier Capp´ e, laboratoire traitement et communication de l’information, CNRS — ENST Petites classes Randal Douc, d´ epartement de math´ ematiques appliqu´ ees, Ecole Polytechnique Gabriel Lang, laboratoire Gestion du Risque en Sciences de l’Eau, ENGREF St´ ephane Gr´ egoir, Centre de Recherche en ´ Economie et Statistique, INSEE
Transcript
  • Première partie I

    Cours 1 à 3 : Introduction, Modèles statistiques,Bornes d’estimation (version corrigée, 27 fév. 2007)

    Introduction

    MAP433 Statistique

    L’équipe enseignante

    Cours Olivier Cappé, laboratoire traitement etcommunication de l’information, CNRS — ENST

    Petites classes

    Randal Douc, département de mathématiquesappliquées, Ecole PolytechniqueGabriel Lang, laboratoire Gestion du Risque enSciences de l’Eau, ENGREFStéphane Grégoir, Centre de Recherche enÉconomie et Statistique, INSEE

  • Introduction

    MAP433 Statistique

    Le cours

    Amphis & PC Vendredi 2 février, 9 février, 16 février, 2 mars,9 mars, 16 mars, 30 mars, 6 avril, 20 avril

    Les transparents du cours sont disponibles àpartir dehttp://www.catalogue.polytechnique.fr/Les codes scilab utilisées pour illustrer le courssont également disponibles (même adresse)

    Tutorat Le mardi à 17h30, à partir du 27 fév. (informationsauprès de la scolarité)

    Projet facultatif Les sujets seront présentés le 9 mars, s’incrirepour le 30 mars, à rendre pour le 1er juin(impérativement)

    CC Mercredi 2 mai (attention : date modifiée)

    Introduction

    1 IntroductionIntroduction à la statistiqueUn exemple élémentaireStatistiques descriptives

    2 Modélisation statistique

    3 Bornes d’estimation

  • Introduction Introduction à la statistique

    La statistique

    A pour but de fournir un ensemble de méthodes permettant, àpartir d’observations,

    d’analyser (de décrire) les données observées,mais également d’en déduire des traitements(modèles/interprétations) :aide à la décision, mise en évidence de facteurs explicatifs,prédiction du comportement futur, . . .

    Repose sur la modélisation probabiliste des observations

    Introduction Introduction à la statistique

    Exemples

    Prédire le résultat d’une élection, à partir de sondage(s)

    Dire si la qualité de l’air s’est ou non améliorée suite à unaménagement routier, à partir de données de pollution

    Analyser les résultats d’un vote, à partir de questionnaires

    Analyser les facteurs d’échec scolaire, à partir de donnéessociologiques recueillies lors de recensements

    Valider l’efficacité d’un traitement médicamenteux, sur la based’essais cliniques

    Mesurer l’impact d’un site web, à partir de mesure deconnectivité (analyse des liens hypertextes)

    Détecter automatiquement des courriels non-sollicités, à partirde corpus d’exemples

    Optimiser une stratégie de gestion de portefeuille, à partir dedonnées historiques

  • Introduction Introduction à la statistique

    Les observations sont vues comme des réalisations de variablesaléatoires définies sur un espace probabilisable (Ω,F)

    Probabilités

    Statistique

    ObservationsLoi de probabilité

    La théorie des probabilités vise à évaluer le comportement desobservations (espérance, moments, probabilités dedépassement, comportement de sommes, . . .) étantdonné la loi de probabilité P

    La statistique fournit des méthodes pour résoudre le problèmeinverse dit d’inférence statistique : caractériser P auvu des observations

    Introduction Introduction à la statistique

    En général, l’objectif de déterminer complètement P à partird’observations est trop ambitieux et il est nécessaire

    1 de faire des hypothèses plus restrictives sur la loi P ; ceshypothèses reflètent nos connaissances a priori sur leprocessus qui génère les données (cf. cours suivant)

    2 de considérer des observations dont la structure probabilisteest raisonnablement simple

    Modèle statique ou d’échantillonnage

    Dans ce cours, on considérera uniquement le cas d’observationsY1, . . . , Yn indépendantes et, le plus souvent, de même loi

  • Introduction Un exemple élémentaire

    Modèle d’échantillonnage de Bernoulli

    On suppose que les observations Y1, . . . , Yn sont des variablesindépendantes et de même loi (ou IID) à valeur dans {0, 1}

    Le modèle statistique le plus simple, néanmoins rencontré dans denombreuses applications (tests de qualité, questionnaires . . .)

    1 La loi des observations est entièrement déterminée par

    θdef=P(Yi = 1)*

    2 L’inférence statistique, (( déterminer θ à partir desobservations )), est un objectif raisonnable du fait de la loi desgrands nombres

    1n

    n∑i=1

    Yip.s.−→ θ

    *Un petit souci de notation ici (cf. cours suivant)Introduction Un exemple élémentaire

    Dans ce modèle particulièrement simple, on sait égalementquantifier les performances de l’inférence statistique à l’aide derésultats

    Asymptotiques comme le théorème de la limite centrale

    √n

    (1n

    n∑i=1

    Yi − θ

    )L−→N (0, θ(1− θ))

    c’est à dire

    P

    [√n

    θ(1− θ)

    ∣∣∣∣∣ 1nn∑i=1

    Yi − θ

    ∣∣∣∣∣ > ε]→ 2 (1− Φ(ε))

    Non-asymptotiques comme l’inégalité d’Hoeffding

    P

    [∣∣∣∣∣ 1nn∑i=1

    Yi − θ

    ∣∣∣∣∣ > ε]≤ 2 exp

    (−2nε2

    )

  • Introduction Un exemple élémentaire

    n0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000

    0.65

    0.70

    0.75

    0.80

    0.85

    0.90

    0.95

    1.00

    Fig.: 1/n∑n

    i=1 Yi(θ = 0.9, 10 réalisations)

    n = 10

    −3 −2 −1 0 1 2 30.0

    0.2

    0.4

    0.6

    0.8

    1.0

    1.2

    1.4

    1.6

    1.8

    2.0n = 100

    −3 −2 −1 0 1 2 30.00

    0.05

    0.10

    0.15

    0.20

    0.25

    0.30

    0.35

    0.40

    0.45

    0.50n = 1000

    −3 −2 −1 0 1 2 30.00

    0.05

    0.10

    0.15

    0.20

    0.25

    0.30

    0.35

    0.40

    0.45

    0.50

    −3 −2 −1 0 1 2 3−3

    −2

    −1

    0

    1

    2

    3

    −3 −2 −1 0 1 2 3−3

    −2

    −1

    0

    1

    2

    3

    −3 −2 −1 0 1 2 3−3

    −2

    −1

    0

    1

    2

    3

    Fig.: Histogrammes et QQ-plots de1/√nθ(1− θ)

    ∑ni=1(Yi − θ)

    (θ = 0.9, 100 réalisations)

    quantiles empiriques

    Introduction Un exemple élémentaire

    Approcher θ par 1n∑n

    i=1 Yi constitue un exemple d’estimation : θest un paramètre et 1n

    ∑ni=1 Yi un estimateur

    On peut également s’intéresser

    aux tests, par ex., (( les données sont-elles compatibles avecl’hypothèse θ = θ0 ? ))aux régions de confiance (( au vu des données, quelles sont lesvaleurs de θ qui sont crédibles ? ))

  • Introduction Un exemple élémentaire

    Une réponse possible (via Hoeffding)

    P

    [∣∣∣∣∣ 1nn∑i=1

    Yi − θ

    ∣∣∣∣∣ >√

    log(1/α)2n

    ]≤ 2α

    Si∣∣ 1n

    ∑ni=1 Yi − θ0

    ∣∣ est supérieur à √ log(1/α)2n , par exemplepour α = 0.025, l’affirmation (( θ = θ0 )) est peu vraisemblable

    Les valeurs de θ situées au delà de 1n∑n

    i=1 Yi ±√

    log(1/α)2n

    sont peu crédibles

    Introduction Un exemple élémentaire

    n0 50 100 150 200 250 300

    −1.5

    −1.0

    −0.5

    0.0

    0.5

    1.0

    1.5

    Fig.: 1/n∑n

    i=1(Yi − 0.9) pour θ = 0.9 et θ = 0.75 (5 réalisations)comparé à

    √log(1/α)/2n pour α = 0.025

  • Introduction Un exemple élémentaire

    Plus généralement

    Au delà ce cas très simple

    L’inférence statistique est-elle toujours un objectifraisonnable ?

    Quel type de modélisation utiliser pour la loi des observations ?

    Comment systématiser l’intuition basée sur la loi des grandsnombres ?

    Peut-on traiter les cas où la loi des observations dépend defaçon plus complexe des paramètres θ ?

    Comment quantifier les performances de l’estimation ?

    Le comportement en n observé précédemment est-ilgénéralisable ?

    Peut-on rationaliser et généraliser les constructions de test etde région de confiance ?

    Introduction Statistiques descriptives

    Un peu de terminologie

    L’échantillon désigne l’ensemble des données observées Y1, . . . , Yn

    Une statistique est une fonction des observations :par exemple, Sn =

    ∑ni=1 Yi et

    Rn = max{Yi} −min{Yi} sont des statistiques ; lesestimateurs sont des statistiques bien choisies enfonction d’un objectif

    Les statistiques sont des variables aléatoires . . .

    Les moments empiriques

    Moyenne 1/n∑n

    i=1 YiVariance 1/n

    ∑ni=1 Y

    2i − (1/n

    ∑ni=1 Yi)

    2

    = 1/n∑n

    i=1

    (Yi − 1/n

    ∑nj=1 Yj

    )2Les quantiles empiriques

    Médiane Xi tel que∑n

    j=1 1{Xj ≥ Xi} = bn/2cQuartiles médianes de {Xj : Xj ≤ médiane} et{Xj : Xj ≥ médiane} QQ-plot

  • Introduction Statistiques descriptives

    Représentations graphiques

    −50 −40 −30 −20 −10 0 10 20 30 40 500.00

    0.01

    0.02

    0.03

    0.04

    0.05

    0.06

    0.07

    0.08

    0.09

    Fig.: Mesures historiques de la vitesse de la lumière (Newcomb, 1891) :Données, histogramme, moyenne, quartiles

    Introduction Statistiques descriptives

    Nous considérerons souvent des données multivariées

    latitude

    temperature

    25 30 35 40 45 50−20

    −15

    −10

    −5

    0

    5

    10

    15

    20

    Fig.: Températures relevées aux Etats-Unis : Température en fonction dela latitude

  • Modélisation statistique

    1 Introduction

    2 Modélisation statistiqueModèles statistiquesModèles conditionnelsProblèmes statistiques

    3 Bornes d’estimation

    Modélisation statistique Modèles statistiques

    Modèle statistique, modèle dominé [Définitions 1.1, 1.6]

    Famille de lois de probabilité P = {Pθ, θ ∈ Θ} sur un espace YUn modèle est dit dominé lorsque pour tout θ ∈ Θ, Pθ admet unedensité notée `(y; θ) par rapport à une mesure de domination µfixe*

    Classes de modèles statistiques

    Modèle paramétrique

    P = {Pθ, θ ∈ Θ ⊂ Rp}, θ est le paramètre du modèle

    Exemple (Modèle de Bernoulli pour des réponses binaires)Y = {0, 1}, Pθ(Y = 1) = θ, θ ∈ [0, 1]

    *On note Pθ la probabilité, Eθ l’espérance, Vθ la variance (ou matrice devariance-covariance) pour une valeur de θ donnée

  • Modélisation statistique Modèles statistiques

    Classes de modèles statistiques (suite)

    Modèle paramétrique avec paramètre(s) de nuisance (ou nonidentifiable)

    P = {Pθ, θ ∈ Θ ⊂ Rp}, g(θ) est le paramètre d’intérêt

    Exemple (Modèle de dispersion gaussien)

    Y = R, `(y;µ, σ) = 1√2πσ

    exp[−(y − µ)

    2

    2σ2

    ], µ ∈ R, σ ∈ R+

    Modélisation statistique Modèles statistiques

    Modèle non-paramétrique P = {Pf , f ∈ F} où F n’est pas unsous ensemble d’un espace vectoriel de dimension finie

    Exemple (Estimation d’une loi discrète) Y = N, F estl’ensemble des probabilités sur N

    Modèle semi-paramétrique

    P = {Pθ,f , θ ∈ Θ, f ∈ F}, θ est le paramètre d’intérêt

    Exemple (Modèle de translation) Y = R, Θ = R,`(y; θ) = f(y − θ) où f est une densité de probabilité symétrique(inconnue) sur R

  • Modélisation statistique Modèles statistiques

    Modèle à variable latente

    L’observation Y est une fonction d’une variable aléatoire Z, dontla loi dépend de θ, et qui n’est pas totalement observable

    Exemples

    Données censurées Y = min(Y ∗, τ)avec Y = R, Y ∗ ∼ Pθ, τ ∈ RDonnées bruitées Y = Y ∗ + Uoù Y ∗ ∼ Pθ et U et Y sont indépendantsDonnées corrompues (par des valeurs aberrantes)

    Y =

    {Y ∗1 si U > ε

    Y ∗2 sinon

    avec Y ∗1 ∼ Pθ, Y ∗2 ∼ Q, U ∼ Uniforme([0, 1]) (Y ∗1 , Y ∗2 et Uindépendants) et ε ∈]0, 1[

    Modélisation statistique Modèles conditionnels

    Modèle conditionnel [Section 2.2]

    Les observations sont formées de couples X,Y tels que

    La famille de lois conditionnelles Pθ,x (ou de densitésconditionnelles `(y|x; θ) pour un modèle dominé) dépend duparamètre θ ∈ Θ ⊂ Rp

    X est de loi marginale inconnue, ne dépendant pas de θ

    Dans le cadre de ce cours, on considérera uniquement les modèlesstatiques (ou M.C.S.) dans lesquels les couples (Xi, Yi) observéssont indépendants et de même loi

    Y est dite variable endogène ou de réponse

    X est dite variable exogène ou explicative

  • Modélisation statistique Modèles conditionnels

    Modèle de régression linéaire [Section 2.2.2]

    Y = R, X = Rp, β ∈ Rp,

    Eθ[Y |X] = X ′β ou, de façon équivalente Y = X ′β + U

    avec Eθ[U |X] = 0

    C’est toujours un modèle semi-paramétrique (si on ne spécifie pasla loi de X), mais conditionnellement, il sera dit

    1 Paramétrique Si la loi conditionnelle de U sachant X estspécifiée (par ex. U |X ∼ N (0, σ2Id) — modèle gaussien ounormal)

    2 Semi-paramétrique Si on suppose juste, par exemple, queEθ[‖U‖2|X]

  • Modélisation statistique Modèles conditionnels

    Dans le polycopié une grande partie des résultats sont donnéesdans le cas (plus général) où X est aléatoire, mais on s’intéresseaussi souvent au cas ou X est déterministe

    Exemple (Données de durée du jour)

    année

    ms

    1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007−1.5

    −1.0

    −0.5

    0.0

    0.5

    1.0

    1.5

    2.0

    2.5

    3.0

    FIG. : Variation dela durée du jour enms (mesuresjournalières sur 10ans)

    Modélisation statistique Modèles conditionnels

    NotationEX espérance par rapport à la loi des variables exogènes

    Principales propriétés de l’espérance conditionnelle

    1 Soit h et g des fonctions (Eθ|h(Y )|

  • Modélisation statistique Problèmes statistiques

    Les grandes classes de problèmes statistiques [Section 1.2]

    Estimation Déterminer la valeur du paramètre θ, ou de g(θ) (oùg n’est pas nécessairement injective) ; réponse :valeur estimée θ̂ ∈ Θ

    Test Déterminer si θ (ou g(θ)) est ou non élément deG ⊂ Θ ; réponse : décision binaire ∈ {0, 1}

    Région de confiance Déterminer un ensemble G ⊂ Θ contenant θ ;réponse : Ĝ ⊂ Θ

    Dans les trois cas, on souhaite fournir, en plus du résultat, unefaçon de quantifier sa fiabilité

    Remarque : Les observations étant aléatoires, les résultats del’inférence statistiques le sont aussi. Il existe donc toujours uneprobabilité non nulle de fournir un résultat (( incorrect )). On peutnéanmoins s’attendre à ce que cette probabilité deviennearbitrairement faible lorsque le nombre d’observations augmente

    Bornes d’estimation

    1 Introduction

    2 Modélisation statistique

    3 Bornes d’estimationRisque quadratique, biais, varianceConditions de régularitéInformation de FisherBorne de Cramer-Rao (Inégalité d’information)Modèles exponentiels

  • Bornes d’estimation Risque quadratique, biais, variance

    Risque quadratique (cas scalaire) [Section 4.1]

    Pour quantifier la performance d’un estimateur θ̂ = δ(Y )

    On définit une fonction de perte l(ϕ; θ) à valeur dans R+ quireprésente la pénalité liée à l’approximation de θ par ϕ

    Pour un paramètre θ réel, le choix le plus courant est la pertequadratique l(ϕ; θ) = (ϕ− θ)2

    Le risque mesure, en moyenne, la perte liée à l’estimation de θpar l’estimateur θ̂

    Dans le cas de la perte quadratique, on obtient le risquequadratique :

    r(θ̂; θ) = Eθ(δ(Y )− θ)2

    Bornes d’estimation Risque quadratique, biais, variance

    Décomposition biais/variance

    r(θ̂; θ) = Vθ(δ(Y )) + b2(θ̂; θ)

    où

    b(θ̂; θ) def=Eθ[δ(Y )]− θ est le biais,Vθ[θ̂] = Eθ (δ(Y )− Eθ[δ(Y )])2 est la variance de l’estimateur

    Preuve

    (δ(Y )− θ)2 = {[δ(Y )− Eθ(δ(Y ))] + [Eθ(δ(Y ))− θ]}2

    Puis développer le carré et prendre l’espérance

  • Bornes d’estimation Risque quadratique, biais, variance

    Exemple (Estimateur à rétrécissement)

    Soit θ̂ un estimateur sans biais de θ de variance υ(θ)

    L’estimateur γθ̂,avec γ ∈ [0, 1], apour risquequadratique :

    (γ − 1)2θ2︸ ︷︷ ︸biais2

    + γ2υ(θ)︸ ︷︷ ︸variance 0

    θ2

    θ2

    θ2+υ(θ)

    θ2υ(θ)θ2+υ(θ)

    1

    υ(θ)

    Si |θ| est suffisamment faible, en particulier si |θ| ≤√υ(θ), γθ̂ est

    préférable à θ̂ ; l’inverse est vrai pour les grandes valeurs de |θ|

    En général, le risque quadratique ne permet pas d’ordonnertotalement les estimateurs

    Bornes d’estimation Risque quadratique, biais, variance

    Risque quadratique (cas vectoriel) [Proposition 4.2]

    Dans le cas vectoriel, on définit le risque matriciel d’un estimateurθ̂ = δ(Y ) par

    r(θ̂; θ) = Eθ[(δ(Y )− θ)(δ(Y )− θ)′

    ]Comme dans le cas scalaire,

    r(θ̂; θ) = (Eθ[δ(Y )]− θ)︸ ︷︷ ︸biais

    (Eθ[δ(Y )]− θ)′ + Vθ[δ(Y )]︸ ︷︷ ︸matrice decovariance

    Si r(θ̃; θ) � r(θ̂; θ), l’estimateur θ̂ sera dit préférable à θ̃ (même àθ fixé, il s’agit d’une relation d’ordre partiel)

  • Bornes d’estimation Risque quadratique, biais, variance

    Les bornes d’estimationOn cherche à répondre à la question (( quelles sont les meilleuresperformances envisageables en terme de risque quadratique ? ))

    Intuitivement, la réponse à cette question est liée à la sensibilité dela vraisemblance `(·; θ) vis à vis de θ :

    θθ+∆θθ−∆θ

    θθ+∆θθ−∆θ

    Bornes d’estimation Conditions de régularité

    Modèle régulier [Section 3.3.1]

    Le modèle {Pθ, θ ∈ Θ}, avec Θ sous-ensemble ouvert de Rp estdominé par une mesure µ avec des densités de probabilités{`(y, θ), θ ∈ Θ} telles queC1 `(y; θ) > 0 (modèle homogène)C2 `(y; θ) est deux fois différentiable en θ

    C3 Eθ∥∥∥∂ log `(Y ;θ)∂θ ∥∥∥2

  • Bornes d’estimation Information de Fisher

    Information de Fisher [Définition 3.7]

    Pour un modèle régulier, la matrice d’information de Fisher* estdéfinie par

    IF (θ) = Vθ

    [∂ log `(Y ; θ)

    ∂θ

    ]où, pour un paramètre vectoriel, Vθ désigne la matrice decovariance

    Propriété [Théorème 3.8]

    IF (θ) = −Eθ[∂2 log `(Y ; θ)

    ∂θ∂θ′

    ]

    *Ronald A. Fisher (1890 – 1962)Bornes d’estimation Information de Fisher

    Preuve

    − Eθ[∂2 log `(Y ; θ)

    ∂θ∂θ′

    ]=

    − Eθ[

    1`(Y ; θ)

    ∂2`(Y ; θ)∂θ∂θ′︸ ︷︷ ︸R ∂2`(y;θ)

    ∂θ∂θ′ µ(dy)

    − 1`2(Y ; θ)

    ∂`(Y ; θ)∂θ

    ∂`(Y ; θ)∂θ′︸ ︷︷ ︸

    ∂ log `(Y ;θ)∂θ

    ∂ log `(Y ;θ)

    ∂θ′

    ]

    = Vθ

    [∂ log `(Y ; θ)

    ∂θ

    ]En notant que

    ∫`(y; θ)µ(dy) = 1 pour tout θ ∈ Θ implique que

    Eθ[∂ log `(Y ;θ)

    ∂θ

    ]et∫ ∂2`(y;θ)

    ∂θ∂θ′ µ(dy) sont nuls

  • Bornes d’estimation Information de Fisher

    Propriétés de l’information de Fisher

    IF (θ) = 0 ssi∥∥∥∂ log `(Y ;θ)∂θ ∥∥∥ = 0 avec Pθ probabilité 1

    Si X et Y sont indépendants, IX,YF (θ) = IXF (θ) + I

    YF (θ)

    en particulier, si Y1, . . . , Yn sont IID,

    IY1,...,YnF (θ) = nIY1F (θ)

    De façon générale, IX,YF (θ) � IXF (θ), avec égalité uniquementsi la loi conditionnelle de Y sachant X ne dépend pas de θ,avec Pθ probabilité 1 [Section 3.2]

    Dans un modèle conditionnel,

    IF (θ) = E

    {−Eθ

    [∂2 log `(Y |X; θ)

    ∂θ∂θ′

    ∣∣∣∣X]︸ ︷︷ ︸information conditionnelle

    }

    Bornes d’estimation Borne de Cramer-Rao (Inégalité d’information)

    Borne de (Fréchet-Darmois)-Cramér-Rao* [Théorème 4.9]

    Si le modèle est régulier et IF (θ) est définie positive pour toutθ ∈ Θ ⊂ Rp ; pour tout estimateur régulier θ̂ = δ(Y ) sans biais deθ

    Vθ[δ(Y )] � I−1F (θ)

    Remarque M1 �M2 ⇐⇒ ∀α ∈ Rp, αM1α′ ≥ αM2α′, d’où

    (p∑

    k=1

    αkθ̂k

    )≥ αI−1F (θ)α

    (pour tout vecteur α ∈ Rd), en particulier Vθ(θ̂k) ≥(I−1F (θ)

    )kk

    *Maurice Fréchet (1878 – 1973), Georges Darmois (1888 – 1960)Harald Cramér (1893 – 1985), Calyampudi R. Rao (1920)

  • Bornes d’estimation Borne de Cramer-Rao (Inégalité d’information)

    Preuve (Cas d’un paramètre scalaire)∫d log `(y; θ)

    dθ`(y; θ)µ(dy) =

    d∫`(y; θ)µ(dy)

    dθ= 0 (1)

    ∫δ(y)

    d log `(y; θ)dθ

    `(y; θ)µ(dy) =d

    θ︷ ︸︸ ︷∫δ(y)`(y; θ)µ(dy)

    dθ= 1 (2)

    d’où ∫(δ(y)− θ)d log `(y; θ)

    dθ`(y; θ)µ(dy) = 1

    et par application de l’inégalité de Cauchy-Schwarz

    12 ≤∫

    (δ(y)− θ)2`(y; θ)µ(dy)︸ ︷︷ ︸Vθ(θ̂)

    ∫ (d log `(y; θ)

    )2`(y; θ)µ(dy)︸ ︷︷ ︸

    IF (θ)

    Bornes d’estimation Borne de Cramer-Rao (Inégalité d’information)

    Preuve (Cas d’un paramètre vectoriel) En procédant commeprécédemment

    ∫(δ(y)− θ)︸ ︷︷ ︸

    a(y)

    ∂ log `(y; θ)∂θ′︸ ︷︷ ︸b′(y)

    `(y; θ)µ(dy)︸ ︷︷ ︸λ(dy)

    = Id def=

    1 . . .1

    Puis

    ∫a(y)b′(y)λ(dy) = Id et M def=

    ∫b(y)b′(y)λ(dy) � 0 implique∫ (

    a(y)−M−1b(y)) (a(y)−M−1b(y)

    )′λ(dy)︸ ︷︷ ︸R

    a(y)a′(y)λ(dy)−M−1

    � 0

    c’est à dire ∫a(y)a′(y)λ(dy) �M−1

  • Bornes d’estimation Borne de Cramer-Rao (Inégalité d’information)

    Exemple (Modèle d’échantillonnage de Poisson)

    Y1, . . . , Yn sont indépendants de loi

    Pθ(Y = y) = e−θθy

    y!pour y ∈ N

    (Eθ[Y ] = θ, Vθ[Y ] = θ)0 2 4 6 8 10 12 14 16 18 20

    0.00

    0.05

    0.10

    0.15

    0.20

    0.25

    0.30

    0.35

    0.40

    0.5 5 10

    IY1F (θ) = Vθ(−1 + Y1θ

    )= 1θ , d’où I

    Y1,...,YnF (θ) =

    nθ et

    Vθ(θ̂n) ≥θ

    n

    pour tout estimateur θ̂n non biaisé

    θ̂n = 1n∑n

    i=1 Yi atteint la borne, il est dit estimateur efficacede θ

    Bornes d’estimation Borne de Cramer-Rao (Inégalité d’information)

    Remarque En examinant la preuve de l’inégalité de FDCR (casscalaire), on obtient un critère d’efficacité puisque cette dernièrecorrespond au cas d’égalité dans l’inégalité de Cauchy-Schwarz,c’est à dire au cas où

    ∃C ∈ R : δ(y)− θ = Cd log `(y; θ)dθ

    (Pθ presque partout)

    La fonction s(y; θ) = d log `(y;θ)dθ est dite fonction de score (nousavons en particulier montré que Eθ[s(Y ; θ)] = 0)

    Dans le cas du modèle de Poisson s(y; θ) = −1 + Y/θ, ce quimontre l’efficacité

    Le critère se généralise au cas multidimensionnel

  • Bornes d’estimation Borne de Cramer-Rao (Inégalité d’information)

    Généralisation [Théorème 4.9]

    Si δ(Y ) est un estimateur sans biais de g(θ) ∈ Rr

    Vθ(δ(Y )) �∂g(θ)∂θ′

    I−1F (θ)∂g′(θ)∂θ

    (voir la preuve dans le polycopié)

    Remarque (1) Dans le cas où ϕ = g(θ) correspond à unereparamétrisation (g bijective), on a

    IF (ϕ) =(∂g′(θ)∂θ

    )−1IF (θ)

    (∂g(θ)∂θ′

    )−1=∂(g−1(ϕ)

    )′∂ϕ

    IF (θ)∂g−1(ϕ)∂ϕ′

    (où θ = g−1(ϕ))

    Bornes d’estimation Borne de Cramer-Rao (Inégalité d’information)

    Remarque (2) Si θ̂ est un estimateur biaisé de θ, c’est unestimateur non biaisé de g(θ) = b(θ) + θ d’où

    Vθ(θ̂) �(

    Id +∂b(θ)∂θ′

    )I−1F (θ)

    (Id +

    ∂b′(θ)∂θ

    )

    Remarque (3) La borne n’est pas nécessairement atteignable[Example 4.10]

    Dans un modèle régulier, la variance d’un estimateur θ̂n régulierdécrôıt (au mieux) à la vitesse 1/n

  • Bornes d’estimation Modèles exponentiels

    Modèle exponentiel [Définition 3.20]

    Un modèle statistique est dit exponentiel sous forme naturelle si

    `(y; θ) = C(θ)h(y) exp[θ′T (y)

    ]où T (y) est la statistique canonique (vectorielle) et θ le paramètrenaturel du modèle

    Exemples

    Loi exponentielle f(y; θ) = θ exp(−θy)Loi gaussienne à variance connue

    f(y;µ) =1√2πσ

    exp[−(y − µ)

    2

    2σ2

    ]=

    1√2πσ

    exp[− µ

    2

    2σ2

    ]exp

    [− y

    2

    2σ2

    ]exp

    [µy

    σ2

    ]Bornes d’estimation Modèles exponentiels

    Exhaustivité de la statistique naturelle [Proposition 3.21]

    La statistique T (y) est exhaustive, ce qui implique en particulierque I

    T (Y )F (θ) = I

    YF (θ)

    Modèle d’échantillonnage de Bernoulli

    Si Y1, . . . , Yn ∈ {0, 1} sont IID de loi Pθ(Yi = 1) = θ,

    `n(Y1, . . . , Yn; θ) =n∏i=1

    f(Yi; θ) =

    n∏i=1

    θYi (1− θ)Yi−1 =n∏i=1

    11− θ

    1− θ

    )Yi=

    n∏i=1

    11− θ

    exp

    [Yi log

    1− θ

    )︸ ︷︷ ︸

    paramètre naturel β

    ]=(1 + eβ

    )nexp

    n∑i=1

    Yi

    )

  • Bornes d’estimation Modèles exponentiels

    Information dans le modèle exponentiel [Proposition 3.22]

    IF (θ) = Vθ [T (Y )]

    On montre de plus que les conditions de régularité du modèle seramènent au fait que la matrice de covariance Vθ [T (Y )] soitdéfinie positive (pour tout θ)

    Bornes d’estimation Modèles exponentiels

    Preuve `(y; θ) = C(θ)h(y) exp [θ′T (y)] implique que

    ∂ log `(y; θ)∂θ

    =∂ logC(θ)

    ∂θ+ T (y)

    Par ailleurs, C(θ) =(∫h(y) exp [θ′T (y)]µ(dy)

    )−1, donc

    ∂ logC(θ)∂θ

    = −∫T (y)C(θ)h(y) exp

    [θ′T (y)

    ]µ(dy)︸ ︷︷ ︸

    Eθ[T (Y )]

    D’où

    IF (θ) = Eθ[(T (y)− Eθ [T (Y )]) (T (y)− Eθ [T (Y )])′

    ]= Vθ [T (Y )]


Recommended