ISE: Introduction à la statistique et à l'économétrielepennec/enseignement/ISE/Cours01.pdf ·...

ISE: Introduction a lastatistique et a l’econometrie

E. Le PennecEcole Polytechnique

2014

Menu du jour

Organisation

Objectifs du cours

Les statistiques sont partout !

Modelisation statistique

Plan du cours

Breve histoire des statistiques

Modelisation d’un sondage simple

OrganisationEnseignants

Cours : Erwan Le Pennec (Ecole Polytechnique) :[email protected]

Assistant : Victor-Emmanuel Brunel (ENSAE)

5 Charges de TDs...

[email protected]

OrganisationSupport et evaluation

Support de cours : mis en ligne au fur et a mesure sur la pagehttp://www.cmap.polytechnique.fr/~lepennec dans larubrique Enseignement.

Evaluation :

Controle final : note Exam sur 20Controle continu : note CC sur 20 (1/4 presence, 1/4 participation et 1/2rendu de TP ou mi-parcours)

Note finale :Exam + CC

2(a confirmer)

http://www.cmap.polytechnique.fr/~lepennec

Objectifs du cours

Comprendre la problematique statistique a travers des problemessimples.

Modeles statistiques classiques : modeles lineaires et leursextensions, modeles multinomiaux

Modeles non parametriques : estimation de densite.

Culture generale minimale en statistique :

Statistical thinking will one day be as necessary for efficientcitizenship as the ability to read and write.

H. G. Wells (ecrivain britannique, 1866–1946)

Les statistiques sont partout !INSEE

Les chiffres du travail

Taux d’activite par tranche d’age hommes vs. femmes

http://www.insee.fr/

Les statistiques sont partout !Politique

Sondage

Les statistiques sont partout !Sante

Etude sur les OGM

Les statistiques sont partout !Econometrie

Etude du cout en fonction du C.A.

Les statistiques sont partout !Finance

FGBL, Apr. 99 a Dec. 05, 1 donnee par jour. (Source : BNP Paribas)

Time

Bun

d

0 500 1000 1500

105

110

115

120

125

Les statistiques sont partout !Biologie

Biopuces et analyse d’ADN

Les statistiques sont partout !E-Marketing

Reseau d’achat de livres

Les statistiques sont partoutBig Data

Volume de donnee tellement grand que cela implique une evolution

forte des statistiques....

Inference statistique

Question sur des donnees.

Quantite mesuree : variable X et covariable Y .

Modelisation : Collection de modeles probabiliste Pθ avec θ ∈ Θ.

Probabilite : Etude du comportement de (X ,Y ) sous la loi Pθ a θfixe.

Statistique : Inference sur θ a partir de l’observation de (X ,Y ).

Questions statistiques :

Ajustement (Estimation de θ)Precision (Zone de confiance pour θ)Decision (Test sur θ)Prediction de X pour un autre Y

Un exemple historiqueJohn Arbuthnot et � la divine

providence �

1712, Arbuthnot (medecin de la Reine Anne) examine le nombre debaptemes de filles et de garcons a Londres, entre 1629 et 1710.

Sur les 82 annees etudies, le nombre de naissances masculines esttoujours superieur au nombre de naissance feminines.

Arbuthnott fait l’hypothese que les naissances masculines etfeminines sont equi-probables et calcule, toujours sous cettehypothese, la probabilite que les naissances masculines soient 82 foisde suite plus grande que celles feminines (= (1/2)82), � which willbe found easily by the Table of Logarithms to be 1/4 8360 00000000 0000 0000 0000 �.

Il en deduit que cette hypothese est fausse.

Il verifie ensuite que la proportion de naissance masculine resteconstant de l’ordre de .5171.

Il en deduit que seule � la divine providence � peut expliquer ceci.

Un exemple historiqueModele statistique associe

Formulation moderne

Question sur le ratio naiss. masculines/naiss. feminines.

Observation : variable X = (X1, . . . ,X82) et covariableY = (Y1, . . . ,Y82) avec Xi le ratio naissa. masculines/naiss.feminines et Yi le nombre totale de naiss. l’annee i .

Modelisation :

Les annees sont independantes.Les naissances a l’annee i sont independantes les unes des autres et lesexe du bebe est masculin avec une probabilite ρi et feminin avec uneprobabilite 1− ρi .Pas de modelisation du nombre de naissance Yi .Parametre θ = (ρ1, . . . , ρ82) et Θ = [0, 1]82.


Formulation moderneRappel :

Les annees sont independantes, les naissances a l’annee i sontindependantes les unes des autres et le sexe du bebe est masculin avecune probabilite ρi et feminin avec une probabilite 1− ρi tandis qu’il n’y apas de modelisation du nombre de naissance Yi .

Probabilite :La loi de G |Y avec Gi = XiYi est simple a exprimer : sous Pθ c’est unproduit de loi binomiale :

Pθ {G = g |Y = y} =82∏i=1

(yigi

)ρgi (1− ρ)yi−gi

Loi de X |Y est plus complexe :

Pθ {X = x |Y = y} = Pθ {YX = xy |Y = y} =82∏i=1

(yixiyi

)ρyixi (1−ρ)yi (1−xi )

Attention : definition de la mesure de reference (mesure de typecomptage) depend de Y dans le second cas !


Formulation moderne

Modele plutot complexe !

Mais un raisonnement simple montre que P1/2 {Xi >= 1|Yi} = 1/2 !

C’est le raisonnement utilise par Arbuthnot pour monter que

P1/2 {∀iXi ≥ 1|Y } =∏i

P1/2 {Xi ≥ 1|Yi} = (1/2)82

Artbuthnot trouve cette probabilite trop faible sans justifierpourquoi...

Pour le caractere constant des ρi , la encore il se contente de lejustifier heuristiquement.

Objectif de ce cours : developper les outils pour justifier cesassertions !

Plan du cours

Introduction a la statistique : modele statistique, estimateur, rappelsur les convergences et zone de confiance, construction d’estimateur,tests

Modele lineaire : moindres carres, le cas gaussien, test dans lemodele gaussien, selection de variables, generalisation du modelelineaire

Modele multinomial : maximum de vraisemblance, test(s) duchi-deux

Initiation au non-parametrique : le cas de l’estimation de densite parune methode a noyau

Breve histoire des statistiquesStatistik

Mesure et representation de donneesAntiquite / Moyen-age : existence de registre.

1686 : Vauban propose une methodologie du recensement.

1749 : � Statistik � (derive du latin Statisticum). Achenval(Allemagne). Ensemble de mesures et recueil de donnees necessairesau fonctionnement et a l’organisation de l’etat.

1765 : Priestley propose les premieres methodes de representationgraphiques.

1786 : Playfair propose le premier camembert

1800 : Bonaparte institue un ”bureau de la statistique de laRepublique”.

1869 : Minard combine des informations sur les pertes de l’armeenapoleonienne avec des informations geographiques.

1901 : Pearson justifie les ACP.

1904 : Spearman les utilise pour les analyses factorielles.

Renouveau actuel avec les pbs de visualisation Big Data !

Breve histoire des statistiquesProbabilites 1

Comportement d’objets aleatoires

Antiquite/Moyen age : utilisation de principe probabiliste (repetitionde mesures, extension d’une mesure sur une sous-population a lapopulation complete).

1654 : Fermat et Pascal etudie des jeux de hasard.

1657 : Hughens formalise le traitement des jeux de des et definitl’esperance.

1667 : Leibnitz etend le calcul des probabilites a tous les concepts.

1713 : Bernoulli formalise le concept de variable aleatoire etdemontre une loi des grands nombres.

1721 : de Moivre generalise l’usage de la combinatoire.

1755 : Simpson applique une theorie des erreurs sur des observations.

1812 : Laplace donne une premiere version du TCL.

Breve histoire des statistiquesProbabilites 2

Comportement d’objets aleatoires

1897 : Borel propose une theorie de la mesure completee avec latheorie de l’integration de Lebesgue.

1901 : Lyapounov propose une premiere version rigoureuse du TCL.

1902 : Markov introduit les chaınes de Markov.

1910 : Levy propose une preuve rigoureuse du TCL.

1933 : Kolmogorov axiomatise les probabilites.

XXeme-XXIeme : explosion des probabilites comme disciplinemathematique.

Breve histoire des statistiquesInference

Estimation des parametres d’un modeleAntiquite/Moyen age : utilisation de principe probabiliste (repetitionde mesures, extension d’une mesure sur une sous-population a lapopulation complete).

1662 : Graunt estime la population de Londres a partir du nombretotal d’enterrement et des informations partielles sur la taille et lenombre de deces des familles.

1712 : Arbuthnott etudie le fait que le nombre de naissance degarcons soit superieur au nombre de filles 82 annees consecutives.

1729 : Mayer propose un estimateur autre que la moyenne empirique.

1763 : le theoreme de Bayes est publie.

1778 : Bernoulli introduit un principe de maximum de vraisemblance.

1805-1809 : Legendre, Adrain et Gauss proposent independammentla methode des moindres carres.

1877 : Galton etudie des regressions.

1893 : Pearson propose le test du Chi-deux.

Breve histoire des statistiquesStatistique mathematique

Etude theorique des estimateurs

1908 : Gosset justifie l’utilisation de la loi de Student.

1912 : Fischer etude les estimateurs du maximum de vraisemblance.

1928 : Neyman et Pearson (fils...) construisent une theorie des tests.

1940 : Wald formalise la theorie de la decision statistique.

1942 : Wolfowitz introduit le terme modele non parametrique pourune modele de dimension infinie.

XXeme-XXIeme : explosion des statistique comme disciplinemathematique.

Breve histoire des statistiquesApprentissage

Au dela du modele1950 : Turing lance le principe d’une machine imitant uncomportement intelligent a partir d’exemples.

1952 : Hebbs propose un modele d’assemblee de neurone et desregles d’apprentissage.

1955 : Seminaire � Session on learning machines �

1962-1962 : Block et Novikoff demontrent des resultats deconsistance en temps finis pour le perceptron de Rosenblatt.

1960s : Approche bayesienne.

1968 : Vapnik et Chernovenkis se placent dans un cadre probabilisteet soulignent le compromis biais-complexite d’un bon modele.

1990 : Schapire propose de combiner des mauvais algorithmes pouren faire un bon.

1995 : Vapnik et Cortes propose les SVMs.

XXIeme : explosion de l’apprentissage comme discipline a la frontieremath/info.

Modelisation d’un sondageApproche combinatoire

Question : on souhaite estimer la proportion de la populationdonnant une certaine reponse a une certaine question.

On suppose qu’il s’agit d’une reponse binaire...

Donnees : Reponses R = (R1, . . . ,Rn) d’un sous-ens. de la pop.

Modelisation :Il existe une proportion ρ d’individus repondant 0 et donc une proportion1− ρ d’individus repondant 1.La population totale est de N individus.Le sous-ensemble est obtenu en tirant successivement au hasard nindividus.

Parametre θ = ρ ∈ Θ = [0, 1].

Loi de R sous Pθ :

Pθ {R = r} =n∏

i=1

(Nρ−

∑i−1k=1 1rk=0

N − (i − 1)

)1ri=0(N(1− ρ)−

∑i−1k=1 1rk=1

N − (i − 1)

)1ri=1

Modelisation d’un sondageApproche combinatoire

Loi de R sous Pθ :

Pθ {R = r} =n∏

i=1

(Nρ−

∑i−1k=1 1rk=0

N − (i − 1)

)1ri=0(N(1− ρ)−

∑i−1k=1 1rk=1

N − (i − 1)

)1ri=1

=n∏

i=1

(ρ+

(i − 1)−∑i−1

k=1 1rk=0

N − (i − 1)

)1ri=0

×

((1− ρ) +

(i − 1)−∑i−1

k=1 1rk=1

N − (i − 1)

)1ri=1

Loi compliquee du fait de la dependance des reponses...

Simplification drastique si N = +∞...

Modelisation d’un sondageApproche population

Modelisation :Chaque individu se comporte de maniere independante.La reponse Ri d’un individu pris au hasard est 0 avec une probabilite ρ et1 avec une probabilite 1− ρ (Bernoulli de parametre ρ).

Parametre θ = ρ ∈ Θ = [0, 1].

Loi de R sous Pθ :

Pθ {R = r} =n∏

i=1

ρ1ri=0(1− ρ)1ri=1

= (ρ)∑n

i=1 1ri=0(1− ρ)∑n

i=1 1ri=1

Loi de N0 =∑n

i=1 1ri=0 :

Pθ {N0 = n0} =∑

r ,∑n

i=1 1ri=0=n0

Pθ {R = r} =

(n

n0

)ρn0(1− ρ)n−n0

N0 suit une loi binomiale de parametre (n, ρ) !

Modelisation d’un sondageRappel sur la loi binomiale

X v.a. a valeur entiere suit une loi binomiale de parametres (n, ρ) siet seulement si

P {X = k} =

(n

k

)ρk(1− ρ)n−k

On sait qu’alors

E [X ] = nρ

V [X ] = nρ(1− ρ)

Idee naturelle : estimer ρ par ρ = X/n...

On a immediatement

E [ρ] = ρ

V [ρ] =ρ(1− ρ)

n

Modelisation d’un sondageApplication

On estime ρ par ρ = N0/n... i.e. la proportion empirique...

Proprietes de l’estimateur :

Sans biais : Eθ [ρ] = ρ.

Erreur quadratique : Eθ

[|ρ− ρ|2

]= Vθ [ρ] = ρ(1−ρ)

n

Proprietes asymptotiques :

Convergence en probabilite (via Markov) :

Pθ {|ρ− ρ| > ε} ≤ ρ(1− ρ)

nε2→ 0

Convergence forte (en utilisant la LFGN pour les variables de BernoulliRi ) : ρ→ ρ p.s.Convergence en loi (TCL) :

√n (ρ− ρ)→ N (0, ρ(1− ρ))

Modelisation d’un sondageIntervalle(s) de confiance

Quelle confiance avoir sur l’estimee p ?

Markov : Pθ {|ρ− ρ| > ε} ≤ ρ(1− ρ)

nε2≤ 1

4nε2

Intervalle de confiance de niveau α : pour δα = 1/√

1− α

Pθ{ρ ∈

[ρ− δα

2√n, ρ+

δα2√n

]}≥ α

Zone de confiance de niveau α :

Pθ{ρ, (ρ− ρ)2 ≤ δ2

α

ρ(1− ρ)

n

}≥ α

TCL :Pθ{√

n|ρ− ρ| > δ√ρ(1− ρ)

}→ P {|N (0, 1)| > ε} ≤ 2e−δ

2/2

IC asymptotiquement de niveau α : pour δα =√

2 log(2/(1− α))

Pθ{ρ ∈ [ρ− δα

√ρ(1− ρ)/

√n, ρ− δα

√ρ(1− ρ)/

√n]}→ α

Modelisation d’un sondageTest et IC

Peut-on verifier l’hypothese ρ = ρ0 ?

Pb : impossible de distinguer ρ0 de ρ0 + ε si n n’est pas assez grand !

Test statistique = test de non incompatibilite avec l’hypothese !

Approche classique :

on se fixe un niveau de confiance α,on determine une zone de confiance de ρ pour ce niveau sous l’hypotheseρ = ρ0,on rejette l’hypothese si ρ n’est pas dans la zone et on ne rejette pasl’hypothese sinon...

Une experience statistique (comme les experiences dessciences experimentales) ne permet pas d’accepter unehypothese mais uniquement de verifier son apparente noncontradiction avec les observations !

Date post:	21-Oct-2019
Category:	Documents
Upload:	others
View:	4 times
Download:	0 times

ISE: Introduction à la statistique et à l'économétrielepennec/enseignement/ISE/Cours01.pdf ·...

Documents