ISE: Introduction a lastatistique et a l’econometrie
E. Le PennecEcole Polytechnique
2014
Menu du jour
Organisation
Objectifs du cours
Les statistiques sont partout !
Modelisation statistique
Plan du cours
Breve histoire des statistiques
Modelisation d’un sondage simple
OrganisationEnseignants
Cours : Erwan Le Pennec (Ecole Polytechnique) :[email protected]
Assistant : Victor-Emmanuel Brunel (ENSAE)
5 Charges de TDs...
OrganisationSupport et evaluation
Support de cours : mis en ligne au fur et a mesure sur la pagehttp://www.cmap.polytechnique.fr/~lepennec dans larubrique Enseignement.
Evaluation :
Controle final : note Exam sur 20Controle continu : note CC sur 20 (1/4 presence, 1/4 participation et 1/2rendu de TP ou mi-parcours)
Note finale :Exam + CC
2(a confirmer)
Objectifs du cours
Comprendre la problematique statistique a travers des problemessimples.
Modeles statistiques classiques : modeles lineaires et leursextensions, modeles multinomiaux
Modeles non parametriques : estimation de densite.
Culture generale minimale en statistique :
Statistical thinking will one day be as necessary for efficientcitizenship as the ability to read and write.
H. G. Wells (ecrivain britannique, 1866–1946)
Les statistiques sont partout !INSEE
Les chiffres du travail
Taux d’activite par tranche d’age hommes vs. femmes
http://www.insee.fr/
Les statistiques sont partout !Politique
Sondage
Les statistiques sont partout !Sante
Etude sur les OGM
Les statistiques sont partout !Econometrie
Etude du cout en fonction du C.A.
Les statistiques sont partout !Finance
FGBL, Apr. 99 a Dec. 05, 1 donnee par jour. (Source : BNP Paribas)
Time
Bun
d
0 500 1000 1500
105
110
115
120
125
Les statistiques sont partout !Biologie
Biopuces et analyse d’ADN
Les statistiques sont partout !E-Marketing
Reseau d’achat de livres
Les statistiques sont partoutBig Data
Volume de donnee tellement grand que cela implique une evolution
forte des statistiques....
Inference statistique
Question sur des donnees.
Quantite mesuree : variable X et covariable Y .
Modelisation : Collection de modeles probabiliste Pθ avec θ ∈ Θ.
Probabilite : Etude du comportement de (X ,Y ) sous la loi Pθ a θfixe.
Statistique : Inference sur θ a partir de l’observation de (X ,Y ).
Questions statistiques :
Ajustement (Estimation de θ)Precision (Zone de confiance pour θ)Decision (Test sur θ)Prediction de X pour un autre Y
Un exemple historiqueJohn Arbuthnot et � la divine
providence �
1712, Arbuthnot (medecin de la Reine Anne) examine le nombre debaptemes de filles et de garcons a Londres, entre 1629 et 1710.
Sur les 82 annees etudies, le nombre de naissances masculines esttoujours superieur au nombre de naissance feminines.
Arbuthnott fait l’hypothese que les naissances masculines etfeminines sont equi-probables et calcule, toujours sous cettehypothese, la probabilite que les naissances masculines soient 82 foisde suite plus grande que celles feminines (= (1/2)82), � which willbe found easily by the Table of Logarithms to be 1/4 8360 00000000 0000 0000 0000 �.
Il en deduit que cette hypothese est fausse.
Il verifie ensuite que la proportion de naissance masculine resteconstant de l’ordre de .5171.
Il en deduit que seule � la divine providence � peut expliquer ceci.
Un exemple historiqueModele statistique associe
Formulation moderne
Question sur le ratio naiss. masculines/naiss. feminines.
Observation : variable X = (X1, . . . ,X82) et covariableY = (Y1, . . . ,Y82) avec Xi le ratio naissa. masculines/naiss.feminines et Yi le nombre totale de naiss. l’annee i .
Modelisation :
Les annees sont independantes.Les naissances a l’annee i sont independantes les unes des autres et lesexe du bebe est masculin avec une probabilite ρi et feminin avec uneprobabilite 1− ρi .Pas de modelisation du nombre de naissance Yi .Parametre θ = (ρ1, . . . , ρ82) et Θ = [0, 1]82.
Un exemple historiqueModele statistique associe
Formulation moderneRappel :
Les annees sont independantes, les naissances a l’annee i sontindependantes les unes des autres et le sexe du bebe est masculin avecune probabilite ρi et feminin avec une probabilite 1− ρi tandis qu’il n’y apas de modelisation du nombre de naissance Yi .
Probabilite :La loi de G |Y avec Gi = XiYi est simple a exprimer : sous Pθ c’est unproduit de loi binomiale :
Pθ {G = g |Y = y} =82∏i=1
(yigi
)ρgi (1− ρ)yi−gi
Loi de X |Y est plus complexe :
Pθ {X = x |Y = y} = Pθ {YX = xy |Y = y} =82∏i=1
(yixiyi
)ρyixi (1−ρ)yi (1−xi )
Attention : definition de la mesure de reference (mesure de typecomptage) depend de Y dans le second cas !
Un exemple historiqueModele statistique associe
Formulation moderne
Modele plutot complexe !
Mais un raisonnement simple montre que P1/2 {Xi >= 1|Yi} = 1/2 !
C’est le raisonnement utilise par Arbuthnot pour monter que
P1/2 {∀iXi ≥ 1|Y } =∏i
P1/2 {Xi ≥ 1|Yi} = (1/2)82
Artbuthnot trouve cette probabilite trop faible sans justifierpourquoi...
Pour le caractere constant des ρi , la encore il se contente de lejustifier heuristiquement.
Objectif de ce cours : developper les outils pour justifier cesassertions !
Plan du cours
Introduction a la statistique : modele statistique, estimateur, rappelsur les convergences et zone de confiance, construction d’estimateur,tests
Modele lineaire : moindres carres, le cas gaussien, test dans lemodele gaussien, selection de variables, generalisation du modelelineaire
Modele multinomial : maximum de vraisemblance, test(s) duchi-deux
Initiation au non-parametrique : le cas de l’estimation de densite parune methode a noyau
Breve histoire des statistiquesStatistik
Mesure et representation de donneesAntiquite / Moyen-age : existence de registre.
1686 : Vauban propose une methodologie du recensement.
1749 : � Statistik � (derive du latin Statisticum). Achenval(Allemagne). Ensemble de mesures et recueil de donnees necessairesau fonctionnement et a l’organisation de l’etat.
1765 : Priestley propose les premieres methodes de representationgraphiques.
1786 : Playfair propose le premier camembert
1800 : Bonaparte institue un ”bureau de la statistique de laRepublique”.
1869 : Minard combine des informations sur les pertes de l’armeenapoleonienne avec des informations geographiques.
1901 : Pearson justifie les ACP.
1904 : Spearman les utilise pour les analyses factorielles.
Renouveau actuel avec les pbs de visualisation Big Data !
Breve histoire des statistiquesProbabilites 1
Comportement d’objets aleatoires
Antiquite/Moyen age : utilisation de principe probabiliste (repetitionde mesures, extension d’une mesure sur une sous-population a lapopulation complete).
1654 : Fermat et Pascal etudie des jeux de hasard.
1657 : Hughens formalise le traitement des jeux de des et definitl’esperance.
1667 : Leibnitz etend le calcul des probabilites a tous les concepts.
1713 : Bernoulli formalise le concept de variable aleatoire etdemontre une loi des grands nombres.
1721 : de Moivre generalise l’usage de la combinatoire.
1755 : Simpson applique une theorie des erreurs sur des observations.
1812 : Laplace donne une premiere version du TCL.
Breve histoire des statistiquesProbabilites 2
Comportement d’objets aleatoires
1897 : Borel propose une theorie de la mesure completee avec latheorie de l’integration de Lebesgue.
1901 : Lyapounov propose une premiere version rigoureuse du TCL.
1902 : Markov introduit les chaınes de Markov.
1910 : Levy propose une preuve rigoureuse du TCL.
1933 : Kolmogorov axiomatise les probabilites.
XXeme-XXIeme : explosion des probabilites comme disciplinemathematique.
Breve histoire des statistiquesInference
Estimation des parametres d’un modeleAntiquite/Moyen age : utilisation de principe probabiliste (repetitionde mesures, extension d’une mesure sur une sous-population a lapopulation complete).
1662 : Graunt estime la population de Londres a partir du nombretotal d’enterrement et des informations partielles sur la taille et lenombre de deces des familles.
1712 : Arbuthnott etudie le fait que le nombre de naissance degarcons soit superieur au nombre de filles 82 annees consecutives.
1729 : Mayer propose un estimateur autre que la moyenne empirique.
1763 : le theoreme de Bayes est publie.
1778 : Bernoulli introduit un principe de maximum de vraisemblance.
1805-1809 : Legendre, Adrain et Gauss proposent independammentla methode des moindres carres.
1877 : Galton etudie des regressions.
1893 : Pearson propose le test du Chi-deux.
Breve histoire des statistiquesStatistique mathematique
Etude theorique des estimateurs
1908 : Gosset justifie l’utilisation de la loi de Student.
1912 : Fischer etude les estimateurs du maximum de vraisemblance.
1928 : Neyman et Pearson (fils...) construisent une theorie des tests.
1940 : Wald formalise la theorie de la decision statistique.
1942 : Wolfowitz introduit le terme modele non parametrique pourune modele de dimension infinie.
XXeme-XXIeme : explosion des statistique comme disciplinemathematique.
Breve histoire des statistiquesApprentissage
Au dela du modele1950 : Turing lance le principe d’une machine imitant uncomportement intelligent a partir d’exemples.
1952 : Hebbs propose un modele d’assemblee de neurone et desregles d’apprentissage.
1955 : Seminaire � Session on learning machines �
1962-1962 : Block et Novikoff demontrent des resultats deconsistance en temps finis pour le perceptron de Rosenblatt.
1960s : Approche bayesienne.
1968 : Vapnik et Chernovenkis se placent dans un cadre probabilisteet soulignent le compromis biais-complexite d’un bon modele.
1990 : Schapire propose de combiner des mauvais algorithmes pouren faire un bon.
1995 : Vapnik et Cortes propose les SVMs.
XXIeme : explosion de l’apprentissage comme discipline a la frontieremath/info.
Modelisation d’un sondageApproche combinatoire
Question : on souhaite estimer la proportion de la populationdonnant une certaine reponse a une certaine question.
On suppose qu’il s’agit d’une reponse binaire...
Donnees : Reponses R = (R1, . . . ,Rn) d’un sous-ens. de la pop.
Modelisation :Il existe une proportion ρ d’individus repondant 0 et donc une proportion1− ρ d’individus repondant 1.La population totale est de N individus.Le sous-ensemble est obtenu en tirant successivement au hasard nindividus.
Parametre θ = ρ ∈ Θ = [0, 1].
Loi de R sous Pθ :
Pθ {R = r} =n∏
i=1
(Nρ−
∑i−1k=1 1rk=0
N − (i − 1)
)1ri=0(N(1− ρ)−
∑i−1k=1 1rk=1
N − (i − 1)
)1ri=1
Modelisation d’un sondageApproche combinatoire
Loi de R sous Pθ :
Pθ {R = r} =n∏
i=1
(Nρ−
∑i−1k=1 1rk=0
N − (i − 1)
)1ri=0(N(1− ρ)−
∑i−1k=1 1rk=1
N − (i − 1)
)1ri=1
=n∏
i=1
(ρ+
(i − 1)−∑i−1
k=1 1rk=0
N − (i − 1)
)1ri=0
×
((1− ρ) +
(i − 1)−∑i−1
k=1 1rk=1
N − (i − 1)
)1ri=1
Loi compliquee du fait de la dependance des reponses...
Simplification drastique si N = +∞...
Modelisation d’un sondageApproche population
Modelisation :Chaque individu se comporte de maniere independante.La reponse Ri d’un individu pris au hasard est 0 avec une probabilite ρ et1 avec une probabilite 1− ρ (Bernoulli de parametre ρ).
Parametre θ = ρ ∈ Θ = [0, 1].
Loi de R sous Pθ :
Pθ {R = r} =n∏
i=1
ρ1ri=0(1− ρ)1ri=1
= (ρ)∑n
i=1 1ri=0(1− ρ)∑n
i=1 1ri=1
Loi de N0 =∑n
i=1 1ri=0 :
Pθ {N0 = n0} =∑
r ,∑n
i=1 1ri=0=n0
Pθ {R = r} =
(n
n0
)ρn0(1− ρ)n−n0
N0 suit une loi binomiale de parametre (n, ρ) !
Modelisation d’un sondageRappel sur la loi binomiale
X v.a. a valeur entiere suit une loi binomiale de parametres (n, ρ) siet seulement si
P {X = k} =
(n
k
)ρk(1− ρ)n−k
On sait qu’alors
E [X ] = nρ
V [X ] = nρ(1− ρ)
Idee naturelle : estimer ρ par ρ = X/n...
On a immediatement
E [ρ] = ρ
V [ρ] =ρ(1− ρ)
n
Modelisation d’un sondageApplication
On estime ρ par ρ = N0/n... i.e. la proportion empirique...
Proprietes de l’estimateur :
Sans biais : Eθ [ρ] = ρ.
Erreur quadratique : Eθ
[|ρ− ρ|2
]= Vθ [ρ] = ρ(1−ρ)
n
Proprietes asymptotiques :
Convergence en probabilite (via Markov) :
Pθ {|ρ− ρ| > ε} ≤ ρ(1− ρ)
nε2→ 0
Convergence forte (en utilisant la LFGN pour les variables de BernoulliRi ) : ρ→ ρ p.s.Convergence en loi (TCL) :
√n (ρ− ρ)→ N (0, ρ(1− ρ))
Modelisation d’un sondageIntervalle(s) de confiance
Quelle confiance avoir sur l’estimee p ?
Markov : Pθ {|ρ− ρ| > ε} ≤ ρ(1− ρ)
nε2≤ 1
4nε2
Intervalle de confiance de niveau α : pour δα = 1/√
1− α
Pθ{ρ ∈
[ρ− δα
2√n, ρ+
δα2√n
]}≥ α
Zone de confiance de niveau α :
Pθ{ρ, (ρ− ρ)2 ≤ δ2
α
ρ(1− ρ)
n
}≥ α
TCL :Pθ{√
n|ρ− ρ| > δ√ρ(1− ρ)
}→ P {|N (0, 1)| > ε} ≤ 2e−δ
2/2
IC asymptotiquement de niveau α : pour δα =√
2 log(2/(1− α))
Pθ{ρ ∈ [ρ− δα
√ρ(1− ρ)/
√n, ρ− δα
√ρ(1− ρ)/
√n]}→ α
Modelisation d’un sondageTest et IC
Peut-on verifier l’hypothese ρ = ρ0 ?
Pb : impossible de distinguer ρ0 de ρ0 + ε si n n’est pas assez grand !
Test statistique = test de non incompatibilite avec l’hypothese !
Approche classique :
on se fixe un niveau de confiance α,on determine une zone de confiance de ρ pour ce niveau sous l’hypotheseρ = ρ0,on rejette l’hypothese si ρ n’est pas dans la zone et on ne rejette pasl’hypothese sinon...
Une experience statistique (comme les experiences dessciences experimentales) ne permet pas d’accepter unehypothese mais uniquement de verifier son apparente noncontradiction avec les observations !