MAPSI — cours 3 :Maximum de vraisemblance
Maximum a posteriori
Christophe Gonzales
LIP6 – Universite Paris 6, France
Motivations : conduite automatique
but : conduire une voiture automatiquementcomme le ferait un conducteur / joueurmethode : calculer la probabilite de chaque actionconditionnellement a notre butprobleme : comment determiner cette probabilite ?solution : echantillon⇒ estimation de probabilite
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 2/65
Motivations : conduite automatique
Courb : courbure de la route
AngV : angle de la voiture par rapport a la route
DistC : position par rapport au centre de la route
Action : action du conducteur sur le volant
〈 Courb, AngV, DistC, Action 〉 =⇒ echantillon
=⇒ P(Courb,AngV,DistC,Action)
=⇒ P(Action|Courb,AngV,DistC)
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 3/65
Motivations : systeme de recommandation
ArmelleBernard
Damien Claude
Armelle, Bernard, Claude=⇒ notes films (rA, rB, rC)
Probleme : quel film conseiller aDamien?
Solution : echantillons〈rA, rB, rC , rD〉 =⇒ P(rA, rB, rC , rD)
conseiller Damien en exploitantP(rD|rA, rB, rC)
Probleme : comment determiner P(rA, rB, rC , rD)
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 4/65
Motivations : classification d’images
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 5/65
Motivations : classification d’images
Signatures spectrales moyennes
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 6/65
Motivations : classification d’images
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 7/65
Motivations : classification d’images
infrarouge moyenproche infrarougevisible
refle
ctan
ce
2 problemes :
1 Comment determiner les zones en bleu et vert ?2 A quelle zone appartient la courbe en noir ?
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 8/65
Motivations : resume
Methodes etudiees dans ce cours :
1 apprentissage / estimation de parametres de modeles
2 classification / prise de decision
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 9/65
Plan du cours n◦3
1 Vraisemblance et prise de decision
2 Estimation par maximum de vraisemblance
3 Estimation par maximum a posteriori
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 10/65
Vraisemblance d’un echantillon : loi discrete connue
Echantillon x = (x1, . . . , xn) de taille n
Echantillon =⇒ les xi = realisations de variables aleatoires Xi
Echantillon i.i.d. =⇒ les Xi sont mutuellement independants
=⇒ P(X1 = x1, . . . ,Xn = xn) =n∏
i=1
P(Xi = xi)
l’hypothese i.i.d est essentielle !
Vraisemblance d’un echantillon dans le cas discret
L(x) = Vraisemblance de l’echantillon
L(x) = proba d’obtenir cet echantillon sachant la loi P
L(x) = P(x1, . . . , xn) =n∏
i=1
P(xi)
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 11/65
Vraisemblance d’un echantillon : loi discrete connue
piece de monnaie : P(Pile) = 0,75 et P(Face) = 0,25
jet de la piece =⇒ experience de Bernoulli
=⇒ hypothese i.i.d. verifiee
echantillon 1 : P P F F P P F P P P
=⇒ L(x) =7∏
i=1
P(Pile)×3∏
i=1
P(Face)
= 0,757 × 0,253 ≈ 0,002086
echantillon 2 : F F P P F F P F F F
=⇒ L(x) =3∏
i=1
P(Pile)×7∏
i=1
P(Face)
= 0,753 × 0,257 ≈ 0,000026MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 12/65
Prevention des risques d’inondation (1/4)
Plan de prevention des risques d’inondations (PPR-I) :
photos satellite SPOT5 =⇒ zones susceptibles d’etre inondees
3 categories de parcelles :
1 inondables (PI)2 partiellement inondables (PPI)3 non inondables (NI)
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 13/65
Prevention des risques d’inondation (2/4)
images en teintes de gris
proba d’obtenir un niveau de gris n depend du type de zone :
P(n|PI) = N (µ1, σ21)
µ1 = 100 σ1 = 20P(n|PPI) = N (µ2, σ
22)
µ2 = 85 σ2 = 5
nouvelle image envoyee par SPOT5 :
zone Z : niveau de gris = n = 80
Probleme : zone Z = PI ou PPI ?
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 14/65
Prevention des risques d’inondation (3/4)
Probleme : zone Z = PI ou PPI ?
2 hypotheses :
1 θ1 = � Z est de type PI �
2 θ2 = � Z est de type PPI �
Idee : calcul du max de vraisemblance d’obtenir la zone Z
sous θ1 ou sous θ2
L(x, θ1) = p(80|PI), avec p fct de densite de P(n|PI) = N (µ1, σ21)
Rappel : la fonction de densite de N (µ, σ2) est :
p(x) =1√
2π.σexp
{−1
2
(x − µσ
)2}
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 15/65
Prevention des risques d’inondation (4/4)
Probleme : zone Z = PI ou PPI ?
P(n|PI) = N (µ1, σ21) = N (100,202)
L(x, θ1) = p(80|PI)
= 1√2π×20
exp{−1
2
(80−10020
)2}
= 120√
2πexp
{−1
2
}≈ 0,0121
P(n|PPI) = N (µ2, σ22) = N (85,52)
L(x, θ2) = p(80|PPI) = 1√2π×5
exp{−1
2
(80−855
)2}≈ 0,0484
Max de vraisemblance =⇒ PPI plus probable
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 16/65
Vraisemblance : application au suivi d’objets
image d’origine image de vraisemblance
suivi par filtrage particulaire :
modele de l’objet : boite englobante
particules : echantillon de boites pondere (poids = vraisemblance)
position de l’objet = moyenne ponderee des positions des boites
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 17/65
Vraisemblance : application au suivi d’objets
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 18/65
Vraisemblance : classification d’images
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 19/65
Vraisemblance : classification d’images
infrarouge moyenproche infrarougevisible
refle
ctan
ce
1 selection de bandes de frequences
2 hypothese gaussienne : 1 loi normale multidimensionnelle / classe
3 classification : max de vraisemblances / lois normales
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 20/65
Loi normale multidimensionnelleDefinition : loi normale bi-dimensionnelle
couple de variables (X ,Y )
densite dans R2 :
f (x , y) = 12πσxσy
√1−ρ2×
exp{− 1
2(1−ρ2)
[(x−µx
σx)2 − 2ρ (x−µx )(y−µy )
σxσy+ (
y−µyσy
)2]}
ou ρ = cov(X ,Y )σxσy
= coefficient de correlation lineaire
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 21/65
2 Estimation par maximum de vraisemblance
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 22/65
Apprentissage par vraisemblance : le cas discret
Parametre a estimer : Θ
Exemple 1 : X ∈ {pile,face}
pile faceP(X ) = θ1 θ2 =⇒ Θ = {θ1, θ2}
Exemple 2 : recommandations : rA ∈ {1,2,3}, rB ∈ {a,b}
a b1 θ1 θ2
P(rA, rB) = 2 θ3 θ4 =⇒ Θ = {θ1, . . . , θ6}3 θ5 θ6
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 23/65
Apprentissage par vraisemblance : le cas discret
Parametre a estimer : Θ
Echantillon x = (x1, . . . , xn) de taille n
Echantillon =⇒ les xi = realisations de variables aleatoires Xi
Echantillon i.i.d. =⇒ les Xi sont mutuellement independants
=⇒ P(X1 = x1, . . . ,Xn = xn|Θ = θ) =n∏
i=1
P(Xi = xi |Θ = θ)
Vraisemblance d’un echantillon dans le cas discret
L(x, θ) = Vraisemblance de l’echantillon
L(x, θ) = proba d’obtenir cet echantillon sachant que Θ = θ
L(x, θ) = P(x1, . . . , xn|Θ = θ) =n∏
i=1
P(xi |Θ = θ)
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 24/65
Vraisemblance d’un echantillon : le cas continu
Parametre a estimer : Θ
Echantillon x = (x1, . . . , xn) de taille n
Echantillon i.i.d. =⇒ les Xi sont mutuellement independants
p : fonction de densite
=⇒ p(X1 = x1, . . . ,Xn = xn|Θ = θ) =n∏
i=1
p(Xi = xi |Θ = θ)
Vraisemblance d’un echantillon dans le cas continu
L(x, θ) = Vraisemblance de l’echantillon
L(x, θ) = p(x1, . . . , xn|Θ = θ) =n∏
i=1
p(xi |Θ = θ)
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 25/65
Apprentissage de Θ par vraisemblance
piece de monnaie : P(Pile) = θ1 = ??? et P(Face) = θ2 = ???
parametre Θ = proba de Pile = θ1 = ???
echantillon : P P F F P P F P P P
=⇒ L(x,Θ) =7∏
i=1
P(Pile|Θ)×3∏
i=1
P(Face|Θ)
θ1 = 0,75 =⇒ L(x, θ1) = 0,757 × 0,253 ≈ 0,002086
θ2 = 0,5 =⇒ L(x, θ2) = 0,57 × 0,53 ≈ 0,000976
θ3 = 0,25 =⇒ L(x, θ3) = 0,257 × 0,753 ≈ 0,000026
=⇒ θ1 plus vraisemblable que θ2 ou θ3
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 26/65
Apprentissage de Θ par vraisemblance
θ
L(x, θ)
L(x, θ) = θ7 × (1− θ)3
0,70 1
solution optimale : θ = 0,7
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 27/65
Estimateur du maximum de vraisemblance
Estimateur du maximum de vraisemblance
X : variable aleatoire sur la population
X suit une loi de proba de parametre Θ inconnu
Θ : ensemble des valeurs possibles pour Θ
x : echantillon i.i.d.
T = f (X ) = estimateur du maximum de vraisemblance
defini par x 7−→ t = f (x) = Argmaxθ∈Θ
L(x, θ)
=⇒ t = valeur θ de Θ pour laquelle la proba d’observer xetait la plus grande
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 28/65
Calcul du maximum de vraisemblance
Probleme : comment calculer le maximum de vraisemblance?
Argmaxθ∈Θ
L(x, θ) = Argmaxθ∈Θ
P(x1, . . . , xn|θ) = Argmaxθ∈Θ
n∏i=1
P(xi |θ)
Certaines conditions de concavite et de derivabilite
=⇒ Argmaxθ∈Θ
L(x, θ) obtenu lorsque∂L(x, θ)
∂θ= 0
Argmaxθ∈Θ
L(x, θ) = Argmaxθ∈Θ
ln L(x, θ) = Argmaxθ∈Θ
n∑i=1
ln P(xi |θ)
Argmaxθ∈Θ
ln L(x, θ) = log vraisemblance
=⇒ Argmaxθ∈Θ
L(x, θ) obtenu lorsquen∑
i=1
∂ ln P(xi |θ)
∂θ= 0
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 29/65
Max de vraisemblance et loi binomiale
piece de monnaie
X ∈ {0,1}, 0⇐⇒ Face, 1⇐⇒ Pile
X ∼ B(1,p) =⇒ P(X = x |p) = px (1− p)1−x
n lancers de la piece =⇒ observations x = {x1, . . . , xn}
P(x|p) =n∏
i=1
P(xi |p) =n∏
i=1
pxi (1− p)1−xi
Probleme : a partir de x, peut-on raisonnablement deduire p ?
maximum de vraisemblance :
ln P(x|p) =n∑
i=1
[xi ln p + (1− xi) ln(1− p)]
∂ ln P(x|p)
∂p=
1p
n∑i=1
xi −n −
∑ni=1 xi
1− p= 0 =⇒ pML =
1n
n∑i=1
xi
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 30/65
Max de vraisemblance et loi normale (1/2)
X ∼ N (µ, σ2) ; on suppose σ = 1
parametre Θ = esperance µ
loi normale =⇒ vraisemblance :
L(x, θ) =n∏
i=1
p(xi |θ) =n∏
i=1
[1√2π
exp
{−1
2(xi − θ)2
}]∂L(x, θ)
∂θ= 0⇐⇒ ∂ln L(x, θ)
∂θ= 0
ln L(x, θ) = −n2
ln 2π − 12
n∑i=1
(xi − θ)2
∂L(x, θ)
∂θ= 0⇐⇒
n∑i=1
(xi − θ) = 0⇐⇒ θ =1n
n∑i=1
xi = x
Estimateur du maximum de vraisemblance : X
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 31/65
Max de vraisemblance et loi normale (2/2)X ∼ N (µ, σ2)
parametre Θ = (µ, σ2)
Log vraisemblance :
ln L(x, θ) = −n2
ln 2π − n2
lnσ2 − 12σ2
n∑i=1
(xi − µ)2
Maximum de vraisemblance =⇒ ∂L(x, θ)
∂µ= 0 et
∂L(x, θ)
∂σ2 = 0∂L(x, θ)
∂µ=
1σ2
n∑i=1
(xi − µ) = 0 =⇒ µ =1n
n∑i=1
xi = x
∂L(x, θ)
∂σ2 = −n2
1σ2 +
12σ4
n∑i=1
(xi − µ)2 = 0 =⇒ σ2 =1n
n∑i=1
(xi − x)2 = s2n
Estimateurs du maximum de vraisemblance : X et S2n
estimateur de la variance biaise : variance non corrigeeMAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 32/65
Probleme d’ajustement (1/6)
donneesestimation
x11
t = sin(2πx)
Observations(x1, t1)
...(x10, t10)
=⇒ courbe sin(2πx) =⇒ estimation de t11
=⇒ reconnaissance de la courbe verte
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 33/65
Probleme d’ajustement (2/6)
Idee : estimer la courbe verte par un polynome :
y(x ,w) = w0 + w1x + w2x2 + · · ·+ wMxM =M∑
j=0
wjx j
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 34/65
Probleme d’ajustement (3/6)
Idee : les ordonnees des points bleus sont distribuees selonune loi normale autour de y(x ,w) :
=⇒ P(t |x ,w, σ2) = N (t |y(x ,w), σ2)
Probleme : comment trouver w et σ2 ?
=⇒ par maximum de vraisemblance
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 35/65
Probleme d’ajustement (4/6)
P(t |x ,w, σ2) = N (t |y(x ,w), σ2)
observations {(xi , ti), i = 1, . . . ,n}
t = {t1, . . . , tn} ; x = {x1, . . . , xn}
observations =⇒ echantillon i.i.d
=⇒ P(t|x,w, σ2) =n∏
i=1
P(ti |xi ,w, σ2)
=n∏
i=1
N (ti |y(xi ,w), σ2)
Max de vraisemblance =⇒ calculer la log-vraisemblance :
ln p(t|x,w, σ2) = − 12σ2
n∑i=1
[y(xi ,w)− ti ]2 +
n2
ln1σ2 −
n2
ln(2π)
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 36/65
Probleme d’ajustement (5/6)
ln p(t|x,w, σ2) = − 12σ2
n∑i=1
[y(xi ,w)− ti ]2 +
n2
ln1σ2 −
n2
ln(2π)
Maximum de log-vraisemblance =⇒ trouver wML et σ2ML qui
maximisent ln p(t|x,w, σ2)
maximiser par rapport a wML ⇐⇒ minimisern∑
i=1
[y(xi ,w)− ti ]2
=⇒ Moindres carres
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 37/65
Probleme d’ajustement (6/6)
ln p(t|x,w, σ2) = − 12σ2
n∑i=1
[y(xi ,w)− ti ]2 +
n2
ln1σ2 −
n2
ln(2π)
maximiser ln p(t|x,w, σ2) par rapport a σ2 =⇒ ∂ ln p(t|x,w, σ2)
∂σ2 = 0
∂ ln p(t|x,w, σ2)
∂σ2 =1
2σ4
n∑i=1
[y(xi ,w)− ti ]2 − n
2σ4σ2 = 0
=⇒ σ2 =1n
n∑i=1
[y(xi ,w)− ti ]2
σ2ML =
1n
n∑i=1
[y(xi ,wML)− ti ]2
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 38/65
Retour sur la loi binomiale
pML =1n
n∑i=1
xi
3 lancers =⇒ observations : {Pile,Pile,Pile}
Maximum de vraisemblance =⇒ pML = 1
=⇒ on considere que tout lancer de la piece devrait tombersur Pile
=⇒ resultat a l’encontre du bon sens
=⇒ autre estimateur : maximum a posteriori
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 39/65
En route vers le maximum a posteriori
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 40/65
Le modele bayesien (1/4)
Maximum a posteriori =⇒ modele bayesien
Modele bayesien
evenements : parties de X ×Θ, ou :
X = l’espace des observations (echantillons) x de taille n
Θ = espace des parametres θ
famille des evenements dotee d’une loi de proba Π
cas discret : Π determinee par les probas des evenementselementaires π(x, θ)
cas continu : Π determinee par la densite jointe π(x, θ)
Max de vraisemblance : π(x|θ) au lieu de π(x, θ) = π(x|θ)π(θ)
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 41/65
Le modele bayesien (2/4)
Le cas discret :
π(x, θ) = Π(X = x,Θ = θ), ou X ,Θ variables aleatoires
π(x) = Π(X = x) =∑θ∈Θ
Π(X = x,Θ = θ) =∑θ∈Θ
π(x, θ)
π(θ) = Π(Θ = θ) =∑x∈X
Π(X = x,Θ = θ) =∑x∈X
π(x, θ)
π(x|θ) = Π(X = x|Θ = θ) =π(x, θ)
π(θ)
π(θ|x) = Π(Θ = θ|X = x) =π(x, θ)
π(x)
Probabilites a priori et a posteriori
π(θ) = probabilite a priori de θπ(θ|x) = probabilite a posteriori de θ
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 42/65
Le modele bayesien (3/4)
Le cas continu :
π(x) = Π(X = x) =
∫θ∈Θ
Π(X = x,Θ = θ)dθ =
∫θ∈Θ
π(x, θ)dθ
π(θ) = Π(Θ = θ) =
∫x∈X
Π(X = x,Θ = θ)dx =
∫x∈X
π(x, θ)dx
π(x|θ) =π(x, θ)
π(θ)
π(θ|x) =π(x, θ)
π(x)
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 43/65
Le modele bayesien (4/4)
Probabilites a priori et a posteriori
π(θ) = probabilite a priori de Θ
= idee que l’on se fait de Θ avant observationπ(θ|x) = probabilite a posteriori de Θ
= idee que l’on se fait de Θ apres observation
Formule de Bayes : π(θ|x) =π(x|θ)π(θ)
π(x)cas discret : π(θ|x) =
π(x|θ)π(θ)∑θ∈Θ π(x, θ)
=π(x|θ)π(θ)∑θ∈Θ π(x|θ)π(θ)
cas continu : π(θ|x) =π(x|θ)π(θ)∫θ∈Θ π(x, θ)dθ
=π(x|θ)π(θ)∫
θ∈Θ π(x|θ)π(θ)dθ
Rappel : π(x|θ) = vraisemblance de l’echantillon = L(x, θ)
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 44/65
Maximum a posteriori
Maximum a posteriori (MAP)T estimateur du maximum a posteriori de Θ :defini par x 7−→ t = Argmax
θ∈Θπ(θ|x)
echantillon i.i.d de n observations
X = (X1, . . . ,Xn) =⇒ x = (x1, . . . , xn) observation de Xcas discret : π(θ|x) =
L(x, θ)π(θ)∑θ∈Θ L(x, θ)π(θ)
cas continu : π(θ|x) =L(x, θ)π(θ)∫
θ∈Θ L(x, θ)π(θ)dθ
echantillon i.i.d =⇒ π(x|θ) = L(x, θ) =
∏n
i=1 P(xi |θ) (discret)∏ni=1 p(xi |θ) (continu)
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 45/65
MAP : retour sur la piece de monnaie (1/6)
piece de monnaie =⇒ X ∈ {0,1}
0⇐⇒ Face 1⇐⇒ Pile
X ∼ B(1, θ) =⇒ P(X = x |θ) = θx (1− θ)1−x
echantillon x de 3 lancers =⇒ {Pile,Pile,Pile}
Max de vraisemblance =⇒ θML = 1=⇒ tous les lancers devraient tomber sur Pile
Modele bayesien : Θ = {θ1 = 1, θ2 = 2/3, θ3 = 1/2, θ4 = 1/3}
Info a priori : π(θ1) = 132 , π(θ2) = 1
4 , π(θ3) = 12 , π(θ4) = 7
32
Probleme : quelle est la valeur du maximum a posteriori ?
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 46/65
MAP : retour sur la piece de monnaie (2/6)
Modele bayesien : Θ = {θ1 = 1, θ2 = 2/3, θ3 = 1/2, θ4 = 1/3}
L(x, θ1) = π(x|θ1) =3∏
i=1
P(xi |θ1) = 13 × 00 = 1
L(x, θ2) = π(x|θ2) =3∏
i=1
P(xi |θ2) =23
3×(
1− 23
)0
=23
3≈ 0,296
L(x, θ3) = π(x|θ3) =3∏
i=1
P(xi |θ3) =12
3×(
1− 12
)0
=12
30,125
L(x, θ4) = π(x|θ4) =3∏
i=1
P(xi |θ4) =13
3×(
1− 13
)0
=13
3≈ 0,037
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 47/65
MAP : retour sur la piece de monnaie (3/6)
Info a priori : π(θ1) = 132 , π(θ2) = 1
4 , π(θ3) = 12 , π(θ4) = 7
32
π(θ1|x) =L(x, θ1)π(θ1)∑θ∈Θ L(x, θ)π(θ)
∝ 1× 132
= 0,03125
π(θ2|x) =L(x, θ2)π(θ2)∑θ∈Θ L(x, θ)π(θ)
∝ 23
3× 1
4≈ 0,074
π(θ3|x) =L(x, θ3)π(θ3)∑θ∈Θ L(x, θ)π(θ)
∝ 12
3× 1
2= 0,0625
π(θ4|x) =L(x, θ4)π(θ4)∑θ∈Θ L(x, θ)π(θ)
∝ 13
3× 7
32≈ 0,008
Max a posteriori : Θ = θ2 =⇒ X ∼ B(1, θ2) = B(1,2/3)
probabilite que la piece tombe sur Face 6= 0
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 48/65
MAP : retour sur la piece de monnaie (4/6)
Modele bayesien : Θ ∈ [0,1]
Info a priori : Θ ∼ loi normale tronquee (µ = 1/2, σ = 1/4) :
densite : π(θ) =
10,9544
1√2πσ
exp
(−1
2
(θ−µσ
)2)
si θ ∈ [0,1]
0 sinon
θ
π(θ)
0 1
1
1,6
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 49/65
MAP : retour sur la piece de monnaie (5/6)
π(θ|x) =L(x, θ)π(θ)∫
θ′∈Θ L(x, θ′)π(θ′)∝ L(x, θ)π(θ) = θ3 × π(θ)
∝
θ3 × 10,9544
1√2πσ
exp
(−1
2
(θ−µσ
)2)
si θ ∈ [0,1]
0 sinon
θ
π(θ)
0 1
0.5
solution optimale : θ = 0,75
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 50/65
MAP : retour sur la piece de monnaie (6/6)
π(θ|x) ∝ θ3 × 10,9544
1√2πσ
exp
(−1
2
(θ−µσ
)2)
pour θ ∈ [0,1]
=⇒ log π(θ|x) = 3 log θ − 12
(θ − µσ
)2
+ constante
=⇒ ∂ log π(θ|x)
∂θ=
3θ− θ − µ
σ2
=⇒ ∂ log π(θ|x)
∂θ= 0⇔ θ2 − µθ − 3σ2 = 0
=⇒ θ = 0,75
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 51/65
MAP et les lois conjuguees
calcul de la distribution a posteriori : π(θ|x) =π(x|θ)π(θ)∫
θ∈Θ π(x|θ)π(θ)dθ
=⇒ si π(x|θ)π(θ) complexe analytiquement alors calcul del’integrale complique
Lois conjuguees
π(θ) : loi a prioriπ(x|θ) : fonction de vraisemblanceπ(θ|x) : distribution a posterioriπ(θ) et π(x|θ) sont conjuguees si π(θ|x) appartient a lameme famille de lois que π(θ)
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 52/65
Lois conjuguees : exemple de la piece de monnaie
piece de monnaie =⇒ X ∈ {0,1} : 0⇐⇒ 1⇐⇒
X ∼ B(1, θ) =⇒ vraisemblance d’un echantillon :
π(x|θ) = θx (1− θ)n−x , avec x = #(xi = 1)
=⇒ loi binomiale
Distribution de probabilite Beta
Loi Beta : Beta(θ,a,b) =Γ(a + b)
Γ(a)Γ(b)θa−1(1− θ)b−1
avec Γ(x) =
∫ +∞
0tx−1e−tdt
Esperance =a
a + bVariance =
ab(a + b)2(a + b + 1)
=⇒ loi Beta et loi binomiales conjuguees
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 53/65
Lois conjuguees : loi binomiale et loi Beta
loi a priori : π(θ) = Beta(θ,a,b) =Γ(a + b)
Γ(a)Γ(b)θa−1(1− θ)b−1
fonction de vraisemblance : π(x|θ) = θx (1− θ)n−x , avec x = #(xi = 1)
loi a posteriori : π(θ|x) =π(x|θ)π(θ)∑θ∈Θ π(x|θ)π(θ)
∝ π(x|θ)π(θ)
loi a posteriori : π(θ|x) ∝ θx+a−1(1− θ)b+n−x−1
=⇒ π(θ|x) ∼ Beta(θ, x + a,b + n − x)
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 54/65
Comparaison MAP – maximum de vraisemblance
piece de monnaie =⇒ X ∈ {0,1} : 0⇐⇒ 1⇐⇒
Max de vraisemblance :
π(x|θ) = θx (1− θ)n−x =⇒ Beta(θ, x + 1,n − x + 1)
Max a posteriori :
π(θ|x) ∝ θx+a−1(1− θ)b+n−x−1 =⇒ Beta(θ, x + a,n − x + b)
=⇒ Max de vraisemblance⇐⇒ Max a posteriori avec a = 1 et b = 1
Or Beta(θ,1,1) = Γ(a+b)Γ(a)Γ(b) = constante
Max de vraisemblance⇐⇒ Max a posteriori avec a priori uniforme
n→ +∞ =⇒ max de vraisemblance ≈ max a posteriori=⇒ l’a priori devient negligeable
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 55/65
La loi Beta
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 56/65
Loi normale et loi conjugueefonction de vraisemblance = loi normale, σ2 connue=⇒ loi a priori conjuguee : loi Γ
La loi Γ
X ∼ Γ(x , k , θ)
fonction de densite de la loi Γ :
f (x , k , θ) = xk−1 e−x/θ
θk Γ(k)∀x , k , θ > 0
Γ(k) =
∫ +∞
0tk−1e−tdt
E(X ) = kθ, V (X ) = kθ2
Lorsque k entier : Γ(x , k , θ) = loi de k variablesindependantes suivant une loi exponentielle d’esperance θ
Familles de lois conjuguees :http ://en.wikipedia.org/wiki/Conjugate prior
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 57/65
Loi Gamma
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 58/65
Prevention des risques d’inondation (1/3)
Plan de prevention des risques d’inondations (PPR-I) :
photos satellite SPOT5 =⇒ zones susceptibles d’etre inondees
3 categories de parcelles :
1 inondables (PI)2 partiellement inondables (PPI)3 non inondables (NI)
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 59/65
Prevention des risques d’inondation (2/3)
images en teintes de gris
proba d’obtenir un niveau de gris n depend du type de zone :
P(n|PI) = N (100,202) P(n|PPI) = N (85,52)
nouvelle image envoyee par SPOT5 :
zone Z : niveau de gris = n = 80
Connaissance a priori : 60% de PI, 10% de PPI, 30% de NI
Probleme : zone Z = PI ou PPI ?
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 60/65
Prevention des risques d’inondation (3/3)
Probleme : zone Z = PI ou PPI ?
2 hypotheses :1 θ1 = � Z est de type PI �2 θ2 = � Z est de type PPI �
Idee : calcul du MAP d’obtenir la zone Z sous θ1 ou sous θ2
π(θ1|x) =L(x, θ1)π(θ1)∑θ∈Θ L(x, θ)π(θ)
π(θ2|x) =L(x, θ2)π(θ2)∑θ∈Θ L(x, θ)π(θ)
Rappel cours 4 : L(x, θ1) ≈ 0,0121 L(x, θ2) ≈ 0,0484
a priori : π(θ1) = 0,6 π(θ2) = 0,1
π(θ1|x) =0,0121× 0,6∑θ∈Θ L(x, θ)π(θ)
π(θ2|x) =0,0484× 0,1∑θ∈Θ L(x, θ)π(θ)
MAP =⇒ parcelle inondable (PI)
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 61/65
Analyse d’un trafic reseau (1/4)
Reseau informatique : transfert de paquets
Probleme : analyse des paquets perdus sur un sous-reseau
X : variable aleatoire � nombre de paquets envoyes jusqu’abonne reception �
X loi geometrique : P(X = n) = (1− p)n−1p
p : probabilite qu’un paquet soit correctement transmis
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 62/65
Analyse d’un trafic reseau (2/4)
observation de 7 realisations de X :
2 3 8 3 4 7 8
Estimation de p ?
1 estimation par max de vraisemblance
2 estimation par MAP
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 63/65
Analyse d’un trafic reseau (3/4)
1 estimation par max de vraisemblance
2 3 8 3 4 7 8
vraisemblance : L(x, θ) =∏7
i=1 P(xi |θ)
θ = estimation de p
observations =⇒ L(x, θ) = (1− θ)28θ7
=⇒ ln L(x, θ) = 28 ln(1− θ) + 7 ln θ
=⇒ ∂ ln L(x, θ)
∂θ=−281− θ
+7θ
=7− 35θp(1− θ)
=⇒ maximum de vraisemblance = θ = 0,2
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 64/65
Analyse d’un trafic reseau (4/4)
2 estimation par max de vraisemblance
2 3 8 3 4 7 8
A priori : π(θ) = Beta(θ,2,15) =Γ(17)
Γ(2)Γ(15)θ1(1− θ)14
Argmaxθπ(θ|x) = ArgmaxθL(x, θ)π(θ)
= Argmaxθ[(1− θ)28θ7]× [(1− θ)14θ]
= Argmaxθ(1− θ)42θ8
= Argmaxθ 42 ln(1− θ) + 8 ln θ
=⇒ θMAP = 0,16
MAPSI — cours 3 : Maximum de vraisemblance Maximum a posteriori 65/65