SOCI1241-1 Elements du calcul des probabilites appliquees
aux sciences sociales et exercices pratiques
(en ce compris les bases de statistiques inferentielles)
Transparents
Philippe Lambert
http : //www.statsoc.ulg.ac.be/proba.html
Faculte des Sciences Sociales
Universite de Liege
Avertissement - Droits d’auteur
Les supports de cours mis sur Internet ont pour seulevocation d’etre utilises par les etudiants dans le cadrede leur cursus au sein de l’Universite de Liege. Aucunautre usage ni diffusion ne sont autorises, sous peinede constituer une violation de la Loi du 30 juin 1994relative aux droits d’auteurs.
Les supports de cours mis sur Internet ne represententpas l’entierete de la matiere, mais constituent lesnotes de base indispensables et minimales a la bonneconnaissance de celle-ci.
P. Lambert c© - Faculte des sciences sociales
Ch 2: Estimation et comparaison de proportions
Afin de faciliter cette introduction a l’inference statistique, nous supposerons (sauf
mention contraire) que les donnees mises a notre disposition ont ete obtenues par un
sondage aleatoire simple de taille n aupres d’un population de grande taille N .
P. Lambert c© - Faculte des sciences sociales Estimation et comparaison de proportions - 1
Estimation d’une proportion
• Imaginons que la variable d’interet soit binaire (presence d’une caracteristique ou
d’une opinion chez un individu).
• On peut associer a chaque personne de la population une variable binaire prenant la
valeur X = 1 si la caracteristique est presente (=“succes”) et X = 0 sinon (“echec”).
• La proportion (inconnue) π de personnes present la caracteristique d’interet dans la
population vaut alors
π =X1 + . . . + XN
N
• Afin d’estimer cette proportion, imaginons que la presence de la caracteristique soit
evaluee aupres d’un echantillon aleatoire simple de taille n extrait de cette population.
• Les donnees (binaires) a disposition sont alors {x1, . . . , xn}, indiquant pour chacune
des personnes si le“succes” s’est manifeste.
? Comment pouvons nous estimer la plausibilite des nombreuses valeurs possibles
pour π au depart des donnees recoltees?
P. Lambert c© - Faculte des sciences sociales Estimation et comparaison de proportions - 2
Exemple
Ex Enquete realisee en Belgique: estimation de la proportion de belges en faveur
d’une scission de la Belgique:
(Les donnees ci-dessous sont librement inspirees d’une enquete publiee par De Tijd - L’Echo debut
septembre 2007: 43% (12%) des flamands (resp. francophones) questionnes se sont exprimes en
faveur d’une scission.
. n (=100) personnes selectionnees au hasard (a partir d’une base de sondage de
tres grande taille, N) sont questionnees.
. y = x1 + . . .+ x100 = 30 personnes s’expriment en faveur de la scission du pays.
• Imaginons que l’on s’interesse a l’estimation de π au pourcent pres.
? Quelle est, ayant desormais connaissance des resultats de ce sondage, la plausibilite
que la proportion π d’individus dans la population en faveur d’une scission soit comprise
entre 0 et 1% (meme question pour entre 1 et 2%, . . . , entre 99 et 100%)?
P. Lambert c© - Faculte des sciences sociales Estimation et comparaison de proportions - 3
Formalisation du probleme
• Definissons une serie d’affirmations dont nous evaluerons la plausibililte:
B1 = “π ∈ [0, .01]′′, B2 = “π ∈]0.01, .02]′′, . . . , B100 = “π ∈]0.99, 1.00]′′.
• Notre objectif sera d’evaluer la plausibilite que Bi soit vraie connaissant les resultats
du sondage.
Connaissances a priori
• Evaluons a priori (cad avant la realisation du sondage) la plausibilite de chacune
de ces 100 affirmations.
• Imaginons que la personne a qui cet exercice est demande ne connaisse absolument
rien de nos problemes belgo-belges.
• Dans ce cas, sur base du principe d’indifference evoque en theorie de probabilites,
P(B1) = . . . = P(B100) =1
100
P. Lambert c© - Faculte des sciences sociales Estimation et comparaison de proportions - 4
Connaissance a posteriori et theoreme de Bayes
• Notons par D l’ensemble des informations disponibles a posteriori.
• Dans notre exemple, il s’agit des resultats du sondage (et de la maniere dont il a ete
realise).
• Le theoreme de Bayes permet de calculer les probabilites a posteriori de chacune
des affirmations B1, . . . , B100:
P(Bk|D) =P(D|Bk) P(Bk)
P(D)
• Le denominateur P(D) peut etre evalue par le theoreme de probabilite totale
P(D) = P(D|B1) P(B1) + . . . + P(D|B100) P(B100)
Ce denominateur permet d’assurer que la somme des probabilites a posteriori soit 1:
P(B1|D) + . . . + P(B100|D) = 1.
P. Lambert c© - Faculte des sciences sociales Estimation et comparaison de proportions - 5
Calcul de P(D|Bk)
• A titre d’exemple, calculons P(D|B29). Cela revient a supposer que π ∈]0.28, 0.29].
Pour simplifier les calculs, supposons que π = 0.285.
• L’information a notre disposition est que le nombre de personnes questionnees en
faveur de la scission est egal a y = 30.
• Or, si B29 est vraie, la distribution de Y est Bin(n = 100, π = 0.285). Donc
P(D|B29) = Pr(Y = 30|B29) =100!
30! 70!0.28530(1− 0.285)70 = 0.082
• Ce calcul peut etre fait pour l’ensemble des Bk.
Calcul de P(D|Bk)× Pr(Bk)
Comme Pr(Bk) = 0.01 (cfr. connaissances a priori), il suffit de multiplier chacun des
resultats precedents par 0.01.
P. Lambert c© - Faculte des sciences sociales Estimation et comparaison de proportions - 6
Calcul des probabilites a posteriori P(Bk|D)
• Pour rappel,
P(Bk|D) =P(D|Bk) P(Bk)
P(D)
Bk Milieu P(D|Bk) P(Bk) P(D|Bk)× P(Bk) P(Bk|D)... ... ... ... ... ...
(0.27,0.28) 0.275 0.074 0.01 0.00074 0.075
(0.28,0.29) 0.285 0.082 0.01 0.00082 0.083
(0.29,0.30) 0.295 0.086 0.01 0.00086 0.087
(0.30,0.31) 0.305 0.086 0.01 0.00086 0.087
(0.31,0.32) 0.315 0.082 0.01 0.00082 0.083... ... ... ... ... ...
1.00 P(D) = 0.00990 1.000
• Le theoreme de Bayes a donc permis de remettre a jour les plausibilites/probabilites
de chacune des affirmations B1, . . . , B100 sur base des resultats du sondage.
P. Lambert c© - Faculte des sciences sociales Estimation et comparaison de proportions - 7
Visualisation de l’a posteriori - Evaluation d’une hypothese
• La probabilite a posteriori que Bk
soit vraie est un compromis entre la
probabilite a priori et l’information
disponible dans les donnees.
• Interessons nous a la probabilite
que l’hypothese H=“Une majorite de
belges est en faveur d’une scission du
pays” soit correcte.
0.0 0.2 0.4 0.6 0.8 1.0
0.00
0.04
0.08
pi.k
post
• A priori, on avait P(π > 0.50) = Pr(B51 + . . . + B100) = 0.50 .
• A posteriori, nous avons desormais,
P(π > 0.50|D) = Pr(B51 + . . . + B100|D) = 0.00003 .
• Avec la connaissance des resultats du sondage, la personne initialement questionnee
elimine pratiquement la possibilite d’existence d’une majorite en faveur de la scission.
P. Lambert c© - Faculte des sciences sociales Estimation et comparaison de proportions - 8
L’a priori n’est pas toujours une expression d’ignorance
• Imaginons que le meme individu que precedemment prenne connaissance d’un nou-
veau sondage sur le meme sujet indiquant que 230 des 900 personnes supplementaires
questionnees sont en faveur de l’eclatement.
• Son a priori a propos de Bk est desormais
l’a posteriori resultant du 1er sondage:
P(Bk) ∝ π30k (1− πk)70
• L’a posteriori se deduit du theoreme de
Bayes:0.0 0.2 0.4 0.6 0.8 1.0
0.00
0.10
0.20
pi.k
post
2
P(Bk|D) ∝ P(D|Bk) P(Bk) ∝[π230k (1− πk)670
]×[π30k (1− πk)70
]∝ π230+30
k (1− πk)670+70
P. Lambert c© - Faculte des sciences sociales Estimation et comparaison de proportions - 9
A priori continu
• Dans le traitement precedent, nous avons discretise le probleme en partitionnant
l’intervalle (0, 1) en 100 intervalles de largeur 1% correspondant a B1, . . . , B100.
On s’est alors interesse a la probabilite que π ∈ Bk.
• Alternativement, il est possible de traiter π comme une variable continue sur (0, 1).
L’expression de toute connaissance la concernant se fera alors a l’aide d’une densite.
• Exprimons de nouveau l’ignorance de la
personne avant le 1er sondage. Toutes les
valeurs de π ∈ (0, 1) doivent etre mises
sur le meme pied: c’est ce qu’exprime la
distribution uniforme de densite
p(π) =
{1 si π ∈ (0, 1),
0 sinon.-0.5 0.0 0.5 1.0 1.5
0.0
0.2
0.4
0.6
0.8
1.0
Distribution uniforme
pi
p(pi)
Il s’agit de la densite a priori : elle exprime la connaissance a priori concernant π.
P. Lambert c© - Faculte des sciences sociales Estimation et comparaison de proportions - 10
Calcul de la densite a posteriori• Le theoreme de Bayes est utilise pour remettre a
jour, a la lumiere d’informations nouvelles, les con-
naissances a propos de π.
• Or, pour une valeur donnee de π, on a pour la dis-
tribution du nombre Y de personnes favorables a la
scission lors du 1er sondage, Y ∼ Bin(n = 100, π).
⇒ P(D|π) = P(Y = 30) =100!
30! 70!π30(1− π)70.
• Suite aux resultats du 1er sondage, la densite a
posteriori vaut alors
0.0 0.2 0.4 0.6 0.8 1.0
02
46
8
A priori uniforme et a posteriori Beta(31,71)
pi
Densité
p(π|D) =P(D|π)× p(π)
P(D)∝ P(D|π)× p(π)
∝{π30(1− π)70 × 1 si π ∈ (0, 1),
0 sinon.
• A une constante multiplicative pres, il s’agit de la densite d’une distribution Beta(31, 71).
Notation : (π|D) ∼ Beta(31, 71).
P. Lambert c© - Faculte des sciences sociales Estimation et comparaison de proportions - 11
La distribution continue Beta
• Par definition, π ∼ Beta(a, b) si
. l’espace d’echantillonnage de π est
E = [0, 1].
. la densite associee s’ecrit
p(π) =Γ(a + b)
Γ(a) Γ(b)πa−1(1− π)b−1
• On peut demontrer que
E(π) =a
a + b; Var(π) =
ab
(a + b)2 (a + b + 1)
Mode(π) =a− 1
a + b− 2
• Il est souvent fait usage de la distribution continue beta pour exprimer un a priori
sur une proportion. Remarquons que la distribution uniforme (cf. notre precedent a
priori) est une Beta(1, 1).
P. Lambert c© - Faculte des sciences sociales Estimation et comparaison de proportions - 12
Approximation normale de l’a posteriori• La plupart des logiciels ne donnent que des informations tres parcellaires a propos
de la distribution a posteriori.
• Ces informations reposent generalement sur une approximation normale de celle-ci.
• Lorsque qu’elle est a peu pres symetrique,
la distribution Beta(a, b) est souvent ap-
proximee par une normale de moyenne
egale au mode π = (a − 1)/(a + b − 2)
et de variance egale a (l’inverse de la
courbure au mode) π(1− π)/(a + b− 2).
• Pour l’a priori uniforme de notre exemple,
cela donne (avec π = y/n = 0.30),
(π|Y = y) ∼ Beta(y + 1, n− y + 1)
≈ N (π, π(1− π)/n)
= N (0.30, 0.0021 = 0.0462).
0.0 0.2 0.4 0.6 0.8 1.0
02
46
8
Approximation normale de Beta(31,71)
pi
A posterioriApprox. normaleA priori
P. Lambert c© - Faculte des sciences sociales Estimation et comparaison de proportions - 13
Erreur standard - Intervalle de credibilite
• Les valeurs communiquees par un logiciel sont typiquement le mode π (= 0.30) et
l’erreur standard
se(π) =√π(1− π)/n (= 0.046).
• Un intervalle de credibilite 95% approximatif est alors fourni par les quantiles 2.5%
et 97.5% de la normale approximante:
π ± 1.96× se(π) ≈ (0.21, 0.39)
• A posteriori, la probabilite (subjective) que π ∈ (0.21, 0.39) vaut 0.95.
• Les valeurs de cet intervalle sont percues comme un ensemble de valeurs plausibles
pour π.
• On peut egalement utiliser l’approximation normale pour approcher la probabilite a
posteriori qu’une majorite de belges soit en faveur de la scission du pays:
P(π > 0.50|D) ≈ P
(Z >
0.50− 0.30
0.046= 4.35
)= 1− P(Z < 4.35) = 0.000007
A comparer avec le resultat exact: 0.000028.
P. Lambert c© - Faculte des sciences sociales Estimation et comparaison de proportions - 14
Mise a jour de l’a posteriori
• A la veille du 2eme sondage, l’a priori concernant π est le dernier a posteriori:
π ∼ Beta(31, 71) ⇒ p(π) ∝ π30(1− π)70.
• Le 2eme sondage nous apprend que 230 (= y) des 900 (= n) personnes supplementaires
questionnees sont en faveur de l’eclatement.
• En faisant appel au theoreme de Bayes,
p(π|D) =P(D|π)× p(π)
P(D)∝ P(D|π)× p(π)
∝{π230(1− π)670 × π30(1− π)70 si π ∈ (0, 1),
0 sinon.
⇒ (π|D) ∼ Beta(261, 741)
≈ N (π = 0.26, 0.26× (1− 0.26)/1000)
= N (0.26, 0.000192 = 0.0142)
⇒ IC 95% : π ± 1.96× se(π) ≈ (0.23, 0.29)
0.0 0.2 0.4 0.6 0.8 1.0
05
1015
2025
A posteriori Beta(261,741)
pi
A posterioriApprox. normaleA priori
P. Lambert c© - Faculte des sciences sociales Estimation et comparaison de proportions - 15
Comparaison de proportions
• On est frequemment amene a comparer des proportions associees a des sous-
populations differentes d’une population cible.
Ex Un sondage aleatoire simple aupres de 150 filles et 150 garcons de 15 a 24 ans. Une
des questions posees est ”Avez-vous deja consomme une drogue douce?”. Le nombre
de ”succes” enregistre est y1 =∑150
i=1 Y1i = 12 chez les filles et y2 =∑150
i=1 Y2i = 24
chez les garcons. Peut-on conclure que, dans la population, les garcons sont plus sujets
que les filles a ce type de consommation?
• Notons respectivement par π1 et π2 les proportions (inconnues) dans la population
de filles et garcons entre 14 et 24 ans ayant deja consomme une drogue douce.
• Pour repondre a la derniere question, il est necessaire de comparer π1 et π2, par
exemple, au travers de δ = π2−π1. Il est donc necessaire de determiner la distribution
a posteriori de δ.
P. Lambert c© - Faculte des sciences sociales Estimation et comparaison de proportions - 16
Distribution a posteriori de δ = π2 − π1
• Comme precedemment, travaillons avec des a priori uniformes sur (0, 1) pour π1 et
π2. En utilisant les memes arguments que precedemment, on obtient:
(π1|Y1 = y1 = 12) ∼ Beta(y1 + 1, n1 − y1 + 1) = Beta(13, 139),
(π2|Y2 = y2 = 24) ∼ Beta(y2 + 1, n2 − y2 + 1) = Beta(25, 127).
• Il est, en principe, possible d’en deduire la distribution a posteriori de π2 − π1.
Cependant, cette distribution n’a pas de forme analytique simple.
• Il est alors commode de se reposer sur les approximations normales:
(π1|Y1 = y1) ∼ Beta(y1 + 1, n1 − y1 + 1) ≈ N (π1 = 0.080, π1(1− π1)/n1 = 0.00049),
(π2|Y2 = y2) ∼ Beta(y2 + 1, n2 − y2 + 1) ≈ N (π2 = 0.160, π2(1− π2)/n2 = 0.00090).
• On en deduit que
(δ = π2 − π1|Y1 = y1, Y2 = y2) ≈ N (π2 − π1, π2(1− π2)/n2 + π1(1− π1)/n1)= N (0.080, 0.00139 = 0.0372).
P. Lambert c© - Faculte des sciences sociales Estimation et comparaison de proportions - 17
Intervalle de credibilite pour δ
• δ = 0.080 et l’erreur standard de δ est se(δ) = 0.037.
• On en deduit un intervalle de credibilite 95% pour δ:
δ ± 1.96× se(δ) = (0.007, 0.153) ≈ (1%, 15%) -0.1 0.0 0.1 0.2 0.3
02
46
810
A posteriori pour delta
delta
• Comme cet intervalle ne comprend que des valeurs positives, il suggere qu’il y a,
dans la population, proportionnellement plus de consommateurs (declares) de drogue
douce chez les garcons.
Remarque
Lorsqu’un intervalle de credibilite pour π2 − π1 comprend a la fois des valeurs posi-
tives et negatives, il n’est pas possible, sur base de l’information a disposition (et des
resultats du sondage en particulier) d’ordonner π1 et π2.
P. Lambert c© - Faculte des sciences sociales Estimation et comparaison de proportions - 18
Test d’hypothese
• Evaluons la probabilite a posteriori de l’hypothese “il y a, dans la population, propor-
tionnellement plus de consommateurs (declares) de drogue douce chez les garcons ”.
• Cette probabilite vaut
P(δ > 0|D) ≈ P
(Z >
0− 0.08
0.037= −2.16
)= P(Z < +2.16) ≈ 0.98
• Elle est tres elevee (et superieure au seuil usuel d’acceptation de 95%): il y a donc
des indications serieuses que, dans la population, la proportion de consommateurs
(declares) soit plus grande chez les garcons.
• On dit que π2 est (statistiquement) significativement plus grand que π1.
Remarque
Il est usuel de rejeter une hypothese si sa probabilite (a posteriori) est ≤ 5%.
P. Lambert c© - Faculte des sciences sociales Estimation et comparaison de proportions - 19