Transparents Philippe Lambert · 2016. 1. 20. · Comment pouvons nous estimer la plausibilit e des...

SOCI1241-1 Elements du calcul des probabilites appliquees

aux sciences sociales et exercices pratiques

(en ce compris les bases de statistiques inferentielles)

Transparents

Philippe Lambert

http : //www.statsoc.ulg.ac.be/proba.html

Faculte des Sciences Sociales

Universite de Liege

Avertissement - Droits d’auteur

Les supports de cours mis sur Internet ont pour seulevocation d’etre utilises par les etudiants dans le cadrede leur cursus au sein de l’Universite de Liege. Aucunautre usage ni diffusion ne sont autorises, sous peinede constituer une violation de la Loi du 30 juin 1994relative aux droits d’auteurs.

Les supports de cours mis sur Internet ne represententpas l’entierete de la matiere, mais constituent lesnotes de base indispensables et minimales a la bonneconnaissance de celle-ci.

P. Lambert c© - Faculte des sciences sociales

Ch 2: Estimation et comparaison de proportions

Afin de faciliter cette introduction a l’inference statistique, nous supposerons (sauf

mention contraire) que les donnees mises a notre disposition ont ete obtenues par un

sondage aleatoire simple de taille n aupres d’un population de grande taille N .

P. Lambert c© - Faculte des sciences sociales Estimation et comparaison de proportions - 1

Estimation d’une proportion

• Imaginons que la variable d’interet soit binaire (presence d’une caracteristique ou

d’une opinion chez un individu).

• On peut associer a chaque personne de la population une variable binaire prenant la

valeur X = 1 si la caracteristique est presente (=“succes”) et X = 0 sinon (“echec”).

• La proportion (inconnue) π de personnes present la caracteristique d’interet dans la

population vaut alors

π =X1 + . . . + XN

N

• Afin d’estimer cette proportion, imaginons que la presence de la caracteristique soit

evaluee aupres d’un echantillon aleatoire simple de taille n extrait de cette population.

• Les donnees (binaires) a disposition sont alors {x1, . . . , xn}, indiquant pour chacune

des personnes si le“succes” s’est manifeste.

? Comment pouvons nous estimer la plausibilite des nombreuses valeurs possibles

pour π au depart des donnees recoltees?


Exemple

Ex Enquete realisee en Belgique: estimation de la proportion de belges en faveur

d’une scission de la Belgique:

(Les donnees ci-dessous sont librement inspirees d’une enquete publiee par De Tijd - L’Echo debut

septembre 2007: 43% (12%) des flamands (resp. francophones) questionnes se sont exprimes en

faveur d’une scission.

. n (=100) personnes selectionnees au hasard (a partir d’une base de sondage de

tres grande taille, N) sont questionnees.

. y = x1 + . . .+ x100 = 30 personnes s’expriment en faveur de la scission du pays.

• Imaginons que l’on s’interesse a l’estimation de π au pourcent pres.

? Quelle est, ayant desormais connaissance des resultats de ce sondage, la plausibilite

que la proportion π d’individus dans la population en faveur d’une scission soit comprise

entre 0 et 1% (meme question pour entre 1 et 2%, . . . , entre 99 et 100%)?


Formalisation du probleme

• Definissons une serie d’affirmations dont nous evaluerons la plausibililte:

B1 = “π ∈ [0, .01]′′, B2 = “π ∈]0.01, .02]′′, . . . , B100 = “π ∈]0.99, 1.00]′′.

• Notre objectif sera d’evaluer la plausibilite que Bi soit vraie connaissant les resultats

du sondage.

Connaissances a priori

• Evaluons a priori (cad avant la realisation du sondage) la plausibilite de chacune

de ces 100 affirmations.

• Imaginons que la personne a qui cet exercice est demande ne connaisse absolument

rien de nos problemes belgo-belges.

• Dans ce cas, sur base du principe d’indifference evoque en theorie de probabilites,

P(B1) = . . . = P(B100) =1

100


Connaissance a posteriori et theoreme de Bayes

• Notons par D l’ensemble des informations disponibles a posteriori.

• Dans notre exemple, il s’agit des resultats du sondage (et de la maniere dont il a ete

realise).

• Le theoreme de Bayes permet de calculer les probabilites a posteriori de chacune

des affirmations B1, . . . , B100:

P(Bk|D) =P(D|Bk) P(Bk)

P(D)

• Le denominateur P(D) peut etre evalue par le theoreme de probabilite totale

P(D) = P(D|B1) P(B1) + . . . + P(D|B100) P(B100)

Ce denominateur permet d’assurer que la somme des probabilites a posteriori soit 1:

P(B1|D) + . . . + P(B100|D) = 1.


Calcul de P(D|Bk)

• A titre d’exemple, calculons P(D|B29). Cela revient a supposer que π ∈]0.28, 0.29].

Pour simplifier les calculs, supposons que π = 0.285.

• L’information a notre disposition est que le nombre de personnes questionnees en

faveur de la scission est egal a y = 30.

• Or, si B29 est vraie, la distribution de Y est Bin(n = 100, π = 0.285). Donc

P(D|B29) = Pr(Y = 30|B29) =100!

30! 70!0.28530(1− 0.285)70 = 0.082

• Ce calcul peut etre fait pour l’ensemble des Bk.

Calcul de P(D|Bk)× Pr(Bk)

Comme Pr(Bk) = 0.01 (cfr. connaissances a priori), il suffit de multiplier chacun des

resultats precedents par 0.01.


Calcul des probabilites a posteriori P(Bk|D)

• Pour rappel,

P(Bk|D) =P(D|Bk) P(Bk)

P(D)

Bk Milieu P(D|Bk) P(Bk) P(D|Bk)× P(Bk) P(Bk|D)... ... ... ... ... ...

(0.27,0.28) 0.275 0.074 0.01 0.00074 0.075

(0.28,0.29) 0.285 0.082 0.01 0.00082 0.083

(0.29,0.30) 0.295 0.086 0.01 0.00086 0.087

(0.30,0.31) 0.305 0.086 0.01 0.00086 0.087

(0.31,0.32) 0.315 0.082 0.01 0.00082 0.083... ... ... ... ... ...

1.00 P(D) = 0.00990 1.000

• Le theoreme de Bayes a donc permis de remettre a jour les plausibilites/probabilites

de chacune des affirmations B1, . . . , B100 sur base des resultats du sondage.


Visualisation de l’a posteriori - Evaluation d’une hypothese

• La probabilite a posteriori que Bk

soit vraie est un compromis entre la

probabilite a priori et l’information

disponible dans les donnees.

• Interessons nous a la probabilite

que l’hypothese H=“Une majorite de

belges est en faveur d’une scission du

pays” soit correcte.

0.0 0.2 0.4 0.6 0.8 1.0

0.00

0.04

0.08

pi.k

post

• A priori, on avait P(π > 0.50) = Pr(B51 + . . . + B100) = 0.50 .

• A posteriori, nous avons desormais,

P(π > 0.50|D) = Pr(B51 + . . . + B100|D) = 0.00003 .

• Avec la connaissance des resultats du sondage, la personne initialement questionnee

elimine pratiquement la possibilite d’existence d’une majorite en faveur de la scission.


L’a priori n’est pas toujours une expression d’ignorance

• Imaginons que le meme individu que precedemment prenne connaissance d’un nou-

veau sondage sur le meme sujet indiquant que 230 des 900 personnes supplementaires

questionnees sont en faveur de l’eclatement.

• Son a priori a propos de Bk est desormais

l’a posteriori resultant du 1er sondage:

P(Bk) ∝ π30k (1− πk)70

• L’a posteriori se deduit du theoreme de

Bayes:0.0 0.2 0.4 0.6 0.8 1.0

0.00

0.10

0.20

pi.k

post

2

P(Bk|D) ∝ P(D|Bk) P(Bk) ∝[π230k (1− πk)670

]×[π30k (1− πk)70

]∝ π230+30

k (1− πk)670+70


A priori continu

• Dans le traitement precedent, nous avons discretise le probleme en partitionnant

l’intervalle (0, 1) en 100 intervalles de largeur 1% correspondant a B1, . . . , B100.

On s’est alors interesse a la probabilite que π ∈ Bk.

• Alternativement, il est possible de traiter π comme une variable continue sur (0, 1).

L’expression de toute connaissance la concernant se fera alors a l’aide d’une densite.

• Exprimons de nouveau l’ignorance de la

personne avant le 1er sondage. Toutes les

valeurs de π ∈ (0, 1) doivent etre mises

sur le meme pied: c’est ce qu’exprime la

distribution uniforme de densite

p(π) =

{1 si π ∈ (0, 1),

0 sinon.-0.5 0.0 0.5 1.0 1.5

0.0

0.2

0.4

0.6

0.8

1.0

Distribution uniforme

pi

p(pi)

Il s’agit de la densite a priori : elle exprime la connaissance a priori concernant π.


Calcul de la densite a posteriori• Le theoreme de Bayes est utilise pour remettre a

jour, a la lumiere d’informations nouvelles, les con-

naissances a propos de π.

• Or, pour une valeur donnee de π, on a pour la dis-

tribution du nombre Y de personnes favorables a la

scission lors du 1er sondage, Y ∼ Bin(n = 100, π).

⇒ P(D|π) = P(Y = 30) =100!

30! 70!π30(1− π)70.

• Suite aux resultats du 1er sondage, la densite a

posteriori vaut alors

0.0 0.2 0.4 0.6 0.8 1.0

02

46

8

A priori uniforme et a posteriori Beta(31,71)

pi

Densité

p(π|D) =P(D|π)× p(π)

P(D)∝ P(D|π)× p(π)

∝{π30(1− π)70 × 1 si π ∈ (0, 1),

0 sinon.

• A une constante multiplicative pres, il s’agit de la densite d’une distribution Beta(31, 71).

Notation : (π|D) ∼ Beta(31, 71).


La distribution continue Beta

• Par definition, π ∼ Beta(a, b) si

. l’espace d’echantillonnage de π est

E = [0, 1].

. la densite associee s’ecrit

p(π) =Γ(a + b)

Γ(a) Γ(b)πa−1(1− π)b−1

• On peut demontrer que

E(π) =a

a + b; Var(π) =

ab

(a + b)2 (a + b + 1)

Mode(π) =a− 1

a + b− 2

• Il est souvent fait usage de la distribution continue beta pour exprimer un a priori

sur une proportion. Remarquons que la distribution uniforme (cf. notre precedent a

priori) est une Beta(1, 1).


Approximation normale de l’a posteriori• La plupart des logiciels ne donnent que des informations tres parcellaires a propos

de la distribution a posteriori.

• Ces informations reposent generalement sur une approximation normale de celle-ci.

• Lorsque qu’elle est a peu pres symetrique,

la distribution Beta(a, b) est souvent ap-

proximee par une normale de moyenne

egale au mode π = (a − 1)/(a + b − 2)

et de variance egale a (l’inverse de la

courbure au mode) π(1− π)/(a + b− 2).

• Pour l’a priori uniforme de notre exemple,

cela donne (avec π = y/n = 0.30),

(π|Y = y) ∼ Beta(y + 1, n− y + 1)

≈ N (π, π(1− π)/n)

= N (0.30, 0.0021 = 0.0462).

0.0 0.2 0.4 0.6 0.8 1.0

02

46

8

Approximation normale de Beta(31,71)

pi

A posterioriApprox. normaleA priori


Erreur standard - Intervalle de credibilite

• Les valeurs communiquees par un logiciel sont typiquement le mode π (= 0.30) et

l’erreur standard

se(π) =√π(1− π)/n (= 0.046).

• Un intervalle de credibilite 95% approximatif est alors fourni par les quantiles 2.5%

et 97.5% de la normale approximante:

π ± 1.96× se(π) ≈ (0.21, 0.39)

• A posteriori, la probabilite (subjective) que π ∈ (0.21, 0.39) vaut 0.95.

• Les valeurs de cet intervalle sont percues comme un ensemble de valeurs plausibles

pour π.

• On peut egalement utiliser l’approximation normale pour approcher la probabilite a

posteriori qu’une majorite de belges soit en faveur de la scission du pays:

P(π > 0.50|D) ≈ P

(Z >

0.50− 0.30

0.046= 4.35

)= 1− P(Z < 4.35) = 0.000007

A comparer avec le resultat exact: 0.000028.


Mise a jour de l’a posteriori

• A la veille du 2eme sondage, l’a priori concernant π est le dernier a posteriori:

π ∼ Beta(31, 71) ⇒ p(π) ∝ π30(1− π)70.

• Le 2eme sondage nous apprend que 230 (= y) des 900 (= n) personnes supplementaires

questionnees sont en faveur de l’eclatement.

• En faisant appel au theoreme de Bayes,

p(π|D) =P(D|π)× p(π)

P(D)∝ P(D|π)× p(π)

∝{π230(1− π)670 × π30(1− π)70 si π ∈ (0, 1),

0 sinon.

⇒ (π|D) ∼ Beta(261, 741)

≈ N (π = 0.26, 0.26× (1− 0.26)/1000)

= N (0.26, 0.000192 = 0.0142)

⇒ IC 95% : π ± 1.96× se(π) ≈ (0.23, 0.29)

0.0 0.2 0.4 0.6 0.8 1.0

05

1015

2025

A posteriori Beta(261,741)

pi

A posterioriApprox. normaleA priori


Comparaison de proportions

• On est frequemment amene a comparer des proportions associees a des sous-

populations differentes d’une population cible.

Ex Un sondage aleatoire simple aupres de 150 filles et 150 garcons de 15 a 24 ans. Une

des questions posees est ”Avez-vous deja consomme une drogue douce?”. Le nombre

de ”succes” enregistre est y1 =∑150

i=1 Y1i = 12 chez les filles et y2 =∑150

i=1 Y2i = 24

chez les garcons. Peut-on conclure que, dans la population, les garcons sont plus sujets

que les filles a ce type de consommation?

• Notons respectivement par π1 et π2 les proportions (inconnues) dans la population

de filles et garcons entre 14 et 24 ans ayant deja consomme une drogue douce.

• Pour repondre a la derniere question, il est necessaire de comparer π1 et π2, par

exemple, au travers de δ = π2−π1. Il est donc necessaire de determiner la distribution

a posteriori de δ.


Distribution a posteriori de δ = π2 − π1

• Comme precedemment, travaillons avec des a priori uniformes sur (0, 1) pour π1 et

π2. En utilisant les memes arguments que precedemment, on obtient:

(π1|Y1 = y1 = 12) ∼ Beta(y1 + 1, n1 − y1 + 1) = Beta(13, 139),

(π2|Y2 = y2 = 24) ∼ Beta(y2 + 1, n2 − y2 + 1) = Beta(25, 127).

• Il est, en principe, possible d’en deduire la distribution a posteriori de π2 − π1.

Cependant, cette distribution n’a pas de forme analytique simple.

• Il est alors commode de se reposer sur les approximations normales:

(π1|Y1 = y1) ∼ Beta(y1 + 1, n1 − y1 + 1) ≈ N (π1 = 0.080, π1(1− π1)/n1 = 0.00049),

(π2|Y2 = y2) ∼ Beta(y2 + 1, n2 − y2 + 1) ≈ N (π2 = 0.160, π2(1− π2)/n2 = 0.00090).

• On en deduit que

(δ = π2 − π1|Y1 = y1, Y2 = y2) ≈ N (π2 − π1, π2(1− π2)/n2 + π1(1− π1)/n1)= N (0.080, 0.00139 = 0.0372).


Intervalle de credibilite pour δ

• δ = 0.080 et l’erreur standard de δ est se(δ) = 0.037.

• On en deduit un intervalle de credibilite 95% pour δ:

δ ± 1.96× se(δ) = (0.007, 0.153) ≈ (1%, 15%) -0.1 0.0 0.1 0.2 0.3

02

46

810

A posteriori pour delta

delta

• Comme cet intervalle ne comprend que des valeurs positives, il suggere qu’il y a,

dans la population, proportionnellement plus de consommateurs (declares) de drogue

douce chez les garcons.

Remarque

Lorsqu’un intervalle de credibilite pour π2 − π1 comprend a la fois des valeurs posi-

tives et negatives, il n’est pas possible, sur base de l’information a disposition (et des

resultats du sondage en particulier) d’ordonner π1 et π2.


Test d’hypothese

• Evaluons la probabilite a posteriori de l’hypothese “il y a, dans la population, propor-

tionnellement plus de consommateurs (declares) de drogue douce chez les garcons ”.

• Cette probabilite vaut

P(δ > 0|D) ≈ P

(Z >

0− 0.08

0.037= −2.16

)= P(Z < +2.16) ≈ 0.98

• Elle est tres elevee (et superieure au seuil usuel d’acceptation de 95%): il y a donc

des indications serieuses que, dans la population, la proportion de consommateurs

(declares) soit plus grande chez les garcons.

• On dit que π2 est (statistiquement) significativement plus grand que π1.

Remarque

Il est usuel de rejeter une hypothese si sa probabilite (a posteriori) est ≤ 5%.


Date post:	07-Oct-2020
Category:	Documents
Upload:	others
View:	0 times
Download:	0 times

Transparents Philippe Lambert · 2016. 1. 20. · Comment pouvons nous estimer la plausibilit e des...

Documents