+ All Categories
Home > Documents > Design-based and Model-based Methods for ... - crest.fr · Approches fondées sur le plan...

Design-based and Model-based Methods for ... - crest.fr · Approches fondées sur le plan...

Date post: 10-Sep-2018
Category:
Upload: hahanh
View: 214 times
Download: 0 times
Share this document with a friend
19
Design-based and Model-based Methods for Estimating Model Parameters David A. Binder, Georgia R. Roberts Groupe de lecture économétrie/sondages 19 janvier 2015
Transcript
Page 1: Design-based and Model-based Methods for ... - crest.fr · Approches fondées sur le plan (design-based) Approches fondées sur les modèles (model-based) Binder et Roberts (2003):

Design-based and Model-based Methodsfor Estimating Model Parameters

David A. Binder, Georgia R. Roberts

Groupe de lecture économétrie/sondages

19 janvier 2015

Page 2: Design-based and Model-based Methods for ... - crest.fr · Approches fondées sur le plan (design-based) Approches fondées sur les modèles (model-based) Binder et Roberts (2003):

Plan vs modèle : définitions et résultats élémentairesVariance totale : mécanisme d’échantillonage en deux phases

Statistiques non linéaires, propriétés conditionnellesConséquences d’un mauvaise spécification de modèle

Recommandations et conclusion

Estimation de paramètres à partir de données d’enquête

Questions

Faut-il utiliser les poids de sondage et si oui, comment ?Tests d’hypothèses, intervalles de confiance : comment estimer la variance ?

Deux types d’approches

Approches fondées sur le plan (design-based)Approches fondées sur les modèles (model-based)

Binder et Roberts (2003) : étudient les biais des estimateurs dans les différentscontextes ainsi que les conséquences d’un "mauvais" choix de spécification.

⇒ approches opposées ou réconciliables ?

Quelques références pour une perspective historique des débats :Kish "The hundred years’ wars of survey sampling" (1995)Särndal "Models in Survey Sampling" (2010)

David A. Binder, Georgia R. Roberts Design-based and Model-based Methods for Estimating Model Parameters

Page 3: Design-based and Model-based Methods for ... - crest.fr · Approches fondées sur le plan (design-based) Approches fondées sur les modèles (model-based) Binder et Roberts (2003):

Plan vs modèle : définitions et résultats élémentairesVariance totale : mécanisme d’échantillonage en deux phases

Statistiques non linéaires, propriétés conditionnellesConséquences d’un mauvaise spécification de modèle

Recommandations et conclusion

Särndal(2010)

Revue des débats sur le rôle des modèles dans les sondages, dans un cadrethéorique comme pratique.

Réconcilier les deux approches ?revenir à des relations amicales et à l’harmonierendre compatible, faire converger

→ Les deux approches ne peuvent vivre l’une sans l’autre !

(expliciter modélisation - ratio, régression généralisée -, intégrer phase desélection dans les modèles, petits domaines, non réponse, calage, etc.)

David A. Binder, Georgia R. Roberts Design-based and Model-based Methods for Estimating Model Parameters

Page 4: Design-based and Model-based Methods for ... - crest.fr · Approches fondées sur le plan (design-based) Approches fondées sur les modèles (model-based) Binder et Roberts (2003):

Plan vs modèle : définitions et résultats élémentairesVariance totale : mécanisme d’échantillonage en deux phases

Statistiques non linéaires, propriétés conditionnellesConséquences d’un mauvaise spécification de modèle

Recommandations et conclusion

Plan de la présentation

Plan vs modèles : définitions et résultats élémentaires

Variance totale : mécanisme d’échantillonnage en deux phases

Statistiques non linéaires

Conséquences d’une mauvaise spécification de modèle

Recommandations et conclusion

David A. Binder, Georgia R. Roberts Design-based and Model-based Methods for Estimating Model Parameters

Page 5: Design-based and Model-based Methods for ... - crest.fr · Approches fondées sur le plan (design-based) Approches fondées sur les modèles (model-based) Binder et Roberts (2003):

Plan vs modèle : définitions et résultats élémentairesVariance totale : mécanisme d’échantillonage en deux phases

Statistiques non linéaires, propriétés conditionnellesConséquences d’un mauvaise spécification de modèle

Recommandations et conclusion

Approche plan

Paramètres d’intérêt : θN de la population finie de taille NAléa : sélection d’un échantillon (selon un plan de sondage) de n unités parmi NValeurs prises par les unités considérées comme fixes.

Binder(2011)

David A. Binder, Georgia R. Roberts Design-based and Model-based Methods for Estimating Model Parameters

Page 6: Design-based and Model-based Methods for ... - crest.fr · Approches fondées sur le plan (design-based) Approches fondées sur les modèles (model-based) Binder et Roberts (2003):

Plan vs modèle : définitions et résultats élémentairesVariance totale : mécanisme d’échantillonage en deux phases

Statistiques non linéaires, propriétés conditionnellesConséquences d’un mauvaise spécification de modèle

Recommandations et conclusion

Approche modèle

Paramètres d’intérêt : θ d’une superpopulation infinieAléa : observations sont n réalisations indépendantes issues de la superpopulation

Binder(2011)

David A. Binder, Georgia R. Roberts Design-based and Model-based Methods for Estimating Model Parameters

Page 7: Design-based and Model-based Methods for ... - crest.fr · Approches fondées sur le plan (design-based) Approches fondées sur les modèles (model-based) Binder et Roberts (2003):

Plan vs modèle : définitions et résultats élémentairesVariance totale : mécanisme d’échantillonage en deux phases

Statistiques non linéaires, propriétés conditionnellesConséquences d’un mauvaise spécification de modèle

Recommandations et conclusion

Notations

ys moyenne empirique de y sur l’échantillon s¯yU moyenne de y sur la population finie U

vU variance de y sur la population U

It (t = 1, . . . ,N) variables indicatrices de sélection dans l’échantillon s

−ξ relatif au modèle−p relatif au plan−ξp relatif aux deux mécanismes aléatoires

David A. Binder, Georgia R. Roberts Design-based and Model-based Methods for Estimating Model Parameters

Page 8: Design-based and Model-based Methods for ... - crest.fr · Approches fondées sur le plan (design-based) Approches fondées sur les modèles (model-based) Binder et Roberts (2003):

Plan vs modèle : définitions et résultats élémentairesVariance totale : mécanisme d’échantillonage en deux phases

Statistiques non linéaires, propriétés conditionnellesConséquences d’un mauvaise spécification de modèle

Recommandations et conclusion

Estimation d’une moyenne

Approche modèleObservations y1, . . . ,yn réalisations indépendantes d’une superpopulation où les yisont de moyenne β et de variance σ2.Le paramètre d’intérêt est β et dans une approche modèle qui ignore le plan desondage utilisé pour sélectionner les n unités, l’estimateur est la moyenne nonpondérée sur l’échantillon s, β= ys.

Approche planLes n observations proviennent des unités tirées (selon un plan de sondage) dansune population finie U de taille N .Le paramètre d’intérêt b est la moyenne ¯yU sur la population U estimée dansl’approche plan par la moyenne sur s tenant compte des poids de sondage.

⇒ approches a priori non réconciliables ?

Si les données ont bien été générées selon le modèle spécifié, alors β est non biaiséselon l’approche plan pour b :

Ep(β)−b = o(1)

David A. Binder, Georgia R. Roberts Design-based and Model-based Methods for Estimating Model Parameters

Page 9: Design-based and Model-based Methods for ... - crest.fr · Approches fondées sur le plan (design-based) Approches fondées sur les modèles (model-based) Binder et Roberts (2003):

Plan vs modèle : définitions et résultats élémentairesVariance totale : mécanisme d’échantillonage en deux phases

Statistiques non linéaires, propriétés conditionnellesConséquences d’un mauvaise spécification de modèle

Recommandations et conclusion

Exemple d’un plan de sondage stratifié

On suppose que le modèle sous-jacent est que les yt sont de moyenne µ, devariance σ2 et non corrélées.L’échantillonnage est réalisé selon un plan stratifié : n1 unités sont sélectionnéesdans une strate de taille N1 et n2 dans celle de taille N2.

L’estimateur habituel pour l’approche plan de b = ¯yU est :

b = N1 ¯y1s +N2 ¯y2s

Navec Ep[b] = N1 ¯y1U +N2 ¯y2U

N

L’estimateur pour l’approche modèle est β= ys d’où

Ep[β] = n1 ¯y1U +n2 ¯y2U

n

Dans le cas général, l’estimateur β ne converge pas (pour le plan) vers leparamètre d’intérêt de la population finie.En revanche, si le modèle spécifié est "vrai", il y a convergence asymptotique pourβ vers b.

David A. Binder, Georgia R. Roberts Design-based and Model-based Methods for Estimating Model Parameters

Page 10: Design-based and Model-based Methods for ... - crest.fr · Approches fondées sur le plan (design-based) Approches fondées sur les modèles (model-based) Binder et Roberts (2003):

Plan vs modèle : définitions et résultats élémentairesVariance totale : mécanisme d’échantillonage en deux phases

Statistiques non linéaires, propriétés conditionnellesConséquences d’un mauvaise spécification de modèle

Recommandations et conclusion

Approche model-design-based

Alternative aux approches modèle et plan "pures" : mécanisme en deux phasesavec un aléa de sélection aux deux phases, approche dite model-design-based.Généralisation de l’approche plan pure qui conditionne sur la première phase(valeurs de la population finie considérées comme fixes) et de l’approche modèlepure qui conditionne sur la sélection de deuxième phase (variables de sélection Itconsidérées comme fixes).

Binder(2011)David A. Binder, Georgia R. Roberts Design-based and Model-based Methods for Estimating Model Parameters

Page 11: Design-based and Model-based Methods for ... - crest.fr · Approches fondées sur le plan (design-based) Approches fondées sur les modèles (model-based) Binder et Roberts (2003):

Plan vs modèle : définitions et résultats élémentairesVariance totale : mécanisme d’échantillonage en deux phases

Statistiques non linéaires, propriétés conditionnellesConséquences d’un mauvaise spécification de modèle

Recommandations et conclusion

Variance totale

Ainsi, si la variance de b (dans l’approche plan pure) est varp[b], la variance totale,tenant compte des deux phases est :

varξp[b] = varξ[Ep[b]]+Eξ[varp[b]]

Les auteurs montrent alors (sous certaines hypothèses) qu’un estimateur vp(b) de

varp[b] peut être utilisé pour estimer la variance totale varξp[b] si vp(b) est

asymptotiquement non biaisé (pour le modèle) pour Eξ[varp[b]] ce qui est le cas

quand vp(b) converge vers varp[b].

David A. Binder, Georgia R. Roberts Design-based and Model-based Methods for Estimating Model Parameters

Page 12: Design-based and Model-based Methods for ... - crest.fr · Approches fondées sur le plan (design-based) Approches fondées sur les modèles (model-based) Binder et Roberts (2003):

Plan vs modèle : définitions et résultats élémentairesVariance totale : mécanisme d’échantillonage en deux phases

Statistiques non linéaires, propriétés conditionnellesConséquences d’un mauvaise spécification de modèle

Recommandations et conclusion

Erreur quadratique moyenne

Lorsque les données sont bien générées selon le modèle spécifié, l’estimateur"modèle" β peut être meilleur que l’estimateur "plan" b du point de vue del’erreur quadratique moyenne (espérance modèle de l’EQM plan).

Exemple : on reprend le plan stratifié et le modèle de l’exemple précédent.

β= ys = n1 ¯y1s +n2 ¯y2s

n

Ep[β] = n1 ¯y1U +n2 ¯y2U

nd’où Ep[β]−b =α( ¯y1U − ¯y2U ) avec α= n1

n− N1

N

Sachant que :

varp[β] = n1v1U +n2v2U

n2

On montre que lorsque le modèle considéré est vrai :

Eξ[msep(β)] ≤ Eξ[msep(b)]

David A. Binder, Georgia R. Roberts Design-based and Model-based Methods for Estimating Model Parameters

Page 13: Design-based and Model-based Methods for ... - crest.fr · Approches fondées sur le plan (design-based) Approches fondées sur les modèles (model-based) Binder et Roberts (2003):

Plan vs modèle : définitions et résultats élémentairesVariance totale : mécanisme d’échantillonage en deux phases

Statistiques non linéaires, propriétés conditionnellesConséquences d’un mauvaise spécification de modèle

Recommandations et conclusion

Ratios et statistiques non linéaires

En utilisant des méthodes de linéarisation de Taylor, les auteurs montrent quepour :

les ratios

les statistiques non linéaires définies explicitement

les statistiques non linéaires définies implicitements (MV)

lorsque le modèle est vrai, les ξp-espérances de b et β convergent vers leparamètre d’intérêt du modèle et la variance de b est asymptotiquement sansbiais pour la variance totale.

David A. Binder, Georgia R. Roberts Design-based and Model-based Methods for Estimating Model Parameters

Page 14: Design-based and Model-based Methods for ... - crest.fr · Approches fondées sur le plan (design-based) Approches fondées sur les modèles (model-based) Binder et Roberts (2003):

Plan vs modèle : définitions et résultats élémentairesVariance totale : mécanisme d’échantillonage en deux phases

Statistiques non linéaires, propriétés conditionnellesConséquences d’un mauvaise spécification de modèle

Recommandations et conclusion

Le plan de sondage n’est pas ignorable

Exemple : Pfeffermann (1996)

Population finie avec valeurs 0 ou 1 où le modèle serait P(yt = 1) =µ avec 0 <µ< 1.Le paramètre d’intérêt, β est égal à Eξ[ ¯yU ] =µ.

Considérons que pour chaque unité où yt = 0, la probabilité de sélection est p0 etqu’elle est p1 pour les yt = 1. Alors, d’après le théorème de Bayes :

µt1 = P(yt = 1|It = 1) = µp1

(1−µ)p0 +µp1

qui n’est pas nécessairement égal à µ.

En effet, avec ce plan non ignorable, le biais de ys comme estimateur de µ est :

µt1 −µ= µ(1−µ)(p1 −p0)

(1−µ)p0 +µp1

et la moyenne de l’échantillon, ys, ne converge pas vers µ sous le modèle spécifié,dès lors que p0 6= p1.

David A. Binder, Georgia R. Roberts Design-based and Model-based Methods for Estimating Model Parameters

Page 15: Design-based and Model-based Methods for ... - crest.fr · Approches fondées sur le plan (design-based) Approches fondées sur les modèles (model-based) Binder et Roberts (2003):

Plan vs modèle : définitions et résultats élémentairesVariance totale : mécanisme d’échantillonage en deux phases

Statistiques non linéaires, propriétés conditionnellesConséquences d’un mauvaise spécification de modèle

Recommandations et conclusion

La structure du modèle pour les moyennes µ est incorrecte

Exemple

Deux observations y1 et y2 et le modélisateur suppose que y1 et y2 ont mêmemoyenne et ont comme matrice de variance

σ2

n

(1 00 4

)Le meilleur estimateur linéaire sans biais de la moyenne est alors 0,8y1 +0,2y2.

Mais si les vraies moyennes µt = Eξ(yt ) pour t = 1,2 sont différentes alors le biais

de cet estimateur de β= µ1+µ22 est 0,3(µ1 −µ2) et donc β n’est pas convergent

pour l’approche modèle.

David A. Binder, Georgia R. Roberts Design-based and Model-based Methods for Estimating Model Parameters

Page 16: Design-based and Model-based Methods for ... - crest.fr · Approches fondées sur le plan (design-based) Approches fondées sur les modèles (model-based) Binder et Roberts (2003):

Plan vs modèle : définitions et résultats élémentairesVariance totale : mécanisme d’échantillonage en deux phases

Statistiques non linéaires, propriétés conditionnellesConséquences d’un mauvaise spécification de modèle

Recommandations et conclusion

La structure du modèle pour les variances σ est incorrecte

Exemple

On suppose que le modèle sous-jacent est que les observations y1, . . . ,yn sontindépendantes et identiquement distribuées, de loi de Poisson de paramètre µ.

L’estimateur usuel pour µ est la moyenne de l’échantillon ys dont la variance estµn

sous le modèle de Poisson. Ainsi un estimateur de la variance de ys (dans une

approche modèle) communément utilisé serait ysn .

Mais un tel estimateur de la variance peut être potentiellement biaisé si le modèlede Poisson n’est pas correct et que la vraie variance de yt n’est pas µ.

David A. Binder, Georgia R. Roberts Design-based and Model-based Methods for Estimating Model Parameters

Page 17: Design-based and Model-based Methods for ... - crest.fr · Approches fondées sur le plan (design-based) Approches fondées sur les modèles (model-based) Binder et Roberts (2003):

Plan vs modèle : définitions et résultats élémentairesVariance totale : mécanisme d’échantillonage en deux phases

Statistiques non linéaires, propriétés conditionnellesConséquences d’un mauvaise spécification de modèle

Recommandations et conclusion

Recommandations

Choix entre approche modèle et approche plan doit être fondé sur la pertinencede la modèle que l’on suppose.

→ si la spécification du modèle n’est pas correcte, l’estimation des paramètres etdes variances peut être largement fausse en particulier si les estimations ne sontpas robustes à la mauvaise spécification.

→ ainsi il est souvent plus pertinent de préférer l’approche plan (plutôtl’estimateur b que β) : b est asymptotiquement sans biais pour β et l’estimateur(plan) de la variance fournit un estimateur raisonnable de la variance totale de bquand l’échantillon est grand et que les taux de sondages sont faibles, même si lemodèle n’est pas correctement spécifié. La perte d’efficacité peut exister si lemodèle spécifié est en fait correct : mais pour de gros échantillons, cette perted’efficacité n’est pas tant problématique que cela.

David A. Binder, Georgia R. Roberts Design-based and Model-based Methods for Estimating Model Parameters

Page 18: Design-based and Model-based Methods for ... - crest.fr · Approches fondées sur le plan (design-based) Approches fondées sur les modèles (model-based) Binder et Roberts (2003):

Plan vs modèle : définitions et résultats élémentairesVariance totale : mécanisme d’échantillonage en deux phases

Statistiques non linéaires, propriétés conditionnellesConséquences d’un mauvaise spécification de modèle

Recommandations et conclusion

Conclusion

Quelques points de conclusion sur l’article :

un bon panorama sur les approches modèle et plan (mais l’approche modèleest abordée dans un cadre assez restrictif), la réconciliation de ces différentesapproches, l’importance de la modélisation et de la robustesse desestimations à cette phase préliminaire, etc.

quelques points non abordés (cadre des fonctions estimantes pour lesestimations de variance, propriétés conditionnelles).

le cadre théorique reste très général : pas d’exemple pratique où lesapproches peuvent se compléter, le problème de la non réponse n’est pasévoqué, les poids de sondage sont à peine mentionnés et la régression n’estpas étudiée en tant que telle (alors que l’estimateur de l’approche modèles’appelle β) ... la présentation suivante sera sans doute plus éclairante sur cesdifférents points !

David A. Binder, Georgia R. Roberts Design-based and Model-based Methods for Estimating Model Parameters

Page 19: Design-based and Model-based Methods for ... - crest.fr · Approches fondées sur le plan (design-based) Approches fondées sur les modèles (model-based) Binder et Roberts (2003):

Plan vs modèle : définitions et résultats élémentairesVariance totale : mécanisme d’échantillonage en deux phases

Statistiques non linéaires, propriétés conditionnellesConséquences d’un mauvaise spécification de modèle

Recommandations et conclusion

Bibliographie

BINDER (2011)Estimating Model Parameters from a Complex Survey under a Model-DesignRandomization Framework (Pakistan Journal of Statistics)

KISH (1995)The hundred years’ wars of survey sampling (Statistics in Transition)

SARNDAL (2010)Models in Survey Sampling (Official Statistics - Methodology and Applications inHonour of Daniel Thorburn)

David A. Binder, Georgia R. Roberts Design-based and Model-based Methods for Estimating Model Parameters


Recommended