+ All Categories
Home > Documents > Utilisation d'avis d'experts en actuariat - Corpus UL

Utilisation d'avis d'experts en actuariat - Corpus UL

Date post: 24-Jan-2023
Category:
Upload: khangminh22
View: 0 times
Download: 0 times
Share this document with a friend
108
MATHIEU PIGEON Utilisation d'avis d'experts en actuariat Mémoire présenté à la Faculté des études supérieures de l'Université Laval dans le cadre du programme de maîtrise en mathématiques pour l'obtention du grade de Maître ès sciences (M.Se.) FACULTÉ DES SCIENCES ET DE GÉNIE UNIVERSITÉ LAVAL QUÉBEC 2008 ©Mathieu Pigeon. 2008
Transcript

MATHIEU PIGEON

Utilisation d'avis d'experts en actuariat

Mémoire présenté à la Faculté des études supérieures de l'Université Laval

dans le cadre du programme de maîtrise en mathématiques pour l 'obtention du grade de Maître ès sciences (M.Se.)

FACULTÉ DES SCIENCES E T DE GÉNIE UNIVERSITÉ LAVAL

Q U É B E C

2008

© M a t h i e u Pigeon. 2008

Résumé

Le présent mémoire a pour but de présenter deux techniques permettant l 'obten­tion d'une estimation de la distribution d'une variable aléatoire lorsque les données historiques sont inexistantes ou confidentielles. Les modèles proposés se basent sur la consultation de plusieurs spécialistes du domaine dont les avis sont combinés afin d 'ob­tenir une estimation de la distribution inconnue. Dans les deux cas, la distribution finale est le résultat d'un processus mathématique d'évaluation des experts réalisé à l'aide de variables de calibration. Le premier modèle utilise des techniques statistiques classiques alors que le second fait appel à la règle de Bayes. Le mémoire propose également une mise en œuvre informatique des modèles ainsi que des exemples commentés.

Ce mémoire est dédié à ma famille qui m'a toujours poussé et motivé dans mes études.

Un expert est un homme qui a cessé de penser. Pourquoi penserait-il, puisqu 'il est un expert ? [Franck Lloyd Wright]

Un expert, c'est une opinion. Deux experts, c'est la contradiction. Trois

experts, c'est la confusion. [Anonyme]

Table des matières

R é s u m é ii

T a b l e d e s m a t i è r e s v

L i s te d e s t a b l e a u x vi

T a b l e d e s figures vii

1 I n t r o d u c t i o n 1 1.1 Avis d'expert 2 1.2 Processus de modélisation 2

2 M o d è l e c lass ique d e C o o k e 5 2.1 Idée générale 5 2.2 Description du modèle classique continu 12 2.3 Optimisation d'un expert virtuel 13

3 É v a l u a t i o n des e x p e r t s 15 3.1 Cote et règle d'évaluation 16 3.2 Propriétés des règles d'évaluation 17 3.3 Règles individuelles d'évaluation 19 3.4 Règles moyennes d'évaluation 23 3.5 Choix pour le modèle de Cooke 25

4 C o m b i n a i s o n n o n b a y e s i e n n e 30 4.1 Système d'axiomes de McConway et Wagner 31 4.2 Autres axiomes 40

5 M o d è l e b a y e s i e n d e M e n d e l - S h e r i d a n 4 3 5.1 Notation 43 5.2 Calibration 44 5.3 Densité a priori pour le paramètre 0 46 5.4 Densité de 0 après calibration 51 5.5 Distribution prédictive pour le calibrateur d'intérêt 53

5.6 Distribution pour {Z / , + i|S, 54 5.7 Distribution finale 55 5.8 Modèle de Mendel-Sheridan complet 57

6 E x e m p l e s et d i s c u s s i o n 61 6.1 Mauvais expert 61 6.2 Quantile extrême 65 6.3 Modèle de fréquence 66 6.4 Conclusions 74

7 M i s e e n œ u v r e i n f o r m a t i q u e 75 7.1 Introduction 75 7.2 Fonction principale 76

7.3 Autres fonctions et méthodes 79

C o n c l u s i o n 84

B i b l i o g r a p h i e 86

A I n f o r m a t i o n re la t i ve 88 A . l Définitions 88

A.2 Propriétés 89

B T h é o r è m e d ' E g o r o f f 92

C T h é o r è m e d e H e l l y - B r a y 95

D D o n n é e s 9 7

D.l Données pour l 'exemple du mauvais expert 97 D.2 Données pour l 'exemple de l'expert au quantile extrême 97 D.3 Variables de calibration pour l'exemple du modèle de fréquence 99

Liste des tableaux

1.1 Résumé par domaine de la base de données 2

2.1 Distributions des experts pour la variable de calibration 1 6 2.2 Distributions des experts pour la variable de calibration 2 7 2.3 Distributions échantillonales des experts 8 2.4 Valeurs des différentes composantes permettant le calcul de la distribu­

tion agrégée pour la variable d'intérêt 10 2.5 Distribution des experts pour la variable d'intérêt Y 11 2.6 Distribution finale pour la variable d'intérêt 11 2.7 Valeurs des différentes composantes permettant le calcul de la distribu­

tion agrégée pour la variable d'intérêt à l'aide d'un a optimisé 14 2.8 Distribution finale optimisée pour la variable d'intérêt 14

5.1 Information obtenue de l'expert 44 5.2 Paramètres des distributions a priori et a posteriori 52 5.3 Probabilités associées au premier espace interquantile 57

6.1 Quantiles donnés par les experts pour la variable d'intérêt 64 6.2 Quantiles modifiés donnés par les experts pour la variable d'intérêt . . . 65 6.3 Composantes des experts pour le modèle de Cooke sans optimisation du a 69 6.4 Composantes des experts pour le modèle de Cooke avec optimisation du a 69 6.5 Valeurs des paramètres de la Weibull 73

7.1 Distributions des experts pour la variable de calibration 1 76 7.2 Distributions des experts pour la variable de calibration 2 76 7.3 Distribution des experts pour la variable d'intérêt Y 77

D.l Données des trois experts pour l 'exemple du mauvais expert 98 D.2 Données du mauvais expert 98 D.3 Données pour l'exemple de l'expert au quantile extrême 99 D.4 Information à propos des variables de calibration pour l 'exemple du mo ­

dèle de fréquence 100 D.5 Quantiles donnés par les experts pour l'exemple du modèle de fréquence . 101

Table des figures

5.1 Densité a priori du paramètre 9 i 48 5.2 Évaluation numérique de a± et a<i 50 5.3 Comparaison de la DMI (trait plein) et de l 'AMID (trait brisé) pour

l'exemple étudié 50 5.4 Comparaison entre la DMI (trait plein) et la DDDI (trait brisé) 51 5.5 Comparaison entre la DMI (trait plein) et la D D D Q (trait brisé) 52

6.1 Ogives des deux experts (trait brisé et trait pointillé) et ogive des données initiales (trait plein) 68

6.2 Histogramme de la distribution agrégée obtenue à l'aide du modèle de Cooke sans optimisation 70

6.3 Histogramme de la distribution agrégée obtenue à l'aide du modèle de Cooke avec optimisation 71

6.4 Histogramme de la distribution agrégée obtenue à l'aide du modèle de Mendel-Sheridan 71

6.5 Ogive des distributions agrégées obtenues à l'aide du modèle de Mendel -Sheridan (trait plein) et du modèle de Cooke avec optimisation (trait brisé) 72

6.6 Histogramme de la distribution agrégée obtenue à l'aide du modèle de Mendel-Sheridan sans l'expert 3 72

6.7 Comparaison de l 'histogramme de la distribution agrégée et de la distri­bution Weibull 73

6.8 Comparaison des fonctions de répartition de la loi ajustée de Weibull trouvées à l'aide du modèle de Cooke (trait plein) et du modèle de Mendel-Sheridan (trait brisé) 74

7.1 Fonction de répartition en escalier de la distribution agrégée 82 7.2 Ogive de la distribution agrégée 83 7.3 Histogramme obtenu à l'aide de la méthode de h i s t 83

Chapitre 1

Introduction

Le calcul des primes liées à différents contrats est souvent une des principales tâches de l'actuaire dans une compagnie d'assurance I A R D . Ce calcul est généralement réalisé à partir d'informations, parfois partielles, à propos de variables pouvant représenter, par exemple, des montants de sinistres ou des fréquences d'accidents. Évidemment, il est souvent impossible pour l'actuaire de connaître avec certitude toutes les caractéristiques de ces variables. On tente traditionnellement de diminuer cette incertitude en créant un modèle statistique pour les distributions inconnues à l'aide de l'expérience passée d'un ou de plusieurs assureurs.

Il existe certains domaines où les bases de données nécessaires n'existent pas (nou­velle ligne d'assurance), ne sont pas accessibles (contraintes légales) ou ne sont pas suffisamment complètes pour pouvoir être utilisées (catastrophes environnementales). Les techniques présentées dans ce travail se basent sur la consultation de plusieurs spé­cialistes du domaine dont les avis seront combinés afin d'obtenir de bonnes estimations des distributions inconnues (Garthwaite et a/., 2005). Cette idée est déjà utilisée dans certains domaines pour évaluer des risques ayant une très faible fréquence, par exemple la probabilité d'incident dans un réacteur nucléaire.

Évidemment, puisque l'on parle de quantités inconnues, les experts ont générale­ment des opinions qui diffèrent sur un même sujet. Il faut alors trouver une méthode rationnelle et transparente permettant de combiner les avis des experts.

Domaine # d'experts # de variables

Nucléaire 9 8 2 2 0 3

Industrie chimique 5 6 4 0 3

Pollution aquatique 4 9 2 1 2

Aérospatiale et aviation 5 1 1 6 1

Bâtiment 1 3 7 0

Santé 4 6 2 4 0

Bancaire 2 4 1 1 9

Volcan 2 3 1 6 7 3

Autre 1 9 5 6

Total 5 2 1 3 6 8 8

T A B . 1.1 - Résumé par domaine de la base de données

1.1 Avis d'expert

Le terme « avis d'expert » désigne l'expression, sous forme probabiliste, de la connais­sance d'un expert à propos d'une quantité incertaine. Un expert est ici simplement une personne dont le savoir à propos de la variable d'intérêt sera utilisé dans le processus de modélisation. Habituellement, on choisit des experts possédant de bonnes connaissances à propos du domaine d'intérêt. Il peut s'agir de chercheurs, d'ingénieurs, d'actuaires, d'avocats, etc. Typiquement, un groupe de 1 2 à 1 5 experts est consulté.

Comme il a déjà été mentionné, cette technique n'est pas nouvelle et il existe des bases de données contenant des avis de différents experts à propos de multiples sujets. A l'heure actuelle, l'une des plus importantes est celle de la Delft University of Techno­logy. Elle regroupe de nombreuses analyses réalisées par plusieurs groupes d'experts. Le tableau 1.1 présente un résumé des informations contenues dans cette base de données (Cooke et Goossens, 2 0 0 8 ) .

1.2 Processus de modélisation

Une modélisation utilisant des avis d'experts comporte généralement au moins les étapes suivantes :

1. choix des experts;

2 . cueillette des informations auprès des experts ;

3. évaluation des informations récoltées ; et

4. combinaison des différentes opinions pour former une opinion finale.

Le choix des experts, de même que le choix de la procédure pour récolter les informations forment une partie importante du processus, mais ils ne seront pas présentées dans ce texte. Il existe déjà une littérature abondante à ce sujet dont le lecteur intéressé pourra connaître les points saillants en consultant O'Hagan et al. (2006) et Cooke (1991).

On va donc considérer, dans le présent document, que l'on a obtenu l'opinion des différents experts par une méthode valable. Cette opinion sera sous la forme d'une distribution exprimée à l'aide d'un certain nombre., de quantiles. On rappelle que le 100A:e quantile d'une variable aléatoire est une valeur qk telle que

KmF(qk-h)<k<F(qk), Ai—•()

où F est la fonction de répartition de la variable aléatoire. En donnant les quantiles qu et qv, u < v, l 'expert indique que, selon lui, la probabilité que la vraie valeur soit entre qu et qv est (v — u). Typiquement, le 50 e quantile (la médiane) est demandé, de même qu'un intervalle symétrique autour de celui-ci. Généralement, on évite de choisir des quantiles extrêmes puisque ces derniers sont difficiles à évaluer pour l'être humain.

Par la suite, on doit évaluer la qualité de l'information obtenue. L'expert connaît-il bien le domaine ? Est-il capable de bien traduire ses connaissances en termes proba-bilistes? Cette évaluation se fera à partir de variables de calibration, c'est-à-dire de variables dont les vraies valeurs sont connues de l'analyste (celui qui réalise la modélisa­tion), mais inconnues des experts. Cette étape du processus porte le nom de calibration.

Il faut par la suite réunir les différentes opinions en une seule. Pour ce faire, deux lignes de conduite peuvent être adoptées. Premièrement, il est possible de laisser les experts communiquer entre eux en leur demandant de s'entendre sur une distribution finale qui sera adoptée. Deuxièmement, il est possible d'obtenir de manière indépendante les distributions des différents experts et de les combiner à l'aide d'une règle mathéma­tique. Seule l 'approche mathématique sera traitée ici. Cette étape du processus porte le nom de combinaison.

Dans les chapitres 2 à 5, on présente un modèle utilisant une approche classique et un modèle bayesien. Ces modèles sont connus dans la littérature. On illustre dans le chapitre 6 certains avantages et désavantages des deux modèles à partir d'exemples originaux. Enfin, on présente le package1 e x p e r t , une mise en œuvre informatique pour

1 L e terme package ayant été adopté par l'équipe de traduction française du logiciel R. on conservera dans le présent texte le mot anglais.

le logiciel R des deux modèles traités ici. au chapitre 7. Actuellement, seul un logiciel commercial réalise cette mise en œuvre informatique. Les résultats obtenus de ce logiciel sont difficilement exportables vers d'autres outils informatiques et se prêtent donc mal à une analyse statistique subséquente. Le package e x p e r t a été construit spécifiquement dans le cadre de ce mémoire pour pallier cet inconvénient.

Chapitre 2

Modèle classique de Cooke

Le modèle classique de Cooke permet la combinaison mathématique des avis obtenus de différents experts sous la forme de plusieurs quantiles. Cette combinaison est une procédure non bayesienne qui tient compte de la « qualité » de chacun des experts. Ce modèle a été présenté dans Cooke (1991) et, depuis, il a été utilisé dans plus de 30 études réelles (environnement, nucléaire, etc.) par des équipes du Delft Institute of Applied Mathematies de la Delft University of Technology.

2.1 Idée générale

La structure générale du modèle classique de Cooke est très intuitive. En effet, la distribution finale de la variable d'intérêt, nommée distribution agrégée, est simplement une moyenne pondérée des différentes distributions données par les experts. Cette trans­formation est réalisée à l'aide d'un opérateur nommé fonction d'agrégation qui est de type linéaire. Ce choix est justifié au chapitre 4. Les poids sont déterminés de façon à représenter là qualité des experts, cette dernière étant mesurée à l'aide de questions de calibration et de comparaisons entre les distributions. Le chapitre 3 présente les concepts liés à l'évaluation des experts.

On introduira la notation et les idées principales de ce modèle par le biais d'un exemple. Le contexte est le suivant : on tente de déterminer la prime pure, 7r, pour un contrat d'assurance responsabilité civile en aviation. La très faible fréquence moyenne des sinistres, que l'on va poser être E[N] = 0,02 accident par année, et le fait que les montants des indemnités sont souvent confidentiels, font qu'il n'existe pratiquement

Expert

Quantile

Expert 0 E 1 0 E 5 0 E 9 0 E 1 0 0 E

1 0 . 1 0 2 0 . 1 4 0 , 2 2 0 . 2 8 0 . 5 5 8

2 0 . 1 0 2 0 . 2 0 0 , 3 0 0 , 4 0 0 . 5 5 8

3 0 . 1 0 2 0 . 2 0 0 . 4 0 0 , 5 2 0 . 5 5 8

T A B . 2 .1 - Distributions des experts pour la variable de calibration 1

pas de données sur lesquelles appliquer les méthodes actuarielles traditionnelles basées sur l'estimation. On utilise les avis d'experts pour construire une distribution pour la sévérité des sinistres et on définit la variable d'intérêt Y comme étant le montant des indemnités liées à un accident.

Pour cet exemple, on va considérer k = 2 variables de calibration et n = 3 experts. On choisira des variables de calibration qui sont susceptibles d'éclairer l'analyste sur la compétence réelle des experts dans le domaine. Ces variables sont donc liées à la variable d'intérêt. Ce lien n'est cependant pas quantifié en terme de dépendance entre variables aléatoires, mais simplement basé sur le bon sens. La variable de calibration X\ représente le taux d'accident pour 1 0 0 0 0 0 heures de vol et la variable X 2 , le coût moyen d'un bâtiment au Québec. L'analyste connaît les vraies valeurs de ces variables de calibration, mais les experts les ignorent. On pose que le taux d'accident pour 1 0 0 0 0 0 heures de vol est 0 , 2 7 et que le coût moyen des bâtiments du Québec est 2 1 0 0 0 0 $.

Pour chacune des deux variables de calibration, chacun des trois experts détermine des quantiles correspondant aux pourcentages fi = 0 , 1 0 , f2 = 0 , 5 0 et / 3 = 0 , 9 0 . On note xire le quantile correspondant au pourcentage r = 1 , 2 , 3 de l'expert e — 1 , 2 , 3 , pour la variable de calibration i = 1 , 2 . L'analyste choisit lui-même les valeurs des quantiles correspondant aux pourcentages /o = 0 et f± = 1 de façon à ce que x^e et x^e soient les mêmes pour tout e.

Pour cet exemple, on suppose que les distributions données par les experts sont celles des tableaux 2 .1 et 2 . 2 . Les valeurs des premiers et derniers quantiles ont été déterminées par l'analyste en ajoutant et en enlevant 1 0 % du plus petit intervalle contenant toutes les prédictions des experts. Par exemple, la valeur 0 , 1 0 2 du tableau 2 .1 a été obtenue comme suit :

0 , 1 4 - 0 , 1 ( 0 , 5 2 - 0 , 1 4 ) = 0 , 1 0 2 .

Il faut décider ensuite si un expert est meilleur qu'un autre. Pour cela, on va essayer de caractériser la confiance que l'on peut accorder en général à chacun des quantiles

Quantile

Expert 10 e 50 e 9 0 e 100 e

1 2 3

93 000 130 000 150 000 200 000 537 000 93 000 165 000 205 000 250 000 537 000 93 000 200 000 400 000 500 000 537 000

T A B . 2.2 - Distributions des experts pour la variable de calibration 2

fournis par chaque expert, quelle que soit la variable de calibration utilisée. On transpose ensuite cette confiance aux quantiles fournis pour la variable d'intérêt.

Soit Ze une variable aléatoire prenant m + 1 valeurs discrètes { 1 , 2 , . . . , m + 1 = 4 } pour l'expert e. Elle prendra la valeur i si la vraie valeur d'une variable de calibration (quelconque) se situe dans le z'e intervalle interquantile fourni par l'expert e. La proba­bilité théorique P r ( Z e = i) = fi — fi-\ = p% est la même pour tous les experts. Ici. le vecteur p est donné par

En effet, si on utilisait un grand nombre de variables de calibration, on s'attendrait à ce que, pour un bon expert, la vraie valeur se retrouve dans son premier espace interquan­tile dans 10 % des cas, dans son second espace interquantile dans 40 % des cas, etc. La donnée des quantiles par les experts fournit implicitement un échantillon de la variable aléatoire Ze. Théoriquement, le nombre de variables de calibration devrait être grand, contrairement à l 'exemple présenté ici. Soit s e = ( s e l , . . . , s e 4 ) un vecteur où l'élément sek représente la proportion de vraies valeurs comprises dans le A:e intervalle interquan­tile de l'expert e. Le tableau 2.3 présente les distributions échantillonales des experts. Par exemple, l'expert 1 ayant donné les distributions (0,102,0,140,0,220,0,280,0,558) pour la variable Xx et (93 000,130 000,150 000, 200 000, 537 000) pour la variable X2, on obtient, sachant que les vraies valeurs sont 0,27 et 210 000 respectivement, la distri­bution empirique Si = (§> §> 2> è r

L'idée est maintenant de caractériser la qualité de l'expert e par la « proximité » de sa distribution échantillonale s e à la distribution théorique p . Dans le tableau 2.3, on remarque que l'expert 2 semble le meilleur, car sa distribution empirique (0 ,0 ,5 ,0 ,5 , 0) est numériquement plus proche de la distribution théorique (0,10,0,40,0,40,0,10) que celle des autres experts. A priori, n'importe quelle distance entre distributions pourrait

P l = 0 . 1 0 - 0 = 0,10

p2 = 0,50 - 0 , 1 0 = 0,40

p 3 = 0,90 - 0.50 = 0,40

p4 = 1 - 0 , 9 0 = 0,10.

Espace interpourcentage

Expert 0.10 0.40 0,40 0.10

1 0 0 0.5 0.5 2 0 0,5 0.5 0 3 0 1 0 0

T A B . 2.3 - Distributions échantillonales des experts

être utilisée pour cette mesure. Par exemple, la présentation ci-dessus est fortement réminiscente du test bien connu du khi carré. On pourrait donc mesurer la distance par

i^ei Pi)

r=l Sei

Il faut cependant s'assurer que les poids construits à partir de cette notion de distance n'incitent pas l'expert à donner des quantiles différents de ceux auxquels il croit vraiment dans le but de maximiser le poids qui lui est accordé. Le modèle de Cooke vise à construire une calibration qui maximise le poids accordé à un expert lorsque celui-ci donne les quantiles auxquels il croit véritablement. La justification du modèle est présentée au chapitre 3.

Dans le modèle de Cooke, les poids we accordés à chacun des experts sont fonction de deux composantes : 1) une composante de calibration C ( e ) , et 2) une composante d'en­tropie K(e) aussi appelée composante d'information négative. A nouveau, les concepts permettant de déterminer la forme de C(e) et de K(e) de même que leur utilisation sont présentés dans le chapitre 3. On énonce ici uniquement les résultats obtenus.

La notion de distance utilisée est basée sur le concept bien connu en statistique d'information relative entre deux distributions (voir annexe A ) . Soient a = { a i , . . . , az} et b = . . . , bz} les distributions de deux variables aléatoires discrètes avec support { 1 , . . . , z}. L'information relative de a par rapport à b est donnée par

I ( a , b ) = J2ailn

i=l La mesure prend sa valeur minimale, 0, si a = b . On note que a\ peut être nul, mais que bj se doit d'être non nul pour tout i. Il est intéressant de noter (Theil, 1971) que, numériquement,

et la distance mesurée par l'information relative est très proche de celle mesurée selon le test classique du khi carré.

Sous l 'hypothèse que b est la vraie distribution et que a est la distribution éehan-tillonale obtenue à partir de v échantillons d'une variable aléatoire avec distribution b , on a l 'important résultat suivant, démontré à l'annexe A :

P r ( 2 i / / ( a , b ) < x ) « x ' - i ( ^ ) , (2.1)

où xt-i e s t l a fonction de répartition d'une variable khi carré avec v — 1 degrés de liberté.

La composante de calibration C(e) permet d'évaluer la qualité de l'information don­née par l'expert e. Ce dernier propose une distribution pour chacune des deux variables de calibration et voit son poids modifié à la hausse lorsque ses prédictions sont correctes et à la baisse lorsqu'elles sont incorrectes. Cette composante mesure donc une distance entre la distribution théorique (le vecteur p que l'analyste demande à l'expert e) et la distribution empirique obtenue en comparant les vraies valeurs des variables de calibra­tion aux quantiles donnés par l'expert (le vecteur s) . On a donc v = 2 échantillons de la variable aléatoire Ze avec les k = 2 variables de calibration. On pose

C(e) = l - x ï ( 2 ( 2 ) / ( S e , p ) )

7 ( s e , p ) = Y,sei\n[

avec

Pi

Par conséquent, plus la distance mesurée par / sera petite, plus l'expert e recevra une composante de calibration C(e) grande, avec des valeurs cohérentes avec l 'équation (2.1).

Il faut également s'assurer que l'expert ne choisira pas de donner le moins d'informa­tion possible, par exemple en fournissant des quantiles qui proviendraient simplement d'une distribution uniforme qui est souvent considérée comme synonyme d'absence d'in­formation. Le modèle de Cooke mesure aussi la distance entre la distribution de l'expert et la distribution uniforme en utilisant la notion d'information relative. Soit Zek une variable aléatoire discrète telle que Zek = i si la vraie valeur de la ke variable de calibra­tion est dans le ie intervalle interquantile de l'expert e. La probabilité théorique sous l 'hypothèse d'une distribution uniforme est

-r-v / ry -\ %kie %k,i — Le Pr(Zek = i) = —

%k4e %kOe

et la probabilité échantillonale est maintenant ce que croit l 'expert, c'est-à-dire pi. La composante d'entropie du modèle de Cooke est une moyenne de ces informations relatives :

K(e)=1-j:(ln(xl4e ' ' ^ ' 1 >'• ^ 7 = i \ r—\ \%ire *̂ i,r— l,e

Expert

Composante

Expert 7 ( s e , p ) C (e ) K{e) w'e

1 0.916 0.056 0.904 0.050 0.193 2 0.223 0.345 0.595 0.205 0.788 3 0.916 0.056 0.092 0.005 0.020

T A B . 2.4 - Valeurs des différentes composantes permettant le calcul de la distribution agrégée pour la variable d'intérêt

Il reste à déterminer comment est obtenu le poids de l'expert e, wej à partir des composantes C(e) et K(e). Dans le chapitre 3, il sera démontré que

C(e)K(e)l{c(e)><*}

est faiblement asymptotique M-strictement propre. L'interprétation intuitive de cet énoncé mathématique est que, si un expert veut maximiser le poids qu'il se verra accor­der à long terme, il doit absolument répondre honnêtement aux questions de calibration, ce qui est le but poursuivi ici.

La variable indicatrice l {c(e)>a} assure que tous les experts avec une composante de calibration inférieure au niveau a reçoivent automatiquement un poids de 0. On définit alors les poids non normalisés comme étant

w'e = C(e)K(e)t{C(e)>a}-

S'il existe au moins une valeur de e telle que w'e > 0, on définit les poids normalisés comme étant

K EL,™; <e=l

Il est à noter que même si les poids sont toujours positifs et qu'ils somment à 1, il n'ont pas d'interprétation en tant que probabilités. Le tableau 2.4 présente les différentes valeurs permettant le calcul des poids pour une valeur de a = 0,05.

Finalement, les experts doivent donner des quantiles pour la variable d'intérêt, F , dont la réalisation n'est pas connue de l'analyste. On va noter x 3 i e , . . . , x 3 3 e , e = 1, 2,3, les valeurs données par les experts et l'analyste déterminera lui-même les valeurs pour Xsoe et x 3 4 e . Pour cet exemple, les quantiles donnés par les experts sont ceux présentés dans le tableau 2.5.

Les quantiles de la distribution agrégée, yo,...,i/4, sont simplement une somme pondérée convexe des avis des experts :

3 Vr = We%3re, (2.2)

e=l

Quantile

Expert 0 e 10 e 5 0 e 90 e 100 e

1 2 3

305 000 305 000 305 000

350 000 550 000 625 000

400 000 600 000 700 000

525 000 650 000 800 000

845 000 845 000 845 000

T A B . 2.5 - Distribution des experts pour la variable d'intérêt Y

fr 0.00 0.10 0.50 0.90 1.00

Vr 305 000 512 931 563 423 628 864 845 000

T A B . 2.6 - Distribution finale pour la variable d'intérêt

avec Yll=i w e = 1 et we > 0 pour e = 1.2.3. Le tableau 2.6 présente la distribution agrégée pour la variable aléatoire Y.

Pour retourner au problème initial de calcul de prime, on obtient

E[Y] = ( 3 0 5 000 + ( 5 1 2 9 3 1 ' 3 0 5 ° ° 0 ) ) (0.10)

+ (512 931 + ( 5 6 3 4 2 3 ~ 5 1 2 9 3 1 ) ) (0.40)

+ f563 4 2 3 + f 6 2 8 8 6 4 - 563 4 2 3)V 0.40) -

512 931 — 305 000 2

563 423 — 512 931 2

628 864 — 563 423 2

845 000 — 628 864 2

+ 628 864 + (0,10)

= 40 897 + 215 271 + 264 634 + 73 693

= 594 495,

où on a utilisé l 'hypothèse de distribution uniforme à l'intérieur des espaces interquan-tiles. La prime pure est alors

7T = E[N] E[Y] = (0,02)(594 495) = 11 890.

Étant donné que les quantiles extrêmes sont déterminés par l'analyste et que le choix de ces derniers a une influence directe sur le calcul de l'espérance de la sévérité, on pourrait plutôt utiliser la médiane de la distribution dans le calcul de la prime pure. On a alors

7T = E[N]med(Y) = (0.02)(563 423) = 11 268.

2.2 Description du modèle classique continu

Dans cette section, on décrit le modèle classique de Cooke pour le cas général en conservant la même notation que dans la section précédente.

Pour chacune des variables de calibration continues (ou presque continues) X\,..., Xk

et pour la variable d'intérêt F . chacun des n experts donne m quantiles xire, i = r = 1 , . . . , m et e = 1,... , T Ï correspondant aux pourcentages demandés

fi < ... < fm. Dans plusieurs textes lus traitant d'avis d'experts, on utilisait les 5 e , 50 e

et 9 5 e quantiles.

On note Qie, la fonction de répartition associée à l'expert e et à la variable Xi telle que si xire est le r e quantile de l'expert e pour alors

pour tous les quantiles liés aux pourcentages / i , . . . , fm.

Les valeurs xi0 = Xioe et x ^ m + i < e = £ i , m + i , liées aux pourcentages / o = 0 et / m + i = 1-sont déterminées par l'analyste de façon à représenter l'étendue de la variable X%. Elles sont les mêmes pour tous les experts. On a donc

On note pr = (fr — fr-i) pour r = 1 , . . . ,ra + 1 la probabilité théorique associée à l'événement Qie(xi) € ( / r - i , fr]- Le vecteur { p i , . . . , p m + i } est noté simplement p .

Une fois la valeur de la variable aléatoire observée, Xi = pour chaque expert, exactement un espace interquantile est touché par cette réalisation. Pour un expert, on a la distribution échantillonale s = { s i , . . . , s m + i } où s* représente la proportion de variables de calibration qui se retrouvent dans l'espace interquantile lié à l'espace interpourcentage (fi — fi-i]. De plus, on pose

r = 1 , . . . ,ra, e = 1 , . . . , n.

C(e) = l - x t i ( 2 f e / ( s , p ) )

avec

et w'e = C(e)K(e)t{c(e)>a}- S'il existe au moins une valeur de e telle que w'e > 0, les poids normalisés sont

On obtient finalement une pondération pour les quantiles de la variable d'intérêt. La distribution de Y est alors obtenue à l'aide des quantiles £fc+i,i, e, • • • ? #fc+i,m,e donnés par les experts pour la variable Y par la formule

n

Vr = J2WeXk+l^e- (2.3) e=l

2.3 Optimisation d'un expert virtuel

Dans la description du modèle classique de Cooke faite dans la section précédente, la valeur de a utilisée pour la calibration des experts est fixée de façon ad hoc.

Une fois les poids normalisés we déterminés, on obtient une distribution agrégée pour l'analyste qui dépend du niveau a choisi. Il est alors possible de considérer cette distribution comme étant celle donnée par un (n + l ) e expert virtuel (l'analyste) et de choisir la valeur de a qui maximise le poids accordé à ce dernier. On souhaite donc déterminer a* tel que

a* = arg max wn+i(a), Q G [ 0 , 1 ]

où wn+i(a) est le poids, obtenu de l'application du modèle, accordé à l'analyste lorsque le niveau a est considéré. On obtient ainsi la distribution d'un expert de la « meilleure qualité » possible.

Dans l 'exemple présenté au début de ce chapitre, on avait utilisé 0,05 comme valeur pour a. Il est possible de déterminer la valeur de a* à l'aide d'une procédure numérique mise en œuvre dans le package e x p e r t et dont l'utilisation sera exempliflée au chapitre 7. On trouve alors a* = 0,34, ce qui conduit aux composantes présentées dans le tableau 2.7, où on considère l'analyste comme étant l'expert virtuel 4, et à la distribution finale présentée dans le tableau 2.8.

On remarque dans le tableau 2.7 que l'analyste (expert 4) performe aussi bien que le meilleur des experts. Il a été démontré empiriquement (Cooke et Goossens, 2008) qu'avec cette méthode, la distribution agrégée obtient un poids au moins aussi élevé que la distribution du meilleur expert prise seule.

Composante

Expert /(S c ,p) C(e) K(e) < 1 0.916 0.056 0,904 0.000 0.000 2 0.223 0,345 0.595 0.492 0,500 3 0.916 0,056 0.092 0,000 0,000 4 0.223 0,345 0,595 0.492 0.500

T A B . 2.7 - Valeurs des différentes composantes permettant le calcul de la distribution agrégée pour la variable d'intérêt à l'aide d'un a optimisé

fk 0,00 0.10 0,50 0.90 1.00

Vk 305 000 550 000 600 000 650 000 845 000

T A B . 2.8 - Distribution finale optimisée pour la variable d'intérêt

En utilisant la médiane de cette distribution, on obtient comme prime pure 12 000. On remarque qu'étant donné que a* > 0,06, on ne tient compte que de l'opinion du se­cond expert. En fait, toute valeur de a entre 0,06 et 0,34 conduit à la même distribution agrégée.

La mise en œuvre informatique de ce modèle est réalisée à l'aide de la fonction e x p e r t du package e x p e r t dont l'utilisation est explicitée au chapitre 7.

Chapitre 3

Evaluation des experts

Ce chapitre présente les techniques permettant d'évaluer la qualité des experts dans le cadre du modèle classique de Cooke. On rappelle que pour ce modèle l'avis d'un expert comprend une affirmation sous forme de quantiles pour chacune des k variables de cali­bration et une affirmation pour la variable d'intérêt. Intuitivement, on souhaite accorder une importance plus grande aux avis des « bons » experts qu'à ceux des « mauvais » . Quelle définition peut-on donner d'un « bon » expert ? Premièrement, on souhaite inter­roger une personne possédant une connaissance approfondie du sujet à propos duquel on souhaite utiliser son expertise. Il faut donc être capable d'évaluer à quel point l'expert connaît bien le domaine. Deuxièmement, étant donné que les affirmations doivent être faites sous forme de distributions, on souhaite avoir une personne ayant une certaine compréhension des notions de base en théorie des probabilités et possédant une certaine aisance pour exprimer ses croyances à l'aide de probabilités subjectives.

Ultimement, il faut pouvoir déterminer un ordre parmi les experts respectant de fa­çon satisfaisante les conditions précédentes. Pour ce faire, on va élaborer un système de cotes qui permettront d'associer un poids aux réponses des experts. Le présent chapitre présente la théorie qui permet de fixer le choix de la distance de telle sorte que l'expert réponde de manière honnête aux questions. On déterminera avant tout certaines pro­priétés désirables, pour ensuite introduire différentes règles d'évaluation, individuelles ou moyennes. Pour terminer, on présentera les choix pour le modèle classique de Cooke.

3.1 Cote et règle d'évaluation

Dans le modèle classique de Cooke, une cote1 est une évaluation numérique d'une affirmation probabiliste. Il s'agit du résultat d'une comparaison, à l'aide d'une règle d'évaluation, entre la distribution donnée par un expert et la réalisation.observée de la variable.

De manière générale, une règle d'évaluation R pour une certaine quantité inconnue pouvant prendre les valeurs {x\,..., xm} est une fonction R(p,i) qui. une fois l 'ob­servation Xi faite, attribue une cote à l'expert dont l'affirmation est p = { p i , . . . , p m } où pi correspond à la probabilité que la variable prenne la valeur xl. Par exemple, pour une variable pouvant prendre les valeurs { 0 . 1 . 2 } . un expert donne la distribution (0 ,5 ,0 ,3 ,0 ,2) . En utilisant la règle d'évaluation R(p,i) = lOpi et en supposant que la vraie valeur de la variable est 2, on attribuerait une cote de (10) (0,2) = 2 à cet expert.

Les résultats généraux de ce chapitre seront appliqués au contexte du chapitre 2 de la manière suivante. On rappelle que Ze est une variable aléatoire à valeurs discrètes { l , 2 , . . . , m + 1} telle que Ze = i lorsque la vraie valeur d'une variable de calibration se situe dans le ie espace interquantile de l'expert e. Si, par exemple, un expert donne un 10 e quantile de 20, une médiane de 100 et un 90 e quantile de 200 pour une variable quelconque, implicitement il associe une probabilité de p\ — 0,10 à l'intervalle (0 .20) . une probabilité de p 2 = P3 = 0,40 aux intervalles (20,100) et (100, 200) et une proba­bilité de p4 = 0,10 à l'intervalle (200,300) en supposant que les valeurs minimale et maximale sont respectivement 0 et 300.

Le but de ce chapitre est de s'assurer par le choix des poids attribués aux experts que ceux-ci répondent de manière honnête, c'est-à-dire qu'ils donnent les quantiles qui correspondent à leur véritable croyance. Pour poursuivre l'exemple ci-dessus, on suppose que l'expert pense réellement que les quantiles respectifs sont 30, 150 et 270, mais qu'il fournit les réponses sus-mentionnées pour une raison quelconque. Dans les faits, il aura associé aux différents intervalles des probabilités différentes de ses croyances réelles. Par exemple, si sa distribution sous-jacente pour la variable en est une uniforme, il croit que la probabilité associée à l'intervalle (0, 20) est qx = 0,067, celle associée à l'intervalle (20,100) est q2 = 0,27, celle associée à (100,200) est q3 = 0,33 et celle associée à (200, 300) est q4 = 0,33, alors qu'il a implicitement donné p\ = 0,10, p2 = Pz = 0,40 et p4 = 0,10.

On va maintenant formaliser les outils nécessaires pour traiter ces questions dans le

1 L e terme anglais score est aussi parfois utilisé en français.

cadre général d'une variable pouvant prendre des valeurs quelconques {x\,..., xm}.

3.2 Propriétés des règles d'évaluation

Dans cette section, on définit certaines propriétés qu'il serait souhaitable que les règles d'évaluation possèdent.

D é f i n i t i o n 3.1 (Règle cohérente). Une règle d'évaluation est cohérente si pour la dis­tribution donnée par l'expert p = { p i , . . . ,pm} les conditions Pi > 0 . Mi et YlT=\Vi = 1 sont respectées.

Un expert dont l'affirmation ne respecterait pas les conditions énoncées dans cette définition devrait revoir l 'information qu'il a fournie.

D é f i n i t i o n 3.2 (Règle strictement propre) . Une règle d'évaluation est strictement propre positive lorsque un expert reçoit sa cote maximale espérée si, et seulement si, son affirmation p correspond à sa véritable opinion q. La cote espérée d'un expert est l'espérance de la cote obtenue lorsque l'expert donne la distribution p alors qu'il croit que la vraie distribution est q. Mathématiquement, on a

m E[R(p,i)\q] = V > f l ( p , * ) .

1=1 Ainsi, R(p,i) sera une règle strictement propre positive si, et seulement si,

arg max E[R(p, i\q)\

est unique et égal à q. De manière similaire, R(p, i) sera strictement propre négative si, et seulement si,

arg min E[R(p,i\q)}

est unique et égal à q.

Une règle d'évaluation possédant cette propriété encourage donc les experts à donner honnêtement leur avis pour pouvoir obtenir une cote maximale. Ainsi, un expert qui mentirait ou ferait volontairement preuve d'un excès de confiance diminuerait sa cote espérée. Dans le cadre du modèle classique de Cooke, on utilise principalement des règles positives et, lorsqu'il n'y a pas de risque de confusion, on laissera tomber le terme « positive » .

E x e m p l e 3 .1 . Soit une certaine quantité inconnue Y pouvant prendre des valeurs sur l'ensemble { x i , . . . , xm}. Un expert doit donner un vecteur de probabilités { p i , . . . , p m } représentant son opinion. Naturellement, on a £ ™ i P t = 1- et p* > 0, î = 1,.... , m . Une des règles d'évaluation les plus populaires est d'attribuer à l'expert une cote propor­tionnelle à pi si l 'événement i = 1 , . . . , m se produit. On a donc

R(p,i) = Kpi,

où K est une constante quelconque. On vérifie que cette règle n'est pas strictement propre. On a

m

E[i?(p,i)|q] = V>JÎ (p , i ) i=l m

En prenant m = 2, K = 1, q\ = ^, q2 = § et en supposant que q = p , on a

£[fl(p,i)|ql - (i) ( j ) ( j ) + (i) (|) ( j ) = |-

C'est donc dire que si l 'expert exprime sa croyance véritable, il peut espérer obtenir une cote de |. Maintenant, si l'expert conserve la même croyance (c'est-à-dire que q reste inchangé), mais qu'il donne la distribution p\ = 0 et p2 = 1, alors

Wp,t )|q ] = ( l ) ( J ) ( 0 ) + (l)g)(l) = | = |. On voit donc que la règle d'évaluation R(p,i) = Kp{ semble encourager l'expert à surestimer la précision de la distribution qu'il donne. Cette règle d'évaluation n'est donc pas strictement propre. •

Maintenant, si R est une règle d'évaluation strictement propre, alors

R* = aR + b, a > 0, - o c < b < oc .

possède également cette même propriété. En fait, il s'agit simplement d'un changement d'échelle. Si [x, y] est l'image de R, alors [ax + b,ay + b] est l'image de R*.

D é f i n i t i o n 3.3 (Règle significative). Une règle d'évaluation est dite significative si la cote attribuée à un expert dépend uniquement de la probabilité associée à l'événement observé p{. Les règles significatives sont dites partielles alors que les règles non signifi­catives sont dites globales.

E x e m p l e 3.2. Un expert doit donner son opinion sur l'état E d'un commerce après une émeute. On suppose que les états mutuellement exclusifs possibles sont :

- S i , il n'y a aucun dommage au commerce ;

- E2. il y a eu vol ; et

- Es, il y a eu incendie.

On utilise une règle d'évaluation du même type que celle de l 'exemple précédent, c'est-à-dire

R(p,i) = Kpl,

avec K = 1. Le vecteur p de l'expert est {0 ,60 ,0 ,30 .0 ,10} . Après l'émeute en question, il n'y a eu aucun dommage au commerce et l'expert se voit attribuer une cote de 0.60. Si le vecteur p de l'expert avait plutôt été {0,60. 0.20. 0.20}, l'expert aurait eu la même cote. Ainsi, la cote attribuée à l'expert dépend uniquement de la probabilité associée à l'événement qui se réalise. La règle est donc significative. •

3.3 Règles individuelles d'évaluation

Dans cette section, on présente les règles individuelles d'évaluation les plus com­munes et leurs principales caractéristiques. On attribue une cote à un expert pour une affirmation en se basant sur une réalisation de la variable d'intérêt. Cependant, on verra plus loin que l'évaluation d'un expert se fait généralement à l'aide de plusieurs variables et qu'alors, la cote globale de l'expert ne sera pas nécessairement la somme des cotes individuelles.

On considère une variable inconnue Y pouvant prendre des valeurs { x i , . . . , xm}. Soit p = {pi,... ,pm} un vecteur de probabilités pour ces valeurs et soit R(p,i) une règle d'évaluation. Les règles individuelles d'évaluation les plus courantes sont les suivantes.

D é f i n i t i o n 3.4 (Règle quadratique). La règle m

R{p1i) = 2pl-Y.p] 3=1

est nommée règle quadratique.

Pour pi = 0, on a m

iï(p,t) = - V > 2 m

avec égalité si, et seulement si p3 = 1 pour une valeur de j. On a également pour p7-, = 1. R(p- i) = 1. Ainsi, l 'image de la règle quadratique est [—1.1]. On peut démontrer que cette règle est strictement propre. En effet,

m

Wp,»)|q]'=E«J*(p.*)

m m m

= £ ZqtPt - E E /=1 t = l j = l m m

d'où

a £ [ f l ( p , Q | q ] =

Le maximum de R(p, i) est obtenu en pk

qu'il s'agit d'un maximum global.

On remarque que la cote attribuée à l'expert à l'aide de cette règle dépend non seulement de la probabilité de l'événement observé p^ mais aussi des probabilités des événements qui ne se sont pas réalisés (pour m > 2 ) . Cette règle n'est donc pas signifi­cative.

D é f i n i t i o n 3.5 (Règle sphérique). La règle

ji(p,») =

est nommée règle sphérique

2qk - 2pk.

- qk pour toute valeur de k. On vérifie aisément

Il est aisé de voir que p{ > 0. De plus, on a

n 2 3

3=1 \ 1/2

n

Ainsi, l 'image de la règle sphérique est [0,1]. On peut démontrer que cette règle est strictement propre. En effet,

m

E[R(p,i)\q\=1£qtR(p,t)

_ QtPt

et donc

1/2 / „ \ -3/2 OE[R(p.i)\q\ ^ A 1 f 2 _ ( A

Le maximum de cette règle est obtenu en

qui est vraie si et seulement si pk = qk pour tout k. En effet, en sommant de part et d'autre sur l'indice k, on obtient

fc=l \j=l ) k=l \t=l m m

j = i t=i

On vérifie aisément qu'il s'agit d'un maximum global.

Encore une fois, la cote attribuée à l'expert à l'aide de cette règle dépend non seulement de la probabilité de l'événement observé p i 5 mais aussi des probabilités des événements qui ne se sont pas réalisés (pour m > 2 ) . Cette règle est donc elle aussi non significative.

D é f i n i t i o n 3.6 (Règle logarithmique). La règle

R(p,i) = In f o )

est nommée règle logarithmique.

On remarque facilement que pour Pi = 0, R(p, i) = — oo et pour pi — 1, R(p, i) = 0. L'image de la règle logarithmique est donc (—oo, 0]. On peut démontrer que cette règle

est strictement propre. Il faut réaliser explicitement une maximisât ion sous contrainte pour obtenir un résultat :

*(p ,t ,q) = E[R(p,i)\d\ - A ( f > - lj

m /m

t=i \t=i

0tf(p,t,q) g* dp* P*

= 0

qui donne

En sommant de part et d'autre,

Qk A Pk

m m

E T = EP* fc=i A k=i

A = 1

et donc, pk = qk pour toute valeur de k. On vérifie aisément qu'il s'agit d'un maximum global.

On remarque que la cote attribuée à l'expert à l'aide de cette règle dépend unique­ment de la probabilité de l'événement observé p{. Cette règle est donc significative. En fait, il est possible de démontrer que pour m > 2 , la règle logarithmique est la seule à être à la fois strictement propre et significative. Ainsi, cette règle est la seule à conduire à un ensemble de poids possédant ces deux propriétés.

Par contre, la règle logarithmique possède un inconvénient majeur. L'image de cette règle, qui est (—oo, 0], et le fait qu'elle soit une règle où les valeurs les plus près de 0 en valeur absolue sont les meilleures l'empêchent d'être naturellement un système de poids (qui devrait avoir comme image [0,1] tout en étant une règle positive). Pour obtenir un ensemble de poids convenables, il faudrait appliquer la transformation

R* = R + R,

où K serait une très grande constante. Malgré tout, une valeur de pi très petite pourrait quand même conduire à un poids négatif.

3.4 Règles moyennes d'évaluation

Comme mentionné plus tôt. on tente généralement d'évaluer un ensemble de k af­firmations à partir de k observations. Une première idée serait de combiner simplement des règles individuelles. L'exemple qui suit illustre un problème lié au fait d'utiliser la somme des cotes individuelles de plusieurs affirmations comme cote pour évaluer un expert.

E x e m p l e 3.3. On suppose que l'on veut évaluer deux experts à l'aide de la règle logarithmique, c'est-à-dire

Rfai) = ]n(pi).

On a les deux situations suivantes :

1. On utilise une seule variable pour évaluer l'expert 1 et cette variable peut prendre seulement deux états. L'expert place une. probabilité de 1 sur un des deux états et on observe ce même état. La cote de l'expert 1 sera donc maximale, c'est-à-dire 0.

2. L'expert 2 fait la même chose, mais pour 1 000 variables et on observe 1 000 fois ce même état. Pour chacune de ses affirmations, sa cote sera également maximale, c'est-à-dire 0. Sa cote globale sera donc X^=0i00 0 = Ci-

Cette façon de procéder ne permet donc pas de distinguer les deux experts alors qu'il est intuitif de croire que l'expert 2 est meilleur que l'expert 1 et qu'il mériterait une meilleure cote. •

Une deuxième idée serait d'évaluer une distribution moyenne donnée par un expert à partir d'une distribution empirique moyenne. On va donc développer quelques éléments de la théorie des règles d'évaluation pour les probabilités moyennes.

Soit (^ ,^ r ) un ensemble mesurable. On suppose que toutes les variables aléatoires sur Q sont jF-mesurable. Pour A G 1{a} est une fonction indicatrice de A. On définit les éléments suivants :

- X = {Xi,..., Xk} telles que X : Q —» Ok et X est ^"-mesurable ;

- O = { o i , . . . , o m } l'ensemble des valeurs possibles (les mêmes pour toutes les variables) des variables à valeurs discrètes ou catégoriques ;

- M ( O ) est l'ensemble des vecteurs de probabilités non-dégénérées sur O . On a que si p G M ( O ) , alors p = { p i , . . . , p m } , YHLi Pi = 1 et Pi > 0 pour tout i ;

- bi = Ylj=i l{Xj=Oi} I e nombre de variables dont la réalisation est Oi ;

s = { s i , . . . , s m } , avec Si = ^ , i = 1 , . . . , m la proportion des variables dont la réalisation est 0{ ;

- M(X) est l'ensemble des distributions non-dégénérées pour X . On a que si P G

M ( X ) , alors P ( s ) > 0 :

- Q est la distribution de l'expert pour X : Q G M(X) ; et

- q = {qu .. .,qm} : q G M ( O ) , avec g< - i £ J = 1 Q ( X , =

On demande à un expert une probabilité moyenne d'occurrence des événements { o i , . . . , om} à partir des variables { X i , . . . , Xk}. Encore une fois, il s'agit de trouver une règle d'évaluation qui encourage l'expert à répondre honnêtement. Cette propriété sera étudiée dans un premier temps en présence de k variables de calibration, et ensuite de façon asymptotique. Une règle d'évaluation pour probabilité moyenne est une fonction

Â(p,*,s) : M ( O ) x N x O ^ i

Pour M, un sous-ensemble de M ( X ) , R(p, A;, s) est M-strictement propre positive si, pour tout Q G M ,

arg max E[R(p,k,s)\Q] p€M(0)

est unique et égal à q.

T h é o r è m e 3 .1 . Soit R(p,k,s) wne règ/e d'évaluation différentiable par rapport à p. v4/ors7 /es énoncés suivants sont équivalents :

1) Pour tout Q G M ( X ) ,

vps[fl(p,fc,s)|Q]'|p=q = a

^ Powr / i , z, j G { 1 , . . . , m — 1 } ; z/ e:ris£e deux fonctions intégrables et ghij telles que

dR(p, k, s) = ghfak)(ph - 5fc.) + X )^y(P»*) (« jP<-Pj«t ) . OPh 3<i

Démonstration. Voir Cooke (1991). •

On remarque que si le deuxième énoncé du théorème 3.1 est vérifié (existence du maximum) et que R(p, k, s) est strictement convexe ou strictement concave en p (unicité du maximum), alors l'expert reçoit sa cote maximale espérée si, et seulement si, la distribution qu'il donne correspond à sa véritable opinion.

E x e m p l e 3.4. La règle d'évaluation basée sur l'information relative de s par rapport à p est M-strictement propre positive. En effet, on a

R(p. k. s) = / ( s . p ) = E s i m i=i

Si,

Pi

et l'on vérifie aisément que / ( s , p ) est une fonction convexe en p . En posant

m—1 1 - E Vu

1=1

on obtient

Par conséquent,

di?(p,fc ,s)

m-l i?(p. fc, s) = E s« m ~ + s™ m

t=i 771

1 - E S T 1 Pi

+ 5,

Pi - Si + Efel^SiPj - Pi«j)

Pi ( 1 - EST1 Pi m—1

(Pi - Si) +

Pi ( i - E S 1 Pi) ; ^(SiPj-piSj

Cette règle d'évaluation est donc M-strictement propre positive.

D é f i n i t i o n 3.7 (Règle faiblement asymptotique M-strictement propre) . Une règle de décision R(p, k.s) est faiblement asymptotique M-strictement propre si pour tout Q G M , avec q —> p quand k —• oo , et pour tout p ' G M ( O ) tel que p ' ^ p , il existe fc' G N telle que pour tout k > k*\

E[R(p,k,s)\Q}> E[R(p',k,s)\Q\.

Ainsi, si un expert donne une distribution ne représentant pas sa véritable croyance p\ il est toujours possible de trouver un nombre de variables de calibration k' à par­tir duquel la cote espérée de l'expert est moins élevée que s'il avait donné sa vraie distribution.

3.5 Choix pour le modèle de Cooke

Dans cette section, on démontre les trois théorèmes fondamentaux sur lesquels est basée la composante de calibration du modèle classique de Cooke. On présente égale­ment une justification pour la composante d'entropie.

T h é o r è m e 3.2 . Soit

l'information relative de s par rapport à p. On

/ ( s , p ) = E s * l n

m

On rfe/ïi

In ( — J

On définit

R{p.k.s) 2 f c / ( s .p ) .

On a a/ors gne /a cote

u^(p,*,s) = i? (p.Â\s) < /

R(pA\s) > t

est faiblement asymptotique M-strictement propre pour t G (0. o c ) .

Démonstration. Il faut démontrer qu'avec cette cote, lorsqu'un expert donne une dis­tribution r 7̂ q où q est la distribution limite pour k —> oo de la distribution empirique moyenne, il est possible de choisir un k' tel que pour tout k > k', la cote espérée de l'expert est moins bonne que celle qu'il aurait pu espérer recevoir s'il avait donné q.

Ce dernier résultat est démontré à l'annexe A. On choisit maintenant r G M tel que r 7̂ q. Par la loi forte des grands nombres, on a que la distribution empirique, s, converge vers q Q-presque partout. Selon le théorème d'Egoroff (voir annexe B ) , il existe une probabilité d > 0 telle que la convergence est uniforme sur un ensemble de mesure supérieure à 1 — d.

Soit d < Xm-iW- P ° u r ld > 0> o n P e u t trouver kd G N tel que sur cet ensemble où la convergence est uniforme, pour tout k > kd, on a

Soit Q G M ( X ) . On a alors

lim E[wt{p,k,s)] = lim Q ( 2 / c / ( s , p ) < t)

J ( s , r ) > ld.

Pour k > m&x{kd,t/ld}, on a sur cet ensemble

2fc / ( s ,r ) > t.

Ainsi, pour k suffisamment grand, on a

Q(wt(r,k,&) = 0) > 1 - d, et donc

E[wt(r, fc,s)] < d < X2m-1(t) = E[wt(q,k,s)].

On remarque également que

E[wt(r,k,s)] ^ 0

lorsque k —> oo si r 7̂ q.

T h é o r è m e 3.3. 5ows /es mêmes conditions que pour le théorème 3.2, on a que

W i ( p , M = ( l - X ( m - l ) ( ^ ( P . * . B ) ) ) «<(p .A-.s)

est faiblement asymptotique M-strictement propre pour t G (0. o c ) .

Démonstration. Soit Q G M ( X ) . On pose Qk la fonction de répartition de l'expert pour

R(p,k,s) = 2kl(s.p).

On a alors t

E[WM,k,S)] = / (1 -0

= £ [ w t ( q , fc, s)] - J Xm-i(x) dQk{x). 0

Comme Qk —> X™-i e ^ °±ne Xm-i e s ^ nne fonction continue et bornée, on peut appliquer le théorème de Helly-Bray (annexe C) pour obtenir

t t

jX2m-i(x)dQk(x) -> JxLi(^)C-iW 0 0

lorsque k —> oc . Étant donné que Xm-i e s t u n e fonction continue, on obtient

Y X m - i W a x m - i W = — 2 — 0

On obtient ainsi

lim E[Wt(q,k,S)] = xL-i(t) ~ > 0. /c—>-oo A

On choisit une distribution r G M ( X ) telle que r ^ q. Comme

i - x L . i ( * ) < i ,

on a, en utilisant le théorème 3.2, que

lim E[Wi ( r , f c ,s ) ] = 0.

T h é o r è m e 3.4. Pour tout t G (0. oc ) et pour toute fonction f : M ( O ) x N ^ [a, b] avec 0 < a < b < oo, les cotes

wt(p,k,s)f(p,k)

et

Wt(p,k,s)f(p,k)

sont faiblement asymptotique M-strictement propres.

Démonstration. Soit une distribution q G M(X). On choisit une distribution r G M ( X ) telle que q ^ r . On doit démontrer que pour k suffisamment grand, on a

E[wt(q, k. s)] / ( q . fc) > E[wt(r, k, s)] / ( r , fc),

ou, de manière équivalente,

E[wt(n,k,s)] > / ( r , f c ) £7[iy t(r, A;,s)] / ( q , A;)'

Étant donné le domaine de définition de la fonction / , on a

/ (r ,AQ < 6 / ( q , fc) ~ a

et cette borne supérieure ne dépend pas de k. En utilisant la démonstration du théorème 3.2 et la remarque qui le suit, on a que

E[wt(q,k,s)] lim — t ; r r - = O O .

k-^oc E[wt(r, k, s)J

La démonstration est similaire pour Wt. •

Dans le modèle classique de Cooke, la fonction wt est la variable indicatrice, la fonction Wt est le produit de la variable indicatrice par la composante de calibration et la fonction / est la composante d'entropie.

La seule condition sur la fonction / pour que

Wi(p,*,s)/(p,*)

soit faiblement asymptotique M-strictement propre, est qu'elle doit être bornée, c'est-à-dire que

f:Ù-*[a,b]

avec 0 < a < b < oc . A priori, n'importe quelle fonction satisfaisant à cette condition peut être utilisée. On cherchera cependant à ce que le système de poids incite l'expert à donner une distribution qui contient réellement de l'information, par opposition, par exemple, à la distribution uniforme. Comme expliqué au chapitre 2, dans le modèle de Cooke, la composante d'entropie mesure une distance entre la distribution donnée par l'expert et une distribution uniforme. Pour m + 1 espaces interquantiles et k variables de calibration, cette composante sera une moyenne sur i = 1 , 2 , . . . , k de l'information relative de la distribution donnée par l'expert par rapport à la distribution uniforme sur le domaine de la variable de calibration. On a ainsi

1

k i,m+

m + 1

soit exactement la composante d'entropie présentée au chapitre 2.

À l'aide des composantes de calibration et d'entropie présentées dans ce chapitre, il est possible d'élaborer un système de poids possédant des propriétés intéressantes qui sera utilisé dans le modèle classique de Cooke.

Chapitre 4

Combinaison non bayesienne

Dans ce chapitre, on présente une justification mathématique à l'idée présente dans le modèle classique de Cooke d'utiliser une combinaison linéaire des avis d'experts comme fonction d'agrégation. Il existe une vaste littérature concernant l'agrégation de distribu­tions et un lecteur intéressé pourra consulter la présentation et la bibliographie critique publiés dans Genest et Zidek (1986).

En général, on est en présence d'un analyste qui souhaite obtenir un résultat construit à partir des avis de différents experts. On suppose que les experts donnent leur opinion sous la forme d'une distribution sur un support déterminé par l'analyste et qu'ils font ce travail sans se consulter entre eux. De manière rigoureuse, on définit les éléments suivants :

- Un groupe de n experts, n = 2 , 3 , . . . ;

- l'ensemble de tous les états possibles. Par exemple, pour une variable aléatoire X représentant le montant d'un sinistre, Q serait l'ensemble de toutes les valeurs possibles d'un sinistre, c'est-à-dire généralement [0, oo) ;

- £ , l'ensemble de toutes les cr-algèbres sur Q ;

- S 6 E, la a-algèbre représentant le support déterminé par l'analyste pour les distributions des experts. Par exemple, pour X présentée plus haut, S pourrait être { 0 , [0,200), [200, o c ) , Q } ;

P , une mesure de probabilité sur Q. Dans les faits, P(E) attribue un nombre entre 0 et 1 à tous les sous-ensembles possibles E de Q. Comme souvent Q est infini, on définit plutôt la mesure de probabilité Ps sur un ensemble particulier de sous-ensembles de la <j-algèbre S ;

- /i, une mesure de probabilité de référence sur Q telle que Ps représente une densité

de probabilité / par rapport à JJL. On a alors

P(E) = J f(x)dfi(x) E

et j f(x)d/i(x) = 1; n

- / î ( - ) , . . •, fn{') les distributions données par les n experts telles que

/»(•) e Ps

et

/ * ( • ) : £ - » . [0,1];

- .4 une classe de fonctions d'agrégation telle que

. 4 = : 5 € £ }

et

4 S : { P s } " -»

pour tout .S ; et

G 5 , un événement dont on cherche la probabilité agrégée, c'est-à-dire

As{M-),...,fn(-)}(E).

La question de savoir comment combiner les avis des différents experts revient donc à déterminer la forme de la classe A de fonctions d'agrégation. A priori, il n'y a pas de raison de préférer une classe de fonctions à une autre. Pour pouvoir faire un choix, il faut déterminer certaines propriétés que l'on souhaite voir satisfaites par le modèle.

4.1 Système d'axiomes de McConway et Wagner

Le modèle présenté de manière indépendante dans McConway (1981) et dans Wagner (1984) est basé, d'une part, sur l'idée que le résultat devrait être indépendant du moment où une certaine transformation est appliquée au support des distributions des experts et, d'autre part, sur l'idée que si tous les experts considèrent qu'un événement a une probabilité nulle de se produire, cette probabilité doit être également nulle dans la distribution agrégée.

Le respect de ces axiomes conduit à une classe de fonctions d'agrégation A linéaires, c'est-à-dire une classe où la fonction finale est une combinaison linéaire des fonctions données par les différents experts.

D é f i n i t i o n 4.1 (Propriété de marginalisation). Soit T une sous-a-algèbre de S et F une distribution quelconque sur l'espace mesurable (Q,S). On définit alors F^T\ la distribution marginale, comme étant la restriction de F à T . Une classe de fonctions d'agrégation A est dite posséder la propriété de marginalisation (PM) si, et seulement si, pour toute S G £ , on a

{As(h(-),.... fn(-)}{T)(E) = { ^ r ( / i ( - ) ( T ) , • • • • fn(-)(T)}(E)

pour toute sous-a-algèbre T de 5 , pour tout ensemble E appartenant à T et pour toutes les distributions / î ( - ) , . . . , /«(•) appartenant à P5.

De manière équivalente, on peut écrire que A possède la P M si, et seulement si, pour toute S G H. on a

{As(M-), • • • ,/»(•)}(£) = M t ( / i ( - ) ( T ) , • • • , fn(-)(T)}(E)

pour toute sous-cr-algèbre T de 5 , pour tout ensemble E appartenant à T et pour toutes les distributions fi (• ) , . . . , / n ( - ) appartenant à P5 .

Cette propriété vérifie que le résultat obtenu ne dépend pas du support donné par l'analyste pour les distributions des experts. Le non respect de cette condition peut conduire à des résultats illogiques comme le démontre l 'exemple suivant.

E x e m p l e 4 .1 . On demande à deux experts leur avis quant à la probabilité qu'un bris de voiture survienne pendant une année. On a

[ 1, si un bris survient I = {

[ 0 , si aucun bris ne survient,

avec Pr(7 = 1) = p. Pour faire le lien avec la notation mathématique présentée au début de ce chapitre, on a

- n = 2 ;

- Q est l'ensemble de tous les états possibles de la voiture ;

- E est le sous-ensemble contenant tous les cas où la voiture brise ;

- 5, la cr-algèbre engendrée par E, est l'ensemble des sous-ensembles 0, E, Ec et Q ;

- / i ( - ) et / 2 ( - ) , les distributions données par les deux experts; et

- As, une fonction d'agrégation. On va poser que

A S =n( / i ) i / 2 . . 2 = 1

soit une moyenne géométrique des données.

Les deux experts croient que la valeur de p est 0 . 8 0 . En utilisant As. on obtient comme valeur finale du paramètre

p= ^ (0 ,80) (0,80)

= 0 . 8 0 .

Maintenant, on suppose que le fait que la voiture brise dépend de un des deux ensembles d'événements mutuellement exclusifs E\ et E2. L'expert 1 croit que E\ a une probabilité de se produire de 0 . 1 0 et E2. une probabilité de se produire de 0 , 7 0 . L'expert 2 croit que E\ a une probabilité de se produire de 0 , 7 0 et E2, une probabilité de se produire de 0 , 1 0 . Dans les deux cas, on a toujours que P r ( 7 = 0 ) = 0 . 2 0 . En utilisant ^ 5 . on a

AS(E1) = > / (0 ,10) (0 ,70)

= 0 , 2 6 4

AS(E2) = ^ ( 0 , 7 0 X 0 , 1 0 )

= 0 , 2 6 4

AS(EC) = ^/(0,20)(0,20) = 0 , 2 0

et la probabilité finale que la voiture brise est maintenant

. = 0 , 2 6 4 + 0 , 2 6 4 =

P 0 , 2 6 4 + 0 , 2 6 4 + 0 , 2 0

La probabilité finale que la voiture ne brise pas est donc

1 _ 0 , 7 2 6 = 0 , 2 7 4 .

Pourtant, les deux experts croient toujours que la probabilité que la voiture ne brise pas est 0 , 2 0 . On remarque que, pour une fonction d'agrégation comme celle définie ici, la façon dont sont regroupées les composantes influence la distribution finale. En effet, on a la a-algèbre S : { 0 , E\ Ec, Q} et la sous-a-algèbre T : { 0 , Eu E2, Q\EU tt\E2, E, £c, Q}. On a vu que

M s ( / i ( - ) J 2 ( - ) } ( £ ) ¥> {AT(M-YT\f2(-YTy)}(E),

et donc que la classe de fonctions présentée ne possède pas la propriété PM. •

De manière générale, la probabilité agrégée liée à l'ensemble E G S est fonction de S et des / î ( - ) , . . . , / n ( * ) - C'est donc dire que la décision finale peut non seulement être fonction de l'opinion des experts à propos de l'ensemble E. mais aussi être fonction de l'opinion des experts sur tous les ensembles de S.

D é f i n i t i o n 4.2 (Propriété faible d'absence de contexte) . On dira d'une classe de fonc­tions d'agrégation qu'elle possède la propriété faible d'absence de contexte (PFAC) si la distribution finale est fonction uniquement de l'opinion des experts à propos de E et de la définition de E. Une telle fonction aurait alors comme domaine

Q = [(u>\{0, H}) x [0 . 1 ] " ] U {(0. 0 0 ) . (Q. 1 1 ) } .

où LU est l'ensemble de tous les sous-ensembles possibles de ft. On a que la classe A possède la propriété faible d'absence de contexte si. et seulement si, il existe une fonction G : Q —» [0 . 1] telle que pour toute S G E. on a

• • • • /»(•)}(£) " G(E- ME)..... fn(E))

pour tout E G S et pour toutes /n(*) dans Ps.

On peut démontrer qu'il y a une équivalence entre la P M et la PFAC. Intuitivement, ces deux propriétés demandent que la décision finale pour un événement E ne soit fonction que de l'événement E lui-même et de l'opinion des experts concernant cet événement, les autres événements étant sans importance.

T h é o r è m e 4 .1 . Une classe de fonctions d'agrégation A possède la propriété faible d'absence de contexte si, et seulement si, elle possède la propriété de marginalisation.

Démonstration, (i) On démontre que PFAC => PM. Ce résultat découle directement de la définition des deux propriétés.

(ii) On démontre que P M =̂ > PFAC. Soient A une classe de fonctions qui satisfait la P M et E, un sous-ensemble quelconque de Q tel que E ^ Q et E ^ 0. On doit démontrer que si S contient E, alors

{As(fx (•)>•••> /»(•)}(£)

dépend uniquement de E et des f\{E),..., fn(E).

On peut former la a-algèbre engendrée par E

a(E) = {tt,E,Ec,n}.

Toute a-algèbre S G E qui contient E, a comme sous-a-algèbre o~(E), et par la P M ,

{As(M-),.. . , / » ( • ) } ( £ ) = {Aa(E) fn(-)HE)))}(E).

Mais, on a que, comme o~(E) est la a-algèbre engendrée par E, elle est uniquement définie par E et donc, une distribution sur cette a-algèbre est uniquement définie par la mesure de probabilité associée à l'ensemble E.

Ainsi,

est uniquement définie par E et par fi(E),..., fn(E).

Il ne reste qu'à considérer les cas où E = 0 ou E = Q. On voit facilement que, pour ces deux cas, le résultat est trivial par définition. •

On peut maintenant aller plus loin à partir de la propriété précédente en éliminant la dépendance envers la nature de l'ensemble E. On obtiendrait alors un résultat final qui serait uniquement fonction des opinions des experts concernant l'ensemble d'intérêt.

D é f i n i t i o n 4.3 (Propriété forte d'absence de contexte) . Une classe de fonctions est dite avoir la propriété forte d'absence de contexte 1 (PAC) si la distribution finale est fonction uniquement de l 'opinion des experts à propos de E. Formellement, une classe A de fonctions d'agrégation est dite avoir la PAC si, et seulement si, il existe une fonction H : [0, l ] n —> [0,1] telle que pour toute 5 G E, on a

{As(M-), . . . , / „ (•)} (£) = H{h{E),..... /„(£))

pour tout A dans S et pour toutes / î ( - ) , . ' . . , / n ( ' ) dans Ps.

Il est clair cette fois qu'il n'y a pas de relation d'équivalence entre la PM et la PAC. On a PAC =• PFAC => P M , mais P M => PFAC & PAC.

E x e m p l e 4 .2 . On prend une fonction d'agrégation de type

AS(E) = 0,20

pour tout E appartenant à S. Il est facile de voir qu'elle possède la PM (et donc la PFAC selon le théorème 4.1), mais pas la PAC. En effet, la fonction ne dépend que de E, et non d e / i ( £ ) , . . . , / „ ( £ ) . •

L'absence d'une telle propriété peut conduire à des résultats illogiques. En effet, on peut considérer le cas où tous les experts croient qu'à l'ensemble E est associée une probabilité nulle et où l'analyste déciderait quand même de lui associer la probabilité 0,20. En fait, on peut s'interroger à propos de l'utilité de demander l'avis d'experts si on n'a pas l'intention d'utiliser les résultats obtenus.

1 O n trouve également en anglais les termes Strong Label Neutrality et Context-Free Property.

D é f i n i t i o n 4.4 (Propriété du zéro) . Une classe A de fonctions d'agrégation possède la propriété du zéro (PZ) si, et seulement si, pour toute S G E. pour toutes fi(•),..., /n(*) appartenant à Ps et pour tout E appartenant à .S, on a

ME) = ...= fn(E) = 0 => {As(M-) / „ (• ) } (£ ) = 0.

On peut maintenant démontrer que pour un espace Q qui possède au moins trois points distincts, il existe une relation d'équivalence entre les propriétés P M , PZ et PAC.

T h é o r è m e 4 .2 . S'il y a au moins trois éléments distincts non-vides dans Q (on dit alors que Q est tertiaire), alors une classe A de fonctions d'agrégation possède la propriété forte d'absence de contexte si, et seulement si, elle possède la propriété de marginalisa­tion et la propriété du zéro.

Démonstration, (i) On démontre que PAC => P M et PZ. Soit A une classe de fonctions d'agrégation qui possède la PAC. Alors il existe une fonction H telle que pour toute S G E, on a

{AS{M-),.... /„(•)}(£) = H(h(E),.... /„(£))

pour tout A dans S et pour toutes / i ( - ) , . . . , fn(-) dans Ps. On a donc que si f\(E) = .'...= fn(E) = 0, alors

{ A s ( / i ( - ) / „ (•) } (£ ) = # ( 0 o) = o

car il s'agit de la probabilité associée à l'ensemble vide qui est 0 par définition. On a alors que A satisfait la PZ. De plus, on a que

PAC => PFAC => P M ,

d'où PAC => P M et PZ .

(ii) On démontre que P M et PZ =4> PAC. Soit A une classe de fonctions d'agrégation qui possède la P M et la PZ. Selon le théorème 4.1, A possède également la PFAC et donc, il existe une fonction G : Q —> [0,1] telle que pour toute S G E, on a

{As(f1(-),...,fn(-))}(E) = G(EJ1(E),...,fn(E))

pour tout E G S et pour toutes / î ( - ) , . . . , / n ( * ) dans Ps.

De plus, comme A possède la PZ , on a

G ( £ , 0 , . . . , 0 ) = 0

pour tout ensemble E appartenant à Q.

Soient P et Q deux sous-ensembles de f2, différents de celui-ci. avec P U Q ^ Q et P fi Q = 0. Soient également Pi, qi G [0,1] avec

Pi + q% < 1, z = 1. 2 . . . . , n.

On choisit les distributions /1 (•)>••• » /n(*) sur une cr-algèbre 5 contenant P et Q de telle sorte que = et fi(Q) = qx. Comme les deux ensembles sont disjoints, on a que

fl(PUQ)=pl+ql.

On a

G ( P , p i , . . . , p n ) + G ( Q , g i , . . . , g n ) = G ( P U Q,Pl + ftj... , p n +

On pose #i = g 2 = • • • = Qn = 0 et on obtient

G(P,pu:..,pn) = G(PUQ,pu...,pn)

ou, de manière équivalente, pour U / L Ç M ^ Q et rai,..., ran G [0,1]) , on a

G ( L , , m i , . . . , m n ) = G ( M , m b . . . , ran).

On va maintenant démontrer que pour A\ et A2, deux sous-ensembles quelconques de Q, mais différents de celui-ci, on a

G(AU m i , . . . , m n ) = G ( A 2 , m b . . . , mn)

et donc, que la fonction G ne dépend pas de A.

Il y a trois cas à considérer :

1. Soit Ai H A2 = P 7̂ 0. On a alors simplement que

G ( A i , m i , . . . , mn) = G(Ai\B U B, m l 5 . . . , ran)

= G ( P , m i , . . . , m n )

et on obtient, étant donné que G(A2l m b . . . , mn) = G{B, m i , . . . , ran) également,

= G ( A 2 , m i , . . . , m n )

en utilisant les résultats démontrés plus haut.

2. Soient Ax H A> = 0 et ,4i U A2 ^ On a alors

G(Aumu . . . , m,,) = G(AX U A 2 , m i , . . . , m n )

= G ( A 2 , m i , . . . , m n )

en utilisant les résultats présentés plus haut.

3. Soient Ai D A2 = 0 et A\ U A2 = Comme l'union de Ai et A2 donne l'ensemble Q. il n'est pas possible d'utiliser directement les résultats présentés plus haut. On utilise ici le fait que l'ensemble Q contient au moins trois éléments non-vides, et donc qu'au moins Ai ou A2 possède un sous-ensemble. On suppose que ce sous-ensemble D appartient à Ai. On a alors

G(Ai,mi,...,mn) = G(D.mu ... , m n ) .

Comme Ax n A2 = 0 et que D C Au on a D Ci A2 = 0 et A2 U D ^ Q. On peut donc en déduire directement que

G(A2.mi mn) = G(D,mu ... , m n ) .

Si A i , A2 ou les deux sont l'ensemble Q, alors le résultat est valable par définition. •

On a donc démontré qu'il y avait une relation d'équivalence pour une classe de fonctions d'agrégation entre le fait de posséder la PM et la PZ et le fait de posséder la PAC.

Il reste maintenant à démontrer qu'une classe de fonctions d'agrégation qui respecte ce système d'axiomes est nécessairement composée de fonctions d'agrégation linéaires.

T h é o r è m e 4 .3 . S'il existe au moins trois éléments distincts et non-vides dans Q, alors les énoncés suivants sont équivalents :

1. A possède la PAC;

2. La classe A contient uniquement des fonctions qui peuvent être écrites sous la forme

{AsU'i(-),---, / « ( • ) } ( £ ) = £ « > i / i ( £ ) i=l

n avec oJi € R , uj% > 0 et £ uji = 1. De plus, ce résultat est valide pour toute S G E,

i=l tout E appartenant à S et toutes fi(•),..., /n(-) appartenant à Ps-

Démonstration, (i) On démontre que (2) =$> (1). La relation découle directement des définitions.

(ii) On démontre que (1) => (2). Soit A une classe de fonctions d'agrégation qui possède la PAC. Il existe alors une fonction H telle que pour toute S G E, on a

{As(M-), Jn(-)}(E) = H(f1(E),...,fn(E))

pour tout A dans S et pour toutes / î ( - ) , . . . , fn(-) dans P5. On doit démontrer qu'il existe n

des nombres . . . ,u; n avec ^ > 0 et £ u;* = 1 tels que pour tout x i , . . . , xn G [0,1]. i=i

n

i f ( x i , . . . , x n ) = ^u^x* .

Soient a\ et 6* (i — 1 , . . . , n ) , des nombres réels non-négatifs, avec a z + 6Z < 1.

Comme Q est tertiaire, on peut séparer Q en trois sous-ensembles disjoints. A\, A2

et A3. Soient S la cr-algèbre engendrée par ces sous-ensembles et fi(-) , / n ( * ) sur S telles que

fi(Ax) = a*,

fi{A2) = bi,

et

fi(Az) = 1 - ai - h.

On a alors que fi{A\ U A 2 ) = a* + 6j et

f f ( a i , . . . , a n ) + ff(6i,.. . , 6 n ) = / / (ai H- 61 , . . . , a n + bn).

Une implication importante de ce résultat pour la suite de la démonstration est que pour a, b > 0 et a + b G [0,1], on a que

H(a) + H(b) = H(a + b)

qui est connue dans la littérature sous le nom de équation fonctionnelle de Cauchy.

De manière générale, pour tout i r i , . . . , xn G [0,1], on a

# ( x ! , . . . , x n ) = # ( x i , 0 , . . . , 0 )

+ # ( 0 , x 2 , 0 , . . . , 0 )

+ . . .

+ i J ( 0 , . . . , 0 , X n ) ,

ou encore, en posant Hi(x) = i / ( 0 , . . . , 0, x ,̂ 0 , . . . , 0) , on a n

H(xu . . . , x n ) = ] T # i ( x ) . i=i

Comme la fonction i / plus haut, la fonction H{(x) satisfait l 'équation fonctionnelle de Cauchy pour a, b > 0 et a + b € [0,1]. Il existe dans la littérature de nombreuses démonstrations que si Hi(x) satisfait à l'équation fonctionnelle de Cauchy, alors

Hi(x) uJiX,

où uji est une constante réelle positive. Enfin,

n n

t=l i=l

= H(l 1)

1.

On a donc démontré qu'une combinaison linéaire 2 des avis des différents experts est la seule classe de fonction qui satisfait le système d'axiomes présenté dans cette section.

Une extension de ce résultat est présentée dans Genest (1984). On a que pour une o~-algèbre de Vt contenant au moins trois sous-ensembles disjoints et non-vides, une classe de fonctions d'agrégation qui possède la PFAC est nécessairement de la forme

As(M-), • • • , / „ (•) ) (£) = + ( i - Ê a i j Q , i=l \ i=l J

où Q est une mesure de probabilité appartenant à Ps et o j i , . . . , an G [—1,1] tels que | 52jej a j | < 1 pour tout sous-ensemble J de { 1 , . . . , n}. On voit que le modèle présenté plus haut est simplement le cas particulier avec 132=1 o;» = 1.

4.2 Autres axiomes

Il existe, dans la littérature, d'autres axiomes pouvant être désirables dans un mo­dèle, mais qui ne sont pas compatibles avec le système de McConway et Wagner. Les deux principaux sont présentés dans cette section.

Dans Laddaga (1977), on retrouve une propriété que le système de McConway et Wagner ne respecte pas. Une classe de fonctions d'agrégation est dite posséder la pro­priété de préservation de l 'indépendance (PPI) si, lorsque les experts considèrent deux événements comme étant indépendants, cette propriété est respectée dans la distribu­tion agrégée.

D é f i n i t i o n 4.5 (Propriété de préservation de l ' indépendance). La classe de fonctions d'agrégation A possède la propriété de préservation de l 'indépendance (PPI) si, et seule­ment si, pour toute S G S , pour toutes — fn(') appartenant à Ps et pour tout

2 O n utilise en anglais le terme linear opinion pool.

Ei et E2 appartenant à S, on a

i M / l O , • • • . fn('))(El H E 2 ) = As(fi('), . . . . / n ( . ) ) ( ^ l ) A 5 ( / l ( . ) / » ( - ) ) ( ^ ) ,

lorsque f{(Ei n £ 2 ) = fl(Ei)fl(E2) pour tout « = 1 , . . . , n.

Par l 'exemple qui suit, on voit que la classe des combinaisons linéaires des avis des différents experts ne possèdent pas nécessairement cette propriété.

E x e m p l e 4 .3 . Soient deux experts, e\ et e 2 , donnant leur opinion à propos de deux événements, E\ et E2, qu'ils considèrent comme étant indépendants. On suppose que

fi(Ei) = 0 . 2 0

fi{E2) = 0.6667

fi{EiDE2) = 0,1333

MBi) = 0,40

f2(E2) = 0,4286

f2(E1nE2) = 0,1714.

En utilisant la règle = \f\(E) + \f2(E), on obtient

As{Ei) = 0,35

^ 5 ( ^ 2 ) = 0,4881

As{EiC\E2) = 0,1619

^ AsiEjAsm

= 0,1708.

Une autre propriété intéressante est présentée dans Madansky (1964). Une classe de fonctions d'agrégation est dite posséder la propriété de cohérence a priori /a poste­riori 3 (PC) lorsque, si une nouvelle information devient disponible, elle peut être intégrée au modèle et produire la même distribution agrégée que si les experts avaient connu cette information au moment de donner leurs distributions • • • > / n ( 0 -

D é f i n i t i o n 4.6 (Propriété de cohérence a priori /a posteriori). Soit L : Q —» (0 ,oo) , une fonction représentant la nouvelle information que l'on souhaite ajouter au modèle, avec

0 < JLfi(-) d/i < 00, z = l , . . . , n .

3 O n utilise en anglais les termes Externally Bayesian Property, Prior to Posterior Coherency et Data Independence Property.

La classe de fonctions d'agrégation A possède la propriété de cohérence a priori /a poste­riori (PC) si, et seulement si. pour toute S G E. pour toutes fi(-) /„(•) appartenant à Ps et pour tout E appartenant à S. on a

A s , LM-) £/„(•) \ LAs(fA:) /„(•))(£) fLM-)d»' 'JLfn(-)d»r ' fLAs( f !(•).... Jn(-))(E)dv

On peut voir assez facilement que

As(f1(.),...Jn(-))(E) = J2^ft(E) 1=1

ne respecte pas cette propriété. En effet, on a

1=1

ï \I Lfi(E) dfx J f Luifi(E) dfi

pour tout appartenant à 5 , pour toute 5 appartenant à E et pour toutes / i ( - ) , . . . , / n ( - ) appartenant à P5.

En fait, il est possible de démontrer que la seule classe de fonctions d'agrégation A possédant les propriétés PPI et P C est de la forme

n f,(Er> As(f,(•),...,/„(•))(£)= ' n

/ n f,(Er>dfi

avec les a{ choisis pour que le dénominateur soit fini. Une telle classe porte le nom de combinaison logarithmique des avis d'experts. Cette classe a été caractérisée dans Genest et al. (1986) et ne respecte pas les axiomes du système de McConway et Wagner.

Dans un modèle non bayesien où l'analyste n'a techniquement pas de distribution a priori, la propriété P C est moins significative.

En respectant le système d'axiomes de McConway et Wagner, la seule classe de fonctions d'agrégation possible est celle contenant les combinaisons linéaires des avis d'experts. C'est cette classe de fonctions d'agrégation qui a été retenue par Cooke pour son modèle classique présenté au chapitre 2. Il ne tient alors pas compte de la propriété PPI.

Chapitre 5

Modèle bayesien de Mendel-Sheridan

Le modèle bayesien de Mendel et Sheridan (1989) permet une combinaison mathé­matique des distributions données par les différents experts. On considère cette fois que l'analyste a une opinion a priori et qu'il modifie cette dernière selon les informations reçues des experts. Dans les section 5.1 à 5.7, on présente un exemple simple d'applica­tion de ce modèle pour un expert, un quantile et quatre variables de calibration. Ceci permettra d'introduire la notation, de présenter certains détails et de clarifier les calculs avant de passer au cas plus général, qui sera présenté à la section 5.8. La mise en œuvre informatique de ce modèle est présentée au chapitre 7.

5.1 Notation

On a n = 1 expert à qui il est demandé m = 1 quantile - - qu'on posera être le 40 e pour cet exemple - - pour k = 4 variables de calibration. Pour chacune des variables de calibration, on a alors le même vecteur de pourcentages, f = (f0, / i , Î2) = (0,00. 0.40,1,00). Associé à ce vecteur f, on a un vecteur de quantiles X j = (x0j, Xij, x2j)

pour chaque variable de calibration j (j = 1, 2, 3, 4) . Il est à noter que dans ces vecteurs, uniquement les quantiles X\j sont donnés par l'expert ; les quantiles x0j et x2j seront déterminés par l'analyste.

A titre d'exemple, le tableau 5.1 présente les informations obtenues de l'expert pour les variables de calibration X\,... ,X± et la variable d'intérêt X5 pour cet exemple.

Variable Vraie valeur Quantile de l'expert X\j

x1 195 140

x2 0.21 0.20

x3 0.50 0.40

x4 2 000 2 500

x5 — 1 000

T A B . 5.1 - Information obtenue de l'expert

Le vecteur f sépare le segment [0,1] en deux espaces interpourcentages pi tel que

Pi = fi-fi-i, î = l , 2 .

On a alors p = (pi,£>2) = (0,40,0,60). De manière similaire, le vecteur Xj sépare le segment ( x 0 j , x 2 j ) en deux espaces interquantiles tels que

d>ïj X{j Xi—ij, i 1,2.

En supposant que l'analyste a posé x 0 i = 0 et x2\ — 200, on a alors, par exemple, d i = (diudn) = (140,60) .

5.2 Calibration

La première étape consiste à évaluer l'expert à partir des variables de calibration. Étant donné que l'expert doit donner un quantile correspondant à 0,40, il est raison­nable de croire que, si le nombre k de variables de calibration est assez grand, environ 40 % des vraies valeurs devraient être dans l'espace interquantile correspondant à l'es­pace interpourcentage (0,00, 0,40) et 60 % dans l'espace interquantile correspondant à l'espace interpourcentage (0,40,1,00).

Pour réaliser la calibration, on va construire un calibrateur Zj pour chacune des variables de calibration. Celui-ci sera un vecteur tel que, pour i = 1,2,

{ 1, si Xj appartient à l'intervalle (xi-i j , Xij]

0, ailleurs,

où Zj(i) est le ie élément du vecteur calibrateur de la variable j et où Xj est la vraie valeur de la variable de calibration Xj. Ce calibrateur est étroitement lié à la réalisation de la variable aléatoire Ze des chapitres 2 et 3. Cette notation est adoptée puisqu'elle sera

utilisée dans la description générale du modèle de Mendel-Sheridan où Z3(i) représente le ie élément dans l'ordre lexicographique du tableau calibrateur de Xj. Le choix de fermer les intervalles à droite permet d'obtenir une fonction de répartition continue à droite.

Pour l'exemple considéré, on a Z1 = [0 1]. Z 2 = [0 1], Z 3 = [0 1] et Z 4 = [10 ] .

On pose comme hypothèse pour ce modèle que l'ordre des observations est sans importance. On peut donc regrouper les calibrateurs en sommant élément par élément les différents Zj pour obtenir S = X!j=i Z j . On obtient dans l 'exemple S = [1 3] qui est une statistique contenant toute l'information liée aux résultats de calibration. A nouveau, S est étroitement liée au vecteur s e des chapitres 2 et 3.

Pour cet expert, 25 % des vraies valeurs sont inférieures au 4 0 e quantile ce qui indique que l'expert semble avoir tendance à donner un 40 e quantile trop peu élevé. Ainsi, lorsque l'expert donne 1 000 comme valeur pour le 40 e quantile de la variable d'intérêt, l'analyste pourrait être tenté d'augmenter cette valeur.

On cherchera à trouver une distribution pour le calibrateur de la variable d'intérêt sachant S et l'avis de l'expert à propos de cette dernière variable. Le calibrateur de la variable recherchée est de la forme { Z 5 | S , x 5 } = [ Z 5 ( l ) Z 5 ( 2 ) ] où

Pr( vraie valeur de X§ soit dans (xos, #15]) = #15

Pr(vraie valeur de X5 soit dans (#15, #25]) = #25,

et tel que #15 + #25 — 1.

Chacun des calibrateurs Zj contient un seul 1 et étant donné que le nombre de positions possibles pour ce 1 est fini, on peut modéliser la probabilité que le calibrateur Zj ait un 1 en position i par une loi Bernoulli de paramètre Cette modélisation est, bien entendu, conditionnelle à la vraie valeur du paramètre.

Les paramètres 0^ représentent ici des caractéristiques des experts et non des va­riables de calibration, c'est-à-dire qu'on suppose que la qualité d'un expert sera la même pour toutes les variables de calibration. Les différents paramètres 6*̂ peuvent donc être considérés comme étant des réalisations de la variable aléatoire ©^ modélisant la qua­lité des experts. De manière générale, 0 est un vecteur aléatoire tel que Yli @i = 1 dont la distribution est multivariée. Dans cet exemple, comme 0 = ( 0 i 0 2 ) et que 0 2 = l — Oj par définition, la distribution du vecteur aléatoire peut être exprimée sous la forme d'une simple distribution uni variée. Plusieurs distributions a priori pour 0 seront examinées à la section 5.3.

La distribution a posteriori de 0 est déterminée à la section 5.4 à partir de la calibration et de la règle de Bayes. On déterminera ensuite les distributions prédictives {Zfc+i|S = s } et {Zfc + i|S = s,Xk+i} respectivement aux sections 5.5 et 5.6. Enfin, on obtiendra la distribution agrégée de la variable d'intérêt à la section 5.7.

5.3 Densité a priori pour le paramètre 0

Afin de déterminer une forme fonctionnelle pour la densité a priori, deux critères seront pris en considération :

1. trouver une distribution a priori qui laisse à l'expert le bénéfice du doute, c'est-à-dire qu'avant de réaliser la calibration, l'analyste considère l'expert comme étant sans biais et, s'il n'est pas seul, indépendant des autres experts;

2. trouver une distribution a priori qui apporte par elle-même le moins d'information possible à la modélisation.

En considérant un expert comme étant sans biais, on sous-entend que la distribution de chacun de ses calibrateurs est cohérente avec les quantiles demandés. Ici, on suppose que

Pr(avoir un 1 dans la première case) = 0,4

si Zj = [1 0] ou encore,

Pr(avoir un 1 dans la deuxième case) = 0,6

si Zi = [0 1],

Pour obtenir une distribution le moins informative possible, il est raisonnable de considérer toutes les réalisations possibles de la statistique exhaustive S comme étant équiprobables. Pour ce faire, il suffit de choisir la distribution / u n i f o r m e ( # ) sur ft, qui représente le support du vecteur aléatoire 0 .

Il est clair qu'il est impossible de satisfaire parfaitement aux deux critères sauf si des quantiles équidistants sont choisis. En effet, l'absence de biais impose que

Pr(avoir un 1 dans la première case) = 0,4

si Zi = [10 ] , alors que le second critère impose que

Pr(avoir un 1 dans la première case) = 0,5

pour le même vecteur Z7.

L'idée adoptée pour ce modèle consiste alors à trouver une densité qui respectera le premier critère et qui ajoutera le moins d'information possible par rapport à la distri­bution uniforme. La comparaison sera faite en utilisant la mesure d'information relative (annexe A )

I(fi,f2) = Jfi(0)ln(^M)de. n

On veut minimiser

sous la contrainte que

J m U T v

rm ni forme (0)

E[Si] = 0.4.

Ainsi, on cherchera à minimiser le lagrangien

1 = / / W l n i t mf 0 \ ) d ° - x " °-4°)

^ V / U n i f o r m e (y) )

= / / W l n (t m , n ) M~ A I / 9 H 9 ) d e ~ °>40

J \ /ïlnifArmP (7 / V J { ) x / u n i f o r m e ( ' 9 ) / ^

d'où dL

df(0) J i n ( / ( 0 ) ) de- J {ex -1) de.

n n Il est à noter qu'ici dL/df{6) représente une dérivée fonctionnelle. On trouve ainsi que f(0) oc ex\ ou encore f(0) = KeXd.

On trouve la valeur de la constante de proportionnalité K en imposant que f(6) soit une densité :

i J KexodO = 1, o

d 'où

ex - 1 La valeur du multiplicateur de Lagrange À est déterminée en imposant la contrainte :

i

£ [ e , ] = / 0

Xex - ex + 1 X(ex-1)

1 1 1 - e~x X

= 0,4.

o.o 0.2 0.4 0.6 0.8 1.0

8

FlG. 5.1 - Densité a priori du paramètre Oi

On trouve numériquement que À « —1.23. La figure 5.1 présente le graphique de la densité a priori résultante.

Parce qu'elle permet de considérer l'expert comme étant sans biais et qu'elle mini­mise l'apport d'information au modèle, la densité a priori porte le nom de distribution minimalement informative (DMI) . On a obtenu la DMI

pour une classe de fonction / possédant des propriétés de régularité à préciser. On peut interpréter la fonction de Dirac comme étant une fonction valant 1 lorsque son argument est nul et 0 sinon.

Cette densité étant difficile, du moins d'un point de vue théorique, à utiliser avec la règle de Bayes, Mendel et Sheridan (1989) proposent de faire l 'approximation de cette densité a priori par la densité de Dirichlet à deux dimensions,

avec 6\ G [0 ,1 ] et ô(-) la fonction généralisée de Dirac définie par

oc

— oo

m,e2) T(ai +a2)

R ( a i ) R ( a a ) ( 9 ? - 1 9 ? - 1 ) ô ( l - 9 1 - 9 2 ) ,

ou encore

T(ai)T(a2)

La loi de Dirichlet est définie pour 6\ + 02 = 1 et se prête facilement à un calcul de loi a posteriori à l'aide de la règle de Bayes (voir section 5.4).

Les valeurs des paramètres ai et a 2 sont choisis de façon à faire correspondre les espérances des marginales aux probabilités des espaces interquantiles, soit ici

£ [ 6 i ] = 0,4

E[e2] = E[l - 9 i ]

= 0.6.

et de manière à minimiser l'information relative entre la densité de Dirichlet et la DMI.

De manière générale. E[Qi] = ai/(ai + a2) = f\ et E[Q2] = a2/(ai + a2) = 1 — / i . La solution de ce système est donc l'ensemble des valeurs (ai , 02) telles que

( l - f i \ a2 = I — - — I ai Kai.

Pour trouver les valeurs uniques de ai et a 2 , il faut minimiser l'information relative entre la densité de Dirichlet et la DMI,

/ l (a// i ) (/ ( l - f j \ l n / r (q)r (Ko) , M

T(a)r{Ka) J \

Le code R présenté à la figure 5.2 permet de trouver les valeurs de ai et a2 numérique­ment. On obtient ainsi les valeurs ai = 0,8482 et a2 = 1,2723 lorsque f\ = 0.4.

Cette approximation de la densité a priori porte le nom d'approximation minima-lement informative par la loi de Dirichlet ( A M I D ) . La figure 5.3 présente la densité a priori DMI telle que E[Qi] = 0,4 et son approximation minimalement informative par la loi de Dirichlet ( A M I D ) .

Avec une telle méthode, le calcul des valeurs des a* peut être problématique. En effet, il demande de calculer explicitement la DMI en réalisant une minimisât ion fonc­tionnelle, cette dernière devenant rapidement très complexe lorsque plus d'un quantile est demandé. On pourrait alors tenter de minimiser directement une fonction de distance entre la loi uniforme et la loi de Dirichlet. Soit

doc(fi(x)J2(x)) = max| fi(x) - f2(x) |,

la mesure de distance infinie et soit

d2(fl(x).f2(x))= j (h(x) - f2(x)f dx,

egalitarian.moyen <- funetion(lambda, q) {

1 / (1 - exp(-lambda)) - 1 / lambda - q }

lambda.4 <- uniroot(egal i tarian.moyen, c ( - 5 0 , - 0 . 0 0 1 ) , q = 0 .4 )$root Info <- funct ion(a , q, lambda, N = 1000) {

b <- ( (1 - q) / q) * a FUN <- funct ion(x) dbeta(x, a, b) *

l og (dbeta (x , a, b) / (lambda / (exp(lambda) - 1)) * exp(lambda * x ) )

sum(sapply((1:999) /1000, FUN)) }

q <- 0.4 a <- optimize( f = In fo , interval = c ( 0 , 1 0 ) , q = q,

lambda = lambda.4)$minimum

F i g . 5.2 - Évaluation numérique de ai et a 2

0.0 0.2 0.4 0.6 0.8 1.0

e

FlG. 5.3 - Comparaison de la DMI (trait plein) et de l 'AMID (trait brisé) pour l'exemple étudié

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0 .6 0.8 1.0

0 6

(a) Courbes pour q — 0,10 (b) Courbes pour q = 0.30

FlG. 5.4 - Comparaison entre la DMI (trait plein) et la DDDI (trait brisé)

la mesure de distance quadratique. En minimisant la distance infinie entre la distribu­tion uniforme et la distribution de Dirichlet, on obtient la densité de Dirichlet par la d^ (DDDI) . La figure 5.4 présente la superposition de la distribution minimalement informative et de la densité de Dirichlet par la d^. En minimisant la distance quadra­tique entre la distribution uniforme et la distribution de Dirichlet, on obtient la densité de Dirichlet par la d2 ( D D D Q ) . La figure 5.5 permet une comparaison graphique de la distribution minimalement informative et de la densité de Dirichlet par la d2. Ces lois de Dirichlet ont été obtenues numériquement.

5.4 Densité de 0 après calibration

Tel que mentionné dans la section précédente, on a

m,02) = g g L i g ^ - ^ - i f l i _ 0 l - 0 2 ) l {ai)l [a2)

et / (SI0 ! - 0U 9 2 = 0 2) = 0 î ( 1 ) 0 2

( 2 ) o ( l - 0! - 0 2 ) ,

oùs=[s^s^}.

Puisque les distributions de Dirichlet et de Bernoulli sont des conjuguées naturelles,

<X> LO

O

(a) Courbes pour q = 0.10 (b) Courbes pour q = 0.30

FlG. 5.5 Comparaison entre la DMI (trait plein) et la D D D Q (trait brisé)

a priori a posteriori

Approximation ai a 2 ai a 2

A M I D 0,8482 1.2723 1,8482 4.2723 DDDI 2,1286 3,1928 3,1286 6,1928 D D D Q 0,8992 1.3488 1,8992 4,3488

5.2 - Paramètres des distributions a priori et a post

la densité a posteriori est également une distribution de Dirichlet. Par conséquent,

f(s\Oi,02)f(0nO2) / (0i,0 2|s = s ; / ( s )

r (a i + a 2 + s ( l ) + s (2) ) ^ ( a i +s( i ) - i ) ^ 0 2+a ( 2 ) - i ) ô ( l - 0 1 - 0 2 ) r ( a 1 + s ( l ) ) r ( a 2 + s (2) )

Donc, si 0 rsj Dirichlet (ai , a 2 ) , alors 0|S = s ~ Dirichlet (ai + s ( l ) , a 2 + s (2 ) ) .

Pour l 'exemple considéré, on a s = [1 3], et donc s ( l ) = l e t s ( 2 ) = 3. Les paramètres des distributions a priori et a posteriori obtenus à l'aide des différentes approches sont présentés au tableau 5.2.

5.5 Distribution prédictive pour le calibrateur d'in­térêt

On cherche maintenant la distribution du calibrateur Zk+i de la variable d'intérêt Xk+i sachant la distribution calibrée du paramètre de la distribution de Bernoulli. Soit

P r ( z f c + i ( o = i|ei'=ffi,e2 = ft) = ft tel que Ql + Q2 = \. On définit 0i = 6\ et 62 = (1 — #i) de sorte que

pr(z f c +i(«) = i|ei = fli>e2 = ft) = ft. On a

P r ( Z * + 1 ( / i ) = l|S = s)

= / ' / ' 1 P r ( Z f c + 1 ( f e ) = l | e = © ) m , 0 2 | s ) ^ 1 ^ 2

Jo Jo

qui devient, en reconnaissant une distribution de Dirichlet sous l'intégrale,

__ T + s(z))) n ? = i r f o + s(z) + S(h - Q) nLi + s(z)) r (E-=i(ai + s(t) + - i)))

[ah + s(h)) r

r ^ = 1 ^ + 4 + 0 s ( h ) + f l » , ft=l,2.

4 + E t i « i

La distribution présentée ci-dessus demande d'identifier explicitement les paramètres ^ de la loi de Dirichlet. Comme il a été possible de le voir, ceci s'avère être difficile en dimension plus grande que 2. Mendel et Sheridan proposent alors dans leur modèle une approximation permettant d'éviter ce problème. On a

Pr(Z f c +i( / i) = 1|S = s) = 2 -

s(h)/ah + ah/ah

4/ah + E2i=iai/ah

qui devient, étant donné que ahJ Y%=\ a% = E[®h\ = Pr(Zk=i(h) = 1

s(h)/ah - h ah/ah

4/a f c + l / P r ( Z f c + i ( & ) = l

Si ah ~ 1 pour tout h, alors

P r ( Z f c + 1 ( / i ) = l|S = s) s(h) + 1

(5.1) 4 +

P r ( Z f c + 1 ( / i ) = l )

Pour cet exemple. Pr(Zft+i{h) = 1) = ph. Une distribution de Dirichlet avec des para­mètres « 1 est très proche d'une distribution uniforme. Si les quantiles demandés à l'expert sont équidistants, l 'approximation est parfaite car f\ = 0.5 implique que ai = a2

par minimisation de l'information relative par rapport à la distribution uniforme. En fait dans ce dernier cas. on pourrait prendre initialement une densité uniforme comme densité a priori. On note qu'avec l 'approximation (5.1). les probabilités ne somment pas à 1 et il faut renormaliser.

La distribution de Z*.+i|S est donc une loi discrète dont les poids sont donnés par

Il faut maintenant ajouter au modèle le quantile donné par l'expert pour la variable Xk+i- Ici, on interprète { Z ^ + i | S , Xk+i} comme étant la variable aléatoire représentant le calibrateur de la variable d'intérêt sachant l'information de calibration S et les quantiles donnés par les experts pour la variable d'intérêt Xk+\. Il est important de noter que s'il y a plus d'un expert, certaines valeurs de la distribution prédictive précédemment calculée sont désormais impossibles. Par exemple, si l 'expert 1 donne les deux quantiles xn = 10 et X12 = 30 et l'expert 2 les quantiles x2\ = 5 et x22 = 25 pour une variable de calibration j , le calibrateur

est impossible. Ici, les lignes représentent l'expert 1 et les colonnes l'expert 2. Ce cali­brateur signifie donc que la vraie valeur est entre les deux quantiles donnés par l'expert 1 et plus petite que le plus petit des quantiles du deuxième expert. Avec les quantiles fournis par les deux experts, ceci est clairement impossible.

La nouvelle information permet donc d'associer une nouvelle probabilité nulle à certains hyperespaces interquantiles conjoints et, par conséquent, de normaliser les pro­babilités associées aux autres. Soit T , l'ensemble des valeurs de t telles que Zk+i(t) est

(5.1).

5.6 Distribution pour {Zfc+i|S,£fc+i}

0 0 0 1 0 0 0 0 0

possible, on obtient alors

P l . , 7 r M , , q v P r ( Z t + 1 ( f t ) = l|S = s) P r ( Z , + 1 ( f e ) = 1|S = s , x f c + 1 ) = E ( g r P r ( Z f c + i W = 1 | s = s ) (5-2)

Dans l'exemple considéré, comme il n'y a qu'un seul expert, la distribution n'est pas modifiée.

5.7 Distribution finale

Une fois déterminée la distribution du calibrateur, il reste à trouver la distribution conditionnelle de la variable d'intérêt. Si le support de Xk+i est borné, le calcul est trivial puisque les masses de probabilité déterminées par (5.2) sont distribuées sur les intervalles correspondants du domaine de Xk+Ï. Si le domaine de Xk+i n'est pas borné, l'analyste doit alors déterminer lui-même une borne supérieure. La distribution finale est donnée par

< X5 < xj5\S = s . x 5 ) = P r ( Z 5 ( j ) = 1|S = s ,a*) .

Dans l'exemple étudié, l'expert a donné un quantile de 1 000 et on obtient comme distribution exacte

Pr{X5<x\Slx5) = <

0, 1 + 0,8482

4 + 2,1205

1,

0,

0,3020,

1,

x < 1 000

1 000 < x < X25

X > £ 2 5 ,

x < 1 000

1 000 < X < X25

X > £ 2 5 .

En utilisant l 'approximation faite par Mendel et Sheridan, on obtient

P r ( x 0 5 < X5 < 1 000|s ,x 5 ) « ^ 7 ~ T 4 + 0 , 4

3 + 1 Pr ( l 000 < X5 < x 2 5 | s , x 5 ) 4 + J -

^ ^ 0 . 6

et donc

P r ( x 0 5 < ^ 5 < 1 000|s,£ 5 ) « 0.3077

Pr ( l 000 < X5 < x 2 5 | s , x 5 ) « 0.7059,

ou encore, sous la forme d'une fonction de répartition

10. x < 1 000

0,3077, 1 000 < x < x25

1. x > £25.

La somme des probabilités étant 0.3077+0,7059 = 1.0136. on divise les valeurs obtenues par ce nombre pour normaliser :

P r ( x 0 5 < X-0 < 1 000|s.£ 5 ) « 0.3036

Pr ( l 000 <X5< x25\s,x5) « 0,6964, et sous la forme d'une fonction de répartition

[O. x < 1 000

Pr(X5 < x|s, x5) = l 0,3036, 1 000 < x < x25

11. x > X25.

0. 1 + 2,1286

En utilisant la DDDI. on obtient comme distribution finale

x < 1 000

P r ( X 5 < <r|8, x5) = { 4 + 5 | 3 2 1 4 , 1 000 < x < x25

1, x > X25

0, x < 1 000

- <! 0,3356, 1 000 < x < £ 2 5

1, £ > £ 2 5 .

Enfin, en utilisant la D D D Q , on obtient comme distribution finale

P r ( X 5 < £ | s , £ 5 ) =

0, 1 + 0,8992

4 + 2,2480

1,

0,

0,3040,

1.

£ < 1 000

1 000 < £ < £ 2 5

x > £25

£ < 1 000

1 000 < £ < £ 2 5

X > £ 2 5 -

E[ex] Probabilité exacte M-S DDDI D D D Q

0 . 1 0 0 . 1 4 8 5 0 , 1 5 4 4 0 . 1 3 1 9 0 , 2 1 7 4

0 , 2 0 0 . 2 2 4 9 0 , 2 2 5 8 0 . 2 1 8 6 0 , 2 2 2 6

0 , 3 0 0 , 2 6 9 9 0 , 2 7 0 1 0 , 2 7 5 2 0 , 2 7 1 9

0 , 4 0 0 , 3 0 2 0 0 , 3 0 3 6 0 . 3 3 5 6 0 . 3 0 4 0

0 , 4 9 0 , 3 2 9 5 0 , 3 3 0 4 0 . 3 7 5 0 0 . 3 3 0 1

T A B . 5 .3 - Probabilités associées au premier espace interquantile

Le tableau 5 .3 présente une partie des distributions obtenues pour différents quan­tiles demandés.

On remarque que plus le quantile demandé est près de 0 , 5 0 , meilleure est l 'approxi­mation de Mendel et Sheridan. L'approximation à l'aide de la fonction de distance infinie performe relativement mal par rapport à celle faite à l'aide de la fonction de distance quadratique. Cette dernière est généralement très bonne, sauf pour un quantile très ex­trême. Il est donc possible de conclure, du moins empiriquement, que l'approximation proposée par Mendel et Sheridan est valable.

5.8 Modèle de Mendel-Sheridan complet

Dans cette section, on présente le modèle bayesien de Mendel-Sheridan introduit dans le chapitre précédent dans toute sa généralité. On est en présence de n experts, de m quantiles demandés et de k variables de calibration. On va conserver la même notation que celle utilisée dans le cadre de l'exemple présenté. La motivation des étapes ayant été explicitée dans les sections précédentes, on n'y reviendra pas ici.

Pour chacune des k variables de calibration, on a le même vecteur de pourcentage, f = ( / 0 , . . . 5 fm+i), où f0 = 0 et / m + i = 1. Associés à ce vecteur f , on a k vecteurs de quantiles Xj = ( x 0 j , • • •, xm+ij), j = 1 , . . . , k. Le vecteur f sépare le segment [ 0 , 1 ] en m + 1 espaces interpourcentages Pi = fi — / i - i , z = l , 2 , . . . , r a + l .

De manière similaire, le vecteur Xj sépare le segment ( x 0 j , xm+ij) en m + 1 espaces interquantiles dij = Xij — i= 1 , 2 , . . . , m + 1, j = 1 , . . . , k.

On va construire le calibrateur Zj pour chacune des variables de calibration. Pour chacun des n experts et chacune des k variables de calibration, on détermine un vecteur

ztj, i = 1 , . , n et j = 1 , . . . , /c, de longueur m + 1 tel que

Zij(t) 0,

1. si appartient à l'intervalle — l ) , x^ (£ ) ]

ailleurs.

où z^(£) représente le te élément du vecteur zZj et représente le te élément du vecteur de quantiles associé au ie expert et à la je variable de calibration. Encore une fois, on choisit de fermer les intervalles à droite.

On regroupe maintenant pour une même variable de calibration j les vecteurs de chacun des experts de la façon suivante :

Ainsi les calibrateurs Zj se comparent à des hypercubes de volume 1 en n dimensions et ils contiennent chacun un seul 1 et plusieurs 0. Ils sont divisés en ( r a + l)n hyperespaces interquantiles conjoints (HIC). Pour simplifier la notation, on notera Zj(h) le he élément du calibrateur dans l'ordre lexicographique 1 .

On construit la statistique S(h) = £*=1 Zk(h). h = 1 . . . . , (m + l ) n et on cherche la distribution pour le calibrateur de la variable d'intérêt sachant cette information. Étant donné que le nombre de positions possibles pour le 1 est fini, on peut modéliser la probabilité que le calibrateur Zj ait un 1 en position h par une loi multinomiale de paramètre 0 . Le paramètre 0 est un tableau aléatoire de même dimension que le tableau sous-jacent. Il est tel que

Il s'agit maintenant de déterminer une distribution convenable pour le vecteur aléa­toire 0 . L'approche présentée aux sections précédente demandant le calcul de la dis­tribution minimalement informative par rapport à la loi uniforme est maintenant in­utilisable à cause de difficultés numériques. On utilisera l 'approximation suggérée par Mendel et Sheridan, car elle permet d'éviter le calcul explicite des paramètres a* de la distribution de Dirichlet. Il serait théoriquement possible d'utiliser les approximations

^ a n s R 2 deux couples sont ordonnés selon l'ordre lexicographique lorsque (u,v) > (x,y) si u > x

et v > y et (u, v) < (x, y) sinon. La généralisation à des n-tuples est directe.

si z i j ( t i ) = z2j{t2) = . . . = znj(tn) = 1

ailleurs.

Pr(Zj(h) = l\G = e) = 6{h)

et ( m + l ) n

r = l

liées aux mesures de distance D D D I et D D D Q . mais ces dernières sont en pratique inutilisables également à cause de difficultés numériques.

En utilisant comme densité a priori pour le paramètre 0 de la distribution multino-miale une distribution de Dirichlet. on obtient, comme densité a posteriori, également une distribution de Dirichlet. On a, en posant M = ( m + l ) n ,

Mi) o(M)\s = s) = / ( s ' ^

n f i i # ( i ) ( a ' + s ( ! M ) x / M

D ( a 1 + s ( l ) , . . . , o M + s ( i l / ) )

/ M

s fi-E*(« Y i=l ou

L>(a i , . . . , a M J = r ( E ^ ( a i ) )

On rappelle que l'on peut interpréter S(-) comme

ô(x) 1, si x = 0

0, ailleurs.

La distribution du calibrateur de la variable d'intérêt sachant la distribution calibrée du paramètre de la multinomiale est obtenu à l'aide de calculs similaires à ceux présentés à la section 5.5. On obtient alors

i 3 (r? (u\ n o \ s(/i) + ah P r ( Z f c + i ( / i ) = 1|S = s) = M — .

En dimension n, l 'approximation de Mendel et Sheridan est donnée par

Pv(Zk+1(h) = 1|S = s) « S ( / 1 ) + 1 , (5.3)

si a/ï « 1 pour tout h. On a Pr(Zfc+i(/i) = 1) = p^p^ . . avec /?, l'ordre lexicogra­phique de (z'i,Z2,. • • , 2 n ) - La distribution de Zk+i\S est donc une loi discrète dont les poids sont donnés par (5.3) après renormalisation.

Comme pour l 'exemple précédent, la nouvelle information associe une nouvelle pro­babilité nulle à certains hyperespaces interquantiles conjoints et normalise en consé­quence les probabilités associées aux autres. On obtient, pour T, l'ensemble des valeurs de t telles que Zk+i(t) existe,

P r ( Z M l W - U S - * , , ) - P.0M*)-!»-.» £ , 6 T P r ( Z „ + 1 ( ( ) = l|S = s)

La détermination de la distribution de Xk+i sachant S et Xk+i est directe si le support de Xk+i est borné. Dans le cas contraire, l'analyste doit alors déterminer un point de troncature convenable.

Les calculs liés à ce modèle devenant rapidement très complexes lorsque le nombre d'experts augmente, on utilisera alors la fonction e x p e r t du package e x p e r t dont l'uti­lisation est détaillée au chapitre 7.

Chapitre 6

Exemples et discussion

Dans ce chapitre, on présente quelques exemples permettant de mettre en lumière certaines forces et faiblesses des deux modèles présentés précédemment. Le premier exemple étudiera l 'impact de la présence d'un mauvais expert sur chacun des modèles. Le second exemple permettra d'illustrer le comportement des deux modèles en présence d'une situation où la composante de calibration d'un expert est très faible. Enfin, le dernier cas permettra d'exemplifier l'utilisation des modèles pour la modélisation de la fréquence des sinistres en assurance automobile.

6.1 Mauvais expert

Cet exemple fait intervenir trois experts et sept variables de calibration. Les données ont été créées de façon à obtenir, dans un premier temps, trois bons experts, et, dans un second temps, deux bons experts et un très mauvais. On demande aux experts les 0 e , 10 e , 50 e , 90 e et 100 e quantiles. Le but est ici de comparer la façon dont les deux modèles vont intégrer ce changement.

Les données détaillées pour la première partie de cet exemple sont présentées à l'annexe D. Elles ont été construites de façon à ce que la médiane donnée par chacun des experts pour chacune des variables de calibration soit très proche des réalisations

des variables. Pour le modèle de Cooke, on obtient

P r ( X 8 < y)

0. y < 200

0,1, 200 < y < 600

0,5, 600 < y < 1 100

0,9, 1 100 < y < 1 500

1. y > 1 500.

Pour le modèle de Mendel-Sheridan, on a

P r ( X 8 < x | S = s , x 8 ) = <

0. x < 100

0.0045. 100 < x < 200

0.0226. 200 < x < 300

0.0894, 300 < x < 500

0,2947, 500 < x < 600

< 0,5000, 600 < x < 700

0,7053, 700 < x < 1 000

0,9106, 1 000 < x < 1 100

0,9774, 1 100 < x < 1 200

0,9955, 1 200 < x < 1 500

.1, x > 1 500.

(6.1

(6.2)

On rappelle que pour le modèle de Cooke, la valeur du a est déterminée numériquement selon la procédure d'optimisation explicitée au chapitre 2.

Les données détaillées pour la seconde partie de cet exemple sont présentées à l'an­nexe D. Cette fois, elles ont été construites de façon à ce que, pour l'expert 1, les médianes des distributions données soient de beaucoup supérieures aux vraies valeurs des variables de calibration. Les données pour les experts 2 et 3 sont les mêmes que pour la première partie. Pour le modèle de Cooke, on obtient la distribution finale

P r ( X 8 < y)

o, y < 300

0,1, 300 < y < 700

0,5, 700 < y < 1 200 0,9, 1 200 < y < 1 500

1, y > 1 500

(6.3)

et pour le modèle de Mendel-Sheridan.

0. x < 100

0.0045.

0.0226.

0.0894,

0,2947, 500 < x < 600

200 < x < 300

300 < x < 500

100 < x < 200

P r ( X 8 < x\S = s,x8) = < 0.5000. 600 < x < 700 (6.4)

0.7053. 700 < x < 1 000

0.9106. 1 000 < x < 1 100

0.9774. 1 100 < x < 1 200

0.9955, 1 200 < x < 1 500

x > 1 500.

Le modèle de Mendel-Sheridan ne permet pas de faire la distinction entre les deux cas, alors qu'on remarque une nette différence pour le modèle de Cooke. Afin de comprendre les causes d'un tel résultat, il faut étudier en détail les composantes des deux modèles.

Pour le modèle de Mendel-Sheridan utilisé lorsque tous les experts sont bons, on obtient comme tableau S pour les variables de calibration un tableau 4 x 4 x 4 contenant uniquement des 0 et un 7 en position ( 3 , 1 , 3 ) . Cela signifie que toutes les vraies valeurs des variables de calibration se sont retrouvées entre la médiane et le 90 e quantile du pre­mier expert, sous le 10 e quantile du second expert et entre la médiane et le 90 e quantile du troisième expert.

En revanche, dans le cas où un des experts est mauvais, le tableau S ne contient que des 0 et un 7 en position ( 1 , 1 , 3 ) . Cela signifie que toutes les vraies valeurs des variables de calibration se sont retrouvées sous le 10 e quantile du premier expert, sous le 10 e quantile du second expert et entre la médiane et le 90 e quantile du troisième expert.

On remarque donc que le modèle de Mendel-Sheridan détecte bien la différence entre les deux situations. Cependant, à cause des quantiles donnés par les experts pour la variable d'intérêt, cette information sera perdue dans la distribution finale. Les quan­tiles sont présentés au tableau 6.1. On remarque, en effet, que les espaces interquantiles conjoints ( 3 , 1 , 3 ) et ( 1 ,1 ,3 ) sont impossibles. L'information liée à ces espaces est alors perdue. Le modèle considère donc qu'aucune calibration n'est réalisée. Cependant, si les experts avaient donné une distribution différente pour la variable d'intérêt où les espaces interquantiles conjoints ci-dessus ne sont pas impossibles, alors le modèle tien­drait compte de la différence. Par exemple, les données présentées dans le tableau 6.2

Expert

Quantile

Expert 0 E 1 0 E 5 0 E 9 0 E 1 0 0 E

1 0 1 0 0 5 0 0 1 0 0 0 1 5 0 0

2 0 2 0 0 6 0 0 1 1 0 0 1 5 0 0

3 0 3 0 0 7 0 0 1 2 0 0 1 5 0 0

T A B . 6 .1 - Quantiles donnés par les experts pour la variable d'intérêt

conduisent à la distribution

lorsque les trois experts sont bons, et

P r ( X 8 < x\S = s , x 8 ) =

0. x < 4 0 0

0 , 0 0 6 7 , 4 0 0 < x < 7 0 0

0 , 0 3 3 2 , 7 0 0 < x < 8 0 0

0 , 0 5 9 7 . 8 0 0 < x < 9 0 0

0 . 1 5 7 5 , 9 0 0 < x < 1 0 0 0

0 , 9 4 0 3 , 1 0 0 0 < x < 1 2 0 0

0 . 9 6 6 8 , 1 2 0 0 < x < 1 5 0 0

0 , 9 9 3 3 . 1 5 0 0 < x < 2 0 0 0

1, x > 2 0 0 0

0 , x < 4 0 0

0 , 0 1 3 5 , 4 0 0 < x < 7 0 0

0 , 0 6 6 4 , 7 0 0 < x < 8 0 0

0 , 4 8 9 5 , 8 0 0 < x < 9 0 0

0 , 6 8 5 1 , 9 0 0 < x < 1 0 0 0

0 . 8 8 0 7 , 1 0 0 0 < x < 1 2 0 0

0 . 9 3 3 6 , 1 2 0 0 < x < 1 5 0 0

0 , 9 8 6 5 , 1 5 0 0 < x < 2 0 0 0

1, x > 2 0 0 0

( 6 . 5 )

( 6 . 6 )

lorsque le premier expert est mauvais.

Pour comprendre la différence entre les distributions finales données par le modèle de Cooke, il faut comparer les poids et les composantes de calibration accordés aux différents experts. Pour le cas où les trois experts sont bons, on a

Wi = 0 , 5 , w2 — 0 , w3 = 0 , 5

Expert

Quantiles

Expert 0 E 1 0 E 5 0 E 9 0 E 1 0 0 E

1 0 8 0 0 9 0 0 1 0 0 0 2 0 0 0

2 0 1 0 0 0 1 2 0 0 1 5 0 0 1 2 0 0 0

3 0 4 0 0 7 0 0 1 0 0 0 2 0 0 0

T A B . 6 . 2 - Quantiles modifiés donnés par les experts pour la variable d'intérêt

et

C ( l ) = 0 , 0 0 5 0 2 3 5 6 . C ( 2 ) = 0 , 0 0 0 0 0 0 4 7 . C ( 3 ) = 0 , 0 0 5 0 2 3 5 6 .

Pour le cas où l 'expert 1 est mauvais, on a

Wi 0 . W2 = 0 . U '3 1

et ( 7 ( 1 ) = 0 , 0 0 0 0 0 0 4 7 , ( 7 ( 2 ) = 0 , 0 0 0 0 0 0 4 7 , ( 7 ( 3 ) = 0 , 0 0 5 0 2 3 5 6 .

Le changement de qualité d'un expert affecte directement la composante de calibration et le poids accordés à cet expert.

6.2 Quantile extrême

Cet exemple fait intervenir un seul expert à qui il est demandé de donner un 0 E , un 1 0 E et un 1 0 0 E quantile pour 1 0 variables de calibration et une variable d'intérêt. On suppose que toutes les vraies valeurs des variables de calibration se retrouvent dans le premier espace interquantile de cet expert, c'est-à-dire que l'expert surestime systéma­tiquement les quantiles. Le but ici est de comparer la façon dont les deux modèles vont utiliser cette information pour construire la distribution finale.

Les données détaillées pour cet exemple sont présentées à l'annexe D. Pour le modèle de Cooke, on obtient la distribution finale

y<20

2 0 < y < 1 0 0 ( 6 . 7 )

y > ioo, P r ( X n < V)

alors que pour le modèle de Mendel-Sheridan. on a

0. x < 20

P r ( X n < x\S = s , x n ) = 0.8594. 20 < x < 100 (6.8)

1, x > 100.

La distribution donnée par l'expert pour la variable d'intérêt n'est pas modifiée par le modèle classique de Cooke. En effet, dans ce modèle, les bornes de la distribution finale sont une combinaison linéaire des bornes des distributions données par les experts pour la variable d'intérêt et comme il n'y a qu'un expert, celui-ci reçoit un poids de 1. Cependant, sa composante de calibration est C(e) = 5.890467 x 10~ 7 et en imposant un ex supérieur à cette valeur, l'analyste considère alors que l'expert est trop « mauvais » pour que son opinion soit utilisée dans le modèle.

A l'inverse du modèle de Cooke, le modèle de Mendel-Sheridan va utiliser l'in­formation disponible pour modifier la distribution donnée par l'expert pour la variable d'intérêt. La valeur qui était initialement un 10 e quantile est modifiée en un 86 e quantile par le modèle. Cela permet de traduire assez fidèlement le fait que l'expert a tendance à systématiquement surestimer les quantiles. Cet exemple fait également ressortir que le modèle de Mendel-Sheridan ne possède pas, comme le modèle de Cooke, un critère d'évaluation absolu, c'est-à-dire un niveau de qualité minimale que doivent atteindre les experts pour que leur opinion soit prise en compte par le modèle.

6.3 Modèle de fréquence

Dans cet exemple, on considère quatre experts dont la « qualité » sera déterminée de manière aléatoire. Ils devront donner les 0 e , 5 e , 50 e , 95 e et 100 e quantiles de 10 variables de calibration et d'une variable d'intérêt. A la différence des premiers exemples de ce chapitre, les distributions données par les experts sont ici construites à partir de données réelles. Le but est donc d'examiner la façon dont se comporte le modèle dans une situation pratique. On cherche ici à déterminer la distribution de la variable aléatoire représentant le nombre d'accidents de la route causant des dommages matériels au Québec au cours d'une année. La description des différentes variables de calibration est présentée dans l'annexe D.

Les distributions données par chacun des experts sont construites à partir de données extraites d'un rapport de la Société de l'assurance automobile du Québec (Tardif, 2007) et d'un paramètre de qualité déterminé de manière aléatoire. Ce paramètre de qualité est une mesure du biais de l'expert par rapport à la distribution extraite de ce rapport.

Pour l'expert i = 1 ,2 ,3 ,4 , le paramètre de qualité ^ est une réalisation de la variable aléatoire

# - Uni forme( -0 ,20 ,0 .20) .

La valeur de ce paramètre pour un expert sera la même pour toutes les variables de calibration et d'intérêt. On a alors que pour X j , l'échantillon extrait des données uti­lisées pour la variable de calibration j = 1 10. les quantiles de l'expert i sont les quantiles de l'ogive de l'échantillon modifié

Les 0 e et 100 e quantiles sont déterminés par l'analyste et sont identiques pour tous les experts. On peut trouver les valeurs choisies dans l'annexe D. Les vraies valeurs des variables de calibration sont les résultats de tirs aléatoires parmi les valeurs présentées dans le rapport.

Par exemple, si l'on suppose que = 0,02 et que ip2 = —0,10, alors la distribution de l'expert 1 pour chacune des variables sera l'ogive obtenue en augmentant de 2 % les valeurs de l'échantillon initial et celle de l'expert 2 sera l'ogive obtenue en diminuant de 10 % les valeurs de l'échantillon. Si, pour la première variable de calibration les données dans le rapport de la S A A Q sont { 2 , 4, 5, 6 , 9 , 1 0 , 1 2 } , la médiane de l'expert 1 sera

En supposant que l'analyste fixe les 0 e et 100 e quantiles comme étant 0 et 20, l'ogive de l'expert 1 est alors présentée en ligne pointillée à la figure 6.1 et celle de l'expert 2 en ligne brisée. Cette façon de procéder permet d'assurer une certaine régularité dans le niveau de qualité des experts pour les différentes variables de calibration et la variable d'intérêt.

Avec le modèle classique de Cooke, en posant a = 0, on obtient la distribution

X 0 - = (1 + il>i)Xj.

X l = ( l + 0 , 0 2 ) ( 6 ) = 6 , 1 2 ,

alors que celle de l'expert 2 sera

x2 = (1 - 0 , 1 0 ) ( 6 ) = 5,4.

0,

0,05,

P r ( X n <y) = |o,50,

0,95,

y < 103 519

103 519 < y < 136 397

136 697 < y < 162 955

162 955 < y < 200 000

y > 200 000

(6.9)

X

FlG. 6.1 - Ogives des deux experts (trait brisé et trait pointillé) et ogive des données initiales (trait plein)

alors qu'avec le modèle de Mendel-Sheridan, on obtient

0, x < 82 901

0,00003, 82 901 < x < 100 893

0,00031, 100 893 < x < 104 262

0,00279, 104 262 < x < 105 144

0,02428, 105 144 < x < 109 471

0,16770, 109 471 < x < 130 500

0,88479, 130 500 < x < 133 229

0,90628, 133 229 < x < 137 678

0,92777, 137 678 < x < 138 842

0,94926, 138 842 < x < 158 821

0,99224, 158 821 < x < 164 125

0,99969, 164 125 < x < 165 513

0,99997. 165 513 < x < 200 000

1, x > 200 000.

Pr(Xu < x\S = s ,xn) = i (6.10)

Le tableau 6.3 présente les différentes composantes permettant le calcul de la distribu­tion agrégée pour le modèle de Cooke. Dans l 'exemple étudié, les paramètres x/J étaient

= 0,044, vb2 = 0,002, ^ 3 = - 0 , 1 7 7 et ^ 4 = 0,036, c'est-à-dire que l'expert 2 donnait essentiellement la distribution empirique des données originales, alors que l'expert 3 s'en éloignait beaucoup. Il est à noter que les vraies valeurs des variables de calibration

Composantes

Expert C(e) K(e) < 1 0.598 0,881 0.527 0.280 2 0,598 0.917 0,549 0.292 3 0.004 1,116 0,005 0.003 4 0,900 0.888 0,800 0.425

T A B . 6.3 - Composantes des experts pour le modèle de Cooke sans optimisation du a

Composantes

Expert C ( c ) K(e)

1 0,598 0,881 0 0 2 0,598 0,917 0 0 3 0,004 1.116 0 0 4 0,900 0.888 0,800 1

T A B . 6.4 - Composantes des experts pour le modèle de Cooke avec optimisation du a

ont été déterminées de façon aléatoire. Ainsi, un expert avec une valeur du paramètre ip près de 0 ne sera pas automatiquement le meilleur.

En optimisant la valeur du a, on obtient la distribution agrégée

Pr(Xn < y)

o, y < 104 262

0,05, 104 262 < y < 137 678

< 0,50, 137 678 < y < 164 125

0,95, 164 125 < y < 200 000

1, y > 200 000.

(6.11

Le tableau 6.4 présente les différentes composantes permettant le calcul de la distribu­tion agrégée. Les valeurs des composantes de calibration et d'entropie sont les mêmes que celles du tableau 6.3. On remarque ici que c'est en conservant uniquement le meilleur expert qu'on maximise le poids accordé à l'analyste (l 'expert virtuel).

Les figures 6.2, 6.3 et 6.4 présentent, dans l'ordre, les histogrammes obtenus pour le modèle de Cooke sans optimisation, le modèle de Cooke avec optimisation et le modèle de Mendel-Sheridan. On observe qu'avec ou sans optimisation, le modèle de Cooke conduit à deux distributions très semblables, alors que le modèle de Mendel-Sheridan produit une distribution agrégée totalement différente. Cette différence est bien visible à la figure 6.5 qui présente l'ogive des distributions obtenues à l'aide des modèles de

8 0 0 0 0 I I I I I

1 2 0 0 0 0 1 6 0 0 0 0 2 0 0 0 0 0

FlG. 6.2 - Histogramme de la distribution agrégée obtenue à l'aide du modèle de Cooke sans optimisation

Mendel-Sheridan et de Cooke (avec optimisation). La figure 6.6 présente l 'histogramme de la distribution agrégée obtenue à l'aide du modèle de Mendel-Sheridan en retirant l'expert 3 qui, selon le modèle de Cooke, est très mauvais. On remarque alors que les deux distributions de Mendel-Sheridan sont différentes. Ainsi, le modèle de Mendel -Sheridan permet d'estomper une bonne partie de l'influence de cet expert, mais sans le retirer du modèle. En fait, sa distribution finale est corrigée à la lumière de la calibration réalisée à l'aide des variables précédentes.

Dans un contexte actuariel où les données historiques ne sont pas disponibles, l'avis d'expert permet d'obtenir une distribution qui joue alors le rôle habituel joué par la dis­tribution empirique. L'approche actuarielle classique consiste à ajuster une distribution théorique à la distribution empirique. Par analogie, l'idée serait ici d'ajuster maintenant une loi théorique sur la distribution agrégée des experts. La distribution obtenue du mo­dèle de Mendel-Sheridan étant généralement plus détaillée que celle obtenue du modèle de Cooke, l 'ajustement d'une loi théorique devrait de préférence se baser sur le premier modèle. On note également que, si on ajuste une loi théorique, il n'est plus nécessaire que l'analyste fixe la valeur maximale de la variable aléatoire d'intérêt lorsqu'elle n'est pas bornée.

Pour réaliser cet ajustement, on doit trouver la valeur de A G M telle que

d(F*(t;A)yF(t))

soit minimisée. La fonction d est une fonction de distance quelconque. F est l'ogive et F* est une famille de loi uni variée paramétrée par un vecteur A .

L O O

I E U

C O

I I I I 1 1 1

80000 120000 160000 200000

FlG. 6.3 - Histogramme de la distribution agrégée obtenue à l'aide du modèle de Cooke avec optimisation

m o i -, 0 0

un S ? eu

I 1 1 1 1 1 1

80000 120000 160000 200000

FlG. 6.4 - Histogramme de la distribution agrégée obtenue à l'aide du modèle de Mendel-Sheridan

O

80000 120000 160000 200000

x

FlG. 6.5 - Ogive des distributions agrégées obtenues à l'aide du modèle de Mendel -Sheridan (trait plein) et du modèle de Cooke avec optimisation (trait brisé)

m o Q)

00

^ - V un x o

I 1 1 1 1 1 1

80000 120000 160000 200000

x

FlG. 6.6 - Histogramme de la distribution agrégée obtenue à l'aide du modèle de Mendel-Sheridan sans l'expert 3

Paramètre

Modèle a A Distance Espérance

Gooke 8,66 143 831 0.0002 135 966 Mendel-Sheridan 15,75 125 228 0.0153 121 110

T A B . 6.5 - Valeurs des paramètres de la Weibull

80000 120000 160000 200000 80000 120000 160000 200000

X X

(a) Modèle de Cooke (b) Modèle de Mendel-Sheridan

FlG. 6.7 Comparaison de l'histogramme de la distribution agrégée et de la distribution Weibull

Pour cet exemple, on va utiliser la méthode de Cramer-von-Mises (Klugman et al,

2004), c'est-à-dire poser

d(F*(t;A),F(t)) = (F*(t;A) - F(t))2, teT

où T est l'ensemble des nœuds de l'ogive. On va utiliser la famille Weibull avec densité

/ ( i ; a , A ) = ^(£f"e-<^, * > 0 ,

qui est une distribution souvent utilisée en actuariat.

Les valeurs des paramètres trouvées numériquement sont présentées au tableau 6.5. La figure 6.7 présente une comparaison entre l 'histogramme et la distribution estimée. Enfin, les deux fonctions de répartition sont comparées à la figure 6.8. On remarque que le modèle de Cooke conduit à une distribution ayant une queue beaucoup plus lourde que celle créée à partir du modèle de Mendel-Sheridan.

FlG. 6.8 - Comparaison des fonctions de répartition de la loi ajustée de Weibull trouvées à l'aide du modèle de Cooke (trait plein) et du modèle de Mendel-Sheridan (trait brisé)

6.4 Conclusions

Les trois exemples de ce chapitre permettent de mettre en lumière certaines des propriétés inhérentes des modèles. Le modèle classique de Cooke, par la présence du paramètre a, permet à l'analyste un contrôle direct sur le seuil minimum acceptable de la performance d'un expert lors de la calibration. Cependant, si la performance de tous les experts est inférieure à ce seuil, le modèle n'offre aucune solution. De plus, le modèle ne vient pas corriger les distributions données par les experts pour la variable d'intérêt à la lumière des résultats de calibration, mais vient simplement les combiner. Enfin, la simplicité de la structure du modèle permet à l'analyste d'analyser facilement les résultats obtenus.

Le modèle bayesien de Mendel-Sheridan permet toujours l 'obtention d'une distri­bution agrégée et ce, même si tous les experts offrent de piètres performances lors de la calibration. Cependant, la distribution agrégée est alors révisée de façon à corriger partiellement la mauvaise « qualité » des experts. Qui plus est, il y a parfois perte d'in­formation dans le processus.de calibration comme le premier exemple de ce chapitre a permis de le constater. Cependant, en utilisant un grand nombre de variables de ca­libration et en portant une attention particulière à l'étendue intrinsèque de chacune d'elles, il est alors aisé d'éviter un tel problème. Enfin, la distribution agrégée obtenue à l'aide de ce modèle est généralement plus détaillée que celle produite par le modèle de Cooke.

Chapitre 7

Mise en œuvre informatique

Le présent chapitre a pour objectif de présenter le package expert (Goulet et a/., 2008) permettant l'utilisation informatique des modèles présentés dans ce document. Il est disponible sur le site Comprehensive R Archive Network ( C R A N ; h t t p : / / c r a n , r - p r o j e c t . org). On rappelle d 'abord rapidement le contexte, pour ensuite présenter et exemplifier l'utilisation des fonctions et méthodes contenues dans ce package.

7.1 Introduction

Le package e x p e r t a été créé pour permettre la combinaison mathématique des avis donnés par différentes personnes. Chacune de celles-ci donnant son opinion sous la forme de quelques quantiles, il faut combiner les différents avis en une seule distribution agrégée en accordant plus d'importance aux « meilleurs » experts. Cette évaluation de la qualité des experts est réalisée à l'aide de variables de calibration. Il est possible de réaliser cette agrégation selon trois méthodes : 1) le modèle classique de Cooke ; 2) le modèle bayesien de Mendel-Sheridan ; et 3) le modèle à poids déterminés. Les détails des deux premiers modèles ont été donnés dans les chapitres précédents et ne seront pas répétés ici. Le dernier modèle est simplement une combinaison linéaire des quantiles des experts à l'aide de poids arbitraires : si X\e,..., xme sont les m quantiles donnés par l'expert e, e = 1 , . . . , n, pour la variable d'intérêt et w\,..., wk sont des poids, alors le je quantile de la distribution d'intérêt est donné par

n Xj ^ ^ WjXji.

Il est à noter qu'aucune calibration n'est alors réalisée.

Expert

Quantile

Expert 1 0 E 5 0 E 9 0 E

1 0 , 1 4 0 , 2 2 0 , 2 8

2 0 . 2 0 0 , 3 0 0 . 4 0

3 0 . 2 0 0 , 4 0 0 . 5 2

T A B . 7.1 - Distributions des experts pour la variable de calibration 1

Expert

Quantile

Expert 1 0 E 5 0 E 9 0 E

1 1 3 0 0 0 0 1 5 0 0 0 0 2 0 0 0 0 0

2 1 6 5 0 0 0 2 0 5 0 0 0 2 5 0 0 0 0

3 2 0 0 0 0 0 4 0 0 0 0 0 5 0 0 0 0 0

T A B . 7 .2 - Distributions des experts pour la variable de calibration 2

La fonction principale de ce package est la fonction expert qui permet la construc­tion de la distribution agrégée à partir des avis des experts et des vraies valeurs des variables de calibration. Il s'agit d'une interface unifiée permettant l'utilisation d'un des trois modèles mentionnés. Les détails de son utilisation sont présentés à la section 7 . 2 . Le package contient également quelques fonctions et méthodes facilitant l'analyse et la présentation des résultats. Ces dernières sont illustrées à partir d'un exemple à la section 7 .3 .

7.2 Fonction principale

La construction de la distribution agrégée est réalisée à l'aide de la fonction expert. Les tableaux 7 . 1 , 7 .2 et 7 .3 rappellent les réponses des trois experts pour l 'exemple du chapitre 2 qui sera utilisé comme exemple pour la suite. La fonction nécessite jusqu'à six arguments qui sont présentés ci-dessous.

1. L'argument x contient, sous forme de liste, les réponses des experts aux questions portant sur les variables de calibration et sur la variable d'intérêt. La liste est composée d'une liste pour chacun des experts contenant les données pour les va­riables de calibration d'abord et pour la variable d'intérêt ensuite. Pour l'exemple du chapitre 2 , on aurait

> x <- listŒl <- listCAl <- c(0.14, 0.22, 0.28),

Expert

Quantile

Expert 10 e 50 e 90 e

1 350 000 400 000 525 000 2 550 000 600 000 650 000 3 625 000 700 000 800 000

T A B . 7.3 - Distribution des experts pour la variable d'intérêt Y

+ A2 <- c(130000, 150000, 200000), + X <- c(350000, 400000, 525000)), + E2 <- list(Al <- c(0.2, 0.3, 0.4), + A2 <- c(165000, 205000, 250000), + X <- c(550000, 600000, 650000)), + E3 <- list(Al <- c(0.2, 0.4, 0.52), + A2 <- c(200000, 400000, 500000), + X <- c (625000, 700000, 800000)))

2. L'argument method détermine le modèle utilisé pour réaliser l'agrégation et doit obligatoirement prendre une des trois valeurs suivantes : "cooke" pour le modèle classique de Cooke, "ms" pour le modèle de Mendel-Sheridan ou "weights" pour le modèle à poids déterminés.

3. L'argument probs est un vecteur contenant les pourcentages liés aux quantiles demandés aux experts. Pour l 'exemple considéré, cet argument est

> probs <- c(0.1, 0.5, 0.9)

4. L'argument t rue . seed est un vecteur contenant les vraies valeurs des variables de calibration dans le même ordre que ces dernières ont été inscrites dans l'argument x. Pour l 'exemple, on a

> true .seed <- c(0.27, 210000)

5. L'argument alpha est utilisé uniquement pour le modèle de Cooke et sera ignoré si un autre modèle est spécifié. Il s'agit de la valeur du paramètre a du modèle. Ce dernier représente la valeur minimale de la composante de calibration en dessous de laquelle un expert recevra automatiquement un poids de 0. Si l'argument est manquant ou NULL, la valeur du paramètre a sera déterminée à l'aide d'une pro­cédure d'optimisation. Pour réaliser cette dernière, on découpe l'intervalle [0,1] en intervalles égaux et on évalue la fonction aux bornes de ces intervalles. On conserve ensuite la valeur du paramètre a qui, parmi les valeurs essayées, donne le poids mximal.

6. L'argument w est un vecteur contenant les poids qui seront accordés aux experts dans la distribution agrégée. Si l'argument est NULL ou manquant, un poids de

l/k sera accordé à chacun des k experts. Cet argument est utilisé uniquement dans le cadre du modèle à poids déterminés et sera ignoré si un autre modèle est utilisé.

La fonction retourne une liste contenant les bornes des intervalles, les masses de proba­bilité associées à ceux-ci ainsi qu certaines caractéristiques du modèle sous la forme d'un objet de classe "expert". Une méthode de pr int a été créée pour afficher les résultats de manière conviviale.

On va maintenant illustrer l'utilisation du modèle de Cooke à l'aide de l'exemple du chapitre 2 en supposant une valeur de 0,03 pour le paramètre a :

> expert (x , "cooice", probs, true. seed, alpha = 0.03)

Aggregate Distr ibut ion Using Cooke Model

Interval Probabi l i ty (305000, 512931] 0.1 (512931, 563423] 0.4 (563423, 628864] 0.4 (628864, 845000] 0.1

Alpha: 0.03

En ne spécifiant pas de valeur pour le paramètre a, la valeur de ce dernier est obtenue par optimisation et la distribution résultante est différente :

> expert (x , "cooke", probs, true. seed)

Aggregate Distr ibut ion Using Cooke Model

Interval Probabi l i ty (305000, 550000] 0.1 (550000, 600000] 0.4 (600000, 650000] 0.4 (650000, 845000] 0.1

Alpha: 0.3447807

On peut également utiliser le modèle de Mendel-Sheridan pour obtenir la distribution agrégée qui sera stockée dans l 'objet f i t , ceci afin de servir de point de départ aux exemples présentés à la section suivante :

> f i t <- expert(x, "ms", probs, true.seed) > fit

Aggregate Distr ibut ion Using Mendel-Sheridan Model

Interval Probabi l i ty (305000, 350000] 0.01726313 (350000, 400000] 0.06864151 (400000, 525000] 0.06864151 (525000, 550000] 0.01726313 (550000, 600000] 0.06864151 (600000, 625000] 0.06864151 (625000, 650000] 0.53636155 (650000, 700000] 0.06864151 (700000, 800000] 0.06864151 (800000, 845000] 0.01726313

7.3 Autres fonctions et méthodes

En plus de la fonction expert, le package contient quelques fonctions et méthodes permettant une utilisation plus conviviale de la distribution agrégée. Le code de plu­sieurs de celles-ci est inspiré de celui présent dans le package a c t u a r (Dutang et al. 2008).

Tout d'abord, la méthode de summary permet d'obtenir des informations supplémen­taires telles que le nombre d'experts et le nombre de variables de calibration utilisés pour construire le modèle :

> summary(fit)

C a l l : expert(x = x, method = "ms", probs = probs, true .seed = true .seed)

Aggregate Distr ibut ion Using Mendel-Sheridan Model

Interval Probabi l i ty (305000, 350000] 0.01726313 (350000, 400000] 0.06864151 (400000, 525000] 0.06864151 (525000, 550000] 0.01726313 (550000, 600000] 0.06864151 (600000, 625000] 0.06864151 (625000, 650000] 0.53636155 (650000, 700000] 0.06864151 (700000, 800000] 0.06864151 (800000, 845000] 0.01726313

Number of experts : 3, Number of seed var iab les : 2 Quantiles: 0, 0 . 1 , 0 .5 , 0 .9 , 1

La méthode de mean permet un calcul aisé de l'espérance de la distribution agrégée. À partir de l 'objet f i t créé à la section précédente, on obtient comme moyenne

> mean(fit)

[1] 607875.2

Il est possible d'obtenir les quantiles de la distribution agrégée à l'aide de la méthode de quantile. A partir de l 'objet f i t , on obtient

> q u a n t i l e ( f i t )

0°/o 25°/o 50% 75°/0 100°/0

305000 600000 625000 625000 800000

Il est également possible de spécifier à la fonction la probabilité liée au quantile désiré :

> q u a n t i l e ( f i t , 0.4)

407c 625000

La fonction cdf permet d'obtenir la fonction de répartition en escalier de la distribution agrégée. Son fonctionnement est en tout point similaire à la fonction ecdf de R. Ainsi, à la suite de la commande

> FUN1 <- cdf(fit)

l 'objet FUN1 est une fonction permettant d'évaluer la fonction de répartition en n'im­porte quel point. La fonction knots extrait de cet objet les « nœuds » de la fonction de répartition, c'est-à-dire les positions des sauts en abscisse :

> knots(FUN1)

[1] 305000 350000 400000 525000 550000 600000 625000 650000 700000 [10] 800000 845000

On peut donc, par exemple, évaluer la fonction de répartition en ces points avec

> FUN 1 (knots (FUN1))

[1] 0.00000000 0.01726313 0.08590464 0.15454615 0.17180928 0.24045079 [7] 0.30909230 0.84545385 0.91409536 0.98273687 1.00000000

Une méthode de p lo t permet d'obtenir le graphique présenté à la figure 7.1 :

> plot(cdf(fit))

Il est également possible d'utiliser la fonction ogive pour lisser cette fonction en escalier par interpolation linéaire. Le comportement de cette fonction est identique à celui de la fonction cdf. Par exemple, on a :

FlG. 7.1 - Fonction de répartition en escalier de la distribution agrégée

> FUN2 <- ogive(fit) > FUN2 (knots (FUN2))

[1] 0.00000000 0.01726313 0.08590464 0.15454615 0.17180928 0.24045079 [7] 0.30909230 0.84545385 0.91409536 0.98273687 1.00000000

> plot(FUN2)

Le graphique de l'ogive obtenu avec la dernière commande se trouve à la figure 7.2.

La méthode de h i s t permet de tracer le graphique de la dérivée de l'ogive, c'est-à-dire l 'histogramme. Les arguments de cette méthode sont les mêmes que ceux utilisés dans la distribution de base du logiciel R. La figure 7.3 présente le graphique obtenu à l'aide de cette méthode :

> hist(fit)

ogive(fit)

3e+05 5e+05 7e+05

x

FlG. 7.2 - Ogive de la distribution agrégée

Histogram of fit

s ? 5= CD O

3e+05 5e+05 — I 7e+05

FlG. 7.3 - Histogramme obtenu à l'aide de la méthode de h i s t

Conclusion

En l'absence partielle ou totale de données permettant une modélisation tradition­nelle des sinistres, l'actuaire peut consulter différents experts du domaine et combiner leur avis à l'aide des modèles présentés aux chapitres 2 et 5 de ce document. Pour ce faire, les experts proposent des distributions pour la variable d'intérêt et pour plusieurs variables de calibration sous la forme de quelques quantiles préétablis. Les deux mo­dèles permettent l 'obtention d'une distribution agrégée sous la forme d'une fonction de répartition en escalier.

Le modèle de Cooke définit la distribution agrégée comme étant une combinaison linéaire des distributions données par les experts pour la variable d'intérêt. Ce choix est justifié au chapitre 4 du document. Les poids accordés aux participants résultent d'un processus de calibration composé de deux éléments, l'un mesurant la qualité et l'autre, la quantité d'information contenue dans les distributions données par les experts consultés. Comme il a été possible de le voir au chapitre 3, le modèle est construit de sorte à décourager les experts de tenter de biaiser la procédure.

Le modèle de Mendel-Sheridan utilise une approche bayesienne pour construire la distribution agrégée. L'analyste possède une opinion a priori très peu informative de la distribution de la variable d'intérêt et utilise la règle de Bayes pour obtenir une distribution a posteriori intégrant l'information contenue dans les résultats des experts aux questions de calibration.

Le chapitre 6 a permis, par la présentation de trois exemples, d'illustrer les princi­paux avantages et inconvénients de ces modèles. Le modèle de Cooke modifie la valeur des quantiles tout en préservant les masses de probabilité entre ceux-ci. A l'inverse, le modèle de Mendel-Sheridan permet de conserver les valeurs données par les experts pour les quantiles et vient ajuster les probabilités interquantiles. La distribution finale est donc généralement plus détaillée lorsque construite avec le modèle de Mendel-Sheridan.

Dans certaines situations extrêmes, par exemple en présence de très mauvais experts,

le modèle de Cooke conclut qu'aucun modèle n'est convenable et. en conséquence, ne propose pas de distribution. Le modèle de Mendel-Sheridan tente quant à lui de corriger la distribution a priori et de proposer une distribution finale.

Il existe certaines situations pour lesquelles les deux modèles sont inopérants. Par construction, le modèle de Cooke n'est d'aucune utilité en présence d'un seul expert (voir le second exemple du chapitre 6) . Heureusement, une telle situation est facilement identifiable et, surtout, évitable par l'analyste. Le modèle de Mendel-Sheridan conduit généralement à une perte d'information plus ou moins importante selon la situation et le nombre de variables de calibration utilisées. Le premier exemple du chapitre 6 présente une situation où la perte d'information est telle que le modèle ne parvient pas à détecter un changement majeur dans la qualité d'un expert. Bien qu'extrême, une telle situation peut survenir et il est alors difficile pour l'analyste d'identifier le problème. Tel que mentionné au chapitre 6, nous jugeons qu'il est préférable d'utiliser le modèle de Mendel-Sheridan dans un contexte actuariel puisque la distribution agrégée y est plus détaillée.

Les calculs pour les deux modèles sont relativement lourds. Afin de faciliter leur utilisation, nous avons développé le package expert pour l'environnement statistique R. Son utilisation est expliquée et exemplifiée au chapitre 7. Le package est un logiciel libre distribué via le site de Comprehensive R Archive Network sous contrat G X U General Public License ( h t t p : / / w w w . f s f . o r g / l i c e n s i n g / l i c e n s e s / g p l . h t m l ) .

Dans le but d'améliorer ces modèles, il pourrait être intéressant de tenter d'inclure dans la modélisation les différents degrés de dépendance entre chacune des variables de calibration et la variable d'intérêt. On pourrait également tenter d'utiliser véritablement l'opinion a priori de l'analyste dans le modèle de Mendel-Sheridan au lieu de forcer celle-ci à être minimalement informative.

Bibliographie

C O O K E , R. (1991). Experts in Uncertainty. Oxford University Press, New York.

C O O K E . R. et G O O S S E N S . L. (2008). TU Delft expert judgment data base. Reliability Engineering and System Safety, 93(5):657-674.

D U T A N G , C . G O U L E T , V. et P I G E O N , M. (2008). a c t u a r : An R package for actuarial science. Journal of Statistical Software.

G A R T H W A I T E , P., K A D A N E . J . et O ' H A G A N , A. (2005). Statistical methods for eliciting probability distributions. Journal of the American Statistical Association, 100:680-700.

G E N E S T , C. (1984). Pooling operators with the marginalization property. The Canadian Journal of Statistics, 12(2):153—163.

G E N E S T , C , M C C O N W A Y , K. et S C H E R V I S H , M. (1986). Characterization of externally

bayesian pooling operators. The Annals of Statistics, 14(2):487-501.

G E N E S T , C. et Z I D E K , J . (1986). Combining probability distributions : A critique and an annotated bibliography. Statistical Science, 1(1): 114-135.

G O U L E T , V., J A C Q U E S , M. et P I G E O N , M. (2008). expert : Modeling of Data Using Expert Opinion. R package version 0.1-2.

K L U G M A N , S., P A N J E R , H . et W I L L M O T , G . (2004). Loss Models, From Data to Déci­sions, Second Edition. Wiley.

K U L L B A C K , S. (1997). Information Theory and Statistics. Dover Publications.

L A D D A G A , R. (1977). Lehrer and the consensus proposai. Synthèse, 36.

L E H M N A N N , E. et R O M A N O , J . (2005). Testmg Statistical Hypothèses. Springer.

M A D A N S K Y , A. (1964). Externally bayesian groups. Rapport technique RM-4141-PR, R A N D Corporation.

M C C O N W A Y . K. (1981). Marginalization and linear opinion pools. Journal of the American Statistical Association, 76(374) :410-414.

M E N D E L , M. et S H E R I D A N , T. (1989). Filtering information from human experts. IEEE Transactions on Systems, M an and Cybernetics, 36(1) :6-16.

O ' H A G A N , A., B U C K , C , D A N E S H K H A H , A., E I S E R , J.. G A R T H W A I T E , P.. J E N K I N S O N ,

D . , O A K L E Y . J. et R A K O W , T. (2006). [Incertain Judgements. Statistics in Practice. John Wiley & Sons Inc. USA.

T A R D I F , F. (2007). Les infractions et les sanctions reliées à la conduite d'un véhicule routier (1997-2006). Rapport technique. Société de l'assurance automobile du Québec.

T H E I L . H. (1971). Principles of econometrics. Wiley, New York.

W A G N E R , C . (1984). Aggregating subjective probabilities : Somme limitative theorems. Notre Dame Journal of Formai Logic, 25(3):233-240.

Annexe A

Information relative

On trouvera dans cette annexe les définitions et propriétés de l'information rela­tive utilisées dans le présent document. Un lecteur intéressé pourra consulter Kullback (1997).

A. l Définitions

On a deux fonctions de densité continues, f\ et f2. On définit Vinformation relative de fi par rapport à f2 (ou information de Kullback-Leibler de f\ par rapport à f2) par

ou encore

Si les deux densités sont discrètes, on a alors

On définit Y entropie (ou information négative) d'une distribution / par

si la distribution est continue et

H(f) = -Y,f(xi)Hf(xl))

si la distribution est discrète. Il s'agit d'une mesure de l'absence d'information conte­nue dans une distribution : une haute valeur d'entropie indique une distribution peu informative.

Il est facile de vérifier dans le cas discret que

# ( / ) = l n ( n ) - / ( / , « ) ,

où u est une distribution Uniforme discrète sur le support 1, 2 , . . . . n.

A.2 Propriétés

T h é o r è m e A . l . Soient f\ et f2 deux densités et I{f\. f2) Vinformation relative de f\ par rapport à f2. On a alors

/ ( / i , / 2 ) > 0 ,

avec égalité si, et seulement si fi(x) = f2(x).

Démonstration. La démonstration est faite dans Kullback (1997). •

A partir de la définition même de l'information relative, il est aisé de voir qu'il ne s'agit pas d'une mesure symétrique, c'est-à-dire que

/ ( / i , / a ) ? É / ( / a , / i ) .

E x e m p l e A . l . Soient X\ et X2l des variables aléatoires continues avec distributions / i et f2 telles que

X\ rsj Exponentielle (À x)

X2 ~ Exponentielle(À 2 ) .

On a alors

dx 0 V

/ A i e - ^ L ^ + ( A 2 - A 1 ) x j 0

ln j X i e - X ' x dx + (A 2 - Ai) Jx\ie-XlX dx ^ 2 ' 0 0

= ln + A 2 Ê [ X 1 ] + A 1 E [ X 1 ]

- ( i n -

De manière analogue, on obtient

et donc

/ ( / i , / 2 ) y / ( / 2 , / i ) .

• T h é o r è m e A . 2 . s = ( s i , . . . , s n ) , la distribution générée par N échantillons indé­pendants d'une distribution avec support discret p = (pi, » . . ,p n ) te/te <7we SILiPi = 1-On a alors

P t ( 2 ^ ( / ( s , p ) ) < x ) - x S - i ( * )

lorsque N ^ oc et avec Xn-i ^a fonction de répartition d'une distribution Khi-carrée avec n — 1 degrés de liberté.

Démonstration. On pose = Si — pi, c'est-à-dire la différence entre la distribution empirique et la distribution théorique. On a alors

$i 1 A r V ^ / \ i f Xi ~\- Pi 2N JT s, ln p J = 2 J V f > ; + p,) ln ( i=i \Pt/ i=i V A -

n 2 J V V > î + p I ) l n ( ? + 1

1=1

qui devient, en utilisant le développement en série de la fonction logarithme.

- m - m M y m M h )

^ - ( m y m ^ h )

étant donné que xt —> 0 lorsque S\ —> pi quand k —* oc .

En conservant uniquement le terme dominant, on obtient

i=l \ P i / i=l Pt

&ï Pi

1=1

On obtient ainsi une statistique souvent utilisée, pour des tests d'adéquation de modèle par exemple, et possédant une distribution \ 2 avec n — 1 degrés de liberté. Un lecteur intéressé pourra consulter Lehmnann et Romano (2005). •

Annexe B

Théorème d'Egoroff

Le théorème d'Egoroff est nommé en hommage à Dimitri Fyodorovich Egoroff (1869-1931), un mathématicien russe. Il permet d'établir une condition de convergence uni­forme dans certains espaces mesurables.

T h é o r è m e B . l . Soient fi(X) < oc une mesure et P, un espace métrique séparable. Soit

une suite de fonctions mesurables telles que fn —> / presque partout. Pour tout d > 0. il existe un sous-espace mesurable E C X tel que /j,(X\E) < d et tel que fn—*f uniformément sur E.

Démonstration. Soient

et n

E = f | S(nk, k),

rik étant choisi tel que

| /x(5(n f c, h)) - ii{X) | < 4

On doit démontrer que

la mesure ji{X\E) est plus petite que d ; et

- il y a convergence uniforme de {fn} vers / sur l'ensemble E.

1. Etant donné que 5 ( n , /c) est une intersection dénombrable d'ensembles mesurables, il est lui-même mesurable. Il est simple de voir que { 5 ( n , k)} est une suite crois­sante pour l'inclusion, c'est-à-dire que

S(n,k) C S ( n + l , fc ) .

On va maintenant démontrer que oc

X= |J S(n,k), V*. n = l

D'abord, il est clair que, S (n , k) étant constitué d'éléments de X. on a oo

U 5 ( / 7 . jfc) C X. n=l

De plus, pour /c fixé et pour Ï G I , on a que —* / ( x ) partout à un ensemble de mesure nulle près. Comme la suite est convergente, elle est de Cauchy et donc il existe N tel que

| / , ( * ) - / , ( * ) | < i Vi,j>N.

On a donc x G 5(TV, fc) pour tout k. Ainsi, oo

X c U S(n,fc), n = l

et donc oo

X = |J 5(n,fc) , Vfc. n=l

Il en découle donc que lim u(S(n,k)) -> / iPO-

n—>oc

Avec la définition donnée de E, on a que o o

X\E= \J(X\S(nk,k)). k = l

On a maintenant que

M(X\f î ) = / / ( X \ 5 ( n , , f c ) ) O O

< V > ( X \ S ( n f c , f c ) ) k=l oo

= Ai (S(n f c , * ) ) ) fe=l o o

< Ë I m W - M S ( « * . * ) )

Ainsi, fi(X\E) < d.

2. Il faut maintenant démontrer que sur E1. il y a convergence uniforme de { / n } vers / , c'est-à-dire que pour tout d > 0. il existe N tel que

\ fi(x) - fj(x) \ < d

pour tout i, j > N et pour tout x e E.

On choisit k tel que | < d. Si x G 5 ( n , k), alors par définition on a

| /j(a;) -fj{x) | < V î , j > n.

En particulier, pour x G S(nfc, /c). on a

| fi(x) - fj(x) | < d, Vi, j > nk.

Cependant, par définition, on a E C S(rik, k), et donc

| fi(x) - fj(x) | < d, \/iJ > nk

et pour tout x G E.

Annexe C

Théorème de Helly-Bray

T h é o r è m e C l . Soient F et Fn deux distributions telles que

lim Fn(x) = F(x) r w o o v ' '

à tous les points où F est continue. Soit g une fonction continue dont la valeur absolue est bornée est tout point. On a alors

lim n—>oo

o o o o

J g(x)dFn(x) = j g{x)dF{ x .

Démonstration. Soient a\ et a2 deux points où F est continue tels que ai < a2. Pour tout e > 0, on choisit m + 1 points tels que ai = Xq < X\ < ... < xm = a 2 , où F est continue et où

I 9{x) - g(xi) | < e,

pour Xi-i < x < Xi. On définit la fonction en escalier gm(x) telle que

9m(x) = g(xi)

pour Xi-i < x < Xi. On a alors que

| g(x) - gm(x) | < e,

pour x G (ai , a2]. On choisit n assez grand pour que

| Fn{xt) - F(Xi) | < 7/7.

On a alors 02 02 a2 0-2 0,2 Û 2 CL2 0,2

JgdFn-jgdF < j{g-gm)dFn + jg,„dF„- jgmdF + j(g-gm)dF «1 «1 (il ('I

(l2 0 2 9m dFn - J gmdF

«i

+ e\F(a2)-F(ai

2~29(xi)(Fn(xi) - F(xi)) ~Y,g(xi)(Fn{x,-i) ~ F(xt-!))

< e | F B ( o 2 ) - F B ( a i ) | +

Ce dernier terme peut être réécrit comme étant

e| Fn(a2) - Fn(ai) \ +

+ e | F ( o a ) - F ( o i ) | .

Comme la fonction g est bornée, on peut trouver une constante K telle que

I g{x) I < K,

et donc, pour n suffisamment grand, on a

( C l

X X s j X F . t e ) - F(Xi)) -Y,9(^)(M^i) - Fixt-t)) i=l 1=1

< 2EK.

On obtient ainsi que pour n assez grand et £ assez petit, l 'équation ( C l ) peut être aussi proche de 0 que souhaité.

De plus, on a

oo

J gdFn

0\ j gdF < j gdFn - j gdF

-) — O O

0 , 2 Û 2

J gdFn- J gdF + J gdFn- J gdF (12 a 2

Les points ai et a 2 peuvent avoir été choisis tels que F (ai) < e' et 1 — e' < F(a2) pour un e' > 0. La convergence de Fn vers F implique que Fn(a\) < 2e' et 1 — 2e' < Fn(a2) pour n assez grand. On peut donc borner le premier et le troisième terme de la dernière inégalité par 3e'K.

On obtient donc, que pour e' assez petit et n assez grand, cette inégalité peut être aussi proche de 0 que souhaité. •

Annexe D

Données

D.l Données pour l'exemple du mauvais expert

Les données pour le cas où les trois experts sont bons sont présentées dans le tableau D. l . Les quantiles demandés sont les 0 e , 10 e , 50 e , 90 e et 100 e centiles. Dans le tableau, la variable d'intérêt est la huitième et les 0 e et 100 e quantiles sont les mêmes pour les trois experts. Les vraies valeurs des variables de calibration sont 1 001, 1 010, 1 011. 1 020, 1 021, 1 030 et 1 031. Pour le cas où un des experts est mauvais, les données pour le premier expert sont présentées dans le tableau D.2, alors que celles pour les deux autres experts restent les mêmes.

D.2 Données pour l'exemple de l'expert au quantile extrême

Les données pour l 'exemple de l'expert au quantile extrême sont présentées dans le tableau D.3. Les quantiles demandés sont les 0 e , 10 e et 100 e centiles. La 11 e variable est la variable d'intérêt.

Variable

Expert Quantile 1 2 3 4 5 6 7 8

1 0 e 0 0 0 0 0 0 0 0 10 e 987 981 974 968 962 949 936 100 50 e 1 000 1 000 1 000 1 000 1 000 1 000 1 000 500 90 e 1 013 1 019 1 026 1 032 1 038 1 051 1 064 1 000 100 e 5 000 5 000 5 000 5 000 5 000 5 000 5 000 1 500

2 0 P 0 0 0 0 0 0 0 0 10 e 1 187 1 181 1 174 1 168 1 162 1 149 1 136 200 50 e 1 200 1 200 1 200 1 200 1 200 1 200 1 200 600 90 e 1 213 1 219 1 226 1 232 1 238 1 251 1 264 1 100 100 e 5 000 5 000 5 000 5 000 5 000 5 000 5 000 1 500

3 0 e 0 0 0 0 0 0 0 0 10 e 987 981 974 968 962 949 936 300 50 e 1 000 1 000 1 000 1 000 1 000 1 000 1 000 700 90 e 1 013 1 019 1 026 1 032 1 038 1 051 1 064 1 200 100 e 5 000 5 000 5 000 5 000 5 000 5 000 5 000 1 500

T A B . D. l - Données des trois experts pour l'exemple du mauvais expert

Variable

Quantile 1 2 3 4 5 6 7 8

0 e 0 0 0 0 0 0 0 0 10 e 3 987 3 981 3 974 3 968 3 962 3 949 3 936 100 50 e 4 000 4 000 4 000 4 000 4 000 4 000 4 000 500 90 e 4 013 4 019 4 026 4 032 4 038 4 051 4 064 1 000 100 e 5 000 5 000 5 000 5 000 5 000 5 000 5 000 1 500

T A B . D.2 - Données du mauvais expert

Quantile

Variable

Quantile 1 2 3 4 5 6 7 8 9 10 11

0 e 0 0 0 0 0 0 0 0 0 0 0 10 e 10 8 30 50 12 20 20 21 43 11 20

100 e 100 100 100 100 100 100 100 100 100 100 100

T A B . D.3 - Données pour l'exemple de l'expert au quantile extrême

D.3 Variables de calibration pour l'exemple du mo­dèle de fréquence

Les 10 variables de calibration utilisées pour cet exemple sont, pour le territoire du Québec et pour les deux dernières décennies :

1. nombre d'infractions au Code de la sécurité routière;

2. nombre d'omissions de se conformer à un feu rouge ;

3. nombre d'excès de vitesse (21 à 30 k m / h ) ;

4. nombre d'infractions au Code de la sécurité routière chez les personnes âgées de 20 à 24 ans ;

5. nombre de cas de conduite avec facultés affaiblies ;

6. nombre de cas de conduite dangereuse ;

7. nombre de suspensions immédiates de permis pour une raison liée à l 'alcool dans la région de Québec ;

8. nombre de titulaires de permis de conduire ayant au moins un point d'inaptitude ;

9. nombre de titulaires de permis de conduire âgés entre 20 et 24 ans ; et

10. nombre de cas de délit de fuite.

Le tableau D.4 présente, pour chacune des variables de calibration, la taille de l'échantillon, la vraie valeur choisie de manière aléatoire, et les valeurs des 0 e et 100 e quan­tiles déterminés par l'analyste. Le tableau D.5 présente les 5 e , 50 e et 95 e quantiles donnés par les experts pour les variables de calibration. La 11 e variable est la variable d'intérêt.

Quantile

Variable Taille Vraie valeur 0 E 1 0 0 E

1 1 0 8 2 2 8 5 8 4 5 0 0 0 0 1 0 0 0 0 0 0

2 1 0 3 8 9 6 7 2 5 0 0 0 5 5 0 0 0

3 1 0 3 1 2 4 1 9 1 6 0 0 0 0 5 0 0 0 0 0

4 1 0 9 5 5 8 3 6 5 0 0 0 1 5 5 0 0 0

5 1 0 2 6 1 2 8 0 0 3 5 0 0

6 1 0 3 5 4 2 0 0 6 0 0

7 1 0 1 2 4 5 0 2 0 0 0

8 5 8 8 8 4 6 8 7 0 0 0 0 0 1 5 5 0 0 0 0

9 1 0 3 3 9 7 9 8 2 0 0 0 0 0 5 0 0 0 0 0

1 0 1 0 1 9 5 1 0 0 5 0 0

1 1 1 0 — 7 0 0 0 0 2 0 0 0 0 0

T A B . D .4 - Information à propos des variables de calibration pour l 'exemple du modèle de fréquence

1— 1 T—1

CM X

00 • — 1 LO

O0 CD x

CD' CM CN

i—l CN X

CD CD

— 1

I ~ O CD LO

O l "O CN

X I -co

LO CM i—i

1 — 1 LO o 1 — 1

X 00 1 — !

i O CO • — 1

CD i—i

T0 OO 1 — 1

X LO 1—1

CM X CD CD —i

CD 00 i—i CD •—i

I -00 • — 1

^ CO i—i

o ! 1

CD r -—< (M

X CN

00 CD —i I -00 CM

CM t -CM

00 ! 1

LO CD —i

^ CN CM

X CO —' LO

CM

CN X O l

00 •—i 00

—' CO

— 00 LO

CM 00 LO

LO CD LO

CO •o CM

CD CM X

CD

X CD 00 CM

I -00 >o

CD CN LO CO

LO O 00

CN l > oo

X T0 00 CD LO o o

LO 00 X o CM

X X O l

00 CD' CM

CD

00 CM CO 00

CD CO 00

r>-o o X CO

o o

— 1 — CD '—1

LO T — 1 X

LO X CD

LO

— 1

— 1 CD X

X LO

CD 00 t >

1—1 1 — 1

00 o 00 CD

X — 1

i—i <—i

o CD

o o CD — i

CD —̂i •—i

CN o i >

O I LO X O

CD

D ] t > CD

—i I -CD

i—i •—i •—l

CN LO LO

CN X LO

02 CM >o

00 OO 00 LO

L O 00 00

LO •—i O "O D ) LO

CD LO X

>D

co LO co co

X LO

i—i CN o o

CD CD OO

CD CD CN

CD CM OO

CN

00 CN 00 o o

00 CD

>o >D

L O i—i X

CN OO 00 CD r -

>o 00

00 CN

CD X CO LO

1 \ — 1

to 00 X CN CD CN

CN o

x CD 00

CD l > l >

CM CM • — 1 CM CM i—1 i—i CN 1 — 1 Dl CM

oc o L O OO X

LO X — OO CN *-?

CD CD ^ CM

LO i—i LO

X O0 CD

o 00

r -r -t -

X X LO

C D 00 '—i

o 00 1 !

LO X

CD CD

LO CM —i

CD CM X 00 CD

X X 00 CD i—i

CD Dl i—i

00

CD 00 o

i—i CM 00

00 LO CM

CD

T — 1

«tf CD LO

OO o 1—1

CD X CD ! 1

X 1 — 1 CD 1 — 1

t > CD CD

CO CM LO 00 o

CN CN

>0 co CN

LO O ) 00

! 1 1 — 1 CN

^ LO CM

CN i—i 00 o o i—i

CD CD CN

CO LO CM

X T—1 D ]

OO 'CO CM

CN CN OO

CM

00 o

CD i — 1 OO

LO 1 — 1 CD

CO LO CO LO

CD T — 1 O

X I -

00 LO

i—i CD CD

LO T—1 l >

00 LO CD

CM CN LO

CD 00

O0 CD o o

i—l LO CD 00 00 CO OO X O0 CM CO

1 1 CN CO

CN X X

o CD CD

•o

CD

CD

o o LO 00

CD CD CN LO

t > X X CM LO

CM X CD

OO x

T — 1 CO T 1

ço

1 — 1 CD CD

LO LO X

i—i CD LO

00 co

—H CM X

co X

LO

LO CO T — 1 1 1 CO

X CO x X

Qua

ntile

eu LO

03 O LO

CL LO C D LO

o CD LO

L O CD LO

G O LO

LO CD

03 LO

o CD LO

o >D CD

Qua

ntile

+^

T — 1 CN o o

T A B . D .5 - Quantiles donnés par les experts pour l 'exemple du modèle de fréquence


Recommended