+ All Categories
Home > Documents > Recommandeurs et diversité Recommandeurs et diversité:Exploitation de la longue traîne et...

Recommandeurs et diversité Recommandeurs et diversité:Exploitation de la longue traîne et...

Date post: 04-Dec-2023
Category:
Upload: tudor
View: 0 times
Download: 0 times
Share this document with a friend
21
Chapitre 4 Recommandeurs et diversité : Exploitation de la longue traîne et diversité des listes de recommandations Muriel Foulonneau, Valentin Grouès, Yannick Naudet, Max Chevalier
Transcript

Chapitre 4

Recommandeurs et diversité : Exploitation de la longue traîne et diversité des

listes de recommandations

Muriel Foulonneau, Valentin Grouès, Yannick Naudet, Max Chevalier

2 Titre de l’ouvrage

De plus en plus, les services développés pour le Web sont personnalisés et adaptatifs, ainsi que l’illustrent une déclaration d’un responsable de Yahoo ! dès 2007 selon lequel « the future of the web is about personalization » (Catone, 2007) et celle du directeur d’eBay « trade tomorrow is personal and based on the data » en 2012 lors de l’intégration des réseaux sociaux dans le site d’enchères1. Les mécanismes d’adaptation et de filtrage ou sélection des ressources numériques ne sont pas toujours visibles pour l’utilisateur. Pourtant, ils envahissent nos environnements informationnels.

Derrière la personnalisation de l’expérience utilisateur, se trouvent des systèmes de recommandation qui sélectionnent des ressources ou des représentations particulières de ces ressources en fonction du profil d’un utilisateur ou de son contexte. En modifiant l’accès des utilisateurs aux ressources, les systèmes de recommandation représentent un gain économique potentiel très important via un accroissement des ventes (Konstan et al., 2012), estimé à 35% par Amazon il y a quelques années (Marshall, 2006). Cependant, les approches habituellement utilisées visent souvent la pertinence des ressources recommandées, c’est-à-dire la prédiction de l’intérêt que l’utilisateur leur aurait accordé. Les systèmes de recommandation sont donc souvent évalués en fonction de ce seul critère. Ils ignorent la variété des objectifs qui peuvent être poursuivis en mettant en place un système de recommandation.

Or, dans certains domaines, la satisfaction de l’utilisateur, l’achat ou la pertinence des recommandations ne sont pas les seuls éléments à prendre en considération. La diversité des ressources recommandées est de plus en plus mise en avant. L’exploitation de la longue traîne, composée des ressources les moins populaires peut être un facteur clef pour la réussite des entreprises qui doivent gérer des stocks par exemple. Dans le domaine scientifique, la qualité des recommandations devrait tenir compte de la diversité des perspectives représentées dans l’ensemble des ressources proposées, plutôt que de la seule pertinence de 10 articles proposant une approche similaire (Schwind et al., 2011).

La diversité est devenue une thématique de recherche dans le domaine de la recherche d’informations (Simperl et al., 2011, TREC diversity task), mais aussi dans celui des systèmes de recommandation avec la première édition d’un workshop dédié à cette question en 2011 aux Etats-Unis (DiveRs 20112). Elle recouvre à la fois la diversité des ressources recommandées ou consommées par l’ensemble des utilisateurs (diversité agrégée) et la diversité des ressources recommandées à une personne particulière, typiquement le cas d’une liste d’articles scientifiques similaires (diversité individuelle).

1 http://russellwbaldwin.com/the-new-ebay-draws-on-social-networks/ 2 http://ir.ii.uam.es/divers2011/

Titre du chapitre 3

Différentes stratégies ont été imaginées pour accroître la diversité. Dans ce chapitre, nous proposons de présenter les enjeux liés à la diversité des ressources recommandées par les systèmes de recommandation et de décrire les pistes pour évaluer et accroître la diversité dans les systèmes de recommandation actuels.

1. Les enjeux de la diversité dans les systèmes de recommandation

Les systèmes de recommandation adaptent une sélection (filtrage) ou une ressource (adaptation) à une personne (personnalisation), un groupe de personnes (personnalisation de groupes) ou un contexte. Ils peuvent proposer un sous-ensemble des ressources disponibles à l’utilisateur (Figure 1). Ces ressources font alors partie des ressources vues par l’utilisateur, parmi lesquelles se trouvent celles qu’il consommera éventuellement. Le système de recommandation peut ainsi agir sur les chances pour une ressource d’être consommée (choisie, utilisée ou achetée). La diversité recouvre deux aspects majeurs, la diversité individuelle et la diversité agrégée.

Figure 1. Ensembles des ressources consommées, recommandées et vues.

1.1 La diversité individuelle ou perception individuelle de la diversité

La diversité individuelle représente la diversité des ressources recommandées à un même utilisateur. Orientée vers l’expérience et le comportement de l’utilisateur, elle se focalise sur la diversité de l’ensemble des ressources proposées à chaque utilisateur individuellement. Elle évite que l’utilisateur ne se voie proposer 100 ressources exactement similaires parmi les premiers résultats d’une recommandation, même si elles constituent le top-n des ressources les plus pertinentes. La diversité individuelle est également liée à la valeur d’une recommandation pour un utilisateur via la nouveauté, la sérendipité, ou l’unexpectedness (ou inattendu) en recommandant des ressources que les utilisateurs ne connaissent pas encore (Adamopoulos et al., 2011). En effet, le système de recommandation n’aura pas d’impact s’il propose des ressources que les utilisateurs

4 Titre de l’ouvrage

connaissent déjà, qu’ils auraient consommées de toutes manières (ex. du lait dans un supermarché), qu’ils possèdent déjà ou qui ne les intéressent pas.

Le domaine de la recherche d’informations propose des métriques ou des combinaisons de métriques (Candillier et al., 2011) qui peuvent être adaptées aux mécanismes de recommandation. Dans le cas d’une base d’articles scientifiques, il est important de connaître les différentes approches proposées plutôt que de retrouver de nombreux articles décrivant la même stratégie pour résoudre un problème (Schwind et al., 2011). Konstan et al. (2012) montrent que même si un utilisateur apprécie un auteur, se voir recommander uniquement des livres de cet auteur ne le satisfera sans doute pas. Le top-n des réponses d’un mécanisme de recherche d’informations ou de recommandation n’est donc pas nécessairement le plus pertinent pour l’utilisateur.

De la même manière, sur un site de e-commerce, la diversité des ressources recommandées peut permettre d’accroître la consommation ou les ventes de ressources. La perception de la diversité des ressources proposées conforte l’utilisateur dans son choix et a donc un impact positif sur la décision d’achat (Castagnos et al., 2010) et finalement sur l’expérience utilisateur. En effet, une trop grande cohérence entre les ressources recommandées aurait un impact négatif sur la satisfaction de l’utilisateur (Brynjolfsson et al., 2003). Ainsi, Lathia et al. (2010) suggèrent que le manque de diversité des recommandations au fil des itérations du recommandeur, et donc de nouveauté, tend à faire baisser les notes attribuées par les utilisateurs.

1.2. Enjeux et impact de la diversité agrégée

Au-delà de la perspective individuelle, il est important de prendre en considération l’impact des recommandeurs sur la diversité de ce qui est vendu ou consommé, c’est-à-dire d’une part la diversité des ressources recommandées, quel que soit l’utilisateur et d’autre part l’impact de recommander des ressources plus ou moins diverses sur ce qui est vendu ou consommé. La diversité agrégée représente la capacité d’un système de recommandation à proposer l’ensemble des ressources parmi lesquelles il sélectionne les recommandations, évitant de suggérer les mêmes ressources à tous les utilisateurs. La diversité agrégée est davantage centrée sur le fournisseur des ressources recommandées. Or, dans certains cas, il peut être intéressant d’inciter à consommer ou utiliser des ressources diverses plutôt que des ressources plus adaptées aux profils des utilisateurs.

Tuzhilin (2009) montre que selon les domaines, les biens et services à recommander répondent à des règles différentes. Certains services comme les coiffeurs sont disponibles en quantité limitée, les vêtements ont une courbe de consommation typiquement saisonnière (Tucker et al., 2007) et la consommation de films est

Titre du chapitre 5

largement guidée par des considérations de nouveauté, de bouche à oreille et de personnalités par exemple des acteurs (Hervas-Drane, 2007). Finalement, l’objectif de la recommandation peut varier. La motivation d’un site qui met en place un recommandeur peut être d’augmenter les ventes ou les clics (ex. publicité), de fidéliser les clients, d’améliorer la satisfaction des utilisateurs ou de leur faire découvrir de nouvelles ressources (Tuzhilin, 2009). Ces objectifs peuvent alors conduire à des algorithmes de recommandation différents.

Les marchés à ressources limitées

Dans les industries qui gèrent des stocks, par exemple la distribution de DVDs, il est nécessaire d’adapter les recommandations aux stocks disponibles. Un supermarché n’a pas intérêt à mettre en tête de gondole un produit dont il n’y a presque plus de stocks (Konstan et al., 2012). Dans le domaine des services, si le recommandeur propose la même coiffeuse à 80% des clients, même si elle est la plus adaptée à leur profil, cela posera des problèmes de disponibilité. Les systèmes de guidage routier génèreront un embouteillage s’ils recommandent une route secondaire à tous les utilisateurs. Si tous les visiteurs d’un musée se voient recommander au même moment le même objet, cela congestionnera de la même manière le passage devant cet objet au détriment de l’expérience utilisateur.

La diversité culturelle

L’objectif d’un recommandeur dans le domaine culturel n’est pas nécessairement (ou seulement) d’accroître la consommation des utilisateurs. Les établissements culturels ont également une mission d’éducation. Ils font découvrir des ressources, la lecture, les œuvres d’artistes, les périodes historiques. Ils doivent mettre en valeur leurs fonds, tous leurs fonds et pas seulement les pièces maîtresses, telles que la Joconde au Louvre. La satisfaction des utilisateurs et le taux de consommation ne sont donc pas les seuls indicateurs de la performance de ces établissements dans l’accomplissement de leur mission. Un système de recommandation devrait notamment avoir pour objectifs de recommander un large panel de ressources plutôt que seulement des pièces maîtresses (diversité individuelle et agrégée). A l’inverse, si les recommandeurs tendent à diminuer la diversité agrégée de ce qui est proposé aux utilisateurs, les établissements culturels contribuent au développement d’une culture davantage standardisée de blockbusters.

L’économie de la longue traîne: vers une consommation plus diverse

Le commerce électronique a ouvert de nouvelles perspectives en supprimant dans de nombreux cas les contraintes liées au stockage des biens dans des rayonnages. Sur le Web, il est possible de présenter une quantité quasi-infinie de biens, fournissant de ce fait un choix beaucoup plus large au consommateur (Anderson, 2006).

6 Titre de l’ouvrage

Néanmoins, un nombre limité de ressources sont réellement utilisées (la tête) alors que la plupart des ressources ne le sont que très peu (la longue traîne), selon une courbe décroissante. La Figure 2 représente par exemple la courbe des ressoures appréciées (note 5/5) dans le jeu de données d’un site de recommandation de vidéos (MovieLens3). Typiquement, 20% des ressources comptent pour 80% des bénéfices (principe dit de Pareto).

Figure 2. Distribution des notes de 5

dans le jeu de données MovieLens 100K ratings

En facilitant l’accès aux ressources de la longue traîne, l’environnement Web fournit un espace pour les cultures massivement parallèles et les marchés de niches (Anderson, 2006). Anderson (2006) émet l’hypothèse que pour chaque individu, la chance de trouver quelque chose de pertinent est plus grande dans la longue traîne mais que sans un mécanisme de filtrage très efficace, le risque est plus élevé de fournir du bruit. Le mécanisme de filtrage, typiquement de recommandation est donc essentiel pour d’une part orienter vers la longue traîne et d’autre part augmenter la satisfaction de l’utilisateur. Cette hypothèse est intéressante n’oppose donc pas pertinence et diversité agrégée des ressources recommandées mais considère au contraire la diversité comme un facteur de pertinence et une réserve importante d’amélioration de la qualité de service.

Anderson suggère également qu’en vendant de petites quantités d’un grand nombre de ressources, il est possible de générer autant ou davantage de profits qu’en se concentrant sur un nombre limité de blockbusters. L’Internet donnerait donc naissance à un modèle économique spécifique dans le domaine du commerce

3 http://www.movielens.org

Titre du chapitre 7

électronique, basé non pas sur les blockbusters mais sur la capacité à exploiter la longue traîne. Alors que le service en ligne américain de location de DVD Netflix proposait beaucoup plus de titres (40.000) que la chaîne de magasins de location de DVD Blockbuster (3.000), Anderson (2006) rapporte qu’avec une location même très exceptionnelle de 37.000 DVD, la longue traîne comptait pour 50% des ventes plutôt que 20% dans un magasin traditionnel. Ce modèle (50-50) se retrouve chez Amazon (Holter, 2006). Netflix a optimisé l’utilisation du stock des films moins populaires dans un marché où les blockbusters changent souvent et où un film demeure populaire pendant une courte période de temps. Augmenter la consommation de blockbusters est potentiellement difficile et requiert des moyens tels que la publicité pour attirer de nouveaux clients. En revanche, si le site est capable d’orienter les utilisateurs existants vers d’autres films, le potentiel de progression de la consommation est plus important et moins coûteux alors que les marges sur les ressources de la longue traîne sont dans le cas des vidéos plus élevées (Adomavicius et al., 2011). Or, une expérimentation de Tucker et al. (2007) sur un site de mariage suggère qu’augmenter le taux de clics sur les ressources de la longue traîne a un impact négatif négligeable sur les ressources de la tête, contribuant dans ce cas à augmenter le volume global des clics.

L’accroissement de la diversité agrégée de ce qui est consommé serait un facteur critique d’augmentation des profits dans certains secteurs tels que le e-commerce et devrait donc être un élément central de leur modèle économique. En permettant d’altérer les tendances de consommation, les recommandeurs sont des parties intégrantes de ces modèles économiques.

L’existence d’un modèle économique de la longue traîne a été contesté (Elberse, 2006 ; Quelsch, 2008) et Netflix s’est distancé de la longue traîne pour tirer de plus en plus parti des blockbusters (Wunker, 2011). De manière plus générale, il semble que la consommation de médias dans le contexte d’une offre de plus en plus importante évolue d’une part vers l’accroissement du nombre de niches et d’autre part vers la focalisation sur les blockbusters, aux dépends des marchés intermédiaires (The Economist, 2009).

Alors que ces observations devraient être comparées à celles d’autres domaines, elles suggèrent que le rôle des recommandeurs et les algorithmes de recommandation peuvent être modifiés avec l’évolution rapide des volumes disponibles et des habitudes de consommation. L’accès aux ressources de la longue traîne en particulier présente dans ce cadre des difficultés qui nécessitent à la fois d’analyser l’impact des algorithmes de recommandation utilisés et de concevoir des systèmes adaptés.

8 Titre de l’ouvrage

2. Algorithmes de recommandation et diversité : tendances, évaluation et optimisation Les algorithmes mis en oeuvre dans les systèmes de recommandation sont organisés en deux grandes catégories. Les recommandeurs basés sur le contenu utilisent typiquement des informations sur les ressources à recommander (ex. Naudet et al., 2010), alors que le filtrage collaboratif exploite l’ensemble des utilisateurs des ressources via des données d’usage ou des appréciations sur les ressources, soit implicites (consommation, clics) soit explicites (commentaires, notes). Des études ont démontré l’efficacité relative des systèmes de filtrage collaboratif par rapport aux systèmes basés sur le contenu (Candillier et al., 2009), même si de nombreux systèmes utilisent des approches hybrides pour compenser les limitations de chacun des algorithmes (Burke, 2007). Différents travaux visant à évaluer l’impact des algorithmes sur la diversité, définir des métriques d’évaluation et accroître la diversité individuelle et agrégée dans les systèmes de recommandation.

2.1. La tendance des algorithmes de recommandation à orienter vers la tête

La littérature scientifique est partagée sur les effets des recommandeurs sur la structure de la longue traîne (Adomavicius et al., 2011). Alors que certains insistent sur le rôle des recommandeurs dans la découverte des ressources de la longue traîne (ex. Hervas-Drane, 2007 ; Brynjolfsson et al., 2010), d’autres (ex. Mooney et al., 2000 ; Fleder et al., 2009) mettent en exergue leur tendance à recommander les mêmes ressources. Ces perspectives ne sont néanmoins pas incompatibles. Les recommandeurs semblent en effet permettre mieux qu’une approche classique sans recommandations d’accroître la diversité agrégée des ressources consommées, cependant qu’ils peuvent tendre à limiter cet impact avec le temps en renforçant la tête (Figure 3).

Figure 3. Orientation des recommandations sur la tête ou sur la longue traîne

La longue traîne peut être liée aux pratiques de création de métadonnées lorsqu’elles sont exploitées par les systèmes de recommandations. Or, les algorithmes basés sur

Titre du chapitre 9

le contenu utilisent en partie des métadonnées descriptives (ex. catégories, titre). Ils sont donc particulièrement sensibles aux différences de pratiques d’indexation, d’extraction ou de catégorisation qui ont permis de créer les métadonnées ou les représentations des ressources qu’ils exploitent. Les métadonnées ne sont pas toujours toutes renseignées, conduisant à ignorer des ressources. Elles sont parfois très similaires, ne permettant pas de discriminer les ressources, au détriment de la diversité individuelle et agrégée (Foulonneau, 2007). Alors que Bradley et al. (2001) soulignent l’impact négatif des recommandeurs basés sur le contenu sur la diversité individuelle, Fleder et al. (2009) affirment que la question de la diversité agrégée surtout est posée par les algorithmes plus répandus de filtrage collaboratif.

Les algorithmes de filtrage collaboratif sont largement basés sur des données d’usage, soit des opinions laissées explicitement par les utilisateurs par exemple sous forme de score, soit des traces laissées de manière implicite sous forme d’achat ou de clics. Le problème du démarrage à froid dans les systèmes de filtrage collaboratif représente un manque initial de données d’usage qui handicape leur fonctionnement en désavantageant les nouvelles ressources qui risquent de figurer dans la longue traîne sans avoir eu la chance d’être exposées aux utilisateurs.

Alors que les algorithmes de global ranking (les ressources les plus populaires) tendent clairement à renforcer la tête, les algorithmes de filtrage collaboratif peuvent aussi refléter la diversité des habitudes de consommation et des différences entre les profils des utilisateurs. Néanmoins, ils recherchent systématiquement les convergences entre les ressources et/ou les utilisateurs, c’est-à-dire ce qui est commun plutôt que ce qui est différent. En retrouvant des groupes d’utilisateurs similaires, le recommandeur finit par recommander ce qui est le plus populaire parmi ces groupes (Fleder et al., 2007)

Une étude conduite par Hervas-Drane (2007) montre d’une part que les utilisateurs avec des goûts communs (ou mainstream) ont davantage tendance à laisser des commentaires et d’autre part que les commentaires sont largement positifs et tendent donc à renforcer la position des blockbusters. Or en s’appuyant sur les Formal theories of mass behaviour de McPhee (1963, cité par The Economist), The Economist (2009) émet l’hypothèse que l’augmentation de la consommation des blockbusters dans le marché média s’expliquerait par leur capacité à amener à la consommation des utilisateurs qui ne consomment pas d’autres produits, alors que les marchés de niche sont typiquement composés d’utilisateurs avertis. Un Américain qui n’aurait lu qu’un seul livre en 2009 aurait probablement lu The Lost Symbol de Dan Brown et l’aurait presque certainement aimé, alors que les utilisateurs avertis, jouissant d’une meilleure connaissance des livres les évalueraient naturellement de manière plus sévère. Cela pourrait expliquer la sur-représentation des personnes appréciant les blockbusters constatée par Hervas-Drane (2007) et le fait que les algorithmes de filtrage collaboratif permettraient moins qu’une approche

10 Titre de l’ouvrage

basée sur le contenu ou sur un expert humain de naviguer de la tête à la longue traîne et inversement (Celma et al., 2008).

2.2. L’évaluation de la diversité dans les systèmes de recommandation

La tendance des algorithmes de recommandation à favoriser ou limiter la diversité individuelle et agrégée est identifiée par le biais d’expérimentations (Fleder et al., 2009) et de métriques adaptées à la diversité dans les systèmes de recommandation. La diversité apparaît de plus en plus comme l’une des dimensions importantes de l’évaluation des systèmes de recommandation (Vengroff, 2011, Szlavik et al., 2011). Celma (2010) classe les métriques des systèmes de recommandation en trois catégories : les métriques centrées sur les systèmes (pertinence des prédictions sur le rating de ressources), celles centrées sur les réseaux (analyse de la similarité des réseaux de ressources et d’utilisateurs), enfin celles centrées sur les utilisateurs, c’est-à-dire sur la perception de la qualité et de l’utilité d’une recommandation par les utilisateurs. Des métriques spécifiques à la diversité individuelle ont été proposées par Zhang et al. (2009) avec une mesure de la concentration des ressources, et de la distribution des ressources par rapport aux intérêts des utilisateurs, Chandar et al. (2011) et Castells et al. (2011) avec la prise en considération du positionnement des ressources dans une liste, alors que d’autres travaux proposent de nouveaux modes de calcul de métriques existantes telles que la pertinence (Santini et al., 2011). La diversité d’une liste de recommandations est généralement le résultat d’une évaluation de la similarité de toutes les paires de ressources qui y figurent (Ziegler et al., 2005 ; Castagnos et al., 2010). Néanmoins, Hu et al. (2011) montrent comment la plupart des systèmes évaluent la diversité individuelle par rapport à la similarité entre chaque ressource mais qu’il est également possible de l’analyser en termes de catégories ou de groupes de ressources.

Finalement, d’autres travaux ont pour objectif d’évaluer la perception de la diversité individuelle par l’utilisateur et l’impact sur son comportement : va-t-il cliquer ? va-t-il acheter ? (Castagnos et al., 2010) est-il satisfait ? retire-t-il un bénéfice de la diversité du choix qui lui est proposé ? (Brynjolfsson et al., 2003).

Bien que la diversité agrégée ait parfois été évaluée avec le seul pourcentage des ressources disponibles qui a été recommandé au moins une fois (Salter et al., 2006), la plupart des expérimentations utilisent une métrique qui permet de rendre compte de la distribution des recommandations et des déséquilibres entre les ressources souvent recommandées et celles qui ne le sont que rarement. Le coefficient Gini représente la part de la longue traîne dans les recommandations, la consommation, les ventes ou les profits avec des métriques de longue traîne absolue ou relative (Fleder et al., 2009; Adomavicius et al., 2011). Finalement, Adomavicius et al. (2012), au-delà de mesurer la diversité des ressources recommandées par rapport

Titre du chapitre 11

au total des ressources disponibles suggèrent de mesurer l’ensemble des listes de recommandations fournies aux utilisateurs. Ils peuvent ainsi évaluer à quel point le système traite différemment chaque utilisateur, pour établir son niveau de personnalisation.

L’impact de la recommandation est prise en compte d’une part via le rapport entre diversité et pertinence (Adomavicius et al., 2011), soit via la répercussion de la mise en place du système de recommandation sur les ventes (Fleder et al., 2009) ou la consommation (Celma et al., 2008).

2.3. Des algorithmes de recommandation pour favoriser la diversité individuelle

Les efforts pour accroître la diversité individuelle utilisent généralement des techniques de réorganisation des résultats de recommandation pour ne pas présenter des listes trop homogènes. Zhang et al. (2009) proposent d’ajouter des ressources aléatoires ou d’accroître le nombre de ressources recommandées alors que Ziegler et al. (2005) cherchent à composer une liste des ressources recommandées representative des differents intérêts de l’utilisateur. Les approches de la nouveauté et de la sérendipité permettent aussi souvent d’accroître la diversité individuelle, par exemple en exploitant les zones inexplorées du graphe des relations entre les ressources (Onuma et al., 2009), tout en conservant un niveau élevé de pertinence (Zhou et al., 2010). 2.4. Des algorithmes de recommandation pour favoriser la diversité agrégée

Certaines approches de la diversité agrégée consistent à appliquer une logique de recommandation différente aux ressources de la longue traîne des ressources recommandées ou consommées. Lorsque les ressources n’ont pas (encore) été suffisamment exposées pour que leur niveau de popularité enregistré dans la base reflète leur potentiel de popularité (démarrage à froid), il est possible de prédire les notes futures des utilisateurs qui n’auraient pas encore évalué les ressources. Park et al. (2008) proposent également de créer des clusters de ressources dans la longue traîne pour les évaluer ensemble plutôt que comme des ressources individuelles. Finalement, Adomavicius et al., (2011) suggèrent de sélectionner des ressources appartenant à des zones inexplorée mais proches du graphe des ressources explorées, proposant ainsi une stratégie également susceptible d’accroître la diversité individuelle.

Des approches plus génériques utilisent un même mécanisme de recommandation pour toutes les ressources. Elles consistent à diminuer le nombre de ressources recommandées, à réorganiser les listes de ressources (Adomavicius et al., 2012), à ajouter des recommandations aléatoires (Lemire et al., 2008) ou à combiner plusieurs stratégies de recommandation (Burke et al., 2007).

12 Titre de l’ouvrage

2.5. Vers des approches de la diversité centrée sur les utilisateurs

Alors que Anderson (2006) émet l’hypothèse que l’exploitation de la longue traîne est compatible, voire potentiellement bénéfique à la pertinence, les algorithmes visant à accroître la diversité présument une diminution de la pertinence, soit parce qu’un blockbuster sera tendanciellement perçu comme plus pertinent (niveau de satisfaction supérieur, The Economist, 2009), soit parce que les filtres ou recommandeurs ne sont pas encore suffisamment efficaces pour sélectionner dans la longue traîne des ressources avec le même niveau de confiance qu’ils peuvent le faire dans la tête. Pourtant, la perception de la perte de pertinence ou de la diversité par les utilisateurs peut varier. Alors que de nombreux travaux se focalisent sur la recherche d’un compromis entre pertinence et diversité individuelle ou agrégée (Zhou et al., 2010 ; Adomavicius et al., 2011), une tendance émerge pour se concentrer sur des approches plus subjectives de la diversité (Ge et al., 2011) qui conditionnent l’impact sur la décision et les ventes (Castagnos et al., 2010). La perception de la diversité par les utilisateurs

Les approches actuelles de l’évaluation de la diversité individuelle utilisent des métriques de similarité entre les ressources afin de déterminer la diversité dans une liste de recommandations. Or il existe de nombreuses méthodes pour calculer la similarité entre des ressources (ex. diversité basée sur des attributs de Castagnos et al., 2010 ou diversité cosinus de Szlavik et al., 2011). Il est nécessaire de déterminer quelles sont les métriques de similarité pertinentes par rapport à la perception des utilisateurs. Ge et al. (2011) mettent par exemple en avant l’importance de la perception de la diversité en distinguant la diversité perçue par l’utilisateur, actuelle (sur une liste de recommandations) ou temporelle (au cours de plusieurs recommandations successives) (Lathia et al., 2010) de la diversité inhérente ou objective, qu’elle soit individuelle ou agrégée.

Nous avons conduit une expérimentation en demandant à des utilisateurs de noter sur une échelle de 0 à 7 la similarité entre 21 paires de films populaires, à partir de leurs propres connaissances des films et de leurs descriptions dans DBpedia4. Nous avons testé des métriques de similarité sémantique à partir des travaux de Maedche et al. (2002). Nous avons montré la bonne corrélation avec le jugement humain (Figure 4) en particulier de la métrique de similarité relationnelle comparativement à d’autres types de similarité (Grouès et al., 2012). Cette expérimentation doit permettre d’isoler les relations les mieux corrélées avec le jugement humain de similarité et d’optimiser la réorganisation des recommandations par rapport à la perception des utilisateurs.

4 http://dbpedia.org

Titre du chapitre 13

Figure 4. Comparaison entre la métrique Maedche & Zacharias

et l'évaluation humaine de la similarité entre 21 films.

Analyser les utilisateurs pour améliorer la diversité agrégée

Pour améliorer la diversité agrégée, les efforts se sont essentiellement concentrés sur une analyse des ressources consommées, recommandées et disponibles. Néanmoins, le fonctionnement des systèmes de recommandation dépend des profils utilisateurs (ex. uniquement des utilisateurs novices, jeunes ou intéressés par la littérature contemporaine) et de leurs comportements. L’analyse des utilisateurs peut donc fournir des éléments pour améliorer les systèmes de recommandation et accroître à la fois la diversité individuelle et la diversité agrégée.

Kawamae et al. (2009) se proposent d’amener les utilisateurs vers des ressources plus variées en utilisant comme guides les individus qui se comportent comme innovateurs, c’est-à-dire qui ont adopté une ressource avant les autres (early adopters). Ces utilisateurs peuvent permettre de guider les autres utilisateurs vers la longue traîne des ressources consommées. Sur le modèle de The Economist (2009) et des Formal theories of mass behavior, il est en effet possible de considérer l’évolution des habitudes de consommation de blockbusters vers des niches comme un processus d’apprentissage.

0

0,2

0,4

0,6

0,8

1

human

MZS

14 Titre de l’ouvrage

Figure 5. Nombre de notes attribuées aux films 35 et 1643 dans MovieLens

Ce type d’approche peut être exploré en analysant les comportements des utilisateurs. Dans le jeu de données de MovieLens, 275 films n’ont été aimés (notes de 4 ou 5) que par 1 ou 2 personnes. Par exemple, 2 personnes ont donné une note 4 ou 5 aux films Angel Baby (1997) et Free Willy 2 : The Adventure Home (1995) (Figure 5). Cependant, dans le premier cas, seulement 4 personnes au total ont évalué le film, alors que dans le second cas, 11 personnes l’ont fait et 8 d’entre elles lui ont donné une note de 1 ou 2. Le premier cas montre des opinions partagées avec un manque d’informations, potentiellement un problème de démarrage à froid qui empêche d’évaluer la popularité réelle de la ressource, alors que dans le second cas, une majorité claire des utilisateurs n’a pas apprécié le film. Plus intéressant, une personne (l’utilisateur 901) a aimé à la fois Angel Baby et Free Willy 2 : The Adventure Home. Il est donc possible que cet utilisateur soit particulièrement exotique ou qu’il soit un innovateur, si ses goûts deviennent régulièrement mainstream avec le temps.

Figure 6. Distribution du Snowflake number parmi 626 utilisateurs du jeu de données

MovieLens

012345

1 2 3 4 5

35

1643

Titre du chapitre 15

De nombreux auteurs utilisent les concepts de consommateur de niche, avec des goûts exotiques et de consommateur mainstream plutôt consommateurs de blockbusters (ex., Hervas-Drane, 2007). Nous avons défini le snowflake number (Duval et al., 2009) comme une mesure de l’exotisme d’un utilisateur. Il représente le nombre minimal de ressources aimées (auxquelles l’utilisateur a donné une note maximale) qui le rendent unique dans la base. Nous avons analysé 626 utilisateurs du jeu de données MovieLens 100K rating et avons observé qu’une grande partie des utilisateurs avaient un snowflake number très bas (1 ou 2) (Figure 6). De nombreux utilisateurs ont pourtant attribué des notes de 5 à au moins un film (928 sur 943). Près de 70% des films (1172 sur 1682) ont au moins un rating de 5. Cela suggère qu’une grande partie des utilisateurs ont à la fois des goûts mainstream et des goûts plus exotiques. L’utilisateur 901 mentionné ci-dessus a un snowflake number de 1 mais cela ne suffit pas à en faire un utilisateur aux goûts exotiques. Il a en effet également noté 5 le film Usual Suspects (1995) comme 148 autres utilisateurs et le film Raiders of the Lost Ark (1981) comme 201 autres utilisateurs. Avec une analyse plus fine des utilisateurs, il est ainsi possible d’élaborer des stratégies d’optimisation de la diversité agrégée, mais aussi potentiellement de la diversité perçue.

3. Conclusion et nouvelles directions La diversité représente un ensemble de métriques qui devraient être prises en considération dans l’élaboration des systèmes de recommandation. La diversité individuelle a été davantage étudiée que la diversité agrégée (Adomavicius et al., 2011) alors que les recherches conduites actuellement dans le domaine des modèles économiques des entreprises s’intéressent de plus en plus à la variété des produits et à la concentration des ventes (ex., Fleder et al., 2009 ; Brynjolfsson et al., 2010).

Les recommandeurs basés sur le contenu dépendent de la qualité des informations disponibles sur chaque contenu, créant ainsi une inégalité de fait entre les ressources indépendamment de l’intérêt que leur portent les utilisateurs. Les algorithmes de filtrage collaboratif tendent à valoriser les mêmes ressources en se référant en particulier à leur popularité. La généralisation de ce type de recommandation représente donc un risque pour la diversité de l’information accessible. Qui navigue au-delà de 3 pages de résultats sur une bibliothèque numérique ou un moteur de recherche? Qui taguera alors des ressources qui ne lui seront jamais recommandées et jamais présentées? In fine, c’est l’offre même de contenus qui risque de s’appauvrir. La réduction de la diversité agrégée de ce qui est consommé contribue à créer une tendance oligopolistique du marché avec le renforcement de la domination de quelques acteurs (The Economist, 2009).

A l’inverse, l’accroissement de la diversité apparaît en mesure d’améliorer la qualité de service, l’expérience utilisateur et même de supporter le développement de

16 Titre de l’ouvrage

modèles économiques qui permettent de mieux exploiter la longue traîne et de tirer parti de consommateurs de niche davantage disposés à payer pour des recommandations (Hervas-Drane, 2007).

Nous proposons dans ce chapitre quelques pistes pour augmenter la diversité des ressources recommandées. Beaucoup d’algorithmes de recommandation sont élaborés et testés avec des jeux de données similaires, un objectif et dans un domaine particulier (ex. dans la conférence RecSys5). Cependant, l’analyse du domaine est très importante et l’évaluation des algorithmes de recommandation devrait recouvrir de nombreuses dimensions au-delà de la seule pertinence par rapport à l’intérêt de l’utilisateur pour le contenu d’une ressource. Alors qu’un algorithme de recommandation constitue nécessairement une manipulation des ressources présentées aux utilisateurs, l’impact d’un algorithme conçu pour un site de e-commerce dans le domaine culturel par exemple devrait être évalué en fonction des objectifs spécifiques du service, de ses utilisateurs et des caractéristiques de ses ressources. En effet, Fleder et al. (2007) suggèrent qu’un même recommandeur peut avoir un impact opposé sur la diversité en fonction de son contexte de mise en oeuvre. Les acteurs qui mettent en place des services personnalisés ont des rôles et intérêts différents. Quelle est la stratégie de celui qui implémente le recommandeur? Google ou la bibliothèque numérique Europeana6 orientent leurs utilisateurs vers les sites de tiers alors qu’un loueur de DVD doit gérer ses stocks et fait éventuellement une marge différente en fonction de ce qu’il loue, un site de rencontre n’a pas intérêt à laisser trop de personnes dans la longue traîne des rendez-vous, un supermarché doit gérer les flux dans les rayons de produits qu’il stocke et gère lui-même. Or, ces acteurs seront diversement affectés par un marché centré sur des blockbusters.

Les questions liées à la diversité des perspectives représentées sur le Web sont devenues cruciales et nous avons montré dans ce chapitre combien dans de nombreux domaines, l’impact des systèmes de recommandation pouvait être décisif, pour bâtir ou renforcer un modèle économique, la diversité culturelle, l’accès à une information diverse et pertinente ou encore la gestion des flux de voyageurs. A chaque problématique ses contraintes, objectifs et approche certainement de la diversité. Néanmoins, de nombreuses questions se posent encore, sur l’évaluation des différentes dimensions de la diversité dans les systèmes de recommandation, sur leur évolution (Mourao et al., 2011) mais aussi sur leur impact et l’élaboration de stratégies efficaces pour accroître la diversité.

L’évaluation de la diversité se focalise encore souvent sur un seul aspect de la diversité, diversité individuelle, agrégée ou les concepts connexes de nouveauté et de sérendipité, alors que les travaux récents combinent de plus en plus différents

5 http://recsys.acm.org/ 6 http://europeana.eu

Titre du chapitre 17

aspects (ex. Castells et al., 2011). Fleder et al. (2009) suggèrent que les algorithmes de filtrage collaboratif en accroissant la diversité individuelle par rapport à l’absence de système de recommandation, tendent à diminuer la diversité agrégée. Néanmoins, la manière dont les algorithmes de recommandation influencent les différents aspects de la diversité, la nouveauté et la sérendipité n’est pas encore bien comprise et leur interconnexion devrait être investigué dans les années à venir.

Les stratégies d’accroissement de la diversité tant individuelle qu’agrégée proposent encore des compromis entre pertinence et diversité, alors que différentes études suggèrent l’impact positif d’un accroissement de la diversité individuelle sur la satisfaction des utilisateurs et les travaux récents tendent à démentir l’antinomie supposée entre diversité agrégée et pertinence (ex. Adomavicius et al., 2011). Les recherches actuelles s’interrogent sur la perception de la diversité par les utilisateurs et pourraient permettre de passer de la recherche d’un compromis entre pertinence et diversité à l’utilisation de la diversité pour améliorer la satisfaction, mais aussi d’autres éléments de performance, de la fidélisation à l’optimisation des interactions avec les utilisateurs.

18 Titre de l’ouvrage

Bibliographie

[ADA 11] ADAMOPOULOS, P., & TUZHILIN, A. (2011). On Unexpectedness in Recommender Systems: Or How to Expect the Unexpected. Proceedings of the Workshop on Novelty and Diversity in Recommender Systems (DiveRS 2011) (pp. 11-18).

[ADO 11] ADOMAVICIUS, G., & KWON, Y. (2011). Maximizing Aggregate Recommendation Diversity: A Graph-Theoretic Approach. Proceedings of the Workshop on Novelty and Diversity in Recommender Systems (DiveRS 2011) (pp. 3-10). [ADO 12] ADOMAVICIUS, G., & KWON, Y. O. (2012). Improving aggregate recommendation diversity using ranking-based techniques. Knowledge and Data Engineering, IEEE Transactions on, 24(5), 896–911.

[AND 06] ANDERSON, C. (2006). The Long Tail: Why the Future of Business is Selling Less of More. Hyperion. [BRAD 01] BRADLEY, K., SMYTH, B. (2001). Improving Recommendation Diversity. Proceedings of the 12th National Conference in Artificial Intelligence and Cognitive Science, Maynooth, Ireland (pp. 75–84).

[BRYN 03] BRYNJOLFSSON, E., HU, Y. (JEFFREY), & SMITH, M. D. (2003). Consumer Surplus in the Digital Economy: Estimating the Value of Increased Product Variety at Online Booksellers. Management Science, 49(11), 1580–1596.

[BRYN 10] BRYNJOLFSSON, E., HU, Y., & SMITH, M. D. (2010). Long Tails vs. Superstars: The Effect of Information Technology on Product Variety and Sales Concentration Patterns. Information Systems Research, 21(4), 736–747.

[BUR 07] BURKE, R. (2007). Hybrid Web Recommender Systems. In P. Brusilovsky, A. Kobsa, & W. Nejdl (Eds.), The Adaptive Web (Vol. 4321, pp. 377–408). Berlin, Heidelberg: Springer Berlin Heidelberg.

[CAN 09] CANDILLIER L., KRIS, J., FESSANT F., MEYER, F. (2009). State-of-the-Art Recommender Systems. In Max Chevalier, Christine Julien & Chantal Soule-Dupuy, Collaborative and Social Information Retrieval and Access – Techniques for Improved User Modeling. IGI Global, Hersbey.

Titre du chapitre 19

[CAN 11] CANDILLIER L., CHEVALIER M., DUDOGNON D., MOTHE J. (2011). Diversity in Recommender Systems: Bridging the gap between users and systems. International Conference on Advances in Human-oriented and Personalized Mechanisms, Technologies, and Services (CENTRIC 2011), Barcelona, Spain, 23/10/2011-28/10/2011, IARIA (pp. 48-58).

[CAS 10] CASTAGNOS, S., JONES, N., PU, P. (2010). Eye-tracking product recommenders’ usage. Proceedings of the fourth ACM conference on Recommender systems, RecSys ’10 (pp. 29–36). New York, NY, USA: ACM.

[CAS 11] CASTELLS, P., VARGAS, S., WANG, J. (2011). Novelty and Diversity Metrics for Recommender Systems: Choice, Discovery and Relevance. International Workshop on Diversity in Document Retrieval (DDR 2011) at the 33rd European Conference on Information Retrieval (ECIR 2011). Dublin, Ireland, April 2011.

[CAT 07] CATONE J. Yahoo! The Web’s future is not in search, post on ReadWriteWeb, June, 4th, 2007, http://www.readwriteweb.com/archives/yahoo_personalization.php.

[CEL 08] CELMA, O., CANO, P. (2008). From hits to niches?: or how popular artists can bias music recommendation and discovery. Proceedings of the 2nd KDD Workshop on Large-Scale Recommender Systems and the Netflix Prize Competition, NETFLIX ’08 (pp. 5:1–5:8). New York, NY, USA: ACM.

[CEL 10] CELMA, O. (2010). Music recommendation and discovery: the long tail, long fail, and long playin the digital music space. Springer-Verlag, Berlin, Heidelberg.

[CHA 11] CHANDAR, P., & CARTERETTE, B. (2011). Analysis of various evaluation measures for diversity. Proceedings of the DDR workshop, (pp. 21–28).

[DUV 09] DUVAL, E., VERBERT, K., OCHOA, X., & HODGINS, W. (2009). The snowflake number. Proceedings of the WebSci'09: Society On-Lin. (pp.1-3).

[ELB 08] ELBERSE, A. (2008). Should You Invest in the Long Tail? Harvard business review.

[FLE 07] FLEDER, D, HOSANAGAR, K. (2007). Recommender systems and their impact on sales diversity. Proceedings of the 8th ACM conference on Electronic commerce, ACM New York (pp. 192 – 199).

[FLE 09] FLEDER, D., HOSANAGAR, K. (2009). Blockbuster Culture’s Next Rise or Fall: The Impact of Recommender Systems on Sales Diversity. Management Science 55(5), 697–712.

[FOU 07] FOULONNEAU, M. (2007). Information Redundancy Across Metadata Collections. Information Processing & Management 43(3), 740–751.

[GE 11] GE, M., GEDIKLI, F., & JANNACH, D. (2011). Placing High-Diversity Items in Top-N Recommendation Lists. Proceedings of the 9th Workshop on Intelligent Techniques for Web Personalization & Recommender Systems.

[GRO 12] GROUES, V., NAUDET, Y., & KAO, O. (2012). Adaptation and Evaluation of a Semantic Similarity Measure for DBPedia: A First Experiment. Proceedings of the 7th International Workshop on Semantic and Social Media Adaptation and Personalization, Luxembourg, 2012.

[HER 07] HERVAS-DRANE, A. (2007). Word of Mouth and Recommender Systems: A Theory of the Long Tail (Working Paper 07-41). NET Institute.

20 Titre de l’ouvrage

[HOL 06] HOLTER, E. (2006). Wikis and Swikis and Blogs, Oh My!, Newfangled newsletter April 2006. http://www.newfangled.com/what_is_web_2.

[KAW 09] KAWAMAE, N., SAKANO, H., & YAMADA, T. (2009). Personalized recommendation based on the personal innovator degree. Proceedings of the third ACM conference on Recommender systems, RecSys ’09 (pp. 329–332). New York, NY, USA: ACM.

[KON 12] KONSTAN, J. A., RIEDL, J. (2012). Deconstructing Recommender Systems - How Amazon and Netflix predict your preferences and prod you to purchase. IEEE Spectrum.

[LAT 10] LATHIA, N., HAILES, S., CAPRA, L., & AMATRIAIN, X. (2010). Temporal diversity in recommender systems. Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval, SIGIR ’10 (pp. 210–217). New York, NY, USA: ACM.

[LEM 08] LEMIRE, D. DOWNES, S., PAQUET, S. (2008). Diversity in open social networks. Technical report, University of Quebec, Montreal, CA.

[MAE 02] MAEDCHE, A., & ZACHARIAS, V. (2002). Clustering Ontology-Based Metadata in the Semantic Web. Proceedings of the 6th European Conference on Principles of Data Mining and Knowledge Discovery (pp. 348-360). London, UK: Springer-Verlag.

[MAR 06] MARSHALL, M. Aggregate Knowledge raises $5M from Kleiner, on a roll. (2006, December 10). VentureBeat. http://venturebeat.com/2006/12/10/aggregate-knowledge-raises-5m-from-kleiner-on-a-roll/.

[MCP 63] MCPHEE, W. N. (1963). Formal theories of mass behavior. Free Press of Glencoe.

[MOU 11] MOURÃO, F., FONSECA, C., ARAUJO, C., MEIRA JR, W. (2011). The Oblivion Problem: Exploiting Forgotten Items to Improve Recommendation Diversity. Proceedings of the Workshop on Novelty and Diversity in Recommender Systems (DiveRS 2011) (pp.27-34).

[MOO 00] MOONEY, R. J., & ROY, L. (2000). Content-based book recommending using learning for text categorization. Proceedings of the fifth ACM conference on Digital libraries, DL ’00 (pp. 195–204). New York, NY, USA: ACM.

[NAU 10] NAUDET, Y., SCHWARTZ, L., MIGNON, S., & FOULONNEAU, M. (2010). Applications of user and context-aware recommendations using ontologies. Conference Internationale Francophone sur I’Interaction Homme-Machine, IHM ’10 (pp. 165–172). New York, NY, USA: ACM.

[ONU 09] ONUMA, K., TONG, H., & FALOUTSOS, C. (2009). TANGENT: a novel, “Surprise me”, recommendation algorithm. Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’09 (pp. 657–666). New York, NY, USA: ACM.

[PAR 08] PARK, Y. J., & TUZHILIN, A. (2008). The long tail of recommender systems and how to leverage it. Proceedings of the 2008 ACM conference on Recommender systems (pp. 11–18).

[QUE 08] QUELCH, J. Long-Tail Economics? Give Me Blockbusters! HBS Working Knowledge. September 10, 2008. http://hbswk.hbs.edu/item/6014.html.

[SAL 06] SALTER, J., & ANTONOPOULOS, N. (2006). CinemaScreen recommender agent: combining collaborative and content-based filtering. Intelligent Systems, IEEE, 21(1), 35–41.

Titre du chapitre 21

[SAN 11] SANTINI, S., CASTELLS, P. (2011). An Evaluation of Novelty and Diversity Based on Fuzzy Logic. Proceedings of the Workshop on Novelty and Diversity in Recommender Systems (DiveRS 2011) (pp. 51-58).

[SCH 11] SCHWIND, C., BUDER, J., & HESSE, F. W. (2011). I will do it, but i don’t like it: user reactions to preference-inconsistent recommendations. Proceedings of the 2011 annual conference on Human factors in computing systems, CHI ’11 (pp. 349–352). New York, NY, USA: ACM.

[SIM 11] SIMPERL, E., MADALLI, D.P., VRANDECIC, D., ALFONSECA, E. (2011). DiversiWeb 2011. SIGIR Forum 45(1), pp. 49–53.

[SZA 11] SZLAVIK, Z., KOWALCZYK, W., & SCHUT, M. (2011). Diversity Measurement of Recommender Systems under Different User Choice Models. Fifth International AAAI Conference on Weblogs and Social Media.

[THE 09] THE ECONOMIST. (2009). A world of hits. The Economist. http://www.economist.com/node/14959982.

[THE 09] TUCKER, C., & ZHANG, J. (2007). Long Tail or Steep Tail? A Field Investigation into How Online Popularity Information Affects the Distribution of Customer Choices. MIT Sloan School Working Paper 4655-07. http://dspace.mit.edu/handle/1721.1/39811

[TUZ 09] TUZHILIN, A. (2009). Personalization: The State of the Art and Future Directions. In Adomavicius, Gediminas, and Alok Gupta (eds). Business Computing. Emerald Group Publishing.

[VEN 11] VENGROFF, D. E. (2011). RecLab: a system for eCommerce recommender research with real data, context and feedback. Proceedings of the 2011 Workshop on Context-awareness in Retrieval and Recommendation, CaRR ’11 (pp. 31–38). New York, NY, USA: ACM.

[WUN 11] WUNKER, S. (2011). Long tail business models -- Amazon on offense and defense. New Markets Blog. http://www.newmarketsadvisors.com/blog/bid/36296/Long-tail-business-models-Amazon-on-offense-and-defense.

[ZIE 05] ZIEGLER, C.-N., MCNEE, S. M., KONSTAN, J. A., & LAUSEN, G. (2005). Improving recommendation lists through topic diversification. Proceedings of the 14th international conference on World Wide Web, WWW ’05 (pp. 22–32). New York, NY, USA: ACM.

[ZHA 09] ZHANG, M., & HURLEY, N. (2009). Statistical Modeling of Diversity in Top-N Recommender Systems. Proceedings of the 2009 IEEE/WIC/ACM International Joint Conference on Web Intelligence and Intelligent Agent Technology - Volume 01, WI-IAT ’09 (pp. 490–497). Washington, DC, USA: IEEE Computer Society.

[ZHO 10] ZHOU, T., KUSCSIK, Z., LIU, J.-G., MEDO, M., WAKELING, J. R., & ZHANG, Y.-C. (2010). Solving the apparent diversity-accuracy dilemma of recommender systems. Proceedings of the National Academy of Sciences, 107(10), 4511–4515.


Recommended