+ All Categories
Home > Documents > Interfaces multimodales pour un assistant au voyage Alain Goyé, Eric Lecolinet, Shiuan-Sung Lin,...

Interfaces multimodales pour un assistant au voyage Alain Goyé, Eric Lecolinet, Shiuan-Sung Lin,...

Date post: 03-Apr-2015
Category:
Upload: didiane-benoist
View: 104 times
Download: 0 times
Share this document with a friend
20
Interfaces multimodales pour un assistant au voyage Alain Goyé, Eric Lecolinet, Shiuan-Sung Lin, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris Cedex 13 goye | elc | lin | [email protected] Catherine Pelachaud IUT de Montreuil - Université Paris 8 140, rue de la Nouvelle France 93100 Montreuil, France [email protected] Xiaoqing Ding Dept. of Electronic Engineering Tsinghua University Beijing, 100084, China [email protected] Yang Ni Institut National des Télécommunications Département Electronique et Physique 9,Rue Charles Fourier 91011 Evry Cedex-France [email protected]
Transcript
Page 1: Interfaces multimodales pour un assistant au voyage Alain Goyé, Eric Lecolinet, Shiuan-Sung Lin, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris.

Interfaces multimodales pour un assistant au

voyage

Alain Goyé, Eric Lecolinet, Shiuan-Sung Lin, Gérard Chollet

GET-ENST46, rue Barrault

75634 Paris Cedex 13goye | elc | lin | [email protected]

Catherine PelachaudIUT de Montreuil - Université Paris 8

140, rue de la Nouvelle France93100 Montreuil, France

[email protected]

Xiaoqing DingDept. of Electronic Engineering

Tsinghua UniversityBeijing, 100084, China

[email protected]

Yang NiInstitut National des Télécommunications

Département Electronique et Physique9,Rue Charles Fourier

91011 Evry [email protected]

Page 2: Interfaces multimodales pour un assistant au voyage Alain Goyé, Eric Lecolinet, Shiuan-Sung Lin, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris.

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

Contexte : le projet Contexte : le projet LINGTOURLINGTOUR• Une gestion multilingue des informations, • Initialement, un Initialement, un PDA pour voyageursPDA pour voyageurs : :

– Guide virtuelGuide virtuel : : moyen rapide et facile d’accéder à des moyen rapide et facile d’accéder à des informations utiles au touriste (pratiques et culturelles)informations utiles au touriste (pratiques et culturelles)

– Assistant de communicationAssistant de communication : : aide à la traduction, aide à la traduction, navigation dans un lexique et dans des conversations-typesnavigation dans un lexique et dans des conversations-types

– Assistant d’orientationAssistant d’orientation : : aide à s’orienter et à aide à s’orienter et à interpréter l’environnement, d’après des informations interpréter l’environnement, d’après des informations collectées localementcollectées localement

• Un assistant personnel (PDA ou smartphone) Un assistant personnel (PDA ou smartphone) plus plus convivialconvivial par la par la multimodalitémultimodalité : :– desdes entrées entrées (texte, parole, stylet, images) (texte, parole, stylet, images)– desdes sorties sorties (texte, parole, image, video) (texte, parole, image, video)

Page 3: Interfaces multimodales pour un assistant au voyage Alain Goyé, Eric Lecolinet, Shiuan-Sung Lin, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris.

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

Objectif :Exploiter les spécificités du PDA

On cherche une exploitation optimale des possibilités du PDA pour la multimodalité : – Utiliser conjointement, en l’absence de clavier,

les entrées de l’écran tactile, du microphone et de la caméra, et

– Exploiter alternativement ou simultanément les possibilités graphiques et sonores, selon le contexte, pour présenter l’information.

Page 4: Interfaces multimodales pour un assistant au voyage Alain Goyé, Eric Lecolinet, Shiuan-Sung Lin, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris.

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

3 types d’interfaces 3 types d’interfaces multimodalesmultimodales• Geste et voix :Geste et voix :

Combinaison Combinaison Control menus + entrées vocalesControl menus + entrées vocales– Contrôlant des interfaces zoomables vers entrées Contrôlant des interfaces zoomables vers entrées

graphiques ou textuellesgraphiques ou textuelles

• Caméra intelligente :Caméra intelligente : Affinement d’imagesAffinement d’images – Basé sur la corrélation d’une séquence d’imagesBasé sur la corrélation d’une séquence d’images– Pour améliorer la reconnaissance de caractèresPour améliorer la reconnaissance de caractères

• Agents culturels :Agents culturels : Agents conversationnelsAgents conversationnels animés animés adaptés à la adaptés à la cultureculture– Ajoutant à la parole des comportements non-verbaux : Ajoutant à la parole des comportements non-verbaux :

visage, regard, gestuelle, dépendants de la culturevisage, regard, gestuelle, dépendants de la culture

Page 5: Interfaces multimodales pour un assistant au voyage Alain Goyé, Eric Lecolinet, Shiuan-Sung Lin, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris.

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

ZUIs et Control menus 2DZUIs et Control menus 2D• Contraintes du PDA : taille Contraintes du PDA : taille

d’écrand’écran• ZUIs : interfaces ZUIs : interfaces

utilisateurs zoomablesutilisateurs zoomables– Concept de Concept de zoom sémantique zoom sémantique

::Révélation progressive de Révélation progressive de niveaux de détailniveaux de détail

• Control menus Control menus [1][1] : :– Sélection + contrôleSélection + contrôle de de

l’action (déplacement, zoom) l’action (déplacement, zoom) en 1 seul gesteen 1 seul geste

– Pas de changement de Pas de changement de contexte, pas de manipulation contexte, pas de manipulation de multiples interacteurs pour de multiples interacteurs pour une seule opérationune seule opération

Geste et voixGeste et voix

[1][1] Pook, S., Lecolinet, E., Vaysseix, G. et Barillot, E., Control Menus: Execution and Control in a Single Interactor. Proc. ACM conf. on Human Factors in Computing Systems (CHI) 2000, 263-264. ACM Press.

Page 6: Interfaces multimodales pour un assistant au voyage Alain Goyé, Eric Lecolinet, Shiuan-Sung Lin, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris.

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

Caractéristiques des control Caractéristiques des control menusmenus

– Combinent Combinent la sélection et le contrôlela sélection et le contrôle d’une d’une opération en 1 seul gesteopération en 1 seul geste

– Peuvent intégrer jusqu’à Peuvent intégrer jusqu’à 2 barres de défilement 2 barres de défilement (vertical et horizontal)(vertical et horizontal)

– L’utilisateur concentre son attention sur le L’utilisateur concentre son attention sur le contenucontenu– Peuvent avoir des Peuvent avoir des sous-menussous-menus– Comme les Pie menus Comme les Pie menus [2][2] et les Marking menus et les Marking menus [3][3], ,

offrent un offrent un mode novice et un mode expertmode novice et un mode expert• La disposition spatiale des menus aide la mémorisation La disposition spatiale des menus aide la mémorisation • Gestes rapides => les menus n’apparaissent plus à l’écranGestes rapides => les menus n’apparaissent plus à l’écran• Passage implicite d’un mode à l’autrePassage implicite d’un mode à l’autre

[2][2] Hopkins, D., The design and implementation of Pie menus. Dr Dobb's journal of software tools, 1991, 16 (12), 16-26.[3][3] Kurtenbach, G. et al., The Hotbox: efficient access to a large number of menu-items. Proc. ACM – CHI, 1993, 231-327.

Geste et voixGeste et voix

Page 7: Interfaces multimodales pour un assistant au voyage Alain Goyé, Eric Lecolinet, Shiuan-Sung Lin, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris.

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

Application des control Application des control menusmenus• navigation dans un

plan de ville, • navigation dans un

lexique :– mots et phrases

utiles au touriste, – hiérarchisés en

catégories telles que : hébergement > hôtel > réservation….

Geste et voixGeste et voix

Page 8: Interfaces multimodales pour un assistant au voyage Alain Goyé, Eric Lecolinet, Shiuan-Sung Lin, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris.

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

La voix : reconnaissance multilingue• moteur de reconnaissance vocale :

– vocabulaire limité, mais– indépendant du locuteur,– aucun apprentissage.

• la reconnaissance dans différentes langues :– partage des modèles acoustiques communs, ce qui

facilite les extensions futures à de nouvelles langues.– modèles adaptables à l’utilisateur et aux conditions

d’usage.

Français

ChinoisModèlesacoustiquescommuns

Modèles spécifiques à la langue

Geste et voixGeste et voix

Page 9: Interfaces multimodales pour un assistant au voyage Alain Goyé, Eric Lecolinet, Shiuan-Sung Lin, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris.

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

La voix se joint au geste…La voix se joint au geste…L’information vocale est employée

différemment selon le contexte : • Navigation dans le plan :

« tap and talk » : accès par un menu vocal à diverses informations sur l’objet pointé.

• Navigation dans le lexique :– comme raccourci d’accès aux

catégories, puis – pour l’accès à une entrée, mot ou

phrase. La traduction sera affichée / synthétisée dans la langue cible.

• A terme, amélioration par capture des mots-clés ("word spotting").

Geste et voixGeste et voix

Page 10: Interfaces multimodales pour un assistant au voyage Alain Goyé, Eric Lecolinet, Shiuan-Sung Lin, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris.

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

La caméra « intelligente »• Voir, reconnaître, traduireVoir, reconnaître, traduire

La reconnaissance de caractères – chinois en particulier – atteint aujourd’hui de bonnes performances.

• Pour limiter la charge de calcul :– Reconnaissance effectuée sur une sous-partie de l’image. – Cette sous-partie peut être sélectionnée semi-

automatiquement lors de l’étape de délimitation et segmentation préalable.

• Le texte une fois reconnu peut être traduit :– Localement

• Pour faciliter la traduction, un menu vocal permet de choisir le contexte : panneau de bus ou de rue, monument, etc.

– Ou par un serveur distant via un service de radiocommunication.

• Il peut également être restitué par synthèse vocale

Caméra Caméra intelligenteintelligente

Page 11: Interfaces multimodales pour un assistant au voyage Alain Goyé, Eric Lecolinet, Shiuan-Sung Lin, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris.

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

Usage de la caméraUsage de la caméra [4] [4]

capturereco

traduction

Caméra Caméra intelligenteintelligente

[4][4] Mao, Y., Dong, Q., Qi Y. et Chollet, G. Realization of an Intelligent Camera capable of Character Recognition and Translation. Proc. of Sino-French Symp. on Speech and Language Processing, Beijing, October 2000.

Disponible à l’adresse : http://www.tsi.enst.fr/~chollet/Projets/Chine/Lingtour/IntelCamera.doc

Page 12: Interfaces multimodales pour un assistant au voyage Alain Goyé, Eric Lecolinet, Shiuan-Sung Lin, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris.

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

Améliorer la résolution Améliorer la résolution d’imaged’image• Difficulté :Difficulté :

– image saisie à distance dans la rue– caméra bon marchéqualité / résolution insuffisante pour la

reconnaissance• Solution : affinement des images

– corrélation et recalage d’une séquence d’images successives.

– exploite les légères différences dues au mouvement naturel de la main qui tient l’appareil.

image de résolution supérieure à celle du capteur.

Caméra Caméra intelligenteintelligente

Page 13: Interfaces multimodales pour un assistant au voyage Alain Goyé, Eric Lecolinet, Shiuan-Sung Lin, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris.

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

Principe d’affinement des Principe d’affinement des imagesimages

Caméra sur le PDA

Vibration de la main

Acquisition d ’une séquence d ’images

Estimation des mouvements(sub-pixel)

Imagede meilleure

résolution

Recomposition en une seule image

Caméra Caméra intelligenteintelligente

Page 14: Interfaces multimodales pour un assistant au voyage Alain Goyé, Eric Lecolinet, Shiuan-Sung Lin, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris.

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

Affinement des Affinement des images : résultatsimages : résultatsAmélioration notable :

– de la qualité visuelle – du taux de

reconnaissance des caractères

Caméra Caméra intelligenteintelligente

Page 15: Interfaces multimodales pour un assistant au voyage Alain Goyé, Eric Lecolinet, Shiuan-Sung Lin, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris.

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

Agents conversationnels : Agents conversationnels : intérêtintérêt• Ils permettent [5] de transmettre une

information de manière plus attractive et conviviale qu’une simple synthèse vocale.

• Les expressions nonverbales permettent :– de désambiguiser un discours, – de renforcer certains mots ou parties

du discours…• Elles fournissent des informations à

différents niveaux :– syntaxique – sémantique – émotionnel

• Dans un contexte multiculturel, une démonstration visuelle peut aussi être le meilleur vecteur d’enseignement de certains usages.

Agents Agents culturelsculturels

[5][5] Pelachaud, C., Carofiglio, V., De Carolis, B. et de Rosis, F., Embodied Contextual Agent in Information Delivering Application, First Intl. Joint Conf. on Autonomous Agents & Multi-Agent Systems, Bologna, July 2002

Page 16: Interfaces multimodales pour un assistant au voyage Alain Goyé, Eric Lecolinet, Shiuan-Sung Lin, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris.

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

« Greta » : moteur d’animation faciale• Objectif : un modèle animé capable de simuler de

manière rapide et réaliste les aspects dynamiques du visage humain.

• Réalisation : un moteur d’animation faciale dont le modèle 3D a l’allure d’une jeune femme.

• Greta est :– le noyau d’un décodeur MPEG-4– conforme aux spécifications “Simple Facial Animation

Object Profile" du standard. – capable :

• De générer la structure d’un modèle original, • D’animer celui-ci, • De le restituer en temps réel.

Agents Agents culturelsculturels

Page 17: Interfaces multimodales pour un assistant au voyage Alain Goyé, Eric Lecolinet, Shiuan-Sung Lin, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris.

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

Adapter les agents Adapter les agents conversationnelsconversationnels• Portage sur PDAPortage sur PDA d’agents animés. d’agents animés.

– la la puissancepuissance et à la et à la taille d’écrantaille d’écran de l’appareil sont limités de l’appareil sont limités– la la complexitécomplexité et le et le niveau de détailniveau de détail de l’animation doivent de l’animation doivent

être adaptés. être adaptés.

• Adaptation du comportement à l’utilisateurAdaptation du comportement à l’utilisateur : :Malgré de grands progrès récents en matière de réalisme, les Malgré de grands progrès récents en matière de réalisme, les

agents actuels ne connaissent qu’un type de agents actuels ne connaissent qu’un type de comportement, qui reflète le plus souvent la culture comportement, qui reflète le plus souvent la culture occidentale. occidentale.

Adaptation au Adaptation au contexte culturel et socialcontexte culturel et social : : La même information doit être délivrée différemment, par La même information doit être délivrée différemment, par

exemple: exemple: • à un Français et à un Chinois, à un Français et à un Chinois, • à un journaliste et à un particulier. à un journaliste et à un particulier.

Agents Agents culturelsculturels

Page 18: Interfaces multimodales pour un assistant au voyage Alain Goyé, Eric Lecolinet, Shiuan-Sung Lin, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris.

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

Agents conversationnels Agents conversationnels culturels : représentation culturels : représentation sémantiquesémantique

• Base : représentation sémantique indépendante Base : représentation sémantique indépendante de la langue, basée sur le standard de la langue, basée sur le standard XML-XSDXML-XSD..– description de la fonction communicative des gestes et description de la fonction communicative des gestes et

des signaux composant les gestes. des signaux composant les gestes.

• Sur-couche d’attributs spécifiques à la cultureSur-couche d’attributs spécifiques à la culture, qui , qui influeront sur :influeront sur :– le le choix d’un gestechoix d’un geste (sourire ou hochement de tête), (sourire ou hochement de tête),– la la durée d’un regarddurée d’un regard… … Plus généralement, ces influences peuvent porter sur :Plus généralement, ces influences peuvent porter sur :– la la définition d’un signal définition d’un signal (masquage(masquage d’un signal par un d’un signal par un

autre), autre), – son son intensitéintensité, , – Sa Sa duréedurée, etc., etc.

Page 19: Interfaces multimodales pour un assistant au voyage Alain Goyé, Eric Lecolinet, Shiuan-Sung Lin, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris.

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

Agents conversationnels Agents conversationnels culturels…culturels…

dans certaines cultures,

ne pas regarder son interlocuteur peut être perçu comme un manque

d'attention / d’intérêt…

dans d’autres cultures,

regarder droit dans les yeux peut être interprété comme une forme

d'agression…

Agents Agents culturelsculturels

Page 20: Interfaces multimodales pour un assistant au voyage Alain Goyé, Eric Lecolinet, Shiuan-Sung Lin, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris.

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

Résultats attendusRésultats attendusA l’issue de ce projet en cours, nous souhaitons être

en mesure de démontrer : • 1) la possibilité d’intégrer sur un terminal mobile

(PDA, smartphone…) les parties existantes des diverses interfaces présentées ici : – Control menus 2D, – capture et reconnaissance de texte, – agents conversationnels.

• 2) les bénéfices des améliorations que nous proposons pour chacune de ces fonctionnalités : – intégration de commandes vocales dans les menus, – affinement des images par corrélation spatio-temporelle,– enrichissement des agents par des attributs culturels.

Geste et voixGeste et voixCaméra Caméra

intelligenteintelligenteAgents culturelsAgents culturels


Recommended