Date post: | 03-Apr-2015 |
Category: |
Documents |
Upload: | didiane-benoist |
View: | 104 times |
Download: | 0 times |
Interfaces multimodales pour un assistant au
voyage
Alain Goyé, Eric Lecolinet, Shiuan-Sung Lin, Gérard Chollet
GET-ENST46, rue Barrault
75634 Paris Cedex 13goye | elc | lin | [email protected]
Catherine PelachaudIUT de Montreuil - Université Paris 8
140, rue de la Nouvelle France93100 Montreuil, France
Xiaoqing DingDept. of Electronic Engineering
Tsinghua UniversityBeijing, 100084, China
Yang NiInstitut National des Télécommunications
Département Electronique et Physique9,Rue Charles Fourier
91011 Evry [email protected]
Interfaces multimodales Interfaces multimodales
pour un assistant au voyagepour un assistant au voyage
Contexte : le projet Contexte : le projet LINGTOURLINGTOUR• Une gestion multilingue des informations, • Initialement, un Initialement, un PDA pour voyageursPDA pour voyageurs : :
– Guide virtuelGuide virtuel : : moyen rapide et facile d’accéder à des moyen rapide et facile d’accéder à des informations utiles au touriste (pratiques et culturelles)informations utiles au touriste (pratiques et culturelles)
– Assistant de communicationAssistant de communication : : aide à la traduction, aide à la traduction, navigation dans un lexique et dans des conversations-typesnavigation dans un lexique et dans des conversations-types
– Assistant d’orientationAssistant d’orientation : : aide à s’orienter et à aide à s’orienter et à interpréter l’environnement, d’après des informations interpréter l’environnement, d’après des informations collectées localementcollectées localement
• Un assistant personnel (PDA ou smartphone) Un assistant personnel (PDA ou smartphone) plus plus convivialconvivial par la par la multimodalitémultimodalité : :– desdes entrées entrées (texte, parole, stylet, images) (texte, parole, stylet, images)– desdes sorties sorties (texte, parole, image, video) (texte, parole, image, video)
Interfaces multimodales Interfaces multimodales
pour un assistant au voyagepour un assistant au voyage
Objectif :Exploiter les spécificités du PDA
On cherche une exploitation optimale des possibilités du PDA pour la multimodalité : – Utiliser conjointement, en l’absence de clavier,
les entrées de l’écran tactile, du microphone et de la caméra, et
– Exploiter alternativement ou simultanément les possibilités graphiques et sonores, selon le contexte, pour présenter l’information.
Interfaces multimodales Interfaces multimodales
pour un assistant au voyagepour un assistant au voyage
3 types d’interfaces 3 types d’interfaces multimodalesmultimodales• Geste et voix :Geste et voix :
Combinaison Combinaison Control menus + entrées vocalesControl menus + entrées vocales– Contrôlant des interfaces zoomables vers entrées Contrôlant des interfaces zoomables vers entrées
graphiques ou textuellesgraphiques ou textuelles
• Caméra intelligente :Caméra intelligente : Affinement d’imagesAffinement d’images – Basé sur la corrélation d’une séquence d’imagesBasé sur la corrélation d’une séquence d’images– Pour améliorer la reconnaissance de caractèresPour améliorer la reconnaissance de caractères
• Agents culturels :Agents culturels : Agents conversationnelsAgents conversationnels animés animés adaptés à la adaptés à la cultureculture– Ajoutant à la parole des comportements non-verbaux : Ajoutant à la parole des comportements non-verbaux :
visage, regard, gestuelle, dépendants de la culturevisage, regard, gestuelle, dépendants de la culture
Interfaces multimodales Interfaces multimodales
pour un assistant au voyagepour un assistant au voyage
ZUIs et Control menus 2DZUIs et Control menus 2D• Contraintes du PDA : taille Contraintes du PDA : taille
d’écrand’écran• ZUIs : interfaces ZUIs : interfaces
utilisateurs zoomablesutilisateurs zoomables– Concept de Concept de zoom sémantique zoom sémantique
::Révélation progressive de Révélation progressive de niveaux de détailniveaux de détail
• Control menus Control menus [1][1] : :– Sélection + contrôleSélection + contrôle de de
l’action (déplacement, zoom) l’action (déplacement, zoom) en 1 seul gesteen 1 seul geste
– Pas de changement de Pas de changement de contexte, pas de manipulation contexte, pas de manipulation de multiples interacteurs pour de multiples interacteurs pour une seule opérationune seule opération
Geste et voixGeste et voix
[1][1] Pook, S., Lecolinet, E., Vaysseix, G. et Barillot, E., Control Menus: Execution and Control in a Single Interactor. Proc. ACM conf. on Human Factors in Computing Systems (CHI) 2000, 263-264. ACM Press.
Interfaces multimodales Interfaces multimodales
pour un assistant au voyagepour un assistant au voyage
Caractéristiques des control Caractéristiques des control menusmenus
– Combinent Combinent la sélection et le contrôlela sélection et le contrôle d’une d’une opération en 1 seul gesteopération en 1 seul geste
– Peuvent intégrer jusqu’à Peuvent intégrer jusqu’à 2 barres de défilement 2 barres de défilement (vertical et horizontal)(vertical et horizontal)
– L’utilisateur concentre son attention sur le L’utilisateur concentre son attention sur le contenucontenu– Peuvent avoir des Peuvent avoir des sous-menussous-menus– Comme les Pie menus Comme les Pie menus [2][2] et les Marking menus et les Marking menus [3][3], ,
offrent un offrent un mode novice et un mode expertmode novice et un mode expert• La disposition spatiale des menus aide la mémorisation La disposition spatiale des menus aide la mémorisation • Gestes rapides => les menus n’apparaissent plus à l’écranGestes rapides => les menus n’apparaissent plus à l’écran• Passage implicite d’un mode à l’autrePassage implicite d’un mode à l’autre
[2][2] Hopkins, D., The design and implementation of Pie menus. Dr Dobb's journal of software tools, 1991, 16 (12), 16-26.[3][3] Kurtenbach, G. et al., The Hotbox: efficient access to a large number of menu-items. Proc. ACM – CHI, 1993, 231-327.
Geste et voixGeste et voix
Interfaces multimodales Interfaces multimodales
pour un assistant au voyagepour un assistant au voyage
Application des control Application des control menusmenus• navigation dans un
plan de ville, • navigation dans un
lexique :– mots et phrases
utiles au touriste, – hiérarchisés en
catégories telles que : hébergement > hôtel > réservation….
Geste et voixGeste et voix
Interfaces multimodales Interfaces multimodales
pour un assistant au voyagepour un assistant au voyage
La voix : reconnaissance multilingue• moteur de reconnaissance vocale :
– vocabulaire limité, mais– indépendant du locuteur,– aucun apprentissage.
• la reconnaissance dans différentes langues :– partage des modèles acoustiques communs, ce qui
facilite les extensions futures à de nouvelles langues.– modèles adaptables à l’utilisateur et aux conditions
d’usage.
Français
ChinoisModèlesacoustiquescommuns
Modèles spécifiques à la langue
Geste et voixGeste et voix
Interfaces multimodales Interfaces multimodales
pour un assistant au voyagepour un assistant au voyage
La voix se joint au geste…La voix se joint au geste…L’information vocale est employée
différemment selon le contexte : • Navigation dans le plan :
« tap and talk » : accès par un menu vocal à diverses informations sur l’objet pointé.
• Navigation dans le lexique :– comme raccourci d’accès aux
catégories, puis – pour l’accès à une entrée, mot ou
phrase. La traduction sera affichée / synthétisée dans la langue cible.
• A terme, amélioration par capture des mots-clés ("word spotting").
Geste et voixGeste et voix
Interfaces multimodales Interfaces multimodales
pour un assistant au voyagepour un assistant au voyage
La caméra « intelligente »• Voir, reconnaître, traduireVoir, reconnaître, traduire
La reconnaissance de caractères – chinois en particulier – atteint aujourd’hui de bonnes performances.
• Pour limiter la charge de calcul :– Reconnaissance effectuée sur une sous-partie de l’image. – Cette sous-partie peut être sélectionnée semi-
automatiquement lors de l’étape de délimitation et segmentation préalable.
• Le texte une fois reconnu peut être traduit :– Localement
• Pour faciliter la traduction, un menu vocal permet de choisir le contexte : panneau de bus ou de rue, monument, etc.
– Ou par un serveur distant via un service de radiocommunication.
• Il peut également être restitué par synthèse vocale
Caméra Caméra intelligenteintelligente
Interfaces multimodales Interfaces multimodales
pour un assistant au voyagepour un assistant au voyage
Usage de la caméraUsage de la caméra [4] [4]
capturereco
traduction
Caméra Caméra intelligenteintelligente
[4][4] Mao, Y., Dong, Q., Qi Y. et Chollet, G. Realization of an Intelligent Camera capable of Character Recognition and Translation. Proc. of Sino-French Symp. on Speech and Language Processing, Beijing, October 2000.
Disponible à l’adresse : http://www.tsi.enst.fr/~chollet/Projets/Chine/Lingtour/IntelCamera.doc
Interfaces multimodales Interfaces multimodales
pour un assistant au voyagepour un assistant au voyage
Améliorer la résolution Améliorer la résolution d’imaged’image• Difficulté :Difficulté :
– image saisie à distance dans la rue– caméra bon marchéqualité / résolution insuffisante pour la
reconnaissance• Solution : affinement des images
– corrélation et recalage d’une séquence d’images successives.
– exploite les légères différences dues au mouvement naturel de la main qui tient l’appareil.
image de résolution supérieure à celle du capteur.
Caméra Caméra intelligenteintelligente
Interfaces multimodales Interfaces multimodales
pour un assistant au voyagepour un assistant au voyage
Principe d’affinement des Principe d’affinement des imagesimages
Caméra sur le PDA
Vibration de la main
Acquisition d ’une séquence d ’images
Estimation des mouvements(sub-pixel)
Imagede meilleure
résolution
Recomposition en une seule image
Caméra Caméra intelligenteintelligente
Interfaces multimodales Interfaces multimodales
pour un assistant au voyagepour un assistant au voyage
Affinement des Affinement des images : résultatsimages : résultatsAmélioration notable :
– de la qualité visuelle – du taux de
reconnaissance des caractères
Caméra Caméra intelligenteintelligente
Interfaces multimodales Interfaces multimodales
pour un assistant au voyagepour un assistant au voyage
Agents conversationnels : Agents conversationnels : intérêtintérêt• Ils permettent [5] de transmettre une
information de manière plus attractive et conviviale qu’une simple synthèse vocale.
• Les expressions nonverbales permettent :– de désambiguiser un discours, – de renforcer certains mots ou parties
du discours…• Elles fournissent des informations à
différents niveaux :– syntaxique – sémantique – émotionnel
• Dans un contexte multiculturel, une démonstration visuelle peut aussi être le meilleur vecteur d’enseignement de certains usages.
Agents Agents culturelsculturels
[5][5] Pelachaud, C., Carofiglio, V., De Carolis, B. et de Rosis, F., Embodied Contextual Agent in Information Delivering Application, First Intl. Joint Conf. on Autonomous Agents & Multi-Agent Systems, Bologna, July 2002
Interfaces multimodales Interfaces multimodales
pour un assistant au voyagepour un assistant au voyage
« Greta » : moteur d’animation faciale• Objectif : un modèle animé capable de simuler de
manière rapide et réaliste les aspects dynamiques du visage humain.
• Réalisation : un moteur d’animation faciale dont le modèle 3D a l’allure d’une jeune femme.
• Greta est :– le noyau d’un décodeur MPEG-4– conforme aux spécifications “Simple Facial Animation
Object Profile" du standard. – capable :
• De générer la structure d’un modèle original, • D’animer celui-ci, • De le restituer en temps réel.
Agents Agents culturelsculturels
Interfaces multimodales Interfaces multimodales
pour un assistant au voyagepour un assistant au voyage
Adapter les agents Adapter les agents conversationnelsconversationnels• Portage sur PDAPortage sur PDA d’agents animés. d’agents animés.
– la la puissancepuissance et à la et à la taille d’écrantaille d’écran de l’appareil sont limités de l’appareil sont limités– la la complexitécomplexité et le et le niveau de détailniveau de détail de l’animation doivent de l’animation doivent
être adaptés. être adaptés.
• Adaptation du comportement à l’utilisateurAdaptation du comportement à l’utilisateur : :Malgré de grands progrès récents en matière de réalisme, les Malgré de grands progrès récents en matière de réalisme, les
agents actuels ne connaissent qu’un type de agents actuels ne connaissent qu’un type de comportement, qui reflète le plus souvent la culture comportement, qui reflète le plus souvent la culture occidentale. occidentale.
Adaptation au Adaptation au contexte culturel et socialcontexte culturel et social : : La même information doit être délivrée différemment, par La même information doit être délivrée différemment, par
exemple: exemple: • à un Français et à un Chinois, à un Français et à un Chinois, • à un journaliste et à un particulier. à un journaliste et à un particulier.
Agents Agents culturelsculturels
Interfaces multimodales Interfaces multimodales
pour un assistant au voyagepour un assistant au voyage
Agents conversationnels Agents conversationnels culturels : représentation culturels : représentation sémantiquesémantique
• Base : représentation sémantique indépendante Base : représentation sémantique indépendante de la langue, basée sur le standard de la langue, basée sur le standard XML-XSDXML-XSD..– description de la fonction communicative des gestes et description de la fonction communicative des gestes et
des signaux composant les gestes. des signaux composant les gestes.
• Sur-couche d’attributs spécifiques à la cultureSur-couche d’attributs spécifiques à la culture, qui , qui influeront sur :influeront sur :– le le choix d’un gestechoix d’un geste (sourire ou hochement de tête), (sourire ou hochement de tête),– la la durée d’un regarddurée d’un regard… … Plus généralement, ces influences peuvent porter sur :Plus généralement, ces influences peuvent porter sur :– la la définition d’un signal définition d’un signal (masquage(masquage d’un signal par un d’un signal par un
autre), autre), – son son intensitéintensité, , – Sa Sa duréedurée, etc., etc.
Interfaces multimodales Interfaces multimodales
pour un assistant au voyagepour un assistant au voyage
Agents conversationnels Agents conversationnels culturels…culturels…
dans certaines cultures,
ne pas regarder son interlocuteur peut être perçu comme un manque
d'attention / d’intérêt…
dans d’autres cultures,
regarder droit dans les yeux peut être interprété comme une forme
d'agression…
Agents Agents culturelsculturels
Interfaces multimodales Interfaces multimodales
pour un assistant au voyagepour un assistant au voyage
Résultats attendusRésultats attendusA l’issue de ce projet en cours, nous souhaitons être
en mesure de démontrer : • 1) la possibilité d’intégrer sur un terminal mobile
(PDA, smartphone…) les parties existantes des diverses interfaces présentées ici : – Control menus 2D, – capture et reconnaissance de texte, – agents conversationnels.
• 2) les bénéfices des améliorations que nous proposons pour chacune de ces fonctionnalités : – intégration de commandes vocales dans les menus, – affinement des images par corrélation spatio-temporelle,– enrichissement des agents par des attributs culturels.
Geste et voixGeste et voixCaméra Caméra
intelligenteintelligenteAgents culturelsAgents culturels