+ All Categories
Home > Documents > LINGTOUR: a PDA for tourists Alain Goyé, Eric Lecolinet, Mutsuko Tomokiyo, Gérard Chollet GET-ENST...

LINGTOUR: a PDA for tourists Alain Goyé, Eric Lecolinet, Mutsuko Tomokiyo, Gérard Chollet GET-ENST...

Date post: 03-Apr-2015
Category:
Upload: benjamin-tissier
View: 108 times
Download: 2 times
Share this document with a friend
Popular Tags:
23
LINGTOUR: a PDA for tourists Alain Goyé, Eric Lecolinet, Mutsuko Tomokiyo, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris Cedex 13 goye | elc | lin | [email protected] Catherine Pelachaud IUT de Montreuil - Université Paris 8 140, rue de la Nouvelle France 93100 Montreuil, France [email protected] Ding Xiaoqing, Mao Yuhang Dept. of Electronic Engineering Tsinghua University Beijing, 100084, China [email protected] Ni Yang Institut National des Télécommunications Département Electronique et Physique 9,Rue Charles Fourier 91011 Evry Cedex-France [email protected]
Transcript
Page 1: LINGTOUR: a PDA for tourists Alain Goyé, Eric Lecolinet, Mutsuko Tomokiyo, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris Cedex 13 goye | elc |

LINGTOUR:a PDA for tourists

Alain Goyé, Eric Lecolinet, Mutsuko Tomokiyo, Gérard Chollet

GET-ENST46, rue Barrault

75634 Paris Cedex 13goye | elc | lin | [email protected]

Catherine PelachaudIUT de Montreuil - Université Paris 8

140, rue de la Nouvelle France93100 Montreuil, France

[email protected]

Ding Xiaoqing, Mao YuhangDept. of Electronic Engineering

Tsinghua UniversityBeijing, 100084, China

[email protected]

Ni Yang Institut National des Télécommunications

Département Electronique et Physique9,Rue Charles Fourier

91011 Evry [email protected]

Page 2: LINGTOUR: a PDA for tourists Alain Goyé, Eric Lecolinet, Mutsuko Tomokiyo, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris Cedex 13 goye | elc |

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

LINGTOUR: an historyLINGTOUR: an history

• Collaboration with TsingHua Collaboration with TsingHua University :University :– Memorandum of understanding (2000)Memorandum of understanding (2000)– Vocal French-Chinese dictionary with Vocal French-Chinese dictionary with Le Le

RobertRobert– Master thesis of Master thesis of Dong QingfuDong Qingfu: :

« « Realization of Intelligent Camera Realization of Intelligent Camera Capable of Character Recognition and Capable of Character Recognition and TranslationTranslation » »

   

Page 3: LINGTOUR: a PDA for tourists Alain Goyé, Eric Lecolinet, Mutsuko Tomokiyo, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris Cedex 13 goye | elc |

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

The LINGTOUR projectThe LINGTOUR project• Multilingual management of information, • Initially, a Initially, a PDA for travellersPDA for travellers : :

– Virtual guideVirtual guide : : access to multilingual information for access to multilingual information for tourists (practical and cultural)tourists (practical and cultural)

– Communication assistantCommunication assistant: : translation help, navigation translation help, navigation within a lexicon and access to typical conversations within a lexicon and access to typical conversations

– Travel assistantTravel assistant : : orientation and environment orientation and environment interpretation using local and positioning informationinterpretation using local and positioning information

• A personal assistant (PDA or smartphone) A personal assistant (PDA or smartphone) with with multimodalmultimodal and and ergonomicergonomic capabilities :capabilities :– inputsinputs (text, speech, stylus, images) (text, speech, stylus, images)– outputsoutputs (text, speech, images, video) (text, speech, images, video)

Page 4: LINGTOUR: a PDA for tourists Alain Goyé, Eric Lecolinet, Mutsuko Tomokiyo, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris Cedex 13 goye | elc |

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

Interactions PDA - serveurInteractions PDA - serveur

Navigation multimodale dans plans et lexiques

Tsinghua University

Prise de son

Sélection / extraction de texte

Raffinement / corrections de l’image

Images, son

Images, son, texte

Reconnaissance de caractères,Reconnaissance vocale,Traduction multilingue, Synthèse de parole

Supervision

Page 5: LINGTOUR: a PDA for tourists Alain Goyé, Eric Lecolinet, Mutsuko Tomokiyo, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris Cedex 13 goye | elc |

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

Exploiter les spécificités du PDA

• On cherche une exploitation optimale des possibilités du PDA pour la multimodalité : – Utiliser conjointement, en l’absence de clavier, les entrées de

l’écran tactile, du microphone et de la caméra, et – Exploiter alternativement ou simultanément les possibilités

graphiques et sonores, selon le contexte, pour présenter l’information.

• Le PDA est connecté chaque fois que possible à Internet:– Pour télécharger des informations d’actualité– Pour permettre de déporter sur un serveur distant les tâches:

• Trop complexes • Ou trop coûteuses en mémoire

– Pour permettre l’intervention si nécessaire d’un opérateur humain

Page 6: LINGTOUR: a PDA for tourists Alain Goyé, Eric Lecolinet, Mutsuko Tomokiyo, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris Cedex 13 goye | elc |

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

3 types d’interfaces 3 types d’interfaces multimodalesmultimodales• Geste et voix :Geste et voix :

Combinaison Combinaison Control menus + entrées vocalesControl menus + entrées vocales– Contrôlant des interfaces zoomables vers entrées Contrôlant des interfaces zoomables vers entrées

graphiques ou textuellesgraphiques ou textuelles

• Caméra intelligente :Caméra intelligente : Affinement d’imagesAffinement d’images – Basé sur la corrélation d’une séquence d’imagesBasé sur la corrélation d’une séquence d’images– Pour améliorer la reconnaissance de caractèresPour améliorer la reconnaissance de caractères

• Agents culturels :Agents culturels : Agents conversationnelsAgents conversationnels animés animés adaptés à la adaptés à la cultureculture– Ajoutant à la parole des comportements non-verbaux : Ajoutant à la parole des comportements non-verbaux :

visage, regard, gestuelle, dépendants de la culturevisage, regard, gestuelle, dépendants de la culture

Page 7: LINGTOUR: a PDA for tourists Alain Goyé, Eric Lecolinet, Mutsuko Tomokiyo, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris Cedex 13 goye | elc |

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

ZUIs et Control menus 2DZUIs et Control menus 2D• Contraintes du PDA : taille Contraintes du PDA : taille

d’écrand’écran• ZUIs : interfaces ZUIs : interfaces

utilisateurs zoomablesutilisateurs zoomables– Concept de Concept de zoom sémantique zoom sémantique

::Révélation progressive de Révélation progressive de niveaux de détailniveaux de détail

• Control menus Control menus [1][1] : :– Sélection + contrôleSélection + contrôle de de

l’action (déplacement, zoom) l’action (déplacement, zoom) en 1 seul gesteen 1 seul geste

– Pas de changement de Pas de changement de contexte, pas de manipulation contexte, pas de manipulation de multiples interacteurs pour de multiples interacteurs pour une seule opérationune seule opération

Geste et voixGeste et voix

[1][1] Pook, S., Lecolinet, E., Vaysseix, G. et Barillot, E., Control Menus: Execution and Control in a Single Interactor. Proc. ACM conf. on Human Factors in Computing Systems (CHI) 2000, 263-264. ACM Press.

Page 8: LINGTOUR: a PDA for tourists Alain Goyé, Eric Lecolinet, Mutsuko Tomokiyo, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris Cedex 13 goye | elc |

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

Caractéristiques des control Caractéristiques des control menusmenus

– Combinent Combinent la sélection et le contrôlela sélection et le contrôle d’une d’une opération en 1 seul gesteopération en 1 seul geste

– Peuvent intégrer jusqu’à Peuvent intégrer jusqu’à 2 barres de défilement 2 barres de défilement (vertical et horizontal)(vertical et horizontal)

– L’utilisateur concentre son attention sur le L’utilisateur concentre son attention sur le contenucontenu– Peuvent avoir des Peuvent avoir des sous-menussous-menus– Comme les Pie menus Comme les Pie menus [2][2] et les Marking menus et les Marking menus [3][3], ,

offrent un offrent un mode novice et un mode expertmode novice et un mode expert• La disposition spatiale des menus aide la mémorisation La disposition spatiale des menus aide la mémorisation • Gestes rapides => les menus n’apparaissent plus à l’écranGestes rapides => les menus n’apparaissent plus à l’écran• Passage implicite d’un mode à l’autrePassage implicite d’un mode à l’autre

[2][2] Hopkins, D., The design and implementation of Pie menus. Dr Dobb's journal of software tools, 1991, 16 (12), 16-26.[3][3] Kurtenbach, G. et al., The Hotbox: efficient access to a large number of menu-items. Proc. ACM – CHI, 1993, 231-327.

Geste et voixGeste et voix

Page 9: LINGTOUR: a PDA for tourists Alain Goyé, Eric Lecolinet, Mutsuko Tomokiyo, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris Cedex 13 goye | elc |

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

Application des control Application des control menusmenus• navigation dans un

plan de ville, • navigation dans un

lexique :– mots et phrases

utiles au touriste, – hiérarchisés en

catégories telles que : hébergement > hôtel > réservation….

Geste et voixGeste et voix

Page 10: LINGTOUR: a PDA for tourists Alain Goyé, Eric Lecolinet, Mutsuko Tomokiyo, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris Cedex 13 goye | elc |

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

La voix : reconnaissance multilingue• moteur de reconnaissance vocale :

– vocabulaire limité, mais– indépendant du locuteur,– aucun apprentissage.

• la reconnaissance dans différentes langues :– partage des modèles acoustiques communs, ce qui

facilite les extensions futures à de nouvelles langues.– modèles adaptables à l’utilisateur et aux conditions

d’usage.

Français

ChinoisModèlesacoustiquescommuns

Modèles spécifiques à la langue

Geste et voixGeste et voix

Page 11: LINGTOUR: a PDA for tourists Alain Goyé, Eric Lecolinet, Mutsuko Tomokiyo, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris Cedex 13 goye | elc |

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

La voix se joint au geste…La voix se joint au geste…L’information vocale est employée

différemment selon le contexte : • Navigation dans le plan :

« tap and talk » : accès par un menu vocal à diverses informations sur l’objet pointé.

• Navigation dans le lexique :– comme raccourci d’accès aux

catégories, puis – pour l’accès à une entrée, mot ou

phrase. La traduction sera affichée / synthétisée dans la langue cible.

• A terme, amélioration par capture des mots-clés ("word spotting").

Geste et voixGeste et voix

Page 12: LINGTOUR: a PDA for tourists Alain Goyé, Eric Lecolinet, Mutsuko Tomokiyo, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris Cedex 13 goye | elc |

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

La caméra « intelligente »• Voir, reconnaître, traduireVoir, reconnaître, traduire

La reconnaissance de caractères – chinois en particulier – atteint aujourd’hui de bonnes performances.

• Pour limiter la charge de calcul :– Reconnaissance effectuée sur une sous-partie de l’image. – Cette sous-partie peut être sélectionnée semi-

automatiquement lors de l’étape de délimitation et segmentation préalable.

• Le texte une fois reconnu peut être traduit :– Localement

• Pour faciliter la traduction, un menu vocal permet de choisir le contexte : panneau de bus ou de rue, monument, etc.

– Ou par un serveur distant via un service de radiocommunication.

• Il peut également être restitué par synthèse vocale

Caméra Caméra intelligenteintelligente

Page 13: LINGTOUR: a PDA for tourists Alain Goyé, Eric Lecolinet, Mutsuko Tomokiyo, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris Cedex 13 goye | elc |

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

Usage de la caméraUsage de la caméra [4] [4]

capturereco

traduction

Caméra Caméra intelligenteintelligente

[4][4] Mao, Y., Dong, Q., Qi Y. et Chollet, G. Realization of an Intelligent Camera capable of Character Recognition and Translation. Proc. of Sino-French Symp. on Speech and Language Processing, Beijing, October 2000.

Disponible à l’adresse : http://www.tsi.enst.fr/~chollet/Projets/Chine/Lingtour/IntelCamera.doc

Page 14: LINGTOUR: a PDA for tourists Alain Goyé, Eric Lecolinet, Mutsuko Tomokiyo, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris Cedex 13 goye | elc |

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

Améliorer la résolution Améliorer la résolution d’imaged’image• Difficulté :Difficulté :

– image saisie à distance dans la rue– caméra bon marchéqualité / résolution insuffisante pour la

reconnaissance• Solution : affinement des images

– corrélation et recalage d’une séquence d’images successives.

– exploite les légères différences dues au mouvement naturel de la main qui tient l’appareil.

image de résolution supérieure à celle du capteur.

Caméra Caméra intelligenteintelligente

Page 15: LINGTOUR: a PDA for tourists Alain Goyé, Eric Lecolinet, Mutsuko Tomokiyo, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris Cedex 13 goye | elc |

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

Principe d’affinement des Principe d’affinement des imagesimages

Caméra sur le PDA

Vibration de la main

Acquisition d ’une séquence d ’images

Estimation des mouvements(sub-pixel)

Imagede meilleure

résolution

Recomposition en une seule image

Caméra Caméra intelligenteintelligente

Page 16: LINGTOUR: a PDA for tourists Alain Goyé, Eric Lecolinet, Mutsuko Tomokiyo, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris Cedex 13 goye | elc |

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

Affinement des Affinement des images : résultatsimages : résultatsAmélioration notable :

– de la qualité visuelle – du taux de

reconnaissance des caractères

Caméra Caméra intelligenteintelligente

Page 17: LINGTOUR: a PDA for tourists Alain Goyé, Eric Lecolinet, Mutsuko Tomokiyo, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris Cedex 13 goye | elc |

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

Agents conversationnels : Agents conversationnels : intérêtintérêt• Ils permettent [5] de transmettre une

information de manière plus attractive et conviviale qu’une simple synthèse vocale.

• Les expressions nonverbales permettent :– de désambiguiser un discours, – de renforcer certains mots ou parties

du discours…• Elles fournissent des informations à

différents niveaux :– syntaxique – sémantique – émotionnel

• Dans un contexte multiculturel, une démonstration visuelle peut aussi être le meilleur vecteur d’enseignement de certains usages.

Agents Agents culturelsculturels

[5][5] Pelachaud, C., Carofiglio, V., De Carolis, B. et de Rosis, F., Embodied Contextual Agent in Information Delivering Application, First Intl. Joint Conf. on Autonomous Agents & Multi-Agent Systems, Bologna, July 2002

Page 18: LINGTOUR: a PDA for tourists Alain Goyé, Eric Lecolinet, Mutsuko Tomokiyo, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris Cedex 13 goye | elc |

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

« Greta » : moteur d’animation faciale• Objectif : un modèle animé capable de simuler de

manière rapide et réaliste les aspects dynamiques du visage humain.

• Réalisation : un moteur d’animation faciale dont le modèle 3D a l’allure d’une jeune femme.

• Greta est :– le noyau d’un décodeur MPEG-4– conforme aux spécifications “Simple Facial Animation

Object Profile" du standard. – capable :

• De générer la structure d’un modèle original, • D’animer celui-ci, • De le restituer en temps réel.

Agents Agents culturelsculturels

Page 19: LINGTOUR: a PDA for tourists Alain Goyé, Eric Lecolinet, Mutsuko Tomokiyo, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris Cedex 13 goye | elc |

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

Adapter les agents Adapter les agents conversationnelsconversationnels• Portage sur PDAPortage sur PDA d’agents animés. d’agents animés.

– la la puissancepuissance et à la et à la taille d’écrantaille d’écran de l’appareil sont limités de l’appareil sont limités– la la complexitécomplexité et le et le niveau de détailniveau de détail de l’animation doivent de l’animation doivent

être adaptés. être adaptés.

• Adaptation du comportement à l’utilisateurAdaptation du comportement à l’utilisateur : :Malgré de grands progrès récents en matière de réalisme, les Malgré de grands progrès récents en matière de réalisme, les

agents actuels ne connaissent qu’un type de agents actuels ne connaissent qu’un type de comportement, qui reflète le plus souvent la culture comportement, qui reflète le plus souvent la culture occidentale. occidentale.

Adaptation au Adaptation au contexte culturel et socialcontexte culturel et social : : La même information doit être délivrée différemment, par La même information doit être délivrée différemment, par

exemple: exemple: • à un Français et à un Chinois, à un Français et à un Chinois, • à un journaliste et à un particulier. à un journaliste et à un particulier.

Agents Agents culturelsculturels

Page 20: LINGTOUR: a PDA for tourists Alain Goyé, Eric Lecolinet, Mutsuko Tomokiyo, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris Cedex 13 goye | elc |

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

Agents conversationnels Agents conversationnels culturels : représentation culturels : représentation sémantiquesémantique

• Base : représentation sémantique indépendante Base : représentation sémantique indépendante de la langue, basée sur le standard de la langue, basée sur le standard XML-XSDXML-XSD..– description de la fonction communicative des gestes et description de la fonction communicative des gestes et

des signaux composant les gestes. des signaux composant les gestes.

• Sur-couche d’attributs spécifiques à la cultureSur-couche d’attributs spécifiques à la culture, qui , qui influeront sur :influeront sur :– le le choix d’un gestechoix d’un geste (sourire ou hochement de tête), (sourire ou hochement de tête),– la la durée d’un regarddurée d’un regard… … Plus généralement, ces influences peuvent porter sur :Plus généralement, ces influences peuvent porter sur :– la la définition d’un signal définition d’un signal (masquage(masquage d’un signal par un d’un signal par un

autre), autre), – son son intensitéintensité, , – Sa Sa duréedurée, etc., etc.

Page 21: LINGTOUR: a PDA for tourists Alain Goyé, Eric Lecolinet, Mutsuko Tomokiyo, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris Cedex 13 goye | elc |

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

Agents conversationnels Agents conversationnels culturels…culturels…

dans certaines cultures,

ne pas regarder son interlocuteur peut être perçu comme un manque

d'attention / d’intérêt…

dans d’autres cultures,

regarder droit dans les yeux peut être interprété comme une forme

d'agression…

Agents Agents culturelsculturels

Page 22: LINGTOUR: a PDA for tourists Alain Goyé, Eric Lecolinet, Mutsuko Tomokiyo, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris Cedex 13 goye | elc |

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

Résultats et suite…Résultats et suite…A l’issue des travaux que ce projet a permis d’initier,

nous souhaitons être en mesure de démontrer : • 1) la possibilité d’intégrer sur un terminal mobile

(PDA, smartphone…) les parties existantes des diverses interfaces présentées ici : – Control menus 2D, – capture et reconnaissance de texte, – agents conversationnels.

• 2) les bénéfices des améliorations que nous proposons pour chacune de ces fonctionnalités : – intégration de commandes vocales dans les menus, – affinement des images par corrélation spatio-temporelle,– enrichissement des agents par des attributs culturels.

Geste et voixGeste et voixCaméra Caméra

intelligenteintelligenteAgents culturelsAgents culturels

Page 23: LINGTOUR: a PDA for tourists Alain Goyé, Eric Lecolinet, Mutsuko Tomokiyo, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris Cedex 13 goye | elc |

Interfaces multimodales Interfaces multimodales

pour un assistant au voyagepour un assistant au voyage

Pour valoriser ces travaux Pour valoriser ces travaux dans le programme EURO-dans le programme EURO-CHINA…CHINA…

• Collaboration engagée avec Collaboration engagée avec Peer2Phone (voix sur IP par WIFI)Peer2Phone (voix sur IP par WIFI)

• Présentation fin avril à PékinPrésentation fin avril à Pékin

• Montage d’une proposition avec nos Montage d’une proposition avec nos partenaires Chinois pour les J.O. de partenaires Chinois pour les J.O. de PékinPékin


Recommended