Post on 03-Apr-2015
transcript
Recent Advances in the Automatic Recognition of
Audiovisual Speech
Leila Zouari, Fabian Brugger et Hervé Bredin
G. Potamianos, C. Neti, G. Gravier, A. Garg and A.W. Senior
Proceedings of the IEEE, Vol. 91, NO. 9, September 2003
2
Objectif
Améliorer les performances des systèmes de reconnaissance de la parole À l’aide de l’information visuelle En milieu bruité essentiellement
3
Sommaire
Paramètres audiovisuelsModèles audiovisuelsIndices de confianceAdaptationExpériences et résultatsNos premiers résultats sur BANCA
4
Paramètres audio
24 MFCCs 100 échantillons par seconde
Soustraction de la moyenne Ajout de l’information dynamique
concaténation de 9 trames centrées sur la trame courante
Réduction de la dimension LDA + MLLT
Dimension finale : 60
5
Paramètres audio [2]Maximum Likelihood Linear Transformation
Objectifs Réduire la dimension Transformer les données
Pour vérifier au mieux la contrainte « covariance diagonale »
En maximisant la vraisemblance des données originales dans l’espace transformé
6
Paramètres visuels
Détection et poursuite du visage
Sélection de la zone d’intérêt
Extraction et traitement des paramètres
7
Paramètres visuels [2]
Détection et poursuite du visage
Initialisation : recherche exhaustive différentes tailles différentes positions
Poursuite : recherche dans un voisinage même méthode
Critères classification par LDA (visage/non-visage) distance à l’espace des visages
8
Linear Discriminant Data Projection Visage / Non-Visage Minimiser la variance
intra-classe SW
Maximiser la variance inter-classe SB
Trouver P maximisant
VisageEventuel
Espace des visages
DistanceFromFaceSpace
eige
nfac
e 1
Projection (PCA)
Distance From Face Space
Paramètres visuels [3]
LDA et DFFS
9
Paramètres visuels [4]
Région d’intérêt
Localisation de points caractéristiques Carré autour de la bouche
Normalisation Echelle Rotation Eclairage Masque
QuickTime™ et undécompresseur TIFF (LZW)
sont requis pour visionner cette image.
QuickTime™ et undécompresseur TIFF (LZW)
sont requis pour visionner cette image.
10
Paramètres visuels [4]
Traitement des paramètres DCT
100 coefficients de plus grande énergie Interpolation linéaire
même fréquence d’échantillonnage que l’audio soustraction de la moyenne
Réduction de la dimension (LDA+MLLT) Ajout de l’information dynamique
Concaténation de 15 trames centrées sur la trame courante Réduction de la dimension (LDA+MLLT)
Dimension finale : 41
11
Classes :
Flux :
Observations :
Probabilité d’émission :
Probabilité de transition :
Notations
12
Fusion des paramètres
ConcaténationRéduction de la dimension
LDA MLLT
Modélisation HMM classique avec un flux Comme pour la reconnaissance de la parole
seule
13
Fusion au niveau de la décision
Principe
Multistream HMM (mêmes classes)
Indice de confiance Dépendant de la modalité seulement
14
Fusion au niveau de la décision
Estimation des paramètresParamètres à estimer :Estimation séparée
Algorithme EM pour a et v Transition ou
Estimation jointe Algorithme EM adapté
Estimation des indices de confiance
15
Modélisation de l’asynchronismeNiveaux d’intégration
Trois niveaux d’intégration :
Tôt : état Tard : phrase (« rescoring » des n meilleures
hypothèses) Intermédiaire : mot ou phone ou syllabe.
Niveaux 2 et 3 : asynchronisme entre séquences d’états audio et vidéo
16
Etats compositesProbabilités d’émission
17
Etats compositesProbabilités de transition
Hmms couplés :
Hmms produit :
18
Modèles compositesEstimation des paramètres
2 possibilités : Séparément pour les 2 flux Conjointement
Remarques : Le deuxième schéma est préférable : modélise
l’asynchronisme pendant l’apprentissage et le test.
Partage des paramètres par flux recommandé : nombre important de paramètres et souvent faible quantité de données d’apprentissage.
19
Calcul des poidsIndicateurs de fiabilité
Les n meilleures vraisemblances d’une observation sont triées dans l’ordre descendant. o
Argument : rapport de vraisemblance entre n décisions de classification est informatif sur la discrimination des classes.
o
Indicateur de dispersion des n meilleures hypothèses
Indicateurs de fiabilité,sur une phrase, sont corrélés avec le wer
20
Calcul des poidsFonction sigmoïde
fonction sigmoïde : pour lier les indicateurs de fiabilité et coefficients de pondération
Wi , paramètres du sigmoïde à estimer.
Pour pouvoir calculer les indicateurs de fiabilité à chaque état un alignement forcé préalable est réalisé.
21
Calcul des poidsEstimation des Wi
Deux critères : MCL : Maximum Conditional Likelihood
MCE : Minimum classification error
22
Adaptation des paramètres
Pourquoi : bases de données audiovisuelles rares et leur collecte est coûteuse
Application: fusion discriminante des paramètres Techniques: issus du traitement de la parole :
MLLR : maximum Likelihood Linear Regression MAP : maximum a posteriori
Adaptation des transformations- Adapter les matrices de transformation LDA et MLLT en
les calculant avec les données d’apprentissage et d’adaptation. - Ré estimation des paramètres
23
Expériences
Bases de données :
Modèles acoustiques : Phones contextuels à états liés (159 pour les digits et 2800 pour le LVCSR). 3 états par phone, 5 contextes * 2
Grammaire :
Boucle de mots : digits Trigramme : LVCSR
Environ. Tâche Durée (h)
Studio LVCSR 44
Studio Chiffres 10
Bureau Chiffres 2
24
Résultats : vidéo
Chiffres
LVCSR
wer
Speaker independant 93.52
Speaker adapted 82.51
WER
Speaker independant
38.53
Multispeaker 26.57
Speaker adpted 16.77
25
Résultats AV: Chiffres
26
Résultats AV : LVCSR
27
Résultats sur BANCA