Acoustic Reliability Estimations for Distant-Speech Recognition

Post on 21-May-2015

167 views 2 download

Tags:

transcript

Acoustic Reliability Estimationsfor 

Robust Distant‐Speech Recognition

Cristina Guerrero Flores

University  of  TrentoFBK ‐ SHINE Research Group

Outline

1 ProblemContext  and state of the art

2 Envisioning a SolutionKey intuition  General IdeaExpected outcomes 

3 Research PlanOngoing and subsequent work

Machine Hearing

Problem [1/5] | Solution | Research Plan

Speech Recognition

Problem [2/5] | Solution | Research Plan

Distant‐Speech Recognition

State of the Art1) Automatic Speech Recognition (ASR)

Problem [3/5] | Solution | Research Plan

G. Potamianos et al. Automatic Speech Recognition in CHIL. Fifth European Conference on Speech, 1997.

2) Acoustic SceneAnalysis

Approaches

Voice Enabled Smart‐Home

Problem [4/5] | Solution | Research Plan

Problem

Acoustic scene descriptionhas been exploitedonly to a limited extent in distant‐speech recognition. 

Problem [5/5] | Solution | Research Plan

INTEGRATION

Rationale

Acoustic Scene AnalysisSource localizationSource separationSpeaker identificationAcoustic event detectionSpeech enhancement

Robust ASR Reliability Estimations

Problem | Solution [1/4] | Research Plan

1

2

3

1

SourceSelection

Information FusionModule 1

Information FusionModule 2

CandidateFramework

Problem | Solution [2/4] | Research Plan

CMCM

CM

CM

CMi

SourceSelection

Information FusionModule 1

Information FusionModule 2

Expected Outcomes

A different approach for the  improvement of distant‐speech recognition

Multi‐level framework relying    on acoustic scene information and reliability estimations

Robust CMs for different system components

Problem | Solution [3/4] | Research Plan

CMCM

CM

CM

CMi

Solution

Use existing solutions as fundamental blocks of a coherent overall structurebased on statistical techniquesand confidence measures.

Problem | Solution [4/4] | Research Plan

Roadmap

Problem | Solution | Research Plan [1/3]

II Year Integrate Location CM

RecognitionMulti‐Mic &   Multi‐Room 

Study CM Phase II(Acoustic Scene Analysis)

Study and Design ‐Fusion Techniques

I YearRecognition  ExperimentsSingle‐Mic & CM ASR 

Exp‐Study CM Phase I (ASR)

Study State of the Art

III Year Final design and implementation of Multi‐Source Information Fusion Modules

Evaluation of  thewhole framework

01 02 03 04 05 06 07 08 09 10 11 12

ReportQualifying

Report forICASSP‐IEEE

months

Doctoral Courses

Initial Experiments on Fusion 

Data Simulation

Ongoing Work – CM as a Cue

Confidence Measures (CM) ‐ in Automatic Speech Recognition

Recognition metrics (e.g. WER)‐ in Sound Source Location Systems

Outcomes: CMs that express the reliability of the outputData collection (different acoustic conditions)Technique for the identification of # of sources

Problem | Solution | Research Plan [2/3]

Research Plan

Gradually introduce challenges.Exploit pertinent technologiesand evaluate their impact in the proposed framework.

Problem | Solution | Research Plan [3/3]

Summary

Objective: Novel distant‐speech recognition approach

Proposal: A framework that exploits the synergy of ASR & Acoustic Scene Analysis.Key element: Reliability estimations.

Strategy:Explore challenges individually.

QUESTIONS

Cristina Guerrero Floresguerrero@fbk.eu

Acoustic Reliability Estimationsfor 

Robust Distant‐Speech Recognition