+ All Categories
Home > Documents > DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition...

DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition...

Date post: 17-Sep-2018
Category:
Upload: lytram
View: 220 times
Download: 0 times
Share this document with a friend
71
DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH [email protected] VT 2016 1 / 54
Transcript
Page 1: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

DT2118Speech and Speaker Recognition

Introduction

Giampiero Salvi

KTH/CSC/TMH [email protected]

VT 2016

1 / 54

Page 2: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Outline

Course Organization

IntroductionThe Big PictureChallenges

Models of Speech ProductionSource/Filter Model: Vowel-like soundsSource/Filter Model, General Case

2 / 54

Page 3: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Outline

Course Organization

IntroductionThe Big PictureChallenges

Models of Speech ProductionSource/Filter Model: Vowel-like soundsSource/Filter Model, General Case

3 / 54

Page 4: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Contact Info

Giampiero Salvi ([email protected])

All communications handled through the courseweb:

https://www.kth.se/social/course/DT2118/

4 / 54

Page 5: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Course Objectivesafter the course you should be able to:

I implement simple training and evaluation methods forHidden Markov Models

I train and evaluate a speech recogniser using softwarepackages

I compare different feature extraction and trainingmethods

I document and discuss specific aspects related to speechand speaker recognition

I with the help of the literature, review and criticise otherstudents’ work in the subject

5 / 54

Page 6: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Schedule

Part 1 Introduction, Speech Signal, Features,Statistics (ca 4 hours)

Part 2 Hidden Markov Models, Training andDecoding, Acoustic Models(ca 4-6 hours)

Part 3 Decoding and Search Algorithms(ca 2 hours)

Part 4 Language Models (Grammars)(ca 2 hours)

Part 5 Noise robustness and SpeakerRecognition (ca 2-4 hours)

6 / 54

Page 7: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Literature

I Spoken Language Processing: A Guide to Theory,Algorithm, and System Development

Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, Prentice Hall

I 3 at KTH library,I 6 at TMH library (against 300 SEK deposit)

I Automatic Speech Recognition: A deep learning approach

Dong Yu and Li Deng, Springer 2015

Available in PDF from SpringerLink (via KTH Biblioteket)

I HTK manual version 3.4

I selected research articles

7 / 54

Page 8: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Reading Instructions (course book)These are indicative, check the schedule for more updated instructions

pages # pagesPart 1 (Spoken Language Structure) (19–71) (52)

Digital Signal Processing (201–273) 73Probability, Statistics and Inform. Theory 73–131 59Pattern Recognition 133–197 65Speech Signal Representations 275–336 62

Part 2 Hidden Markov Models 377–413 37Acoustic Modeling 415–475 61Environmental Robustness 477–544 68HTK tutorial (HTK book)

Part 3 Basic Search Algorithms 591–643 53(Large-Vocabulary Search Algorithms) (645–685) (41)(Applications and User Interfaces) (919–956) (38)

Part 4 Language Modeling 545–590 46Part 5 Speaker Recognition literature

(Optional chapters in parentheses)

8 / 54

Page 9: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Requirements/Activities

Grades: Pass/FailIn order to pass you have to:

1. carry out three labs and hand in the report

2. carry out mini-project in groups and writereport (paper)

3. review other students’ report

4. present your work at final seminar

5. discuss other student’s work at final seminar

6. submit final version of the paper

9 / 54

Page 10: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Lab 1: Speech Feature Extraction

I implement extraction for typical speech features

I analyse the features on speech data

I compare utterances with Dynamic TimeWarping

10 / 54

Page 11: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Lab 2: Gaussian Hidden Markov Models

I implement the decoding algorithms for HMMs

I implement the training algorithms for HMMs

I test the algorithms on isolated digits

11 / 54

Page 12: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Lab 3: Continuous Speech Recognitionand Deep Learning

I Extend the training and testing algorithms tocontinuous speech

I test the algorithms on the TIDIGIT database(connected digits)

I Optional: implement DNNs using Theano,compare with GMM-HMMS

12 / 54

Page 13: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Project report

I Suggest a title or choose a topic from a list

I Project report in form of research paper

I Suggested topics:

Own work and experiments after discussion with the teacherLimitations in standard HMM and a survey of alternativesPronunciation variation and its importance for speech recogni-tionLanguage models for speech recognitionNew search methodsTechniques for robust recognition of speechConfidence measures in speech recognitionThe role of prosody for speech recognitionSpeaker variability and methods for adaptation

13 / 54

Page 14: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Computational Resources at PDC

For Lab 3 and the Project

I apply for an account at https://www.pdc.kth.se/support/accounts/user

I use edu16.DT2118 when asked for timeallocation

14 / 54

Page 15: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Important datesThu 14 April: submit Lab 1 report

Tue 19 April: decide topic for project

Thu 28 April: submit Lab 2 report

Thu 12 May: submit Lab 3 report

Wed 25 May: submit project report (draft). Neededfor the peer review.

Sun 29 May: submit review of other report

Tue 31 May: Final seminar: present own projectresults, and discuss others’

Mon 6 Jun: Final report

KTH Social deadlines are set at 23:5515 / 54

Page 16: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Part 1

16 / 54

Page 17: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Outline

Course Organization

IntroductionThe Big PictureChallenges

Models of Speech ProductionSource/Filter Model: Vowel-like soundsSource/Filter Model, General Case

17 / 54

Page 18: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Motivation

I Natural way of communication (No trainingneeded)

I Leaves hands and eyes free (Good forfunctionally disabled)

I Effective (Higher data rate than typing)

I Can be transmitted/received inexpensively(phones)

18 / 54

Page 19: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

The dream of Artificial Intelligence

2001: A space odyssey (1968)

19 / 54

Page 20: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

A very long endeavour1952, Bell laboratories, isolated digit recognition,single speaker, hardware based [1]

An underestimated challenge:60 years of bold announcements

[1] K. H. Davis, R. Biddulph, and S. Balashek. “Automatic Recognition of Spoken Digits”. In: JASA 24.6 (1952),pp. 637–642

20 / 54

Page 21: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

A very long endeavour1952, Bell laboratories, isolated digit recognition,single speaker, hardware based [1]

An underestimated challenge:60 years of bold announcements

[1] K. H. Davis, R. Biddulph, and S. Balashek. “Automatic Recognition of Spoken Digits”. In: JASA 24.6 (1952),pp. 637–642

20 / 54

Page 22: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Today’s Reality

I Now Pronounce You Chuck & Larry (2007)

21 / 54

Page 23: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

The ASR Goal (for this course)Convert speech into text

AutomaticSpeech

Recognition“My name is . . . ”

[confidence score]

CC Please tell me your nameLV Larry ValentineCC I’m sorry, I didn’t quite get thatLV Larry ValentineCC You said “Berry Schmallenpine”. . . is that

right?LV Schmallenpine?!?!CC You said “Schmallenpine”. . . is that right?

22 / 54

Page 24: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

The ASR Goal (for this course)Convert speech into text

AutomaticSpeech

Recognition“My name is . . . ”

[confidence score]

CC Please tell me your nameLV Larry ValentineCC I’m sorry, I didn’t quite get thatLV Larry ValentineCC You said “Berry Schmallenpine”. . . is that

right?LV Schmallenpine?!?!CC You said “Schmallenpine”. . . is that right?

22 / 54

Page 25: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

The ASR Goal (for this course)Convert speech into text

AutomaticSpeech

Recognition“My name is . . . ”

[confidence score]

CC Please tell me your nameLV Larry ValentineCC I’m sorry, I didn’t quite get thatLV Larry ValentineCC You said “Berry Schmallenpine”. . . is that

right?LV Schmallenpine?!?!CC You said “Schmallenpine”. . . is that right?

22 / 54

Page 26: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

The ASR Goal (for this course)Convert speech into text

AutomaticSpeech

Recognition“My name is . . . ”

[confidence score]

CC Please tell me your nameLV Larry ValentineCC I’m sorry, I didn’t quite get thatLV Larry ValentineCC You said “Berry Schmallenpine”. . . is that

right?LV Schmallenpine?!?!CC You said “Schmallenpine”. . . is that right?

22 / 54

Page 27: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

The ASR Goal (for this course)Convert speech into text

AutomaticSpeech

Recognition“My name is . . . ”

[confidence score]

CC Please tell me your nameLV Larry ValentineCC I’m sorry, I didn’t quite get thatLV Larry ValentineCC You said “Berry Schmallenpine”. . . is that

right?LV Schmallenpine?!?!CC You said “Schmallenpine”. . . is that right?

22 / 54

Page 28: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

ASR in a Broader Context

DialogueManager

AutomaticSpeech

Recognition

SpokenLanguage

UnderstandingText to Speech

23 / 54

Page 29: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

The Speech Chain

musclesVocal

Feedbacklink

Sensorynerves

Motornerves

Sensorynerves

levelLinguistic

levelPhysiological

levelAcoustic

levelPhysiological

levelLinguistic

EarBrain

BrainSound waves

Ear

SPEAKER LISTENER

Peter Denes, Elliot Pinson, 196324 / 54

Page 30: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

ASR versus Computer Vision

Peter Denes, Elliot Pinson, 1963

25 / 54

Page 31: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

ASR versus Computer Vision

Property ASR Computer Visionsignal originatesfrom:

cognition + physics physics

persistence: disappears as soon asheard

continually available(active perception)

across countries: different languages same objectstype of interac-tion:

two-way one-way

26 / 54

Page 32: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

The Speech Chain (from the book)

27 / 54

Page 33: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Not covered in this course:

I multimodality

I interaction (bi-directional)

I incrementality

I non-verbal communication

musclesVocal

Feedbacklink

Sensorynerves

Motornerves

Sensorynerves

levelLinguistic

levelPhysiological

levelAcoustic

levelPhysiological

levelLinguistic

EarBrain

BrainSound waves

Ear

SPEAKER LISTENER

28 / 54

Page 34: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

http://www.itl.nist.gov/iad/mig/publications/ASRhistory/

29 / 54

Page 35: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Main variables in ASR

Speaking mode isolated words vs continuous speech

Speaking style read speech vs spontaneous speech

Speakers speaker dependent vs speakerindependent

Vocabulary small (<20 words) vs large (>50 000words)

Robustness against background noise

30 / 54

Page 36: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Challenges — VariabilityBetween speakers

I AgeI GenderI AnatomyI Dialect

Within speaker

I StressI EmotionI Health conditionI Read vs SpontaneousI Adaptation to

environment (Lombardeffect)

I Adaptation to listener

Environment

I NoiseI Room acousticsI Microphone distanceI Microphone, telephoneI Bandwidth

Listener

I AgeI Mother tongueI Hearing lossI Known / unknownI Human / Machine

31 / 54

Page 37: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Example: spontaneous vshyper-articulated

Va jobbaru me Vad jobbar du med

“What is your occupation”(“What work you with”)

32 / 54

Page 38: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Examples of reduced pronunciation

Spoken Written In EnglishTesempel Till exempel for exampleahamba och han bara and he justbafatt bara for att just becausejavende jag vet inte I don’t know

33 / 54

Page 39: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Microphone distanceHeadset

2 m distance

34 / 54

Page 40: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Applications today

Call centers:

I traffic information

I time-tables

I booking. . .

Accessibility

I Dictation

I hand-free control (TV, video, telephone)

Smart phones

I Siri, Android. . .

35 / 54

Page 41: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Outline

Course Organization

IntroductionThe Big PictureChallenges

Models of Speech ProductionSource/Filter Model: Vowel-like soundsSource/Filter Model, General Case

36 / 54

Page 42: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Speech Examples

TIMIT database (American English)

example of “clean” speech

37 / 54

Page 43: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Elements of Signal Processing

I continuous/digital signals

I Linear and Time Invariant (LTI) systems

I impulse response and convolution

I Fourier transform and transfer function

I sampling theorem

I short-time Fourier transform

(Chapter 5 in the book)

38 / 54

Page 44: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Speech Examples

live examples

39 / 54

Page 45: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Physiology

Esophagus

Larynx

Soft palate(velum)

Hard palate

Lung

Trachea

Jaw

Oral cavity

Teeth

TongueLip

Nostril

Nasal cavity

Diaphragm

cavityPharyngeal

����������������������������������������

Trachea

Muscle Force and Relaxation

Lungs

FoldsVocal

Glottis

PharyngealCavity Cavity

Cavity

Oral

Nasal

Velum

NoseOutput

MouthOutput

40 / 54

Page 46: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Source/Filter Model, Vowel-like sounds

Vowels

Esophagus

Larynx

Soft palate(velum)

Hard palate

Lung

Trachea

Jaw

Oral cavity

Teeth

TongueLip

Nostril

Nasal cavity

Diaphragm

cavityPharyngeal

�����������������������������������������������������������������������������������������������������������������������

��������������������������������������������������������������������������������������������������������������������������

������

������������������������������������������������������

���������������������������������������������

������������������������

������������������������

����������������������������

����������������������������

����������������������������������������

����������������������������������������

������������������������

������������������������

����������������

������������������������

������������������������

��������������������

��������������������

����������������

����������������

������������������������

������������������������

�������������������������

�������������������������

� Source (periodic)� Front Cavity� Back Cavity� Back Cavity (2ndapprox.)

41 / 54

Page 47: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Glottal Flow

����������������������������������������

Trachea

Muscle Force and Relaxation

Lungs

FoldsVocal

Glottis

PharyngealCavity Cavity

Cavity

Oral

Nasal

Velum

NoseOutput

MouthOutput

0 5 10 15

glo

tta

l flo

w

Liljencrants−Fant glottal model

0 5 10 15

de

riva

tive

time (msec)

G (z) =1

(1− βz)2, β < 1

42 / 54

Page 48: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Radiation form the Lips/Nose

����������������������������������������

Trachea

Muscle Force and Relaxation

Lungs

FoldsVocal

Glottis

PharyngealCavity Cavity

Cavity

Oral

Nasal

Velum

NoseOutput

MouthOutput

Problem of radiation at thelips plus diffraction about thehead too complicated.

43 / 54

Page 49: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Radiation form the Lips/Nose

����������������������������������������

Trachea

Muscle Force and Relaxation

Lungs

FoldsVocal

Glottis

PharyngealCavity Cavity

Cavity

Oral

Nasal

Velum

NoseOutput

MouthOutput

Approx. with a piston in arigid sphere: solved but notin closed form

43 / 54

Page 50: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Radiation form the Lips/Nose

����������������������������������������

Trachea

Muscle Force and Relaxation

Lungs

FoldsVocal

Glottis

PharyngealCavity Cavity

Cavity

Oral

Nasal

Velum

NoseOutput

MouthOutput

2nd approx: piston in an in-finite wall

R(z) ≈ 1− αz−1

43 / 54

Page 51: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Tube Model of the Vocal Tract

PharyngealCavity Cavity

Cavity

Oral

Nasal

Velum

NoseOutput

MouthOutput

44 / 54

Page 52: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Tube Model (cntd.)k k+1

0 1 2 3 4 5 6 7 8

all−pole transfer function

freqency (kHz)

I assume planar wave propagation and losslesstubes

I solve pressure p(x , t) and velocity u(x , t) ineach tube according to wave equation

I impose continuity of pressure and velocity atthe junctions

⇒ all-pole transfer function (N = number of tubes)

V (z) =Az−N/2

1−∑N

k=1 akz−k

45 / 54

Page 53: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Tube Model (cntd.)k k+1

0 1 2 3 4 5 6 7 8

all−pole transfer function

freqency (kHz)

I assume planar wave propagation and losslesstubes

I solve pressure p(x , t) and velocity u(x , t) ineach tube according to wave equation

I impose continuity of pressure and velocity atthe junctions

⇒ all-pole transfer function (N = number of tubes)

V (z) =Az−N/2

1−∑N

k=1 akz−k

45 / 54

Page 54: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Source/Filter Model: vowel-like sounds

0 5 10 15

waveform

0 2 4 6 8

spectrum (log)

0 5 10 15 0 2 4 6 8

0 5 10 15 0 2 4 6 8

0 5 10 15

time (msec)

0 2 4 6 8

freqency (kHz)

← p[n]

← p[n] ∗ g [n]

← p[n] ∗ g [n] ∗ r [n]

← p[n]∗g [n]∗r [n]∗v [n]

������������������������

������������������������

����������������������������

����������������������������

����������������������������������������

����������������������������������������

������������������������

������������������������

����������������

������������������������

������������������������

��������������������

��������������������

����������������

����������������

������������������������

������������������������

�������������������������

�������������������������

46 / 54

Page 55: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Source/Filter Model: vowel-like sounds

0 5 10 15

waveform

0 2 4 6 8

spectrum (log)

0 5 10 15 0 2 4 6 8

0 5 10 15 0 2 4 6 8

0 5 10 15

time (msec)

0 2 4 6 8

freqency (kHz)

← p[n]

← p[n] ∗ g [n]

← p[n] ∗ g [n] ∗ r [n]

← p[n]∗g [n]∗r [n]∗v [n]

������������������������

������������������������

����������������������������

����������������������������

����������������������������������������

����������������������������������������

������������������������

������������������������

����������������

������������������������

������������������������

��������������������

��������������������

����������������

����������������

������������������������

������������������������

�������������������������

�������������������������

46 / 54

Page 56: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Source/Filter Model: vowel-like sounds

0 5 10 15

waveform

0 2 4 6 8

spectrum (log)

0 5 10 15 0 2 4 6 8

0 5 10 15 0 2 4 6 8

0 5 10 15

time (msec)

0 2 4 6 8

freqency (kHz)

← p[n]

← p[n] ∗ g [n]

← p[n] ∗ g [n] ∗ r [n]

← p[n]∗g [n]∗r [n]∗v [n]

������������������������

������������������������

����������������������������

����������������������������

����������������������������������������

����������������������������������������

������������������������

������������������������

����������������

������������������������

������������������������

��������������������

��������������������

����������������

����������������

������������������������

������������������������

�������������������������

�������������������������

46 / 54

Page 57: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Source/Filter Model: vowel-like sounds

0 5 10 15

waveform

0 2 4 6 8

spectrum (log)

0 5 10 15 0 2 4 6 8

0 5 10 15 0 2 4 6 8

0 5 10 15

time (msec)

0 2 4 6 8

freqency (kHz)

← p[n]

← p[n] ∗ g [n]

← p[n] ∗ g [n] ∗ r [n]

← p[n]∗g [n]∗r [n]∗v [n]

������������������������

������������������������

����������������������������

����������������������������

����������������������������������������

����������������������������������������

������������������������

������������������������

����������������

������������������������

������������������������

��������������������

��������������������

����������������

����������������

������������������������

������������������������

�������������������������

�������������������������

46 / 54

Page 58: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Source/Filter Model: vowel-like sounds

0 5 10 15

waveform

0 2 4 6 8

spectrum (log)

0 5 10 15 0 2 4 6 8

0 5 10 15 0 2 4 6 8

0 5 10 15

time (msec)

0 2 4 6 8

freqency (kHz)

← p[n]

← p[n] ∗ g [n]

← p[n] ∗ g [n] ∗ r [n]

← p[n]∗g [n]∗r [n]∗v [n]

������������������������

������������������������

����������������������������

����������������������������

����������������������������������������

����������������������������������������

������������������������

������������������������

����������������

������������������������

������������������������

��������������������

��������������������

����������������

����������������

������������������������

������������������������

�������������������������

�������������������������

46 / 54

Page 59: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

F0 and Formants

I Varying F0 (vocal fold oscillation rate)

0 2 4 6 8

spectrum (log) f0 = 100Hz

freqency (kHz)

0 2 4 6 8

spectrum (log) f0 = 250Hz

freqency (kHz)

I Varying Formants (vocal tract shape)

0 2 4 6 8

spectrum (log) vowel [ε]

freqency (kHz)

0 2 4 6 8

spectrum (log) vowel [u]

freqency (kHz)

47 / 54

Page 60: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

F0 and Formants

I Varying F0 (vocal fold oscillation rate)

0 2 4 6 8

spectrum (log) f0 = 100Hz

freqency (kHz)

0 2 4 6 8

spectrum (log) f0 = 250Hz

freqency (kHz)

I Varying Formants (vocal tract shape)

0 2 4 6 8

spectrum (log) vowel [ε]

freqency (kHz)

0 2 4 6 8

spectrum (log) vowel [u]

freqency (kHz)

47 / 54

Page 61: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Source/Filter Model, General Case

Vowels

Esophagus

Larynx

Soft palate(velum)

Hard palate

Lung

Trachea

Jaw

Oral cavity

Teeth

TongueLip

Nostril

Nasal cavity

Diaphragm

cavityPharyngeal

�����������������������������������������������������������������������������������������������������������������������

��������������������������������������������������������������������������������������������������������������������������

������

������������������������������������������������������

���������������������������������������������

������������������������

������������������������

����������������������������

����������������������������

����������������������������������������

����������������������������������������

������������������������

������������������������

����������������

������������������������

������������������������

��������������������

��������������������

����������������

����������������

������������������������

������������������������

�������������������������

�������������������������

� Source (periodic)� Front Cavity� Back Cavity� Back Cavity (2ndapprox.)

48 / 54

Page 62: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Source/Filter Model, General Case

Fricatives (e.g. sh) or Plosive (e.g. k)

Esophagus

Larynx

Soft palate(velum)

Hard palate

Lung

Trachea

Jaw

Oral cavity

Teeth

TongueLip

Nostril

Nasal cavity

Diaphragm

cavityPharyngeal

�����������������������������������������������������������������������������������������������������������������������

�����������������������������������������������������������������������������������������������������������������������

��������

������������������

������������������

������������������������

������������������������

������������������������������

������������������������������

����������������������������

����������������������������

����������������������������������������

����������������������������������������

������������������������

������������������������

����������������

������������������������

������������������������

��������������������

��������������������

����������������

����������������

������������������������

������������������������

������������������������������

������������������������������

� Source (noise orimpulsive)� Front Cavity� Back Cavity� Back Cavity (2ndapprox.)

48 / 54

Page 63: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Source/Filter Model, General Case

Fricatives (e.g. s) or Plosive (e.g. t)

Esophagus

Larynx

Soft palate(velum)

Hard palate

Lung

Trachea

Jaw

Oral cavity

Teeth

TongueLip

Nostril

Nasal cavity

Diaphragm

cavityPharyngeal

�����������������������������������������������������������������������������������������������������������������������

�����������������������������������������������������������������������������������������������������������������������

��������

��������������������������������������������������������

��������������������������������������������������������

������������������������

������������������������

����������������������������

����������������������������

����������������������������������������

����������������������������������������

������������������������

������������������������

����������������

������������������������

������������������������

��������������������

��������������������

����������������

����������������

������������������������

������������������������

�������������������������

�������������������������

� Source (noise orimpulsive)� Front Cavity� Back Cavity� Back Cavity (2ndapprox.)

48 / 54

Page 64: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Source/Filter Model, General Case

Nasalised Vowels

Esophagus

Larynx

Soft palate(velum)

Hard palate

Lung

Trachea

Jaw

Oral cavity

Teeth

TongueLip

Nostril

Nasal cavity

Diaphragm

cavityPharyngeal

�����������������������������������������������������������������������������������������������������������������������

��������������������������������������������������������������������������������������������������������������������������

������

������������������������������������������������������

�����������������������������������������������������������������������������������������������

��������������������������������������������������

���������������������������������������

���������������������������������������

����������������

������������������������

������������������������

��������������������

��������������������

����������������

����������������

��������������������

��������������������

������������������������

������������������������

����������������������������

����������������������������

����������������������������������������

����������������������������������������

������������������������

������������������������

��������������������

��������������������

����������������������������

����������������������������

��������������������������������

��������������������������������

��������������������

��������������������

������������

������������

�������������������������

�������������������������

� Source (periodic)� Front Cavity� Back Cavity� Back Cavity (2ndapprox.)

48 / 54

Page 65: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Source/Filter Model: fricative sounds

0 5 10 15

waveform

0 2 4 6 8

spectrum (log)

0 5 10 15 0 2 4 6 8

0 5 10 15

time (msec)

0 2 4 6 8

freqency (kHz)

← p[n]

← p[n] ∗ r [n]

← p[n] ∗ r [n] ∗ v [n]

������������������������������

������������������������������

����������������������������

����������������������������

����������������������������������������

����������������������������������������

������������������������

������������������������

����������������

������������������������

������������������������

��������������������

��������������������

����������������

����������������

������������������������

������������������������

������������������������������

������������������������������

49 / 54

Page 66: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Complete Source/Filter Model

Ap

A f

AvωG( )

ωV( ) ωR( )fricative

plosive

Source

voiced

Filter

50 / 54

Page 67: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

IPA Chart: Consonants

51 / 54

Page 68: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

IPA Chart: Vowels

52 / 54

Page 69: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Phonology vs Phonetics

Phonemes

co-articulation, speakingstyle, dialogue, reduction,

assimilation, speakerdifferences, environment

(loudness, channel,room acoustics, noise)

Phones

Words

Sounds

53 / 54

Page 70: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Phonology vs Phonetics

Phonemes

co-articulation, speakingstyle, dialogue, reduction,

assimilation, speakerdifferences, environment

(loudness, channel,room acoustics, noise)

Phones

Words

Sounds

53 / 54

Page 71: DT2118 Speech and Speaker Recognition - Introduction · DT2118 Speech and Speaker Recognition Introduction Giampiero Salvi KTH/CSC/TMH giampi@kth.se VT 2016 1/54. ... Part 2 Hidden

Components of ASR System

Speech SignalSpectralAnalysis

FeatureExtraction

Searchand Match

Recognised Words

Acoustic Models

Lexical Models

Language Models

Representation

Constraints - KnowledgeDecoder

54 / 54


Recommended