+ All Categories
Home > Documents > MIT Teoria Acústica da Produção de Voz 6.345 Sistema de Reconhecimento de Voz

MIT Teoria Acústica da Produção de Voz 6.345 Sistema de Reconhecimento de Voz

Date post: 27-Nov-2023
Category:
Upload: independent
View: 0 times
Download: 0 times
Share this document with a friend
48
1 MIT Teoria Acústica da Produção de Voz 6.345 Sistema de Reconhecimento de Voz Sons Vocais do Inglês Americano Existem mais de 40 sons vocais no inglês americano que podem ser classificados de acordo com a forma básica em que são produzidos. Vogais e consoantes diferem no grau de contrição Consoantes Sonoras não tem pressão na contrição Consoantes Nasais permitem fluxo de ar na cavidade nasal Consoantes contínuas não bloqueiam o fluxo de ar na cavidade oral 1 Aspiradas 2 Não fricativas 4 Semi vogais 3 Nasais 6 Oclusivas 8 Fricativas 18 Vogais Número Classe quanto á forma
Transcript

1

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Sons Vocais do Inglês Americano• Existem mais de 40 sons vocais no inglês americano que podem ser

classificados de acordo com a forma básica em que são produzidos.

• Vogais e consoantes diferem no grau de contrição• Consoantes Sonoras não tem pressão na contrição• Consoantes Nasais permitem fluxo de ar na cavidade nasal• Consoantes contínuas não bloqueiam o fluxo de ar na cavidade oral

1Aspiradas2Não fricativas4Semi vogais3Nasais6Oclusivas8Fricativas18Vogais

NúmeroClasse quanto á forma

2

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Produção das Vogais

• Pouca contrição no trato vocal• Geralmente produzida com excitação periódica• Características Acústicas dependem da posição do maxilar, língua e

lábios.

3

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Vogais do Inglês Americano

• Existem aproximadamente 18 vogais no inglês americano feitos de monotongos, ditongos e vogais reduzidas.

• Elas são freqüentemente descritas mediante características da articulação: Altas/Baixas, Anteriores/Posteriores, Retroflexas,Arredondadas, e Tensas/Relaxadas.

4

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Espectrograma das Principais Vogais

5

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Médias dos Formantes de Vogais• Vogais são freqüentemente caracterizadas pelos três formantes

mais baixos.• Alto/Baixo é correlacionado com o primeiro formante, F1.• Anterior/Posterior é correlacionado com o segundo formante, F2.• Retroflexão é marcada pelo terceiro formante, F3.

6

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Duração das Vogais• Cada vogal tem uma duração intrínseca diferente• As vogais reduzidas tem uma menor duração (50ms)• /I, E, Λ, U/ são os monotongos mais curtos• O contexto pode influenciar fortemente a duração das vogais

7

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Rob’s Quadro de Vogais Pequeno e Feliz“Impreciso, mas mesmo assim útil.”

Anterior

Posterior

Reflexão

SimplesAnterior

8

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Produção de Fricativas• Turbulência produzida na contrição estreita.• A posição da contrição determina as características acústicas. • Pode ser produzida com excitação periódica.

9

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Fricativas do Inglês Americano• Existem 8 fricativas no inglês americano.• Quatro posições de articulação: Lábio-Dental (Labial), Inter-dental

(Dental), Alveolar, e Palato-Alveolar (Palatal).• São freqüentemente descritas pelas características

Sonoras/Surdas, ou Agudas/Não Agudas (contrição atrás da saliência alveolar).

Tipo Surdas Sonora

10

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Espectrograma das Fricativas Surdas

11

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Energia das Fricativas

Fricativas agudas tendem a ser mais fortes que as fricativas não agudas.

12

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Duração das Fricativas

Fricativas sonoras tendem a ser mais curtas que as fricativas não sonoras.

SonoraSurda

13

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Exemplos do Contraste das Fricativas Sonoras

14

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Um pequeno quadro amigável de Consoantes"Um pouco mais preciso, mas um pouco menos útil"Rob’s

extremoextremo

extremoextremo

As africativasSurda, Sonora

Fric

ativ

aO

clus

iva

15

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Qual é a palavra?

16

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Produção de Oclusivas• Fechamento completo to trato vocal, aumento da pressão• Abandono repentino da contrição, ruído de turbulência• Pode ter excitação periódica durante o fechamento

17

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Oclusivas do Inglês Americano• Existem 6 consoantes oclusivas no inglês americano. • Três posições de articulação: Labial, Alveolar, e Velar.• Cada posição de articulação tem uma oclusiva sonora e surda.

• Oclusivas surdas são tipicamente aspirados.• Oclusivas sonoras geralmente exibem uma “voice-bar’’ durante o

fechamento.• Informação acerca da transição e abandono dos formantes é útil

para a classificação.

Tipo Sonoro Não Sonoro

18

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Espectrograma de Oclusivas Surdas

19

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Exemplos do contraste na sonorização da oclusiva

20

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Duração da oclusiva de um único tom

• Duração dos sonoros (Voice Onset Times - VOTs) são maiores que as oclusivas surdas.

21

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Freq

üênc

ia

Amplitude da rajada

TempoDuração da

Vogal

Energia nas freqüências baixas

Duração

Antes da emissão da voz

Freqüência Fundamental

Formas de Sonorização para oclusivas

Existem várias formas de sonorização para um stop.

22

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

/s/-Durações das Oclusivas

Oclusivas surdas não são aspiradas em seqüências /s/ stop.

23

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Exemplos de Velar Anterior/Posterior

24

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Qual é a palavra?

25

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Produção Nasal• Fluxo de ar através da cavidade nasal.• Consoantes produzidas mediante fechamento da cavidade oral.• Sons (murmúrios) nasais tem características espectrais

semelhantes.

26

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Nasais do Inglês Americano• Três posições de articulação: Labial, Alveolar, e Velar.

• Consoantes nasais sempre acompanham uma vogal, e podem formar uma sílaba inteira ([ņ], [m], [ŋ]).

• / ŋ / esta sempre após uma vogal em inglês.• A posição é identificada pelas transições dos formantes vizinhos.

TipoTipo

27

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Espectrograma dos Nasais

28

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Qual é a palavra?

29

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Produção de semivogais• Constrição no trato vocal, não turbulência.• Movimento da articulação mais lento que os das outras consoantes.• Formas Laterais completo fechamento com a ponta da língua e

fluxo de ar saindo pelos lados da contrição.

30

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Semivogais do Inglês Americano • Existem 4 semivogais no Inglês Americano• As vezes referidas como Líquidas ou Deslizante

• As deslizantes tem uma articulação maior que a de uma vogal;– Similar posição dos formantes, muito embora mais extrema;– Geralmente mais fraca devido á contrição mais estreita.

• Semivogais estão sempre acompanhadas por vogais, muito embora /l/ pode formar uma silaba inteira ([ļ])

Semivogal Vogal mais próximaTipo

Deslizante

Líquida

31

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Espectrograma de Semivogais

32

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Propriedades acústicas das Semivogais• /w/ e /l/ são as semi vogais que mais se confundem.• /w/ é caracterizado por F1 e F2 bem baixos.

– Tipicamente um rápida caída acima de F2.• /l/ é caracterizado por um baixo F1 e F2.

– Freqüentemente há presença de alta energia.– /l/ após vogal é caracterizado por uma mínima descontinuidade.

espectral, movimento gradual dos formantes. • /y/ caracterizado por um F1 muito baixo, e um F2 muito alto.

– /y/somente ocorre em uma sílaba quando antes de vogal.• /r/ é caracterizado por um F3 muito baixo.

– F3 Pré-vocálico < F3 mediano < F3 Pós-vocálico.

33

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Qual é a palavra?

34

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Produção de Não fricativas• Existem duas não fricativas no Inglês Americano:

• Pares Alveolar-oclusiva palatal-fricativa.• Abandono repentino da contrição, ruído de turbulência.• Pode haver excitação periódica durante o fechamento.

Sonoro Surda

35

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Produção Aspirante• Existe um aspirante no Inglês Americano: /h/ (ex., “hat’’).• Produzido mediante geração de excitação turbulenta na glote. • Não há contrição no trato vocal, excitação normal do formante.• Acoplamento Subglotal resulta em pequena energia na região F1. • Excitação Periódica pode estar presente na posição mediana.

36

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Espectrograma de Não Fricativas e Aspirantes

37

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Qual é a palavra?

38

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Limitações Fonotáticas• Fonotática é o estudo da seqüência permitida de sons• Análise da palavra inicial e final de aglomerados (clusters) revela:

– 73 aglomerados iniciais distintos (cerca de 10 aglomerados “estrangeiros’’);

– 208 aglomerados finais.• Podem ser usados para eliminar seqüências impossíveis de

fonemas:– /tk/ não pode terminar uma palavra, e– /kt/ não pode iniciar uma palavra,– Portanto, */: : : t k t : : :/é uma seqüência impossível.

39

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Consoantes Iniciais de Palavras a Partir do Dicionário MWP

40

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

A sílaba• A estrutura das sílabas captura muitas generalizações úteis.

– A realização de fonemas depende muitas vezes das sílabas.– Muitas regras fonológicas dependem da estrutura das sílabas.

• A estrutura das sílabas se baseia na noção do posicionamento dos sons da voz em termos de seus valores de sonoridade.

ExemplosValores de SonoridadeSonsVogais Baixas

Vogais Médias

Vogais Altas

Flaps

Lateral

Nasais

Fricativas sonoras

Fricativas surdas

Oclusivas sonoras

Oclusivas surdas

41

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Sílabas e Sonoridade• Expressões podem ser divididas em sílabas.• O número de sílabas é igual ao número de picos de sonoridade.• Dentro de qualquer sílaba, existe um segmento constituindo um

pico de sonoridade que é precedido e/ou seguido por uma seqüência de segmentos com valores de sonoridade que decrescem progressivamente.

42

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Representação Silábica

• Ramos marcados por _ são opcionais.• Núcleos devem conter um não ocluisva.• A sonoridade decresce a partir do núcleo.• Um _x contém somente: /s, z, t, d, T, D, C, J/.• Somente a última sílaba de uma palavra pode ter um _x.• /sp/, /st/, e /sk/ são tratados como únicos obstruente.

43

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Alguns Exemplos

44

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Palavras contendo /r/ e /l/

45

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Realização Acústica do /r/

46

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Realização Acústica do /l/

47

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Variações alofônicas nos contornos silábicos

48

MIT

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Tarefa 2


Recommended