MIT Teoria Acústica da Produção de Voz 6.345 Sistema de Reconhecimento de Voz

transcript

Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz

Sons Vocais do Inglês Americano• Existem mais de 40 sons vocais no inglês americano que podem ser

classificados de acordo com a forma básica em que são produzidos.

• Vogais e consoantes diferem no grau de contrição• Consoantes Sonoras não tem pressão na contrição• Consoantes Nasais permitem fluxo de ar na cavidade nasal• Consoantes contínuas não bloqueiam o fluxo de ar na cavidade oral

1Aspiradas2Não fricativas4Semi vogais3Nasais6Oclusivas8Fricativas18Vogais

NúmeroClasse quanto á forma

Produção das Vogais

• Pouca contrição no trato vocal• Geralmente produzida com excitação periódica• Características Acústicas dependem da posição do maxilar, língua e

lábios.

Vogais do Inglês Americano

• Existem aproximadamente 18 vogais no inglês americano feitos de monotongos, ditongos e vogais reduzidas.

• Elas são freqüentemente descritas mediante características da articulação: Altas/Baixas, Anteriores/Posteriores, Retroflexas,Arredondadas, e Tensas/Relaxadas.

Espectrograma das Principais Vogais

Médias dos Formantes de Vogais• Vogais são freqüentemente caracterizadas pelos três formantes

mais baixos.• Alto/Baixo é correlacionado com o primeiro formante, F1.• Anterior/Posterior é correlacionado com o segundo formante, F2.• Retroflexão é marcada pelo terceiro formante, F3.

Duração das Vogais• Cada vogal tem uma duração intrínseca diferente• As vogais reduzidas tem uma menor duração (50ms)• /I, E, Λ, U/ são os monotongos mais curtos• O contexto pode influenciar fortemente a duração das vogais

Rob’s Quadro de Vogais Pequeno e Feliz“Impreciso, mas mesmo assim útil.”

Reflexão

SimplesAnterior

Produção de Fricativas• Turbulência produzida na contrição estreita.• A posição da contrição determina as características acústicas. • Pode ser produzida com excitação periódica.

Fricativas do Inglês Americano• Existem 8 fricativas no inglês americano.• Quatro posições de articulação: Lábio-Dental (Labial), Inter-dental

(Dental), Alveolar, e Palato-Alveolar (Palatal).• São freqüentemente descritas pelas características

Sonoras/Surdas, ou Agudas/Não Agudas (contrição atrás da saliência alveolar).

Tipo Surdas Sonora

Espectrograma das Fricativas Surdas

Energia das Fricativas

Fricativas agudas tendem a ser mais fortes que as fricativas não agudas.

Duração das Fricativas

Fricativas sonoras tendem a ser mais curtas que as fricativas não sonoras.

SonoraSurda

Exemplos do Contraste das Fricativas Sonoras

Um pequeno quadro amigável de Consoantes"Um pouco mais preciso, mas um pouco menos útil"Rob’s

extremoextremo

As africativasSurda, Sonora

Qual é a palavra?

Produção de Oclusivas• Fechamento completo to trato vocal, aumento da pressão• Abandono repentino da contrição, ruído de turbulência• Pode ter excitação periódica durante o fechamento

Oclusivas do Inglês Americano• Existem 6 consoantes oclusivas no inglês americano. • Três posições de articulação: Labial, Alveolar, e Velar.• Cada posição de articulação tem uma oclusiva sonora e surda.

• Oclusivas surdas são tipicamente aspirados.• Oclusivas sonoras geralmente exibem uma “voice-bar’’ durante o

fechamento.• Informação acerca da transição e abandono dos formantes é útil

para a classificação.

Tipo Sonoro Não Sonoro

Espectrograma de Oclusivas Surdas

Exemplos do contraste na sonorização da oclusiva

Duração da oclusiva de um único tom

• Duração dos sonoros (Voice Onset Times - VOTs) são maiores que as oclusivas surdas.

üênc

Amplitude da rajada

TempoDuração da

Energia nas freqüências baixas

Duração

Antes da emissão da voz

Freqüência Fundamental

Formas de Sonorização para oclusivas

Existem várias formas de sonorização para um stop.

/s/-Durações das Oclusivas

Oclusivas surdas não são aspiradas em seqüências /s/ stop.

Exemplos de Velar Anterior/Posterior

Qual é a palavra?

Produção Nasal• Fluxo de ar através da cavidade nasal.• Consoantes produzidas mediante fechamento da cavidade oral.• Sons (murmúrios) nasais tem características espectrais

semelhantes.

Nasais do Inglês Americano• Três posições de articulação: Labial, Alveolar, e Velar.

• Consoantes nasais sempre acompanham uma vogal, e podem formar uma sílaba inteira ([ņ], [m], [ŋ]).

• / ŋ / esta sempre após uma vogal em inglês.• A posição é identificada pelas transições dos formantes vizinhos.

TipoTipo

Espectrograma dos Nasais

Qual é a palavra?

Produção de semivogais• Constrição no trato vocal, não turbulência.• Movimento da articulação mais lento que os das outras consoantes.• Formas Laterais completo fechamento com a ponta da língua e

fluxo de ar saindo pelos lados da contrição.

Semivogais do Inglês Americano • Existem 4 semivogais no Inglês Americano• As vezes referidas como Líquidas ou Deslizante

• As deslizantes tem uma articulação maior que a de uma vogal;– Similar posição dos formantes, muito embora mais extrema;– Geralmente mais fraca devido á contrição mais estreita.

• Semivogais estão sempre acompanhadas por vogais, muito embora /l/ pode formar uma silaba inteira ([ļ])

Semivogal Vogal mais próximaTipo

Deslizante

Líquida

Espectrograma de Semivogais

Propriedades acústicas das Semivogais• /w/ e /l/ são as semi vogais que mais se confundem.• /w/ é caracterizado por F1 e F2 bem baixos.

– Tipicamente um rápida caída acima de F2.• /l/ é caracterizado por um baixo F1 e F2.

– Freqüentemente há presença de alta energia.– /l/ após vogal é caracterizado por uma mínima descontinuidade.

espectral, movimento gradual dos formantes. • /y/ caracterizado por um F1 muito baixo, e um F2 muito alto.

– /y/somente ocorre em uma sílaba quando antes de vogal.• /r/ é caracterizado por um F3 muito baixo.

– F3 Pré-vocálico < F3 mediano < F3 Pós-vocálico.

Qual é a palavra?

Produção de Não fricativas• Existem duas não fricativas no Inglês Americano:

• Pares Alveolar-oclusiva palatal-fricativa.• Abandono repentino da contrição, ruído de turbulência.• Pode haver excitação periódica durante o fechamento.

Sonoro Surda

Produção Aspirante• Existe um aspirante no Inglês Americano: /h/ (ex., “hat’’).• Produzido mediante geração de excitação turbulenta na glote. • Não há contrição no trato vocal, excitação normal do formante.• Acoplamento Subglotal resulta em pequena energia na região F1. • Excitação Periódica pode estar presente na posição mediana.

Espectrograma de Não Fricativas e Aspirantes

Qual é a palavra?

Limitações Fonotáticas• Fonotática é o estudo da seqüência permitida de sons• Análise da palavra inicial e final de aglomerados (clusters) revela:

– 73 aglomerados iniciais distintos (cerca de 10 aglomerados “estrangeiros’’);

– 208 aglomerados finais.• Podem ser usados para eliminar seqüências impossíveis de

fonemas:– /tk/ não pode terminar uma palavra, e– /kt/ não pode iniciar uma palavra,– Portanto, */: : : t k t : : :/é uma seqüência impossível.

Consoantes Iniciais de Palavras a Partir do Dicionário MWP

A sílaba• A estrutura das sílabas captura muitas generalizações úteis.

– A realização de fonemas depende muitas vezes das sílabas.– Muitas regras fonológicas dependem da estrutura das sílabas.

• A estrutura das sílabas se baseia na noção do posicionamento dos sons da voz em termos de seus valores de sonoridade.

ExemplosValores de SonoridadeSonsVogais Baixas

Vogais Médias

Vogais Altas

Lateral

Nasais

Fricativas sonoras

Fricativas surdas

Oclusivas sonoras

Oclusivas surdas

Sílabas e Sonoridade• Expressões podem ser divididas em sílabas.• O número de sílabas é igual ao número de picos de sonoridade.• Dentro de qualquer sílaba, existe um segmento constituindo um

pico de sonoridade que é precedido e/ou seguido por uma seqüência de segmentos com valores de sonoridade que decrescem progressivamente.

Representação Silábica

• Ramos marcados por _ são opcionais.• Núcleos devem conter um não ocluisva.• A sonoridade decresce a partir do núcleo.• Um _x contém somente: /s, z, t, d, T, D, C, J/.• Somente a última sílaba de uma palavra pode ter um _x.• /sp/, /st/, e /sk/ são tratados como únicos obstruente.

Alguns Exemplos

Palavras contendo /r/ e /l/

Realização Acústica do /r/

Realização Acústica do /l/

Variações alofônicas nos contornos silábicos

Tarefa 2

MIT Teoria Acústica da Produção de Voz 6.345 Sistema de Reconhecimento de Voz

Documents