Post on 27-Nov-2023
transcript
1
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Sons Vocais do Inglês Americano• Existem mais de 40 sons vocais no inglês americano que podem ser
classificados de acordo com a forma básica em que são produzidos.
• Vogais e consoantes diferem no grau de contrição• Consoantes Sonoras não tem pressão na contrição• Consoantes Nasais permitem fluxo de ar na cavidade nasal• Consoantes contínuas não bloqueiam o fluxo de ar na cavidade oral
1Aspiradas2Não fricativas4Semi vogais3Nasais6Oclusivas8Fricativas18Vogais
NúmeroClasse quanto á forma
2
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Produção das Vogais
• Pouca contrição no trato vocal• Geralmente produzida com excitação periódica• Características Acústicas dependem da posição do maxilar, língua e
lábios.
3
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Vogais do Inglês Americano
• Existem aproximadamente 18 vogais no inglês americano feitos de monotongos, ditongos e vogais reduzidas.
• Elas são freqüentemente descritas mediante características da articulação: Altas/Baixas, Anteriores/Posteriores, Retroflexas,Arredondadas, e Tensas/Relaxadas.
4
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Espectrograma das Principais Vogais
5
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Médias dos Formantes de Vogais• Vogais são freqüentemente caracterizadas pelos três formantes
mais baixos.• Alto/Baixo é correlacionado com o primeiro formante, F1.• Anterior/Posterior é correlacionado com o segundo formante, F2.• Retroflexão é marcada pelo terceiro formante, F3.
6
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Duração das Vogais• Cada vogal tem uma duração intrínseca diferente• As vogais reduzidas tem uma menor duração (50ms)• /I, E, Λ, U/ são os monotongos mais curtos• O contexto pode influenciar fortemente a duração das vogais
7
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Rob’s Quadro de Vogais Pequeno e Feliz“Impreciso, mas mesmo assim útil.”
Anterior
Posterior
Reflexão
SimplesAnterior
8
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Produção de Fricativas• Turbulência produzida na contrição estreita.• A posição da contrição determina as características acústicas. • Pode ser produzida com excitação periódica.
9
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Fricativas do Inglês Americano• Existem 8 fricativas no inglês americano.• Quatro posições de articulação: Lábio-Dental (Labial), Inter-dental
(Dental), Alveolar, e Palato-Alveolar (Palatal).• São freqüentemente descritas pelas características
Sonoras/Surdas, ou Agudas/Não Agudas (contrição atrás da saliência alveolar).
Tipo Surdas Sonora
10
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Espectrograma das Fricativas Surdas
11
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Energia das Fricativas
Fricativas agudas tendem a ser mais fortes que as fricativas não agudas.
12
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Duração das Fricativas
Fricativas sonoras tendem a ser mais curtas que as fricativas não sonoras.
SonoraSurda
13
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Exemplos do Contraste das Fricativas Sonoras
14
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Um pequeno quadro amigável de Consoantes"Um pouco mais preciso, mas um pouco menos útil"Rob’s
extremoextremo
extremoextremo
As africativasSurda, Sonora
Fric
ativ
aO
clus
iva
16
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Produção de Oclusivas• Fechamento completo to trato vocal, aumento da pressão• Abandono repentino da contrição, ruído de turbulência• Pode ter excitação periódica durante o fechamento
17
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Oclusivas do Inglês Americano• Existem 6 consoantes oclusivas no inglês americano. • Três posições de articulação: Labial, Alveolar, e Velar.• Cada posição de articulação tem uma oclusiva sonora e surda.
• Oclusivas surdas são tipicamente aspirados.• Oclusivas sonoras geralmente exibem uma “voice-bar’’ durante o
fechamento.• Informação acerca da transição e abandono dos formantes é útil
para a classificação.
Tipo Sonoro Não Sonoro
18
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Espectrograma de Oclusivas Surdas
19
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Exemplos do contraste na sonorização da oclusiva
20
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Duração da oclusiva de um único tom
• Duração dos sonoros (Voice Onset Times - VOTs) são maiores que as oclusivas surdas.
21
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Freq
üênc
ia
Amplitude da rajada
TempoDuração da
Vogal
Energia nas freqüências baixas
Duração
Antes da emissão da voz
Freqüência Fundamental
Formas de Sonorização para oclusivas
Existem várias formas de sonorização para um stop.
22
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
/s/-Durações das Oclusivas
Oclusivas surdas não são aspiradas em seqüências /s/ stop.
23
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Exemplos de Velar Anterior/Posterior
25
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Produção Nasal• Fluxo de ar através da cavidade nasal.• Consoantes produzidas mediante fechamento da cavidade oral.• Sons (murmúrios) nasais tem características espectrais
semelhantes.
26
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Nasais do Inglês Americano• Três posições de articulação: Labial, Alveolar, e Velar.
• Consoantes nasais sempre acompanham uma vogal, e podem formar uma sílaba inteira ([ņ], [m], [ŋ]).
• / ŋ / esta sempre após uma vogal em inglês.• A posição é identificada pelas transições dos formantes vizinhos.
TipoTipo
27
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Espectrograma dos Nasais
29
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Produção de semivogais• Constrição no trato vocal, não turbulência.• Movimento da articulação mais lento que os das outras consoantes.• Formas Laterais completo fechamento com a ponta da língua e
fluxo de ar saindo pelos lados da contrição.
30
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Semivogais do Inglês Americano • Existem 4 semivogais no Inglês Americano• As vezes referidas como Líquidas ou Deslizante
• As deslizantes tem uma articulação maior que a de uma vogal;– Similar posição dos formantes, muito embora mais extrema;– Geralmente mais fraca devido á contrição mais estreita.
• Semivogais estão sempre acompanhadas por vogais, muito embora /l/ pode formar uma silaba inteira ([ļ])
Semivogal Vogal mais próximaTipo
Deslizante
Líquida
31
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Espectrograma de Semivogais
32
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Propriedades acústicas das Semivogais• /w/ e /l/ são as semi vogais que mais se confundem.• /w/ é caracterizado por F1 e F2 bem baixos.
– Tipicamente um rápida caída acima de F2.• /l/ é caracterizado por um baixo F1 e F2.
– Freqüentemente há presença de alta energia.– /l/ após vogal é caracterizado por uma mínima descontinuidade.
espectral, movimento gradual dos formantes. • /y/ caracterizado por um F1 muito baixo, e um F2 muito alto.
– /y/somente ocorre em uma sílaba quando antes de vogal.• /r/ é caracterizado por um F3 muito baixo.
– F3 Pré-vocálico < F3 mediano < F3 Pós-vocálico.
34
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Produção de Não fricativas• Existem duas não fricativas no Inglês Americano:
• Pares Alveolar-oclusiva palatal-fricativa.• Abandono repentino da contrição, ruído de turbulência.• Pode haver excitação periódica durante o fechamento.
Sonoro Surda
35
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Produção Aspirante• Existe um aspirante no Inglês Americano: /h/ (ex., “hat’’).• Produzido mediante geração de excitação turbulenta na glote. • Não há contrição no trato vocal, excitação normal do formante.• Acoplamento Subglotal resulta em pequena energia na região F1. • Excitação Periódica pode estar presente na posição mediana.
36
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Espectrograma de Não Fricativas e Aspirantes
38
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Limitações Fonotáticas• Fonotática é o estudo da seqüência permitida de sons• Análise da palavra inicial e final de aglomerados (clusters) revela:
– 73 aglomerados iniciais distintos (cerca de 10 aglomerados “estrangeiros’’);
– 208 aglomerados finais.• Podem ser usados para eliminar seqüências impossíveis de
fonemas:– /tk/ não pode terminar uma palavra, e– /kt/ não pode iniciar uma palavra,– Portanto, */: : : t k t : : :/é uma seqüência impossível.
39
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Consoantes Iniciais de Palavras a Partir do Dicionário MWP
40
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
A sílaba• A estrutura das sílabas captura muitas generalizações úteis.
– A realização de fonemas depende muitas vezes das sílabas.– Muitas regras fonológicas dependem da estrutura das sílabas.
• A estrutura das sílabas se baseia na noção do posicionamento dos sons da voz em termos de seus valores de sonoridade.
ExemplosValores de SonoridadeSonsVogais Baixas
Vogais Médias
Vogais Altas
Flaps
Lateral
Nasais
Fricativas sonoras
Fricativas surdas
Oclusivas sonoras
Oclusivas surdas
41
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Sílabas e Sonoridade• Expressões podem ser divididas em sílabas.• O número de sílabas é igual ao número de picos de sonoridade.• Dentro de qualquer sílaba, existe um segmento constituindo um
pico de sonoridade que é precedido e/ou seguido por uma seqüência de segmentos com valores de sonoridade que decrescem progressivamente.
42
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Representação Silábica
• Ramos marcados por _ são opcionais.• Núcleos devem conter um não ocluisva.• A sonoridade decresce a partir do núcleo.• Um _x contém somente: /s, z, t, d, T, D, C, J/.• Somente a última sílaba de uma palavra pode ter um _x.• /sp/, /st/, e /sk/ são tratados como únicos obstruente.
44
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Palavras contendo /r/ e /l/
45
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Realização Acústica do /r/
46
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Realização Acústica do /l/
47
MIT
Teoria Acústica da Produção de Voz6.345 Sistema de Reconhecimento de Voz
Variações alofônicas nos contornos silábicos