+ All Categories
Home > Documents > Построение алгоритмов распознавания эмоционального...

Построение алгоритмов распознавания эмоционального...

Date post: 10-Dec-2023
Category:
Upload: independent
View: 1 times
Download: 0 times
Share this document with a friend
20
Построение алгоритмов распознавания эмоционального состояния человека по речи Кальян Виктор Петрович, мнс б/с, ВЦ им. А.А.Дородницина РАН, окончил МИФИ в 1975 г., 20 печатных работ по теме, область научных интересов распознавание эмоционального состояния человека по речи, распознавание ситуаций и прогноз их развития. e-mail: [email protected] В работе описывается эксперимент по созданию алгоритмов распознавания эмоционального состояния человека по речи. Анализируется информативность измерительной базы алгоритмов распознавания на основании пара и экстралингвистических особенностей речи по динамике интенсивности, спектра и высоты основного тона в речевом сигнале. Рассматривается также вопрос о применимости артикуляционных моделей в задачах распознавания эмоционального состояния говорящего. Введение Возможность определения эмоционального состояния говорящего по речи имеет большое практическое значение. Эмоции естественным образом сопутствуют речи, являясь особым каналом общения по которому непосредственно передаётся отношение говорящего к текущей ситуации и содержанию сказанного. Это отношение невольно проявляется в характере речи данное простое соображение, казалось бы, позволяет утверждать, что возможность построения системы связывающей параметры речи с её искренностью и правдивостью является непреложным фактом, а такие бесконтактные детекторы лжи скоро заменят существующие уже много лет в криминалистической практике полиграфы. И действительно, уже более 40 лет на рынке услуг по детекции лжи под разными названиями появляются коммерческие приборы, позиционирующие сами себя как "анализаторы стресса в голосе". В 1972 году в США был получен первый патент на прибор под названием PSE (Psychological Stress Evaluator), чуть позже другими разработчиками был выпущен в свет VSE (Voice Stress Evaluator). Утверждалось, что эти и подобные им приборы (Mark-II, ESM, Hagoth и др.) в отличие от полиграфа способны устанавливать неискренность
Transcript

Построение алгоритмов распознавания

эмоционального состояния человека по речи

Кальян Виктор Петрович, мнс б/с, ВЦ им. А.А.Дородницина РАН,

окончил МИФИ в 1975 г., 20 печатных работ по теме, область научных интересов

— распознавание эмоционального состояния человека по речи,

распознавание ситуаций и прогноз их развития.

e-mail: [email protected]

В работе описывается эксперимент по созданию алгоритмов распознавания эмоционального

состояния человека по речи. Анализируется информативность измерительной базы алгоритмов

распознавания на основании пара и экстралингвистических особенностей речи по динамике

интенсивности, спектра и высоты основного тона в речевом сигнале. Рассматривается также

вопрос о применимости артикуляционных моделей в задачах распознавания эмоционального

состояния говорящего.

Введение

Возможность определения эмоционального состояния говорящего по речи имеет большое

практическое значение. Эмоции естественным образом сопутствуют речи, являясь особым

каналом общения по которому непосредственно передаётся отношение говорящего к текущей

ситуации и содержанию сказанного. Это отношение невольно проявляется в характере речи —

данное простое соображение, казалось бы, позволяет утверждать, что возможность построения

системы связывающей параметры речи с её искренностью и правдивостью является

непреложным фактом, а такие бесконтактные детекторы лжи скоро заменят существующие уже

много лет в криминалистической практике полиграфы.

И действительно, уже более 40 лет на рынке услуг по детекции лжи под разными

названиями появляются коммерческие приборы, позиционирующие сами себя как

"анализаторы стресса в голосе". В 1972 году в США был получен первый патент на прибор под

названием PSE (Psychological Stress Evaluator), чуть позже другими разработчиками был

выпущен в свет VSE (Voice Stress Evaluator). Утверждалось, что эти и подобные им приборы

(Mark-II, ESM, Hagoth и др.) в отличие от полиграфа способны устанавливать неискренность

без подключения к телу человека датчиков, а путем измерения изменений в голосе,

обусловленных стрессом, который сопровождает ложные высказывания.

Суть работы анализаторов стресса в голосе объяснялась тем, что с помощью данных

приборов якобы выделяются не воспринимаемые на слух акустические характеристики голоса,

обусловленные стрессом. В частности, производители PSE утверждали, что этот прибор

измеряет низкочастотную (около 10 ГЦ) модуляцию частоты основного тона голоса,

обусловленную тремором мышц.

Проведенные экспертами-полиграфологами независимые исследования, исследования

Американской ассоциации полиграфа (АРА), а также тесты проведённые Институтом

полиграфа Минобороны США (DoDPI) существующих на рынке приборов показало, что

точность этих приборов находится на уровне случайного угадывания [6].

Причину эксперты связывают с тем, что данные приборы лишь имитируют работу

полиграфа. Они несравнимо беднее по возможностям измерения и анализа речевого сигнала

классических систем распознавания речи, не учитывают опыт использования традиционного

полиграфа с его обширной тактико-аналитической базой. В документации на эти приборы

отсутствует описание принципов их работы под предлогом неразглашения коммерческой

тайны, а инструкции применения отсутствуют или просто скопированы с инструкций

некоторых моделей классического полиграфа.

Всё это дискредитирует саму идею создания и использования речевого полиграфа на

практике, требует постановки и решения задачи о применимости речевых анализаторов в

оценке и интерпретации эмоциональных реакций человека по речи в части определения

правдивости и искренности сказанного.

Постановка задачи

Исследуем информативность речевых характеристик эмоций. Из академических работ по

исследованию эмоциональной составляющей речи известно, что наиболее информативными

являются паралингвистические и экстралингвистические её особенности. К

паралингвистическим особенностям речи относят просодию, представляющую совокупность

темпоральных, артикуляционных и интонационных составляющих; к экстралингвистическим

— паузы, смех, покашливание, вздохи, плач, мычание, заикание, и т.п.

Важные признаки для распознавания эмоционального состояния, искренности и

правдивости говорящего содержатся в мелодике, акцентуации, смене темпа и ритма речи,

дрожании голоса — особенно в стрессовых ситуациях, например, при ответах собеседника на

неожиданные «неудобные» вопросы. Некоторыми исследователями установлена связь

направления движения высоты голоса с положительными или отрицательными эмоциями:

понижение высоты — с приятными эмоциями, а ее повышение соотносят с удивлением или

страхом. Большое значение придают специалисты завершающему фрагменту мелодического

контура фразы, поскольку он может информировать не только о повествовательном,

вопросительном или восклицательном типе предложения, но и об отношении говорящего к

теме высказывания, ситуации общения, к собеседнику.

Важным является также и вопрос о применимости артикуляционных моделей в задачах

распознавания эмоционального состояния говорящего. Из традиционной фонетики известно,

что речевой тракт, человека содержит три основных механизма образования членораздельной

речи:

1. дыхательные органы,

2. органы гортани, надгортанные полости (полость глотки, ротовая полость, полость

носа), язык, губы,

3. голосовые связки.

Артикуляцию каждого звука принято описывать как последовательность трех фаз:

экскурсии (перехода произносительных органов из некоторого предшествующего состояния к

состоянию, необходимому для производства данного звука), выдержки (сохранения

достигнутого положения на протяжении некоторого времени) и рекурсии (перехода к

положению покоя или к артикуляции следующего звука).

При произнесении слитной речи каждая из трех фаз может подвергаться различным

трансформациям. Рекурсия может совпасть с экскурсией последующего звука, экскурсия — с

рекурсией предыдущего, а фаза выдержки часто вообще отсутствует. По артикуляционным

моделям существует обширная литература, необходимые сведения кратко изложены в [13,14].

Одним из основных показателей эмоциональности речи, по мнению ряда исследователей [2-

5], является долгóты (длительности) звуков. Они в потоке речи определяют не только речевой

ритм и темп, но и акцентуацию на уровне слова и фразы. Последняя, в значительной степени

достигается увеличением длительности звуков; в частности — лингвисты отмечают увеличение

длительности в ударных гласных, и «растяжение» некоторых начальных, пред- и послеударных

согласных в слове — как наиболее показательные проявления эмоций в речи.

Так в нашей работе было установлено, что фразовые акценты в эмоциональной речи часто

имеют двойной максимум и на слух хорошо различимые повторные экскурсии акцентируемых

гласных (например, в слове [никəгда-а]).

В эмоционально произнесённой фразе исследователи отмечают и удлинение предударных

щелевых или сонорных согласных, некоторые из них имели по два минимума кривой

интенсивности и также состояли из двух сегментов первичной разбивки.

Однако, одно и то же средство может использоваться для выражения различных эмоций.

Здесь оказываются информативными как раз акустические корреляты артикуляционных

моделей и данные из области апеллятивной фонетики. Краткий обзор артикуляционных

моделей из соответствующего раздела общей фонетики представлен в Приложении.

На данный момент можно выделить 12 содержательных признаков, свидетельствующих о

проявлении эмоций в речи, это:

1. отклонение от среднего диапазона интенсивности звука;

2. удлинение ударных гласных и возникновение на них признаков повторной

акцентуации в виде двойного максимума интенсивности;

3. удлинение согласных

— начальных и предударных сонорных и щелевых согласных,

— начальных и предударных взрывных согласных за счёт паузы;

4. сужение или увеличение звуковысотного диапазона интонирования;

5. наличие контрастно-регистрового интонирования;

6. нарушение единоударности слова, скандирование, произнесение слова по

слогам;

7. изменение речевого ритма, в частности, переход от простого ритма к сложному,

от сложного к простому, появление мультипликативных форм;

8. изменение темпа, в частности, ускорение или замедление темпа речи в разной

степени коррелированное с изменением интенсивности звука;

9. дрожание голоса;

10. неуверенная речь с элементами мычания-блеяния «э-э-э-э»;

11. неуверенная речь с заиканием;

12. смех, речь во время смеха;

Наша задача заключается в распознавании и маркировке тех моментов в высказывании, где

проявляется волнение. Оно в дальнейшем может быть интерпретировано как нервозность,

раздражение, неуверенность, страх, презрение, недоверие, сомнение, возмущение, гнев, обида,

горе — или наоборот — восхищение, радость, удивление, признательность, интерес, надежда,

удовлетворение.

При первичном экспертном анализе речевого сигнала нам нужно рассмотреть картину

динамического спектра, огибающую амплитуды интенсивности звука и ряд первичных

признаков эмоциональной речи. В поле зрения настоящего исследования оказываются такие

параметры, как время, высота и интенсивность звука, траектории максимумов первых трёх

формант, характеристики частотного спектра в отдельных сегментах или точках. Они

используются для предварительного суждения и последующей разметки на семантически

значимые эпизоды, свидетельствующие о динамике эмоциональности речи на этапе обучения

модели. Это означает, что на первом этапе мы должны:

— произвести первичную сегментацию звуков по экстремумам интенсивности,

— идентифицировать сегменты по их спектральных характеристикам и на основании

справочных материалов или экспертных оценок по типу — слог, аллофон гласного/согласного

(вокализованный, щелевой, взрывной и т.п.).

— скорректировать, перегруппировав первичную сегментацию и вычислить длительности

звуков, соответствующих гласным и согласным.

На основании этих результатов, на втором этапе, осуществить построение тестовых

алгоритмов распознавания ритма, темпа, акцентуации, структуры высказывания и маркировки

проявления эмоций в речи.

Описание эксперимента

Для экспериментов был взят массив фрагментов диалогов и монологов из телевизионных

ток-шоу и радио-интервью. Для всех фрагментов вычислялись высота звука P и огибающая его

интенсивности A как функции времени t, анализировались траектории первых трёх формант и

характеристики частотного спектра в отдельных сегментах или точках.

Время представлено последовательностью отсчетов с частотой 20мсек. Временные отсчеты

функций A(ti ) и P(tk ) получены с одним и тем же шагом ∆t=0.02 сек. так, что для каждого

k=i=1,2,3…N отсчеты A и P синхронны.

Интенсивность звукового сигнала приведена в децибелах и представляют собой

непрерывную функцию от времени.

Особенность алгоритма вычисления основного тона заключается в том, что функция P(t)

имеет разрывы в точках, где частота основного тона не определена – в паузах,

невокализованных участках (глухих согласных – шипящих, взрывных). Мелодический контур

мы получали с помощью преобразования траектории основного тона из линейной шкалы

частот W в логарифмическую с основанием 2, по формуле:

Pt=12*log2(Wt)+С , (1)

где Wt - частота основного тона в момент времени t, С – некоторая константа); величина Pt

отображает высоту звука в музыкальном восприятии в момент времени t. Значение 52 по оси P,

например, соответствует высоте ноты до первой октавы (по стандарту MIDI). Значение шага

между ближайшими целыми значениями высоты звука (52, 53, 54 и т.д.) соответствует

полутону темперированного строя диатоники. Точкам разрыва для простоты работы алгоритма

присваивается нулевое значение.

На основании спектральных и амплитудо-высотных параметров речевого сигнала

предполагалось произвести:

• вычисление локальных экстремумов функций высоты и интенсивности звукового

сигнала;

• вычисление функций распределения плотности вероятности для функций высоты и

интенсивности звукового сигнала, длительности транзем и слогов и определение

основного установившегося диапазона изменения этих функций;

• сегментация — определение границ аллофонов и пауз на основании

спектродинамических характеристик речевого сигнала;

• установление темпоральных соотношений сегментов;

• выявление признаков, характеризующих акцентуацию;

• расчёт характеристик для определения ритма и темпа речи;

• определение признаков для распознавания основных интонационных конструкций;

• определение значимых признаков для определения концовки фразы;

• распознавание дрожания/пропадания голоса;

• распознавание элементов неуверенной речи — заикания, мычания, блеяния;

• определение эмоциональных признаков и построение модели речевой интонации для

каждого высказывания;

• транскрипцию выявленных эмоциональных признаков.

Сегментация

Для распознавания отдельных звуков и измерения их длительности мы применили метод

двухуровневой сегментации речевого сигнала. На 1-ом уровне сегментация выполнялась по

экстремумам кривых интенсивности, на 2-ом — происходило уточнение границ звуков по

наличию основного тона, траекториям формант и характеристикам высоких, средних и низких

частот динамического спектра.

На первом этапе применялся алгоритм поиска локальных максимумов и минимумов в

последовательности временных отсчетов функций Pmax(tk ), Pmin(tk ) и Amax(ti ), Amin(ti ) для

таких отсчетов tk и ti в которых выполнялись простейшие условия «перегиба»:

Pmax(tk ) = P(tk ),

если P(tk-1 ) < P(tk )> P(tk+1)

и (2)

Pmin(tk ) = P(tk ),

если P(tk-1 ) > P(tk )< P(tk+1).

Аналогично,

Amax (ti ) = A(ti ),

если A(ti-1 ) < A(ti )> A(ti+1)

и (3)

Amin (ti ) = A(ti )

если A(ti-1 ) > A(ti ) < A(ti+1)

Из найденных Pmax , Pmin , Amax , Amin были сформированы два массива

Pminmax(tPmin,Pmin, tPmax, Pmax,), и Iminmax(tAmin,Amin, tAmax,Amax,), значений локальных

экстремумов и соответствующих им временных значений tPmin(k), tPmax(k), tAmin(i), tAmax(i).

За основу первичного разбиения брались точки временной последовательности столбца

tAmin, т.к. они предположительно должны соответствовать либо — минимумам в согласных

звуках, границам гласных, начальным и конечным точкам пауз, либо минимумам внутри

акцентируемых гласных. Таким образом, первичная разметка давала нам массив точек

совпадающих с границами транзем и аллофонов. На рисунке 1 изображены графики функций

(сверху вниз расположены одна под другой — звуковая волна – сонограмма – траектории трёх

первых формант – высота звука – интенсивность) для речевого высказывания «Что написал».

Рис 1. Синхронизированные графики звукового сигнала, динамического спектра, траекторий

трёх первых формант, высоты звука, интенсивности звука с отметками локальных минимумов

и масштабированной подтекстовкой.

Полный текст отображён в подтекстовке графика интенсивности (самая нижняя функция).

Буквы текста расположены под соответствующим этим звукам экстремумам функции

интенсивности. Для наглядности и сохранения непрерывности текста звуки более протяженные

изображены более крупными буквами, короткие – более мелкими.

Артикуляционные модели в задаче распознавания эмоциональной речи

На втором этапе производилась идентификация и уточнение границ аллофонов, пауз и ряда

экстралингвистических элементов речи. На обучающей выборке с применением табличных

данных проводилась ручная разметка основных речевых событий и установление их признаков,

являющихся основанием для сегментации, маркировки, структуризации сегментов —

объединения их последовательности в распознанные аллофоны, слова, синтагмы и фразы.

С применением табличных данных проводилась ручная разметка основных речевых

событий и установление их признаков, являющихся основанием для фонетической сегментации

и маркировки.

Легко заметить, что согласным звукам в словах сопутствует понижение общего уровня

интенсивности звукового сигнала. На точку локального минимума приходится смычка

взрывных или середина щелевых и вокализованных согласных. При этом, вокализованные

согласные, как правило, имеют ненулевые значения высоты звука. Произнесённые подряд два

или более согласных звуков имеют собственные минимумы интенсивности каждый.

Локальные максимумы принадлежат гласным, вокализованным, щелевым или взрывным

участкам согласных. Замечено, что гласные, на которые приходится акцент уровня фразы,

могут иметь два максимума интенсивности, что чаще всего встречается при эмоциональной

фразовой акцентуации.

Локальные минимумы вокализованных согласных расположены, как правило, выше

минимумов щелевых и взрывных согласных.

На участках между соседними экстремумами с точками этой последовательности

анализировались основной тон, характеристики спектра и траектории формант и уточнялись

границы аллофонов. Границы сонорного участка определялись по присутствию основного тона

в точке k и его отсутствию в соседней, т.е., k — пограничная точка, если

P(tk )>0 и (P(tk-1 )=0 или P(tk+1 )=0 ) (4)

Для аллофонов гласных и сонорных согласных идентификация и уточнение границ в

сегменте производилось по наличию основного тона и табличным признакам,

содержащим частотное положения пиков формант; для щелевых согласных решающим

являлось нахождение участков с характерным соотношением значений интенсивности

отдельных спектральных полос; для взрывных согласных границы смычки и взрывного

участка определялись по кривой интенсивности. Границы между двумя

невокализованными согласными уточнялась по динамике общей интенсивности звука и

отдельных спектральных полос.

Изучались границы звуковых фаз (экскурсия, выдержка, рекурсия) составляющих

аллофоны. Выявленные закономерности использовались при построении алгоритмов

сегментации.

На рисунках 2, 3, 4, 5 и 6 представлены соответственно — сонограмма звучащей речи,

траектории трёх первых формант, временная последовательность LPC-огибающих спектра для

временного отрезка от 64-й до 206-й мили-секунды высказывания «Сама понимаешь».

Рис.2. Сонограмма высказывания «Сама понимаешь»

Рис. 3 .Траектории трёх первых формант для высказывания «Сама понимаешь»

На рисунках 4, 5, 6 приведены характерные LPC-огибающие спектра для фаз экскурсии,

выдержки, рекурсии аллофонов [а], [м], [а] слова «сама». Ряд 1 отображает фазу экскурсии, ряд

2 фазу выдержки и ряд 3 фазу рекурсии.

Рис. 4 .Фазы первого аллофона [а] в слове «сама»

Рис. 5. Фазы аллофона [м] в слове «сама»

Рис.6. Фазы аллофона второго [а] в слове «сама»

Согласно графикам на рис. 4 и 6 первое и второе [а] в слове «сама» выглядят по-разному.

Согласно табличным данным соотношения положений пиков формант по частоте первое [а]

расположено в признаковом пространстве ближе к гласным со средним подъёмом языка [ə], [э]

или даже к верхнеподъёмному [ы].

Эти и аналогичные акустические и фонетические свидетельства артикуляторных различий

могут быть использованы для составления контекстных правил позиционирования аллофонов в

слове и использоваться при определении эмоционального состояния говорящего. Таким

образом, мы получаем первое подтверждение возможности применения артикуляционных

моделей к задачам распознавания эмоций в речи.

Понятно, что применять артикуляционные модели для выявления эмоционального

произнесения речевых единиц можно лишь в случае известного содержания речевого

сообщения — когда можно одну реализацию слова и отдельного звука сравнивать с другой.

Такую ситуацию мы имеем только в тех случаях, когда система распознавания эмоций в речи

работает как компонента системы распознавания речевого сообщения.

Однако, с применением в системе распознавания эмоций артикуляционных моделей

распознавание слов всё-таки получает некоторую автономность от системы распознавания

речи, т.к. полученные конструкции можно соотносить со словарём, составленным из элементов

данного сообщения.

Распознавание экстралингвистических элементов

На рисунке 1 виден довольно характерный пример дрожания голоса на словах «он» и «она»

в речевом высказывании «Что написал». На основании анализа широкой экспертной выборки

были сделаны выводы о том, в основу признаков дрожания голоса могут быть положены

следующие объективные характеристики:

• периодичность колебаний и непрерывность функции высоты основного тона;

волнение в голосе становится событием, когда колебание голосового вибрато

насчитывает не менее двух полных периодов;

• малая величина диапазона изменений периода (от 180 до 280 мсек) и амплитуды

(от 1 до 2-х полутонов музыкальной шкалы) голосового вибрато.

Таким образом, алгоритм распознавания дрожания голоса может быть построен на анализе

только траектории основного тона.

Маркировка и структуризация

На основании экспертной разметки был составлен краткий экспериментальный алфавит

динамических LPC-образов аллофонов Alo[k], которые использовались для уточнения границ

вокализованных гласных (после первичной разбивки) и выявления артикуляторных различий

конкретных реализаций аллофонов в речевом сообщении. Классификация LPC-образов

выполнялась по табличным признакам, содержащим амплитудо-частотное положения пиков

формант для гласных и сонорных согласных.

Принадлежность сегмента определялась после вычисления его метрики по группе

указанных выше параметров в соотнесении с алфавитом сегментов, выявленных и

маркированных в процессе экспертной оценки на этапе обучения модели; его многомерная

классификация и, соответственно, маркировка осуществлялась при выполнении ряда условий.

Пусть N есть упорядоченное множество из K элементов, распознанных экспертами как

аллофоны, характеристики которых в данном контексте свидетельствуют о волнении

говорящего или желании диктора выделить слово артикулируя звуки в нем особым образом. У

нас это множество разбито на M классов и представлено массивом данных N(k, i), где каждый

k-й элемент из N отнесен к i-тому классу, и каждому классу поставлено в соответствие

значение S(i) из S — группы частично упорядоченных параметров представленных массивом

S(i, m, Lmax, Lmin), где i — имя (номер) класса, m — имя (номер) параметра, Lmax, Lmin —

максимальное и минимальное значения параметра m для класса i.

Т �огда ∆L(n + 1, i) — ближайшее расстояние между кластерами значений (векторная

разность) параметров i-тых классов массива S и m-тыми значениями параметров

распознаваемого n + 1-го сегмента в пространстве признаков, т.е.

�∆L(n + 1, i) = argimin [N(n + 1, i) — S(i)]; (5)

Эмоциональная окраска сегмента может рассматриваться как вероятность, вытекающая из

величины отклонения параметров сегмента от некоторых «нормальных» значений для данного

контекста. При этом предполагается наличие таких значений артикуляционных позиций,

которые могут быть распознаны, как «спокойное» артикулирование.

Тональный и темпоральный анализ

После уточнения границ аллофонов был сформирован массив tsegm( i, tin, tout, ∆t, Pi , type),

где i – номер сегмента, tin, tout, – его пограничные точки, ∆t – длительность во временных

отсчётах по 20 милисекунд, Pi — средняя высота сегмента, type – целое число –

идентификатор типа звука: 1 – гласный, 2 – согласный не взрывной (щелевой, сонорный), 3 –

согласный взрывной, 4 – пауза.

По столбцу ∆t вычислялась функция распределения плотности вероятности длительности

аллофонов в высказывании «Что написал». На рис.4 изображена гистограмма длительностей

сегментов в данном речевом фрагменте, где наглядно отображён диапазон изменения долготы

звуков.

Экспертная оценка показала, что длительность гласных в данном речевом фрагменте

попадает в диапазон 3-18 отсчётов, что соответствует диапазону длительностей 40-360

милисекунд. Безударные гласные внутри слова имеют длительность в диапазоне от 40 до 140

милисекунд, ударные и начальные гласные в слове — от 120 до 360 милисекунд.

Гласные, определяющие фразовую акцентуацию, имеют два максимума и состоят из двух

сегментов первичной разбивки, каждый длительностью порядка 100 – 240 милисекунд.

Рис 7. Гистограмма длительностей сегментов в речевом фрагменте «Что написал».

По оси X – временные отсчёты через каждые 20 мсек, Y – плотность вероятности.

Здесь имеет место и удлинение предударных щелевых или сонорных согласных, некоторые

из них имеют по два минимума кривой интенсивности и также состоят из двух сегментов

первичной разбивки.

Наибольшие длительности в данном речевом фрагменте имеют сегменты начальной и

ударной гласных в словах «узнаю» — 18 отсчётов (360 мсек) и «никогда» — 12 отсчётов (240

мсек.) во фразе «и я не узнаю никогда», в словах «ей» — 12 отсчётов (240 мсек.) и «он» — 18

отсчётов (360 мсек.) во фразе «что наисал ей он», в словах «ему» — 12 и 18 отсчётов (240 и

360 мсек.) и «она» 18 и 18 отсчётов (360 и 360 мсек.) во фразе «что написала ему она», в

словах «я» — 18 отсчётов (360 мсек.) и «проверять» — 18 отсчетов (360 мсек.) во фразе «я же

не буду проверять» (см. рис.7).

Длительность аллофонов как функция от текущего времени в том же высказывании

представлена на рис.8

Рис 8. Положение длительностей аллофонов в высказывании «Что написал»

Данное представление, можно преобразовать к более наглядному в отношении ритма и

темпа виду, если разделить данный массив на три группы данных — для гласных и согласных

по признаку type и фрагменты для каждой группы представить отдельным графиком, заполнив

разрывы в каждом графике линейной интерполяцией значений пограничных точек разрыва.

В этом случае верхняя кривая, соответствующая длительностям гласных, представляет

динамику величины обратной темпу речи, а соотношения между всеми тремя зависимостями от

времени дают возможность анализировать ритмические конструкции разных уровней. Такое

заключение представляется правомерным, т.к. ритм представляет собой периодическую

повторяемость выделенных элементов во времени. В речи он образуется членением на отрезки,

их группировкой, соотношениями длительности, паузами, акцентами и может

характеризоваться, например, на слоговом уровне повторяемостью ударных слогов через более

или менее равные на уровне восприятия промежутки времени. Таким образом, соотношения

ритма и темпа на фонемном уровне в данном речевом фрагменте мы будем анализировать,

опираясь на зависимости, представленные на рис. 9.

Рис 9. График зависимости длительностей сегментов гласных, сонорных, щелевых и взрывных

согласных в высказывании «Что написал» от времени раздельно.

Используя интерполированную функцию длительности гласных от времени в речевом

высказывании можно построить в первом приближении график динамики темпа произнесения

гласных (см. рис. 10).

Рис. 10. Динамика темпа произнесения гласных

В основу алгоритма членения речевой последовательности на синтагмы, фразы и

распознавания речевого ритма на фразовом уровне должно быть положено распознавание

фразовых акцентов по временным и амплитудо-высотным соотношениям последовательности

звуковых фрагментов, соответствующих аллофонам гласных и согласных.

Для выявления признаков фразового акцента и построения алгоритма его распознавания

дополним темпоральную информацию тональной и рассмотрим закономерности амплитудо-

высотных соотношений в речевом фрагменте.

На рис. 11 приведена гистограмма (функции распределения плотности вероятности) высоты

звука в высказывании «Что написал».

Рис. 11. Гистограмма (функция распределения плотности вероятности) высоты звука в

высказывании «Что написал».

Звуковые высоты данного речевого фрагмента находятся в диапазоне от высоты 45

(соответствует фа малой октавы) до высоты 62 (соответствует си бемоль 1-й октавы) и

распадается на два поддиапазона — небольшой нижний — от высоты 45 до высоты 46 и

основной верхний — от высоты 49 до высоты 62. Кроме того, можно выделить по крайней мере

три подзоны основного диапазона 49-55, 55-60 и 60-62.

Экспертная оценка показала, что все фразовые акценты находятся в подзоне 49-55 и

основной акцент предложения целиком расположен в зоне 45-46. Таким образом, высота звука

фразовых акцентов в данном примере оказывается в самых нижних зонах и подзонах общего

высотного диапазона звучания фразы. Можно ожидать, что в других речевых примерах

акцентуация в звуковысотной области будет проявляться прямо противоположным образом —

оказываться в самой верхней части общего диапазона. Здесь можно сослаться на мнение

многих исследователей, которые обращали внимание на то, что в эмоциональной речи может

присутствовать контрастно-регистровое интонирование.

Здесь важно зафиксировать сам факт контраста звуковысотных диапазонов разных участков

эмоционального речевого высказывания и особое периферийное положение звуковысотной

зоны концовок фраз и предложений.

Темпоральный анализ ранее показал, что ударные гласные в словах, на которые приходятся

фразовые акценты, имеют длительности от 240 до 360 милисекунд.

Таким образом, для установления фразовых акцентов данного речевого фрагмента

проявились отчётливые признаки — периферийные зоны в функциях распределения плотности

вероятности длительности аллофонов и высоты звука в них.

Обозначим зону длительностей от 240 до 360 милисекунд (см. рис. 7), в которую попадают

только длительности гласных, на которые приходится фразовые акценты как Zt , а

звуковысотную зону, в которой находятся высоты звуков концовок фраз Zp , тогда гласная

может быть распознана как фразовый акцент (принадлежит некоторому множеству

AccentPhrase), если выполняются следующие условия:

tsegm (i=1) Є AccentPhrase

если

∆t Є Zt и Pi Є Zp (6)

Аналогично находим, что паузы имеющие значение фразовых границ в потоке речи данного

примера лежат в диапазоне от 160 милисекунд и больше, и могут быть идентифицированы по

соотношениям аналогичным (6).

Таким образом, границы и акценты фраз (синтагм) определяются на основании указанных

признаков.

Для каждой фразы аналогичным образом вычисляем зоны на границе диапазона

длительности и высоты Yt и Yp и устанавливаем принадлежность обоим периферийным

фразовым зонам ударных гласных для каждой гласной во фразе:

tsegm (i=1) Є AccentSyntagma

если

∆t Є Yt и Pi Є Yp (7)

Распознавание ритма и темпа

Для определения изменений темпа от фразы к фразе (от синтагмы к синтагме) вычислялся

средний темп для каждой фразы, (синтагмы). На рис. 8 отображен график длительности

аллофонов и на рис. 10 график динамики темпа произнесения гласных в высказывании «Что

написал».

Темп данного речевого фрагмента можно охарактеризовать как изменяющийся, сложный.

Темп первой и последней (шестой) фразы выше, чем темп остальных фраз. Вторая и третья

фразы заметно замедлены, начиная с пятой фразы, темп медленно нарастает, как бы набирая

энергию для эмоционального взрыва. Ритм также сложный, т.к. отсутствуют повторяющиеся

фигуры в графиках длительности аллофонов и произнесения гласных. Это свидетельствует об

отсутствии интонаций перечисления, скандирования и других мультипликативных

ритмических форм характерных для повышенной эмоциональности разговорной речи.

Заключение

В работе описан эксперимент по созданию алгоритмов автоматического распознавания

эмоционального состояния человека на основании анализа некоторых пара и

экстралингвистических элементов речи. Был рассмотрен также вопрос о применимости

артикуляционных моделей в задачах распознавания эмоционального состояния говорящего. Из

12 содержательных признаков, свидетельствующих о проявлениях эмоций в речи для

исследования были отобраны пять — удлинение ударных гласных, двойная акцентуация,

наличие контрастно-регистрового интонирования, изменение темпа речи, дрожание голоса.

Выявлен ряд показаний к применению артикуляционных моделей в системах автоматического

распознавания эмоций в речи, — как дополнение к системам распознавания речи (т.к. для

применения методов апеллятивной фонетики необходимо знание произносимых слов), и как

автономное приложение.

Литература

1. Кальян В.П. Музыка, речь и компьютер. ВЦ РАН, М., 1998

2. Златоустова Л.В. Общая и прикладная фонетика / Л.В. Златоустова, Р.К. Потапова, В.В.

Потапов, В.Н. Трунин-Донской. - 2-е изд., дополн. и перераб. - М.: Изд-во МГУ, 1997. - 416 с

3. Златоустова Л.В. Об иерархии уровней ритмического компонента русской речи / Л.В.

Златоустова, А.А, Банин // Вестник МГУ, сер. 9: Филология. — М.: Изд-во МГУ, 1978. -

Вып. 2. - 35-43.

4. Златоустова Л.В. Об иерархии уровней ритмического компонента русской речи / Л.В.

Златоустова, А.А, Банин // Вестник МГУ, сер. 9: Филология. — М.: Изд-во МГУ, 1978. -

Вып. 2. - 35-43.

5. Реформатский А.А. Фонологические этюды. «Наука», Москва, 1975

6. Скрыпников А.И., Зубрилова И.С., Зерин С.Н. Методика и тактика применения полиграфа

при раскрытии преступлений: Методическое пособие. ВНИИ МВД России, 1997

7. Князев В., Варламов Г. Полиграф и его практическое применение. Принт-Центр, 2012

8. Бакстер К. «Стандартное пособие по полиграфу и техническое руководство» 1979.

9. Варламов В.A., Варламов Г.B. Противодействие полиграфу и пути их нейтрализации М.:

ПЕР СЭ-Пресс, 2005

10. Кальян В.П. Построение алгоритмов распознавания эмоционального состояния человека по

пара и экстралингвистическим особенностям речи. «Модели и методы распознавания

речи». М.: ВЦ РАН им. А.А.Дородницына, 2010.

11. Кальян В.П. Разработка алгоритмов распознавания эмоционального состояния человека по

паралингвистическим особенностям речи. Доклады 15-ой Всероссийской конференции

«Математические методы распознавания образов», Москва, с. 344-349, 2011

12. Кальян В.П. Исследование признаков и настройка алгоритмов распознавания

эмоционального состояния человека по некоторым паралингвистическим особенностям

речи. Доклады XIV Международной конференции «Речь и компьютер», Казань, 2011

13. Кальян В.П. Артикуляционные модели в системе распознавания эмоциональной речи.

«Модели и методы распознавания речи». М.: ВЦ РАН им. А.А.Дородницына, 2011.

14. Кальян В.П. Исследование применимости артикуляционных моделей в задачах

распознавания эмоций по речи. Доклады 9-ой Международной конференции

«Интеллектуализация обработки информации», г. Будва, Черногория, Москва, с. 498-502,

2012

15. Кальян В.П. Архитектура системы распознавания эмоционального состояния человека по

речи.. Модели и методы распознавания речи. ВЦ РАН, М., с. 83-98, 2013


Recommended