Диагностика эмоционального состояния диктора на основе рекуррентного анализа речевого сигнала

Сущность и предназначение аппарата рекуррентного анализа. Разработка системы диагностики эмоционального состояния диктора по речевому сигналу с помощью аппаратно-программных средств. Диагностика и специфика основных эмоциональных состояния дикторов.

Рубрика Физика и энергетика
Вид статья
Язык русский
Дата добавления 23.01.2018
Размер файла 473,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Диагностика эмоционального состояния диктора на основе рекуррентного анализа речевого сигнала

Сидоров К.В.

В настоящее время разработка методов и систем диагностики эмоционального состояния (ЭС) диктора по речевому сигналу (РС) с помощью аппаратно-программных средств является актуальной задачей, связанной с развитием неинвазивных средств объективной диагностики и мониторинга. рекуррентный анализ диктор речевой

Для проведения исследований сформирован собственный модельный русскоязычный корпус эмоциональной речи, в котором хранятся образцы речи дикторов (испытуемых), находящихся в двух ЭС - радость и нейтральное состояние. Корпус представляет собой параметрические описания РС: ОВ1 (18 записей контрольного предложения «А голос мой звучит примерно так») и ОВ2 (180 гласных фонем, полученных из ОВ1).

Перспективным математическим аппаратом для диагностики ЭС человека по РС по нашему мнению является аппарат рекуррентного анализа (РА), который совмещает в себе визуальные возможности (рекуррентные графики (РГ)) и мощный численный аппарат (меры). В 1987 г. Экман и соавторы [1] разработали так называемые рекуррентные графики (диаграммы), которые позволяют исследовать -размерную траекторию лагового пространства посредством двух мерного представления ее рекуррентности (повторяемости траекторий по происшествии некоторого времени в пространстве фазового портрета реконструкции аттрактора). Для реконструкции аттрактора исследуемый временной ряд подвергается методу задержки координат(рис. 1, б).

Рис. 1. Временной ряд (а) (); аттрактор (б) ( и )

В фазовом пространстве строится последовательность реконструированных векторов, получаемых из элементов временного ряда [2]:

(1)

где - общее число элементов (точек) временного ряда; - задержка по времени между элементами временного ряда (временной лаг); - размерность вложения (размерность лагового пространства).

Величина (1) определялась с точки зрения достаточности посредством вычисления корреляционного интеграла [3], (1) выбиралась равной времени первого пересечения нуля автокорреляционной функцией.

Проведен нелинейный анализ обучающих выборок ОВ1 и ОВ2, получены реконструкции объектов (предложений) ОВ1 и объектов (фонем) ОВ2 (рис. 2).

Рис. 2. Аттракторы фонемы «у» (ОВ2): а - радость; б - нейтральное состояние

Анализ геометрии полученных визуальных изображений показал, что наблюдается взаимосвязь геометрии аттрактора с видом эмоции (объектам, выражающим нейтральное состояние присуще более правильная форма, стремящаяся к эллипсообразной). Эмоция радости по сравнению с нейтральным состоянием имеет меньшую траекторию разброса реконструкции аттрактора.

После реконструкции аттрактора строится РГ. РГ представляется в виде двумерной или треугольной (т.к. обе стороны от главной диагонали являются симметричными) матрицы размером , по обеим осям которой откладывается время, заполненной черными и белыми точками (единицами и нулями), где черные точки обозначают наличие рекуррентности, а белые - отсутствие (рис. 3, б) [2]:

(2)

где - число рассматриваемых состояний ; - радиус выбранной окрестности (расстояние от центра окрестности до ее границы); |||| - норма; - ступенчатая функция Хевисайда.

РГ имеет главную диагональ (линию идентичности (ЛИ)) (рис. 3, б), проходящую под углом к осям координат из точки с координатами в точку . Если точка траектории реконструкции аттрактора в момент времени попадает в окрестность другой точки в момент (рис. 3, а), то такие точки считаются рекуррентными, вследствие чего на РГ появляется точка черного цвета с координатами (рис. 3, б), соответствующая единице. Если же точка реконструкции аттрактора располагается за пределами выбранной окрестности (рис. 3, а), то на РГ появляется точка белого цвета (рис. 3, б), соответствующая нулю. Произвольно взятая рекуррентная точка не несет какой-либо полезной информации о текущих состояниях временного ряда в моменты времени и . Только вся совокупность рекуррентных точек позволяет реконструировать свойства исследуемого временного ряда.

Рис. 3. Реконструкция аттрактора (а); РГ (б); типы нормы (в)

Радиус выбранной окрестности (2) оказывает влияние на вид РГ. Величину следует выбирать не более 10 % от максимального значения диаметра восстановленной реконструкции аттрактора [4]. При построении РГ с фиксированным значением норма |||| (2): обеспечивает нахождение наибольшего, - среднего, - минимального количества рекуррентных точек (рис. 3, в).

Построены РГ для объектов обучающих выборок ОВ1 (рис. 4) и ОВ2. Динамика временных рядов характеризуется сложной геометрической структурой. Для объектов ОВ1, выражающих эмоцию радости (рис. 4, а), характерна более контрастная топология по сравнению с нейтральным состоянием (рис. 4, б). Эмоция радости характеризуется более резкими изменениями динамики временного ряда и нестационарностью, вследствие чего появляются характерно выраженные белые зоны в структуре РГ, указывающие на нерегулярность процесса. Текстура эмоции радости характеризуется более выраженными скоплениями горизонтальных и вертикальных линий, повторяющихся с некоторой периодичностью. Текстура нейтрального состояния позволяет судить о том, что данное состояние временного ряда меняется, но незначительно (временной ряд остается замороженным на некоторое время).

Рис. 4. РГ объектов ОВ1: а - радость; б - нейтральное состояние

Таким образом, применение РА к русскому модельному корпусу эмоциональной речи позволило диагностировать два различных эмоциональных состояния дикторов (радость и нейтральное). Найденные закономерности проявляются на записях разной длины, что позволяет использовать их как при анализе отдельных фонем, так и целых предложений. Распознавание эмоций проводилось по характеру распределения точек и линий в квадрате РГ. Достоверность вычислений проверялась статистической значимостью и сравнением с результатами, полученными другими методами и средствами.

Список литературы

1. Eckmann J.P. Recurrence Plots of Dynamical Systems / J.P. Eckmann, S.O. Kamphorst, D. Ruelle // Europhys. Lett. 5. - 1987. - pp. 973-977.

2. Горшков В.А. Идентификация временных рядов авиационных событий методами и алгоритмами нелинейной динамики / В.А. Горшков, С.А. Касаткин. - М.: Бланк Дизайн, 2008. - 208 с.

3. Малинецкий Г.Г. Современные проблемы нелинейно динамики / Г.Г. Малинецкий, А.Б. Потапов. - М.: Эдиториал УРСС, 2000. - 336 с.

4. Zbilut J.P. Embeddings and delays as derived from quantification of recurrence plots / J.P. Zbilut, Jr. Webber, L. C // Physics Lett. A. - 1992. - pp. 199-203.

Размещено на Allbest.ru


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.