О возможности повышения эффективности автоматического интонационного анализа речи
Характеристика сфер применения системы автоматического интонационного анализа речи, а также анализ ее структуры. Анализ подходов к определению информативных признаков речевого сигнала. Разработка классификатора речи на основе информационного подхода.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 30.05.2017 |
Размер файла | 17,8 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
О возможности повышения эффективности автоматического интонационного анализа речи
Марьев А.А.
Работа выполнена при поддержке РФФИ, проект № 10-06-00110а
За прошедшие полтора-два десятилетия существенно возрос интерес к системам автоматического интонационного анализа речи (АИАР). Среди областей применения подобных система стоит отметить такие, как: распознавание психологического, физиологического или эмоционального состояния оператора по его речи; идентификация типа произношения (акцента); разработка речевых интерфейсов, допускающих эмоционально окрашенное взаимодействие с компьютером. До настоящего времени не предложено достаточно общего и успешного подхода к решению задачи АИАР, поэтому отыскание возможностей повышения эффективности АИАР является в настоящее время актуальной задачей.
Часто задача АИАР может быть представлена в классификационной формулировке: по речевому фрагменту необходимо определить один из априорно известных типов интонации. Количество априорной информации в задачах АИАР, как правило, недостаточно для прямого применения статистически оптимальных методов распознавания. В частности, до настоящего времени не вполне изучен характер связей объективных характеристик речи как акустического колебания с ее интонационными характеристиками. Важно также отметить, что восприятие интонации субъективно, и в этом смысле задача автоматического интонационного анализа является некорректной.
Вследствие перечисленных сложностей в системах АИАР используются классификаторы различных типов [1], обучаемые на некотором множестве заранее классифицированных по интонационному признаку речевых фрагментов (обучающей выборке).
Достаточно общим подходом к определению информативных признаков речевого сигнала является определение первоначального множества параметров (признаков) речевого сигнала, из которых затем отбираются наиболее информативные в некотором смысле. Первоначальное множество признаков формируется разработчиком на основе результатов известных исследований и из эвристических соображений. В это множество могут быть включены параметры различных моделей речевого сигнала, например частота основного тона (модель квазипериодического стационарного случайного процесса), коэффициенты отражения (модель линейного предсказания), параметры огибающей (модель случайного процесса, нестационарного по дисперсии) и др. Для одновременного измерения выбранных параметров может потребоваться организация измерений в нескольких масштабах времени. Обычно различают кратковременный (short-term, окно ~10-2 с) и долговременный (long-term, окно длиной до единиц с) анализ речевого сигнала. Для приведения результатов кратковременного анализа к масштабу долговременного вычисляются статистические характеристики кратковременных оценок.
Для решения задачи автоматического распознавания эмоций по речи автором была разработана система, структурная схема которой изображена на рис. 1. Система была реализована в виде программы для ЭВМ, пригодной как для обработки речевого сигнала в масштабе реального времени, так и для обработки звукозаписей. Источником сигнала (ИС) в данном случае является поток цифровых аудиоданных.
Рис.1 - Структурная схема системы автоматического интонационного анализа речи: ИС - источник сигнала, БИ - блок измерений, К - классификатор, УВ - устройство вывода.
Из первоначального множества в 878 признаков [3] были отобраны 16 наиболее информативных: среднее значение (СЗ) 5-го коэффициента линейного предсказания; СЗ 2-го, 11-го, 36-го и 39-го коэффициентов отражения в модели линейного предсказания; СЗ 4-го, 5-го, 9-го и 25-го мел-частотных кепстральных коэффициентов (MFCC); СЗ и коэффициент вариации центроиды мгновенного амплитудного спектра (МАС); коэффициент вариации коэффициента асимметрии МАС; СЗ коэффициента вариации МАС; относительный размах вариации СЗ производной от огибающей сигнала в фазе атаки; относительная длительность вокализованных звуков и коэффициент пиковости (пик-фактор) речевого сигнала. автоматический интонационный речь информативный
Для повышения надежности распознавания автором на основе информационного подхода был разработан классификатор, оптимальный в смысле принципа максимума информации (ПМИ) [4]. Данный принцип был предложен Г.А. Голицыным [5] и позволяет в рамках информационной модели биологического организма в явном виде определить целевую функцию адаптационного поведения.
Формирование множества записей для обучения системы АИАР само по себе представляет трудную задачу. Однако в настоящее время существует несколько крупных баз записей эмоциональной речи, среди которых одной из наиболее широко используемых исследователями является Берлинская база записей эмоциональной речи EmoDB [6]. Она содержит 495 речевых фрагментов, начитанных 10-ю дикторами обоего пола, демонстрирующих: злость (96 записей); страх (67); скуку (81); отвращение (46); радость (64); нейтральное состояние (79); огорчение (62).
Для оценки надежности распознавания семи перечисленных эмоциональных состояний был поставлен эксперимент, в ходе которого системе по очереди предъявлялись записи из обучающей выборки. Перед предъявлением очередной записи система обучалась на материале выборки, из которой исключалась распознаваемая запись. Таким образом, система на этапе обучения не получала информации о распознаваемой записи.
В ходе эксперимента была достигнута средняя вероятность верного распознавания семи эмоциональных состояний 0,71, что превосходит ряд известных разработок. Так в работе [7] сообщается о средней вероятности верного распознавания семи эмоций около 0,55, при этом также использовалась база EmoDB.
Достигнутые результаты подтверждают перспективность информационного подхода к решению задачи классификации интонаций речи с использованием ПМИ, в то же время в разработанной системе возможности данного подхода реализованы не в полной мере, что означает возможность дальнейшего повышения эффективности разработанной системы автоматического интонационного анализа.
Литература
1. К.А. Астапов, Применение вейвлет-преобразования для сокращения области значения искусственных нейронных сетей на примере задачи распознавания речи // Инженерный Вестник Дона, №1 2009 г. http://ivdon.ru/magazine/archive/n1y2009/105/
2. А.А. Марьев, В.П. Рыжов, Выбор признаков в задачах распознавания эмоциональных состояний оператора по речевым сигналам //Материалы Всероссийской научной конференции "Актуальные проблемы современности: человек, общество, техника" - часть 2 - Таганрог: Изд-во ТТИ ЮФУ, 2012 С. 31-36
3. Марьев А.А. Метод интерпретации результатов измерений параметров речевого сигнала в задачах диагностики психоэмоционального состояния человека по его речи // Инженерный Вестник Дона, №4 2011 г. http://ivdon.ru/magazine/archive/n4y2011/538/ 6с.
4. Голицын Г.А. Информация и творчество: на пути к интегральной культуре - М.: "Русский мир", 1997. - 304 с.
5. Berlin Database of Emotional Speech, http://pascal.kgw.tu-berlin.de/emodb/
6. Theodoros Iliou, Christos-Nikolaos Anagnostopoulos, Classification on Speech Emotion Recognition-A Comparative Study, International Journal on Advances in Life Sciences, vol. 2 no 1 & 2, 2010. pp. 18-28.
Размещено на Allbest.ru
Подобные документы
Критерий разработки кодирующих устройств. Международный стандарт кодирования для передачи речи в телефонном канале PCM. Оценка качества сигнала. Задача спектрального оценивания. Гармонический алгоритм Берга. Системы синтеза речи. Форматы звуковых файлов.
дипломная работа [905,3 K], добавлен 17.10.2012Распознавание слов в слитной речи, изолированных слов. Проблема автоматического распознавания речи. Структурная схема устройства выделения признаков речевых сигналов. Моделирование работы блока выделения начала и окончания слова количества звуков на ЭВМ.
дипломная работа [649,5 K], добавлен 13.11.2008Строение артикуляционного аппарата человека с точки зрения возможности распознавания речи по артикуляции. Комплекс параметров артикуляции на основе контура внутренней области губ. Реализация модуля распознавания фонем русской речи по изображениям губ.
дипломная работа [3,1 M], добавлен 19.08.2012Появление поисковых систем. Применение семантических сетей для анализа текста. Определение релевантности, ранжирование и индексация. Особенности программы Balabolka. Системы анализа речи. Современные особенности поиска. Развитие сервисов поисковых систем.
реферат [3,2 M], добавлен 22.04.2015Принцип работы нейросетей и модели синтеза. Ключевые моменты проблемы распознавания речи. Система распознавания речи как самообучающаяся система. Описание системы: ввод звука, наложение первичных признаков на вход нейросети, модель и обучение нейросети.
курсовая работа [215,2 K], добавлен 19.10.2010Разработка с помощью пакета MATLAB ряда функций, осуществляющих сжатие речи по алгоритму векторного квантования, обеспечивающих сжатие речи до уровня 2400 бит/с и ниже, несколько ступеней сжатия. Дикторо-зависимый и дикторо-независимый режимы системы.
курсовая работа [1,1 M], добавлен 12.03.2009Схемотехнический синтез системы автоматического управления. Анализ заданной системы автоматического управления, оценка ее эффективности и функциональности, описание устройства и работы каждого элемента. Расчет характеристик системы путем моделирования.
курсовая работа [3,4 M], добавлен 21.11.2012Исследование вертикальных проекций яркости и размаха яркости. Программная реализация алгоритма автоматического анализа цифровых изображений номерных знаков с целью сегментации цифробуквенных символов. Разработка графического пользовательского интерфейса.
дипломная работа [1,5 M], добавлен 12.04.2013Проектирование системы голосового управления в автоматизированных жилых комплексах. Распознавание и порождение (синтез) речи компьютером. Синтез устной речи. Технология поиска ключевых слов. Нейросетевое сравнение на основе простых персептронов.
дипломная работа [4,3 M], добавлен 19.06.2011Динамические характеристики типовых звеньев и их соединений, анализ устойчивости систем автоматического управления. Структурные схемы преобразованной САУ, качество процессов управления и коррекции. Анализ нелинейной системы автоматического управления.
лабораторная работа [681,9 K], добавлен 17.04.2010