Разработка алгоритма фонетического анализа речи на основе информационной теории восприятия речи

Задача распознавания образов при статистическом подходе, порядок проверки гипотез о законе распределения выборки. Критерий минимума информационного рассогласования. Методика синтеза алгоритма классификации в задаче формирования фонетической базы данных.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 10.07.2013
Размер файла 133,9 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Разработка алгоритма фонетического анализа речи на основе информационной теории восприятия речи

Введение

В области автоматической обработки речи перспективной является информационная теория восприятия речи (ИТВР). В статье [1] даются ее базовые понятия. В соответствии с ИТВР все множество элементарных речевых единиц (ЭРЕ) в сознании человека разбивается на конечное число подмножеств - кластеров. Каждое такое подмножество имеет четко очерченные границы вокруг некоторого центра - эталона, который определяется по аналогии с центром масс, но в метрике Кульбака-Лейблера [2]. Такой кластер является фонемой. Причем, чем больше элементов включает в себя фонема, тем устойчивее и, следовательно, точнее определяется ее центр-эталон. Таким образом, для обработки слитной речи необходимо сформировать классифицированный набор реализаций ЭРЕ. Разработке алгоритма фонетического анализа на основе ИТВР посвящена данная работа.

1. Критерий минимума информационного рассогласования

Задача распознавания образов при статистическом подходе сводится к проверке гипотез о законе распределения выборки [3]:

. (1)

Здесь r-я альтернатива распределения, предполагаемая точно заданной; при этом множество альтернатив исчерпывает собой все допустимое многообразие законов распределения выборки X.

В работе [4] было показано, что выражение для оптимальной решающей статистики при применении строгого критерия минимума информационного рассогласования (МИР) и при гауссовом распределении сигнала сводится к виду

. (2)

Здесь: Gx(f) - выборочная оценка спектральной плотности мощности (СПМ) анализируемого сигнала Х в функции дискретной частоты f; Gr(f) - СПМ r-го сигнала из словаря эталонов; F - верхняя граница частотного диапазона сигнала или используемого канала связи; R - размер или объем рабочего словаря. Если выполнить нормировку коэффициентов линейного предсказания сигнала по дисперсии их порождающего шума, то получим из выражения (1), стандартную формулировку выборочной оценки величины информационного рассогласования (ВИР) между сигналом Х на входе и r-м сигналом из словаря в частотной области [5]:

, (3)

где - период дискретизации речевого сигнала.

2. Синтез алгоритма

Все множество альтернативных распределений разобьем на всевозможных пар . Затем вычислим для каждой такой пары удельную величину их взаимного информационного рассогласования (ИР) [6]:

, (4)

где  - n-выборка из i-ой генеральной совокупности .

Элементы, для которых выполняется правило

(5)

при j=1, образуют первый кластер,  - некоторый пороговый уровень (сверху) для минимальной решающей статистики из выражения (2). Если второй элемент не вошел в первый кластер, то строим второй кластер по правилу (5) для j=2. Если же вошел, то второй кластер строим по условию (5) для j=3. Группируем таким образом элементы множества X. При возникновении спорной ситуации, когда правило (5) выполняется для нескольких элементов, т.е. он попадает сразу в несколько кластеров, предпочтение отдается тому из них, для которого значение решающей статистики меньше. Таким образом, получаем набор речевых образов .

После кластеризации возникает следующий вопрос - что же брать в качестве образа каждой фонемы. В соответствии с ИТВР решать эту проблему можно с помощью метода минимума суммы информационных рассогласований [7]. Этот подход заключается в нахождении информационного центра по множеству различных реализаций одной фонемы.

Пусть каждый речевой образ представлен конечным множеством объема . Пользуясь выражением (4) можно получить матрицу ИР между элементами внутри фонемы. Находим сумму минимума информационного рассогласования для каждого элемента фонемы по правилу [1]

. (6)

После этого реализацию с минимальным значением суммарного информационного рассогласования считаем эталонной, а ее параметры становятся образом всего кластера. Таким образом, находим центры-эталоны для всех фонем.

Пример. Для экспериментальных исследований синтезированного алгоритма был взят текст первой главы романа А.С. Пушкина «Капитанская дочка», проговорен и записан в память персонального компьютера в виде звукового файла. Для этого применялась специальные программные и аппаратные средства: динамический микрофон AKG D77 S и ламповый микрофонный предусилитель ART TUBE MP Project Series USB. Частота дискретизации встроенного аналого-цифрового преобразователя была установлена равной 8 кГц - общепринятая частота при обработке речи. Продолжительность записи составила около полутора минут. Далее по алгоритму (7) - (9) [8] были выделено множество ЭРЕ. По алгоритму (3) - (6) был проведен анализ данного множества при разных значениях . На рисунке 1 показана зависимость количества выделенных фонем от порога .

Рис. 1. График зависимости количества фонем от порога

Рис. 2. График зависимости средней величины ИР от порога

Проблему выбора оптимального значения можно решить по принципу относительной стабилизации фонетического состава речевого сигнала. С одной стороны, при малых значениях порогов мы получаем чрезмерно большое количество фонем, с небольшим различиями между собой, в теоретико-информационном смысле. С другой стороны, при слишком больших значениях порогов в один кластер, возможно, попадут реализации заведомо разных фонем. А это безусловная ошибка фонетического анализа. Следовательно, значения порога следует выбирать в точках на графике, где количество классифицированных фонем достаточно представительно. Это соответствует промежутку =1,2..2. Для более точного выделения оптимальных значений порога построим график зависимости величины среднего информационного рассогласования между эталонами фонем от порога . Данная зависимость представлена на рисунке 2.

Из рисунков видно, что оптимальным значением порога являются значения равные 1,6 и 2,01. При этих значениях порога фонетическая база получается наиболее полная в теоретико-информационном смысле, как по количеству фонем, так и по наполнению базы.

Заключение

Таким образом, благодаря проведенному исследованию предложен новый алгоритм классификации в задаче формирования фонетической базы данных и проведено его экспериментальное исследование. Ключевым моментом алгоритма является нахождение информационного центра-эталона речевого образа, идея которого была предложена в [1]. В результате экспериментального исследования были определены значения оптимального порога.

Примечания

статистический гипотеза алгоритм рассогласование

1. Савченко В.В. Информационная теория восприятия речи // Известия вузов России. Радиоэлектроника. 2007. Вып. 6. С. 3-9.

2. Кульбак С. Теория информации и статистика. М., 1967.

3. Савченко В.В. Автоматическая обработка речи по критерию минимума информационного рассогласования на основе метода обеляющего фильтра // Радиотехника и электроника. 2005. Т. 50, №3. C. 309-315.

4. Савченко В.В. Различение случайных сигналов в частотной области // Радиотехника и электроника. 1997. Т.42, №4. С. 426-431.

5. Савченко В.В., Акатьев Д.Ю. Автоматическое распознавание речи по критерию минимального информационного рассогласования с переспросом // Известия вузов России. Радиоэлектроника. 2006. Вып. 1. С. 20-29.

6. Савченко В.В. Автоматическое распознавание речи методом дерева на основе информационного -элемента // Известия вузов России. Радиоэлектроника. 2006. Вып. 4. С. 13-22.

7. Савченко В.В., Акатьев Д.Ю., Шерстнев С.Н. Метод оптимального обучающего словаря в задаче распознавания речевых сигналов по критерию минимального информационного рассогласования // Известия вузов. Радиоэлектроника. 2006. Вып. 5. С. 10-14.

8. Савченко, В.В., Акатьев, Д.Ю., Карпов, Н.В. Анализ фонетического состава речевых сигналов методом переопределенного дерева // Системы управления и информационные технологии. 2008. №2 (32). С. 297-303.

Размещено на Allbest.ru


Подобные документы

  • Выделение частей речи по семантическому принципу. Синтаксическая функция как возможная субституция в линейной речевой цепи. Классификации частей речи немецкого языка. Разделение слов на части речи как предварительный этап их грамматического описания.

    реферат [24,3 K], добавлен 03.04.2010

  • Грамматическое деление всего лексического состава языка в основе вопроса о частях речи. Классификации частей речи в русском и английском языках, проведение их сравнительного анализа. Типологические критерии, существующие для сопоставления частей речи.

    курсовая работа [68,6 K], добавлен 28.10.2016

  • Совершенствование навыков диалогической и монологической речи и навыков восприятия иностранной речи на слух. Обучение правильному аргументированию своего мнения. Повторение и расширение лексического минимума по теме: "Money" и формирование заключения.

    конспект урока [21,1 K], добавлен 23.03.2014

  • Цель развлекательной речи. Выражение почтения и уважения в похвальном слове. Основной принцип построения информационной речи. Основные жанры воодушевляющей речи. Цель дружеского послания. Призывающие к действию речи, их воздействие на поступки слушателей.

    реферат [27,8 K], добавлен 22.01.2015

  • Фундамент синтаксического анализа. Словоизменительные морфологические средства. Структура системы синтаксического анализатора текста и используемая методика анализа текста. Графематический и фрагментационный анализ. Структура морфологического словаря.

    курсовая работа [194,3 K], добавлен 24.06.2012

  • Общая характеристика спонтанной речи. Значение интонации, громкости и темпа. Звуковые фонетические процессы. Сопоставительный анализ фонетических особенностей спонтанной речи с фонетической нормой английского языка на базе аудиовизуального материала.

    курсовая работа [46,9 K], добавлен 31.05.2009

  • Сущность фонетического стиля звучащей речи - разновидности произношения с той или иной дифференциальной экспрессивно-оценочной функцией. Полный и неполный стиль речи. Нормативная речь и ее типы. Научный, деловой, публицистический, разговорный стиль.

    курсовая работа [56,1 K], добавлен 13.07.2012

  • Сущность и способы классификации языка, его основные функции и характеристики (по степени сохранности и функциональной ограниченности). Содержание религиозных, научных, античных, биологических и трудовых гипотез о происхождении человеческой речи.

    курсовая работа [37,0 K], добавлен 21.03.2013

  • Психолого-педагогические особенности обучения монологической речи. Сущность понятия монологическая речь. Методика формирования умений монологической речи. Обучение монологическому высказыванию. Речевое умение, речевые упражнения.

    курсовая работа [48,0 K], добавлен 16.05.2006

  • Методика и особенности формирования лексических навыков при изучении иностранного языка. Рекомендации по развитию умений диалогической речи и монологической речи, навыков развития письменной речи с использованием любимых кинофильмов шестиклассников.

    конспект урока [181,0 K], добавлен 17.05.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.