Автоматизированные системы распознавания речи
Общая характеристика, классификация и структура систем распознавания речи. Принципы предварительной обработки сигнала. Определение помехоустойчивости в распознавании речи, динамическая подстройка параметров. Место акустической и языковой модели в системе.
Рубрика | Коммуникации, связь, цифровые приборы и радиоэлектроника |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 11.01.2013 |
Размер файла | 720,9 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Рассмотрены способы оценки качества работы распознающих систем, перспективы их развития и проблемы, с которыми сталкиваются разработчики.
Приведено точное математическое определение скрытой Марковской модели, использующейся для построения акустических моделей, и пример расчета вероятностей с применением СММ.
СПИСОК ЛИТЕРАТУРЫ
1. Дьяконов В., Абраменкова И. MATLAB. Обработка сигналов и изображений: справочник. - СПБ., Питер, 2002.
2. Рабинер Л., Шафер Р. Цифровая обработка речевых сигналов. - М., Радио и связь, 1981, (пер. с англ.).
3. Секунов Н.Ю. Обработка звука на РС. - СПБ., БХВ - Петербург, 2001.
4. John-Paul Hosom, Ron Cole, Mark Fanty, Johan Schalkwyk, Yonghong Yan, Wei Wei., Phonetic and Language Models for Automatic Speech Recognition. - Center for Spoken Language Understanding (CSLU), Oregon Graduate Institute of Science and Technology, Oregon, USA, 1999.
5. L. Rabiner, B.-H. Juang. Fundamentals of Speech Recognition. - Prentice Hall, 1995.
6. Melvyn J. Hunt. Signal Representation. - Dragon Systems UK Ltd Press, Cheltenham, UK, 2000.
7. Renato De Mori, Fabio Brugnara. HMM Methods in Speech Recognition. - McGill University, Montreal, Canada, 2000.
8. Victor Zue, Ron Cole, Wayne Ward. Speech Recognition. - MIT Laboratory for Computer Science, Cambridge, Massachusetts, USA; Oregon Graduate Institute of Science & Technology, Portland, Oregon, USA; Carnegie Mellon University, Pittsburgh, Pennsylvania, USA, 2001.
9. X.D. Huang, Y. Ariki, M.A. Jack. Hidden Markov Models for Speech Recognition. - Edinburgh University Press, 1990.
10. Richard M. Stern Robust Speech Recognition. - Carnegie Mellon University, Pittsburgh, Pennsylvania, USA, 2001.
11. Интернет:
- распознавание речи: http://cslu.cse.ogi.edu/HLTsurvey/ch1node1.html http://www.cs.ru/depart/chuchu/doc_ru/Main.htm
- скрытая Марковская модель: http://www.cse.ucsc.edu/research/compbio/html_format_papers/hughkrogh96/node3.html
- применение нейронных сетей в распознавании речи: http://cslu.cse.ogi.edu/tutordemos/nnet_training/tutorial.html
- ссылки: http://www.speech.cs.cmu.edu/comp.speech/Section6/speechlinks.html
Приложение 1
Математическое определение СММ
Определение
Введем обозначения:
M - число различных наблюдаемых объектов (например, в случае шаров разного цвета, M - число цветов; в случае наблюдения за дискретной случайной величиной - число значений, которое может принимать эта величина);
V = {v1, …, vM} - множество всех возможных наблюдаемых объектов (значений, которые может принимать наблюдаемая величина, или шаров цвета v1, цвета v2 и т.д.);
N - число состояний модели (например, урн, в которых лежат шары, или последовательных наблюдений, необходимых для идентификации речевой единицы);
S = {S1, …, SN} - множество состояний модели (например, урна S1, урна S2 и т.д., или соответствующие наблюдения);
qt - состояние, в котором находится модель в момент времени t (т.е. qt - одно из Si );
ot - объект, наблюдаемый в момент времени t (т.е. ot - один из vi );
Т - длина наблюдаемой последовательности;
п = {пi} - распределение вероятностей выбора начального состояния, т.е. пi = Р(q1 = Si) - вероятность того, что в начальный момент времени t = 1 система будет в состоянии Si, вектор размера N;
aij - вероятность перехода из состояния Si в состояние Sj - условная вероятность aij = Р(qt = Sj / qt-1 = Si), принято считать, что она не зависит от времени;
А = { aij } - матрица вероятностей перехода - квадратная матрица размером N x N;
bj(k) - вероятность того, что в состоянии Sj наблюдается объект vk, т.е.
bj(k) = Р(ot = vk / qt = Sj);
В = { bj(k) } - матрица вероятностей наблюдения, матрица N x M.
Скрытой марковской моделью называют набор = (А, В, п) [5, 9].
Генерирование наблюдаемой последовательности
Покажем, как модель может порождать последовательность О = о1, …, от (например необходимо выбрать Т шаров из n урн):
1. Выбираем исходное состояние q1 = Si (первую урну) в соответствии с распределением п;
2. Выбираем объект о1 (это будет шар цвета vk с вероятностью bi(k) = Р(o1 = vk / q1 = Si));
3. Переходим в состояние q2 = Sj в соответствии с вероятностью aij = Р(q2 = Sj / q1 = Si), т.е. переходим к урне Sj;
4. Выбираем объект о2 (это будет шар цвета vh с вероятностью bj(h) = Р(o2 = vh / q2 = Sj));
5. Выполнив Т шагов описанного процесса, построим последовательность О = о1, …, оТ, которую будем называть наблюдаемой последовательностью, рисунок 1.
Рисунок 1 - Скрытая Марковская модель.
При этом последовательность состояний S цепи Маркова, в которых производится выбор объектов, от наблюдателя скрыта. После выполнения заданного количества шагов СММ выдает некую последовательность, например последовательность акустических параметров моделируемой речевой единицы.
Расчетные формулы
Пусть определена модель л, некоторая последовательность состояний этой модели Q = q1, q2, …, qT и наблюдаемая последовательность О = о1, …, оТ.
Вероятность появления заданной последовательности состояний Q для модели л: P(Q/ л) = р(q1)a(q1q2) … a(qT-1qT).(1)
Вероятность появления заданной последовательности О для последовательности Q: P(O/Q) = b(o1/q1)b(o2/q2) … b(oT/qT).(2)
Вероятность появления заданной последовательности О для последовательности Q в модели л: P(O/Q, л) = P(Q/ л) P(O/Q) = р(q1)b(o1/q1)a(q1q2) … a(qT-1qT)b(oT/qT).(3)
Вероятность наступления заданной последовательности О для всех возможных Q в этой л:
P(O/ л) = (4)
Приложение 2
Расчет соответствия последовательности и модели
Продемонстрируем процесс на примере двух СММ и одной наблюдавшейся последовательности. Пусть множество возможных наблюдаемых объектов выглядит так: {1,2,3,4,5}, наблюдаемая последовательность выглядит так: (2, 1, 4), каждая СММ имеет по три состояния, распределения вероятностей начального состояния одинаковы: 1, 0, 0, матрицы вероятностей переходов - таблица 1:
Таблица 1. Матрицы вероятностей переходов.
СММ 1 |
СММ 2 |
||||||
1>1 |
1>2 |
1>3 |
1>1 |
1>2 |
1>3 |
||
0,5 |
0,5 |
0 |
0,5 |
0,5 |
0 |
||
0,2 |
0,6 |
0,2 |
0 |
0,5 |
0,5 |
||
0 |
0,5 |
0,5 |
0 |
0 |
1 |
||
3>1 |
3>2 |
3>3 |
3>1 |
3>2 |
3>3 |
Распределение вероятностей bj(k) для СММ 1 равномерное (по 0,2), для СММ 2 - такое же, только для состояния 1 вероятность наблюдения объекта 2 = 0,8, а для состояния 3 вероятность объекта 4 = 0,7.
Рассчитаем P(O/ л), применив forward algorithm (формулы (4.2), (4.3), (4.6), рисунок 1.):
Рисунок 1 - Один шаг СММ.
1. СММ 1
d1(i): 0,2*1=0,2; 0; 0 - распределение вероятностей после 1-го шага,
d2(i): 0,2*0,5+0*0,2+0*0=0,1; 0,1*0,2=0,02
0,2*0,5+0*0,6+0*0,5=0,1; 0,1*0,2=0,02
0,2*0+0*0,2+0*0,5=0
0,02 0,02 0 - распределение вероятностей после 2-го шага,
d3(i): 0,02*0,5+0,02*0,2+0*0=0,014; 0,014*0,2=0,0038
0,02*0,5+0,02*0,6+0*0,5=0,022; 0,022*0,2=0,0044
0,02*0+0,02*0,2+0*0,5=0,004; 0,004*0,2=0,0008
0,0038 0,0044 0,0008 - распределение после 3-го шага
P(O/ л) = 0,0038+0,0044+0,0008=0,009.
2. СММ 2
Аналогичные действия для СММ 2 дают следующие результаты:
d1(i): 0,8 0 0
d2(i): 0,08 0,08 0
d3(i): 0,008 0,016 0,028; P(O/ л) = 0,052
Результат позволяет сделать вывод, что наблюдавшаяся последовательность принадлежит классу СММ 2, т.к. 0,052>0,009.
Размещено на Allbest.ru
Подобные документы
Цифровая обработка сигналов и ее использование в системах распознавания речи, дискретные сигналы и методы их преобразования, основы цифровой фильтрации. Реализация систем распознавания речи, гомоморфная обработка речи, интерфейс записи и воспроизведения.
дипломная работа [1,1 M], добавлен 10.06.2010Преимущества радиоканальных охранных систем. Основные направления кодирования речи: кодирование формы (Waveform coding) и источника сигнала (Source coding). Структурная схема процесса обработки речи в стандарте GSM. Оценка качества кодирования речи.
реферат [46,8 K], добавлен 20.10.2011Задачи при передаче речи и данных. Цифровая передача речи. Категории методов цифрового кодирования речи. Кодеры формы сигнала. Вид амплитудной характеристики компрессора. Дискретная модель речеобразования. Особенности метода кратковременного анализа.
контрольная работа [56,6 K], добавлен 18.12.2010Рассмотрение основных этапов в решении задачи оптимизации приема сигнала. Изучение методов фильтрации и оптимизации решений. Вероятностный подход к оценке приёма сигнала; определение вероятности ошибок распознавания. Статические критерии распознавания.
презентация [3,0 M], добавлен 28.01.2015Кодирование речи RPE – LTP – кодер на 16 кбит/с. Структура декодера речи в стандарте GSM. Коэффициенты отражения кратковременного предсказания по методу Берга для РФ 8-го порядка. Спектральная характеристика постфильтра. Формирование формантных областей.
реферат [300,5 K], добавлен 15.11.2010Структурные схемы гомоморфной обработки и анализа речевых сигналов. Комплексный кепстр речи. Компонент речевого сигнала. Период основного тона и частоты формант. Модуль передаточной функции речевого тракта. Оценивание основного тона на основе кепстра.
реферат [297,1 K], добавлен 19.11.2008Общая классификация систем и сетей радиодоступа. Классификация систем радиодоступа по параметрам и характеристикам радиоинтерфейса. Системы с аналоговой и цифровой передачей. Услуги цифровой передачи речи. Классификация по решаемым прикладным задачам.
реферат [49,3 K], добавлен 06.10.2010Состояние проблемы автоматического распознавания речи. Обзор устройств чтения аудио сигналов. Архитектура системы управления периферийными устройствами. Схема управления электрическими устройствами. Принципиальная схема включения электрических устройств.
дипломная работа [1,1 M], добавлен 18.10.2011Информационные характеристики и структурная схема системы передачи; расчет параметров аналого-цифрового преобразователя и выходного сигнала. Кодирование корректирующим кодом. Определение характеристик модема; сравнение помехоустойчивости систем связи.
курсовая работа [79,6 K], добавлен 28.05.2012Структура устройств обработки радиосигналов, внутренняя структура и принцип работы, алгоритмами обработки сигнала. Основание формирование сигнала на выходе линейного устройства. Модели линейных устройств. Расчет операторного коэффициента передачи цепи.
реферат [98,4 K], добавлен 22.08.2015