Разработка компьютерной системы распознавания речи
Описание использования эффективной системы признаков в комбинации с алгоритмом динамической трансформации времени. Повышение вероятности распознавания и сравнение команд, которые произносятся с разной скоростью. Увеличение скорости взаимодействия с ЭВМ.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | русский |
Дата добавления | 24.05.2016 |
Размер файла | 158,7 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Разработка компьютерной системы распознавания речи
Ковтун Вадим Васильевич,
Федоров Евгений Евгениевич
Аннотация
В данной статье рассматривается актуальная проблема распознавания речи. Описывается использование эффективной системы признаков в комбинации с алгоритмом динамической трансформации времени. Данный подход позволяет повысить вероятность распознавания и сравнивать команды, которые произносятся с разной скоростью.
Ключевые слова: мел-частотные кепстральные коэффициенты, метод динамического трансформирования времени, обработка сигналов, распознавание речи
Введение
Речевое взаимодействие для человека является привычным, позволяет увеличить скорость взаимодействия с ЭВМ. Распознавание речи может трактоваться как преобразование речи диктора в текст, распознавание команды с последующим её выполнением, выделение из речи каких-либо параметров - все это в разных источниках может попасть под это определение. алгоритм команда скорость
Несмотря на достаточный прогресс в данном направлении исследований, автоматическое распознавание речи продолжает оставаться достаточно сложной задачей. Это объясняется рядом характерных особенностей речевого сигнала, которые значительно затрудняют решение этих задач.
Все известные методы распознавания речи не позволяют определить конкретный вид анализа и параметры речевого сигнала, которые могут дать наилучший результат. Поэтому, разработка алгоритмов работы для систем распознавания речи сводятся к анализу уже существующих систем. Также производится поочередное рассмотрение методов параметризации сигнала и экспериментальное исследованию их эффективности.
Постановка задачи
Целью работы является нахождение эффективного алгоритма для распознавания команды из потока входного звукового сигнала, которая заранее определена набором команд; выполнение практической реализации алгоритма.
Для достижения цели необходимо произвести выделение из исходного речевого сигнала информативных характеристик, которые полноценно описывают исходный сигнал, но требуют меньших вычислительных затрат при обработке. Далее производится сравнение массивов информативных признаков анализируемой команды и образца произношения. На основании произведенного анализа, выбирается текстовое представление наиболее схожего образца и выводится пользователю.
Вычисление мел-частотных кепстральных коэффициентов (MFCC)
Коэффициенты MFCC хорошо зарекомендовали себя в задачах распознавания речи. По сравнению с альтернативными методами выделения признаков из речевого сигнала (LPC, PLP), результаты распознавания были лучше [1].
На рисунке 1 представлен процесс вычисления MFCC [2]. На первом шаге вычисляются компоненты спектра Фурье. Далее спектр сглаживается при помощи операции свертки с треугольными окнами.
Рисунок 1 - Процесс вычисления кепстральных коэффициентов
Формально операция сглаживания определяется следующим образом:
где c i, i=0, …, N/2 - спектр сигнала;
К - количество окон;
mij - величина j-ой оконной функции.
Оконная функция выражается через величины aj - начало j-ого треугольного окна следующим образом:
Окончательно MFCC коэффициенты получаются при помощи дискретного косинус-преобразования:
MFCC преобразование по сути является сжатием спектральных данных, что значительно упрощает дальнейшее сравнение распознаваемой команды с набором эталонных команд за счет уменьшения размерности вектора признаков.
В качестве итоговых значений берутся первые несколько коэффициентов дискретного косинусного преобразования.
Классический метод динамического трансформирования времени (DTW)
DTW относится к методам динамического программирования. Он используется для сравнения распознаваемого сигнала с эталонами и учитывает динамические изменения во времени [3].
Метод динамического трансформирования времени вычисляет оптимальную последовательность трансформации времени для двух временных рядов.
Пусть дано два временных ряда Q и C длиной соответственно n и m:
Q=q1,q2,…,qn, C=c1,c2,…,cm
По этим последовательностям строится путь наименьшей стоимости.
Определим матрицу Щn•m так, чтобы её элемент соответствовал расстоянию между i-ым и j-ым элементами последовательностей Q и C, т.е. соответствовал выравниванию между qi и cj. Возьмем евклидово расстояние:
По матрице Щ построим путь W. Этот путь показывает соответствие между Q и C. k-ый элемент W определяется как wk = (i, j). Путь W имеет следующий вид:
W=w1,w2,…,wk,…,wK,
где К - длина пути.
К удовлетворяет следующему условию:
min(m,n)?K<m+n-1
Путь W должен удовлетворять следующим ограничениям:
1. Граничные условия
Обычно допускают, что w1 = (1, 1) и wK = (n, m). Таким образом, начало и конец W находятся на диагонали в противоположных углах Щ.
2. Непрерывность
Обход последовательности происходит постепенно - за один шаг индексы i-ый и j-ый увеличиваются не больше, чем на единицу. Пусть wk = (a,b) и wk-1 = (p,q), тогда: a-p?1, b-q?1
Данное ограничение необходимо, чтобы в шаге пути W брали участие только соседние элементы матрицы.
3. Монотонность
Пусть wk = (a,b) и wk-1 = (p,q), тогда a-p?0, b-q?0
Это ограничение необходимо, чтобы точки W монотонно перемещались во времени.
Путей, которые удовлетворяют этим трем условиям, может быть очень много. Поэтому необходимо выбрать путь, на котором достигается минимум стоимости пути:
Знаменатель К необходим, чтобы учесть разную длину W.
Таким образом, путь наименьшей стоимости (выравнивающий путь) для последовательностей Q и C - это путь W, на котором достигается минимум стоимости пути DTW(Q,C).
Классический алгоритм поиска пути с минимальной стоимостью рекурсивно находит длину пути наименьшей стоимости гi,j для каждого элемента матрицы Щ:
Сравнение входного образа с набором эталонов
Задачей распознавания образов является сопоставление входного образа с определенным существующим классом (моделью команды). Цель распознавания - оценить модель команды, к которой входные данные принадлежат с большей вероятностью [4].
Задание системы распознавания речи состоит в том, чтобы по речевому сигналу правильно идентифицировать сказанную диктором команду. Это соответствует оптимальному критерию, который может быть выражен:
где - выходная гипотеза фразы;
w - произнесенная последовательность слов;
W - набор всех возможных последовательностей слов;
O - последовательность векторов признаков, вычисленных по входному речевому сигналу.
Экспериментальные исследования
Для обучения системы распознавания речи использовались 10 команд, надиктованные четырьмя дикторами (3 мужских голоса и 1 женский).
Для тестирования было сформировано 2 теста. Каждый тест состоит из полного набора команд, который озвучило 2 диктора с мужским голосом, причем голосом одного был записан также обучающий набор.
Обучение производилось по очереди на голосе каждого диктора по отдельности, а потом - с использованием всех голосов. После каждого из пяти обучений производилось тестирование.
При обучении на голосе только одного диктора средняя вероятность распознавания составила 46%, зависимости качества распознавания от голоса диктора не наблюдалось. При обучении на голосах одновременно всех дикторов вероятность распознавания повысилась до 70%.
Выводы
В работе рассмотрена структура системы распознавания речи. Описана комбинация метода получения информативных признаков речевого сигнала (MFCC) с методом сравнения последовательностей векторов признаков. Метод сравнения (DTW) позволяет учитывать различную скорость произнесения команды. Также описан критерий оптимальности, который позволяет выбрать модель команды, соответствующую входному сигналу. Проведены экспериментальные исследования.
Библиографический список
1. Performance Analysis of LPC, PLP and MFCC Parameters In Speech Recognition / Mahesh Goyani, Namrata Dave // National Conference on Advance Computing. - P. 174-178.
2. Аграновский А.В Теоретические аспекты алгоритмов обработки и классификации речевых сигналов / А.В. Аграновский, Д.А. Леднов. Москва: Изд-во "Радио и связь", 2004. - 164с.
3. Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов. - Киев: Наукова думка. - 1987. - 264 с.
4. Кипяткова И.С. Автоматическая обработка разговорной русской речи: монография / И.С. Кипяткова, А.Л. Рожнин, А.А. Карпов. СПИИРАН. - СПб.: ГУАП, 2013. - 314с.
Размещено на Allbest.ru
Подобные документы
Жаргонизм как разновидность речи, его типы, история развития. Особенности школьного жаргона, причины его использования и выполняемые функции. Сравнение словарных запасов учащихся, которые используют жаргонизмы и которые их не употребляют в своей речи.
курсовая работа [733,9 K], добавлен 11.01.2014Понятие деепричастия, его глагольные признаки. Значение деепричастий, способы их словообразования, особенности употребления. Функция деепричастия в предложении. Практические примеры распознавания данной части речи, ее выделение среди глаголов и наречий.
презентация [460,6 K], добавлен 24.10.2014Обобщение основных качеств, которыми должна обладать речь, чтобы быть максимально эффективной. Принципы уместности, показатели богатства, чистоты, точности, логичности, выразительности и правильности речи Основные элементы, которые способны засорить речь.
реферат [19,4 K], добавлен 22.09.2013Типология как наука. Основы типологического анализа частей речи. Типологические особенности взаимодействия частей речи в современном английском языке. Семантический, морфологический и функциональный анализ частей речи в современном английском языке.
дипломная работа [70,8 K], добавлен 25.06.2011Риторика как искусство слова. Виды публичной речи и этапы подготовки. Целевые установки этапов речи и способы их реализации. Прагматические средства воздействия, используемые оратором при произнесении речи. Качественные характеристики эффективной речи.
дипломная работа [170,0 K], добавлен 23.08.2014Декларативные методы машинной морфологии. Создание базы данных английских словоформ, содержащей полную морфологическую информацию каждой формы. Описание функциональных возможностей системы и взаимодействия ее модулей. Формат входных и выходных данных.
курсовая работа [346,8 K], добавлен 13.05.2015Речевая коммуникация как способ межсубъектного взаимодействия. Влияние гендерных стереотипов на восприятие разговорной речи. Лингвистические исследования речевого поведения мужчин и женщин. Описание стилистических особенностей мужской и женской речи.
презентация [256,4 K], добавлен 19.02.2011Исследование системы норм литературного русского языка. Обзор морфологических, синтаксических и стилистических признаков официально-деловой речи. Анализ особенностей дипломатического, законодательного и административно-канцелярского стилей деловой речи.
реферат [34,6 K], добавлен 22.06.2012Рассмотрение понятия и признаков (спонтанность, неподготовленность) разговорной речи. Описание использования разностильной лексики (научной, официально-деловой, книжной) в публицистике. Классификация разговорных и просторечных слов в газете "Известия".
курсовая работа [35,7 K], добавлен 21.04.2010Сущность диалогической речи как вида устной деятельности. Разработка дидактико-методической системы обучения учащихся 5-6 классов навыкам и умениям диалогической речи на английском языке при использовании лингвистического опыта учащихся в русском языке.
дипломная работа [71,8 K], добавлен 21.10.2011