Автоматизированные системы распознавания речи

Общая характеристика, классификация и структура систем распознавания речи. Принципы предварительной обработки сигнала. Определение помехоустойчивости в распознавании речи, динамическая подстройка параметров. Место акустической и языковой модели в системе.

Рубрика Коммуникации, связь, цифровые приборы и радиоэлектроника
Вид курсовая работа
Язык русский
Дата добавления 11.01.2013
Размер файла 720,9 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

ВВЕДЕНИЕ

Изучением человеческой речи занимаются давно. В середине ХХ века возникает проблема автоматического распознавания речи вычислительными машинами. За полвека ученым удалось накопить огромное количество знаний о предмете исследований. Стало понятным, что распознавание речи - очень непростая задача.

Основной техникой для многих систем распознавания речи является статистический метод, называемый скрытым Марковским моделированием (HMM). Такие системы разрабатываются во многих центрах и способны на хорошее распознавание слов речи. Вероятность распознавания слов достигает 80 - 90 %.

Области применения систем автоматического распознавания речи самые разнообразные. Например, с начала девяностых годов в нескольких американских и канадских компаниях по заказу министерства обороны США ведется разработка систем распознавания, предназначенных для перехвата телефонных переговоров. В последнее время системы распознавания применяются в компьютерных курсах обучения иностранному языку, системах подготовки текстовых документов. Перспективными направлениями являются разработка систем помощи людям с ограниченными возможностями и совершенствование человеко-машинного интерфейса [11].

Факторами, сдерживающими широкое внедрение систем автоматического распознавания речи, являются:

- сложность реализации в малогабаритной мобильной аппаратуре из-за высоких вычислительных расходов и их значительной неравномерности, а так же необходимость хранения в памяти большого словаря (набора моделей распознаваемых речевых единиц);

- значительное ухудшение параметров качества в условиях помех.

В данной работе представлены основные принципы построения систем распознавания речи, предварительной обработки исходного сигнала, построения акустических и языковых моделей, рассмотрен современный подход к помехоустойчивости систем распознавания. Рассматриваются способы оценки качества распознающих систем.

Уделяется так же внимание проблемам разработки, перспективам развития и непрерывного совершенствования распознающих систем.

1. СИСТЕМЫ РАСПОЗНАВАНИЯ РЕЧИ

Распознавание речи - процесс преобразования акустического сигнала, преобразованного в электрический, в последовательность слов. Распознанные слова могут быть конечным результатом, если целью системы является управление, ввод данных или подготовка документа. Они могут также быть основой для последующей лингвистической обработки для достижения понимания речи [8, 11].

1.1 Классификация и структура систем распознавания речи

Классификация

Системы распознавания речи характеризуются множеством параметров, основные из которых приведены в таблице 1.1.

Таблица 1.1. Общие параметры систем распознавания речи

Параметр

Диапазон изменения

Связность

Отдельные слова или непрерывная речь

Стиль

Речь по написанному тексту или спонтанная

Подстройка

Зависимость или независимость от говорящего

Словарь

От малого(<20 слов) до большого(>20000)

Языковая модель

С набором состояний или зависимая от контекста

Перплексность

От малой (< 10) до большой (> 100)

SNR

От большого (>30dB) до малого (<10dB)

Если система предназначена для распознавания отдельных слов, то говорящий должен делать между ними паузы, если - для непрерывной речи, то нет. Спонтанная речь обычно содержит гораздо больше бессвязностей, чем речь читающего письменный текст, следовательно, ее труднее распознавать. Некоторые системы требуют подстройки под говорящего, когда пользователь перед применением системы должен произнести какие-то слова или фразы для подстройки системы, в то же время другие системы этого не требуют. Распознавание в целом является более сложной задачей, когда объем словаря большой и содержит много похоже звучащих слов.

Простейшую модель языка можно описать сетью с определенным числом состояний. В ней множество допустимых слов, следующих за каждым словом, является определенным. Модели, приближающиеся к естественному языку, определяются с помощью контекстно-зависимых грамматик.

Широко используемым показателем сложности задачи, решаемой системой распознавания, является перплексность (perplexity, трудность, сложность, запутанность). Перплексность определяется как число возможных слов, следующих за данным словом в данной языковой модели.

Распознающую систему характеризует так же такой параметр как максимально допустимое отношение сигнал-шум (signal to noise ratio, SNR).

Распознавание речи - сложная задача, в основном из-за большого числа источников, влияющих на параметры речевого сигнала:

- акустическое звучание фонем, наименьших речевых единиц, сильно зависит от окружающего их фонетического контекста (/t/ в словах two, true, butter), в словосочетаниях контекстная зависимость становится еще сильнее («освоить производство», «усвоить хорошие манеры»);

- акустические вариации сигнала из-за различия акустики помещений, характеристик и расположения микрофона;

- физическое и эмоциональное состояние говорящего;

- его возраст, пол, социальное положение, диалект.

Общая структура системы распознавания речи представлена на рисунке 1.1.

Рисунок 1.1 - Структура системы распознавания речи.

Речевой сигнал делится на участки, для каждого участка рассчитывается набор параметров. Эти параметры используются для поиска самого подходящего слова - кандидата в пределах имеющихся акустических, лексических и языковых моделей. Лексические модели в современных системах включены в языковую модель как принципы и способы создания словаря на основе имеющейся текстовой базы и поиска в нем. В наиболее простых системах языковая модель вырождается в лексическую.

1.2 Современный уровень развития

Качество работы распознающей системы обычно оценивается с помощью такого показателя как норма ошибки:

(1.1)

N - общее число слов в тестовом наборе, S, I, D - соответственно число замещений, вставок и удалений слов.

С девяностого года 20 века в технологии распознавания речи достигнут значительный успех. Норма ошибки снижалась примерно в 2 раза за каждые 2 года. Были в основном преодолены барьеры зависимости распознающей системы от диктора, распознавания непрерывной речи и использования словаря большого объема. Этому способствовали несколько факторов:

- использование Скрытых Марковских моделей (СММ);

- разработка стандартных правил составления речевых баз данных для обучения и тестирования (TIMIT, RM, ATIS, WSJ и др.), они позволяют разработчикам определять число акустических реплик, важных для подчеркивания фонетических особенностей, на основе статистических методик. Стандартизация правил обучения и тестирования позволяет так же сравнить производительность различных систем;

- существенное увеличение производительности вычислительных систем.

Типичная задача с низким уровнем перплексности (РР = 11) - распознавание цифр в стандартном телефонном канале. Здесь достигнута норма ошибки 0,3% при известной длине последовательности цифр.

Задачами среднего уровня перплексности являются задачи управления ресурсами, например система распознавания спонтанной речи для информационной системы воздушного движения (Air Travel Information Service, ATIS) со словарем около 2000 слов и РР = 15 достигает нормы ошибки не более 3%.

Высоким уровнем перплексности (РР ? 200) и большим словарем (около 20000 слов) обладают системы, предназначенные для диктовки текста. Достигнутая ими норма ошибки составляет порядка 7%.

Основными направлениями применения распознающих систем являются голосовой набор телефонного номера (например «звоню домой» вместо набора номера), подготовка документов, информационно-справочные системы, системы обучения иностранному языку.

1.3 Перспективы

Помехоустойчивость

Качество работы распознающих систем катастрофически снижается при возрастании разницы в условиях записи обучающих речевых данных и условиях реальной работы из-за различных помех. Поэтому, влиянию акустического окружения и электрических характеристик канала передачи будет уделено особое внимание.

Переносимость

При переносе современных систем на решение новой задачи качество их работы сильно снижается. Для его улучшения требуется переобучение системы. Переносимость подразумевает возможность применения системы для решения разных задач с минимальной подстройкой.

Адаптация, подстройка

Даже в ходе эксплуатации системы для решения одной и той же задачи, внешние условия могут меняться (дикторы, микрофоны и т.д.). Необходимо решить, как заставить систему улучшать качество работы в ходе эксплуатации и подстраиваться под новые условия.

Языковые модели

Современные системы используют статистические языковые модели для снижения пространства поиска и разрешения неопределенности акустической модели. С ростом объема словаря и ослаблением прочих ограничений, для создания жизнеспособных систем все более важным фактором становится определение правил и ограничений, накладываемых синтаксисом распознаваемого языка. При этом чисто статистические языковые модели будут включать все больше синтаксических и семантических правил и ограничений.

Мера доверия гипотезам

Большинство распознающих систем для упорядочения гипотез сопоставляют каждой гипотезе некоторый вес, число. В настоящее время этот вес, как правило, не является показателем доверия к данной гипотезе (т.е. чем эта гипотеза лучше других). Для задач управления необходимо совершенствовать методы оценки достоверности гипотез.

Слова, не входящие в словарь

Системы разрабатываются для применения с определенным словарем. Однако в реальных условиях всегда будет некоторый процент слов, не входящих в словарь. Должны существовать методы определения наличия таких слов и их обработки.

Спонтанная речь

Системы, работающие в реальных условиях, всегда сталкиваются с разнообразными явлениями, присущими спонтанной речи: фальстарты, заикание, неграмматические конструкции и др. Разработка ATIS решила много вопросов в этой области, но далеко не все.

Просодия (интонация и ритм)

Интонация и ритмическая структура речи несут информацию о смысле произносимых слов. Однако в настоящее время не решен вопрос о том, как интегрировать просодическую информацию в распознающую систему.

Моделирование динамики

Современные системы принимают последовательность участков акустического сигнала и обрабатывают их как статические и независимые друг от друга. Однако известно, что воспринимаемые как фонемы и слова участки сигнала требуют объединения выделенных из сигнала параметров и представления их в динамике. Это отражало бы динамическую артикуляцию. Как смоделировать динамику речевого сигнала для распознающей системы - задача не решенная.

2. ПРЕДСТАВЛЕНИЕ ИСХОДНОГО СИГНАЛА

2.1 Принципы предварительной обработки сигнала

В основанном на статистических методах распознавании речи исходный сигнал подвергается дискретизации с частотой от 6,6 до 20 кГц и обрабатывается с целью представления его в виде последовательности векторов в пространстве признаков, моделирующих состояние речевого тракта диктора. При этом участок исходного сигнала длительностью 10 - 25 мс, что составляет 150 - 300 отсчетов, обычно сильно коррелированных между собой, раскладывается в ортогональный ряд и при заданной величине ошибки представляется в виде 10 - 20 коэффициентов разложения, называемых параметрами.

Эти векторы параметров в последующих шагах используются для оценки вероятности принадлежности вектора или последовательности векторов фонеме или целому слову при проверке гипотезы о принадлежности.

В большинстве систем процессы векторного представления сигнала и оценки вероятности тесно связаны. Поэтому предполагается, что если операция или процедура применяется к речевому сигналу - она относится к этапу представления. Если же она применяется для проверки гипотезы, то она - часть этапа расчета соответствия.

Цель этапа представления сигнала - сохранение всей полезной информации, необходимой для фонетической идентификации рассматриваемого участка речевого сигнала. В то же время представление должно быть максимально невосприимчивым к таким факторам как различия между дикторами, особенности каналов связи, эмоциональное состояние. Представление так же должно быть как можно более компактным.

Использующиеся в современных системах представления в большей степени отражают свойства речевого сигнала, обусловленные формой голосового тракта, чем сигналом возбуждения (основной тон, формируемый гортанью и голосовыми связками). Представления лишь определяют, вибрируют или нет голосовые связки, т.е. является ли звук вокализованным.

Используемые представления почти всегда являются производными от ограниченного энергетического спектра, спектральной плотности мощности сигнала [1, 2, 3]

(2.1)

где x1, …, xl, …, xn - исходная последовательность отсчетов в сегменте; S(ejщ) - спектральные коэффициенты. Применение энергетического спектра целесообразно, поскольку ухо нечувствительно к фазе акустического сигнала [2, 3, 5, 8].

Кроме того, для энергетического спектра почти всегда используется логарифмическое представление. Это позволяет снизить слишком сильные перепады параметров при значительных колебаниях амплитуды сигнала, а так же превратить мультипликативные акустические эффекты и помехи от применяемого оборудования в аддитивные помехи. Недостатком логарифмического представления является неопределенность логарифма нуля. Это требует ограничения минимума шкалы амплитуд сигнала некоторым ненулевым значением и ограничения самого сигнала снизу для избежание чрезмерной чувствительности к спектральным составляющим с низкой энергией, являющихся в основном шумовыми. [6, 8].

Рисунок 2.1 - Представления речевого сигнала для распознавания

До расчета спектра сигнал обычно проходит предварительную фильтрацию, обеспечивающую рост усиления сигнала при увеличением частоты с крутизной 6 дБ/октаву для компенсации ослабления, вносимого электрическим трактом. Далее исходный сигнал делится на последовательные, накладывающиеся друг на друга участки, обычно 25 мс длины, обрабатываемые колоколовидной функцией для снижения амплитуды сигнала по краям участка. После чего рассчитывается спектральная плотность мощности.

Полученный энергетический спектр имеет нежелательную гармоническую составляющую на частоте основного тона. Эта составляющая может быть уменьшена группировкой соседних наборов спектральных составляющих до образования группы около 20 полос перед расчетом логарифма мощности. Эти полосы часто делаются последовательно все более широкими с разницей 1 кГц. Возможно так же применение набора цифровых фильтров. Результаты - сходные [6, 11].

Еще более снижающим корреляцию соседних отсчетов в исходном сигнале является кепстральное представление сигнала. Здесь предполагается, что речь является сигналом на выходе линейной системы с медленно меняющимися параметрами - голосового тракта, возбуждаемой либо последовательностью импульсов основного тона, либо шумом. Анализ речевого сигнала в этом случае состоит в расчете параметров голосового тракта по измеренным параметрам речевого сигнала и оценке их с течением времени [2]. Поскольку сигнал возбуждения x(n) и импульсная характеристика фильтра h(n) взаимодействуют через операцию свертки, задача анализа рассматривается как задача разделения компонент, участвующих в операции свертки. Такая задача называется задачей обратной свертки, или развертки. Для ее решения необходимо найти следующий гомоморфизм: C(x(n)*h(n)) = C(x(n)) + C(h(n)). Этот гомоморфизм может быть осуществлен с помощью следующего преобразования:

c(n) = F-1( ln[ |F(x(n))| ] ),(2.2)

которое называется кепстром дискретного сигнала x(n), F и F-1 - соответственно прямое и обратное дискретное преобразование Фурье [2].

С такой же моделью формирования речевого сигнала связано авторегрессионное представление сигнала (линейное предсказание, LPC). Коэффициенты авторегрессии рассчитываются из условия непосредственной минимизации корреляции между близкими отсчетами речевого сигнала x(ti):

,(2.3)

где ck - искомые параметры авторегрессионной модели, ei - погрешность. В дальнейшем, из известных коэффициентов авторегрессии ck, можно рассчитать кепстральные коэффициенты.

Разные разработчики используют на начальном этапе расчета параметров сигнала разные модели, энергетический спектр или авторегрессию, например, в телефонии обычно применяется авторегрессия, так как во всех современных телефонных вокодерах рассчитываются именно эти параметры. В вычислительных системах обычно рассчитывается спектр, поскольку компоненты для его расчета могут быть использованы другими приложениями. В дальнейшем производится расчет кепстральных коэффициентов Сi, как в наибольшей степени отвечающих задаче распознавания [6]. Расчет кепстра через авторегрессию в вычислительном плане более экономичен, что хорошо для ограниченных ресурсов телефонии [3]. Для компьютеров такого жесткого ограничения нет, но важна универсальность и возможность повторного использования кода, поэтому лучше - спектр. Некоторые системы рассчитывают так же динамику изменений параметров сигнала дСi внутри участка сигнала и между соседними участками.

Различные неизменные внешние факторы, такие как характеристики конкретного телефонного соединения, проявляются как постоянная составляющая (смещение) спектра или кепструма. Разностные, динамические параметры дСi не подвержены таким эффектам. Если динамические параметры первого порядка пропустить через интегратор, будут восстановлены величины, близкие исходным, статическим параметрам Сi. Сходная техника, примененная к последовательностям коэффициентов энергетического спектра, до взятия логарифма, пригодна для снижения помехи в виде стационарного или медленно меняющегося аддитивного шума.

Поскольку кепстральные коэффициенты почти некоррелированы, вычислительно эффективный метод получения достаточно хороших вероятностных оценок в последующем процессе поиска соответствия состоит в вычислении евклидовых расстояний до соответствующих векторов моделей. Расчет расстояний производится после подходящего взвешивания коэффициентов (параметров). Существует множество способов взвешивания, объединяемых в два основных класса: эмпирические и статистические [6].

Существуют методики, комбинирующие перечисленные методы и позволяющие почти полностью убрать корреляцию параметров, однако, из-за возрастания вычислительных затрат, в настоящее время использующиеся для демонстрационных целей [6, 8].

2.2 Перспективы

В настоящее время изучается возможность применения на этапе представления исходного сигнала вэйвлет преобразований и нейросетевых методов, позволяющих производить нелинейные операции с исходным сигналом или с результатами других преобразований. Продолжается разработка представлений, более точно отражающих акустику помещения, а так же восстанавливающих артикуляцию по речевому сигналу.

Современные способы представления сигнала используют лишь форму спектра, не учитывая частоту основного тона. Однако известно, что даже в распознавании отдельных слов частота основного тона может быть ключом к лексической идентификации слов. Это касается не только тональных языков, как китайский, но и европейских, поскольку эта частота связана с лексическим ударением. В связной речи основной тон несет информацию о синтаксической структуре предложения и настроении говорящего [6]. Исследования в этой области будут продолжаться.

3. ПОМЕХОУСТОЙЧИВОЕ РАСПОЗНАВАНИЕ РЕЧИ

3.1 Определение помехоустойчивости

Помехоустойчивость (робастность) в распознавании речи связана с необходимостью обеспечения достаточной точности при дестабилизирующих факторах [10]:

- при низком качестве входного речевого сигнала,

- при существенных для акустических, артикуляторных и фонетических характеристик речи отличиях между условиями обучения и тестирования (работы).

Источниками этих факторов являются:

- акустические помехи в виде аддитивного шума,

- явления линейной фильтрации,

- нелинейные искажения при преобразованиях и передаче исходного сигнала,

- импульсные помехи,

- изменения в артикуляции диктора, вызванные наличием источников шума.

В современных системах, предназначенных для работы в благоприятных акустических условиях, во многом достигнута независимость от диктора, они компенсируют некоторое ухудшение сигнала из-за шума и неизвестной линейной фильтрации. Однако для приложений, работающих в реальных условиях, необходимость в повышении устойчивости очевидна. Даже лучшие современные системы значительно ухудшают качество работы, если распознаваемый сигнал прошел через телефонный канал или если диктор говорит с акцентом. Далее рассматривается устойчивость к искажениям сигнала, вызванным окружающими, внешними источниками помех. Основными подходами к робастности являются динамическая подстройка параметров, применение микрофонных матриц, обработка сигнала с учетом психологических моделей восприятия.

3.2 Динамическая подстройка параметров

Обычно модели адаптации систем к изменению окружающих условий предполагают, что источниками ухудшения качества речи являются аддитивный шум с неизвестным распределением спектральной плотности мощности или сочетание аддитивного шума и линейной фильтрации. Для компенсации этих помех в системе может осуществляться динамическая подстройка акустических параметров как рассчитанных из распознаваемого, входного сигнала, так и хранимых системой акустических моделей высказываний. Существуют три основных подхода к динамической подстройке параметров:

- использование оптимальной оценки для получения новых значений параметров в условиях тестирования,

- применение компенсации, основанной на эмпирическом сравнении речевого сигнала в условиях обучения и тестирования,

- высокочастотная фильтрация значений параметров.

Оптимальная оценка параметров

Используются два основных подхода к оптимальной оценке [10, 11].

Первый основан на формальной статистической модели, характеризующей разницу между речью, использовавшейся при обучении системы и речью при тестировании системы. Значения параметров моделей оцениваются по тестовым образцам речи, записанным в различном окружении, после чего модифицируются либо рассчитанные параметры входного сигнала, либо акустические модели речевых единиц, хранящиеся в системе. Опыты показывают, что при таком подходе существенно снижается число ошибок при распознавании речевого сигнала с аддитивным шумом. Однако сколько-нибудь серьезно противостоять ухудшению качества речи в реальных условиях этот подход неспособен.

Второй популярный подход состоит в использовании знаний о шуме, чтобы заставить фонетические модели характеризовать речь с шумом. Знания получаются из имеющихся образцов помех и используются для подстройки параметров фонетических моделей (изменений средних значений и отклонений), рассчитанных из речи без помех. Этот подход реализован в технике, называемой параллельным комбинированием моделей. Он дает хорошие результаты для аддитивных, мультипликативных помех и для реального речевого сигнала. Однако в настоящее время слишком большие вычислительные затраты препятствуют его применению в системах распознавания.

Эмпирическое сравнение параметров

Сравниваются параметры, извлеченные из речи без помех с параметрами такой же речи, записанной с помехами. В этом подходе совместное действие различных помех рассматривается как аддитивные нарушения параметров сигнала. При сравнении параметров рассчитываются корректирующие векторы, использующиеся затем для коррекции либо векторов параметров входного распознаваемого сигнала, либо векторов параметров акустических моделей, хранящихся в распознающей системе.

Точность распознавания повышается, если корректирующие векторы полагаются зависящими от: отношения сигнал/шум, расположения в пространстве параметров в пределах заданного отношения сигнал/шум, или предполагаемого соответствия фонем.

Этот общий подход может быть распространен на случаи, когда тестовое окружение неизвестно априори, путем формирования ансамбля корректирующих векторов для множества различных тестовых внешних условий. Корректирующие векторы затем последовательно применяются к моделям речи, начиная с предположительно наиболее вероятного вектора, до нахождения наиболее точного соответствия вектору, полученному из входного сигнала.

Если условия расчета корректирующих векторов близки реальным условиям работы системы, качество ее работы достаточно высоко. Недостатком является необходимость использования стерео записи для создания базы данных акустических моделей [8, 10, 11].

Применение фильтров верхних частот

Использование высокочастотной или полосовой фильтрации при расчете кепстральных коэффициентов позволяет при минимуме затрат значительно повысить помехоустойчивость системы. Этот метод реализован в алгоритмах RASTA и CMN. Эти алгоритмы сейчас применяются практически во всех системах, где необходима помехоустойчивость [10].

3.3 Использование матриц микрофонов

Дополнительное улучшение точности распознавания при малом соотношении сигнал/шум может быть достигнуто с использованием матрицы микрофонов. Такая матрица в принципе может реализовать направленную чувствительность с характеристикой, имеющей максимум в направлении диктора и минимумы - в направлении источников помех, аналогично фазированной антенной решетке в радиосвязи. Изменяя фазировку отдельных элементов с помощью сумматоров и линий задержки, можно точно настроить характеристику направленности при изменении условий работы. Одновременно применяются алгоритмы компенсации спектральной окраски, вносимой самой матрицей. Опыты с микрофонной матрицей в офисной обстановке показали уменьшение нормы ошибки до 61% для помехи в виде источника аддитивного шума [10].

Несмотря на то, что матрица эффективна при помехе в виде аддитивного, независимого шума, она значительно ухудшает показатели при наличии множества отражающих поверхностей, когда помеха - слегка задержанная и ослабленная часть полезного сигнала.

Более продвинутые системы для компенсации помех, связанных с задержкой сигнала, используют для управления матрицей алгоритмы, основанные на взаимной корреляции. Эти алгоритмы способны усиливать акустическое поле в определенных направлениях. Тем не менее, они лишь незначительно улучшают показатели системы по сравнению с простыми алгоритмами задержки и суммирования.

3.4 Психологически обоснованная обработка сигнала

Обработка исходного речевого сигнала с учетом психологических моделей восприятия имитирует различные аспекты восприятия речи человеком. Такие системы обработки обычно включают набор полосовых фильтров, имитирующих частотную чувствительность слуха человека, за которыми следуют устройства нелинейной обработки сигнала в каналах и между каналами.

Недавние оценки распознающих систем показывают, что модели, имитирующие восприятие, обеспечивают лучшую точность распознавания, чем традиционный кепструм, и в условиях помех, и при разнице в условиях обучения и тестирования. Однако эти модели по показателю качества уступают алгоритмам динамической подстройки параметров, кроме того, динамическая подстройка - менее затратная.

Возможно, что проигрыш имитационных моделей связан с применением для классификации Скрытых Марковских моделей, которые оказываются плохо приспособленными для работы с получаемыми параметрами. Ряд исследователей так же полагает, что еще не найден оптимальный набор параметров, рассчитываемый с помощью этих моделей и максимально точно характеризующий речевой сигнал. Поэтому данное направление продолжает привлекать пристальное внимание исследователей.

3.5 Перспективы

Несмотря на очевидную важность, робастность в распознавании речи лишь недавно привлекла внимание исследователей. Значительный успех достигнут лишь для условий довольно «дружественных» помех, таких, как аддитивный шум или линейная фильтрация. Независимость систем от диктора сейчас распространяется только на носителей языка. Для людей, говорящих с акцентом, точность распознавания существенно ниже, даже при подстройке под диктора.

Речь по телефону

Распознавание телефонной речи затруднено, поскольку каждый телефонный канал имеет свои отношение сигнал/шум и частотную характеристику. Кроме того, искажение речи может быть вызвано кратковременной интерференцией или нелинейностями. Приложения для работы в телефонных линиях должны быть способны адаптироваться к разным каналам при малом количестве данных о канале.

Окружение с высоким уровнем шума

Даже при использовании различных методик компенсации шума, точность распознавания существенно падает при отношении сигнал/шум ниже 15 дБ, тогда как человек способен прекрасно слышать речь при значительно более низом отношении.

Перекрестная помеха

Влияние других разговоров, например в одном помещении или наводки по соседнему телефонному каналу, значительно более сложная задача, чем широкополосная шумовая помеха. До сих пор усилия по использованию информации, отличающей распознаваемую речь от мешающей, к существенным результатам не привели.

Быстрая адаптация к акценту в речи

В современном, быстро меняющемся обществе серьезные языковые приложения должны одинаково хорошо понимать как людей, говорящих без акцента, так и с акцентом.

Разработка принципов создания речевых баз данных

Прогресс в помехоустойчивом распознавании будет зависеть так же от разработки принципов создания речевых баз данных и непосредственно от создания таких баз данных. Для этого необходимо собрать, обработать и структурировать множество образцов искажений и помех, свойственных практическим задачам.

4. АКУСТИЧЕСКИЕ МОДЕЛИ

4.1 Место акустической модели в системе

Современные системы распознавания речи реализованы главным образом как программные продукты, генерирующие гипотезы о произносимых последовательностях слов по входному сигналу. Использующиеся в таких системах алгоритмы основаны на статистических методах.

Вектор yt акустических параметров рассчитывается по входному сигналу каждые 10-30 мс. Последовательности этих векторов рассматриваются как наблюдаемые последовательности, генерируемые фонетическими моделями. Исходя из этого рассчитывается вероятность p(ylT/W) наблюдения последовательности векторов ylT при произнесении последовательности (слова) W, другими словами - вероятность генерирования последовательности ylT моделью W. Задавшись последовательностью ylT, можно в ходе поиска по правилу:

(4.1)

найти наиболее вероятную последовательность слов , сгенерировавшую ylT. Эта поисковая процедура находит последовательность слов, имеющую максимальную апостериорную вероятность. Вероятность p(ylT/W) рассчитывается акустической моделью, а p(W) - языковой моделью.

Для систем с большим словарем поиск состоит из двух этапов. На первом, в ходе расчета приблизительных вероятностей в реальном масштабе времени по упрощенным моделям, генерируется решетка из n лучших последовательностей слов. На втором этапе рассчитываются более точные вероятности при ограниченном числе гипотез. Некоторые системы генерируют вероятную последовательность слов за один шаг.

4.2 Акустические модели на основе цепей Маркова

Акустические модели являются элементарными вероятностными моделями базовых лингвистических единиц (т.е. фонем) и используются для представления единиц следующего уровня - слов[5, 7, 9].

Последовательность акустических параметров, полученная из произнесенной фразы, рассматривается как реализация совокупности процессов, описываемых с помощью Скрытых Марковских моделей (СММ). СММ - совокупность двух случайных процессов:

- скрытой цепи Маркова, отвечающей за изменения во времени,

- множества наблюдаемых стационарных процессов, отвечающих за спектральные изменения.

СММ доказала на практике, что в состоянии справиться с основными источниками неоднозначности речевого сигнала, например вариациями в произнесении фонемы, позволяя при этом создавать системы со словарем из десятков тысяч слов.

Структура СММ

Модель определяется как пара случайных процессов (Х, У). Процесс Х - цепь Маркова первого порядка, реализации которой не наблюдаются непосредственно. Реализации процесса У берут свои значения из пространства акустических параметров, наблюдаются непосредственно, а их распределения зависят от реализаций процесса Х [5, 9].

СММ характеризуется двумя формальными предположениями. Первое касается цепи Маркова и гласит, что следующее состояние цепи определяется только текущим состоянием и не зависит от предшествующей траектории. Второе гласит, что текущее распределение процесса У, откуда берется наблюдаемое значение акустического параметра, зависит только от текущего состояния цепи Маркова (процесса Х), а не от предыдущих траекторий процессов Х и У.

В приложении 1 приведены математическое определение модели, пример генерирования наблюдаемой последовательности и расчетные формулы.

Для переоценки параметров модели в ходе ее обучения используется алгоритм Баума-Уэлша, основанный на переоценке вероятности по формуле Байеса.

Типы СММ

СММ можно классифицировать по элементам матрицы В, которые по своей природе являются функциями распределения.

Если функции распределения определены на конечном пространстве, то модель будет дискретной. В этом случае наблюдаемая реализация - вектор значений из конечного алфавита в М элементов. Для каждого элемента вектора Q, выбираемого из множества V, определена ненулевая дискретная плотность {w(k)/k=1,…,M}, формирующая распределение. Такое определение предполагает независимость элементов множества V.

Если распределения определены как плотности вероятности на непрерывном пространстве, то модель будет непрерывной. В этом случае к функциям распределения предъявляются требования с целью ограничения числа оцениваемых параметров до приемлемых пределов. Наиболее популярный подход состоит в использовании линейной комбинации плотностей g из семейства G стандартных распределений с простой параметрической формой. Обычно в качестве g используется многомерное нормальное распределение, характеризующееся вектором математического ожидания и ковариационной матрицей. Число стандартных распределений, участвующих в линейной комбинации при формировании результирующего распределения, обычно ограничивается вычислительными возможностями и имеющимся объемом учебных данных [5, 7].

Настройка параметров распределений в ходе обучения непрерывной модели требует большого числа учебных образцов. При их недостатке прибегают к использованию псевдонепрерывной модели, в которой для формирования линейной комбинации используется стандартный набор базовых плотностей. Линейные комбинации отличаются друг от друга только весовыми коэффициентами. Общий подход состоит в связывании каждой координаты входного вектора со своим, отличающимся от других, набором базовых плотностей.

4.3 Моделирование слов

Фонетическая декомпозиция

Слово обычно представляется сетью фонем. Каждый путь в сети представляет вариант произношения слова [8, 9].

Одна и та же фонема, произнесенная в разных контекстах, может иметь отличающиеся акустические параметры, а значит моделироваться разными распределениями. Аллофоны - модели, представляющие фонему в разных контекстах. Решение, сколько аллофонов будут представлять конкретную фонему, зависит от многих факторов, основной из которых - количество обучающих данных для настройки параметров акустической модели.

Существует несколько разновидностей аллофонной модели. Одна из них - полифоны. В принципе произнесение фонемы отличается во всех словах, где она встречается, поэтому требует разных аллофонов. При большом объеме словаря, обучить такую модель практически невозможно из-за недостатка обучающих данных. Поэтому используется представление аллофонов на нескольких уровнях детализации: слово, слог, трифон, дифон, контекстно-независимая фонема. Вероятностные распределения аллофонов на разных уровнях детализации могут быть получены комбинированием распределений более детальных уровней представлений. Потеря особенностей компенсируется улучшением оценки статистических параметров модели при ее обучении благодаря возрастанию отношения объема обучающих данных к числу оцениваемых параметров модели.

Другая разновидность заключается в кластеризации аллофонов по некоторому числу возможных классов контекстов. Поиск класса проводится автоматически, с помощью классификационно-регрессионного дерева (CART). Это - бинарное дерево, в корне находится фонема, с каждым узлом ассоциирован вопрос о контексте типа: «Предыдущая фонема носовая согласная?» Для каждого возможного ответа (да, нет) существует ветвь к другому узлу. Листьями дерева являются аллофоны. Существуют алгоритмы роста и обрезки CART, автоматически связывающие с узлами вопросы из созданного вручную пула [7].

Каждый аллофон в системах распознавания моделируется с помощью СММ. В общем, все модели могут быть построены с использованием распределений, взятых из одного, разделяемого пула или до нескольких тысяч кластеров, называемых сенонами.

Модели аллофонов более высокого уровня, например слов, могут быть так же построены конкатенацией базовых моделей с помощью связующих переходов и распределений. Такие строительные блоки называют фенонами и мультонами.

Другой подход к моделированию слов состоит в использовании кодовой книги - набора эталонных признаков, являющихся ее словами. По входному вектору параметров сигнала находится наиболее близкий эталонный признак из кодовой книги, которому соответствует свой номер. Для кодовой книги используется стандартный набор базовых плотностей, слова представляются последовательностями номеров признаков. Каждая последовательность номеров затем моделируется с помощью СММ [7].

Определение границ и вероятностей слов

В общем, речевой сигнал и его представления не дают четких указаний на границы между словами, следовательно, определение границы слов является частью процесса выдвижения гипотезы, выполняемого как поиск. В ходе этого процесса модели слов сравниваются с последовательностью акустических параметров. В вероятностных рамках сравнение акустических последовательностей с моделями включает расчет вероятности генерирования данной последовательности данной моделью, т.е. расчет p(ylT/W). Это - ключевая составляющая процесса распознавания.

Далее приводятся формулы для расчета вероятности p(ylT/W). Обозначения в этих формулах соответствуют обозначениям в определении СММ в приложении 1. Для него p(ylT/W) = P(O/ л).

При заданной временной последовательности: 1, 2, …, t, t+1, …, T-1, T [5, 9]:

Вероятность dt(i) того, что к моменту t наблюдалась последовательность o1,o2…ot и модель находится в состоянии Si (forward algorithm):

для всех 1?i?N, 1?j?N, t = 1,2,…,T-1:

при t = 1: d1(i) = пi bi(o1);(4.2)

при t > 1: dt(j) = .(4.3)

Вероятность ft(i) наблюдения последовательности ot+1,ot+2,…oT начиная с момента t+1до Т при условии, что в момент t модель находится в состоянии Si (backward algorithm):

для всех 1?i?N, 1?j?N, t = T-1,T-2,…,1:

при t = T: fT(i) = 1;(4.4)

при t < T: ft(i) = .(4.5)

Полная вероятность того, что модель за Т тактов пройдет какую-либо траекторию (вероятность соответствия последовательности и модели) можно рассчитать тремя способами:

- P(O/л) = ;(4.6)

- P(O/л) = ;(4.7)

- P(Q/л) = dt(i) ft(i) = .(4.8)

Пример расчета вероятности приведен в приложении 2.

Для расчетов используются модели в виде линейной последовательности состояний, имеющие начало и конец. Переходы возможны только на месте и от начала к концу без перескока через состояния. Перед расчетом соответствия исходная последовательность векторов параметров делится на сегменты, равные по длине данной модели.

4.4 Перспективы

Достигнутые в последние годы значительные успехи в акустическом моделировании позволили реализовать хорошее качество распознавания при использовании большого словаря в реальном масштабе времени, при этом расходуя приемлемое количество ресурсов. Однако существует ряд аспектов, требующих улучшения. В первую очередь это касается адаптации к разным дикторам и разному акустическому окружению, в том числе и при наличии помех. Существуют так же трудности с обработкой заиканий, фальстартов, отсутствующих в словаре слов и других особенностей, присущих спонтанной речи.

Основными направлениями современных исследований являются акустическая помехоустойчивость, улучшение систем акустических параметров и моделей, работа с большим лексиконом, поддержка нескольких контекстов и нескольких языков, разработка методов автоматического обучения систем.

5. ЯЗЫКОВЫЕ МОДЕЛИ

5.1 Место языковой модели в системе

Системы распознавания речи преобразуют акустический сигнал в орфографическое представление произносимого высказывания. Распознаватель строит гипотезы, пользуясь конечным словарем. Для простоты предполагается, что слово однозначно определяется своим произношением.

Значительный прогресс в решении проблемы распознавания достигнут с началом использования статистической модели совместного распределения p(W,O) последовательности произносимых слов W и соответствующей акустической последовательности О. Этот подход впервые был применен компанией IBM под названием “source-channel model” (модель источник-канал). В ней определяется оценка соответствия выбранной словарной последовательности наблюдавшемуся акустическому факту О с помощью апостериорного распределения p(W/O) [4, 5, 7, 8].

Для минимизации ошибки система выбирает словарную последовательность, максимизирующую это апостериорное распределение:

(5.1)

где p(W) - вероятность последовательности слов W, p(O/W) - вероятность наблюдения акустической последовательности О при произнесении последовательности слов W, p(O) - полная вероятность наблюдения последовательности О по всем имеющимся акустическим моделям. p(O/W) = p(ylT/W) = P(O/ л) и рассчитывается на этапе акустического моделирования с помощью СММ и называется каналом. p(O) полагается равной 1. Априорная вероятность p(W) рассчитывается с помощью языковой модели (ЯМ).

Аналогичная модель распознавания применяется для распознавания печатных и рукописных текстов [8].

5.2 Языковая модель на основе триграмм

Для заданной последовательности слов W={w1,…,wn} ее вероятность можно представить как:

(5.2)

w0 определяется подходящим для обеспечения начальных условий. Вероятность каждого следующего слова wi зависит от уже произнесенной последовательности hi. При таком определении сложность модели растет экспоненциально с ростом произнесенной последовательности слов. Чтобы упростить модель, сделав ее пригодной для практики, предполагается, что только некоторые аспекты истории влияют на вероятность следующего слова. Один из способов достичь этого - использовать некоторую операцию ц(), разделяющую историческое пространство на К эквивалентных классов. Далее можно применить модель:

(5.3)

Наибольший успех в последние 20 лет достигнут с помощью простых моделей n-грамм. Чаще всего применяются триграммы, где только два предыдущие слова определяют вероятность следующего слова. В этом случае вероятность последовательности слов выглядит так:

(5.4)

Для оценки априорных вероятностей p(W) ЯМ необходим большой объем обучающего текстуального материала. В ходе оценки рассчитываются частоты:

,(5.5)

где с123 - число появлений последовательности слов {w1, w2, w3}, с12 - число появлений последовательности {w1, w2,}. Для словаря объема V существует V3 возможных триграмм, при словаре 20 тыс. слов - 8 трлн. Очевидно, что многие из этих триграмм не встретятся в обучающих последовательностях, поэтому для них f3(w3/w1, w2) = 0. Чтобы соответствующие вероятности не были равны нулю, проводится линейная интерполяция частот триграмм, биграмм и слов, а так же их равномерное распределение на словаре:

.(5.6)

f1( ) и f2( ) оцениваются подсчетом соответствующих биграмм и триграмм. Коэффициенты л линейной интерполяции оцениваются поиском максимума вероятности для новых данных, не участвовавших в подсчете частот n-грамм. При максимизации используется forward-backward алгоритм (формулы (4.2) - (4.5)).

В общем случае может использоваться более одного л вектора. Так же целесообразно учесть большее доверие частотам триграмм, оцененным на большем количестве обучающих последовательностей. Для этого весовые коэффициенты л делаются зависимыми от групп биграмм и слов b(c12, c2), составляющих историю для рассматриваемого слова. Этот метод называется deleted interpolation [8]. Применяются и другие сглаживающие схемы. При моделировании языка с помощью триграмм объем словарных данных обычно колеблется от 1 млн. до 500 млн. слов при соответственном объеме словаря от 1 тыс. до 267 тыс. слов.

5.3 Сложность (перплексность)

Для сравнения распознающих систем можно использовать норму ошибки. Этот показатель лучше всего оценивает языковые модели. Однако есть менее затратный способ оценки ЯМ. В нем используется величина, характеризующая количество информации - энтропия. Идея заключается в расчете энтропии для нового, не использовавшегося при создании модели текста. Сравнивается словарная энтропия, рассчитанная непосредственно по тексту, с энтропией, рассчитанной по ЯМ. Та ЯМ, чья энтропия будет ближе всего к текстовой, и будет лучшей [4, 5, 8].

Обозначим как р(х) правильное распределение вероятности слов в сегменте текста х, состоящем из k слов. Определим энтропию текста по словарному базису как:

.(5.7)

Если слова в тексте равновероятны, а размер текста - V, тогда H=log2V, для других распределений H?log2V. Для определения вероятности в сегменте текста можно использовать ЯМ. Значение логарифма вероятности для ЯМ составляет:

,(5.8)

где pЮ(wi/hi) - вероятности, определенные данной ЯМ. Предел , т.е. рассчитанный по ЯМ, - не ниже энтропии текста. Очевидно, что цель сравнения разных ЯМ - найти такую, для которой логарифм вероятности, рассчитанный по ЯМ, будет ближе всего к энтропии, рассчитанной по тексту.

Перплексность характеризует уровень логарифма вероятности ЯМ и определяется как 2lp. Грубо говоря, это - средний объем словаря, из которого выбирается очередное слово при распознавании. Перплексность зависит от использующегося речевого домена. Значения перплексности для некоторых речевых доменов приведены в таблице 5.1 [4, 8].

речь распознавание акустический языковый

Таблица 5.1. Перплексность речевых доменов

Речевой домен

Перплексность

Радиология

20

Медицина катастроф

60

Журналистика

105

Общий английский

247

5.4 Объем словаря

Норма ошибки не может быть ниже, чем процент произнесенных слов, не входящих в словарь. Поэтому основная часть построения ЯМ заключается в разработке словаря, максимально охватывающего тексты, которые, вероятно, будет распознавать система. Это остается задачей, решаемой людьми.

При создании словаря сначала подбираются тексты, характеризующие задачу, с которой будет работать система. Затем тексты с помощью средств автоматизации делятся на слова. Далее каждому слову сопоставляется набор его вариантов произношения, включая возможные будущие варианты. Все полученные варианты произношения используются для составления триграмм.

В таблице 5.2 приводится процент охвата распознающей системой новых текстов в английском языке, при использовании словаря фиксированного объема. У языков с большим числом форм слова и зависимостями в словообразовании (немецкий, французский), для такой же степени охвата требуется словарь значительно большего размера.

Более рациональный подход предусматривает составление персонифицированного словаря для каждого пользователя распознающей системы в дополнение к фиксированному словарю. Таблица 5.2 представляет рост охвата новых слов такой, динамически настраиваемой системой при начальном, фиксированном объеме словаря 20 тыс. слов. Данные сравниваются с системой, использующей статический словарь того же объема при распознавании текста представленной длины [4, 8].

Таблица 5.2. Качество распознавания новых текстов

Число добавленных слов

Объем текста

Статический

охват

Динамический охват

100

1800

93,4%

94,5%

400

12800

94,8%

97,5%

3100

81600

94,8%

98,1%

6400

211000

94,4%

98,9%

5.5 Усовершенствованные языковые модели

Существует множество усовершенствований ЯМ на основе триграмм. Основные из них упомянуты ниже [4, 8, 11].

Модели классов

Вместо слов в языковой модели можно использовать набор классов слов. Классы могут пересекаться, поскольку слово может принадлежать разным классам. Классы могут основываться на частях речи, морфологическом анализе слова, могут определяться автоматически по статистическим связям. Общая модель классов выглядит так:

,(5.9)

где ci - классы. Если классы не пересекаются, то:

. (5.10)

Перплексность такой модели выше, чем у основанной на триграммах, однако она снижается при комбинировании моделей этих двух типов.

Динамические модели

Здесь учитывается прошлое, продолжительностью во весь документ. Это делается для обнаружения часто встречающихся слов (например, в этом тексте часто встречающимся является слово «модель»). Использование КЭШа для таких слов позволяет придать ЯМ большую динамику, сокращая время поиска.

Комбинационные модели

Еще один подход состоит в разделении всей речевой базы на несколько кластеров. Для моделирования нового текста используется линейная комбинация триграммных моделей из разных кластеров:

, (5.11)

где pj() оценивается по j - му текстовому кластеру.

Структурные модели

В этих моделях вместо влияния на вероятность слова ближайшей предшествующей истории, используется синтаксический разбор. С помощью такого разбора устанавливается связь между удаленными словами, что недавно было предложено учитывать при составлении удаленных биграмм.

5.6 Перспективы

Основными областями, где сейчас сосредоточены усилия, являются [4, 8, 11]:

Выбор словаря

Как определить словарь нового речевого домена, практически персонализировать словарь для пользователя, сделав охват текста максимальным. Эта проблема наиболее существенна для языков с большим числом форм слова и восточных языков, где понятие слова определено нечетко.

Адаптация речевого домена

Это задача настройки эффективной ЯМ для доменов, не обладающих большим объемом словарных данных, доступных машине, а так же определения темы разговора. Это позволило бы применить для распознавания речи специфическую, тематическую модель.

Использование структуры языка

Современный уровень оценки качества работы системы не позволяет улучшать работу системы, используя структуру языка. Разработка языковой модели, основанной на структуре языка, может стать ключом к прогрессу в языковом моделировании. Современные достижения, основанные на вероятностных моделях, отражают детский этап в развитии моделирования языка. Прогресс здесь связан с ростом структуризации данных.

ЗАКЛЮЧЕНИЕ

В данной работе рассмотрены основные принципы построения систем распознавания речи на современном этапе развития, их классификация, решаемые ими задачи. Рассмотрен современный подход к помехоустойчивости систем.

Представлена структура системы, основные задачи, решаемые ее компонентами, принципы предварительной обработки исходного сигнала, построения акустических и языковых моделей,


Подобные документы

  • Цифровая обработка сигналов и ее использование в системах распознавания речи, дискретные сигналы и методы их преобразования, основы цифровой фильтрации. Реализация систем распознавания речи, гомоморфная обработка речи, интерфейс записи и воспроизведения.

    дипломная работа [1,1 M], добавлен 10.06.2010

  • Преимущества радиоканальных охранных систем. Основные направления кодирования речи: кодирование формы (Waveform coding) и источника сигнала (Source coding). Структурная схема процесса обработки речи в стандарте GSM. Оценка качества кодирования речи.

    реферат [46,8 K], добавлен 20.10.2011

  • Задачи при передаче речи и данных. Цифровая передача речи. Категории методов цифрового кодирования речи. Кодеры формы сигнала. Вид амплитудной характеристики компрессора. Дискретная модель речеобразования. Особенности метода кратковременного анализа.

    контрольная работа [56,6 K], добавлен 18.12.2010

  • Рассмотрение основных этапов в решении задачи оптимизации приема сигнала. Изучение методов фильтрации и оптимизации решений. Вероятностный подход к оценке приёма сигнала; определение вероятности ошибок распознавания. Статические критерии распознавания.

    презентация [3,0 M], добавлен 28.01.2015

  • Кодирование речи RPE – LTP – кодер на 16 кбит/с. Структура декодера речи в стандарте GSM. Коэффициенты отражения кратковременного предсказания по методу Берга для РФ 8-го порядка. Спектральная характеристика постфильтра. Формирование формантных областей.

    реферат [300,5 K], добавлен 15.11.2010

  • Структурные схемы гомоморфной обработки и анализа речевых сигналов. Комплексный кепстр речи. Компонент речевого сигнала. Период основного тона и частоты формант. Модуль передаточной функции речевого тракта. Оценивание основного тона на основе кепстра.

    реферат [297,1 K], добавлен 19.11.2008

  • Общая классификация систем и сетей радиодоступа. Классификация систем радиодоступа по параметрам и характеристикам радиоинтерфейса. Системы с аналоговой и цифровой передачей. Услуги цифровой передачи речи. Классификация по решаемым прикладным задачам.

    реферат [49,3 K], добавлен 06.10.2010

  • Состояние проблемы автоматического распознавания речи. Обзор устройств чтения аудио сигналов. Архитектура системы управления периферийными устройствами. Схема управления электрическими устройствами. Принципиальная схема включения электрических устройств.

    дипломная работа [1,1 M], добавлен 18.10.2011

  • Информационные характеристики и структурная схема системы передачи; расчет параметров аналого-цифрового преобразователя и выходного сигнала. Кодирование корректирующим кодом. Определение характеристик модема; сравнение помехоустойчивости систем связи.

    курсовая работа [79,6 K], добавлен 28.05.2012

  • Структура устройств обработки радиосигналов, внутренняя структура и принцип работы, алгоритмами обработки сигнала. Основание формирование сигнала на выходе линейного устройства. Модели линейных устройств. Расчет операторного коэффициента передачи цепи.

    реферат [98,4 K], добавлен 22.08.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.