Проблема выбора эталонной единицы при распознавании речи

Использование бионического подхода в современных разработках по распознаванию слитной речи. Выбор эталонной единицы и процесс первичного формирования словаря эталонов. Проведение опытов по использованию небольшого набора аллофонов русского языка.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 10.03.2018
Размер файла 16,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Санкт-Петербургский государственный университет телекоммуникаций имени профессора М.А. Бонч-Бруевича

Проблема выбора эталонной единицы при распознавании речи

аспирант, ведущий программист

Гладышев Константин Константинович

В современных разработках по распознаванию слитной речи преимущественно используется бионический подход. Системы являются многоуровневыми и создаются по образу механизмов восприятия речи человеком. Как правило, они состоят из нескольких взаимосвязанных модулей [4, 6]:

· запись сигнала с микрофона, его оцифровка, коррекция и фильтрация;

· выделение информативных признаков сигнала;

· процедура поиска входного сигнала по базе эталонных речевых единиц;

· семантическая коррекция распознанной последовательности в соответствии с вероятностной грамматикой языка.

Эффективность работы подобных систем напрямую зависит от качества реализации каждого уровня. Одной из важнейших задач является выбор эталонной единицы и процесс первичного формирования словаря эталонов. Кроме того, необходимо обеспечить переход от фонетического представления распознанной последовательности речевых единиц к ее лексическому отображению для передачи этой информации на следующий - семантический уровень системы.

Чтобы решить задачу выбора эталонной единицы сначала необходимо разобраться в том, какие речевые единицы воспринимает человек в слитной речи. Согласно опытам в [13] были сделаны выводы, что «для слитной речи характерны сложные временные образы, которые воспринимаются в целом». Так в качестве минимальных единиц могут выступать фонемы и их аллофоны, фонетические слоги, слова, целые фразы или даже предложения. В зависимости от речевого контекста, от степени понимания языка и четкости произнесения фраз, человек настраивается на нужную ему речевую единицу. Зачастую возможно предугадывание окончания слова или даже целой фразы. Можно сделать вывод, что однозначного ответа на вопрос, с помощью каких речевых единиц человек воспринимает слитную речь, нет.

Минимальной речевой единицей считается фонема или аллофон (вариант звучания фонемы в зависимости от речевого контекста). Данные единицы успешно применяются в современных системах синтеза речи [2]. Аллофоны и дифоны (отрезки звуков продолжительностью от середины одной фонемы до середины следующей) используются в качестве эталонных единиц в различных разработках систем распознавания слитной речи [10, 12, 7]. Однако такие системы до сих пор не обеспечивают должного качества распознавания речи и не доведены до коммерческого продукта.

Возможно, одной из причин неуспеха систем, основанных на фонемном подходе, является не совсем корректный выбор самой эталонной единицы. Обратимся еще раз к процессу восприятия речи человеком. Эксперименты в [13] показывают, что слушатели затрудняются при расчленении речи на короткие сегменты, даже если на это специально направлять их усилия. Предполагалось, что лингвист, прослушивая речевые сегменты, может точно указать границы фонем и определить, какая именно фонема произносится. Однако на практике оказалось, чтобы выполнить данную задачу фонетисту зачастую необходимо услышать слово в целом или даже несколько рядом стоящих слов. Можно сделать вывод, что человек не производит по фонемную сегментацию речевых сообщений при восприятии речи.

Автором статьи создана экспериментальная система распознавания речевых команд. В качестве информативных признаков используются линейные спектральные корни [11, 8]. Поиск ближайшего эталона по базе осуществляется методом нелинейного временного выравнивания (динамическое программирование) [1].

Разработанная система позволяет использовать разные эталонные единицы. Были проведены опыты по использованию небольшого набора аллофонов русского языка [9]. Система достаточно хорошо распознает в слитной речи гласные аллофоны и длительные сонарные (звучные) согласные. Взрывные и шипящие согласные распознаются плохо по причине их кратковременности и не стационарности. Известно [14], что основная смысловая информация содержится именно в кратковременных согласных. Таким образом, для успешного распознавания большого набора слов или фраз получаемой нами информации будет недостаточно.

В качестве эталонной речевой единицы могут также выступать целые слова. Если необходима система распознавания команд или целых фраз из ограниченного словаря (10-200 слов) для одного диктора, то эта задача уже решена и успешно используется на практике, например, голосовое управление мобильными телефонами. Немного по-другому стоит задача поиска ключевых слов в непрерывном потоке речи. Однако подобная задача также успешно решается, например в [3].

В разработанной системе были произведены эксперименты по поиску различных слов в непрерывном речевом потоке для разных дикторов. Результаты оказались успешными, в 90% случаев слова находятся правильно. Данную систему можно применять для решения узких задач по распознаванию речи, когда заранее известен набор произносимых слов или фраз. Однако в виду наличия огромного количества слов и словоформ в русском языке, от данной задачи нельзя перейти к распознаванию произвольной слитной речи.

В 60-70х годах XX века для тестирования качества передачи речевых сигналов по аналоговым каналам связи использовались артикуляционные таблицы ВКАС. Эти таблицы содержат 2700 фонетических слогов, являющихся всевозможными звукосочетаниями русской речи. Оценивалась слоговая разборчивость передаваемой по каналу информации. Эти таблицы являются основой ГОСТов по оценке качества передачи речевого сигнала [5] и оценке акустических характеристик помещений.

Было сделано предположение, что таблицы фонетических слогов ВКАС можно использовать в качестве набора эталонов в системе распознавания речи. Вероятно, что человеческий мозг при восприятии речи, использует именно фонетические слоги, из которых уже потом строится целое слово, фраза или предложение. Например, при восприятии слова «Тридцать», мы подсознательно делим его на два слога: «трит» и «цать». Первые опыты показали успешность данного решения.

Отдельно стоит упомянуть про проблему организации связи между фонетическим словарем системы и лексическим. Передавать на семантический уровень фонетические результаты распознавания бессмысленно, они предварительно должны быть транслированы в правильную лексическую форму. Самым простым способом это можно сделать через промежуточный словарь с указанием прямого соответствия фонетического описания слова его лексическому представлению. В русском языке есть специальные орфоэпические словари, где указывается транскрипция слова и его грамматически правильное представление. Зачастую одно и то же слово произносится по-разному и имеет различное фонетическое представление. Для решения задачи по распознаванию таких слов можно строить вероятностные цепочки фонемного или аллофонного представления слов, использовать многоярусное представление фонетической информации c учетом межфонемной вариативности [3].

На основании проведенных исследований сделано предположение, что в современных системах распознавания речи в качестве эталонных речевых единицы могут выступать различные фонетические конструкции. Использование той или иной единицы сильно зависит от логического контекста произнесения фразы, артикуляционных способностей говорящего, уровня шума окружающей среды и других параметров. Наибольшую эффективность покажет система, в которой производится параллельная обработка нескольких гипотез по распознаванию речи. Также немаловажным будет являться наличие корректирующей обратной связи между уровнями системы для уточнения результатов распознавания.

бионический распознавание речь эталонный

Литература

1. Беллман Р. Динамическое программирование - М.: Иностранная литература, 1960

2. Вольская Н., А. Коваль, С. Коваль, И. Опарин, Е. Погарева, П. Скрелин, Н. Смирнова, А. Таланов Cинтезатор русской речи по тексту нового поколения // Труды международной конференции «Диалог'2005», Звенигород, 1-6 июня, 2005 г.

3. Вольская, А. Коваль, К проблеме разработки фонетического уровня в системах автоматического распознавания речи // Труды международной конференции «Диалог'2002», Москва 2002 г.

4. Галунов В.И. и Галунов Г.В. Один подход к автоматическому распознаванию речи // Международная конференция по компьютерной лингвистике "Диалог 2000" [Электронный ресурс] - Режим доступа: http://www.dialog-21.ru/materials/archive.asp?id=6434&y=2000&vol=6078, свободный. - Загл. с экрана.

5. Гост Р 50840-95 Передача речи по каналам связи. Методы оценки качества, разборчивости и узнаваемости.

6. Киселёв В.В., Таланов А.О. и др. Автоматический поиск ключевых слов в непрерывном потоке речи на основе технологии "распознавание через синтез" // Труды международной конференции «Диалог 2006», Бекасово, 31 мая - 4 июня 2006 г.

7. Кнеллер Э.Г. Анализ параметров речевого сигнала создающих восприятие элементарных звуков речи // Труды международной конференции «Диалог 2006», Бекасово, 31 мая - 4 июня 2006 г.

8. Ланнэ А.А. Новая теория линейных спектральных корней // Труды 3-ей Международной конференции "Цифровая обработка сигналов и ее применение", Москва, 2000 г. 29 ноября - 1 декабря с.118-125.

9. Лобанов Б.М., Пьорковска Б., Рафалко Я., Цирульник Л.И., Шпилевский Э. Фонетико-акустическая база данных для многоязычного синтеза речи по тексту на славянских языках // Труды международной конференции «Диалог 2006», Бекасово, 2006 г. 31 мая - 4 июня с. 357 - 364.

10. Лукьяница А.А. Разработка программы распознавания русской речи для процессора SuperH RISK (Hitachi). // МГУ им.М.В.Ломоносова ф-т ВМиК, каф.автоматизации научных исследований [Электронный ресурс] - Режим доступа: http://leader.cs.msu.su/~luk/ContinuousSpeech_rus.html, свободный. -- Загл. с экрана.

11. Маркел Дж., Грей А.Х. Линейное предсказание речи - М.:Связь, 1980.

12. Ронжин А.Л., Ли И.В., Карпов А.А. Система автоматического распознавания русской речи SIRIUS // Научно-теоретический журнал «Искусственный интеллект» № 3 2005 г.

13. Фланаган Д. Анализ, синтез и воприятие речи - М.: Связь, 1968 с.308.

14. Чистович Л.А. Венцов А.В. Физиология Речи. Восприятие речи человеком. - Л.: Наука, 1976 с.28.

Размещено на Allbest.ru


Подобные документы

  • Распознавание слов в слитной речи, изолированных слов. Проблема автоматического распознавания речи. Структурная схема устройства выделения признаков речевых сигналов. Моделирование работы блока выделения начала и окончания слова количества звуков на ЭВМ.

    дипломная работа [649,5 K], добавлен 13.11.2008

  • Теоретический анализ современных методик создания программных средств по распознаванию образов, их преимущества и недостатки. Описание предметной области, обоснование выбора технологии и разработка проекта программного средства по распознаванию образов.

    дипломная работа [2,3 M], добавлен 20.05.2013

  • История появления и развития единиц измерения. Метрические и неметрические единицы измерения, использование в мировой практике. Изучение среды программирования Borland Delphi. Разработка программы-переводчика единиц измерения веса и ее интерфейса.

    курсовая работа [635,7 K], добавлен 08.09.2021

  • Принцип работы нейросетей и модели синтеза. Ключевые моменты проблемы распознавания речи. Система распознавания речи как самообучающаяся система. Описание системы: ввод звука, наложение первичных признаков на вход нейросети, модель и обучение нейросети.

    курсовая работа [215,2 K], добавлен 19.10.2010

  • Основные единицы измерения времени, массы и объема. Исчисления между битами и байтами. Двоичные приставки в ОС Windows и у производителей ОЗУ. Расчет информационного размера изображения. Объём компьютерных информационных носителей, пример определения.

    презентация [638,9 K], добавлен 27.01.2014

  • Общие данные об основных операторах языка SQL. Интерактивный режим работы. Использование языка SQL для выбора информации из таблиц, для вставки, редактирования и удаления данных в них. Связь между операциями реляционной алгебры и операторами языка SQL.

    реферат [146,5 K], добавлен 06.02.2015

  • Описание сборочной единицы шарикоподшипника радиального однорядного. Расчет зубчатого колеса. Построение сборочного чертежа. Построение изображения деталей с помощью AutoLISP. Проектирование 3D-модели цилиндра с монтажными отверстиями в AutoCAD.

    курсовая работа [2,8 M], добавлен 27.03.2011

  • Сравнительный анализ топологий сети. Описательная сущность эталонной модели взаимосвязи открытых систем (OSI) и сетевых протоколов. Разработка структурно-функциональной схемы локальной сети, расчет производительности каналов и подбор оборудования.

    курсовая работа [1,1 M], добавлен 16.11.2010

  • Использование комплекта диакритических знаков и букв для набора текстов на европейских языках. Обозначение времени, знаков валют. Британские и американские особенности английского языка. Правила французской, испанской, итальянской и немецкой типографики.

    контрольная работа [216,2 K], добавлен 06.01.2015

  • Информатика - техническая наука, определяющая сферу деятельности, связанную с процессами хранения, преобразования и передачи информации с помощью компьютера. Формы представления информации, ее свойства. Кодирование информации, единицы ее измерения.

    презентация [117,7 K], добавлен 28.03.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.