Інформаційна технологія обробки мовних даних на основі нечітких когнітивних моделей

Підвищення точності автоматичного розпізнавання слів у мовному сигналі. Розроблення моделі інтерпретації спостережуваної послідовності акустичних ознак. Розроблення параметризації мовного сигналу та інформаційної технології обробки мовних даних.

Рубрика Программирование, компьютеры и кибернетика
Вид автореферат
Язык украинский
Дата добавления 13.08.2015
Размер файла 128,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

ДОНЕЦЬКИЙ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ

АВТОРЕФЕРАТ

ІНФОРМАЦІЙНА ТЕХНОЛОГІЯ ОБРОБКИ МОВНИХ ДАНИХ НА ОСНОВІ НЕЧІТКИХ КОГНІТИВНИХ МОДЕЛЕЙ

Дисертацією є рукопис.

Роботу виконано в Донецькому національному університеті Міністерства освіти і науки, молоді та спорту України.

Науковий керівник: доктор технічних наук, професор Каргін Анатолій Олексійович, завідувач кафедри комп'ютерних технологій Донецького національного університету Міністерства освіти і науки, молоді та спорту України, м. Донецьк.

Офіційні опоненти:

доктор технічних наук, професор Антощук Світлана Григорівна, завідувач кафедри інформаційних систем Одеського національного політехнічного університету Міністерства освіти і науки, молоді та спорту України, м. Одеса.

доктор технічних наук, професор Рубан Ігор Вікторович, начальник кафедри математичного та програмного забезпечення АСУ Харківського університету повітряних сил ім. І. Кожедуба Міністерства оборони України, м. Харків.

З дисертацією можна ознайомитися в бібліотеці Донецького національного університету за адресою: 83001, м. Донецьк, вул. Університетська, 24, головний корпус.

Автореферат розісланий «15» квітня 2011 р.

Вчений секретар спеціалізованої вченої ради К 11.051.08 кандидат технічних наук, доцент Д.В. Шевцов

Загальна характеристика роботи

Актуальність теми. Використання мовних технологій у прикладних програмах у якості альтернативного засобу взаємодії в системі «людина-комп`ютер» набуває все більших масштабів, а спектр застосування цих технологій на практиці поширюється. Мовний інтерфейс є необхідним у специфічних галузях комп`ютеризації, де голосові команди є найбільш прийнятним або навіть єдиним рішенням (телефонний доступ до автоматичних довідкових систем, керування віддаленим комп`ютером, робототехніка тощо). Багато які сучасні інформаційні технології базуються на мовних технологіях, наприклад: перетворення мови в текст і навпаки; читання книг за допомогою спеціальних програм; ідентифікація за зразком мови; пошук ключових слів і фраз у мовному потоці; інтерактивне навчання тощо.

Проблема машинного розпізнавання мови є актуальною протягом уже більш 60 років. За цей час було розроблено велику кількість підходів до побудови автоматичних систем розпізнавання мови (АСРМ), однак на сьогоднішній день створено відносно мало комерційних продуктів у даній сфері. Ринок програмних засобів розпізнавання російськомовних команд представлений одиничними розробками («Горыныч ПРОФ», «Диктограф», «PerpetuumM»). На практиці ці програми не відзначаються необхідною ефективністю. При заявлених показниках 95-99% фактично точність розпізнавання окремих команд цими системами не перевищує 80%. Недостатня ефективність сучасних АСРМ зумовлена проблемами, що пов`язані з варіабельністю мови і спотворенням мови фоновим шумом, приладами звукозапису, явищем коартикуляції (накладення сусідніх звуків у суцільному мовленні), а також залежністю мовних характеристик від голосу та інтонації. Проблемі підвищення якості розпізнавання мовних команд присвячені роботи М.Ф.Бондаренка, Т.К.Вінцюка, Д.Клатта, Л.Рабінера, Г.Фанта, Дж.Фланагана, Л.А.Чистович, В.Ю.Шелепова й багатьох інших учених, а розробки ведуть найбільші комп`ютерні організації, в тому числі Intel, Google, Phillips, IBM.

Головна проблема статистичних моделей розпізнавання мови, що традиційно застосовуються, полягає в тому, що вони розглядають мовний сигнал як стаціонарний випадковий процес, не враховуючи специфіки мовної інформації. З іншого боку, застосування ефективних технологій штучного інтелекту (нейронні сітки, нечіткі та когнітивні моделі) дозволяє відбивати особливості сприйняття мовних сигналів людиною і зменшити вплив проблем, що пов`язані з варіаціями голосів дикторів, інтонації, контексту. Таким чином, наукова проблема автоматичного розпізнавання мови є актуальною.

Зв'язок роботи з науковими програмами, планами, темами. Тема дисертаційної роботи та отримані результати відповідають проблематиці держбюджетних і госпдоговірних тем, які виконуються у Донецькому національному університеті. Дисертаційну роботу виконано згідно з планом держбюджетних науково-дослідницьких робіт №0104U002161 «Інтелектуальні машини, основані на інтегрованих знаннях» та №0110U003469 «Модель когнітивного рівня ієрархічної системи обробки інформації головним мозком: підхід обчислювального інтелекту». Автор є одним з виконавців робіт за цими темами.

Мета і задачі дослідження. Метою дисертаційної роботи є підвищення точності автоматичного розпізнавання слів у мовному сигналі. Для досягнення мети в роботі поставлено наступні задачі:

дослідити стан питання в області фонології й автоматичного розпізнавання мови;

обрати структурну одиницю мовного сигнала й розробити модель її представлення;

розробити модель інтерпретації спостережуваної послідовності акустичних ознак і параметрів мовного сигнала;

розробити й реалізувати методи параметризації та сегментації мовного сигнала;

розробити інформаційну технологію обробки мовних даних і програмний комплекс автоматичного розпізнавання слів російської мови;

експериментально дослідити розроблені моделі й методи на прикладі декількох словників і дикторів.

Об`єктом дослідження є мовні сигнали.

Предметом дослідження є моделі параметризації та постобробки мовних сигналів, а також методи перетворення мови в текст на основі даних моделей.

Методи дослідження. Для вирішення поставлених задач використано наступні методи: цифрової обробки сигналів, аналізу головних компонент, теорії нечітких множин, експертних оцінок, моделювання й об`єктно-орієнтованого програмування.

Наукова новизна результатів дисертаційної роботи. Вирішення поставлених задач дозволило отримати автору наступні результати:

1) вперше розроблено нечітку когнітивну модель постобробки мовного сигнала FCAS, основними особливостями якої є: трирівнева структура обробки мови («ознака - фонемний образ - слово»); зважування мовних сегментів на основі просодичних характеристик і врахування ваг в алгоритмах роботи моделі. Це дозволяє враховувати особливості сприйняття мови людиною і зменшити вплив ділянок мови, які важко відрізнити, на етапі постобробки сигнала;

2) вдосконалено метод “STM” автоматичної сегментації мовних сигналів, що базується на швидкості зміни спектра, за рахунок уведення ступеню кепстральної гладкості сигнала;

3) отримав подальший розвиток метод аналізу мовних сигналів на основі відрізняльних ознак, за рахунок уведення нечіткої моделі фонологічної класифікації звуків мови замість бінарної, що дозволяє усунути проблему категоричності при співведнесенні звуків мови до ознакових класів.

Практичне значення результатів дисертаційної роботи:

1) застосування запропонованого методу автоматичної сегментації, що грунтується на величині кепстральної гладкості, дозволило підвищити точність сегментації в порівнянні з існуючими методами на 8 %;

2) застосування запропонованої в роботі методики зважування різних сегментів мовного сигнала, в залежності від їхніх просодичних властивостей, дозволило підвищити точність розпізнавання слів із двох словників на 12 % в порівнянні з існуючими системами розпізнавання російськомовних команд.

Розроблений програмний комплекс «CogniSPEECH», що дозволяє досліджувати моделі обробки мовних даних і вирішувати задачі розпізнавання й пошуку слів у мовному сигналі, впроваджено в НДР у ДонНУ. Модуль пошуку ключових слів у мовних файлах системи «CogniSPEECH» було використано для їхнього автоматичного пошуку при веденні переговорів черговим по станції і станційними диспетчерами з метою визначення інформаційного завантаження оперативно-диспетчерського персоналу при виконанні НДР: «Проведення обстеження та розроблення вимог до ергономічності робочих місць та виробничого середовища працівників оперативно-диспетчерського персоналу та станційного персоналу, розробка методик по визначенню інтенсивності завантаження оперативних працівників господарства перевезень» №141/08-ЦТех-0544/08-ЦЮ від 30.07.2008р. між НВП «Системы транспортной автоматики» і Укрзалізницею.

Особистий внесок здобувача. Всі основні результати, що виносяться на захист, отримані автором самостійно. У роботах, які виконано у співавторстві та опубліковано у спеціалізованих виданнях переліку ВАК України, автору належать: [2] - розробка методу автоматичної сегментації мовних сигналів «STM+CSM» і експерименту для дослідження його ефективності; [4] - розробка нечіткої моделі фонологічної класифікації звуків мови.

Апробація результатів дисертації. Основні положення та результати дисертаційної роботи доповідалися й обговорювалися на: міжнародній науковій конференції «Інтелектуальні системи прийняття рішень та проблеми обчислювального інтелекту», ISDMCI'2008, (Євпаторія, 2008); 8-й міжнародній конференції «Інтелектуальний аналіз інформації ІАІ-2008», (Київ, 2008); науковій конференції Донецького національного університету за підсумками науково-дослідницьких робіт (Донецьк, 2009); 9-й міжнародній науково-практичній конференції «Сучасні інформаційні та електронні технології СІЕТ-2009» (Одеса, 2009); 9-й міжнародній конференції «Інтелектуальний аналіз інформації ІАІ-2009», (Київ, 2009); 10-й міжнародній конференції «Інтелектуальний аналіз інформації ІАІ-2010», (Київ, 2010).

Публікації. За темою дисертаційної роботи опубліковано 10 науково-технічних публікацій, з них: 4 статті у виданнях, включених у перелік видань ВАК України, в яких можуть публікуватися результати дисертаційних робіт на здобуття наукового ступеня доктора і кандидата технічних наук; 6 публікацій у збірниках праць і тез міжнародних і регіональних науково-технічних конференцій, семінарів, форумів.

Структура та обсяг дисертаційної роботи. Дисертація складається із вступу, чотирьох розділів, висновків, списку використаних літературних джерел з 133 найменувань на 13 сторінках, 1 додатку на 3 сторінках. Робота містить 53 рисунки, 19 таблиць. Загальний обсяг роботи складає 155 сторінок, з них 139 - основного тексту.

Основний зміст роботи

У вступі розглянуто стан досліджень у галузі машинного розпізнавання мови, сформульовано мету та задачі дисертаційної роботи, зазначено її актуальність, а також охарактеризовано особистий внесок здобувача, практичне значення й наукову новизну отриманих результатів.

У першому розділі приведено аналіз стану питання побудови АСРМ. Область застосування АСРМ у сучасних інформаційних технологіях є достатньо широкою й охоплює обробку команд користувача при керуванні комп`ютерами (системи «Горыныч» від компанії «М.С.Технолоджи», Dragon NaturallySpeaking від компанії Nuance), мобільними телефонами (система smARTspeak NG від компанії ART), роботами (інтегральна схема Voice Direct 364 від компанії Sensory, Inc.); автоматичний переклад слів (система Verbmobil інституту DFKI); диктування медицинських звітів (система VoxReports від компанії ProVox Techologies) та багато іншого. Розробки в галузі розпізнавання мови включають як кінцеві додатки й набори бібліотек, так і програмні ядра й конкретні прилади, що здійснюють розпізнавання на апаратному рівні. Аналіз показав, що для російської мови задача є особливо важливою, у зв`язку з відсутністю якісних систем. У дисертаційній роботі увагу сфокусовано на розпізнаванні російської мови для автоматичної обробки команд користувача для керування роботом і набору телефонних номерів, а також пошуку ключових слів у мовних файлах чергового по станції.

Сучасні АСРМ розрізняються, в залежності від вимог області застосування. АСРМ класифікуються за такими критеріями, як: розмір словника, дикторозалежність, тип мови (суцільна або роздільна), призначення (обробка команд або система диктування), механізм функціонування. В дисертаційній роботі досліджуються дикторозалежні (для декількох голосів у певному діапазоні) командні системи з невеликими словниками.

Архітектура сучасних АСРМ містить два основні модулі - модуль передобробки (параметризації) сигнала (front-end) і модуль постобробки сигнала (back-end). Модуль передобробки здійснює захоплення мовного сигнала (МС) і його цифрову обробку. Виходом є послідовність векторів ознак (ВО) мовного сигнала. ВО становить собою певний компактний опис сигнала, що дозволяє при цьому максимізувати показники ефективності розпізнавання. Модуль постобробки сигнала здійснює розпізнавання послідовності слів у МС на основі закону умовних ймовірностей Байєса.

Задача параметризації МС досі не вирішена повною мірою: не знайдено адекватної моделі представлення ВО, яка б дозволяла з високою точністю розпізнавати мову. До основних методів параметризації відносять: кепстральний аналіз, лінійне передбачення, вейвлетне перетворення, аналіз спектра модуляції. Всі перелічені методи дозволяють ефективно скоротити кількість даних, що необхідні для опису МС. Однак їхнім спільним головним недоліком є ігнорування специфічної для МС інформації. В дисертації запропоновано метод параметризації, що дозволяє обчислювати, крім указаних характеристик, важливі з точки зору сприйняття мови людиною просодичні параметри.

Моделі постобробки МС можна розділити на два типи: статистичні й сіткові. В сучасних АСРМ застосовуються статистичні моделі: Приховані Марківські моделі (ПММ), нейронні сітки та їхні комбінації. Ці системи спочатку навчаються на багатогодинних колекціях мовних даних (процес навчання полягає в настроюванні параметрів статистичних моделей). Потім, на етапі розпізнавання, системи роблять зіставлення вхідних образів із раніше введеними по навченим моделям. Сіткові моделі (моделі LAFS, TRACE, логогенна модель) імітують гіпотетичні структури, які відповідають за сприйняття мови людиною. Обидва підходи до постобробки мають недоліки. Статистичні моделі мають потужний математичний апарат і добре пропрацьовані на практиці, але не враховують специфіку МС. Сіткові моделі спираються на особливості сприйняття мови людиною, але є занадто абстрактними. В дисертації розроблено нечітку сіткову модель постобробки МС, яка інтегрована з моделями параметризації та сегментації МС і містить статистичну компоненту.

У другому розділі наведено моделі передобробки МС. У дисертаційній роботі пропонується схема передобробки, яка включає наступні етапи:

формування послідовності ВО МС;

автоматична сегментація сигнала;

розрахунок просодичних характеристик мовних сегментів (енергія, тривалість, частота основного тону та її зміна);

постобробка ВО на основі аналізу головних компонент.

На першому кроці здійснюється розрахунок коефіцієнтів ВО ділянки МС. МС квантується в часі на перекривні короткі проміжки (вікна аналізу) тривалістю 32 мс з перекриттям 8 мс, у яких здійснюється «миттєвий» кепстральний аналіз. На цих ділянках МС можна вважати квазістаціонарним. Розмір вікна аналізу підібрано експериментально. Обрана тривалість вікна дозволяє, з одного боку, забезпечити достатнє розрізнення за частотою Фур`є-аналізу сигнала (31,25 Гц при частоті дискретизації, що дорівнює 16кГц), а з іншого боку, не перевантажувати систему обчисленнями.

До відліків МС у вікні аналізу застосовується віконна функція Хемінга, після чого у вікні обчислюються мел-частотні кепстральні коефіцієнти за допомогою ефективного методу параметризації MFCC.

У модель ВО включаються як кепстральні, так і амплітудно-часові характеристики МС:

, (1)

де f - номер вікна аналізу; E(f) - енергія МС у вікні f; ZCR(f) - частота переходів рівня сигнала через нуль у вікні f; ci(f) - i-ий MFCC-коефіцієнт у вікні f; ?cj(f) - перша похідна j-ого MFCC-коефіцієнта у вікні f.

На наступному кроці передобробки МС здійснюється його автоматична сегментація. В якості структурної одиниці МС обрано звуковий образ (ЗО) фонеми як реальну ділянку МС, що характеризується: відносно постійними спектрально-часовими показниками, певним ВО і набором фонологічних властивостей (дзвінкість, компактність тощо).

Експериментально встановлено, що на межах ЗО графік MFCC-кепстра в багатьох випадках стає «гладким». У зв`язку з цим, у дисертаційній роботі введено ступінь кепстральної гладкості:

(2)

де f - номер вікна аналізу; ci(f) - i-ий коефіцієнт MFCC-кепстра МС у вікні f; cmax(f) - значення максимального MFCC-коефіцієнта у вікні f; cmin(f) - значення мінімального MFCC-коефіцієнта у вікні f; D=16 - розмірність кепстра.

На основі ступеня гладкості кепстра запропоновано новий метод сегментації МС «STM+CSM», що містить наступні кроки:

Обчислюється рівень шуму (NoiseLevel) на основі середнього (Mean_En) і дисперсії (Std_En) енергії всього сигнала за формулою:

(3)

Перехід до чергового вікна в послідовності вікон аналізу МС, які було виділено на першому етапі передобробки МС. Енергія сигнала в поточному вікні порівнюється з рівнем шуму. Якщо вона не перевищує рівень шуму, то здійснюється перехід до наступного вікна аналізу, а поточне вікно помічається як «пауза».

У поточному вікні розраховується величина спектрального переходу:

, (4)

, (5)

де ai(f) - швидкість зміни i-го коефіцієнта MFCC-кепстра у вікні f; I=2 - кількість сусідніх вікон аналізу, зліва і справа від поточного.

У поточному вікні розраховується ступінь кепстральної гладкості (2). Кроки 2-4 повторюються, доки не оброблено останнє вікно аналізу МС.

Виділяються локальні піки кривої STM, яку було побудовано на кроках 2-4. Ці піки відповідають межам ЗО.

Знаходяться всі вікна f, в яких вираз (CSM(f) - Delta) змінює знак (у яких кепстр або стає, або перестає бути гладким). Знайдені точки також вважаються такими, що відповідають межам ЗО. Значення порогу Delta дорівнює 0.75 і підібране експериментально.

Результати тестування різних методів сегментації на виборці з 50 файлів 3 дикторів мовної бази VoxForge наведено в таблиці 1.

Таблиця 1 Показники точності методів автоматичної сегментації МС

Метод

Виявлені межі (%)

Пропущені межі (%)

Помилково виявлені межі (%)

V/C/P

70.41

29.59

16.76

STM

82.92

17.08

20.19

STM+CSM

90.87

9.13

22.25

На наступному кроці передобробки МС розраховуються просодичні характеристики сегментів, на основі яких здійснюється присвоювання відносних ваг сегментам МС і визначення ступеня вокалізованості сегментів. Ступінь вокалізованості сегмента обчислюється за формулою:

,, (6)

де f(н) - значення амплітуди сигнала у спектрі на частоті н; - частота основного тону (ЧОТ); - частота, що зсунута відносно ЧОТ на половину (у спектрі вокалізованих звуків на цій та кратній їй частотах спостерігаються провали); BN - кількість гармонік основного тону, що знаходяться в діапазоні частот спектра; w(н) - вагова функція.

Ділянки МС, що сприймаються людиною як наголос, характеризуються підвищенням ЧОТ, більшою тривалістю й більшою енергією. Відносна енергія сегмента є відношенням енергії сегмента до максимальної енергії МС в інтервалі між паузами: . Відносна тривалість сегмента виражається аналогічно: . Для розрахунку показника зміни ЧОТ ДF0 у сегменті спочатку обчислюється сумарне змінення гармонік основного тону:

, (7)

де и - k-і гармоніки основного тону на початку і в кінці сегмента відповідно. Потім ДF0 розраховується наступним чином:

, (8)

Вага мовного сегмента обчислюється за формулою:

, (9)

де АМ - ступінь наголошеності сегмента, яка розраховується за формулою:

, (10)

де kL - коефіцієнт, що характеризує вплив тривалості сегмента на його наголошеність; kE - коефіцієнт впливу енергії на наголошеність; kF - коефіцієнт впливу зміни ЧОТ на наголошеність. За результатами експериментів було встановлено наступні значення коефіцієнтів: kL=0.2, kE=kF=0.4. У таблиці 2 наведено результати автоматичного зважування сегментів різних типів: середні значення ступеня наголошеності (АМ), вокалізованості (VM) і ваги (w).

Таблиця 2 Результати експериментів по зважуванню мовних сегментів

Звуки мови

AM

VM

w

Невокалізовані

0.18

0.11

0.89

Вокалізовані наголошені

0.85

0,91

0.85

Вокалізовані ненаголошені голосні

0.41

0.81

0.41

Вокалізовані приголосні

0.32

0.44

0.56

На заключному етапі передобробки МС здійснюється скорочення розмірності ВО (1) на основі перетворення Карунена-Лоева (KLT). У якості статистичних даних виступає масив 34-вимірних векторів (1) х(1),х(2), …, х(N), що представляють конкретний фонемний ЗО. ВО фонемного ЗО є усередненим ВО сигнала у вікнах аналізу, що охоплюють сегмент даного ЗО. Кореляційна матриця 34х34 векторів ЗО має вигляд:

, , (11)

Модель ЗО фонеми названо MFCC-KLT. Вона становить собою ВО ЗО в новому просторі:

, (12)

де ai - проекції вектора х образу на осі власних векторів qi матриці (11), які були отримані в результаті KLT; D=18 - нова розмірність ВО, встановлена на основі попередніх експериментів із зібраною фонемною статистикою. При менших значеннях D якість розпізнавання знижувалася.

У третьому розділі розглядається нечітка когнітивна модель FCAS постобробки МС, що запропонована в дисертаційній роботі. Модель FCAS включає модель обчислення ваг мовних сегментів (9), ознакову й фонемну моделі, ядро FCAS (сітку FCAS).

По ознаковій моделі FCAS на основі результатів спектрального аналізу МС обчислюються ступені належності поточного звуку мови ознаковим класам. У дисертаційній роботі на основі бінарної схеми Вайрена-Штубса ознакової класифікації розроблено модель нечіткої класифікації звуків мови. Дана модель базується на числових величинах, що характеризують акустичні властивості вираженості фонологічних ознак, які потім фазифікуються для кожного ознакового класу. В дисертації розроблено формули для обчислення акустичних величин для всіх ознакових класів («Дзвінкий», «Нешумовий», «Голосний», «Високий», «Дифузний» тощо). Запропоновані величини базуються, в основному, на співвідношенні амплітуд МС у різних областях спектра. Наприклад, ступінь дифузності (DM), ступінь висотності (ACM) і ступінь назальності (NSM) мають спільний вигляд:

, (13)

де FNL, FNH, FDL, FDH - межі частотних діапазонів спектра, що аналізуються, якими відрізняються дані величини. На основі ступенів DM, ACM і NSM введено нечіткі множини «Дифузний» , «Високий» і «Носовий» , відповідно. Кожне з них є визначеним на універсумі X = [0;+?) значень величин DM, ACM, NSM і має S-образну функцію належності. Вид та параметри функції належності підібрано експериментально.

По фонемній моделі FCAS обчислюються ступені відповідності поточного звуку мови конкретному фонемному ЗО на основі порівняння його з прототипом, яке здійснюється в термінах моделі MFCC-KLT (12). Прототип формується по моделі центральної тенденції. Відстань поточного фонемного образу до прототипу обчислюється за формулою зваженої євклідової відстані:

, (14)

де ci - i-ий коефіцієнт вектора MFCC-KLT поточного фонемного образу; - i-ий коефіцієнт вектора MFCC-KLT прототипу. Ваговий коефіцієнт kM(i) обернено пропорційний дисперсії i-го коефіцієнта моделі даного ЗО. Ступінь відповідності звуку мови фонемному ЗО визначається як значення функції належності нечеткій множині «Відстань до прототипу фонемного образу» .

Ядро FCAS, або сітка FCAS (рис.1), - це сімка , де w - вага мовного сегмента; - ступінь відповідності мовного сегмента i-ому ознаковому класу (класи «дзвінкий», «голосний», «компактний» тощо); ND - кількість ознакових класів, що обробляється моделлю; - ступінь відповідності мовного сегмента звуковому образу j-ої фонеми (наприклад, образи фонем [a], [k], [o] тощо); NG - кількість фонемних образів, що обробляються моделлю; - набір елементарних фонетичних процесорів (ЕФП); N - кількість ЕФП у сітці; - зв`язок між i-м і j-м ЕФП; q - вихід сітки FCAS; t - момент часу, в який модель обробляє чергову порцію вхідної мовної інформації. Вихід q становить собою послідовність текстових символів .

Рис. 1. Ілюстрація фрагменту сітки FCAS

Модель FCAS є динамічною, тому що інформація про вагу і ступені відповідності звуку ознаковим і фонемним класам надходить порціями в дискретні моменти часу {t, t+ДT, ..., t+kДT,…}. Ці моменти часу синхронізовані з віконним аналізом МС (крок ДТ моделі FCAS дорівнює 8 мс).

Ядро FCAS містить ЕФП трьох рівней: ознакового, фонемного і словесного. I-ий ЕФП ознакового рівня - це шістка , де w - вага поточного мовного сегмента; - ступінь відповідності поточного сегмента ознаці ; - стан i-го ознакового ЕФП, або ступінь активації ознакового ЕФП (дійсне число з діапазону [0,1]); - вихід i-го ознакового ЕФП; - алгоритм, що обчислює значення виходу i-го ознакового ЕФП. Алгоритм включає 3 кроки:

1) накопичення стану ЕФП:

, (15)

де - це стан i-го ЕФП у момент часу t; операція - це операція накопичення ();

2) розрахунок виходу ЕФП:

; (16)

3) «забування» певної порції інформації:

,, (17)

де kD - коефіцієнт забування.

ЕФП фонемного рівня має подібну до ознакового ЕФП структуру й алгоритм обробки інформації. Однак крім вхідної інформації про ступінь відповідності звуку ЗО, він також обробляє вихідну інформацію ознакових ЕФП, що пов`язані з ним. Зв`язок характеризує активацію фонемного ЕФП Gj від ознакового ЕФП Di. Кожний зв`язок має свою вагу. Якщо j-ий фонемний образ не відзначається i-ою фонологічною ознакою, то uij=0. Значення ознакових входів j-го фонемного ЕФП розраховуються за формулою:

, (18)

де kACT - коефіцієнт, що характеризує ступінь впливу ознакового рівня загалом на прийняття фонетичного рішення. Фонемні ЕФП накопичують свій стан з урахуванням (18):

(19)

Модель FCAS враховує фонетичну статистику російської мови заданої предметної області: всі ЕФП перед обробкою чергового сегмента МС отримують додаткову активацію. Додаткова активація ознакових ЕФП пропорційна умовним ймовірностям появи конкретної ознаки Di після поточної ознаки Dcur: ; додаткова активація фонемних ЕФП пропорційна умовним ймовірностям появи конкретної фонеми Gi після поточної фонеми Gcur : .

ЕФП словесного рівня представляють конкретні слова в моделі FCAS. Дані ЕФП акумулюють вихідні значення ознакових і фонемних ЕФП, з якими вони пов`язані. Розпізнаним вважається слово, ЕФП якого має максимальне вихідне значення.

У четвертому розділі описано інструментальний комплекс CogniSPEECH (рис.2) для проектування й дослідження систем розпізнавання мовних команд на основі запропонованих у дисертаційній роботі моделей.

Комплекс CogniSPEECH містить: дослідницький модуль VisualSpeech.exe для аналізу й редагування МС з багатою функціональністю і зручним інтерфейсом; динамічно підмикану бібліотеку DSP.dll, що експортує процедури цифрової обробки МС; модуль Phonemes.exe обробки MFCC-KLT моделей ЗО фонем (12), що формуються дослідницьким модулем.

Рис. 2. Архітектура системи CogniSPEECH

Комплекс CogniSPEECH був використаний для експериментальної перевірки моделей, що були отримані в дисертаційній роботі. Дослідження проводилися у трьох напрямах: розпізнавання числових команд (предметна область -- телефонія); розпізнавання команд голосового керування роботом (предметна область - робототехніка); пошук слів у мовних файлах (предметна область - черговий по станції).

Інформаційна технологія обробки мовних даних ґрунтується на моделях і методах, що запропоновані в дисертаційній роботі й реалізовані у програмному комплексі CogniSPEECH. Створення систем розпізнавання мовних команд за допомогою комплексу CogniSPEECH включає наступні етапи:

ініціалізація зв`язків сітки FCAS. Програмний код комплексу CogniSPEECH містить вихідні структури для представлення 22 ознакових і 26 фонемних ЕФП, а також масив зв`язків між ними. Експерт ініціалізує цей масив конкретними значеннями ваг;

редагування словника предметної області в текстовому файлі й завантаження файла в систему. CogniSPEECH автоматично розраховує умовні ймовірності ознак і фонем для словників, що завантажуються;

програмування словесних ЕФП. Для кожного слова експерт додатково створює структури для відповідних словесних ЕФП. Масив зв`язків між ознаковими, фонемними і словесними ЕФП також ініціалізується експертом;

настроювання параметрів моделі.

Метою першого експерименту - розпізнавання команд набору телефонних номерів - було порівнювання ефективності системи CogniSPEECH із сучасними аналогами й дослідження впливу параметрів моделі FCAS на точність розпізнавання. Для порівняння були обрані дві системи, що працюють у командному режимі: «Горыныч ПРОФ 5.0» і «PerpetuumM v3.01». В експериментах брали участь 4 диктори - 2 диктори з голосами з діапазону «Low [80-150Hz]» і 2 диктори з голосами з діапазону «Medium [151-250Hz]». Словник предметної області складався з наступних слів: «Ноль», «Один», «Два», «Три», «Четыре», «Пять», «Шесть», «Семь», «Восемь», «Девять», «Вызов», «Да», «Нет». Для оцінювання якості розпізнавання команд системами фіксувалися показники: D - кількість видалень слів (кількість випадків, коли система не видала слово на виході); S - кількість замін слів (невірно розпізнаних слів); WER - відсоток помилок розпізнавання слова. Результати тестування наведено в таблиці 3.

Таблиця 3 Порівняння точності розпізнавання команд телефонного набору

Програма

Диктор1,2

Диктор3,4

D

S

WER

D

S

WER

CogniSPEECH

4

47

5

3

50

5

Горыныч ПРОФ 5.0

0

186

18

0

208

20

PerpetuumM 3.01

38

106

14

52

114

16

Аналогічний експеримент було проведено на словнику предметної області мовного керування роботом (команди «Наверх», «Вниз», «Влево», «Вправо», «Ищи», «Стоп», «Ожидай», «Развернись»). Результати наведено в таблиці 4. розпізнавання мовний сигнал

Таблиця 4 Порівняння точності розпізнавання команд керування роботом

Програма

Диктор1,2

Диктор3,4

D

S

WER

D

S

WER

CogniSPEECH

2

18

4

4

24

6

Горыныч ПРОФ 5.0

0

91

19

0

106

22

PerpetuumM 3.01

14

92

22

16

81

20

У дисертаційній роботі наведено структуру ядра FCAS, таблиці ваг зв`язків між ЕФП, таблиці умовних ймовірностей ознак і фонем для предметних областей телефонного набору й робота, а також значення параметрів моделі FCAS, за яких були отримані найвищі показники ефективності розпізнавання, що наведені в таблиці 3 і таблиці 4.

Метою третього експерименту було дослідження якості пошуку ключових слів у мовних файлах системою CogniSPEECH. В експерименті були використані 100 файлів із записаними реченнями чергових по станції. В якості ключових при пошуку використовувалися наступні слова предметної області чергового по станції: «Разрешаю», «Машинисту», «Состав», «Станции», «Движение», «Локомотив», «Вагонники», «Поезд», «Направление», «Перегон», «Светофор», «Хвостовые». У режимі пошуку система CogniSPEECH працює наступним чином. В ядрі FCAS створюється словесний ЕФП, що відповідає шуканому слову. У МС знаходиться черговий момент паузи або момент пониження ЧОТ. Даний момент помічається як початок нового слова й початок нових обчислень у ядрі FCAS. Вихідне значення ЕФП словесного рівня трактується як ступінь схожості поточної ділянки МС із шуканим словом. Особливістю алгоритму є, зокрема, те, що він дозволяє шукати в одному файлі одночасно декілька слів - у цьому випадку кожному слову відповідає власний ЕФП з унікальним вихідним значенням. Якщо вихідне значення (ступінь схожості) перевищує певний поріг, то відповідний момент часу помічається як позиція входження шуканого слова. В таблиці 5 наведено показники ефективності пошуку слів у мовних файлах системою CogniSPEECH при різних порогових значеннях схожості слів.

Таблиця 5 Показники ефективності пошуку слів системою CogniSPEECH

Поріг

Вірно розпізнані, %

Помилки 1 роду, %

Помилки 2 роду, %

> 0.9

59

38

3

> 0.8

73

22

5

> 0.7

81

7

12

> 0.6

76

4

20

Як можна бачити з таблиці 5, зі зменшенням порогового значення схожості слів, зменшується кількість помилок першого роду і зростає кількість помилок другого роду. Специфіка задачі є такою, що помилки першого роду менш бажані, ніж помилки другого роду, тому можна скористатися, наприклад, значенням 0.7 схожості слів у якості порогового. Далі користувач може вручну перевірити, які із знайдених слів дійсно збігаються з шуканим (при цьому, коло пошуку й перевірки значно звужується). В дисертаційній роботі наведено структуру ядра FCAS і значення параметрів моделі FCAS, за яких були отримані найвищі показники ефективності пошуку слів, що наведені в таблиці 5.

Висновки

У дисертації запропоновано нове рішення актуальної науково-технічної проблеми автоматичного розпізнавання слів у мовних сигналах. Основні результати роботи сформульовано наступним чином.

Досліджено стан питання, архітектуру й основні проблеми сучасних АСРМ. Виявлено, що Приховані Марківські моделі та їхні комбінації з нейронними сітками, які традиційно застосовуються на етапі постобробки МС, не враховують особливостей сприйняття мови людиною. З іншого боку, в сіткових моделях (LAFS, TRACE, логогенна модель) було зроблено спробу врахування специфіки МС, однак, у зв`язку з недостатньою формалізацією й відсутністю інтеграції з методами передобробки мови, дані моделі не знайшли практичного застосування.

Розроблено нову схему обробки МС для розпізнавання слів. В основі даної схеми лежить не статистичне моделювання спектральних образів, яке є стандартом сучасних АСРМ, а багаторівневе врахування всієї акустичної інформації про сигнал. ВО формується на основі енергії, частоти переходів через нуль і коефіцієнтів MFCC вікна сигнала. На основі просодичних параметрів сигнала здійснюється зважування мовних сегментів з метою «підкреслення» тих фрагментів, які акцентовано сприймаються людиною.

Запропоновано в методі «STM+CSM» автоматичної сегментації МС враховувати, поряд із швидкістю зміни MFCC-кепстра, ступінь кепстральної гладкості ділянки сигнала. Експерименти показали перевагу нового методу, що виражається у збільшенні кількості вірно виявлених меж сегментів фонемних ЗО при незначному зростанні кількості помилково виявлених меж.

Розроблено модель ЗО фонеми, яка будується на основі проекцій ВО поточного образу на простір ознак, який отримано за допомогою перетворення Карунена-Лоева. Дана модель дозволяє скоротити розмірність ВО без погіршення їхніх дискримінантних властивостей.

Розроблено модель нечіткої класифікації звуків російської мови за відрізняльними ознаками. За основу взято схему бінарної селекції Вайрена і Штубса, що включає такі відрізняльні ознаки, як «Дзвінкий», «Голосний», «Високий», «Компактний» та ін. Розроблено формули для розрахунку акустичних характеристик ознакових класів для подальшої фазифікації. Завдяки введенню нечіткості, було усунуто проблему категоричності при прийнятті рішення щодо співвіднесення звуку мови до ознакового класу.

Розроблено нову когнітивну модель FCAS постобробки МС. Центральною компонентою моделі є ядро FCAS, що являє собою сітку ЕФП, які з`єднані активаційними зв`язками. Вузли ознакового рівня обробляють нечітку інформацію про належність поточного мовного сегмента ознаковому класу. Вузли фонемного рівня обробляють нечітку інформацію про схожість поточного мовного сегмента з ЗО конкретної фонеми. Вузли словесного рівня акумулюють вихідну інформацію вузлів ознакового й фонемного рівня. МС обробляється за допомогою FCAS у часі. В кожний момент часу відбувається накопичення стану ЕФП. У моменти прийняття фонемних рішень формуються вихідні значення ЕФП, на основі яких до вихідної текстової послідовності додається розпізнане слово.

Проведено тестування отриманих моделей і методів за допомогою розробленого програмного комплексу CogniSPEECH. Комплекс, програмно реалізований за допомогою технологій C++.NET, UML і XML, містить дослідницький і допоміжний модулі, бібліотеку функцій цифрової обробки МС, а також користувальну програму для розпізнавання й пошуку слів. На прикладі словників телефонії й робота отримано підвищення точності розпізнавання окремих слів (95-97%) для чотирьох дикторів, а також підвищення стійкості системи до змін темпу вимови слів.

Розроблено інформаційну технологію обробки мовних даних, що ґрунтується на моделях і методах, запропонованих у дисертаційній роботі й реалізованих у інструментальному комплексі CogniSPEECH. Створення систем розпізнавання мовних команд і пошуку слів у мовних файлах включає наступні етапи: ініціалізація зв`язків сітки FCAS, редагування словника предметної області в текстовому файлі, програмування словесних ЕФП, настроювання параметрів моделі FCAS. Модулі VisualSpeech і Phonemes програмного комплексу CogniSPEECH дозволяють також поповнювати статистичну базу фонемних образів, що використовується системою.

Список опублікованих праць за темою дисертації

1. Шарий Т.В. О проблеме параметризации речевого сигнала в современных системах распознавания речи [Текст] / Т.В.Шарий // Вісник Донецького національного університету. Серія А. Природничі науки. - Вип.2(2). - 2008. - С.536-541.

2. Каргин А.А. Об особенностях MFCC-кепстра на границах фонем в речевых сигналах [Текст] / А.А.Каргин, Т.В.Шарий // Вісник ХНТУ, Херсон. - 2009. - №1(34). - С.207-211.

3. Шарий Т.В. Об одном методе автоматической сегментации речевых сигналов [Текст] / Т.В.Шарий // Бионика интеллекта: науч.-техн. журнал. - 2009. - №2(71). - C.61-65.

4. Каргин А.А. Применение нечеткой логики в системах фонологической классификации звуков речи [Текст] / А.А.Каргин, Т.В.Шарий // Искусственный интеллект: науч.-техн. журнал. - 2010. - №3. - C.210-219.

5. Каргин А.А. Разработка инструментальной среды интеллектуального анализа аудиальных данных [Текст] / А.А.Каргин, Т.В.Шарий // Сборник трудов VIII международной конференции «Интеллектуальный анализ информации ИАИ-2008», Киев. - 2008. - с.558-564.

6. Каргин А.А. О выборе характеристик речевого сигнала для построения его нечеткой модели [Текст] / А.А.Каргин, Т.В.Шарий // Сборник тезисов конференции «Интеллектуальные системы принятия решений и проблемы вычислительного интеллекта», Евпатория. - 2008. - Т.3, ч.2. - C.131-134.

7. Шарий Т.В. Об особенностях MFCC-векторов на границах фонем в непрерывной речи [Текст] / Т.В.Шарий // Сборников тезисов конференции ДонНУ. - 2009. - С.157.

8. Каргин А.А. Повышение качества сегментации речевых сигналов с учетом меры гладкости кепстра [Текст] / А.А.Каргин, Т.В.Шарий // Сборник трудов IX международной конференции «Интеллектуальный анализ информации ИАИ-2009», Киев. - 2009. - C.150-154.

9. Каргин А.А. Динамический MFCC-вектор речевого сигнала на основе преобразования Карунена-Лоева [Текст] / А.А.Каргин, Т.В.Шарий // Сборник тезисов IX международной научно-практической конференции «Современные информационные и электронные технологии», Одесса. - 2009. - C.38.

10. Каргин А.А. Анализ речевых сигналов с учетом просодических характеристик [Текст] / А.А.Каргин, Т.В.Шарий // Сборник трудов X международной конференции «Интеллектуальный анализ информации ИАИ-2010», Киев. - 2010. - C.339-344.

Анотація

Шарій Т.В. Інформаційна технологія обробки мовних даних на основі нечітких когнітивних моделей. - Рукопис.

Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.06 - «Інформаційні технології». - Донецький національний університет, Донецьк, 2011.

Дисертаційна робота присвячена вирішенню актуальної наукової задачі підвищення якості автоматичного розпізнавання слів у мовному сигналі. У роботі проаналізовано стан проблеми побудови автоматичних систем розпізнавання мови. У зв`язку з недостатньою ефективністю статистичного підходу, запропоновано альтернативну схему обробки мовних сигналів, що базується на багаторівневому врахуванні всієї акустичної інформації про сигнал. Розроблено й експериментально обґрунтовано метод автоматичної сегментації мовного сигнала, що враховує, поряд зі швидкістю зміни MFCC-кепстра, ступінь кепстральної гладкості ділянки сигнала. Запропоновано підхід до зважування мовних сегментів на основі просодичних параметрів сигнала й урахування ваг на етапі постобробки. Запропоновано модель звукового образу фонеми на основі перетворення Карунена-Лоева. Розроблено нечітку когнітивну модель FCAS постобробки мовних сигналів, що містить сітку елементарних фонетичних процесорів ознакового, фонемного та словесного рівней. На основі вихідних значень процесорів приймається рішення щодо розпізнаного слова. Експериментально встановлено, що запропоновані моделі й методи дозволяють зменшити кількість помилок розпізнавання слів. Розроблено інформаційну технологію та програмний комплекс CogniSPEECH розпізнавання мовних команд і пошуку ключових слів у файлах. Досліджено характеристики системи, показано можливість її застосування у програмах голосового набору телефонних номерів, мовного керування роботом і пошуку слів у мовних файлах.

Аннотация

Шарий Т.В. Информационная технология обработки речевых данных на основе нечетких когнитивных моделей. - Рукопись.

Диссертация на соискание ученой степени кандидата технических наук по специальности 05.13.06 - «Информационные технологии». - Донецкий национальный университет, Донецк, 2011.

Диссертационная работа посвящена решению актуальной научной задачи повышения качества автоматического распознавания слов в речевом сигнале. В работе проанализировано состояние проблемы построения автоматических систем распознавания речи. В связи с недостаточной эффективностью статистического подхода, предложена альтернативная схема обработки речевых сигналов, в основе которой лежит многоуровневый учет всей акустической информации о сигнале. Разработан и экспериментально обоснован метод автоматической сегментации речевого сигнала, учитывающий, наряду со скоростью изменения MFCC-кепстра, степень кепстральной гладкости участка сигнала. Предложен подход ко взвешиванию речевых сегментов на основе просодических параметров сигнала и учету весов на этапе постобработки. Предложена модель звукового образа фонемы на основе преобразования Карунена-Лоева. Разработана нечеткая когнитивная модель FCAS постобработки речевых сигналов, включающая сеть элементарных фонетических процессоров признакового, фонемного и словесного уровней. На основе выходных значений процессоров принимается решение о распознанном слове. Экспериментально установлено, что предложенные модели и методы позволяют сократить количество ошибок распознавания слов. Разработана информационная технология и программный комплекс CogniSPEECH распознавания речевых команд и поиска ключевых слов в файлах. Исследованы характеристики системы, показана возможность ее использования в программах голосового набора телефонных номеров и речевого управления роботом.

Abstract

Shariy V. Timofey. The Information Technology of Speech Data Processing Based on the Fuzzy Cognitive Models. - Manuscript.

Thesis for a scientific degree of the candidate of technical science on speciality 05.13.06 - "Information technologies". - Donetsk national university, Donetsk, 2011.

The thesis is devoted to the actual scientific task of accuracy improvement for the automatic word recognition in speech signals. The current problems in the design of automatic speech recognition systems are analyzed. The alternative speech processing scheme that considers multilevel acoustic information is proposed. A new method of automatic speech signal segmentation that takes into account the cepstral smoothness measure along with the spectral transition measure is developed and experimentally grounded. The approach of weighting the speech segments on basis of signal prosodic parameters and taking the weights into account at the post-processing stage is proposed. The sound image model of a phoneme on basis of Karhunen-Loeve transformation is proposed. The FCAS fuzzy cognitive model of speech signal post-processing is developed. The model includes the network of feature-level, phoneme-level and word-level elementary phonetic processors. The correct word is recognized according to the output values of the processors. It is established that the proposed models and methods allow reducing the word error rate. The information technology and the CogniSPEECH bundled software for speech command recognition and keywords search in files are developed. The system characteristics are examined. It is showed that the system can be used in voice dialing and robot voice-control programs.

Размещено на Allbest.ru


Подобные документы

  • Проектування інформаційної системи для супроводу баз даних. Моделі запиту даних співробітником автоінспекції та обробки запиту про машини та їх власників. База даних за допомогою SQL-сервер. Реалізація запитів, процедур, тригерів і представлення.

    курсовая работа [1,7 M], добавлен 18.06.2012

  • Проблема інформаційної обробки геологічних даних. Методи побудови розрізу з відомих елементів залягання. Підготовка даних для аналізу. Ієрархія об'єктів, що беруть участь в побудовах. Розрахунок витрат на розробку та впровадження проектного рішення.

    магистерская работа [4,2 M], добавлен 17.12.2014

  • Створення бази даних аптеки готових лікарських форм для підвищення ефективності її роботи та автоматизації обробки результатів її діяльності. Обмеження при роботі з базою даних. Аналіз системних вимог. Вибір засобів розробки інформаційної системи.

    курсовая работа [477,7 K], добавлен 09.12.2013

  • Побудова інформаційної системи, що буде слугувати для автоматизації процесу захисту персональних даних клієнтів банку. Вибір методу проектування архітектури та моделі функціонування системи. Перелік масивів, використовуваних під час розв’язання задачі.

    дипломная работа [1,8 M], добавлен 02.06.2017

  • Основні підходи до проектування баз даних. Опис сайту Інтернет-магазину, характеристика його підсистем для обробки анкет і запитів користувачів. Розробка концептуальної, інфологічної, даталогічної, фізичної моделей даних. Побудова ER-моделі в CASE-засоби.

    курсовая работа [2,3 M], добавлен 01.02.2013

  • Створення оригінальної розподіленої інформаційної системи на основі технології SOAP. Надана архітектура клієнт-серверної взаємодії: клієнтське прикладення споживає Web-сервіс з Internet, а отримані об'єктні методи звертаються до віддалених даних на Web.

    лабораторная работа [556,0 K], добавлен 08.06.2009

  • Розробка фільтру для обробки цифрових сигналів. Блок обробки реалізується на цифрових мікросхемах середньої ступені інтеграції. Аналіз вхідного сигналу, ідеального сигналу та шуму. Обґрунтування вибору фільтрів та алгоритму обробки вхідного сигналу.

    курсовая работа [504,4 K], добавлен 18.09.2010

  • Структура, функції, класифікація, характерні риси інформаційних систем. Складання техніко-економічного обґрунтування проекту інформаційної системи. Групи носіїв інформації залежно від способу фіксування та обробки даних. Організація екранного діалогу.

    контрольная работа [19,3 K], добавлен 19.09.2009

  • Проектування бази даних. Типи зв’язків між сутностями. Атрибути сутностей, їх типи. Вигляд інформаційної моделі. Програмна реалізації, з'єднання з базою даних, огляд основних методів. Інструкція користувача, контрольний приклад. Прийоми звернення до баз.

    дипломная работа [4,0 M], добавлен 14.12.2010

  • Вибір методів та засобів створення інформаційної системи для обліку і перегляду продукції на складі. Розробка моделі даних для реляційної бази даних, прикладного програмного забезпечення. Тестування програмного додатку, виявлення можливих проблем.

    курсовая работа [1,1 M], добавлен 22.09.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.