Модель оцінки якості каналу передавання голосової інформації
Підходи до моделювання оцінювання якості каналу передавання голосової інформації. Моделювання фонем у просторі ознак. Метрична модель якості каналу передавання голосової інформації, дослідження її точності. Алгоритми моделювання голосової інформації.
Рубрика | Коммуникации, связь, цифровые приборы и радиоэлектроника |
Вид | автореферат |
Язык | украинский |
Дата добавления | 30.08.2014 |
Размер файла | 113,9 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
ВІННИЦЬКИЙ НАЦІОНАЛЬНИЙ ТЕХНІЧНИЙ УНІВЕРСИТЕТ
Модель оцінки якості каналу передавання голосової інформації
01.05.02 - Математичне моделювання та обчислювальні методи
Автореферат
дисертації на здобуття наукового ступеня
кандидата технічних наук
Дубова Юлія Володимирівна
Вінниця - 2007
Дисертацією є рукопис.
Роботу виконано у Вінницькому національному технічному університеті Міністерства освіти і науки України.
Науковий керівник:
доктор технічних наук, професор Квєтний Роман Наумович, Вінницький національний технічний університет, завідувач кафедри автоматики та інформаційно-вимірювальної техніки
Офіційні опоненти:
доктор технічних наук, професор Лисогор Василь Микитович, Вінницький державний аграрний університет, професор кафедри аграрного менеджменту
доктор технічних наук, професор Русин Богдан Павлович, Фізико-механічний інститут ім. Г.В. Карпенка НАН України, м. Львів, завідувач відділу методів і систем обробки, аналізу та ідентифікації зображень
Захист відбудеться "28" вересня 2007 р. о 9-30 годині на засіданні спеціалізованої вченої ради Д 05.052.01 у Вінницькому національному технічному університеті за адресою: 21021, м. Вінниця, вул. Хмельницьке шосе, 95, ГУК, 205.
З дисертацією можна ознайомитись у бібліотеці Вінницького національного технічного університету за адресою: 21021, м. Вінниця, вул. Хмельницьке шосе, 95.
Автореферат розісланий "23" серпня 2007 р.
Вчений секретар спеціалізованої вченої ради С.М. Захарченко
Загальна характеристика роботи
Актуальність теми. У наш час бурхливо розвивається зв'язок, змінюючи покоління за поколінням, велике значення набуває саме голосова інформація та якість її передавання за допомогою різноманітних мереж. Від аналогової передачі голосу у перших телефонних мережах суспільство перейшло до використання цифрової передачі через Інтернет (VoIP), якість та швидкість якої збільшується з кожним днем і у сучасних мережах третього покоління сягає вже 2 Мбіт/с. Мережі третього покоління, окрім цифрової передачі голосу, підтримують такі додаткові можливості, як відеотелефонія, аудіо - та відеоконференції, передача мультимедіа інформації, голосову та відеопошту, високошвидкісний доступ до мережі Інтернет, навігацію, відео-фотозйомку тощо з швидкістю від 144 КБіт/с до 2 Мбіт/с.
У світлі бурхливих змін та розвитку мереж передачі голосової інформації набуває особливої актуальності завдання дослідження якості передавання голосу цифровими телекомунікаційними системами. Ця задача є досить нетривіальною, оскільки кінцевою метою доставки голосової інформації є людина, яка і аналізує голосову інформацію за допомогою органів чуття, які досить важко, якщо й не зовсім неможливо, змоделювати. Звичайно, в цій ситуації природно використовувати так звану "експертну" або "суб'єктивну", тобто людську, оцінку якості звуку, але такий сервіс є дуже дорогим та на регулярній основі його можуть дозволити собі лише декілька телекомунікаційних компаній у всьому світі, а саме такі "гіганти" ринку телефонії, як "AT&T Laboratories", "British Telecom", "Lucent Technologies Bell Labs" та декілька інших. Перед іншими компаніями постає проблема автоматизації оцінки якості звуку, над розв'язанням якої працюють науковці вже багато років.
Дослідження в галузі обробки, передавання та розпізнавання голосової інформації проводяться вітчизняними науковцями Інституту кібернетики ім.В.М. Глушкова НАН України, відділу розпізнавання та синтезу звукових образів Міжнародного науково-навчального центру інформаційних технологій та систем (МННЦ ІТС НАНУ), Української асоціації з оброблення інформації та розпізнавання образів (УАСОІРО), Національного технічного університету України "Київський політехнічний інститут", Донецького інституту проблем штучного інтелекту, Вінницького національного технічного університету.
У 60-х роках ХХ століття українським професором Т.К. Вінцюком був розроблений метод використання динамічного програмування для розпізнавання мовних повідомлень, що став проривом в галузі розпізнавання мови. Ще одним українським науковцем М.І. Шлезінгером були всебічно розглянуті проблеми навчання систем розпізнавання образів, а також байєсівські та небайєсівські задачі розпізнавання.
Серед закордонних наукових дослідників необхідно виділити міжнародну організацію International Telecommunication Union (ITU), а саме її підрозділ ITU Telecommunication Standardization Sector (ITU-T), який встановлює всесвітні стандарти та рекомендації в області телекомунікацій. Необхідність створення такої організації була обумовлена тим, що із розвитком телекомунікацій почали з'являтися численні стандарти передачі, криптування та кодування інформації, тому узгоджена взаємодія телекомунікаційних програмних й апаратних засобів стала вкрай необхідною. Створення загальних рекомендацій в області телефонії дало можливість компаніям-виробникам обладнання та програмного забезпечення реалізовувати стандартні алгоритми прийому/передачі даних, будучи впевненими в тому, що дані передаватимуться коректно незалежно від того, яке обладнання знаходиться на іншому боці каналу.
Всесвітня агенція з сучасних досліджень DARPA (Defence Advanced Research Projects Agency) проводить програму Effective, Affordable, Reusable Speech-to-Text (EARS), спрямовану на розробку найсучасніших досліджень в галузі підвищення ефективності систем розпізнавання мови. Наукові відділи найвідоміших в даній галузі корпорацій безупинно працюють над підвищенням якості роботи своїх програмних систем. Серед них такі відомі системи розпізнавання мови, як Dragon Naturally Speaking (корпорація Scansoft), IBM Via Voice (IBM), Philips Speech Magic (Philips), а також smARTspeak (Advanced Recognition Technologies).
Серед провідних наукових закладів, що приділяють велику увагу проблемі розпізнавання природної мови, можна виділити й такі відомі, як Carnegie Mellon University, University of Pennsylvania, University of Sheffield, Cambridge University та багато інших. Вчений J. F. Allen розглядав питання розуміння природної мови; науковці L. Rabiner, R. Lawrence, а також B. H. Juang є авторами праці "Основи розпізнавання мови", яка є енциклопедією для всіх науковців в галузі розпізнавання мови.
Але дослідження в напрямку оцінювання якості каналів передавання голосової інформації і в напрямку розпізнавання мови виконуються паралельно і незалежно, хоча підходи до автоматизації оцінювання якості можуть бути сформовані на основі поєднання цих двох напрямків.
Актуальність оцінки якості передачі голосової інформації телекомунікаційними мережами потребує проведення глибоких досліджень, пошуку нових теоретичних підходів, побудови моделі оцінювання якості каналу передавання голосової інформації, розробки методик та алгоритмів оцінки якості передавання. Цим пояснюється теоретична і практична значимість обраної теми, що вимагає додаткових досліджень за вказаними напрямками.
Зв'язок роботи з науковими програмами, планами, темами. Дисертаційна робота виконувалась згідно з планом науково-дослідних робіт кафедри автоматики та інформаційно-вимірювальної техніки Вінницького національного технічного університету та відповідає пріоритетному напрямку розвитку науки і техніки "Нові комп'ютерні засоби та технології інформатизації суспільства", що затверджений постановою Верховної Ради України від 11.07.2001 р., №2623-14. Результати дисертаційної роботи увійшли у звіти з держбюджетної науково-дослідної роботи "Розробка теорії та методів оптимальних рішень в умовах комбінованої невизначеності" (номер держ. реєстрації 0105U002431).
Мета і завдання дослідження. Метою даної роботи є автоматизація комплексного оцінювання якості каналу передавання голосової інформації шляхом розробки моделі оцінки якості каналу.
Для досягнення поставленої мети необхідно розв'язати такі задачі:
- проаналізувати існуючі підходи до моделювання оцінювання якості каналу передавання голосової інформації;
- розробити метод моделювання фонем у просторі ознак;
- розробити метричну модель якості каналу передавання голосової інформації та дослідити її точність;
- розробити алгоритми моделювання голосової інформації;
- розробити алгоритми синтезу тестів на основі моделі багатовимірного простору фонем;
- розробити модель навчання системи розпізнавання на основі прихованих марківських моделей;
- дослідити адекватність розроблених математичних моделей та обчислювальну ефективність запропонованих алгоритмів.
Об'єктом дослідження є процес оцінювання якості каналу передавання голосової інформації.
Предметом дослідження є математичні моделі процесу оцінювання якості каналу передавання голосової інформації.
В дисертаційній роботі використані такі методи дослідження:
- положення і методи теорії графів, теорії оцінювання, теорії розпізнавання, обчислювальні методи для розробки математичної моделі якості каналу передавання голосової інформації;
- методи теорії обробки сигналів, теорії спектрального аналізу для розробки математичної моделі мовного сигналу на рівні параметричної обробки;
якість канал голосова інформація
- методи теорії оцінювання, теорії ймовірностей і теорії прийняття рішень для розробки математичної моделі процесу аналізу і розпізнавання тестової голосової інформації на базі прихованих марківських мереж;
- методологія імітаційного моделювання на ЕОМ для дослідження адекватності розроблених математичних моделей та обчислювальної ефективності запропонованих алгоритмів.
Наукова новизна одержаних результатів. В ході розв'язання поставлених задач були отримані нові наукові результати:
1. Запропоновано новий підхід до оцінювання якості каналу передавання голосової інформації, який відрізняється застосуванням автоматичної системи розпізнавання тестової голосової інформації, що максимально наближує оцінку якості каналу передавання голосової інформації до природної.
2. Вдосконалено метод моделювання фонем у просторі ознак, який відрізняється структурою прихованої марківської моделі фонеми, а також виразом відстані між фонемами у фонемному просторі, що дозволяє підвищити ефективність оцінювання якості каналу і навчання системи розпізнавання мови.
3. Запропоновано нову метричну модель якості голосової інформації, що дозволяє здійснювати кількісне оцінювання якості каналу передавання голосової інформації.
4. Вдосконалено метод навчання моделі розпізнавання, який відрізняється модифікованою структурою моделі, що дозволяє підвищити достовірність розпізнавання мови при оцінці якості каналу передавання голосової інформації.
Практичне значення отриманих результатів дисертаційної роботи полягає в наступному:
1. Розроблено алгоритми моделювання голосової інформації, які ґрунтуються на використанні розроблених методів та моделей топологічного фонемного простору.
2. Розроблено алгоритми синтезу тестів на основі моделі багатовимірного простору фонем, які дозволяють отримати вибірку тестової голосової інформації, яка є необхідною та достатньою для достовірного оцінювання якості каналу передавання голосової інформації.
3. Вдосконалено алгоритм навчання системи тестування, що дозволяє підвищити достовірність розпізнавання голосової інформації після завершення навчання системи, а також скоротити часові затрати на процес навчання.
4. На базі розроблених моделей, методів і алгоритмів процесу оцінювання якості каналу передавання голосової інформації було створено програмні середовища для навчання системи розпізнавання, синтезу тестів та оцінювання якості каналу передавання голосової інформації.
Результати дисертаційних досліджень впроваджено на підприємствах ТОВ "Комп'ютерні мультимедіа системи", ТОВ "Майндспід Технолоджіз Україна" та у навчальний процес кафедри автоматики та інформаційно-вимірювальної техніки Вінницького національного технічного університету. Впровадження результатів дисертаційних досліджень підтверджено відповідними актами.
Особистий внесок здобувача. Усі результати, які складають основний зміст дисертаційної роботи, отримані автором самостійно. У роботах, що опубліковані у співавторстві, здобувачу належать такі ідеї і розробки:
1. Алгоритм створення атрибутних граматик [1].
2. Метод та алгоритм автоматичної класифікації голосової інформації у ймовірнісному просторі об'єктів [2, 3]
3. Формалізації операцій над прихованими марківськими моделями та інтерпретовано множину фонем як топологічного простору [5].
4. Вдосконалення методики адаптації моделі в задачах розпізнавання образів [7].
5. Розробка узагальненого критерію оцінки якості та дикторонезалежності систем розпізнавання мови [9]
6. Модифікація схеми створення та алгоритмів тренування марківських моделей [4, 9].
Апробація результатів дисертації. Результати досліджень, що викладені в даній роботі, пройшли апробацію на 11 і 13-й Міжнародних науково-технічних конференціях з автоматичного управління "Автоматика" (Київ-2004, Вінниця-2006); 6-й, 7-й та 8-й Міжнародних науково-технічних конференціях "Контроль і управління в складних системах" (КУСС) (Вінниця, 2001, 2003, 2005); Міжнародних науково-практичних конференціях "Мікропроцесорні пристрої та системи в автоматизації виробничих процесів" (Хмельницький, 2003, 2004); IV-му російсько-українському науковому семінарі "Інтелектуальний аналіз інформації ІАІ-2004" (Київ, 2004); 2-й Міжнародній науково-технічній конференції "Оптоелектронні інформаційні технології "Фотоніка - ОДС 2002" (Вінниця, 2002); ? 1-му молодіжному науково-практичному форумі "Информационные технологии в ХХI веке" (Дніпропетровськ, 2003).
Публікації. За результатами дослідження опубліковано 10 праць, в тому числі 6 статей надруковано у фахових виданнях, затверджених ВАК України, 4 роботи опубліковано в збірках матеріалів конференцій.
Структура та обсяг дисертації. Дисертація складається з вступу, чотирьох розділів, висновків, списку використаних джерел, додатків. Повний обсяг дисертації складає 212 сторінок, з яких основна частина складає 145 сторінок. Дисертація містить 51 рисунок, 13 таблиць, 6 додатків, список використаних джерел із 142 найменувань.
Основний зміст роботи
У вступі до дисертаційної роботи обґрунтовано актуальність теми, зазначено зв'язок роботи з науковими програмами, планами, темами, сформульовано мету та задачі досліджень. Також наведено характеристики об'єкта і предмету досліджень, викладено основні наукові та практичні результати, наведено відомості про впровадження результатів роботи, їх апробацію та публікацію.
У розділі 1 проведений аналіз існуючих підходів до моделювання оцінювання якості каналу передавання голосової інформації.
Існуючі підходи до розв'язання задачі ґрунтуються або на залученні людини-експерта для оцінювання розбірливості мови на виході каналу, при якій за шкалу приймається усереднена оцінка розбірливості мови (Mean Opinion Score, MOS), що пов'язане з великою трудомісткістю і витратами, або на вимірюванні окремих характеристик каналу, що не завжди є адекватним експертній оцінці. Тому перспективним підходом є автоматизація експертного оцінювання якості на основі застосування систем розпізнавання мови.
В класичній телефонії якість голосу визначається виключно на аудіо рівні - шляхом суб'єктивної оцінки голосового сигналу. За шкалу приймається усереднена оцінка розбірливості мови MOS. У таблиці 1 показані коливання оцінок MOS для звуку різної якості; оцінки змінюються від 1 (неприйнятна якість) до 5 (дуже добре - немає дискомфорту при прослуховуванні).
Таблиця 1
Оцінки якості шкали MOS
Якість |
Оцінка MOS |
|
Висока |
4.0 - 5.0 |
|
Стандартна телефонна |
3.5 - 4.0 |
|
Прийнятна |
3.0 - 3.5 |
|
Синтезований звук |
2.5 - 3.0 |
Оцінка MOS є основною оцінкою якості передавання звуку як така, що базується на сприйнятті мови людиною. Її недоліком на рівні цифрового передавання є відсутність інформації про реальну причину втрати якості, тому також додатково потрібно оцінювати цифровий рівень мережі.
Якість передавання голосової інформації цифровими мережами має певні особливості та оцінюється за допомогою спеціального комплексу методів, основними з яких є активний та пасивний аналіз цифрових мереж. Було досліджено сучасні методи аналізу якості, проілюстровані на рис. 1.
Для аналізу якості голосових каналів використовують критерії:
1) Показники якості обслуговування з'єднань: відсоток успішних з'єднань, час очікування з'єднань, ймовірність передчасного роз'єднання;
2) Показники якості встановлених з'єднань, утворених з використанням кабельних засобів зв'язку: ймовірність короткочасного переривання, припустиме значення нерівномірності АЧХ, групова затримка сигналів, нерівномірність групової затримки, рівень одночастотної завади, показники гучності;
3) Показники якості передавання голосової інформації через Інтернет-мережу (VoIP): варіація затримки, затримка, втрата пакетів.
Всі критерії є досить специфічними і жоден з них неможливо інтерпретувати як глобальний критерій якості каналу. В той самий час існуючий критерій MOS є досить нечітким, неметризуємим та експертним, тобто таким, що досить важко піддати автоматизації. Таким чином, на сьогоднішній день не існує вдалого критерію для оцінки якості каналів передавання голосової інформації. Мета розробити цей критерій та автоматизувати комплексне оцінювання якості каналу передавання голосової інформації була поставлена в даній роботі.
Було проаналізовано теоретичні основи моделювання мови. В якості математичного апарату моделювання обрано апарат прихованих марківських моделей як такий, що відомий своїми найточнішими результатами у системах розпізнавання мови.
Приховані марківські моделі (ПММ) є одним із способів одержання математичної моделі деякого сигналу, що спостерігається. ПММ відносяться до класу стохастичних моделей, в основу яких покладено припущення про те, що сигнал може бути описаний деяким параметричним випадковим процесом і що параметри цього процесу можуть бути досить точно оцінені певним, цілком визначеним, способом. Налаштовану ПММ можна розглядати як джерело деякого випадкового сигналу з цілком визначеними характеристиками. Також, для налаштованої ПММ існує можливість підрахувати ймовірність генерування тестового сигналу даною моделлю.
На рис.2 наведено приклад графа, що ілюструє ПММ. Із кожною вершиною графа пов'язаний розподіл ймовірностей векторів спостереження.
Таким чином, ПММ представляє собою граф із заданими ймовірностями переходу між вершинами та функціями розподілу ймовірностей векторів спостереження, асоційованими з кожною вершиною графа:
. (1)
ПММ є основою для більшості сучасних систем розпізнавання мови на різних рівнях - від рівня фонем до рівня фраз (мінімальних структурно-функціональних звукових одиниць в більшості мов). Перевагою використання прихованих марківських моделей для задачі, що розглядається, є зручність побудови метрики, що є необхідною умовою для побудови шкали оцінювання якості.
В роботі розглянуто поширені метрики у просторі ПММ з огляду на вимоги, зумовлені метою роботи: лінійність, обчислювальна складність, стійкість алгоритму розрахунку.
У розділі 2 запропоновано новий підхід до оцінювання якості каналу передавання голосової інформації, який відрізняється застосуванням автоматичної системи розпізнавання тестової голосової інформації, що максимально наближує оцінку якості каналу передавання голосової інформації до природної.
Як одиницю мови, що моделюється ПММ, обрано фонему. Задача автоматизації тесту MOS як найбільш комплексного і об'єктивного вимагає розробки моделі оцінювання розбірливості мови після передавання каналом VoIP. Ця задача відрізняється від моделювання систем розпізнавання мови постановкою: необхідно моделювати розпізнавання не природної змістовної мови і не команд з заданого переліку, а набір випадкових слів, які репрезентують набір звукотипів мови. Зміна постановки задачі вимагає розробки нових підходів до моделювання.
Розроблено принцип оцінювання якості передавання звуку телекомунікаційним пристроєм. За допомогою спеціального обладнання тестовий звуковий файл "програється" через Інтернет-мережу та перехоплюється пристроєм, що передає голосову інформацію. Після передавання спотворена голосова інформація потрапляє через Інтернет-мережу назад до спостерігача. Обидва тестові звукові файли (ініціальний та спотворений) подаються на вхід СРМ та розпізнаються. Розпізнані фрази порівнюються за допомогою спеціального модулю порівняння. На основі результатів порівняння всього набору тестових файлів визначається якість каналу передавання голосової інформації за запропонованим критерієм К.
Критерій якості К можна пояснити як погіршення роздільної здатності системи розпізнавання на просторі прийнятої інформації у порівнянні з роздільною здатністю на просторі переданої інформації.
, (2)
де m - кількість фонем (точок топологічного простору);
(Fi,Fj) - відстань від i-ї фонеми до найближчої Fj, які після передавання розпізнаються системою як різні;
0 (Fi,Fj) - відстань від i-ї фонеми до найближчої Fj, які до передавання розпізнавалися системою як різні.
Було проаналізовано та побудовано структуру моделі оцінювання якості каналу передавання голосової інформації (рис.4). Метод оцінювання якості каналів VoIP на основі запропонованої моделі передбачає: розробку моделі багатовимірного простору фонем; навчання початкових моделей фонем на базі наговорів; синтез тесту, що покриває простір ознак; розрахунок відстаней між фонемами тесту; передавання тесту каналом VoIP; розпізнавання фонем та навчання моделей на прийнятій голосовій інформації; розрахунок відстаней між фонемами прийнятого тесту; розрахунок показника якості каналу VoIP.
Проведений аналіз показав, що простір мовних елементів є топологічним. Це дозволило формалізувати поняття сусідства і границі між фонемами, розробити метод моделювання фонем у багатовимірному просторі ознак, а також метод моделювання багатовимірного простору фонем.
Запропоновано метрику у багатовимірному просторі мовних елементів та доведено правомірність існування даної метрики. Отримані вирази відстаней між нормальними розподілами ознак
, (3)
між вершинами ПММ
(4)
і між моделями з однаковою топологією
. (5)
Задача розробки методу оцінки відстані між двома довільними моделями в роботі не ставилася, оскільки при моделюванні фонемної системи використовувалися моделі із однаковою топологією (структурою), доцільність якої була обґрунтована в роботі.
Було обґрунтовано оптимальну базову структуру ПММ фонеми.
Також було запропоновано метод модифікації базової структури моделі для того, щоб розв'язати проблему дикторозалежності оцінки. Автоматичне розпізнавання дикторів, які розмовляють на різних діалектах чи просто несхоже один на одного, має невисоку вірогідність, а тому спотворюватимуться результати оцінки якості каналу.
Було запропоновано та розроблено метод модифікації ПММ шляхом створення паралельних вершин, що представляють в результаті тренування різних дикторів чи різні вимови. Паралельні вершини було названо "мікшованими компонентами". Розроблено показники впливу модифікації структури ПММ на різні характеристики моделі. Оптимізована структура ПММ дозволяє збільшити дикторонезалежність оцінки якості каналу передавання голосової інформації.
Розроблено критерій оцінки якості телекомунікаційного пристрою. Оцінювання якості здійснюється на основі статистичної обробки результатів розпізнавання згенерованого тесту після проходження через канал зв'язку, в результаті якої будується характеристика , де Pr - ймовірність розпізнавання.
Оскільки ПММ у просторі ознак розподілені нерівномірно, то роздільна здатність повинна бути перерахована за допомогою інтерполяції шкали відповідно до залежності .
Також було розглянуто вплив завад і шумів на ймовірність розпізнавання:
;
;
;
.
По результатах розрахунків отримано залежності Pr (). Вони разом з шкалою MOS дозволяють побудувати таблицю 2 переходу від запропонованого критерію K до критерію Q (шкала MOS). Проведені дослідження показали, що діапазону оцінок MOS від 5 до 1 відповідає погіршення ймовірності розпізнавання від 0 до 12% і зменшення відстані між моделями від 1,19 до 1.
У розділі 3 розроблено та вдосконалено алгоритми дослідження моделі і автоматизованого тестування каналів VоIP.
За розробленими моделями запропоновано наступні алгоритми:
1. Алгоритм автоматичної класифікації фонем у просторі ознак, який здійснює класифікацію ПММ мовних елементів (фонем) у багатовимірному просторі і знаходження -околів фонем, що необхідно для оптимізації покриття простору ознак і навчання системи розпізнавання.
Таблиця 2
Таблиця переходу до шкали MOS
Показник MOS Q |
1 |
2 |
3 |
4 |
5 |
|
Збільшення ймовірності помилки Pr |
0,12 |
0,08 |
0,05 |
0,02 |
0 |
|
Запропонований критерій K |
1.190 |
1.119 |
1.071 |
1.027 |
1 |
2. Алгоритм оптимального синтезу тестів на основі моделі багатовимірного простору фонем, які дозволяють отримати вибірку тестової голосової інформації, яка є необхідною та достатньою для достовірного оцінювання якості каналу передавання голосової інформації. Алгоритм використовує словник TIMIT і синтезує тест, який забезпечує покриття простору ознак з статистикою не менше 36 даних на кожний вектор ознак. Алгоритм базується за алгоритмі швидкого пошуку.
3. Алгоритм визначення необхідної кількості мікшованих компонент. Оптимальна кількість мікшованих компонентів знаходиться за умови мінімуму похибки моделі. Проведені експерименти показали, що модифікація моделі дозволяє зменшити ризик сплутування на 2%. Вдосконалено алгоритм навчання системи тестування, який реалізує модель і дозволяє скоротити часові затрати на процес навчання.
Проведено дослідження точності запропонованої моделі. Для різних метрик у фонемному просторі у таблиці 3 наведено зведену похибку моделі. Методика оцінювання похибки передбачала статистичний аналіз параметрів розподілу до і після розпізнавання.
Таблиця 3
Дослідження точності моделі
Назва метрики |
Метрика |
Похибка |
|
Запропонована метрика (2.16) |
14% |
||
Метрика "міських кварталів" (Манхеттенська відстань) |
28% |
||
Метрика Бхатахарія (Bhattacharyya) |
17% |
||
Гранична відстань |
45% |
Проведені експериментальні дослідження відстаней між фонемами для обраної системи ознак показали, що відстані між фонемами майже лінійно зростають при зростанні кількості ознак до 5, що свідчить про незалежність цих ознак. Далі відбувається уповільнення зростання, що свідчить про появу кореляційних зв'язків між ознаками. При аналізі моделей наговорів декількох дикторів для досягнення аналогічних результатів необхідно збільшити кількість ознак на 20%.
Дослідження точності та лінійності запропонованої моделі підтвердили можливість її використання для оцінювання якості каналів передавання голосової інформації.
У розділі 4 на базі розроблених моделей, методів і алгоритмів процесу оцінювання якості каналу передавання голосової інформації було створено програмні середовища для тренування системи розпізнавання, синтезу тестів та оцінювання якості каналу передавання голосової інформації. Розроблені програмні засоби створено у вигляді динамічної бібліотеки, що вбудовується в "ядро" системи тестування каналів VoIP. Вони використані для експериментальних досліджень моделі оцінки якості каналів передавання голосової інформації.
Проведено ряд експериментальних досліджень, що виконувалися з використанням канало-утворюючої апаратури ТОВ "Майндспід Технолоджіз Україна", яка дозволяє регулювати параметри каналів VoIP. Дослідження збіжності оцінки якості каналу VoIP з тестом MOS за умов нерівномірності частотної характеристики показало, що зведене середнє квадратичне відхилення автоматизованої оцінки від тесту MOS складає 15% при використанні як критерію якості ймовірності розпізнавання і 5% - при використанні відстані між навченими моделями.
Дослідження збіжності за умов короткочасного переривання розмовного тракту показало, що зведене середнє квадратичне відхилення складає відповідно 6% при використанні як критерію якості ймовірності розпізнавання і 3% при використанні відстані між навченими моделями. Втрата окремих пакетів практично не впливає на автоматизовану оцінку.
Проведені експериментальні дослідження впливу характеристик застосованої системи розпізнавання мови на оцінку якості, що отримується. Дослідження показали, що в межах експерименту оцінка змінювалася не більше як на 5%.
Результати досліджень підтвердили адекватність моделі та дозволили уточнити її характеристики та доцільну область застосування.
Результати дисертаційних досліджень впроваджено на підприємствах "Комп'ютерні мультимедіа системи", ТОВ "Майндспід Технолоджіз Україна" та у навчальний процес кафедри автоматики та інформаційно-вимірювальної техніки Вінницького національного технічного університету. Впровадження результатів дисертаційних досліджень підтверджені відповідними актами. Результати впровадження дозволяють зробити висновок про правильність принципових положень, що лягли в основу роботи.
В додатках наведено фонетичний алфавіт української мови SAMPA, лістинг програми автоматичного обчислення кількості мікшованих компонент, лістинг програми моделювання багатовимірного простору фонем, приклад файлів даних, результати тесту MOS поширених кодеків, а також документи та відомості про впровадження результатів, що отримані в дисертації.
Висновки
В результаті виконання роботи зроблено внесок у розв'язання задачі моделювання та дослідження передавання голосу цифровими телекомунікаційними системами з метою автоматизації комплексного оцінювання якості каналу передавання голосової інформації.
Існуючі підходи до розв'язання задачі ґрунтуються або на залученні людини-експерта для оцінювання розбірливості мови на виході каналу, що пов'язане з великою трудомісткістю і витратами, або на вимірюванні окремих характеристик каналу, що не завжди є адекватним експертній оцінці. Тому перспективним підходом є автоматизація експертного оцінювання якості на основі моделі оцінки якості каналу і застосування систем розпізнавання мови.
В ході розв'язання поставлених задач було отримано нові наукові результати:
1. Запропоновано новий підхід до оцінювання якості каналу передавання голосової інформації, який відрізняється застосуванням автоматичної системи розпізнавання тестової голосової інформації, що максимально наближує оцінку якості каналу передавання голосової інформації до природної. Оцінка якості відбувається шляхом порівняння результатів розпізнавання тестової голосової інформації із спотвореною інформацією, утвореною в результаті передавання, що забезпечує зменшення залежності оцінки якості від особливостей системи розпізнавання мови.
2. Вдосконалено метод моделювання фонем у просторі ознак, який відрізняється структурою прихованої марківської моделі фонеми, а також виразом відстані між фонемами у фонемному просторі, що дозволяє підвищити ефективність оцінювання якості каналу і навчання системи розпізнавання мови.
3. Запропоновано нову метричну модель якості голосової інформації, що дозволяє здійснювати кількісне оцінювання якості каналу передавання голосової інформації. Досліджено зв'язок між ймовірністю розпізнавання мови, відстанню між фонемами і експертною оцінкою MOS. Проведені дослідження показали, що діапазону оцінок MOS від 5 до 1 відповідає погіршення ймовірності розпізнавання від 0 до 12% і зменшення відстані між моделями від 1,19 до 1.
4. Вдосконалено метод навчання моделі розпізнавання, який відрізняється модифікованою структурою моделі, що дозволяє підвищити достовірність розпізнавання мови при оцінці якості каналу передавання голосової інформації. Проведені експерименти показали, що модифікація моделі дозволяє зменшити ризик сплутування на 2%. Вдосконалено алгоритм навчання системи тестування, який реалізує модель і дозволяє скоротити часові затрати на процес навчання.
5. Розроблено алгоритми моделювання голосової інформації, які ґрунтуються на використанні розроблених методів та моделей топологічного фонемного простору. Алгоритм здійснює класифікацію ПММ мовних елементів (фонем) у багатовимірному просторі і знаходження -околів фонем, що необхідно для оптимізації покриття простору ознак і навчання системи розпізнавання.
6. Розроблено алгоритми синтезу тестів на основі моделі багатовимірного простору фонем, які дозволяють отримати вибірку тестової голосової інформації, яка є необхідною та достатньою для достовірного оцінювання якості каналу передавання голосової інформації. Алгоритм використовує словник TIMIT і синтезує тест, який забезпечує покриття простору ознак з статистикою не менше 36 даних на кожний вектор ознак.
7. Проведені експериментальні дослідження відстаней між фонемами для обраної системи ознак показали, що відстані між фонемами лінійно зростають при зростанні кількості ознак до 5, що свідчить про незалежність цих ознак. Далі відбувається уповільнення зростання, що свідчить про появу кореляційних зв'язків між ознаками. При аналізі моделей наговорів декількох дикторів для досягнення аналогічних результатів необхідно збільшити кількість ознак на 20%.
8. На базі розроблених моделей, методів і алгоритмів процесу оцінювання якості каналу передавання голосової інформації було створено програмні середовища для навчання системи розпізнавання, синтезу тестів та оцінювання якості каналу передавання голосової інформації. Вони використані для експериментальних досліджень моделі оцінки якості каналів передавання голосової інформації.
9. Результати дисертаційних досліджень впроваджено на підприємствах Flextronics Design Ukraine, ТОВ "Майндспід Технолоджіз Україна" та у навчальний процес кафедри автоматики та інформаційно-вимірювальної техніки Вінницького національного технічного університету. Впровадження результатів дисертаційних досліджень підтверджено відповідними актами. Результати впровадження дозволяють зробити висновок про правильність принципових положень, що лягли в основу роботи.
Список опублікованих праць за темою дисертації
1. Дубова Ю.В., Колова С.Б. Психолексикологія та проблема інтерпретації даних в комп'ютерних системах // Вісник Вінницького політехнічного інституту. - 2001. - №6. - С.115-118.
2. Грузман М.З., Дубова Ю.В. Проблема розпізнавання голосових команд з точки зору автоматичної класифікації об'єктів // Вісник Технологічного університету Поділля. - 2003. - Технічні науки,. Т.1, №3. - С.116-119.
3. Грузман М.З., Дубова Ю.В. Розпізнавання голосових команд як точок метричного простору // Вісник Вінницького політехнічного інституту. - 2003. - №6. - С.262-268.
4. Дубова Ю.В., Квєтний Р.Н. Удосконалення структури прихованих марківських моделей на етапі тренування // Вісник Технологічного університету Поділля. - 2004. - Технічні науки, Ч.1, Т.2, №2. - С.30-33.
5. Дубова Ю.В., Квєтний Р.Н. Модель множини фонем як топологічного простору // Інформаційні технології та комп'ютерна інженерія. - 2005. - №3. - С.124-127.
6. Ю.В. Дубова. Точність моделі контролю якості каналів передавання голосової інформації // Вісник Вінницького політехнічного інституту. - 2006. - №6. - С.27-29.
7. Дубовой В., Дубовая Ю. Адаптивный подход к распознаванию графических образов // Оптоелектронні інформаційні технології "Фотоніка - ОДС 2002": Друга міжнар. науково-технічної конференція. Вінниця, 23-25 квіт. 2002 р. - Вінниця, 2002. - С.27.
8. Дубова Ю.В. Алгоритм автоматичної класифікації марківських моделей при розпізнаванні природної мови // Информационные технологии в ХХI веке: I Молодежный научно-практ. форум. Днепропетровск 23-24 апреля 2003 г. - Днепропетровск, 2003. - С.90-91.
9. Грищук Т.В., Дубова Ю.В. Новий підхід до підвищення ймовірності розпізнавання мови в дикторонезалежних системах // Интеллектуальный анализ информации ИАИ-2004: Четвертый российско-украинский научный семинар. Киев, 19-21 мая 2004 г. - К., 2004. - С.88-94.
10. Дубова Ю.В. Модифікована схема створення прихованих марківських моделей для розпізнавання природної мови. // Автоматика-2004: 11 Міжнародна конференція по автоматичному управлінню. Київ, 27-30 верес. 2004 р. - К., 2004. - Т.4. - С.38.
Анотації
Дубова Ю.В. Модель оцінки якості каналу передавання голосової інформації. - Рукопис.
Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 01.05.02 - математичне моделювання та обчислювальні методи. - Вінницький національний технічний університет, Вінниця - 2007.
Дисертацію присвячено розв'язанню задачі моделювання та дослідження передавання голосу цифровими телекомунікаційними системами з метою автоматизації комплексного оцінювання якості каналу передавання голосової інформації.
Запропоновано новий підхід до оцінювання якості каналу передавання голосової інформації, який дозволяє оцінювати якість за допомогою автоматичної системи розпізнавання мови, що наближує оцінку якості голосової інформації до природної. Оцінка якості відбувається шляхом порівняння еталонного набору розпізнаних фраз із спотвореним набором. Вдосконалено метод моделювання фонем у просторі ознак, який відрізняється структурою прихованої марківської моделі фонеми, а також виразом відстані між фонемами у фонемному просторі, що дозволяє підвищити ефективність оцінювання якості каналу і навчання системи розпізнавання мови. Запропоновано нову метричну модель якості голосової інформації, що дозволяє здійснювати кількісне оцінювання якості. Вдосконалено метод навчання моделі розпізнавання, що дозволяє підвищити достовірність розпізнавання мови при оцінці якості каналу.
На основі запропонованих моделей та методів розроблено методичні, алгоритмічні та програмні засоби для автоматизації комплексного оцінювання якості каналу передавання голосової інформації.
Ключові слова: автоматизація оцінювання, аналіз і класифікація, голосова інформація, канал передавання голосової інформації, марківські моделі, моделювання, розпізнавання мови, цифрові мережі, якість.
Дубовая Ю.В. Модель оценки качества канала передачи голосовой информации. - Рукопись.
Диссертация на соискание ученой степени кандидата технических наук по специальности 01.05.02 - математическое моделирование и вычислительные методы. - Винницкий национальный технический университет, Винница - 2007.
Диссертация посвящена решению задачи моделирования и исследования передачи голоса цифровыми телекоммуникационными системами с целью автоматизации комплексного оценивания качества канала передачи голосовой информации.
Предложен новый подход к оцениванию качества канала передачи голосовой информации, который, в отличие от известных, позволяет оценивать качество с помощью автоматической системы распознавания речи, который максимально приближает оценку качества голосовой информации к естественной. Оценка качества происходит путем сравнения эталонного набора распознанных фраз со искаженным набором, т.е. учитывается не абсолютная вероятность распознанной фразы, а ее относительная вероятность по сравнению с вероятностью распознавания эталонной фразы. Предложенный метод не рассматривает процессы, происходящие внутри телекоммуникационного устройства, а потому может быть использован для оценки качества произвольной системы, преобразующей голосовую информацию.
Усовершенствован метод моделирования фонем в пространстве признаков, который отличается структурой скрытой марковской модели фонемы, а также метрикой расстояния между фонемами в фонемном пространстве, которая позволяет повысить эффективность оценивания качества канала и обучения системы распознавания речи.
Предложена новая метрическая модель качества голосовой информации, которая позволяет осуществлять количественное оценивание качества канала передачи голосовой информации. Исследована связь между вероятностью распознавания речи, расстоянием между фонемами и экспертной оценкой MOS. Проведенные исследования показали, что диапазону оценок MOS от 5 до 1 соответствует ухудшение вероятности распознавания от 0 до 12% и уменьшение расстояния между моделями от 1,19 до 1.
Усовершенствован метод обучения модели распознавания, который позволяет повысить достоверность распознавания речи при оценке качества канала передачи голосовой информации. Проведенные эксперименты показали, что модификация модели позволяет уменьшить риск перепутывания на 2%. Усовершенствован алгоритм обучения системы тестирования, который реализует модель и позволяет сократить временные затраты на процесс обучения.
Разработаны алгоритмы моделирования голосовой информации, основанные на использовании разработанных методой и моделей топологического фонемного пространства. Алгоритм осуществляет классификацию скрытых марковских моделей речевых элементов (фонем) во многомерном пространстве и нахождение е-окрестностей фонем, что является необходимым для оптимизации покрытия пространства признаков и обучения системы распознавания.
Разработаны алгоритмы синтеза тестов на основе модели многомерного пространства фонем, которые позволяют получить выборку тестовой голосовой информации, которая является необходимой и достаточной для достоверного оценивания качества канала передачи голосовой информации. Алгоритм использует словарь TIMIT и синтезирует тест, который обеспечивает покрытие пространства признаков со статистикой не менее 36 данных на каждый вектор признаков.
Проведенные экспериментальные исследования расстояний между фонемами для выбранной системы признаков показали, что расстояния между фонемами линейно растут при увеличении количества признаков до 5, что свидетельствует про независимость этих признаков. Далее происходит замедление роста, что свидетельствует про появление корреляционных связей между признаками. При анализе моделей наговоров нескольких дикторов для достижения аналогичных результатов необходимо увеличить количество признаков до 20%.
На основе разработанных моделей, методов и алгоритмов процесса оценивания качества каналу передачи голосовой информации были созданы программные средства для обучения системы распознавания, синтеза тестов и оценивания качества канала передачи голосовой информации. Они использованы для экспериментальных исследований модели оценки качества каналов передачи голосовой информации. Исследование сходимости оценки качества канала VoIP с тестом MOS при условии неравномерности частотной характеристики показало, что общее среднеквадратическое отклонение автоматизированной оценки от теста MOS составляет 15% при использовании в качестве критерия расстояния между тренированными моделями. Исследования сходимости при условии кратковременных прерываний речевого тракта показало, что общее среднеквадратическое отклонение составляет соответственно 6% при использовании как критерия качества вероятность распознавания и 3% при использовании расстояния между тренированными моделями. Потеря отдельных пакетов практически не влияет на автоматизированную оценку.
Ключевые слова: автоматизация оценивания, анализ и классификация, голосовая информация, канал передачи голосовой информации, марковские модели, моделирование, распознавание языка, цифровые сети, качество.
Dubova J.V. Model of channel for transmitting voice information quality evaluation. - A manuscript.
Thesis for a candidate's degree of technical sciences by specialty 01.05.02 - mathematical modeling and computational methods. - Vinnytsia National Technical University, Vinnytsia - 2007.
The thesis is devoted to solving the task of modeling and research of voice transmitting by the means of digital telecommunication systems. The purpose of work is to automate the complex evaluation of voice information transmission channel quality.
New approach is offered to the evaluation of voice information transmission channel quality, which allows evaluating quality by the automatic system of speech recognition which maximally approaches the estimation of voice quality to the natural. The method of phonemes modeling in the space of attributes is improved, which differs by the structure of the phoneme hidden Markov model. Also expression of distance between phonemes in phoneme space is provided, which allows increasing efficiency of channel quality evaluation. The new metrical model of speech information quality is offered, which allows calculating the quantitative evaluation of voice information transmission channel quality. The method of recognition model learning is improved, which helps increasing reliability of speech recognition when evaluating the voice information transmission channel quality.
Based on the offered models and methods, methodical, algorithmic and program means for automation of complex evaluation of voice information transmission channel quality are developed.
Keywords: analysis and classification, digital networks, evaluation automation, Markov models, modeling, speech recognition, quality, voice information, voice information transmission channel.
Размещено на Allbest.ru
Подобные документы
Особливості кодування повідомлення дискретного джерела рівномірним двійковим кодом, середня ймовірність помилки. Обчислення пропускної здатності неперервного сигналу, швидкості передавання інформації, оцінка ефективності використання каналу зв’язку.
контрольная работа [678,1 K], добавлен 10.05.2013Просочування мовної інформації, класифікація заставних пристроїв. Приймачі випромінювання РЗУ та електроакустичні перетворювачі для перетворювання акустичних коливань в електричні сигнали для утворення електроакустичного каналу просочування інформації.
реферат [73,6 K], добавлен 26.04.2009Різноманітність галузей застосування систем передачі інформації і використаних каналів зв’язку. Структурна схема цифрової системи передачі інформації, її розрахунок. Розрахунки джерел повідомлень, кодеру каналу, модулятора, декодера, демодулятора.
контрольная работа [740,0 K], добавлен 26.11.2010Розрізнення як найголовніший параметр якості при передаванні документів, існуючі режими розрізнення факс-апаратів. Історія стандартизації факсимільного зв'язку. Опис алгоритмів стиснення інформації та опціональність корекції помилок при передачі факсів.
реферат [14,3 K], добавлен 14.11.2010Розробка структурної, функціональної та принципової електричної схеми каналу послідовної передачі даних. Моделювання каналу послідовної передачі даних. Розрахунок параметрів і часових характеристик каналу, токів і потужності та надійності пристрою.
курсовая работа [208,4 K], добавлен 20.01.2009Розгляд структурної схеми симплексної одноканальної системи передачі дискретних повідомлень. Розрахунок основних структурних елементів цифрової системи: джерела повідомлень, кодерів джерела та каналу, модулятора, каналу зв'язку, демодулятора, декодера.
реферат [306,2 K], добавлен 28.11.2010Кодування - елемент сфери телекомунікацій, захисту інформації. Навички вибору й оцінки ефективності процедур кодування даних. Аналіз можливостей багаторівневої амплітудної маніпуляції гармонічних сигналів. Потенційна пропускна спроможність каналу зв'язку.
курсовая работа [1,9 M], добавлен 12.12.2010Загальні поняття та визначення щодо якості обслуговування. Класифікація показників якості обслуговування в телекомунікаційних системах. Поняття номінальної пропускної здатності середовища передачі інформації. Складові затримки під час передачі пакетів.
реферат [84,8 K], добавлен 27.03.2011Технічні канали витоку інформації або несанкціонованого доступу до неї. Дослідження інформаційної захищеності приміщення. Оцінка можливостей акустичної розвідки по перехопленню мовної інформації за допомогою мікрофонів та оптико-електронної апаратури.
курсовая работа [689,0 K], добавлен 12.06.2011Головні шляхи отримання інформації в оптичному каналі: візуальне спостереження, фото-відеозйомка, використання видимого та інфрачервоного діапазонів для передачі інформації від приховано встановлених мікрофонів та інших датчиків. Прилади нічного бачення.
доклад [16,0 K], добавлен 06.11.2016