Застосування вейвлет-аналізу для попередньої обробки мовних голосових сигналів в задачах сегментації, класифікації та пофонемного розпізнавання
Аналіз існуючих методів параметризації мовного сигналу, його цифрової обробки та розпізнавання. Розробка алгоритму попередньої обробки голосових команд, що полягає в зниженні рівня шуму і знаходженні границь слів за допомогою методів вейвлет-аналізу.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | автореферат |
Язык | украинский |
Дата добавления | 24.07.2014 |
Размер файла | 39,9 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru
Размещено на http://www.allbest.ru
Вступ
Актуальність. Розроблення алгоритмів та програмно-апаратних засобів для систем комп'ютерного розпізнавання та відтворення (синтезу) мовних і зорових образів є основою систем та засобів штучного інтелекту - галузі науки, яка займається теоретичними дослідженнями, розробленням та застосуванням алгоритмічних і програмно-апаратних систем і комплексів з елементами штучного інтелекту та моделюванням інтелектуальної діяльності людини. Одним з важливих напрямків досліджень є розробка інтелектуальних систем образного сприйняття мовної інформації, серед яких значну роль відіграють системи розпізнавання мовних голосових сигналів.
Дослідженню мовного апарата і математичному обґрунтуванню частотних характеристик звуків мовлення були присвячені піонерські роботи А. Бела, Г. Фанта і Д. Фланагана, Р. Якобсона та ін. Поява ЕОМ сприяла необхідності розвитку методів цифрової обробки мовного голосового сигналу. Важливу роль у цій області зіграли роботи Б. Гоулда, Д. Маркела, Л. Рабінера, Д. Рейді, Р. Шафера, Б. Янга та. ін. Значний вклад у розвиток технологій розпізнавання мовних голосових сигналів внесли відомі вчені Х. Сакое і С. Чіба в Японії, Ф. Ітакура в США, В.М. Величко, Н.Г. Загоруйко, В.М. Сорокін в Радянському Союзі. Розроблені методи базувалися, в основному, на статистичному підході з використанням прихованих Марківських ланцюгів, критерію максимальної правдоподібності та байєсовських правил.
В Україні в інституті кібернетики НАН України Т.К. Вінцюком був запропонований метод динамічного викривлення часу, який дає ефективні результати в задачах розпізнавання слів невеликого словника. Інший підхід, заснований на методах пофонемного і сегментно-складового розпізнавання, застосовується при розпізнаванні злитної мови й ізольованих слів великого словника. Розробкою систем розпізнавання мовних голосових сигналів, що використають ці та інші підходи, займаються дослідницькі колективи в Дніпропетровському національному університеті (О.Н. Карпов), Київському національному університеті (Ю.В. Крак), в Інституті проблем штучного інтелекту МОН і НАН України (А.І. Шевченко, В.Ю. Шелепов).
Проблеми, що виникають при розпізнаванні мовних голосових сигналів, пов'язані з варіативністю сигналу, шумом навколишнього середовища та звукозаписуючого обладнання. Для опису локальних особливостей неоднорідних сигналів і зниження рівня шуму ефективно використається вейвлет-перетворення, теоретичні основи якого були викладені у працях А. Гроссмана, Ж. Морле, І. Добеші, С. Малла, І. Мейера, Ч. Чуі та ін. Використання вейвлетів може значно розширити алгоритмічну і методичну базу для створення інформаційних технологій обробки і аналізу мовних голосових сигналів.
Дана дисертаційна робота присвячена розробці нових методів та методик, спрямованих на підвищення ефективності розпізнавання мовних голосових сигналів в умовах шуму, а також пошуку параметрів, описуючих акустичні характеристики звуків мовлення на основі вейвлет-аналізу та інваріантних до інтенсивності сигналу.
Мета і задачі дослідження. Метою дисертаційної роботи є розробка на основі методів вейвлет-аналізу методик і алгоритмів, що здійснюють обробку й розпізнавання мовних голосових сигналів в системах пофонемного розпізнавання.
Для досягнення поставленої мети необхідно вирішити наступні задачі:
- провести аналіз існуючих методів параметризації мовного голосового сигналу, його цифрової обробки та розпізнавання;
- на базі методів вейвлет-аналізу розробити методики й алгоритми попередньої обробки голосового сигналу, що полягає в зниженні рівня шуму і знаходженні границь слів;
- використовуючи вейвлет-спектр мовного голосового сигналу, розробити методики і алгоритми його сегментації;
- розробити методики й алгоритми класифікації отриманих сегментів мовного голосового сигналу та розпізнавання фонем;
- розробити інформаційну технологію попередньої обробки мовного голосового сигналу і класифікації фонем;
- здійснити перевірку функціонування розроблених методик й алгоритмів на незалежній статистичній вибірці з метою оцінювання ефективності їх роботи.
1. Аналіз вітчизняної та зарубіжної літератури з питань, пов'язаних з темою дисертації
Розглянуті утворення й артикуляційна класифікація звуків мовлення, психоакустичні принципи сприйняття звуку й часові та спектральні характеристики звуків мовлення, що використовуються для їхньої класифікації. Проведено аналіз методів параметризації мовного голосового сигналу, методів попередньої обробки голосового сигналу і його сегментації, основні підходи до розпізнавання мовних голосових сигналів, які застосовуються в існуючих системах розпізнавання як складових частинах інтелектуальних систем. До недоліків існуючих методів попередньої цифрової обробки сигналу належить можливість прийняття короткочасного шуму з високою амплітудою за мовлення. Крім того, більшість детекторів мовлення не здатні знаходити границі мовлення в умовах шуму, рівень якого перевищує або наближений до рівня шумних глухих щілинних і зімкнено-щілинних звуків мовлення. Для розв'язання цієї проблеми необхідно при формуванні набору ознак, що визначають початок і кінець слова, ураховувати спектральні характеристики широких фонетичних класів звуків мовлення, а також їх тривалість. Методи класифікації фонем, що ґрунтуються на нейромережах, мають ряд переваг у порівнянні зі статистичним підходом. При пофонемному розпізнаванні з метою прискорення процедури навчання й підвищення якості розпізнавання слушним є використовувати сполучення акустико-фонетичного й нейромережного підходів. На основі проведеного аналізу сформульовано задачі й обрано методи акустико-фонетичного і нейромережного підходів розпізнавання фонем.
2. Методики попередньої обробки голосового сигналу, що використовують вейвлет-аналіз
У зв'язку з цим у розділі: запропоновано процедури обчислення вейвлет-спектра на основі неперервного вейвлет-перетворення (CWT) цифрового сигналу, що враховують область локалізації базисних функцій; з урахуванням обраного масштабуючого коефіцієнта обчислено необхідні для обробки й аналізу мовного голосового сигналу мінімальні й максимальні рівні розкладання за вейвлет-базисами та АЧХ банків відповідних фільтрів; для фонем різних класів проведено дослідження на інформативність вейвлет-базисів різного порядку на основі неперервних і дискретних вейвлетів; у відповідності з обраним вейвлетом розроблено методики зниження рівня шуму й виділення мовлення із голосового сигналу на основі методів вейвлет-аналізу. Під терміном «шум» у контексті даної роботи розуміється шум навколишнього середовища, під терміном «фон» - шум звукозаписуючого обладнання.
За функціонал інформаційної цінності було обрано ентропію розподілу енергії. Серед досліджених щодо інформативності вейвлет-базисів найбільш оптимальним для неперервних вейвлетів є базис Морле, для дискретних - Добеші 4-го порядку.
Методика попередньої обробки голосового сигналу, що запропонована в дисертаційній роботі, складається з п'яти етапів: обчислення порогів за зразком шуму або фону; маркування фреймів; знаходження границь слова; видалення шуму з вейвлет-образу сигналу; відновлення сигналу за оновленими коефіцієнтами. Вхідними даними цієї процедури є сигнал x(n), який містить шум, і зразок шуму (n), або x(n), що не містить шум, і зразок фона p(n); вихідними даними - відліки L, R вхідного сигналу, які відповідають лівій і правій границям слова; обчислені пороги , , (m), (m); оновлений сигнал ; усереднена енергія E(m) сигналу (n) на рівні розкладання m.
1. На етапі обчислення порогів виконується вейвлет-перетворення сигналу по рівнях j=jmin,…,jmax, розбиття його на фрейми довжини N та обчислення порогів для маркування цих фреймів:
а) пороги для сигналу, що містить шум, обчислюються за зразком шуму:
, , (1)
де F - множина фреймів сигналу, на які розбивається (n); C(m,s) - міра контрастності, що знаходиться для кожного фрейму s за формулою:
, (2)
(Es(m) - енергія вейвлет-спектра фрейму s на рівні розкладання m) та окреслює розподіл енергії вейвлет-спектра за масштабами. Ця характеристика використовується в роботі для аналізу часової динаміки енергії спектра мовного голосового сигналу.
б) якщо сигнал не містить шум, пороги обчислюються на основі вейвлет-спектру Добеші на рівні розкладання j, що відповідає діапазонам частот основного тону (100-300 Гц), і j, що відповідає діапазону частот 4-8 КГц, де зосереджена енергія шумних глухих щілинних або зімкнено-щілинних звуків:
, , (3)
де Aver, Aver - енергії вейвлет-спектра Добеші рівнях розкладання j, j, усереднені по фреймах, на які розбивається сигнал p(n); D, D - оцінки дисперсій цих енергій на відповідних рівнях.
2. На етапі маркування фрейм сигналу класифікується, як показано на рис. 1. Він може містити звуки наступних класів: Voc - вокалізований; Sh - шумний глухий щілинний або зімкнено-щілинний; P - шумний глухий зімкнений; Noise - шум або фон.
Функція маркування має вигляд (4):
(4)
Щоб не приймати короткочасний високоамплітудний шум за мовлення, введено правило, що уточнює маркування фреймів з урахуванням мінімальної довжини (кількості фреймів) фонеми Lmin:
N1,N2: (0<N2-N1<Lmin)(Mark(N1)=0Mark(N2)=0) Mark(N1+1)0 Mark(N2-1)0)s:N1<s<N2 Mark(s)=0
3. Знаходження границь слова здійснюється за допомогою функції маркування (4). Номери відліків L і R сигналу, які є лівою й правою границями слова, знаходяться за формулами:
Nl: (s<Nl Mark(s)=0) Mark(Nl)0 L=NlN.
Nr: (s: Nr <sNr+Lmax Mark(s)=0) Mark(Nr)0 R=NrN.
де Lmax - кількість фреймів, що відповідає максимальній довжині звуку класу P; N - довжина фрейму; Nl, Nr - номери фреймів, що відповідають лівій і правій границям слова.
4. При видаленні шуму з вейвлет-образу s-го фрейму ((s-1)Nm<sN) враховується його маркування:
Mark(s)=0i: jmin i jmax (5)
Mark(s)=1
(6)
Mark(s)=2 (7)
5. На етапі відновлення сигналу виконується обернене вейвлет-перетворення за оновленими коефіцієнтами (5)-(7).
Таким чином, розроблені в другому розділі методики попередньої обробки голосового сигналу дозволяють здійснити зниження рівня шуму, первинну сегментацію мовного голосового сигналу з одночасною класифікацією сегментів, знаходження границь слова. Урахування акустичних особливостей широких фонетичних класів звуків мовлення на етапі маркування фреймів виключає можливість прийняття короткочасного високоамплітудного шуму за мовлення і підвищує ефективність подальшого розпізнавання.
3. Методики сегментації мовного голосового сигналу, формування наборів ознак розпізнавання, на основі яких проводиться класифікація сегментів
Запропонована в роботі методика сегментації складається із двох етапів: первинної й детальної сегментації. Первинна сегментація голосового сигналу здійснюється під час його попередньої обробки та полягає в розбивці слова на ділянки, кожна з яких відповідає одному з класів звуків мови: Voc, Sh, P.
Детальна сегментація проводиться на вокалізованих ділянках сигналу та передбачає їх розбивку на більш дрібні структурні одиниці. У ролі таких одиниць виступають наступні класи фонем: шумні дзвінкі щілинні (Cons1); шумні дзвінкі зімкнені (Cons2); сонанти (Son); голосні (Vow).
На міжфонемних переходах сигнал зазнає значних змін одразу на багатьох масштабах дослідження, що веде до стабільного зростання або убування вейвлет-коефіцієнтів. Показником зміни спектра можуть служити міри контрастності (2), отримані на основі вейвлета Добеші. Наявність екстремумів функції C(m,s) на різних масштабах дослідження говорить про порушення однорідності сигналу. Сегментація вокалізованих ділянок мовного голосового сигналу здійснюється за допомогою функції однорідності (m,s)=C(m,s+1)-C(m,s) (m=1,…,5) шляхом визначення проміжків її знакопостійності, кожний з яких відповідає одній структурній одиниці. Аналіз динаміки енергетичних характеристик вейвлет-спектра Добеші за допомогою функції (m,s) дозволяє визначити міжфонемні переходи незалежно від голосових даних диктора й інтенсивності сигналу.
Для класифікації отриманих сегментів у розділі приводяться стандартні методики формування наборів ознак, що використовують швидке перетворення Фур'є (FFT), мел-частотні кепстральні коефіцієнти (MFCC), метод кодування з лінійним передбаченням (LPC), а також розроблено власні набори ознак на їх основі та на базі вейвлет-спектра.
Для одержання ознак дискретного сигналу s(n) (0nN-1) на основі спектра Фур'є S(i) він розбивається на фрейми довжиною N. На кожному з них формуються вектори ознак, компонентами яких є:
- нормований енергетичний спектр:
, 1iN/2-1;
- кумулятивне відношення:
, 1kN/2-1;
- міра контрастності, побудована на основі FFT, 1kL, де L - кількість спектральних смуг, N1k й N2k - границі k-ої смуги.
Ознаки на основі лінійного передбачення порядку моделі мовного тракту p також обчислюються на фреймах сигналу. Для розпізнавання мовних голосових сигналів використовують наступні характеристики: коефіцієнти LPC; коефіцієнти відбиття LPC; кепстр імпульсної характеристики системи лінійного передбачення; площі поперечних перетинів кусочно-постійної акустичної труби; нормована автокореляція LPC; нормована автокореляція; нормований енергетичний спектр LPC. На основі коефіцієнтів енергетичного спектра LPC W(i) за аналогією до міри контрастності (2) у роботі пропонується наступний набір ознак:
, 1iN/2-1
На основі вейвлет-спектра у роботі пропонується набір ознак, побудованих за допомогою міри контрастності (2):
, 1kjmax-jmin(8)
Однією з ознак класифікації звуків на вокалізовані й невокалізовані є довжина періоду основного тону T. Для її визначення в роботі пропонується методика, що базується на вейвлет-аналізі. Вейвлет-коефіцієнти Морле на множині рівнів розкладання Mvoc, що відповідають смузі частот основного тону (до 300 Гц), являють собою надто згладжену й усереднену щодо сигналу s(n) функцію. Оптимальний рівень mT для визначення T характеризується мінімальною кількістю локальних екстремумів вейвлет-спектра. У цьому випадку T являє собою усереднену різницю між відліками, що відповідають сусіднім максимумам на рівні розкладання mT.
Використання T, енергій спектра E={E(i)}i=1,…,P, обчислених за допомогою вейвлетів Добеші, і вектор ознак X, отриманий відповідно до (8) на основі вейвлета Морле, дозволяє проводити класифікацію звуків. Тобто звуки російської мови можна представити таким чином:
S=T, E(m),X (9)
З метою підвищення ефективності розпізнавання процедура класифікації розбивається на два етапи: узагальнену й детальну класифікацію.
У ході узагальненої класифікації сегмент, що розпізнається, належить до найближчого із широких фонетичних класів (10):
={l}l=1,…,6={Cons1, Cons2, Son, Vow, Sh, P} (10)
за такими правилами:
S: E(j)< T<Tmin E(j)< SP
S: E(j)< T<Tmin E(j)> SSh
S: E(j)> Tmax<T<Tmin SCons1
S: E(j)> Tmax<T<Tmin SCons2
S: E(j)> Tmax<T<Tmin SSon
S: E(j)> Tmax<T<Tmin SVow
де i - відстань між вектором ознак розпізнаваного сегмента та центроїдом класу i.
Детальна класифікація у межах кожного класу i здійснюється з використанням багатошарового персептрона. Результатом детальної класифікації сегмента є номер фонеми в класі i, визначений відповідно до (11):
, (11)
де L - число шарів; - вихід j-го нейрона k-го шару, , j=1,…,Nk; Nk - число нейронів в k-м шарі; - ваговий коефіцієнт від i-го нейрона до j- го нейрона на k-му шарі; fk - функція активації k-го шару; - граничні значення, які вибираються на етапі ініціалізації мережі; X - вектор ознак сегмента, що розпізнається.
Запропонована методика класифікації звуків мовлення об'єднує в собі акустико-фонетичний і нейромережний підходи до розпізнавання мовного голосового сигналу, що приводить до прискорення процедури навчання у порівнянні зі звичайним нейромережним підходом і до зменшення кількості помилок при розпізнаванні.
4. Розробка алгоритму на базі запропонованих методи, що реалізують функції обробки, сегментації мовного голосового сигналу й класифікації звуків мовлення, виконано порівняльний аналіз ефективності наборів ознак, що подаються на вхід нейромережі для розпізнавання фонем, і функціонування алгоритмів зниження рівня шуму
Ці алгоритми лежать в основі інформаційної технології (ІТ), що складається із 4 блоків: зниження шуму, визначення границь слова й сегментації, узагальненої класифікації, розпізнавання фонем. Результати режиму їх навчання заносяться у відповідні розділи бази даних шуму й фонем, що необхідна для функціонування блоків в робочому режимі. Вона складається із чотирьох розділів: у розділ 1 заносяться пороги (1) і усереднені енергії шуму E(m); у розділ 2 - пороги (3); у розділ 3 заносяться набори ознак (9), побудовані за навчальною вибіркою, та інформація про фонетичний склад класів (10); у розділ 4 - результати навчання нейромережі для кожного із класів (10).
Для проведення порівняльного аналізу методів зниження рівня шуму були реалізовані алгоритми зниження рівня шуму на основі: швидкого вейвлет-перетворення (FWT) Добеші 4-го порядку; FFT; апроксимованого CWT Морле; метода спектрального вирахування за правилами Эфраїма і Малаха (EMSR). У дослідженні брали участь 100 дикторів (чоловіків і жінок з різними голосовими даними), які вимовляли набір слів із різним сполученням фонем. Записувані сигнали зашумлювалися коричневим, рожевим і білим шумом за допомогою програми CoolEdit 95. Відношення сигнал/шум при цьому дорівнювало 12 db, 15 db та 18 db відповідно.
Отримані результати порівнювалися з результатами очищення сигналу за допомогою відомих програмних пакетів роботи зі звуком: Adobe Audition v1, Clear Voice Denoiser; Nero WaveEditor v3, а також пакета по вейвлетам Wavelets Toolbox системи Mathlab, що використовує метод очищення сигналу на основі дискретного вейвлет-перетворення й м'якого та жорсткого порогів. Для оцінки роботи всіх використовуваних методів запропоновано функціонал цілі:
,
де , - s-ий фрейм вихідного сигналу та очищеного сигналу відповідно.
У таблиці. 1 для розглянутих методик (програмних пакетів роботи зі звуком) наведені середні значення F, обчислені для всіх дикторів за всіма словами. Найкращі результати дають методики, засновані на неперервному й дискретному вейвлет-перетворенні.
Таблиця 1 - Результати чисельного дослідження роботи методик (програмних пакетів) з видалення шуму
Методика (пакет) |
коричневий шум |
рожевий шум |
білий шум |
|
FFT |
25467 |
101515 |
2312 |
|
FWT |
111 |
87 |
70 |
|
апроксимоване CWT |
88 |
77 |
70 |
|
EMSR |
87095 |
180327 |
59067 |
|
Mathlab (м'який поріг) |
34471200 |
5918970 |
17919 |
|
Adobe Audition |
29419 |
24622 |
12377 |
|
Clear Voice Denoiser |
356624 |
2840980 |
18122 |
|
Nero WaveEditor |
14628 |
1342810 |
27442 |
|
Mathlab (жорсткий поріг) |
34514695 |
5918960 |
17402 |
Методики формування наборів ознак розпізнавання, розглянуті в розділі 3, базуються на моделях слухового сприйняття й мовотворення. З метою вибору найбільш ефективних з них було проведено ряд експериментів, у яких брало участь 100 дикторів. Кожен диктор по 10 разів вимовляв слова, з яких виділялися фонеми. Отримані для цих фонем вектори ознак подавалися на вхід двошарової нейромережі, в якості функцій активації шарів обрано сигмоїду і гіперболічний тангенс. Навчання нейромережі й розпізнавання здійснювалося окремо для кожного з ШФК (10). Серед досліджених наборів ознак найбільш ефективними за результатами розпізнавання виявилися ознаки, побудовані на основі міри контрастності вейвлета Морле, а за швидкістю навчання - MFCC. Фонеми, що входять у клас Cons2, у своїй стаціонарній частині мають незначні відмінності, тому імовірність розпізнавання в межах цього класу надто низька за всіма запропонованими наборами ознак (нижче 0,52) У зв'язку з цим доцільно, об'єднавши ці фонеми в один клас, не розпізнавати їх у межах цього фонетичного класу.
Для підвищення ефективності розпізнавання використовувався тришаровий персептрон і набір ознак (2) на основі вейвлета Морле. Для знаходження загальної кількості нейронів n у прихованих шарах було проведене чисельне дослідження, при цьому вважалося, що обидва шари містять однакову кількість нейронів, а за функцію активації першого прихованого шару було взято сигмоїду, інших шарів - гіперболічний тангенс. Результати чисельного дослідження для різних значень n були зведені в табл. 2, куди занесені: N - кількість циклів навчання мережі; p - імовірність розпізнавання фонем у межах досліджуваних класів.
Таблиця 2 - Результати навчання й розпізнавання фонем в межах широких фонетичних класів тришарової нейромережі на основі міри контрастності вейвлета Морле
Кількість нейронів |
Sh |
Cons1 |
Son |
Vow |
|||||
N |
p |
N |
p |
N |
p |
N |
p |
||
20 |
336 |
0,934 |
110 |
0,989 |
1173 |
0,948 |
60 |
0,986 |
|
30 |
354 |
0,937 |
126 |
0,990 |
1207 |
0,948 |
68 |
0,988 |
|
40 |
362 |
0,942 |
137 |
0,990 |
1241 |
0,949 |
80 |
0,989 |
|
50 |
377 |
0,957 |
141 |
0,990 |
1259 |
0,950 |
83 |
0,989 |
|
60 |
381 |
0,960 |
148 |
0,990 |
1274 |
0,951 |
92 |
0,990 |
|
70 |
407 |
0,979 |
159 |
0,990 |
1287 |
0,965 |
115 |
0,990 |
|
80 |
412 |
0,979 |
167 |
0,990 |
1296 |
0,965 |
127 |
0,990 |
Як можна бачити з табл. 2, для якісного розпізнавання в межах кожного із класів (10) достатньо n=70.
Таким чином, у четвертому розділі було розроблено ІТ, що реалізує обробку МГС і класифікацію звуків мовлення; проведено порівняльний аналіз ефективності наборів ознак, що подаються до нейромережі для розпізнавання фонем, та роботи алгоритмів зниження рівня шуму.
Висновки
голосовий цифровий вейвлет параметризація
У дисертаційній роботі представлено вирішення актуальної наукової задач попередньої обробки МГС, сегментації і пофонемного розпізнавання на основі вейвлет-аналізу. Аналіз отриманих результатів дозволяє зробити наступні висновки.
1. Проведений аналіз існуючих методів параметризації й розпізнавання МГС показав необхідність застосування методів обробки сигналу, що забезпечують рухливе частотно-часове вікно, об'єднання акустико-фонетичного й нейромережного підходів до розпізнавання МГС, а також дозволив сформулювати постановку задачі дослідження.
2. Враховуючі обраний коефіцієнт масштабування, були обчислені необхідні для аналізу МГС мінімальні й максимальні рівні розкладання за досліджуваними вейвлет-базисами, центральні частоти й смуги пропускання відповідних вейвлет-фільтрів та їх АЧХ. Подібні характеристики банків фільтрів відповідають поведінці щільності енергетичного спектра МГС й дозволяють сформувати набори ознак для опису динаміки сигналу з урахуванням абсолютного порога чутності.
3. Для параметризації звуків мовлення експериментально був обраний оптимальний вейвлет-базис за критерієм мінімуму ентропії коефіцієнтів вейвлет-спектра FWT й CWT.
4. Удосконалено методики зниження рівня шуму і знаходження границь слів в голосовому сигналі за рахунок виконання класифікації його фреймів, що дозволяє враховувати акустичні особливості ШФК звуків мовлення. Це виключає можливість прийняття короткочасного високоамплітудного шуму за мовлення, низькоамплітудного МГС за шум і підвищує ефективність подальшого розпізнавання.
5. Одержали подальший розвиток методики узагальненої і детальної сегментації МГС, що використовують FWT. Вони дозволяють виділяти міжфонемні переходи незалежно від голосових даних диктора та інтенсивності МГС в результаті аналізу динаміки енергетичних характеристик його вейвлет-спектра.
6. Розроблено методику визначення періоду основного тону за вейвлет-спектром. Сформовано набори ознак, що дозволяють зробити класифікацію фонем. При цьому для виділення акустичних характеристик звуків мовлення використовувалися методи, що базуються на психофізичних особливостях сприйняття мовлення, та методи, засновані на акустичній теорії мовотворення. Для класифікації сегментів запропонована методика, що поєднує в собі акустико-фонетичний і нейромережний підходи до розпізнавання МГС. Це дозволило прискорити процедуру навчання нейромережі та підвищити ефективність розпізнавання.
7. На базі запропонованих методик розроблено алгоритми попередньої обробки, сегментації голосового сигналу і класифікації звуків мовлення та виконано порівняльний аналіз ефективності їх роботи. Отримані результати функціонування алгоритмів зниження рівня шуму порівнювалися з результатами очищення сигналу за допомогою відомих програмних пакетів роботи зі звуком. Кращими є методики, запропоновані в дисертаційній роботі та засновані на вейвлет-перетворенні. Чисельне дослідження функціонування алгоритмів класифікації фонем полягало в порівняльному аналізі ефективності запропонованих у роботі наборів ознак і виборі архітектури нейромережі. Найкращими для розпізнавання в межах розглянутих ШФК є ознаки, засновані на мірі контрастності Морле. Помилки розпізнавання не перевищують 5 %.
8. На базі розроблених алгоритмів створено нову ІТ, що здійснює обробку МГС і класифікацію звуків мовлення. Її функціональна структура сформована у вигляді 4 блоків, які можуть функціонувати в режимі навчання або робочому режимі: зниження рівня шуму; визначен-ня границь слова й сегментації МГС; узагальненої класифікації; розпізнавання фонем. Для функціонування цих блоків у робочому режимі розроблено структуру бази даних фонем і шуму, що складається з 4 розділів, які заповнюються даними в результаті роботи відповідних блоків у режимі навчання.
Запропоновані методики та алгоритми можуть бути використані при розробці систем комп'ютерного розпізнавання мовних образів. Практична значимість підтверджена актами впровадження.
Література
1. Ермоленко Т.В. Применение вейвлет-преобразования для обработки и распознавания речевых сигналов // Искусственный интеллект. - 2002. - №4. - С. 200-208.
2. Yermolenko T.V. Segmentation of a speech signal with application of fast wavelet-transformation // International Journal on Information Theories and Applications. - 2003. - Vol. 10, №3. - P. 306-310.
3. Ермоленко Т. В. Фонетический анализ речевого сигнала на основе вейвлет-разложения // Искусственный интеллект. - 2003. - №3. - C. 409-416.
4. Ермоленко Т.В. Использование непрерывного вейвлет-преобразования при распознавании вокализованных участков речевого сигнала // Искусственный интеллект. - 2004. - №4. - С. 499-503.
5. Ермоленко Т.В. Разработка системы распознавания изолированных слов русского языка на основе вейвлет-анализа // Искусственный интеллект. - 2005. - №4. - С. 595-601.
6. Ермоленко Т.В. Методика формирования эталонов фонем, базирующаяся на вейвлет-преобразовании Морле // Таврический вестник информатики и математики. - 2006. - №1. - С. 127-132.
Размещено на Allbest.ru
Подобные документы
Розробка фільтру для обробки цифрових сигналів. Блок обробки реалізується на цифрових мікросхемах середньої ступені інтеграції. Аналіз вхідного сигналу, ідеального сигналу та шуму. Обґрунтування вибору фільтрів та алгоритму обробки вхідного сигналу.
курсовая работа [504,4 K], добавлен 18.09.2010Розробка, дослідження та реалізація методів вирішення завдань аналізу, розпізнавання і оцінювання зображень як один із провідних напрямків інформатики. Класифікація та аналіз існуючих методів розпізнавання образів, переваги та недоліки їх застосування.
статья [525,8 K], добавлен 19.09.2017Використання методів обробки сигналів, які базуються на використанні малохвильової теорії. Вимоги до алгоритмів компресії та критерії порівняння алгоритмів. Застосування вейвлет-перетворень. Критерії оцінювання оптимальності вибору малохвильових функцій.
реферат [1,1 M], добавлен 26.05.2019Структура та галузі застосування систем цифрової обробки сигналів. Дискретне перетворення Фур’є. Швидкі алгоритми ортогональних тригонометричних перетворень. Особливості структурної організації пам’яті комп’ютерних систем цифрової обробки сигналів.
лекция [924,7 K], добавлен 20.03.2011Комп’ютерне моделювання системи сегментації та розпізнавання облич на зображеннях. Підвищення швидкодії моделювання за кольором шкіри та покращення якості розпізнавання при застосуванні робастних boosting-методів. Розробка алгоритмів функціонування.
дипломная работа [1,6 M], добавлен 02.07.2014Огляд методів розпізнавання образів. Основні ідеї інформаційно-екстремального методу розпізнавання рукописних символів. Критерій оптимізації параметрів функціонування даної системи. Інформаційне та програмне забезпечення обробки рукописних символів.
дипломная работа [291,0 K], добавлен 14.10.2010Розробка методів вирішення завдань аналізу, розпізнавання, оцінювання зображень як одних з провідних напрямків інформатики. Описання методу пошуку співпадіння об’єкту-цілі з міткою-прицілом на заданому відеоряді. Виявлення об’єкта на цифровому зображенні.
статья [138,7 K], добавлен 21.09.2017Області застосування методів цифрової обробки зображень. Динамічний діапазон фотоматеріалу. Графік характеристичної кривої фотоплівки. Загальне поняття про High Dynamic Range Imaging. Тональна компресія та відображення. Головні стегано-графічні методи.
контрольная работа [1,6 M], добавлен 10.04.2014Принцип роботи СТО. Аналіз існуючих теоретико-практичних розробок по створенню інформаційних систем. Модель аналізу виконання робіт з ремонту й обслуговування на СТО. Розробка автоматизованої системи обробки інформації, опис програмного забезпечення.
дипломная работа [1,3 M], добавлен 11.10.2013Сегментація і нормалізація зображень. Основні функціональні можливості та режими роботи комплексу розпізнавання письмового тексту. Розробка комплексу оптичного розпізнавання символів. Шрифтові та безшрифтові алгоритми розпізнавання друкованого тексту.
курсовая работа [1,7 M], добавлен 19.05.2014