Особливості використання алгоритмів обробки мовленнєвого сигналу

Фіксація подій та реєстрація мовленнєвих повідомлень правоохоронними органами. Види шумових сигналів, вимірювання їх характеристик. Шумоочищення службової інформації, її фільтрація від завад. Пошук оптимальних методів кодування для розпізнавання мови.

Рубрика Коммуникации, связь, цифровые приборы и радиоэлектроника
Вид статья
Язык украинский
Дата добавления 03.06.2021
Размер файла 27,9 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://allbest.ru

Державний науково-дослідний інститут МВС України

(ДНДІ МВС України)

Особливості використання алгоритмів обробки мовленнєвого сигналу

К.В. Заїчко,начальник відділу

Д.С. Назарок,старший науковий співробітник

м. Київ, Україна,

Анотація

До практичних завдань, що виконуються правоохоронними органами, належать фіксація подій та реєстрація мовленнєвих повідомлень. Повідомлення про події, правопорушення, інциденти можуть мати емоційний характер та надсилаються з місць з несприятливими акустичними умовами. До таких умов відносять наявність шумів різного походження, які негативно позначаються на якості та розбірливості повідомлень.

Мовленнєві сигнали, що реєструються у природній акустичній обстановці, переважно містять спотворення, що обумовлені фоновим шумом. Шуми значно ускладнюють процеси обробки, у тому числі кодування. Нині провадяться розробки за напрямами шумоочищення та фільтрації від завад. Ці заходи можуть супроводжуватися перетвореннями, під час яких виникають побічні завади - так звані музичні шуми. Пошук оптимальних налаштувань окремих методів дасть змогу отримати позитивні результати для розпізнавання мови.

Ключові слова: шумопридушення, голосова активація, фільтрування шумів.

Аннотация

К практических задачам, выполняемым правоохранительными органами, относятся фиксация событий и регистрация речевых сообщений. Сообщения о событиях, правонарушениях, инцидентах могут носить эмоциональный характер и отправляются с мест с неблагоприятными акустическими условиями. К таким условиям относится наличие шумов различного происхождения, что отрицательно сказывается на качестве и разборчивости сообщений. Речевые сигналы, регистрируемые в естественной акустической обстановке, преимущественно содержат искажения, обусловленные фоновым шумом. Шумы значительно усложняют процессы обработки, в том числе кодирования. В данное время ведутся разработки по направлениям шумоочищения и фильтрации от помех. Эти меры могут сопровождаться преобразованиями, при которых возникают побочные помехи - так называемые музыкальные шумы. Поиск оптимальных настроек отдельных методов позволит получить положительные результаты для распознавания речи.

Ключевые слова: шумоподавление, голосовая активация, фильтрация шумов.

Розгляд та дослідження параметрів шумів і артефактів, що утворюються в процесі оброблення сигналів, упровадження алгоритмів фільтрації сигналів сприятимуть зменшенню залежності від негативного впливу. Метою дослідження є порівняльний аналіз результатів окремих досліджень та формулювання низки рекомендацій з обробки інформації під час її реєстрації в умовах дії шумів різної природи, а також окреслення шляхів вирішення поставлених питань [1].

Будемо вважати, що шум є одним із основних факторів, від якого залежить якість записаного мовленнєвого повідомлення. Зосередимо увагу на основних параметрах шумів. Як відомо з літературних джерел, шум - це сукупність неперіодичних звуків різної інтенсивності та частоти [2]. З фізіологічної точки зору, шум - це будь-який несприятливий звук. За характером спектра виділяють: широкосмуговий шум з безперервним спектром шириною більше ніж 1 октава; тональний шум, у спектрі якого виражений тон (якщо одна з третьооктавних смуг частот перевищує інші не менші, ніж 10 дБ (утричі). Шум розподіляється за частотою: низькочастотний (до 300 Гц), середньочастотний (до 800 Гц) та високочастотний (понад 800 Гц). За часовими характеристиками вирізняють стаціонарний та нестаціонарний. Останній поділяється на коливальний, переривчастий та імпульсний. За природою утворення виділяють механічний, аеродинамічний, гідравлічний та електромагнітний. За розподіленням спектральних складових вирізняють білий (рівномірне розподілення у всьому діапазоні), кольорові (окремі види шумових сигналів мають визначене місце), рожевий (рівень звукового тиску змінюється за октавною смугою частот). Вимірювання шуму проводять у дБ (децибелах).

Для кількісної оцінки шуму використовують усереднені параметри, які визначають на основі статистичних законів. Для вимірювання характеристик шуму використовують шумоміри, частотні аналізатори, коррелометри та інші пристрої. Рівень звуку розмови становить до 45 дБ, офісу - до 60 дБ, вулиці - до вулиці до 80 дБ, виробництво - до 110 дБ [2].

Якщо співвідношення між рівнем корисного сигналу та рівнем шуму знаходиться поза діапазоном 10 дБ, то використання методів шумопридушення є вкрай складними. Нині дослідження зосереджені на екстремальному та помірному співвідношенні, тобто 10 та 20 дБ. За інформацією [6], частина систем шумопридушення працюють у частотній області із застосуванням методу спектрального зваження. На думку дослідників [1], для цього методу характерний негативний ефект - поява в реконструйованому мовленнєвому сигналі спотворень. Такі спотворення в літературі отримали назву “музичний шум” або “музичні тони”.

Сигнали можуть бути оброблені з використанням аналогових методів (ASP - аналогова обробка сигналів), цифрових методів (DSP - цифрова обробка сигналів) або комбінованим методом поєднання аналогових та цифрових методів (MSP - комбінований метод обробки сигналів). У деяких випадках вибір може бути оптимальним стосовно цифрових методів, а в інших оптимальним буде комбінований [3].

Серед алгоритмів та програмного забезпечення наявні методи та способи, що можуть дозволити фільтрувати періодичні та постійні шуми. Створення маски відповідного шуму дає можливість здійснювати очищення з початку запису або всього накопиченого матеріалу. Водночас можуть бути наявні хаотичні шуми, і алгоритм з попередньо накопиченою маскою може не дозволити отримати позитивний результат із проведення очищення інших фрагментів. Пропонується впровадження декількох методів та рішень, серед яких:

- спектральне віднімання шумів;

- активне шумопридушення;

- обмеження частотної смуги обробки.

Розглянемо особливості методів, що віднайшли розповсюдження у різних системах обробки інформації.

Спектральне віднімання можна вважати одним із загальноприйнятих методів. Для упровадження зазначеного методу використовують ряд припущень, серед яких те, що спектр потужності записаного мовленнєвого сигналу дорівнює сумі спектра чистого сигналу та зашумленого некорельованого шуму. Для аналізу розглядаються короткі часові інтервали близько 25 мс. Основу методу складає добуток обрахування спектра потужності кожного сегменту вхідного сигналу та віконної вагової функції і віднімання спектра потужності з отриманого спектразашумленого сигналу. Інформація щодо фази частотних компонент для синтезу сигналу, очищеного від шуму, береться з дискретного перетворення Фур'є. На думку дослідників [1], серед проблем такого методу придушення шуму є той факт, що в обробленому сигналі утворюється додатковий шум. Він може сприйматися як музичний тон, що має хаотичний порядок. Як згадувалося раніше, такий шум отримав назву музичного шуму. Разом зі зменшенням загального рівня шуму його значна частина залишається в обробленому сигналі. Попередньо метод спектрального віднімання був скерований на очищення сигналу від білого шуму. У спектрі останнього обрахованого на короткому інтервалі часу наявні максимуми та мінімуми. їх параметри (частотне положення та амплітуда) є випадковими й хаотично змінюються на короткому інтервалі часу для кожного наступного сегменту. На час віднімання згладженої оцінки спектра шуму з поточного спектра локальні максимуми спектра зміщуються вниз. Оточення мінімуму отримують значення нуль. Таким чином, у спектрі шуму залишаються локальні максимуми, а найбільш широкі з них на слух сприймаються як такі, що змінюються, - широкосмуговий шум. Більш вузькі спектральні максимуми, що мають тривалість та зміщуються за частотою, утворюють так звані спектральні траси і сприймаються як тон, що змінюється в часі, - отримали назву музичний шум [1]. Наступним етапом розвитку можна вважати модифікацію методу спектрального віднімання. Основою його стала мінімізація вузькосмугових спектральних максимумів шляхом скорочення їх так званих спектральних трас. Результатом модифікації можна вважати зменшення сприйняття музичного шуму.

У дослідженнях [4] у якості послідовності методу спектрального віднімання пропонується реалізація ряду етапів:

- усереднене оцінювання спектра фонового шуму;

- розкладання кожного фрейму, що надходить до спектра;

- віднімання спектра шуму із спектра сигналу;

- зворотне перетворення Фур'є для повернення до часової області.

Уважається, що після виконання описаних вище дій шум придушується,

проте залишаються наявні окремі завади у вигляді тріскоту в період мовлення. На думку інших дослідників, тріскіт може бути наслідком аліасингу. Слід правильно добирати фільтри-прототипи (вікна) та коефіцієнти децимації-інтерполяції (перекриття блоків), і тоді можливо проводити фільтрування у частотній області без тріскоту. Разом з тим підбір розмірів блоку швидкого перетворення Фур'є може поліпшити параметри фільтру та відповідно позбавитись від тріскоту.

Окремі дослідження доводять, що дискретне перетворення Фур'є є потужним засобом для частотного аналізу в переважній більшості для постійної роздільної здатності. Беручи до уваги особливості сучасних моделей сприйняття акустичної інформації, постає необхідність у нерівносмуговій частотній декомпозиції сигналу відповідно до шкали критичних смуг. Упродовж останнього часу набуває

упровадження метод перетворення з нерівномірним частотним розподіленням. Залежно від застосування помилка в реконструкції мовленнєвого сигналу впливає на якість синтезованого сигналу. Прикладом може бути редагування шумів навколишнього середовища - компроміс між частотним розділенням та помилкою синтезу.

Детектор мовленнєвої активності. Реалізацію детектора мовленнєвої активності можна представити шляхом аналізу фрейму сигналу та порівняння його з енергією оцінки шуму. Фрейми, що містять мову, у середньому мають володіти більшою енергією, ніж фрейми, які містять виключно шум. На практиці частіше використовується параметр сегментного співвідношення сигнал/шум. У процесі роботи системи шумопридушення для кожного фрейму, що надходить, провадять розрахунок порівняння сегментного співвідношення сигнал/шум та порогового значення, яке визначають експериментальним шляхом. Якщо останнє менше, то вважається, що сегмент містить мовленнєву активність.

Разом з тим у роботі детектора можливі помилки у вигляді появи хибних компонент у спектрі потужності шуму. Оцінка потужності шуму відбувається тільки у тих фреймах вхідного сигналу, на яких відсутня мовленнєва активність. Оцінку можна проводити методом експоненціального усереднення.

Детектор можна вважати простим класифікатором мовленнєвого сигналу (VAD - Voice Activity Detector). Серед реалізації способів виявлення активної мови виділяють декілька груп, серед яких обробка аналогового сигналу, обробка цифрового сигналу та комбіновані. Для пакетної реєстрації та передавання сигналу предметом розгляду має бути цифрова обробка сигналу. Не останню роль відіграє вибір методу перетворення мовленнєвого сигналу. У вхідному сигналі проводиться виокремлення активної фази мови та паузи. У такому разі фрагменти сигналу, котрий класифікований як активна мова, можуть бути закодовані одним із алгоритмів, наприклад - CELP. Швидкість пакетів: 4-8 кбіт/с. Фрагменти, що віднесені до паузи, кодуються та передаються на низькій швидкості 0,1--0,2 кбіт/с або взагалі не передаються. Проте вважається, що передачу інформації щодо паузи не варто відкидати. Застосування детектора активності мови може супроводжуватися негативними явищами, до яких слід віднести розриви мови та ідентифікацію шуму як активної фази мови. Високий коефіцієнт активності негативних явищ призводить до інтерференції. Під час генерації шуму на стороні детектора останній має бути максимально наближеним до натурального, тріскоту при крокуванні, шуму транспортного засобу та ін. Подібний шум отримав назву комфортного.

Практичні напрацювання окремих досліджень дають такі твердження:

- мова є нестаціонарним сигналом;

- форма спектра мови змінюється через короткі відрізки до 30 с;

- фоновий шум може мати стаціонарну природу та незначну зміну в часі;

- рівень мовленнєвого сигналу вищий від рівня фонового шуму (інакше мова є нерозбірливою).

Складність VAD обумовлюється низкою факторів:

- акустичні шуми (значний рівень шумового фону приміщення);

- наявність шумових імпульсів незначної тривалості, що відповідно не мають інформаційної складової (не є фонемами або їх частинами), разом з тим утворюються під час синтезу мови;

- високі вимоги до параметрів точності та швидкості аналізу.

Швидкість аналізу важливим 0актором під час аналізу мови та утворення на початку слів коротких 0онем, що відповідають таким звукам г, к, п, б, ф, д, т та ін., тривалість яких не перевищу 25 мс. Зріз початкових 0онем у зазначених випадках украй небажаним, оскільки призводить до погіршення розбірливості мови.

У системах, де рівень 0онового шуму низьким, для визначення ділянок тиші нерідко використовують спосіб простого енергетичного порогу сигналу. Недоліком способу можна вважати невисоку енергію невокалізованих глухих звуків, таких як ф, х, ш, щ, с, т та ін. Енергія таких звуків може бути на рівні енергії шуму або паузи. У зв'язку з цим, на першому етапі оцінки вікон, тобто під час порівняння значень короткочасних енергій з пороговим рівнем, з'являться вірогідність втрати невокалізованих звуків - іденти0ікації їх як шуму. Пониження значення порогового рівня призводить до зворотного е0екту - прийняття шумів разом з невокалізованими звуками. Пропонується замість енергетичної характеристики сигналу використовувати результати тонкої структури частотних звуків та пауз.

У системах зі змінним 0оновим шумом необхідно використовувати складні алгоритми, особливо для рухомих систем, у яких рівень шуму високий та змінюється, що призводить до неможливості використання виключно звичайного енергетичного порогу. Неможливо відрізнити композит мови та 0онового шуму від самого 0онового шуму. У зв'язку з тим, що рівень 0онового шуму змінюється, поріг ма носити адаптивний характер. Однак значення порогу повинно оновлюватися виключно в разі присутності мови. З цією метою проводять перевірку спектральних характеристик для визначення щодо подібності обраного відрізку та віднесення на мову з 0ормою спектра, що часто змінюється, або віднесення до шуму з незмінною спектральною щільністю. Мова може бути класи0ікована як голос з малозмінним сильним основним тоном, і для зменшення вірогідності помилки поста необхідність розгляду періодичності всередині 0рейму [5].

У інших джерелах [6] детектор активації мови розглядається як технологія стиснення мовленнєвого сигналу, за рахунок кодування пауз та впровадження системи енергозбереження. Підвищення е0ективності роботи визначає, у першу чергу, раціональне завантаження апаратної частини. Для збільшення обсягів ін0ормації, що передасться, застосовують низку методів, до яких належить стиснення. Для мови характерною надлишковість. Є алгоритми, що зменшують параметр надлишковості, виділяючи виключно значимі елементи мови. Можливе одночасне використання декількох технологій компресії мовленнєвих даних, які об'єднують під загальною назвою “головний кодек” або “вокодер”. Найбільш поширеним способом стиснення мовленнєвих даних зменшення пауз між 0разами, словами, окремими звуками. Як засвідчили численні дослідження, у мовленні (монолог) може міститися до S пауз, а в діалозі їх обсяг може становити значно більше [6].

Алгоритм VAD працю не окремо, а як одна з операцій у процесі кодування мовленнєвого сигналу. Зазвичай наявність пауз визначається на основі аналізу оци0рованих пакетів мовленнєвих даних, які становлять відрізки сигналів. Як саме визначити паузу, тобто підібрати критерій, який дозволив би з певною вірогідністю вважати, що певний пакет містить паузу, а не мову - найбільш складним аспектом у алгоритмі VAD. Ціна хибного рішення - втрати ін0ормаційного сигналу. У більш простих реалізаціях наявність паузи в наборі цифрових відділків визначається на основі порівняння сумарної енергії пакетів мовленнєвих даних з деяким пороговим значенням, який визначає паузу від пакета с голосом.

У такому разі постає необхідність підбору межі, з метою уникнення помилкових пауз, що призведе до втрати корисних даних та погіршення характеристик якості (Quality of Service), а з іншого боку, запобігти численному пропуску пауз, що може сприяти зниженню ефективності алгоритму VAD. Зазвичай для визначення пауз застосовується складний алгоритм, що враховує не тільки енергію пакета, а й енергію спектральних складових відрізку сигналу. сигнал шум фільтрація кодування мова

Крім того, слід брати до уваги швидкість зміни (збільшення або зменшення) енергії визначного відрізка стосовно попереднього. Також у випадку зі складною шумовою обстановкою ефективність роботи VAD може бути забезпечена періодичною оцінкою параметрів фонового шуму.

На приймальній стороні або в моделі реєстрації працює інша частина VAD, мета якої відновити сигнал.

Суть відновлення полягає не лише в самому заповненні пауз відрізками з нульовою енергією. Як засвідчують окремі дослідження, людина асоціює тишу зі зникненням сигналу. У зв'язку з цим, висуваються рекомендації щодо заповнення пауз між голосовими відрізками шумом. Можливі декілька варіантів. Штучний шум може створюватися генератором білого шуму. В іншому разі пауза сильно стискується, проте загальні параметри, що описують гучність, частоту та ін., залишаються. Генератор створює паузу на основі зазначених додаткових даних.

Такий варіант збільшує обсяг інформації та, відповідно, знижує загальну ефективність VAD, проте дозволяє відтворювати безпосередність окрасу голосу, та зменшує наявність роботи детектора активності мови. На практиці застосовають останній варіант, який вважається більш витратним, проте і більш комфортним.

Алгоритм VAD знайшов застосування у більшості систем, з обробкою мови у цифрову вигляді.

Активне шумопридушення. Полягає в тому, щоб отримувати синхронний сигнал, який оброблений та містить виключно шум (без інформаційного сигналу). Надалі виокремлений шум інвертується у так звану протифазну та накладається на зашумлений запис. Вважається, що в подібний спосіб відбувається очищення. Проте для реалізації описаного способу необхідна наявність другого мікрофона, рознесеного стосовно першого для запису фонового шуму.

Іншим способом шумопридушення можна вважати обмеження смуги частот, що є більш простим та здешевленим з огляду на його реалізацію. Разом з тим, на нашу думку, це може мати як позитивні наслідки, так і негативні. До позитивних можна віднести зменшення обсягу інформації, яку необхідно обробляти. Цей спосіб до певної міри знижує фоновий шум. До негативних боків способу віднесемо негарантованість відмінного результату. Зі звуженням смуги зменшується так звана інформаційність, а в окремих випадках і розбірливість.

З метою економії ресурсів та збільшення часу накопичення реєстрації мовленнєвого сигналу при створенні аудіоконтролеру доречним буде впровадження детектора мовленнєвої активності. Відомі виробники пристроїв реєстрації акустичної інформації реалізують різні функції та режими, серед яких є режим голосової активації (VAS) [7]. Цей режим має особливості налаштування. Для налаштування системи активації голосом (VAS) існує два параметри - рівень VAS та час VAS.

Рівень VAS налаштовується від 0 до - 55 дБ, проте необхідно врахувати, що при 0 дБ для вмикання запису необхідно практично дуже голосно розмовляти біля мікрофона, а при -55 дБ достатньо будь-якого шереху для початку записування.

Час VAS налаштовується від 1 до 15 сек. Якщо позначити час VAS - 1 сек, то запис всередині файлу буде розбиватися на множину відрізків при паузах та у розмові понад 1 сек. Якщо виставити 15 сек., то після будь-якого шереху пристрій буде записувати впродовж 15 сек. тишу. Практика засвідчує, що оптимальний час VAS 7 сек.

З рекомендаціями рівня VAS складніше, оскільки умови записування можуть бути протилежними (наприклад, у порожньому приміщенні, у приміщенні з шумопоглинаючою поверхнею, на вулиці або у транспортному засобі). Правильність вибору рівня VAS можна отримати практичним шляхом. Попередні значення можуть бути встановлені на рівні VAS -20дБ. При утворенні тиші, під час якої відсутня потреба в записуванні, пристрій продовжує запис декілька секунд (це час VAS, який попередньо налаштований), після чого він переводиться у режим очікування корисного сигналу. При правильному налаштуванні рівня VAS, після появи акустичних хвиль (голосу) пристрій перейде у режим записування, на що буде вказувати відповідне свічення індикатора запису. По завершенні VAS пристрій має перейти в режим очікування корисного сигналу.

Якщо пристрій у тиші не переходить у режим очікування, слід зменшити рівень VAS, наприклад -15 дБ).

Якщо за появи акустичного сигналу пристрій не переходить у режим запису, то рівень VAS необхідно збільшити, наприклад, установити -25 дБ).

Поєднання різних способів активації реєстрації акустичних сигналів та детекції мови дасть змогу зменшити обсяг надлишкової інформації.

Упровадження систем кодування дозволить використовувати транспортну мережу із середніми показниками швидкості передачі інформації та відповідно акумулювати накопичені дані на сервері.

Застосування методів підвищення якості та фільтрації акустичного сигналу пов'язане з необхідністю вирішення низки проблемних питань, серед яких значні обсяги обчислення даних. Створення програмного забезпечення та використання апаратної частини під час розробки аудіоконтролера призведе до значного здорожчання системи. Одним із шляхів вирішення може бути перенесення масиву обробки аудіоданих та обчислювальних операцій до серверної частини.

Використання мікрофонів із рознесеною базою сприятиме поліпшенню якості обробки та фільтрації сигналів від шумів. Упровадження подальшої обробки сигналів з використанням мережевих технологій дозволить більш оптимально розподілити апаратні та програмні ресурси.

З метою запобігання зрізання глухих та шиплячих звуків під час старту реєстрації аудіоінформації бажаним є застосування технології запису аналогічно до функцій відеореєстратора - буферизації накопичення даних. Реєстрація мовленнєвої інформації повинна розпочинатися за наперед визначений термін (25 сек.) до часу надходження акустичного сигналу.

Список використаних джерел

1. Петровский АЛ., Вашкевич М.И., Азаров И.С. Цифровая обработка аудио-видео сигнала. Минск: Белорусский государственный университет информатики и радиоэлектроники, 2014. С. 63.

2. Шум. URL: https://ru.wikipedia.org/wiki/%D0%A8%D1%83%D0%BC (дата звернення: 19.03.2019).

3. Методы и технологии обработки сигналов. Аль-кавати Ахмед. URL: http://ilab.xmedtest. net/?q=node/4413 (дата звернення: 19.03.2019).

4. Шумоподавление. Спектральные вычитания. URL: http://ru.dsplib.org/forum/viewtopic. php?t=176 (дата звернення: 17.03.2019).

5. Voice activity detector. URL: http://celnet.ru/vad.php (дата звернення: 17.03.2019).

6. VAD (Voice activity detector). uRL: http:// %20activity%20detector%20(VAD).html (дата звернення: 17.03.2019).

7. Настройка VAS режим голосовой активации. URL: http://dictophone-shop.ru/nastroyka- vas-rezhim-golosovoy-aktivacii (дата звернення: 19.03.2019).

References

1. Petrovskiy, A.A., Vashkevich, M.I., Azarov, I.S. (2014) Tsifrovaya obrabotka audio-video signala. “Digital Processing of Audio-Video Signal”. Minsk: Belarussian State University of Informatics and Radioelectronics, р. 63 [in Russian].

2. Shum. “Noise”. uRL: https://ru.wikipedia.org/wiki/%D0%A8%D1%83%D0%BC (date of application: 19.03.2019) [in Russian].

3. Metody i tekhnologii obrabotki signalov. Al'-kavati Akhmed. “Methods and Technologies for Signal Processing. Al Qavati Ahmed”. URL: http://ilab.xmedtest.net/?q=node/4413 (date of application: 19.03.2019)[in Russian].

4. Shumopodavleniye. Spektral'nyye vychitaniya. “Noise Suppression. Spectral Subtraction”. URL: http://ru.dsplib.org/forum/viewtopic.php?t=176 (date of application: 17.03.2019) [in Russian].

5. Voice activity detector. URL: http://celnet.ru/vad.php (date of application: 17.03.2019) [in English].

6. VAD (Voice activity detector). URL: http:// %20activity%20detector%20(VAD).html (date of application: 17.03.2019) [in English].

7. Nastroyka VAS rezhim golosovoy aktivatsii. “Configure VAS Voice Activation Mode”. URL: http://dictophone-shop.ru/nastroyka-vas-rezhim-golosovoy-aktivacii (date of application: 19.03.2019) [in Russian].

Abstract

Features of use of algorithms for speech signal processing

K.V. Zaichko, Head of the Department of the State Research Institute MIA Ukraine, Kyiv, Ukraine,

D.S. Nazarok,Senior Researcher, State Research Institute MIA Ukraine, Kyiv, Ukraine,

The negative factors that accompany the registration of acoustic speech information are considered. The boundary conditions for the processing of acoustic signals are given. Features, types, quantitative characteristics and examples of noise parameter estimation are presented. Some methods of acoustic signal processing are considered.

Attention is drawn to the specificity of the formation of noise signals during registration and features of speech information reconstruction. Types of signal processing are listed. It is determined that during the processing and conversion of acoustic signals, processes can be formed that adversely affect the quality of the intelligibility.

Conditions of disturbance formation are considered and ways of reducing their influence are suggested. The focus is on how to improve the sound quality, and recommendations for implementing noise reduction algorithms are given. The features of spectral subtraction method are detailed, its advantages and gaps are determined.

The sequence of the algorithm of the spectral subtraction method is given. The disadvantages of the suppression method are considered.

The method of voice activation of the acoustic signal is investigated and practical recommendations are given regarding individual signal parameters. The attention is drawn to the modification of the spectral subtraction method. Ways to reduce noise by organizing filter selection are considered.

The peculiarities of the activity of the speech activity detector and the ways of its realization are analyzed, the specifics of transformations and algorithms of noise suppression are outlined. Factors that influence speech intelligibility and possible loss of short initial sounds during recording start are investigated. The features of formation of pauses and scenarios of change of their parameters are given. Practical settings for voice activity are given. The conclusion was reached on the necessity to disperse the acoustic information record base as well as to carry out further processing for noise removal and implementation of a method of buffering data accumulation to avoid loss and truncation of initial sounds.

Keywords: noise reduction, voice activation, noise filtration.

Размещено на Allbest.ru


Подобные документы

  • Типи задач обробки сигналів: виявлення сигналу на фоні завад, розрізнення заданих сигналів. Показники якості вирішення задачі обробки сигналів. Критерії оптимальності рішень при перевірці гіпотез, оцінюванні параметрів та фільтруванні повідомлень.

    реферат [131,8 K], добавлен 08.01.2011

  • Поняття дискретного сигналу. Квантування неперервних команд за рівнем у пристроях цифрової обробки інформації, сповіщувально-вимірювальних системах, комплексах автоматичного керування тощо. Кодування сигналів та основні способи побудови їх комбінацій.

    реферат [539,1 K], добавлен 12.01.2011

  • Порівняння якості алгоритмів компенсації шумової завади при використанні препроцесорів корекції мовленнєвого сигналу (алгоритм спектрального віднімання, MMSE, logMMSE) та оцінювання потенційних можливостей показників якості, що застосовуються при цьому.

    статья [160,2 K], добавлен 15.08.2015

  • Проектування каналу збору аналогових даних реальної мікропроцесорної системи, який забезпечує перетворення аналогового сигналу датчика - джерела повідомлень в цифровий код. В такому каналі здійснюється підсилення, фільтрація і нормування сигналу.

    курсовая работа [305,8 K], добавлен 18.09.2010

  • Аналіз спектральних характеристик сигналів, які утворюються у первинних перетворювачах повідомлень. Основні види модуляції, використання їх комбінації. Математичні моделі, основні характеристики та параметри сигналів із кутовою модуляцією, їх потужність.

    реферат [311,6 K], добавлен 10.01.2011

  • Особливості кодування повідомлення дискретного джерела рівномірним двійковим кодом, середня ймовірність помилки. Обчислення пропускної здатності неперервного сигналу, швидкості передавання інформації, оцінка ефективності використання каналу зв’язку.

    контрольная работа [678,1 K], добавлен 10.05.2013

  • Структурна схема системи передачі повідомлень. Розрахунок параметрів кодера і декодера простого коду, параметрів АЦП та ЦАП, інформаційних характеристик джерел повідомлень та первинних сигналів, оцінінювання ефективності систем зв'язку з кодуванням.

    методичка [205,1 K], добавлен 27.03.2010

  • Обробка радіолокаційних сигналів, розсіяних складними об'єктами, на фоні нестаціонарних просторово-часових завад. Підвищення ефективності виявлення й оцінок статистичних характеристик просторово-протяжних об'єктів. Застосування вейвлет-перетворення.

    автореферат [139,3 K], добавлен 11.04.2009

  • Кодування - елемент сфери телекомунікацій, захисту інформації. Навички вибору й оцінки ефективності процедур кодування даних. Аналіз можливостей багаторівневої амплітудної маніпуляції гармонічних сигналів. Потенційна пропускна спроможність каналу зв'язку.

    курсовая работа [1,9 M], добавлен 12.12.2010

  • Структура засобів і систем вимірювання ультрафіолетового випромінювання. Методи обробки сигналів багатопараметричних сенсорів. Основні режими роботи каналу вимірювання сигналів фотодіодів. Синтез узагальненої схеми вимірювального каналу системи.

    дипломная работа [1,7 M], добавлен 06.06.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.