Разработка и исследование алгоритма очистки речевого сигнала
Разработка и исследование алгоритма очистки речевого сигнала Оптимальные алгоритмы и методы, основанные на вычитании амплитудных спектров. Разработка программной реализации алгоритма спектрального вычитания. Оценка качества очистки речевого сигнала.
Рубрика | Коммуникации, связь, цифровые приборы и радиоэлектроника |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 06.04.2013 |
Размер файла | 2,9 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http:\\www.allbest.ru\
101
Федеральное агентство по образованию
Государственное образовательное учреждение высшего профессионального образования
ИЖЕВСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ
Факультет «Информатика и вычислительная техника»
Кафедра «Вычислительная техника»
ДИПЛОМНЫЙ ПРОЕКТ
Пояснительная записка
Разработка и исследование алгоритма очистки речевого сигнала
Разработал
студент группы 1262 з
А.Ю. Станкевич
Ижевск 2011
Список сокращений
АМ - Амплитудная модуляция
ЧМ - Частотная модуляция
СКО - Средняя квадратичная ошибка
РС - Речевой сигнал
ЦС - Цифровой сигнал
НС - Непрерывный сигнал
ПФ - Преобразование Фурье
БПФ - Быстрое преобразование Фурье
ОКР - Опытно-конструкторская разработка
ДС - Дискретный сигнал
Содержание
Введение
Глава 1. Задачи шумоочистки речевых сигналов, анализ методов их решения
1.1 Обзор существующих методов и алгоритмов очистки речевого сигнала
1.2 Спектральные характеристики шума (вычитание амплитудных спектров)
1.3 Адаптивные компенсаторы помех
1.4 Методы, основанные на использовании статистических моделей речевых сигналов
1.5 Методы, основанные на использовании, отдельных характерных свойств речевого сигнала
1.6 Методы, основанные на использовании закономерностей восприятия речевого слуха человеком
Глава 2. Разработка оптимального алгоритма очистки речевого сигнала, методы, основанные на вычитании амплитудных спектров
2.1 Методы, основанные на оценке спектральных характеристик шума
2.2 Динамическое шумоподавление
2.3 Разработка этапов алгоритма спектрального вычитания
2.4 Разработка схемы работы программы
2.5 Разработка программной реализации алгоритма спектрального вычитания в среде MatLab
2.6 Очистка речевых сигналов алгоритмом спектрального вычитания, реализованным в среде MatLab, а так же способы подавления нежелательных эффектов, возникающих в процессе
Глава 3. Оценка качества очистки речевого сигнала разработанным алгоритмом в соответствии в существующими государственными стандартами
3.1 Определения эффективности очистки речевых сигналов разработанным алгоритмом
3.2 Оценка качества очистки речевого сигнала артикуляционным методом измерения разборчивости
3.3 Оценка качества очистки речевого сигнала методом парных сравнений
4. Организационно-экономическая часть
4.1 Характеристика продукта
4.2 Экономическая оценка проекта
5. Безопасность труда
5.1 Обеспечение безопасных условий труда разработчика при работе на ПЭВМ
5.2 Анализ напряженности труда
5.3 Пожарная безопасность
Список литературы
Введение
алгоритм очистка речевой сигнал
Записанный или передаваемый по проводным или радиоканалам с помощью различных технических средств, звуковой, в частности, речевой сигнал в той или иной степени отличается от исходного (оригинального). Такое отличие, в первую очередь, объясняется присутствием в составе записанного у источника или передаваемого по каналам связи (особенно в аналоговых каналах передачи) речевого сигнала помех и искажений, а также особенностями нашего восприятия звуков. Если полезный сигнал искажен или замаскирован помехой в значительной степени, тогда дальнейшая его обработка в приложениях становится невозможной или сильно затрудненной. Возникает необходимость в проведении со звуковым сигналом специальной обработки - шумоочистки в целях повышения качества и разборчивости.
Целью данной работы является разработка и исследование алгоритма очистки речевого сигнала предназначенного для повышения качества восприятия речевых сигналов, подверженных воздействию акустических помех и искажений.
Для достижения поставленной цели в работе решаются следующие задачи:
1. Провести обзор и анализ существующих методов и алгоритмов очистки речи, для повышения качества восприятия зашумленных речевых сигналов.
2. Обосновать выбор методов фильтрации, обеспечивающих наиболее эффективное выделение речи на фоне шумов и искажений сигнала.
3. Программно реализовать предложенные методы фильтрации речи и выработать требования к быстродействию вычислительных средств, для обеспечения надежной работы алгоритма.
4. Разработать программу и методики проведения экспериментальных исследований алгоритмов фильтрации речи.
5. Получить экспериментальные оценки качества фильтрации речи, подтверждающие эффективность работы алгоритмов.
Объектом исследования является речевой сигнал, подверженный воздействию акустических помех и искажений.
Предметом исследования являются методы очистки речевых сигналов.
Методы исследования. В работе применялись теоретические и экспериментальные методы исследования.
Теоретические исследования основаны на использовании сравнительного анализа различных методов очистки речевого сигнала от акустических помех и искажений сигнала, выбор среди рассмотренных методов наиболее оптимального, а также реализация выбранного метода на практике.
Речевые сигналы, передаваемые по каналам связи, всегда в той или иной степени зашумлены. В тех случаях, когда шум имеет значительную интенсивность, его наличие может существенно исказить результаты обработки, анализа или распознавания речи. В целом ряде других случаев, например, при анализе зашумленных записей в криминалистических целях или восстановлении аудиозаписей в архивах, задача очистки сигнала от шума носит самостоятельный характер и является единственной целью работы. Поэтому разработка методов очистки сигнала от шума является весьма актуальным направлением исследований. К настоящему времени разработано очень большое количество различных методов цифровой обработки зашумленных речевых сигналов. Поэтому в данной работе предметом исследования будут являться различные алгоритмы очистки речевых сигналов, из которых в дальнейшем будет выбран наиболее эффективный.
В зависимости от структуры и характеристических параметров трактов записи/воспроизведения и каналов связи, речевой сигнал может быть подвергнут воздействиям различных типов аддитивных и мультипликативных помех. В централизованных системах, когда запись производится в непосредственной близости от источника, особенно в открытом пространстве, на сигнал воздействуют аддитивные помехи и искажения трактов технических средств обработки. При передаче речевых сигналов по каналам связи (при распределенной обработке) аддитивная смесь, проходя по трактам передачи, имеющей частотно зависимую передаточную характеристику, претерпевает дополнительные мультипликативные помехи. Известно, что универсального метода обработки, который одинаково эффективно справлялся бы с нестационарными и стационарными, аддитивными и мультипликативными шумами или существенно повышал бы качество и одновременно разборчивость речевых сигналов не существует.
В целях упорядочения рассмотрения методов очистки сигнала от шума целесообразно произвести их классификацию. Основным признаком, по которому будут классифицироваться алгоритмы, является характер или тип тех закономерностей, которые служат основой для выделения речевого сигнала из смеси с шумом. В качестве вспомогательного признака будет использоваться классификация по типу того математического или алгоритмического аппарата, который использован для фильтрации. Подобная классификация, конечно, весьма условна, так как многие из рассматриваемых методов нельзя безоговорочно отнести к какой-либо одной категории. Как правило, одни и те же методы используют одновременно различные принципы, и в этом случае можно говорить лишь о преимущественном влиянии какой-либо концепции.
Обычно, проблема шумоочистки в таких системах сводится к подавлению преобладающей компоненты шумовой смеси. На основе анализа и знаний о характере шумов и искажений можно выбрать оптимальный метод и алгоритм цифровой фильтрации преобладающего типа шумового компонента. Такой подход является малоэффективным ввиду того, что некоторые типы помех, особенно в случаях, когда в составе оригинального (исходного) сигнала присутствует несколько типов помех, при таком подходе, остаются неочищенными или частично очищенными. Поэтому, для устранения указанных недостатков в рассматриваемой работе предложен комбинированный метод цифровой фильтрации. Суть данного метода заключается в том, что для шумоочистки речевых сигналов, в составе которых присутствуют несколько типов помех, используется не один определенный метод шумоочистки, а комбинация методов, при том в определенной последовательности, в зависимости от типов присутствующих помех в составе полного сигнала.
Для достижения целей и решения поставленных задач предлагается рассмотреть основные виды акустических помех, шумов и искажений, оказывающих негативное воздействие на качество восприятия записанного или передаваемого по каналам связи речевого сигнала. А так же, рассмотреть основные методы и алгоритмы, обеспечивающие наиболее эффективное выделение речи на фоне шумов и искажений сигнала. В целях упорядочения рассмотрения методов очистки сигнала от шума предлагается произвести их краткую классификация. Основным признаком при классификации использовать характер или тип тех закономерностей, которые служат основной для выделения речевого сигнала из смеси с шумом, а в качестве вспомогательного признака использовать классификацию по типу математического или алгоритмического аппарата, который использован для фильтрации.
При выборе метода очистки речевого сигнала от стационарных и квазистационарных шумов помех и искажений, необходимо учитывать особенности обрабатываемого сигнала. Так как наибольший практический интерес представляют речевые сигналы, проходящие через стандартный телефонный канал и в соответствии с рекомендациями ITU-T G.704, то такой сигнал должен обладать следующими характеристиками: частотный диапазон 300Гц до 3200 Гц, частота дискретизации сигнала 8000Гц, разрядность квантования 8 бит, количество каналов приема и обработки речи - один.
Объем и структура выпускной квалификационной работы. Выпускная квалификационная работа содержит введение, три главы и заключение, изложенные на … с. машинописного текста. В работу включены 17 рис., 14 табл., список литературы из … наименований.
В первой главе анализируются особенности, свойства и характеристики речевых сигналов. Виды шумов акустических помех и искажений, а так же особенности их воздействия на речевые сигналы, формулируются задачи шумоочистки речевых сигналов. Проводится обзор уже существующих методов и алгоритмов.
Глава 1. Задачи шумоочистки речевых сигналов, анализ методов их решения
В настоящей главе анализируются особенности, свойства и характеристики речевых сигналов. Виды шумов акустических помех и искажений, а так же особенности их воздействия на речевые сигналы, формулируются задачи шумоочистки речевых сигналов. Проводится обзор уже существующих методов и алгоритмов.
1.1 Обзор существующих методов и алгоритмов очистки речевого сигнала
Голос и речь являются основным средством коммуникации во всех сферах человеческой деятельности, а передаваемая с их помощью информация может иметь исключительную ценность в обеспечении безопасности, например, раскрытии и предотвращении преступлений.
Человеческая речь представляет собой шумоподобный акустический сигнал, несущий амплитудную и частотную модуляции (рис.1.1)
Рис. 1.1 Амплитудная и частотная модуляции
При чем амплитудная модуляция (АМ) - модуляция, при которой незатухающие колебания изменяются по амплитуде в соответствии с модулирующими его колебаниями более низкой частоты, а частотная модуляция (ЧМ) - модуляция, при которой несущая частота сигнала изменяется в соответствии с модулирующим колебанием. [5]
Основная энергия акустических колебаний речевого сигнала заключена в диапазоне 70 Гц - 7 кГц, причем более 95% смысловой информации размещается в более узком диапазоне - 200 Гц - 5 кГц.
Акустические колебания выше и ниже этих частот несут информацию об эмоциях и личности говорящего, способствуют узнаваемости и несколько повышают разборчивость речи в условиях повышенных шумов. [21]
Основной причиной низкого качества и разборчивости записанной речевых сигналов является присутствие в ней искажений и помех.
Искажениями принято называть видоизменения самого полезного речевого сигнала, приводящие к снижению его качества. При искажениях собственные составные части речевого сигнала изменяются по отношению к своему первоначальному виду, приобретают новое, иногда недопустимое звучание.
Помехой называется стороннее возмущение, действующее в системе передачи и препятствующее правильному приёму сигналов, а также вызывающее искажение передаваемой информации. [5]
Источники помех могут находиться как вне, так и внутри самой системы передачи.
В зависимости от вида информации помехи проявляются:
1. в виде ошибок при передаче телеграмм и передаче данных;
2. в виде шорохов, тресков, в плохой разборчивости речи и слышимости разговоров, ведущихся по соседним каналам, при телефонной связи;
3. в искажении команд в системах телемеханики и телесигнализации и т.д.
Действие помехи зависит от множества причин и, как правило, носит случайный характер.
Помехи можно разделить на две группы - неаддитивные и аддитивные.
К неаддитивным, относят помехи, вызывающие паразитную модуляцию сигнала. Они возникают из-за нелинейной зависимости характеристик канала связи от параметров сигнала и от времени и существенно влияют на передачу сигналов в основном в каналах проводной связи большой протяжённости.
К аддитивным относят помехи, которые складываются с сигналом линейно. Аддитивную помеху часто называют шумом.
Шум - звучание, соответствующее восприятию независимого от полезного сигнала источника мешающего звука. [28]
Другими словами, шум - звук нежелательного дополнительного источника, как правило, добавленный к полезному сигналу во время его записи или его передачи по каналам связи. Появление в звуковом сигнале шумов обусловлено раздельным или, чаще, одновременным действием целого ряда факторов процесса записи или передачи сигнала: дополнительного источника звука, находящегося вблизи от полезного источника речи, а также электромагнитных наводок и собственных «технических» шумов различных компонентов канала записи/воспроизведения. То есть шумом может являться как речь другого человека или, например, звук работающего двигателя, так и шум трансформатора или шипение магнитной ленты.
Шум бывает стационарный и нестационарный. Стационарный шум характеризуется постоянством средних параметров: интенсивности (мощности), распределения интенсивности по спектру (спектральная плотность). Идеальным стационарным шумом является так называемый "белый шум" - шум с абсолютно равномерным спектром. В реальности такой шум не может существовать, потому что его мощность была бы бесконечной.
Нестационарный шум - это шум, длящийся короткие промежутки времени (меньшие, чем время усреднения в измерителях). [29]
Классификация шума:
1. По источнику образования:
· механический (работа машин и механизмов) - создается колебаниями твердой и жидкой поверхности;
· аэро- и гидродинамический - в результате турбулентности газовой или жидкой среды;
· электродинамический - электрическая дуга, коронные разряды.
2. По частоте:
· низкочастотный до 300 Гц,
· среднечастотный от 300 до 800 Гц,
· высокочастотный свыше 800 Гц.
3. По спектру:
· широкополосный,
· тональный.
Спектром шума называется зависимость уровня звукового давления от частоты. Шум считается широкополосным, если его спектр превышает 1 октаву, и тональным, если звуковая энергия распределяется неравномерно, с преобладанием большей ее части в области одной октавы.
4. По времени действия:
· квазистационарный - уровень звукового давления в течение рабочей смены меняется не более чем на 5 дБ,
· стационарный - меняется в любую сторону более чем на 5 дБ и подразделяется: колеблющийся - уровень звуков непрерывно плавно изменяется во времени; прерывистый - изменяется ступенчато более чем на 5 дБ, оставаясь на ступени не менее 1 сек; импульсный - состоит из одного или нескольких звуковых сигналов продолжительностью менее 1 сек.
Шум измеряют прибором, который называется шумомер. Он состоит из микрофона, усилителя, измерительного прибора и источника питания. [27]
Выделим некоторые типы шумов/помех:
1. Белый шум - это шум с постоянной спектральной плотностью в речевом диапазоне частот, который имеет одинаковое распределение мощности для всех частот. Примером белого шума может быть звук ненастроенного телевизора или шум водопада.
Белым шумом является такой шумовой сигнал, у которого на единицу частоты всюду приходится равная энергия.
Поэтому в полосе частот от 100 Гц до 101 Гц сосредоточено энергии столько же, сколько в полосе от 1000 до 1001 Гц. Так как на каждый герц энергии приходится поровну, то в полосе частот 1000 - 5000 Гц её будет в 10 раз больше, чем в полосе 100 - 500 Гц. Таким образом, белый шум звучит для человека менее приятно на высоких частотах.
2. Розовый шум имеет одинаковое распределение энергии для каждой октавы (октавные полосы - частотные диапазоны, в которых верхний предел каждой полосы вдвое больше нижнего предела) вместо одинаковой энергии для каждой частоты подобно белому шуму.
Он представляет собой психоакустический эквивалент белого шума. У розового шума на каждую октаву приходится энергии поровну: от 40 до 80 Гц - столько же, сколько от 400 до 800 Гц и от 10 до 20 кГц.
У розового шума энергия, приходящаяся на единицу частоты, уменьшается кратно частоте. Однако на каждую октаву энергии приходится одинаково.
Согласно психоакустической модели слуховой системы, наилучшей маскирующей помехой является комбинация белого шума и розового шума.
Известно, что белый или розовый шум, применяемый в качестве маскирующего сигнала в устройствах защиты речевой информации, по своей структуре имеет значительные отличия от речевого сигнала.
На знании и использовании этих отличий основаны алгоритмы шумоочистки речевых сигналов, используемые специалистами технической разведки.
Одним из направлений повышения эффективности защиты речевой информации является использование в качестве помехи, применяемой для зашумления каналов утечки речевой информации, следующих речеподобных сигналов (речевых сигналов низкой разборчивости): окрашенный шум, шумовая речеподобная помеха и комбинированная речеподобная помеха.
3. Окрашенный шум - это шум с огибающей амплитудного спектра, подобной речевому сигналу, формирующийся из белого шума в соответствии с огибающей амплитудного спектра скрываемого речевого сигнала.
Для формирования окрашенного шума в пятиоктавных полосах диапазона 100?6000 Гц производится оценка параметров речевого сигнала и осуществляется корректировка уровня шума в тех же полосах с помощью встроенных эквалайзеров.
4. Речеподобные помехи формируются путем микширования в различных сочетаниях отрезков речевых сигналов и музыкальных фрагментов, а также шумовых помех, или из фрагментов скрываемого речевого сигнала при многократном наложении с различными уровнями.
а) Шумовая речеподобная помеха - это помеха, формирующаяся как из скрываемого сигнала, так и из некоррелированных со скрываемым сигналом речевых фрагментов.
б) Комбинированная речеподобная помеха, используемая в системе акустической маскировки, формируется путем многократного наложения смещенных на различное время задержек разноуровневых сигналов, получаемых путем умножения и деления частотных составляющих скрываемого речевого сигнала.
Наиболее эффективными являются помехи типа розовый шум, комбинация белого и розового шумов и речеподобная помеха. Помеха типа белого шума по сравнению с помехами типов розовый шум и шумовая речеподобная обладает несколько худшими маскирующими свойствами, проигрывая по энергетике. Значительно более низкими маскирующими свойствами обладает шумовая помеха со спадом спектральной плотности 6 дБ на октаву в сторону высоких частот (коричневый шум). По сравнению с помехами типов розовый шум и речеподобная она проигрывает по энергетике, а при равной мощности приводит к повышению разборчивости речи. [24]
Для решения практической задачи шумоочистки наиболее важными являются такие специфические свойства слуха человека, как частотная и временная маскировка. [20]
Частотная маскировка - явление, возникающее в частотной области, когда сигнал низкого уровня (маскируемый) становится неслышимым (замаскированным) при звучании одновременно с ним более сильного сигнала (маскирующего) при условии, если маскирующий и маскируемый сигналы достаточно близки друг другу по частоте (рис. 1.2).
Рис.1.2 Мгновенная маскировка в частотной области для слуховой системы человека
По горизонтальной оси отложена частота звучания звуковых компонент сигнала, по вертикальной оси - их уровень в дБ. Длинным светло-серым прямоугольником отображен сильный узкополосный сигнал-маскер. Он маскирует (делает неслышимыми) 4 слабых сигнала (черные прямоугольники), расположенных в окрестности сигнала-маскера с уровнями ниже порога маскировки, отмеченного линиями. Другая черная толстая линия показывает кривую порога обнаружения звукового сигнала данной частоты в тишине.
Временная маскировка - это явление похоже на частотную маскировку, но здесь происходит маскировка во времени. При прекращении подачи маскирующего звука, маскируемый некоторое время продолжает быть неслышимым. В обычных условиях эффект от временной маскировки длится относительно недолго. Время маскировки зависит от частоты и амплитуды сигнала и может достигать 100 мс. Эффект временной маскировки почувствовать очень просто: близко взорвавшаяся хлопушка приводит к временному «закладыванию» одного из ушей (закладывание обоих ушей маловероятно, но тоже возможно).
На рис.1.3 представлен график, иллюстрирующий временную маскировку.
Рис. 1.3 Пример временной маскировки
По горизонтальной оси отложено время в миллисекундах, по вертикальной оси отложен уровень звучания сигналов. Белым прямоугольником представлен сигнал-маскер, кривыми линиями - пороги обнаружения звука при маскировке. Маскируются (становятся неслышимыми) слабые сигналы, лежащие ниже порога слышимости при маскировке, отмеченного линиями. [20]
В связи с вышесказанным, достаточно часто возникает потребность в проведении специальной обработки или шумоочистки, звукового сигнала, главной целью которой является повышение качества и разборчивости записанной на фонограмме речи, для ее последующего комфортного прослушивания и понимания.
Как правило, грамотно выполненная шумоочистка, во многих случаях, позволяет уменьшить отрицательное влияние шумов и искажений.
Основной принцип шумоочистки заключается в подчеркивании полезного сигнала или в подавлении компонент зашумленного сигнала в тех областях, где помеха велика, а полезный сигнал мал, и в усилении только компонент полезного сигнала. Наиболее полно эту задачу решают методы цифровой фильтрации, аналоговая обработка обычно позволяет решить эту задачу лишь частично.
Перечислим некоторые типовые способы обработки речевых сигналов (РС), позволяющие воплотить основной принцип шумоочистки на практике: [20]
1. «Размаскировка» полезного речевого сигнала в частотной и временной областях (устранение эффекта слуховой маскировки полезного сигнала помехами и искажениями).
2. Устранение фоновых шумов различных типов с целью снижения напряженности внимания и утомляемости оператора при прослушивании.
3. Допустимое для сохранения разборчивости сокращение полосы частот прослушиваемого зашумленного сигнала с целью снижения утомления оператора, удаление низкочастотного гула и высокочастотного шипа.
4. Выравнивание больших пиков и перепадов амплитуды сигнала и громкости отдельных участков обрабатываемой исходной звукозаписи, снижение амплитуды сигнала в паузах без речи.
5. Удаление или снижение амплитуды импульсных помех и других интенсивных посторонних звуков.
6. Удаление регулярных медленно меняющихся помех (музыкальных, транспортных, производственных, сетевых, снижение эффекта реверберации).
7. Сглаживание и выравнивание спектра сигнала (амплитудно-частотной характеристики канала).
8. Дополнительная режекция (вырезание из спектра одной или нескольких узких полос частот) узкополосных помех.
9. Удаление аддитивных широкополосных шумов («шипа» магнитофонной ленты, радиоканала, микрофона).
10. Формирование у выходного сигнала амплитудной и частотной характеристики, оптимальной именно для слуха конкретного оператора.
11. Компенсация существенных фазовых искажений сигнала.
При этом каждый из перечисленных способов наиболее эффективен для определенного типа помех.
Наиболее общим подходом в определении типа искажений является анализ спектра и осциллограммы, автокоррелограммы и других сигналограмм. На основе знаний о характере шумов и искажений можно выбрать оптимальный метод или ряд последовательно (в определенном порядке) реализуемых методов обработки речевых сигналов.
Если характеристики помехи изменяются во времени, то необходимо использовать алгоритмы обработки, автоматически подстраивающие (адаптирующие) параметры фильтра к характеристикам помехи. Это может быть обеспечено алгоритмами адаптивной фильтрации.
Эффективность алгоритмов адаптивной фильтрации определяется способностью быстрой (0,1-1 сек) адаптации к изменяющимся характеристикам сигналов. Данное свойство дает возможность устранить нестационарные помехи, что принципиально отличает данные алгоритмы от аналогичных, рассчитанных на обработку лишь стационарных сигналов, параметры которых (амплитуда, спектр и т.п.) не изменяются во времени. Адаптация обеспечивает возможность эффективной автономной работы программы в течение длительного времени без вмешательства оператора после задания режима обработки, что снижает требования к квалификации пользователя. [20]
Рассмотрим более детально особенности фильтров различных типов по отношению к шумоочистке.
Фильтры, имеющие постоянные характеристики, вносят в сигнал искажения, которые либо несущественны для последующих измерений, либо могут быть легко учтены с помощью соответствующих поправок. [23]
Субъективное качество речи после прохождения сигнала через постоянные фильтры меняется. Однако если фильтр построен корректно и речь после фильтрации становится более близкой к оригиналу по своим основным характеристикам, то оценки идентификационно значимых признаков голоса и речи будут более достоверными.
Адаптивные фильтры с переменными свойствами могут внести в динамику свойств сигнала нежелательные изменения, поэтому их необходимо применять более осторожно и умело. Для большинства таких фильтров предполагается, что устраняемая фильтром помеха меняется медленнее, чем речевой сигнал.
Адаптивный фильтр, в зависимости от типа своего устройства, удаляет стационарные или медленно меняющиеся гармонические, регулярные помехи, широкополосные шумы, неравномерности АЧХ канала звукозаписи. Обычно все измеряемые и используемые при идентификации признаки речевого сигнала связаны с реализацией отдельных звуков и характерными изменениями сигнала при переходе от одного звука к другому. В свою очередь, адаптивный фильтр при большой постоянной времени адаптации на протяжении каждого слова и даже короткой фразы не меняет своих свойств, то есть не вносит изменений в динамику спектров. Стоит отметить, что речь, не относящаяся к «нормативной» (например, пение), требует скорректированного подхода к выбору параметров шумоочистки.
Рассмотрим основные алгоритмы обработки и шумоочистки речевых сигналов. [23]
1.2 Спектральные характеристики шума (вычитание амплитудных спектров)
Наиболее часто используемыми методами, основанными на использовании спектральных характеристик шума, являются методы, реализующие различные модификации алгоритма вычитания амплитудных спектров.
В качестве обоснования этих методов приводятся следующие соображения. Если стационарный сигнал со спектральной плотностью мощности искажен аддитивным стационарным шумом со спектральной плотностью мощности , который предполагается некоррелированным с , то спектральная плотность мощности зашумленного сигнала равна:
, (1.1)
следовательно спектральная плотность мощности полезного сигнала s(n) может быть оценена как:
(1.2)
В силу нестационарности речевых сигналов использовать соотношение (1.1) непосредственно нельзя. На практике, при обработке речи на достаточно коротких участках, например, квазистационарных участках гласных звуков, величины , аппроксимируют с помощью усредненных квадратов кратковременных амплитудных спектров наблюдаемого сигнала и шума. Спектр шума при этом должен оцениваться в моменты пауз. Полученная таким образом оценка соответствует квадрату амплитудного спектра сигнала. Восстановление речевого сигнала во временной области осуществляется с помощью обратного преобразования Фурье, причем фазовый спектр, для восстановленного сигнала берется таким же, как и у наблюдаемого сигнала.
В наиболее общем виде операция спектрального вычитания может быть выражена соотношением:
, если (1.3)
Здесь коэффициент A(t) (фактор переоценивания), вообще говоря, зависит от соотношения сигнал/шум на сегменте анализа, и имеет типичные значения близкие к 0.7 - 0.95, а коэффициент B (спектральный порог)- выбирается в диапазоне 0.01 - 0.1.
Исследования качества и разборчивости речи, получаемой в результате применения описанной методики, показали [7], что в тех случаях, когда шум или помеха имеют стационарный (или квазистационарный) характер и их спектр имеет гармоническую структуру, достигается значительное на слух повышение как качества, так и разборчивости речи. Однако, в случае шумов с быстроизменяющимися спектральными характеристиками такая обработка малоэффективна.
1.2.1.Метод оценивания минимальной среднеквадратической ошибки
Описываемый алгоритм (оригинальное название Minimum Mean-Square Error estimation) впервые был предложен в работе. Как и вычитание спектров алгоритм основан на оценке амплитудного спектра сигнала. Среди других методов фильтрации, предполагающих наличие только одного микрофона, алгоритмы, основанные на минимуме среднеквадратической ошибки являются одними из наиболее полезных. Их использование приводит к значительному сокращению уровня шума в сигнале без внесения остаточных искажений типа музыкальных тонов. В недавно проведенных исследованиях утверждается, что в значительной мере превосходство метода оценивания минимальной среднеквадратической ошибки над методиками типа Винеровской фильтрации или вычитания амплитудных спектров связано именно с введением априорной оценки сигнал/шум в каждой спектральной полосе. В связи с этим, были предложены модификации стандартных подходов (винеровской фильтрации, вычитания амплитудных спектров и оценок максимального правдоподобия) использующие априорные отношения сигнал/шум, что привело к существенному улучшению результатов фильтрации.
Также используя метод вычитания амплитудных спектров можно произвести подавление аддитивного квазистационарного шума. В качестве типичного примера можно привести шумы кондиционеров, видеокамеры, автотрансформаторов и усилителей. Поведение алгоритма контролируется набором параметров, включая предварительно измеренные характеристики шума. Для того, чтобы пользователь смог полностью использовать все возможности, заложенные в алгоритме, предусмотрен аналоговый режим работы, когда выбор и изменение параметров и режимов обработки выполняется в ходе обработки, причем оператор контролирует качество работы метода прослушиванием обработанного сигнала.
Спектральное вычитание оценивает спектр мощности очищенного сигнала путем вычитания спектра шума из зашумленного сигнала (рис. 1.4)
Размещено на http:\\www.allbest.ru\
101
Рис.1.4. Обобщенная схема алгоритма спектрального вычитания
Где xm(l) - исходный сигнал,
Xk(m) - дискретный сигнал,
Pnk(m) - оценка спектра шума,
- очищенный дискретный сигнал,
xn(1) - результирующий аналоговый сигнал
Данный метод является наиболее часто используемым в современных устройствах очистки речевых сигналов от шума.
1.3 Адаптивные компенсаторы помех
Этот класс методов цифровой обработки зашумленных сигналов основан на использовании, помимо собственно зашумленного сигнала, который подлежит очистке, также одного или нескольких опорных сигналов - сигналов, которые коррелированны с шумовым сигналом и некоррелированные (или слабо коррелированные) с полезным сигналом, подлежащим выделению. С помощью опорных сигналов формируется сигнал, который является оценкой помехи. Этот сигнал затем вычитается из зашумленного сигнала и результат этой операции рассматривается как оценка не зашумленного сигнала.
На рис. 1.5. представлена схема адаптивного компенсатора помех, который использует один опорный сигнал.
Рис 1.5. Схема адаптивного компенсатора помех
Здесь u(n) - дискретный отсчет полезного сигнала в момент времени n; n=0,1,2…; e(n) - шумовой сигнал; e1(n) - опорный сигнал; е(n) - сигнал ошибки; u1(n) - выходной сигнал компенсатора; УУВК - устройство управления весовыми коэффициентами.
Наиболее важной частью адаптивного компенсатора помех является устройство управления весовыми коэффициентами - линейный фильтр, через который пропускается опорный сигнал e1(n). Задача адаптивной компенсации помехи e(n) сводится к подбору коэффициентов фильтра таким образом, чтобы минимизировать энергию сигнала на выходе компенсатора u1(n). В этом случае будет максимизировано выходное отношение сигнал/шум. Минимизация энергии обычно осуществляется на основе градиентных методов поиска экстремума функций многих переменных.
Известно, что адаптивные компенсаторы помех позволяют значительно улучшить качество зашумленных сигналов - на несколько десятков децибел, но требование наличия опорного сигнала существенно сужает их область применения. Во многих приложениях цифровой обработки речевых сигналов (например, при реставрации архивных записей или в криминалистике), опорного сигнала, по крайней мере, в явном виде, не имеется. Поэтому для применения методов адаптивной компенсации помех опорный сигнал в таких случаях приходится получать на основе косвенных соображений, связанных с особенностями речевого сигнала, а сам адаптивный компенсатор в этом случае будет являться одной из составных частей более сложного алгоритма выделения речевого сигнала.
В итоге можно сказать о том, что адаптивные компенсаторы помех применяются для фильтрации узкополосных стационарных и регулярных помех, также тональных шумов каналов связи (одноканальные фильтры) и некоторых типов нестационарных помех (двухканальные фильтры).
К достоинствам этого метода можно отнести хорошее качество очистки зашумленных каналов (10-20 Дб), а к недостаткам: сужение области применения из-за необходимости наличия опорного сигнала.
1.4 Методы, основанные на использовании статистических моделей речевых сигналов
1.4.1 Во временной области
Класс методов цифровой обработки зашумленных речевых сигналов, который основан на построении математических моделей речевых сигналов и обработке речевых сигналов с использованием этих моделей быстро развивается и в настоящее время эти методы приводят к самым успешным результатам. Задача выделения речевого сигнала из смеси с шумом в случае использования достаточно адекватной модели сводится к оценке каким-либо образом параметров этой модели и последующим синтезом или фильтрации речевого сигнала фильтром, построенным на основе или с помощью оцененных параметров.
Одними из наиболее перспективных методов в этом классе являются методы статистической фильтрации во временной области, которые развивались в работах [1]. Фильтрация речевого сигнала, моделируемого авторегрессией, осуществляется при этом методами теории оптимального оценивания, например, с помощью построения оптимального линейного фильтра (фильтра Кальмана [2]).
Вычислительно эффективная (но с менее удачным результатом обработки) реализация алгоритма фильтрации речевого сигнала, моделируемого авторегрессионной моделью с параметрами, связанными в марковскую цепь. Совместная оценка сигнала и параметров марковской цепи вычисляются рекуррентным способом с помощью алгоритма максимизации математического ожидания, причем для вычисления условного ожидания сигнала относительно наблюдений использован фильтра Кальмана - Бьюси. Экспериментальные испытания на речевом сигнале в смеси с некоррелированным аддитивным белом шумом с отношениями сигнал/шум 0, 10 и 20 дБ показали увеличение отношения сигнал/шум в среднем на 4 дБ. Собственно фильтрация осуществляется модифицированным фильтром Винера в частотной области. Предварительные измерения (смесь речи с белым шумом) показали значительное увеличение отношения сигнал/шум: на +15 дб при начальном отношении -5 дб (соответственно, при начальном SNR +5 дб улучшение составило 11 дб).
1.4.2 С использованием аппарата скрытых марковских моделей
Другим классом методов обработки зашумленных речевых сигналов основанных на использовании статистических моделей речевого сигнала являются методы, в которых речевой сигнал моделируется скрытой Марковской цепью. То есть для моделирования речевого сигнала использован наиболее эффективный для распознавания речи подход.
Известно, что традиционно используемые методы фильтрации (вычитание спектров или фильтр Винера) не используют фонетическую информацию, переносимую речевым сигналом. Недавние исследования показали, что знание и применение в процессе обработки фонетической структуры сигнала приводит к улучшению качества фильтрации. Поэтому вполне естественным является применение в процессе очистки речевого сигнала от шумов его статистической модели в виде скрытой марковской цепи, которая связана с фонетической структурой сигнала.
Идея реализации такого подхода заключается в том, что первоначально, по записям незашумленного речевого сигнала строятся статистические модели единиц речевого потока (фонов либо более широких классов звуков). После того, как статистическая модель для множества состояний построена, по ней можно рассчитать оптимальный фильтр Винера.
При обработке зашумленного сигнала сначала оценивается (по отфильтрованному на предыдущем шаге сигналу) текущее состояние Марковской модели, в соответствии с которым выбирается оптимальный фильтр, который затем используется для фильтрации сигнала и получения очередной оценки.
Рис. 1.6.Алгоритм фильтрации речевого сигнала с использованием скрытой Марковской модели.
Для эффективной обработки нестационарных сегментов отдельно оценивалась Марковская модель шума. В отличие от простых моделей состояний полезного сигнала шум моделировался набором состояний, каждое из которых содержало несколько гауссовских компонент. Во время обработки зашумленного сигнала при определении отсутствия полезного сигнала выполнялось декодирование сегмента паузы процедурой Виттерби для выбора оптимальной модели шума. Модель шума, обеспечивающая максимальное правдоподобие наблюдаемой последовательности использовалась далее для обработки сигнала. Для сохранения ”преемственности” между итерациями применялись инерционная схема фильтра Винера.
В современном мире методы, основанные на использовании статистических моделей речевых сигналов являются наиболее перспективными и их дальнейшая разработка, и усовершенствование поможет достигнуть новых результатов в сфере очистки речевых сигналов от шума. Это можно заметить даже на начальных этапах: уже сейчас использование этого метода позволяет в среднем увеличить отношение сигнал/шум на 4 дБ.
1.5 Методы, основанные на использовании, отдельных характерных свойств речевого сигнала
К методам этого типа относятся, прежде всего, класс методов обработки зашумленных речевых сигналов, которые используют квазипериодичность речевого сигнала. Первая группа методов использует периодичность речевых сигналов для построения адаптивного компенсатора помех, с помощью которого обрабатывается зашумленный речевой сигнал. Предполагается, что исходный речевой сигнал s(n) строго периодичен с периодом T, кратным частоте дискретизации, а случайный аддитивный шум v(n) некоррелирован с s(n). В качестве опорного сигнала для адаптивной компенсации помехи используется:
(1.4.)
где
Отношение сигнал/шум может быть увеличено на 7 - 10 дб., однако разборчивость отфильтрованной речи при этом несколько понижается. Вторая группа методов, использующих периодичность звонких звуков основана на представлении сигнала в кепстральной области. В этом случае периодический характер речевого сигнала используется для синтеза адаптивной гребенки фильтров.
Исследования проведенные на синтетических гласных звуках показали, что при надлежащем выборе взвешивающих коэффициентов можно добиться значительного эффекта для улучшения восприятия речи в тех случаях, когда помеха или шум являются структурированными.
Эти методы используются в основном для очистки случайных шумов таких, как треск, щелчки, удары и т.д. и выигрыш в отношении сигнал/шум составляет 7-10 db.
1.6 Методы, основанные на использовании закономерностей восприятия речевого слуха человеком
В основе развития этого класса методов лежит утверждение, что анализ речи, основанный на модели слуха человека, будет более успешным, чем анализ, основанный на абстрактных моделях речеобразования или статистических марковских моделях. Базой одного метода является принцип, по которому слух человека наиболее чувствителен к модуляциям в спектральном огибающем сигнале с частотой 2-3 Гц. Экспериментальная проверка этой методики показала, что существенного увеличения разборчивости речевого сигнала можно добиться путем увеличения модуляционной глубины речевого сигнала до зашумления. Применение же метода к зашумленному сигналу показало, что разборчивость речи не повысилась.
На базе другого метода лежит принцип частотной маскировки, согласно которому сигнал низкого уровня становится неслышимым (замаскированным) при звучании одновременно с ним более сильного сигнала при условии, если маскирующий и маскируемый сигналы достаточно близки друг другу по частоте.
Еще один метод заключается: речевой сигнал сначала подвергался высокочастотной фильтрации (для ослабления первой форманты, повышения удельного веса высших формант в спектре речевого сигнала). Далее отфильтрованный сигнал подвергался клиппированию. Операция клиппирования увеличивает амплитуду речевой волны на участках, которые соответствуют важным для восприятия согласным по отношению к амплитуде гласных звуков.
Потенциально многообещающие результаты получены при испытаниях систем анализа и обработки зашумленных речевых сигналов, построенных на представлении речевых сигналов с помощью волновых функций - вейвлетах.
Волновой (вейвлетный) анализ речи применяется последние 10-15 лет.
Основная идея данного метода фильтрации заключается в моделировании эффекта массировки, когда слуховая система суммирует сигналы разного уровня, сигнал с более высоким уровнем подавляет сигнал меньшего уровня.
Применение изложенной методики обеспечило выигрыш около 26 дБ в случае гауссовского шума. В результате испытаний на собранной базе данных выигрыш при использовании метода составляет не менее 18 дБ. Эти результаты представляются достаточно высокими и заслуживающими внимания, хотя не совсем понятно как можно пересчитать эти цифры в привычную методику оценки выигрыша в отношение сигнал/шум.
Обзор методов повышения качества и разборчивости зашумленных сигналов показывает, что существует много различных подходов к обработке зашумленной речи. Такое разнообразие говорит о том, что проблема очистки сигнала важна, а также об отсутствии достаточно надежных и оптимальных методов решения этой проблемы. Объективное сравнение этих методов и выбор наиболее приемлемого сделать весьма затруднительно, так как перед системами коррекции речи ставятся разные задачи. Например, в качестве главного критерия можно использовать повышение разборчивости речи, допуская при этом появления артефактов в виде структурированного шума и др. Можно поставить цель: снизить утомляемость аудитора или сохранение натуральности голоса, что достигается за счет повышения качества речевого сигнала.
Важно отметить, что универсальных методов обработки, которые одинаково хорошо бы боролись со стационарными и нестационарными, аддитивными и мультипликативными шумами, существенно повышали бы качество и одновременно разборчивость речи сейчас нет. Исходя из проведенного анализа основных видов шумов акустических помех и искажений, а так же особенности их воздействия на речевые сигналы, было установлено, что наиболее распространенными, а потому наиболее важными для практики являются квазистационарные шумы: шум толпы, моря, станков, двигателей, эфира (при передаче по каналам связи). Поэтому, при выборе основного метода очистки речевых, сигналов от шумов, будем, в первую очередь, руководствоваться качеством очистки именно от квазистационарных шумов, так как такой класс методов представляет больший практический интерес. Исходя из предложенной характеристики методов очистки речевых сигналов от шума и можно сделать вывод о том, что наиболее удобным, качественным, часто используемым, перспективным для реализации методом является метод на основе вычитания амплитудных спектров. В целом, методы, основанные на вычитании амплитудных спектров считаются одними из лучших - они приводят к удовлетворительным результатам и не требуют больших вычислительных ресурсов. Поэтому разработку наиболее эффективного метода очистки речевого сигнала, будем вести на основе метода вычитания амплитудных спектров.
Глава 2. Разработка оптимального алгоритма очистки речевого сигнала, методы, основанные на вычитании амплитудных спектров
В настоящей главе анализируются особенности методов, основанных на вычитании амплитудных спектров, для очистки речевых сигналов от стационарных и квазистационарных шумов непрерывных импульсных помех и искажений. Разрабатываются эффективные вычислительные схемы и алгоритм очистки речевого сигнала для такого рода шумов, помех и искажений в программной среде MatLab, а так же приводится качественный анализ эффективности разработанного алгоритма.
2.1 Методы, основанные на оценке спектральных характеристик шума
Звуковой сигнал, записываемый в реальных акустических условиях, часто содержит нежелательные шумы, которые могут порождаться окружающей средой или звукозаписывающей аппаратурой. Один из классов шумов - аддитивные стационарные шумы.
Аддитивность означает, что шум суммируется с "чистым" сигналом и не зависит от него, сигнал , в этом случае определяется выражением (2.1.)
(2.1.)
Стационарность означает, что свойства шума (мощность, спектральный состав) не меняются во времени.
Примерами таких шумов могут являться постоянное шипение микрофона или усилительной аппаратуры, гул электросети. Работа различных приборов, не меняющих звучания по времени (вентиляторы, компьютеры) также может создавать шумы, близкие к стационарным. Не являются стационарными шумами различные щелчки, удары, шелест ветра, шум автомобилей.
Для подавления аддитивных стационарных шумов существует алгоритм спектрального вычитания. Он состоит из следующих стадий:
1. Разложение сигнала с помощью быстрого преобразования Фурье или другого преобразования, компактно локализующего энергию сигнала.
2. Оценка спектра шума.
3. "Вычитание" амплитудного спектра шума из амплитудного спектра сигнала.
4. Обратное преобразование - синтез результирующего сигнала.
Исследования качества и разборчивости речи, получаемой в результате применения описанной методики, показали [3], что в тех случаях, когда шум или помеха имеют стационарный (или квазистационарный) характер и их спектр имеет гармоническую структуру, достигается значительное на слух повышение как качества, так и разборчивости речи. По мнению аудиторов, такая речь звучит чище и приятнее, чем до обработки, даже, несмотря на наличие характерных эффектов обработки - так называемых “музыкальных тонов”, заключающихся в случайных кратковременных выбросах в спектре обработанного сигнала. Однако, в случае шумов с быстроизменяющимися спектральными характеристиками такая обработка малоэффективна.
Подобные документы
Жесткий и гибкий пороги фильтрации речевого сигнала. Графики вейвлет-разложения речевого сигнала. Блок схема алгоритма фильтрации с гибким порогом. Статистический метод фильтрации речевого сигнала. Оценка качества восстановленного речевого сигнала.
реферат [440,2 K], добавлен 01.12.2008Способы представления речевого сигнала. Разработка алгоритма, структурной и функциональной схемы цифрового полосового вокодера. Расчёт параметров и характеристик набора цифровых полосовых фильтров. Оценка степени сжатия и моделирование в среде Matlab.
курсовая работа [1,1 M], добавлен 28.10.2011Общие сведения о шумах и адаптивной фильтрации речевого сигнала. Компенсаторы помех: устройство и компоненты, функции. Подавление аддитивного квазистационарного шума методом вычитания амплитудных спектров, основанном на искусственных нейронных сетях.
курсовая работа [359,7 K], добавлен 02.05.2016Методы обработки и передачи речевых сигналов. Сокращение избыточности речевого сигнала как одна из проблем ресурсосберегающего развития телефонных сетей. Кодирование речевых сигналов на основе линейного предсказания. Разработка алгоритма программы.
дипломная работа [324,7 K], добавлен 26.10.2011Спектральные характеристики периодических и непериодических сигналов. Свойства преобразования Фурье. Аналитический расчёт спектра сигнала и его энергии. Разработка программы в среде Borland C++ Bulder 6.0 для подсчета и графического отображения сигнала.
курсовая работа [813,6 K], добавлен 15.11.2012Метод выделения огибающей АМ-сигнала при помощи преобразования Гильберта. Эквивалентная схема программного алгоритма. Способы выделения амплитудного огибающего сигнала. Синтез АМ-сигнала с несущей и боковыми частотами. Формирователь амплитудной огибающей.
курсовая работа [279,1 K], добавлен 23.06.2009Расчёт объёма звукового файла и порядка фильтра Баттерворта как основа для приложений обработки сигналов. Спектр входного сигнала и его частота. Расчет порядка фильтра и дискретная функция передач. Амплитудная модуляция и детектирование сигнала.
курсовая работа [1,6 M], добавлен 07.05.2012Формирование математической модели сигнала и построение ее графика. Спектральный состав сигнала. Исследования спектрального состава сигнала с помощью быстрых преобразований ряда Фурье. Построение графика обработанного сигнала. Верхняя граничная частота.
курсовая работа [187,7 K], добавлен 14.08.2012Разработка схемы алгоритма программной генерации сигнала заданной формы. Обоснование назначения отдельных блоков программы, описание ее работы в целом. Формирование последовательности из трех пилообразных импульсов с заданным временем паузы и нарастания.
контрольная работа [28,0 K], добавлен 25.05.2015Анализ алгоритма функционирования системы накопления радара некогерентного рассеяния. Разработка амплитудного накопителя сигнала. Определение и формирование режима накопления контрольных сеансов. Технология и этапы сборки амплитудного накопителя.
дипломная работа [473,7 K], добавлен 14.02.2012