Обзор методов сегментации речевого сигнала

Два вида алгоритмов сегментации речевого сигнала: при условии, что известна последовательность фонем данной фразы, и сегментация, не использующая априорной информации о фразе. Отличительные особенности и назначение, применение данных типов сегментации.

Рубрика Коммуникации, связь, цифровые приборы и радиоэлектроника
Вид реферат
Язык русский
Дата добавления 11.01.2012
Размер файла 703,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Обзор методов сегментации

Известны два вида алгоритмов сегментации речевого сигнала: сегментация при условии, что известна последовательность фонем данной фразы, и сегментация, не использующая априорной информации о фразе, и при этом границы сегментов определяются по степени изменения акустических характеристик сигнала [1]. Иногда выделяют в отдельный вид алгоритмы, которые принимают решение, как на основе априорной информации, так и на основе изменения акустических характеристик.

Обзор методов сегментации, основанных на анализе спектра

Сегментация по усредненному нормированному спектру

В работах [2] представлен метод сегментации речевых сигналов, учитывающий особенности слуха человека, в частности, эффект латерального торможения. Авторами предлагается использовать анализ нормированного спектра вида:

(1.1)

где G (f, t) - нормированный спектр;

F1, F2 - половины интервалов нормировки, выбранных в шкале мел;

S (f, t) - динамический спектр сигнала (сонограмма).

Использование такой локальной нормировки соответствует эффекту латерального торможения и приводит к тому, что пики спектра обостряются, пропадает зависимость от значения энергии сигнала [2, 19].

При анализе такого нормированного спектра для автоматической сегментации на звуки речи предлагается использовать решающую функцию вида:

(1.2)

где G (f, t) - нормированный спектр;

- усредненный нормированный спектр;

- расстояние между усредненным нормированным спектром в момент времени ti и нормированным спектром в момент времени tj вида:

(1.3)

где creg - константа регуляризации.

При этом важно отметить, что процесс усреднение производится на каждом шаге от момента обнаружения последней границы.

Решение о наличии границы принимается в том случае, если значение решающей функции (1.2) превышает некоторый порог. На рисунке 1.1 представлена решающая функция для слова «ноль».

Рисунок 1.1 - Пример сегментации по усредненному нормированному спектру для слова «НОЛЬ»

Основным недостатком метода сегментации по усредненному нормированному спектру является то, что он не позволяет обнаружить границу, если изменения происходят преимущественно в значении энергии сигнала. Для учета этих особенностей предлагается не производить нормировку спектра, но это приводит к появлению эффекта пересегментации из-за повышения чувствительности алгоритма.

Сегментация по динамическим детекторам

В работах тех же авторов [2] рассматривается другой алгоритм сегментации речевых сигналов, учитывающий изменение значения энергии сигнала в частотных интервалах - сегментация по динамическим детекторам. В этом случае предлагается использовать выражения вида:

(1.4)

(1.5)

где D+(f, t) - положительный динамический детектор;

D-(f, t) - отрицательный динамический детектор;

S (f, t) - динамический спектр сигнала (сонограмма);

cdyn - константа регуляризации.

Положительный динамический детектор позволяет выделить места нарастания энергии, а отрицательный динамический детектор - места спада энергии.

Для данного метода сегментации используется две решающих функции:

, (1.6)

, (1.7)

где D+(f, t) - положительный динамический детектор;

D-(f, t) - отрицательный динамический детектор.

Решение о наличии границы принимается в том случае, если значение решающей функции (1.6) или (1.7) превышает соответствующий порог.

Вид спектров, полученных после обработки динамическими детекторами для слова «НОЛЬ», показан на рисунке 1.2 снизу. Правая часть рисунка соответствует положительному детектору, левая - отрицательному. На детектограммах черные участки показывают повышение энергии (правый рисунок) или понижение (левый рисунок). Посередине показана суммарная энергия детекторов, вычисленная в полной полосе частот.

Рисунок 1.2 - Сегментация с использованием динамических детекторов на примере слова «НОЛЬ»:

справа - обработка положительным детектором;

слева - отрицательным

Экспериментальные исследования метода сегментации по динамическим детекторам показывает, что выбор достаточно большой величины порога приводит к пропуску большого количества границ, особенно между гласными и сонорными согласными. Уменьшение порогового значения приводит к появлению ложно установленных границ, особенно это проявляется для согласных звуков, имеющих неоднородное распределение энергии вдоль звука [2, 4].

Сегментация по корреляции между равноотстоящими спектрами

Определение границ между звуками речи может осуществляться также на основе определения расстояния между спектрами [4]. В этом случае предлагается использовать решающую функцию вида:

(1.8)

где S (f, t) - динамический спектр сигнала (сонограмма);

creg - константа регуляризации.

В данном случае, для принятия решения авторы [3] предлагают использовать дополнительный анализ. На первом этапе строится характеристика (1.8) в каждой точке анализа. Логичным является предположить, что граница располагается в точках локальных максимумов этой характеристики. Более подробный анализ показывает, что выбор порогового значения для принятия решения в данном случае является неэффективным, так как в местах некоторых границ значения локального максимума достаточно мало. В этом случае выбор большого порогового значения приведет к пропуску границ, а выбор малого - к появлению ложно определенных границ. Для принятия решения о наличии границы осуществляется поиск таких наиболее близко расположенных минимальных значений, для которых расстояние между спектрами в этих минимумах больше порогового [3].

На рисунке 1.3 представлена работа алгоритма сегментации на основе корреляции между равноотстоящими спектрами.

Рисунок 1.3 - Результат сегментации по корреляции между равноотстоящими спектрами для слова «ВОСЕМЬ»

Из рисунка видно, что границы артикуляторно-акустических сегментов найдены с малой погрешностью. Лишние границы соответствуют переходным и квазистационарным участкам, и их число приемлемо.

Использование алгоритма сегментации по корреляции между спектрами имеет наилучшие показатели среди описанных ранее алгоритмов.

Метод сегментации на основе кепстальных коэффициентов

Одними из наиболее часто используемых параметров в задаче сегментации речевого сигнала являются кепстральные коэффициенты в силу их замечательного свойства - инвариантности к постоянному искажению речевого сигнала, например, вносимому передающим трактом, которое может быть описаны линейным фильтром. Разностная обработка позволяет такие искажения устранять.

Простейшая мера, которая может быть использована в пофрагментной обработке - евклидова:

(1.9)

где и - кепстральные коэффициенты для k и k-1 фрагментов речевого сигнала, вычисляемые по формуле:

; (1.10)

где am - коэффициенты линейного предсказания;

Р - порядок модели, для частоты дискретизации 8 кГц используют порядок модели P=10-12

Поскольку коэффициент не несёт информации о самом сигнале, то он обычно не используется при анализе, так же как и .

Автор в своей статье [5] показал, что кепстральные коэффициенты имеют нулевое среднее и дисперсию, убывающую в соответствии с. Соответственно, взвешенная мера имеет вид:

(1.11)

На рисунке 1.4 представлен результат сегментации на основе кепстральных коэффициентов слова «hello».

Рисунок 1.4 - Решающая функция алгоритма сегментации на основе кепстральных коэффициентов

На рисунке видно, что использование метода сегментации на основе кепстральных коэффициентов позволяет определить границы между звуками «h» и «e», «е» и «l», «l» и «o», если использовать в качестве критерия определения границы наличие локального максимума. Данный алгоритм некорректно работает на границе двух звуков имеющих близкое распределение энергии, как например граница между «o» и «u» обнаружена со сдвигом.

Обзор корреляционных методов сегментации

Автокорреляционная функция широко применяется в качестве критерия классификации [7, 8, 9], так как позволяет непосредственно оценивать квазипериодические свойства сигнала. В частности, при использовании такого критерия, оценкой степени вокализованости сегмента речевого сигнала выступает значение ближайшего локального максимума этой функции [7], а расстояние от ее начала до этого максимума близко к периоду основного тона сегмента [7,9]. Однако такая оценка существенно зависит от условий записи речи и индивидуальных характеристик говорящего, так как не является нормированной, и чувствительна к случайным выбросам. Для улучшения оценки свойств сигнала предлагается относительный интервальный корреляционный критерий, который определяется как отношение максимального по модулю значения автокорреляционной функции (АКФ) исходного сегмента x(n), расположенного не ближе некоторого интервала от начального отсчета функции n=1, к ее максимальному значению в начале интервала [6]:

, (1.12)

где - исходный фрагмент сигнала;

, е - целая часть [];

- временная координата фрагмента;

- частота дискретизации,

- автокорреляционная функция вида:

. (1.13)

Интервал в определении критерия вводится для уменьшения влияния нестационарности сигнала. Приведенный критерий является нормированным.

На рисунке 1.5 показаны примеры АКФ периодического а) и шумового б) сигналов частотой дискретизации 8 кГц длительностью 30 мс (240 отсчетов). АКФ периодического сигнала изменяется с частотой, близкой к частоте исходного сигнала.

Рисунок 1.5 - АКФ периодического (n) (а) и шумового (n) (б) сигналов

Амплитудное значение АКФ ((1)) в точке n=1, незначительно превышает последующие локальные максимумы. АКФ шумового сигнала затухает с большей скоростью, чем АКФ периодического сигнала, ((1)) гораздо больше остальных последующих значений.

Заштрихованная область соответствует минимальному интервалу, который исключается из рассмотрения для устранения влияния возможной нестационарности сигнала на значение определяемого критерия, что повышает адекватность оценки вокализованности сигнала.

Обзор методов сегментации на основе использования линейного предсказания

Исходным пунктом при обосновании метода сегментации является авторегрессионая (АР) модель речевого сигнала. Такая аппроксимация прочно утвердилась в области анализа и синтеза речи как модель, хорошо описывающая поведение речевого тракта при его описании в виде динамической трубы [10]. Разностное уравнение, описывающее АР процесс, определяется следующей формулой:

(1.14)

где x(n) - массив данных АР сигнала размером n;

a(i) - АР коэффициенты процесса;

P - порядок процесса;

 - порождающий процесс типа гауссовского белого шума.

Вычисление параметров АР модели речевого сигнала, а именно её вектор АР коэффициентов a(i) i=1…P, производится в расчете на минимизацию ошибки линейного предсказания по ее дисперсии.

Решение задачи различения для семейства сигналов, полученных путём линейной фильтрации «белого» гауссовского шума определяется в предположении об АР природе анализируемых сигналов с применением принципа информационного рассогласования. Используя формулировку критерия минимума информационного рассогласования в метрике Кульбака-Лейблера во временной области через матрицы ковариации, определим оптимальный алгоритм для различения сигналов [11]:

(1.15)

где Kx(f) - оценка матрицы автоковариаций по выборке конечного объёма для распознаваемого сигнала х;

Kr(f) - оценка матрицы автоковариаций по выборке конечного объёма для распознаваемого сигнала r;

R - размер словаря.

Алгоритм реализуется в виде набора из R параллельных каналов вычисления решающей статистики (1.15). База данных словаря содержит R, по числу распознаваемых слов, оценок матриц автоковариаций сигналов. В каждом канале производится вычисление статистики на основе оценки матрицы автоковариации анализируемого сигнала и оценки матрицы автоковариации одного сигнала из словаря. Решение принимается в решающем устройстве по критерию минимума решающей статистики на выходах вычислителей статистики в каждом из R каналов.

Произведём теоретическое обоснование применимости критерия МИР во временной области к фонемной структуре слова. Согласно [12] оценка обратной автокорреляционной матрицы произвольного гауссовского сигнала может быть произведена путём вычисления следующего тройного разложения:

(1.16)

где A - верхняя треугольная матрица авторегрессии размером n с единичной диагональю, составленная из коэффициентов авторегрессии порядка от 1 до n-1 включительно;

 - диагональная дисперсионная матрица размером n, диагональными элементами которой являются обратные значения дисперсии нескомпенсированного остатка на выходе обеляющего фильтра порядка с n-1 по 0 соответственно номеру строки (столбца) элемента в матрице.

Учитывая кусочно-стационарную структуру речевого сигнала можем утверждать, что вектор АР коэффициентов в этом случае неизменен в пределах участка стационарности, соответственно и матрица автокорреляции сигнала, вычисленная внутри границ этого периода является стационарной. Отсюда следует вывод, что увеличение эффективности распознавания речевых сигналов можно достичь путём разбиения слова на участки со стационарным поведением автоковариационной матрицы и дальнейшего сравнения двух сигналов по критерию минимума усреднённого информационного расстояния по всем сегментам распознаваемого слова. Однако следует отметить, что в случае сильно вариативной базы данных слов в процессе распознавания необходимо дополнительно применять методы временной нормировки сравниваемых слов [13].

Классическим решением этой задачи является метод динамического искажения времени [14]. Наиболее простым и вычислительно-эффективным способом фонетического анализа структуры слова является разделение слова на неперекрывающиеся смежные сегменты фиксированной длинны. При этом априорная база данных словаря будет содержать не одну, а несколько матриц для каждого слова, вычисленных по соответствующим сегментам, а вычисление решающей статистики будет производиться путём усреднения решающих статистик, вычисленных по всем сегментам.

С учётом сказанного решающая статистика (1.15) требует видоизменения. Окончательно, учитывая фонемную структуру, модифицированная решающая статистика преобразуется к виду:

(1.17)

сегментация сигнал информация речевой

где - выборочная оценка матрицы ковариаций сегмента i распознаваемого сигнала х;

- выборочная оценка матрицы ковариаций сегмента i распознаваемого сигнала r;

R - размер словаря;

L - число сегментов обработки.

После такой модификации мы получаем возможность применять метод как целиком к слову, устанавливая количество сегментов обработки L равное единице, так и к фонемной структуре слова, усредняя информационное рассогласование сегментов сигналов по всей его длине L>>1. В соответствии с решающей статистикой (1.17) синтезируем алгоритм обработки сигналов.

Размещено на Allbest.ru


Подобные документы

  • Жесткий и гибкий пороги фильтрации речевого сигнала. Графики вейвлет-разложения речевого сигнала. Блок схема алгоритма фильтрации с гибким порогом. Статистический метод фильтрации речевого сигнала. Оценка качества восстановленного речевого сигнала.

    реферат [440,2 K], добавлен 01.12.2008

  • Уменьшение дисперсии шумовой составляющей многокритериальными методами сглаживания цифрового сигнала, представленного единственной реализацией нестационарного случайного процесса в условиях априорной информации о функциях сигнала и характеристиках шума.

    реферат [488,8 K], добавлен 01.04.2011

  • Расчёт объёма звукового файла и порядка фильтра Баттерворта как основа для приложений обработки сигналов. Спектр входного сигнала и его частота. Расчет порядка фильтра и дискретная функция передач. Амплитудная модуляция и детектирование сигнала.

    курсовая работа [1,6 M], добавлен 07.05.2012

  • Исследование различных подходов к синтезу обнаружителей. Обнаружение сигнала со случайной амплитудой и начальной фазой, при априорной неопределенности. Свойства согласованных фильтров. Рекомендации по их реализации. Согласованная фильтрация сигнала.

    реферат [763,7 K], добавлен 13.10.2013

  • Рассмотрение методов измерения параметров радиосигналов при времени измерения менее и некратном периоду сигнала. Разработка алгоритмов оценки параметров сигнала и исследование их погрешностей в аппаратуре потребителя спутниковых навигационных систем.

    дипломная работа [3,6 M], добавлен 23.10.2011

  • Оценка помехоустойчивости асимптотически оптимальных и ранговых обнаружителей сигнала. Асимптотически оптимальные и ранговые алгоритмы обнаружения сигнала - знаковый, линейный, медианный и алгоритм Ван-дер-Вардена. Особенности моделирования алгоритмов.

    дипломная работа [4,0 M], добавлен 22.06.2012

  • Требования к микросхемам аналогового интерфейса связи. Спектр мощности речевого сигнала. Характеристика сигналов аналоговых сообщений. Последовательность импульсов при передаче точек. Восстановление цифровых сигналов. Уплотнение каналов в телефонии.

    презентация [850,5 K], добавлен 22.10.2014

  • Структурные схемы гомоморфной обработки и анализа речевых сигналов. Комплексный кепстр речи. Компонент речевого сигнала. Период основного тона и частоты формант. Модуль передаточной функции речевого тракта. Оценивание основного тона на основе кепстра.

    реферат [297,1 K], добавлен 19.11.2008

  • Достоинства цифровой обработки сигнала. Выбор частоты дискретизации. Расчет импульсной характеристики. Определение коэффициента передачи. Описание работы преобразователя Гильберта. Выбор микросхем и описание их функций. Требования к источнику питания.

    дипломная работа [1,3 M], добавлен 26.10.2011

  • Особенности распространения речевого сигнала. Анализ спектральных характеристик. Разработка лабораторного стенда по исследованию прямых акустических, вибрационных и акустоэлектрических каналов утечки речевой информации и методики проведения экспериментов.

    дипломная работа [2,4 M], добавлен 27.10.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.