Вокодеры с линейным предсказанием

Устройство и функции вокодера с линейным предсказанием, виды липредеров на примере устройств с низкой скоростью передачи данных. Методы анализа речи на основе использования вокодеров с линейным предсказанием, липредеры на основе ковариационного метода.

Рубрика Коммуникации, связь, цифровые приборы и радиоэлектроника
Вид курсовая работа
Язык русский
Дата добавления 17.05.2012
Размер файла 1,6 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Министерство образования и науки РФ федеральное агентство по образованию

Московский авиационный институт (государственный технический университет)

Курсовая работа

Дисциплина: «Информационная безопасность и защита информации»

Тема: Вокодеры с линейным предсказанием

Группа: КТ-515

Студент: Грачев А.А.

Преподаватель: доц. каф. 402

Большов О.А.

Москва, 2010

Оглавление

Введение

Глава 1. Понятие «вокодер». Устройство и основные функции вокодера с линейным предсказанием

1.1 Физическое обоснование

1.2 Вокодеры с линейным предсказанием (липредеры)

1.3 Принцип метода линейного предсказания

Глава 2. Способы преобразования информации в вокодерах с линейным предсказанием

2.1 Преобразование коэффициентов

2.2 Кодирование и декодирование

2.3 Передача параметров с переменной скоростью

2.4 Возбуждение синтезатора и выбор коэффициента усиления

Глава 3. Виды липредеров на примере устройств с низкой скоростью передачи информации

3.1 Липредеры на основе ковариационного метода

Глава 4. Методы анализа речи на основе использования вокодеров с линейным предсказанием

Глава 5: Кодеки

Глава 6. Вокодеры в современности

Заключение

Список используемой литературы

Введение

Вокодеры - это системы параметрического кодирования речи, широко применяемые в современной цифровой телефонной связи, в том числе - Internet-телефонии. Причиной тому - высокая степень сжатия информации, а также хорошая согласованность вокодеров с системами канального кодирования и шифрования, в результате чего сравнительно легко обеспечивается высокая защищенность систем связи от помех и утечки информации. Недостатком вокодеров является невысокое качество речи, поэтому они применяются главным образом в военной связи, где главное - не натуральность речи, а ее высокая степень сжатия и хорошая разборчивость. В коммерческих системах связи, где ценится натуральность звучания речи, обычно применяют полувокодеры (гибридные вокодеры), сочетающие принципы непараметрического и параметрического методов кодирования. Иные области применения вокодеров - автоматизированная стенография, озвучивание текста, человеко-машинный диалог, биометрия (идентификация диктора).

Знакомясь с современным состоянием вокодерных технологий по литературным источникам и ресурсам Internet, можно выделить следующие области применение вокодеров:

· программные и программно-аппаратные разработки вокодеров для промышленного, военного и бытового применения;

· программные экспериментальные вокодеры;

· другие перспективные и интересные направления.

Глава 1. Понятие «вокодер». Устройство и основные функции вокодера с линейным предсказанием

вокодер речевой предсказание липредер

Устройства для параметрического частотного сжатия речи получили название вокодеров.

Вокодер (от англ. voice - голос и coder - кодировщик голоса) представляет собой устройство (или алгоритм), осуществляющее параметрическое компандирование речевого сигнала.

Компандирование - способ преобразования речевого сигнала, при котором на передающем конце тракта происходит сжатие по одному или нескольким измерениям (частотный диапазон, динамический диапазон, временной интервал), а на приёмном - восстановление первоначального объёма сигнала путём соответствующего расширения. Компандирование включает преобразования: компрессию (сжатие) и декомпрессию (восстановление) речевого сигнала.

Общий принцип действия вокодера любой системы поясняется на рис.1.

Анализатор

А - анализатор спектра

Т-Ш - выделитель сигнала тон-шум

ВОТ - выделитель основного тона

УО - устройство объедин. сигналов

КС - канал связи

Синтезатор

УР - устройство разъед. сигналов

С - синтезатор спектра

П - переключатель вида спектра

ГОТ - генератор основного тона

ГШ - генератор шума

Рис. 1. Обобщенная блок-схема вокодера

Главными частями вокодерного тракта является анализатор, который осуществляющий выделение параметров речевого сигнала, система передачи, обеспечивающая прохождение информации об этих параметрах через канал связи в узкой полосе частот, и синтезатор, восстанавливающий первообразный речевой сигнал.

Анализатор вокодера состоит из устройства для выделения параметров речевого сигнала A1,A2,...,Ak и схемы выделения основного тона(тон(F0) или шум).

1.1 Физическое обоснование

Работа вокодера (voice coder) основана на анализе характерных особенностей человеческой речи. На рис. 2 показаны условно частотные характеристики речи как функция от времени.

Рис. 2. Пример распределения энергии в частотных диапазонах

На рисунке изображены частотные полосы (от 0 до 1 КГц, от 1 КГц до 2 КГц и т. д.) и распределение энергии по ним при произнесении фразы.

Как видно из рисунка, энергия распределяется во времени только в некоторых частотных диапазонах и различается по величине. Отдельные пики энергии, возникающие в одном частотном диапазоне, называются фонемами.

Эта картина может изменяться в больших диапазонах, в зависимости от тембра голоса и особенностей произношения, но нам сейчас важно рассмотреть общие закономерности построения. На рисунке видно, что буквы отличаются не только частотным диапазоном, но и структурой. Для каждого звука характерны пики (резонансы) энергии в определенных частотных диапазонах и провалы в других. Частоты, на которых в данный момент возникают комбинации пиков (фонем), называются "частотами формант" или просто "формантами". Гласные и звонкие согласные звуки речи содержат обычно от трех до четырех формант. Эти свойства и иллюстрируются рис. 2.

Изображенная "спектрограмма" представляет собой распределение энергии речи в виде функции времени и частоты. Горизонтальная ось представляет время, вертикальная -- частоту, уровень энергии условно показан частью синусоиды. Периоды между сменами формант составляют от 10 до 30 мс. Изучение образцов речи показало, что в русском языке содержится 42 фонемы: это 6 гласных звуков и остальные согласные. Чтобы закодировать их номера, достаточно 6 битов.

Человек в среднем произносит в секунду 10 звуков. То есть от центральной нервной системы к речевому аппарату сигналы передаются со скоростью 10 [log2±2] = 60 бит/c. Это вычисление порождает иллюзию, что речь имеет небольшой объем информации и может быть передана с небольшой скоростью. Однако если рассмотреть подробнее, как образуется звук, то можно обнаружить, что при передаче речи требуется передать больше информации. При разговоре грудная клетка сжимается и расширяется, поток воздуха проходит через трахею и гортань в полости глотки, рта и носа. Голосовой тракт простирается от голосовой щели (отверстие между голосовыми складками гортани) до губ и в процессе речи его форма меняется. Если произносятся звонкие звуки (гласные, носовые, звонкие согласные), называемые также вокализованными (voiced), голосовые складки в гортани смыкаются и размыкаются с частотой, которая называется частотой основного тона (pitch). Получается последовательность импульсов воздушного потока, которые возбуждают полости голосового тракта. В процессе разговора человек меняет геометрические размеры этих полостей, соответственно меняются и резонаторные частоты, "форманты".

При произнесении глухих невокализированных (unvoiced) звуков голосовые связки расслаблены. Проходя по суженному голосовому тракту, воздух создает турбулентный поток (завихрение), т.е. в полости рта и носа возбуждаются шумоподобные сигналы. Взрывные (смычные, stop) звуки получаются путем кратковременного выхлопа -- полного перекрытия речевого тракта, нагнетания давления и внезапного открытия тракта. Взрывные звуки бывают звонкие (б, д, г) и глухие (п, т, к), т.е. могут образовываться с участием голосовых складок и без них. Таким образом, в терминах спектра сигналов, когда человек говорит, он производит спектральновременную модуляцию широкополосного сигнала, генерируемого голосовыми складками и представляющего своего рода несущую. Полезная информация содержится только в интонации (изменении частоты основного тона) и в смене спектра с тонального на шумовой и наоборот.

Линейная модель речеобразования представляет речь как систему, состоящую из генератора возбуждения (генераторная функция) и линейной системы с медленно изменяющимися параметрами (фильтровая функция), которая им возбуждается. В такой модели не учитывается взаимное влияние голосовой щели и голосового тракта. Это не соответствует действительности, зато сильно упрощает анализ и синтез. Для экономичной передачи и хранения речи надо определить параметры генераторной и фильтровой функций. В генераторной функции изменяется частота и амплитуда основного тона (высота и громкость голоса) и происходит смена вида функции (основной тон или шум). У фильтровой функции происходит постоянное изменение коэффициента передачи, проявляющееся в изменении огибающей спектра.

Эта модель представляет речь человека, который "гудит" на одной частоте, периодически изменяя ее на другую и меняя громкость, а основная информация "добавляется" в "подтонах".

Рассматриваемые ранее принципы и реализующая их аппаратура были предназначены в первую очередь для воспроизведения формы входного сигнала на приеме как можно точнее в форму сигнала на выходе приемной стороны. Ниже рассмотрим принципы построения аппаратуры, которая моделирует человеческую речь, используя при этом методы цифрового кодирования. Они называются вокодеры (это слово получено объединением двух английских слов voice coder -- кодер речевого сигнала).

По принципу определения параметров фильтровой функции различают следующие типы вокодеров:

· канальные (полосовые, channel);

· формантные;

· ортогональные;

· вокодеры с линейным предсказанием (липредеры -- с линейным предсказанием речи).

Ранее вокодеры выполнялись только на основе аналоговой техники на протяжении всего разговорного тракта. Теперь наиболее распространена цифровая техника.

В упрощенном виде вышесказанное выглядит таким образом:

В формировании того или иного звука речи человека участвует та или иная часть этих элементов. Если звук формируется с участием голосовых связок, поток воздуха из легких вызывает их колебание, что порождает звуковой гон. Последовательность формируемых таким образом звуков составляет тоновую речь (или тоновый сегмент речи). Если звук формируется безучастия связок, тон в нем отсутствует, и последовательность таких звуков составляет нетоновую речь (нетоновый сегмент речи). Спектр тонового звука может быть смоделирован путем подачи специальным образом сформированного сигнала возбуждения на вход цифрового фильтра с параметрами, определяемыми несколькими действительными коэффициентами. Спектр нетоновых звуков - практически равномерный, что обусловлено их шумовым характером.

В реальных речевых сигналах не все звуки можно четко разделить на тоновые и нетоновые, а приходится иметь дело с некими переходными вариантами, что затрудняет создание алгоритмов кодирования, обеспечивающих высокое качество передачи речи при низкой скорости передачи информации.

Описанный принцип кодирования получил название LPC (Linear Prediction Coding - кодирование с линейным предсказанием), поскольку центральным элементом модели голосового тракта является линейный фильтр. Наиболее известный стандартный алгоритм, построенный по описанному принципу, был стандартизован министерством обороны США под названием LPC-10, где число 10 соответствует количеству коэффициентов фильтра. Данный кодер обеспечивает очень низкую скорость передачи информации 2.4 Кбит/с, однако качество воспроизводимых речевых сигналов оставляет желать лучшего и не удовлетворяет требованиям коммерческой речевой связи - речь носит ярко выраженный «синтетический» характер.

В следующих главах детально разберем вокодеры с линейным предсказанием, принципы их устройства, различные методы их работы, области применения и другие аспекты. Также будет затронута тема кодеков, базирующихся на использовании вокодеров.

1.2 Вокодеры с линейным предсказанием (липредеры)

Этот тип вокодера (рис. 3, рис. 4), в отличие от остальных типов, для передачи речи применяет не фильтры, а систему линейного предсказания. В линию передается разностный сигнал между истинным и предсказанным значениями. Коэффициенты предсказания используются для предсказания управлением, восстанавливающим генератором на приеме и добавления генератором шума для передачи глухих и "свистящих" согласных.

Рис. 3. Схема передающей части вокодера с линейным предсказанием

Рис. 4. Схема приемной части вокодера с линейным предсказанием

Вокодеры данного типа работают уже с целыми блоками подготовленных отсчетов. Для каждого такого блока значений вычисляются его характерные параметры: частота, амплитуда и ряд других. Затем из значений этих параметров формируется речевой кадр, готовый для передачи. При таком подходе к кодированию речи, во-первых, возрастают требования к вычислительным мощностям ЦПОС, а во-вторых, увеличивается задержка при передаче, поскольку кодирование применяется не к отдельным значениям, а к некоторому их набору, который перед началом преобразования следует накопить в определенном буфере (см. рис. 5).

Рис.5. Схема функционирования вокодера на основе метода линейного предсказания речи.

Более сложные методы сжатия речи основаны на применении метода линейного предсказания речи в сочетании с элементами кодирования формы сигнала. В этих алгоритмах используется кодирование с обратной связью, когда при передаче сигнала осуществляется оптимизация кода. Закодировав сигнал, процессор пытается восстановить его форму и сравнивает результат с исходным сигналом, после чего начинает варьировать параметры кодирования, добиваясь наилучшего совпадения. Достигнув такого совпадения, аппаратура передает полученный код по линиям связи. На противоположном конце происходит восстановление речевого сигнала. Ясно, что для использования такого метода требуются серьезные вычислительные мощности.

1.3 Принцип метода линейного предсказания

В вокодерах с линейным предсказанием при анализе речевого сигнала в передающем устройстве определяются коэффициенты предсказания, а в приемном устройстве на основе этих коэффициентов с помощью рекурсивного цифрового фильтра синтезируется эквивалент голосового тракта.

Принцип метода линейного предсказания состоит в том, что прогнозируемая величина речевого сигнала (Pic) в момент выборки h определяется как линейно взвешенная сумма значений сигнала в моменты предшествующих выборок.

,

где - значения речевого сигнала в моменты предшествующих выборок; m=1,2…p; p - порядок предсказания; am - коэффициенты предсказания.

Интервалы времени между моментами выборок определяются частотой дискретизации th - th -1= 1/fд. В момент h, когда известны не только предсказанное значения , но и истинное значение речевого сигнала (h), можно определить ошибку предсказания и затем подобрать коэффициенты предсказания таким образом, чтобы ошибка предсказания была минимальной.

Коэффициенты предсказания, значения которых передаются по каналу связи на приемную сторону, используются в качестве переменных параметров в рекурсивном цифровом фильтре, на вход которого подаются сигналы возбуждения. При воспроизведении вокализованных звуков (гласных) - это последовательность импульсов с частотой основного тона, а при воспроизведении невокализованных звуков (согласных) - это случайная последовательность импульсов, формируемых генератором шума.

При кодировании с линейным предсказанием моделируются различные параметры человеческой речи, которые передаются вместо отсчетов речевого сигнала или их разностей. Это позволяет существенно снизить скорость передачи речевого сигнала по сравнению с методами ИКМ, ДИКМ, АДИКМ.

Рис.6. Структура синтезатора речи с линейным предсказанием.

Широко применяемый в настоящее время метод кодирования с линейным предсказанием предусматривает формирование блоков отсчетов (кадров), для каждого из которых вычисляется и передается частота основного тона, его амплитуда и информация о типе возбуждающего воздействия (гармоническое, негармоническое). Структура синтезатора речи с линейным предсказанием показана на рис. 6.

Здесь сигналы возбуждения имеют вид последовательности импульсов на частоте основного тона (для вокализованных звуков) или случайного шума (для невокализованных звуков).

Комбинации спектральных составляющих речи, возникающей, в частности, за счет работы голосовых связок, языка и губ человека, могут быть промоделированы цифровым фильтром с изменяющимися параметрами.

При линейном предсказании обычно производится спектральный анализ речи и выполняется построение систем анализа-синтеза. Во всех случаях параметры синтезатора обновляются при смене анализируемых кадров речевого сигнала.

Чтобы избежать эффектов, связанных со скачками значений параметров, необходимо плавно изменять параметры с помощью интерполяции при переходе от одного фрагмента (сегмента) речи к другому.

При кодировании речевых сигналов по методу LPC обычно применяют метод анализа через синтез (Analysis - by - Synthesis (AbS)).

Рис.7. Иллюстрация метода анализа через синтез (AbS), где:

а) кодер

б) декодер ('(h) значение Pic для момента h, полученное после декодирования)

При этом синтезатор (основной элемент декодера речевого сигнала) используется как составная часть устройства кодирования (рис.7). На основе формируемых данных производится синтез речевого сигнала, который сравнивается в процессе передачи с реальным сигналом, поступающим на вход устройства.

Сигнал ошибки e (h), получаемый в результате вычитания истинного и синтезированного сигналов, используется для уточнения формируемых в кодере данных.

По существу системы, использующие метод LPC, отличаются лишь способами генерирования возбуждающего воздействия и выбора параметров моделирующего фильтра.

Глава 2. Способы преобразования информации в вокодерах с линейным предсказанием

2.1 Преобразование коэффициентов

Основным набором передаваемых параметров в вокодере с линейным предсказанием являются М коэффициентов фильтра с характеристикой A(z) для каждого анализируемого сегмента. Эти коэффициенты действительно были использованы учеными Итакура и Саито в вокодерной системе, построенной на основе метода максимального правдоподобия, где каждый параметр кодировался с помощью 9 бит. Исследователи Атал и Ханауэр обсуждали использование коэффициентов фильтра для передачи и отметили, что требуется не только относительно высокая точность (8--10 бит на коэффициент), но, кроме того, при линейной интерполяции параметров в приемнике не гарантируется устойчивость синтезатора. Вычисляя корни A(z) и передавая их, можно восстановить информацию о спектре сигнала, заключенную в A(z), используя в среднем 5 бит на параметр. Кроме того, поскольку корни соответствуют устойчивым синтезирующим фильтрам, при их линейной интерполяции гарантируется устойчивость.

Было исследовано и много других преобразований коэффициентов фильтра. Наиболее важным преобразованием является расчет коэффициентов частной корреляции или коэффициентов отражения {km}. Они вычисляются непосредственно в автокорреляционном методе и могут быть получены рекурсивно с помощью процедуры пошагового понижения порядка, если используется ковариационный метод. Необходимым и достаточным условием устойчивости при этом является ограничение этих параметров единицей по модулю. Более того линейная интерполяция параметров устойчивых фильтров приводит в результате к устойчивым фильтрам.

Параметры {km} связаны с площадями сечений неоднородной акустической трубы {Aт}.. В качестве параметров, удобных для передачи, используются как логарифм отношения функций площадей {ln(Aт / Aт -1}, так и сами функции площадей А{m}. Линейная интерполяция этих параметров приводит к устойчивым фильтрам.

Одним из преобразований, гарантирующих устойчивость синтезирующего фильтра после интерполяции, основано на коэффициентах автокорреляции. При корреляционном методе анализ может быть разделен на вычисление коэффициентов автокорреляции в передатчике и решение автокорреляционных уравнений в приемнике. В ковариационном методе могут быть использованы процедуры пошагового понижения и повышения порядка, , включая применение уравнения в процедуре пошагового повышения порядка получения коэффициентов автокорреляции {r(т)}. В приемнике решаются автокорреляционные уравнения, как если бы процедура была идентична автокорреляционному методу. Устойчивость синтезирующего фильтра, полученного с помощью интерполяции автокорреляционных коэффициентов, следует из того факта, что линейная интерполяция элементов двух положительно определенных теплицевых матриц дает положительно определенную теплицеву матрицу. Такая гарантия устойчивости предлагает безошибочность вычислений, поскольку ошибки при вычислениях могут исказить свойство положительной определенности матриц.

К параметрам, гарантирующим устойчивость при их интерполяции между устойчивыми сегментами, относятся корни функции А(z), параметры {km}, функции площади, отношения площадей, логарифм отношения площадей и автокорреляционные коэффициенты. Параметрами, для которых неустойчивость, обусловленная ошибками вычислений, может быть легко обнаружена, являются корни полинома (для обеспечения устойчивости их модули должны быть меньше единицы), параметры {km} (для устойчивости их модули также должны быть меньше единицы), функции площади и отношения площадей (для устойчивости их значения должны быть положительными). Ошибки вычисления логарифма отношения площадей не могут привести к неустойчивости, поскольку экспоненциальность всегда обеспечивает положительные отношения площадей.

2.2 Кодирование и декодирование

Для вокодеров, возбуждаемых квазипериодическим сигналом, передаваемые параметры представляют собой обычно преобразования сигнала основного тона Р, коэффициента усиления а и коэффициентов фильтра {аi}. На практике кодирование сигнала основного тона и коэффициента усиления обычно осуществляется по логарифмическому закону. Типичным является логарифмическое кодирование сигнала основного тона на 5 или 6 бит и логарифмическое кодирование коэффициента усиления на 5 бит. Основное внимание далее будет уделено коэффициентам отражения {ki,}, представляющим собой преобразование от {ai}, и различным нелинейным преобразованиям, поскольку их свойства недостаточно известны.

В вокодерах с линейным предсказанием широко используются коэффициенты отражения (и такие параметры, как логарифм площадей). В автокорреляционном методе они легко получаются как часть результатов анализа, а в ковариационном методе -- вычисляются с помощью процедуры пошагового понижения порядка. Необходимым и достаточным условием устойчивости синтезирующего фильтра при этом является то, что значения модулей коэффициентов отражения должны быть меньше единицы. Поэтому линейная интерполяция коэффициентов отражения устойчивых фильтров гарантирует устойчивость полученных в результате интерполяции фильтров.

Коэффициенты отражения имеют неразномерную спектральную чувствительность, причем наибольшая чувствительность будет, когда модуль коэффициента близок к единице. Это свойство было теоретически доказано Грэем и Маркелом. Они показали, что в процедуре пошагового повышения порядка на т-м шаге изменение логарифмического спектра фильтра 1/Am(z), вызванное изменением km на Дkm, будет осциллировать (при изменении частоты от нуля до fJ2) между значениями ln[1+ Дkm /(1+km)] и ln[1- Дkm /(1-km)] Таким образом, значения km, модули которых приближаются к единице, наиболее чувствительны к малым изменениям спектра. Неравномерная спектральная чувствительность была также подробно изучена Висваназаном и Макхоллом.

Известно, что для многих вокализованных звуков первые коэффициенты отражения имеют асимметричное распределение (k1 почти равен -- 1, а k2 близок к +1), а коэффициенты более высокого порядка имеют центрированное около нуля распределение, близкое к гауссовскому. Это было замечено эмпирически рядом исследователей. Аналитически (используя аппроксимацию) было показано, что такая асимметрия имеет место для k1 и k2 в случае отсутствия предыскажения для устранения корреляции. Было также замечено, что при низких частотах дискретизации (10 кГц и меньше) величины коэффициентов отражения kз, k4… с высокой вероятностью меньше 0,7.

Линейное квантование коэффициентов отражения на отрезке [--1, 1] нецелесообразно, так как значения, близкие к единице, обычно характерны только для k1 и k2. Поэтому следует применять нелинейное квантование в силу неоднородной спектральной чувствительности. Использовалось несколько схем преобразования и кодирования. Хаски и другие изучили многие типы преобразований и пришли к выводу, что наиболее эффективно логарифмическое кодирование отношений площадей, т. е.: ln[1- km /(1+k)].

К такому же заключению пришли Висваназан и Макхолл на основании экспериментальной оценки спектральной чувствительности коэффициентов отражения. Велч использовал модифицированный логарифм отношения площадей ln[F- km/(F+ km)] со значениями F более единицы из-за того, что для коэффициентов отражения, близких к единице, квантование логарифма отношений площадей может стать настолько точным, что превысит точность исходных данных.

Для облегчения процедуры синтеза при использовании нормализованной структуры фильтра Маркел и Грэй предложили кодирование коэффициентов отражения по закону арксинуса иm=sin-1(km). При этом достигается большая точность квантования коэффициентов отражения, близких к единице, и такое кодирование является единственным преобразованием, осуществляющим равномерное распределение углов для непосредственного поиска параметров фильтра в приемнике по тригонометрической таблице (такие таблицы в виде стандартных программ имеются в памяти ПЗУ высокоскоростных процессорных систем). Несмотря на то, что такое кодирование не соответствует усредненным кривым чувствительности Висваназана и Макхолла так же, как и кодированию логарифма отношения площадей, тем не менее оно приемлемо и более эффективно, чем линейное квантование коэффициентов отражения. Кодирование по закону арксинуса встречает такую же трудность, связанную с чрезмерной точностью квантования при значениях модулей, близких к единице, как и кодирование логарифма площади.

Некоторые подходы, применяемые для сокращения числа передаваемых двоичных единиц, относительно просты, в то время как другие являются более сложными. Маркел и Грэй устранили смещение k1 и k2 (путем добавления и вычитания 0,3 соответственно), а затем равномерно квантовали несмещенные результаты для всех коэффициентов отражения от --0,7 до + 0,7, используя меньшее число бит для коэффициентов отражения высокого порядка. Итакура и Саито применили динамическое программирование для распределения двоичных единиц, предназначенных для кодирования коэффициентов отражения. Было обнаружено, что предыскажение речевого сигнала значительно сокращает разницу между распределением двоичных единиц при динамическом программировании и равномерном распределении. Макхолл и другие использовали метод кодирования Хаффмана применительно к логарифму отношения функции площади для повышения эффективности представления. Эта процедура имеет то преимущество, что используется меньшее число двоичных единиц без какого-либо ухудшения точности представления. Мак-Кендлес использовал метод равномерного кодирования площадей, основанный на гистограммах, полученных статистическим путем. При этом методе требуется отличное от других (но эффективное) кодирование каждого отдельного коэффициента отражения. Специфический вид такого кодирования зависит от статистических средних значений, полученных путем обработки большого числа сегментов данных, и зависит от таких параметров системы, как частота дискретизации, характеристики предыскажающего фильтра и типа записывающей аппаратуры.

Маловероятно, что можно определить единственную оптимальную схему кодирования-декодирования в том смысле, что получится наилучшее субъективное качество восприятия синтезированной речи при самой низкой скорости передачи. Когда критерий качества основывается на восприятии, выбор схемы кодирования-декодирования зависит от разных факторов и всегда имеется различие в мнениях слушателей.

При моделировании неквантованные параметры (при использовании системы счисления с плавающей запятой или целых чисел с максимальной точностью) обычно преобразуются в группу целых чисел {0, 1, ..., 2в--1}, где в -- число бит, используемых для представления параметра. Такое представление соответствует преобразованию множества значений в одно и может быть эффективно выполнено с помощью таблицы, например, на основе двоичного поиска. Эти передаваемые параметры однозначно соответствуют декодируемым параметрам и могут быть, следовательно, использованы в приемнике для табличного декодирования с помощью таблицы.

Специальные примеры передачи речи с минимальной скоростью на основе различных преобразований параметров будут представлены ниже при рассмотрении вокодерных систем и моделирования.

2.3 Передача параметров с переменной скоростью

Большая часть разговорной речи содержит паузы. Кроме того информация, необходимая для точного представления исходного речевого сигнала, существенно изменяется во времени. Например, при анализе переходов между вокализованными и невокализованными звуками их необходимо разбить на сегменты анализа малой длительности (например, fr=100 Гц), иначе такое слово, как pea, при синтезе может звучать как fee. Однако для протяжных звуков, таких, как в сочетании ahh, квазистационарный речевой сигнал может быть удовлетворительно представлен при более низкой частоте анализа. Если учесть паузы и переменный во времени характер создания информации в системах с коммутацией сообщений, то скорость передачи параметров речевого сигнала в этом случае можно существенно снизить без потери качества по сравнению со скоростью передачи в системах с коммутацией каналов (например, в телефонной сети).

Для того чтобы использовать изменяющиеся во времени свойства речевого сигнала для снижения скорости передачи, необходимо располагать некоторой мерой этого изменения. С ее помощью можно было бы сравнивать спектры или параметры на каждом новом сегменте анализа с аналогичными характеристиками в уже обработанных сегментах. Если эта мера превышает заданный порог, то отсюда следует, что характеристики сигнала претерпевают достаточно большое изменение, которое требует передачи нового набора параметров. Поскольку наибольший процент передаваемых двоичных единиц приходится на параметры, несущие информацию о спектре (например, коэффициенты отражения или логарифм отношения площадей), то основное внимание должно быть обращено на них.

Можно предложить большое число возможных мер, каждая из которых основана на некоторых характеристиках, описывающих анализируемый сегмент. Такие меры, например, могут основываться на средних значениях, суммах абсолютных разностей или квадратов параметров. Параметрами могут являться коэффициенты отражения, коэффициенты автокорреляции (возможно нормированные для устранения влияния фактора усиления), коэффициенты обратного фильтра или кепстральные коэффициенты.

2.4 Возбуждение синтезатора и выбор коэффициента усиления

Атал и Ханауэр предложили способ согласования энергии синтезированной речи в пределах периода основного тона с соответствующей энергией речевого сигнала с помощью передачи энергии входного сигнала, измеренной за один период ОТ. Хотя они ограничились рассмотрением ковариационного метода без предыскажающей фильтрации, однако этот способ применим как в ковариационном, так и в автокорреляционном методах и легко может быть модифицирован для случая применения предыскажения и прямой формы синтезирующего фильтра.

Способ основан на том, что каждый отсчет синтезированной речи имеет две основные составляющие: 1). затухающие комплексные экспоненты {q(n)} предшествующего синтезированного периода ОТ и 2). выходной сигнал синтезатора {и(п)}, являющийся откликом на возбуждающую последовательность {е(п)}, без учета влияния предшествующего сегмента.

В нашем случае источником возбуждения является либо последовательность периодических единичных отсчетов (следующий за нулевыми отсчетами) при синтезе вокализованных звуков, либо последовательность выходных отсчетов генератора псевдослучайных чисел при синтезе невокализованных звуков (период ОТ для невокализованных звуков считается постоянным). Если ввести коэффициент усиления g, то полный отклик синтезатора {s(n)} для нового сегмента определяется выражением s(n) = q(n) + gu(n). Если использовать черту для обозначения суммы N отсчетов, например, то требование равенства энергий исходного и синтезируемого сигналов запишется в следующем виде s2(n)= s2(n) = [q(n)+gu(n)]2 = g2u2(n) + 2gq(n)u(n) + q2(n). Это уравнение второго порядка может быть решено относительно g. Приведем алгоритм вычисления отклика синтезирующего фильтра прямой формы.

Вычислить выходной сигнал фильтра q(n) при n=0, 1, ..., М--1 в отсутствие возбуждения (используя только данные из памяти о предшествующем периоде) и без обновления коэффициентов фильтра.

Вычислить выходной сигнал фильтра и(п) при n=0, 1, 1, ..., N--1 по сигналу возбуждения {е(п)}, а память фильтра обнулить.

Вычислить коэффициенты уравнения второго порядка относительно g и решить его:

g2u2(n) + 2gq(n)u(n) + q2(n) - s2(n) = 0

4. Предполагая, что g действительно и неотрицательно, определить выходной сигнал синтезатора в соответствии с выражением s(n) = q(n) + gu(n) при n = 0, 1, .... N--1.

5. Записать в память фильтра прямой формы значения s(N-- 1), s(N--2),..., s(N--M).

Вернемся к третьему шагу. Если s2(n)>q2(n), то корни квадратного уравнения будут иметь противоположные знаки и, следовательно, всегда будет положительный действительный корень. Это условие выполняется, когда истинная энергия больше, чем энергия затухающего переходного процесса. Если это условие не удовлетворяется, что может случиться с сигналом, амплитуда которого уменьшается, то необходимо, чтобы

q(n)u(n) / u2(n) было отрицательным и, кроме того,

При отсутствии действительных положительных корней модель не имеет физического смысла. Если решения не существует, то Атал и Ханауэр предложили устанавливать g=0. Такая процедура требует моделирования работы синтезирующего фильтра дважды, в дополнение к трем суммам по N отсчетов и решению квадратного уравнения. Передаваемый коэффициент усиления а определяется по формуле a2=s2(n). Алгоритм, описанный выше, затем полностью реализуется в приемнике.

Такой подход можно распространить и на другие структуры синтезирующих фильтров. При этом необходимо осуществлять дополнительные вычисления при преобразовании значений задержанной синтезированной речи в сигналы, содержащиеся в элементах памяти фильтров. Изменение алгоритма при использовании предыскажения заключается в замене коэффициентов A(z) коэффициентами A(z)--(1--мz -1), где (1-- мz -1) определяет характеристику предыскажающего фильтра.

Несколько более простой (и менее точный) метод заключается в возбуждении синтезирующего фильтра входной последовательностью {е(п)}, чтобы вычислить и(п), где и(п) теперь содержит отклик как от предшествующего сегмента, так и от текущего сигнала возбуждения

Поскольку в указанных методах непосредственно согласуется энергия сигналов на входе и выходе, то можно ожидать точного согласования огибающих исходной и синтезированной речи. Однако необходимо тщательно следить за тем, чтобы величина разрывов непрерывности была минимальна, поскольку на коэффициенты усиления в конце одного периода ОТ и начале следующего не накладывается никаких энергетических ограничений, кроме косвенных.

Глава 3. Виды липредеров на примере устройств с низкой скоростью передачи информации

Одним из возможных и наиболее важных применений линейного предсказания является низкоскоростная (2400--3600 бит/с) надежная передача речи по телефонным каналам. Так как одноканальная высококачественная передача речи требует скорости от 40 000 до 200 000 бит/с, очевидно, что некоторые характеристики речи должны быть учтены в модели, в то время как другие могут быть исключены с целью уменьшения скорости передачи информации более чем на порядок. Важно понимать все обстоятельства, связанные с этим соображением, чтобы отчетливо представлять возможности и ограничения вокодерных систем с линейными предсказаниями. Некоторые из этих моментов далее будут рассмотрены.

На каждом сегменте необходимо максимально точно оценивать сигнал ОТ (отсутствие вокализованности означает, что Р=0). Эта оценка представляет собой единственный параметр, который обеспечивает наибольшее снижение скорости передачи информации. Если она достаточно точна, то натуральность звучания синтезированной речи снижается незначительно. Однако точное оценивание предполагает, что посторонние шумы должны быть сведены к минимуму. Музыка, лай собак или внятные помехи от разговоров других абонентов приведут к значительному ухудшению точности оценивания сигнала ОТ. Кроме того, диапазон изменения частоты основного тона оказывается ограниченным. Его величина зависит от сложности алгоритма выделения ОТ.

Обычно в процессе выделения ОТ каждый сегмент классифицируется как полностью вокализованный (тон V=1) или как полностью невокализованный шум (V=0). Очевидно, существуют звуки, которые следовало бы рассматривать как промежуточные, например /v/ в слове thieves. Применение бинарного правила классификации обусловлено практическими соображениями. Трудно автоматически установить правильное соотношение между периодической и шумовой компонентами, да и качество синтеза при этом часто ухудшается ненамного.

Если не применяется схема с переменной скоростью передачи информации, при которой учитываются паузы и другие свойства речи, то скорость не может быть уменьшена ниже 1200 -- 1400 бит/с. Системы с постоянной скоростью передачи (с синхронной передачей), описываемые в этом параграфе, могут сохранять высокое качество синтеза (при отсутствии операций кодирования, квантования или вычислений с конечной длиной слова) приблизительно до 3300 бит/с, обеспечивая, по существу, незначительное ухудшение качества восприятия. Приблизительно от 1400 до 3300 бит/с ухудшение качества может изменяться от незначительного до существенного, в зависимости от отдельных звуков речи и характерных особенностей говорящего. Ниже 1400 бит/с качество речи значительно ухудшается.

В этой части представлены примеры фраз, переданных по вокодерным системам. Существуют различные виды ЛПС вокодеров - вокодеры на основе метода максимального правдоподобия и частных корреляции, вокодеры на основе автокорелляционного метода и вокодеры на основе ковариационного метода. Для понимания ниже разберем более подробно последние.

3.1 Липредеры на основе ковариационного метода

Одними из видов липредеров с низкой скоростью передачи являются липредеры на основе ковариационного метода. Атал и Ханауэр в работах и впервые представили результаты анализа-синтеза на основе ковариационного метода линейного предсказания. К статье была приложена звукозапись, чтобы продемонстрировать качество синтеза, полученное при различных информационных скоростях. Исходная речь была записана при большом отношении сигнал/шум, пропущена через НЧ фильтр с частотой среза 5 кГц, а затем дискретизирована с частотой f= 10 кГц. Сегмент анализа устанавливался равным одному периоду Р основного тона для вокализованных участков и ' 10 мс для невокализованных. Коэффициенты предсказания {а*} рассчитывались на основе ковариационного метода, причем N=Pfs- Коэффициент усиления а вычислялся с помощью первой из процедур, описанных выше, так что энергия речи на каждом синтезируемом сегменте согласовывалась с энергией сигнала на соответствующем анализируемом сегменте. Выделение ОТ выполнялось на основе автокорреляционного анализа сигнала, полученного путем фильтрации исходной речи и возведения в куб для подчеркивания участков речевого колебания с большой амплитудой .

Для проверки на устойчивость фильтра с характеристикой 1/A(z) на анализируемом сегменте применялась процедура пошагового понижения порядка. Если фильтр неустойчив, то корни функции получались по программе нахождения корней полинома. Пусть функция опиcывает полиномиальную характеристику фильтра. Если корни zm лежат вне единичной окружности, т. е. |zm|>1, то заменим zm на z*m/|zm|2. Такая замена гарантирует, что форма спектра останется неизменной, хотя исходный критерий минимизации уже не удовлетворяется.

Полином, все корни которого лежат внутри единичной окружности, может быть тогда составлен рекурсивно при m=1, 2, ..., М, причем AM'(z) заменяет полином A(z). Отметим, что корень обычно оказывается комплексным. Полученные в результате такого преобразования коэффициентов фильтра параметры кодировались и квантовались двумя различными способами: (1) частота и ширина полос корней zm на сегменте в целом кодировались 60 двоичными единицами (в предположении, что М=\2)\ 2) площади акустической трубы Am кодировались 60 двоичными единицами. Оба этих способа гарантируют устойчивость фильтра синтезатора, даже если применяется линейная интерполяция. Другими передаваемыми параметрами были период Р основного тона, признак вокализованности «тон-шум» (V/UV) и коэффициент усиления, которые кодировались соответственно шестью, одной и пятью двоичными единицами. Поэтому скорость передачи составляла Br=fr*(6+1+5+60) =72*fr,.. Так как использовались частоты сегментов, равные 100, 67 и 33 Гц, то результирующие скорости составляли 7200, 4800 и 2400 бит/с соответственно.

Для синтеза речи применялся фильтр прямой формы, управляемый синхронно с периодом ОТ. Функция возбуждения представляла собой выходной сигнал генератора в виде единичных отсчетов в начале каждого периода, умноженных на коэффициент усиления о, или равномерно распределенных псевдослучайных отсчетов с нулевым средним значением и единичной дисперсией. По признаку вокализованности V («тон-шум») определялось, какой вид функции возбуждения применять. Поскольку параметры передаются с постоянной частотой fr, то для осуществления синтеза синхронно с периодом ОТ использовалась линейная интерполяция.

Для того чтобы гарантировать устойчивость, последовательность {ai} пересчитывалась в первые М+1 отсчеты автокорреляционной последовательности {r(п)}. После интерполяции последовательность {r(п)} пересчитывалась обратно в интерполированный ряд параметров {ai}, а затем последний применялся для синтеза в фильтре прямой формы.

Субъективно оцениваемое качество синтезированной речи было очень близко к качеству исходной речи. Некоторые факторы, касающиеся качества синтезированной речи, полученной в этой системе, будут рассмотрены далее. При построении этой системы преследовалась цель получения наивысшего возможного качества при заданной информационной скорости без учета сложности вычислений. Для проведения анализа с длительностью временного окна, зависящей от периода ОТ, требуется очень точно определять этот период. Как отмечал Шредер, частота возникновения ошибок, равная 1%, при выделении ОТ может быть недопустимой. Используемый алгоритм анализа периода ОТ требует много логических операций и обработки четырех или пяти задержанных в буферной памяти сегментов для определения того, классифицировать сегмент как вокализованный или как невокализованный и т. д. Чтобы достигнуть такого же качества синтеза, как в исходной записи, необходимо обеспечить большое отношение сигнал/шум (45--50 дБ). Более того, результаты отчасти зависят от того, насколько хорошо речь описывается комплексно-экспоненциальной моделью в пределах одного периода ОТ. Следует отметить, что все операции выполнялись в режиме с плавающей запятой с полной точностью.

При реализации такой системы можно не получить ожидаемых хороших результатов, если рассчитывать на то, что проведение вычислительных операций с малыми ошибками устранит потери качества восприятия. В настоящее время не существует прямых процедур (в тем смысле, что алгоритм может быть представлен последовательностью алгебраических соотношений) для реализации систем с высоким качеством и низкими скоростями. Например, автокорреляционный анализ является прямым в том смысле, что если при вычислении обеспечивается достаточная точность, то устойчивость фильтра с характеристикой 1/A(z) теоретически гарантируется. Но, к сожалению, качество синтеза при этом часто ниже, чем при ковариационном методе при идеальных условиях (например, анализ синхронный с ОТ, большое отношение сигнал/шум). С другой стороны, ковариационный метод требует проведения дополнительных операций для обеспечения устойчивости синтезирующих фильтров (проверка корней полиномов и смещение корней внутрь единичной окружности, после которого критерий минимума ошибки предсказаний уже не удовлетворяется).

Вокодерная система на основе линейного предсказания, использующая такой принцип анализа-синтеза, была исследована Хаски и другими. При этом была поставлена задача оптимизировать систему с точки зрения качества ее работы и точности реализации для самых разных дикторов при скоростях передачи информации 3600 и 7200 бит/с. В этом исследовании речь была ограничена полосой до 4000 Гц и дискретизировалась с частотой fs = 8000 Гц. Кроме того, длительность сегмента анализа была фиксирована. С целью определения требуемого числа коэффициентов фильтра М и длины сегмента анализа N было обработано шесть различных предложений от разных дикторов.

Из набора возможных значений длины сегмента N=64, 128 и 256 отсчетов был выбран сегмент с N= 128 (16 мс). Выбор более короткого интервала приводил к неустойчивости синтезирующего фильтра, в то время как при сегменте большей длительности появлялось чрезмерное сглаживание спектра. Порядок предсказателя М был выбран равным 12 при частоте дискретизации fs=8 кГц для обеспечения хорошего качества синтеза в различных условиях. При этом не наблюдалось существенного улучшения в синтезе при частоте сегментов выше 200 Гц и качество речи плавно снижалось при уменьшении частоты анализа от 200 до 30 Гц.

С точки зрения объема вычислений было целесообразно не определять корни полиномов. Вначале характеристика фильтра A (z) пересчитывалась в характеристику соответствующей акустической трубы. Необходимым и достаточным условием устойчивости фильтра l/A(z) является положительность Затем вычисляется новая функция площадей. Эта процедура продолжается до тех пор, пока модифицированный полином не будет иметь все функции площадей положительными. Кроме того, была установлена необходимость того, чтобы ширина каждой полосы была больше 30 Гц. Это требование удовлетворяется, если сжатие единичной окружности в 1,01 раза не приводит к неустойчивым функциям площадей.

Значительные усилия были приложены для определения эффективного метода кодирования функций площадей. Было установлено, что наиболее эффективным законом кодирования является логарифмическое кодирование отношений площадей. Было найдено, что наилучшим выбором распределения бит при скорости передачи данных 3600 бит/с и частоте анализа fr=50 Гц является следующее.

Для получения системы со скоростью передачи 7200 бит/с было решено просто удвоить частоту анализа, чтобы получить наилучшие результаты.

Качество восприятия сигнала в системе со скоростью передачи 3600 бит/с оценивалось при помощи сбора мнений слушателей. Было обработано 30 предложений (десять дикторов произносили по три предложения каждый). Слушатели (30) оценивали эти предложения (каждый 2 раза) по тексту, содержащему 60 пунктов, при использовании следующих категорий: отлично, хорошо, удовлетворительно, плохо, очень плохо. Слушатели были «настроены» на экспериментальные категории с помощью прослушивания речи стандартного телефонного канала и речи, полученной в полосном вокодере со скоростью 3600 бит/с. Результаты показывают, что качество, полученное при моделировании системы со скоростью передачи 3600 бит/с, находится между удовлетворительным и хорошим. Имеются основания полагать, что эти оценки чувствительны к дикторам и, в меньшей степени, к тексту. Обычно мужские голоса получают более высокие оценки, чем женские, но существуют и исключения из этого правила. Для большинства дикторов и текстов система со скоростью 3600 бит/с обеспечивает улучшение качества по сравнению с предшествующими полосными вокодерами.


Подобные документы

  • Принцип действия и устройство решетчатых фильтров, назначение и достоинства. Синтез решетчатого фильтра. Генерация случайных процессов на основе фильтра с решетчатой структурой. Система уравнений, описывающая фильтр с долговременным предсказанием.

    реферат [196,4 K], добавлен 10.11.2010

  • Цифровая обработка сигналов. Классификация вокодеров по способу анализа и синтеза речи. Структура БИХ-фильтра. Разработка функциональной схемы вокодера. Расчет параметров и характеристик набора цифровых полосовых фильтров. Алгоритм работы вокодера.

    курсовая работа [1,0 M], добавлен 07.11.2012

  • Разработка вокодерной системы передачи на основе фонемного вокодера. Методы анализа и синтеза речевых сигналов. Анализ структурных и принципиальных схем фонемного вокодера. Программа для проверки алгоритма устройства. Смета затрат на разработку.

    дипломная работа [6,5 M], добавлен 22.10.2011

  • Принцип работы аппаратуры линейного тракта систем передачи "Сопка-3М". Требования к линейным сигналам ВОСП и определение скорости их передачи. Принцип равномерного распределения регенераторов. Расчет детектируемой мощности и выбор оптических модулей.

    курсовая работа [163,2 K], добавлен 27.02.2009

  • Характеристика требований к линейным сигналам оптических систем передачи. Разработка схемы и расчет основных параметров фотоприемного устройства ВОЛС в диапазоне скоростей передачи 1-10 Гбит/с. Определение минимально необходимого соотношения сигнал-шум.

    курсовая работа [524,7 K], добавлен 24.12.2012

  • Основные термины в технологии защиты потоков SDH и суть одного из методов обеспечения быстрого восстановления работоспособности синхронных сетей. Требования, предъявляемые к линейным кодам волоконно-оптических систем передачи, кодирование сигнала.

    контрольная работа [436,0 K], добавлен 09.07.2009

  • Описание аппарата управления станции Круговец. Функции и режимы функционирования диспетчерской централизации "Неман", ее линейная аппаратура и программное обеспечение. Расчет надежности блока ТУ-16 телеуправления. Контроль поездной ситуации на станции.

    дипломная работа [2,1 M], добавлен 30.07.2013

  • Типы устройств СВЧ в схемах распределительных трактов антенных решеток. Проектирование устройств СВЧ на основе метода декомпозиции. Работа с программой "Модель-С" для автоматизированного и параметрического видов синтеза многоэлементных устройств СВЧ.

    контрольная работа [337,5 K], добавлен 15.10.2011

  • Изучение различных типов устройств СВЧ, используемых в схемах распределительных трактов антенных решеток. Практические расчеты элементов автоматизированного проектирования устройств СВЧ на основе метода декомпозиции. Конструирование баз и устройств СВЧ.

    контрольная работа [120,9 K], добавлен 17.10.2011

  • Определение и классификация радиотехнических координаторов. Способы измерения координат и методы пеленгования цели. Измерительная система координат. Радиотехнические координаторы с линейным сканированием. Повышение точности измерения угловых координат.

    курсовая работа [3,3 M], добавлен 09.06.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.