Кодировщики голоса

Блок-схема кодирования и декодирования человеческого голоса. Вокодеры с линейным предсказанием. Вокодер как цифровая модель речевого тракта. Защита информации в оперативных радиосетях. Конвенциональные радиосистемы: непараметрическое кодирование речи.

Рубрика Коммуникации, связь, цифровые приборы и радиоэлектроника
Вид курсовая работа
Язык русский
Дата добавления 06.05.2011
Размер файла 1,7 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Эта технология находит применение в военных системах связи, в диспетчерских службах, а также в системах пейджерной связи. Разработчики преобразователей голоса учли особенности работы горла, голосовых связок и всего речевого аппарата. Звонкие и глухие звуки воспроизводятся здесь различными способами (с помощью импульсного генератора и генератора шума, соответственно).

Эти субдиапазоны выделяются узкополосными фильтрами, за которыми следуют выпрямители и фильтры низких частот (20 Гц). Выходные сигналы этих фильтров мультиплексируются и преобразуются в цифровую форму. Частота стробирования этих сигналов составляет примерно 50 Гц. Разрядность АЦП в этом случае может составлять 3 бита. На принимающей стороне осуществляется цифро-аналоговое преобразование (ЦАП) и мультиплексирование. Сбалансированные амплитудные модуляторы, управляемые ЦАП и переключателем, выдают сигналы на узкополосные фильтры. Все эти сигналы смешиваются в сумматоре, а результат воспроизводится.

В случае схемы, необходимое быстродействие передающей линии составляет 3 бита * 50 Гц * 16 каналов = 2,4 Кбит/с. Дальнейший выигрыш может быть получен за счет цифрового сжатия. Число каналов (фильтров) и ширина пропускаемой полосы частот может варьироваться, соответственно будет меняться и качество воспроизведения звука. Минимально возможная полоса пропускания передающей линии, при которой значение передаваемого текста еще воспринимается правильно, лежит ниже 1 Кбит/с.

Предшествующая фраза, включая пробелы и знаки препинания, содержит около 150 символов. Для ее произношения требуется около 10 сек (15 символов в сек). Но даже вокодеру потребуется для этого предложения передать не менее 10000 бит. Откуда такое отличие? Во-первых, человеческая речь индивидуальна и эта фраза, произнесенная разными людьми, будет звучать по-разному, кроме того, существует эмоциональная окраска, которой практически лишена буквенная запись. Во-вторых, даже самая совершенная современная система сжатия звуковой информации не идеальна и остается широкое поле для дальнейшего совершенствования. Пути могут быть разными в зависимости от поставленной задачи. Если требуется передать только информацию, следует преобразовать звук в символьную (буквенную) форму, передать эти данные в цифровом виде, а на принимающей стороне осуществить обратное преобразование. Само буквенное представление может быть также подвергнуто некоторому сжатию, но это неизбежно увеличит задержку воспроизведения. В сущности, данная схема является развитием идей, заложенных в вокодере.

В случае необходимости передачи индивидуальных особенностей голоса, сначала должен проводиться анализ этих персональных отличий. Особенности голоса в закодированном виде передаются принимающей стороне, где эти данные используются в дальнейшем при воспроизведении закодированного текста. Эти схемы потребуют довольно мощных сигнальных процессоров и, вероятно, найдут применение лишь в следующем веке.

Рисунок 1- Блок-схема кодирования/декодирования человеческого голоса (Vocoder)

Параметрические вокодеры. Полосовые вокодеры

Полосовой вокодер синтезирует речь используя определенные и чистые тона.

Рассмотрим некоторые реализацию полосового вокодера. Это например метод синтеза речи с помощью ряда Фурье - в виде суммы элементарных спектральных составляющих, в музыкальной акустике получивших название "чистые тона". Имеется Банк "чистых тонов" со 144 чистыми тонами. Как происходил синтез звука показано на рис. 2.

Рисунок 2. Функционально-оптическая схема синтезатора АНС.Свет от источника (1) пропускался через вращающийся диск фотооптического генератора (2) и модулировался по интенсивности звуковыми дорожками (банком чистых тонов). Между диском и читающим фотоэлементом (4) устанавливалась маска (информация о синтезе)(3) с отверстиями для отбора лучей только от нужных дорожек. После фотоэлемента следовал обычный для кинопроектора тракт звукоусиления (5).

Первой электрической и одновременно последней аналоговой моделью речевого тракта стал прибор водер (на рис. 3 подробно описано его устройство), разработанный Дадли, Ришем и Уоткинсом.

Рисунок 3. Структурная схема водера

Водер управлялся от ручной клавиатуры и синтезировал сигналы с заданным спектром. Десять параллельно соединенных полосовых фильтров составляли блок управления резонансами. Переключение источника возбуждения - шумового или импульсного генератора - осуществлялось браслетом на запястье оператора, а управление частотой импульсов - ножной педалью. На выходе фильтров стояли потенциометры, управлявшиеся десятью пальцами и изменявшие напряжение сигнала каждого фильтра.

Формантные вокодеры. Вокодеры с линейным предсказанием (липредеры)

Вокодеры с линейным предсказанием - липредеры (linear prediction) создают отсчеты звукового сигнала на основе предыдущего отсчета сигнала и вычисленных в передающей части коэффициентов линейного предсказания (КЛП).Если мы правильно вычислим КЛП то сохраним у восстановленной речи ее индивидуальные особенности,что очень важно например в криминалистике да нелишне и при телефонных переговорах.

Для прогноза текущего отсчета речевого сигнала можно использовать линейно взвешенную сумму предшествующих отсчетов, то есть предсказываемый отсчет

где ak - коэффициенты предсказания (k = 1, 2,..., P).Ошибка предсказания e(n)=s(n)-s(n). Kоэффициенты предсказания должны быть такими, чтобы для временного окна длиной N отсчетов сумма была минимальна. Задача минимизации приводит к системе линейных уравнений относительно ak. Коэффициенты уравнения оказываются равными значениям автокорреляционной функции отрезка речи. В липредерах сначала для каждого кадра длиной 10 - 20 мс вычисляются коэффициенты корреляции, а по ним находят коэффициенты предсказания (или коэффициенты частной корреляции, или коэффициенты отражения), которые передаются на приемную сторону вместе с информацией о функции возбуждения. Коэффициенты линейного предсказания (КЛП) обретают простой смысл. Передаточная функция фильтра, который имеет только полюсы:

где p - порядок фильтра.

Алгоритмы, которые используют коэффициенты частной корреляции (PARtial CORrelation), называются PARCOR.

Вокодер как цифровая модель речевого тракта

Ядром вокодера - цифровой модели речевого тракта - является цифровой фильтр с переменными параметрами, АЧХ которого изменяется во времени, отражая изменение резонансных свойствах речевого тракта. В анализаторе вокодера измеряются характеристики этого фильтра, а в синтезаторе фильтр воссоздается по результатам этих измерений (рис. 4).

Рисунок 4. Обобщенная структурная схема полосного вокодера

Рисунок 5. Структура программных модулей анализатора и синтезатора

Кроме того, в анализаторе определяется, какой звук имеет место в данный момент времени - гласный или согласный, а также измеряется частота основного тона гласного звука. В синтезаторе на основе этой информации формируется возбуждающий сигнал: для согласных звуков это шум, для гласных - периодическая последовательность импульсов с периодом, равным периоду основного тона. Структура программных модулей анализатора и синтезатора приведена на рис.2.

Подчеркнем, что решающую роль в разборчивости синтезированного речевого сигнала играет информация о резонансных свойствах речевого тракта. Так, возбуждая фильтр синтезатора только шумом либо только периодической последовательностью импульсов, можно получить вполне разборчивую речь. Отличие лишь в том, что в первом случае мы услышим шепот, во втором - «голос робота».

Анализ измерение параметров фильтра

Рассмотрим несколько конкретных примеров измерения параметров фильтра в полосных и гомоморфных вокодерах, а также в вокодерах с линейным предсказанием (липредерах). При этом учтем, что интервал стационарности речевого сигнала близок величине 10-30 мс .

Полосной вокодер. Измерения АЧХ фильтра с переменными параметрами в полосном вокодере удобно производить, используя кратковременный спектральный анализ и алгоритм БПФ. В приведенном ниже примере речевой сигнал нарезается на неперекрывающиеся сегменты протяженностью 128 выборок (11.6 мс при частоте дискретизации Fs=11025 Гц), для каждого сегмента вычисляется непараметрическая оценка спектра мощности (периодограмма). Спектры смежных сегментов попарно усредняются, в результате чего получается спектрограмма с разрешением по времени 23.2 мс и разрешением по частоте примерно 100 Гц (рис. 6).

Рисунок 6. Исходный речевой сигнал и его спектрограмма

Проблема защиты информации в оперативных радиосетях

Радиосвязь является основным видом связи с подвижными объектами, обеспечивающим управление органами и подразделениями правоохранительных и силовых министерств и ведомств, а в ряде случаев единственным видом связи, обеспечивающим управление и взаимодействие с другими министерствами и ведомствами при осложнении оперативной обстановки (контртеррористические операции, массовые беспорядки и т.п.), а также при ликвидации последствий стихийных бедствий. Важным преимуществом радиосвязи является ее высокая мобильность, то есть возможность изменения состава сети радиосвязи или полное ее перемещение без нарушения работы. Применение радиосвязи позволяет сконцентрировать в минимальные сроки и в нужном месте необходимое количество оперативных сил и средств для проведения мероприятий, согласовать по времени их действия и осуществлять единое руководство. Требования к качеству функционирования сетей радиосвязи как составной части систем управления растут постоянно, адаптируясь к быстро меняющимся условиям эксплуатации. В настоящее время наблюдается резкий рост числа радиосетей и парка радиосредств, эксплуатирующихся в министерствах и ведомствах, что ведет к укрупнению профессиональных радиосетей. Это очевидно из следующих показателей:

-рост числа сверхбольших радиосетей (с зонами уверенной связи на среднепересеченной местности с радиусом около 50 км);

-рост числа территориальных радиосетей (сети, обеспечивающие сплошное покрытие в пределах территории любой конфигурации);

-увеличение числа обслуживаемых абонентов в ведомственных радиосетях с малой емкостью предельного размера (до 1000 абонентов).

Проблемы организации транкинговых систем

Для организации радиосетей специализированного пользования (имеется в виду категория обслуживаемых абонентов - связь с подразделениями ОВД на транспорте, оперативным автомототранспортом, пешими нарядами, линейными отделениями ОВД) и индивидуального пользования (наличие индивидуального вызывного номера у оконечного оборудования) можно использовать сухопутную подвижную радиосвязь на основе конвенциональных радиосетей (многостанционный прямой доступ к ограниченному количеству рабочих радиоканалов с фиксированным распределением каналов и с ограниченным выходом или без выхода в телефонную сеть общего пользования), транкинговых систем связи (реализация автоматического динамического доступа к каналам) и систем связи сотовой структуры. Для развертывания оперативных радиосетей (прямой безкоммутационный доступ к абоненту радиосети) используют конвенциональные радиосети и транкинговые системы. Значительные преимущества транкинговых систем (высокая пропускная способность, степень защищенности от несанкционированного доступа) ставили бы их вне конкуренции, однако экономическая составляющая внедрения таких систем сводит на нет все технические преимущества. Значительное падение стоимости на такие системы, как на профессиональное оборудование, практически невозможно в отличие от технического оборудования общего назначения. Такой подход к решению данной проблемы, как совместное использование транкинговых сетей одновременно несколькими министерствами и ведомствами, оказался практически невозможен (различные задачи, приоритеты, уровни конфиденциальности и управления и т.д. ведут к неэффективной совместной эксплуатации).

Рис. 7. Конвенциональные радиосистемы: непараметрическое кодирование речи

Вышеприведенные соображения явились предпосылками для исследований в области конвенциональных радиосетей. В сотрудничестве с производителями радиосредств и устройств защиты речевой информации (УЗРИ) удалось открыть новую область для разработок - конвенциональные радиосистемы. Целью разработок стало создание автоматизированных систем контроля и мониторинга на базе существующих радиосредств. Нескольким разработчикам удалось создать ряд таких систем на базе контроллеров, встраиваемых в базовые радиостанции, и УЗРИ, встраиваемых в абонентское оборудование. В 2003 г. на снабжение МВД России была принята система мониторинга и управления радиосетью (СМУР) "СМУР-ХК100-01" (фото 1), награжденная дипломом лауреата VII Международного форума полицейской и военной техники "Интерполитех-2003" (совместная разработка ГУ НПО "Специальная техника и связь" МВД России и ЗАО "Интер-Вок", абонентское оборудование - ООО "Альтоника"). Данная система построена на встраиваемом в базовое оборудование контроллере (фото 2) и абонентском оборудовании со скремблером 04ХК100-01, в принцип работы которого заложено непараметрическое кодирование речи. Благодаря этому легко решаются проблемы, возникающие при реализации некоторых функций СМУР:

-уменьшение дальности связи в закрытом канале по сравнению с открытым каналом (не более 10-15%);

-снижение разборчивости речи в "закрытом" режиме не более 1 балла по сравнению с "открытым" режимом, при этом обязательно должна сохраняться индивидуальность звучания речи абонента (в экстремальных ситуациях идентификация абонента часто происходит по голосу);

скрытное включение диспетчером любой радиостанции сети в режим "передача" с целью прослушивания аудиообстановки вокруг абонента.

Для реализация защиты речевой информации в системе "СМУР-ХКЮО-01" применен модифицированный мозаичный алгоритм скремблирования: последовательное смешение фреймов сигнала во временной, частотной и фазовой областях. Для защиты служебной информации, не являющейся государственной тайной, такой алгоритм средней стойкости вполне достаточен.

Новые подходы к защите передачи информации

Однако с выходом Постановления "Об утверждении положений о лицензировании отдельных видов деятельности, связанных с шифровальными (криптографическими) средствами" открылись новые горизонты для использования криптографических алгоритмов защиты речевых сигналов в ведомственных сетях связи.

Использование в оперативных радиосетях решений для специальной связи. Ослабление лицензионных ограничений побудило разработчиков обратиться к схемам построения УЗРИ для СМУР, используемых в системах специальной связи.

Примером такого подхода является отечественная цифровая система "Альфа", принятая на снабжение МВД России. Такие радиосистемы передачи служебной информации целесообразно применять только внутри ограниченной территории с системами физической защиты. Примерами использования системы "Альфа" является применение ее внутренними войсками (ВВ) МВД при охране режимных объектов, передачи конфиденциальных цифровых данных между охраняемыми пунктами управления ОВД и ВВ МВД России. В таких системах первая вышеприведенная проблема решается использованием более широкой сетки рабочих частот (практически неограниченный частотный ресурс - в силу важного государственного значения таких систем связи), вторая проблема не ставится в силу наличия обязательного индивидуального вызывного номера у оконечного оборудования, а проблемы реализации "удаленного прослушивания" вообще не существует из-за отсутствия самой функции. Прямолинейное копирование существующих решений из специальной связи показало свою неэффективность для применения в оперативных радиосетях. Необходим оригинальный подход к решению трех указанных проблем.

Рис. 8. Новые разработки для оперативной радиосвязи

В некоторых СМУР в качестве помехоустойчивого кодирования обычно используются хорошо изученные методы (например, укороченный блочный код Рида-Соломона), что в данном случае не обеспечивает достаточной дальности связи. Представляется более эффективным использование других помехоустойчивых кодов (например, турбокодов), позволяющих вплотную приблизиться к пределу Шеннона, но требующих большую длину кодируемых данных. Что касается второй проблемы, то при создании СМУР "СМ-Э200" разработчиками (ФПГ "Уральские заводы", г. Ижевск) был реализован оригинальный алгоритм вокодерного анализа и синтеза речи. Это дало возможность повысить разборчивость речи до естественного звучания и возможности идентификации абонента по тембру голоса. В качестве алгоритма речевого кодирования взята классическая модель вокодера с линейным предсказанием и использованием многополосного возбуждения, что ведет к уменьшению посторонних призвуков и улучшению качества восстановленного речевого сигнала в условиях внешних акустических шумов.

В алгоритме применена тройная оценка частоты основного тона, что практически свело на нет эффект "плавающего тона" в конце отдельного слова. Благодаря такой реализации кодирования речи и введенных доработок с учетом ведомственных требований система "СМ-Э200" стала привлекательна для применения в определенных условиях - связь между пунктами временной дислокации и управления (система была рекомендована для эксплуатации во ВВ МВД России). Остается третья проблема - реализация функции "удаленного прослушивания". Можно отбросить выявленные недостатки СМУР, использующих вокодерные технологии, касающиеся учета чувствительности микрофонного усилителя и скрытности включения радиостанции на "передачу" (отсутствие визуальной и звуковой индикации) - это легко устраняется. На полигонных испытаниях при дистанционном включении абонентского оборудования в режим "удаленного прослушивания" аудиообстановки вокруг абонентской радиостанции более 50% всей информации являлось неразборчивым, причем УЗРИ оказались практически неработоспособны при небольших соотношениях сигнал/шум ("смесь" речи и транспортных или индустриальных шумов, многоголосие - "cocktail party" -и т.д.). Таким образом, проблема оказалась сложнее, чем представлялось, и не может быть решена лишь использованием стандартных методов теории цифровых радиосистем аудиоконтроля. Разработчики "сдались": либо функция "удаленного прослушивания" реализована только в "открытом" режиме, либо данный недостаток просто проигнорирован. Это, разумеется, неприемлемо при разработки СМУР для оперативных ведомственных сетей.

Рис. 9. Совмещение раздельного кодирования

Для решения данной проблемы предлагается совместить параметрическое (использовать для речевого сигнала) и непараметрическое (использовать для неречевого сигнала) кодирование (рис. 2). При этом придется применить теорию распознавания образов: в первую очередь, для создания автоматического распознавателя речи (детектора речь/не речь). Разработка автоматического распознавателя речи (АРР) сопровождается серьезными ограничениями условий функционирования СМУР на базе ведомственных оперативных радиосетей. В данных условиях невозможно использовать наиболее эффективные методы APR:

-многоканальные методы, основанные на разнесенных микрофонах (абонентский микрофон в зоне источника речевого сигнала абонента и опорный микрофон вне данной зоны; либо опорный микрофон размещается на дальнем торце средства связи по отношению к абонентскому - в основу положено явление задержки речевого сигнала между разными микрофонами);

-методы, основанные на отличии энергетики речевого сигнала и неречевых фоновых шумов (энергия речевого сигнала значительно превосходит энергию сигналов "молчания", "пауз").

Для решения поставленной задачи необходимо комбинировать широкий спектр оставшихся алгоритмов АРР:

-дискриминаторы параметров сигнала с повышенной устойчивостью к шумам;

-коррекция и улучшение характеристик до уровня, позволяющего распознать сигнал как речь;

-адаптация моделей "чистой" речи с компенсацией воздействия шума.

Большинство таких алгоритмов требуют заранее заданных статистических данных аудиошумов, не являющихся речевыми сигналами, чтобы отличать спектральные характеристики "чистой" речи от спектральных характеристик искаженных речевых сигналов или модифицировать эталонные модели.

Выходные аудиосигналы будут кодироваться по разным законам: речевой - по криптографическому закону, неречевой -по алгоритму мозаичного скремблирования. Однако возникает сомнение в целесообразности такого раздельного кодирования: повышенной защиты речевых сигналов и закрытия средней стойкости неречевых сигналов. Действительно, сотрудникам министерств и ведомств запрещается передавать по оперативным радиосетям служебную информацию, содержащую сведения ограниченного распространения (ограничения налагаются ведомственными нормативными документами, а в экстремальных ситуациях используются кодовые слова, фразы или кодовые таблицы, утвержденные управлениями и отделами связи). При использовании функции "удаленного прослушивания" и при небольшом отношении сигнал/шум возрастает вероятность неправильного срабатывания АРР, что может привести к передаче прослушиваемой информации, несоответствующей уровню "закрытия" используемой радиосети. В этом случае может произойти радиоперехват таких сигналов потенциальным противником с дальнейшей шумо-очисткой в режиме off-line и, таким образом, возможен несанкционированный доступ к конфиденциальной информации.

Рис. 10. Целесообразность использования непараметрического кодирования

В данном вопросе мы подошли к парадоксальному для разработчиков выводу: "закрытие" сигналов, передаваемых при "удаленном прослушивании", должно быть более высокого уровня, чем для передачи речевой информации при обычном "сеансе связи", то есть необходимо непараметрическое кодирование прослушиваемых аудиосигналов с последующим криптографическим "закрытием". Это, конечно, потребует высокой скорости информационного потока и, как следствие, использования более широкой полосы рабочих частот. Таким образом, придется нормативно определить использование под передачу неречевых сигналов в режиме "удаленного прослушивания" сразу нескольких стандартных каналов (25/12,5 кГц), что ведет к неэффективному использованию частотного ресурса.

Таким образом, в свете всего изложенного ставится вопрос: есть ли вообще перспективы в настоящее время для использования параметрического кодирования в системах мониторинга оперативных радиосетей?

Система закрытия речи

Посредством дискретного кодирования речи с последующим шифрованием всегда достигалась высокая степень закрытия, но в прошлом этот метод не находил широкого распространения в повсеместно имеющихся узкополосных каналах связи из-за низкого качества восстановления передаваемой речи.

Последние достижения в развитии низкоскоростных дискретных кодеров позволили значительно улучшить качество речи без снижения надежности закрытия.

Говоря об уровне, или степени, секретности систем закрытия речи, следует отметин, что эти понятия весьма условные. К настоящему времени не выработано на этот счет четких стандартов или правил. Однако в ряде источников основные уровни защиты определяют как тактический и стратегический, что в некотором смысле пересекается с понятиями практической и теоретической стойкости криптографических систем закрытия данных:

-тактический, или низкий, уровень используется для защиты информации от подслушивания посторонними лицами на период времени, измеряемый минутами или днями. Существует большое количество простых методов, способных обеспечить такой уровень защиты при приемлемой стоимости;

- стратегический, или высокий, уровень защиты информации от перехвата используется в ситуациях, подразумевающих, что высоко квалифицированному, технически хорошо оснащенному специалисту потребуется для дешифрования перехваченного сообщения период времени от нескольких месяцев до многих и многих лет.

-часто используется и понятие средней степени защиты, занимающее промежуточное положение между тактическим и стратегическим уровнем закрытия.

Можно составить диаграмму (рис.2), показывающую связь между различными методами закрытия речевых сигналов, степенью секретности и качеством восстановленной речи. Понятие "качество речи", используемое на диаграмме, весьма условно. Под ним, как правило, понимают узнаваемость абонента и разборчивость принимаемого речевого сигнала.

Аналоговое скремблирование

Наибольшая часть аппаратуры засекречивания речевых сигналов использует в настоящее время метод аналогового скремблирования, поскольку, во-первых, это дешевле, во-вторых, эта аппаратура применяется в большинстве случаев в стандартных телефонных каналах с полосой 3 кГц, в-третьих, обеспечивается коммерческое качество дешифрованной речи и, в-четвертых, гарантируется достаточно высокая стойкость закрытия.

Аналоговые скремблеры преобразуют исходный речевой сигнал посредством изменения его амплитудных, частотных и временных параметров в различных комбинациях. Скремблированный сигнал может затем быть передан по каналу связи в той же полосе частот, как и исходный, открытый. В аппаратах такого типа используется один или несколько принципов аналогового скремблирования из числа перечисленных ниже:
- скремблирование в частотной области: частотная инверсия (преобразование спектра сигнала с помощью гетеродина и фильтра), частотная инверсия и смещение (частотная инверсия с меняющимся скачкообразно смещением несущей частоты), разделение полосы частот речевого сигнала на ряд поддиапазонов с последующей их перестановкой и инверсией;
- скремблирование во временной области (разбиение блоков или частей речи на сегменты с перемешиванием их во времени с последующим прямым и/или реверсивным считыванием);
-комбинация временного и частотного скремблирования.
Как правило, все перестановки каким-либо образом выделенных сегментов или участков речи во временной и/или в частотной областях осуществляются по закону псевдослучайной последовательности, вырабатываемой шифратором по ключу, меняющемуся от одного речевого сообщения к другому.

На стороне приемника выполняется дешифрование цифровых кодов, полученных из канала связи, и преобразование в аналоговую форму. Системы, работа которых основана на таком методе, являются достаточно сложными, поскольку для обеспечения высокого качества передаваемой речи требуется высокая частота дискретизации входного аналогового сигнала и соответственно высокая скорость передачи данных но каналу связи. Каналы связи, которые обеспечивают скорость передачи данных только 2400 бод, называются узкополосными, в то время, как другие, обеспечивающие скорость передачи свыше 2400 бод, относятся к широкополосным. По этому же принципу можно разделять и устройства дискретизации речи с последующим шифрованием.

Несмотря на всю свою сложность, аппаратура данного типа представлена на коммерческом рынке рядом моделей, большинство из которых передает данные по каналу связи со скоростями модуляции от 2.4 до 19.2 кбит/с, обеспечивая при этом несколько худшее качество воспроизведения речи по сравнению с обычным телефоном. Основным же преимуществом таких цифровых систем кодирования и шифрования остается высокая степень закрытия речи, получаемая посредством использования широкого набора криптографических методов, применяемых для защиты передачи данных по каналам связи.

Методы речевого скремблирования впервые появились во время второй мировой воины. Среди последних достижений в этой области следует отметить широкое использование интегральных схем, микропроцессоров и процессоров цифровой обработки сигналов (ЦПОС). Все это обеспечило высокую надежность устройств закрытия речи с уменьшением их размера и стоимости.

Аналоговым скремблерам удалось избежать многих трудностей, связанных с передачей речевого сигнала и/или его параметров, присущих цифровым системам закрытия речи, и в тоже время достичь определенного уровня развития, обеспечивающего среднюю и даже высокую степень защиты речевых сообщений. Поскольку скремблированные речевые сигналы в аналоговой форме лежат в той же полосе частот, что и исходные открытые, это означает, что их можно передавать по обычным коммерческим каналам связи, используемым для передачи речи, без затребования какого-либо специального оборудования, такого, как, например, модемы. Поэтому устройства речевого скремблирования не так дороги и значительно менее сложны, чем устройства дискретизации с последующим цифровым шифрованием.

Аналоговые скремблеры, по их режиму работы, можно разбить на два следующих класса:

- статические системы, схема кодирования которых остается неизменной в течение всей передачи речевого сообщения;

- динамические системы, постоянно генерирующие кодовые подстановки в ходе передачи (код может быть изменен в процессе передачи несколько раз в течение каждой секунды).

Очевидно, что динамические системы обеспечивают более высокую степень защиты, поскольку резко ограничивают возможность легкого прослушивания переговоров посторонними лицами.

Процесс аналогового скремблирования представляет собой сложное преобразование речевого сигнала с его последующим восстановлением (с сохранением разборчивости речи) после прохождения преобразованного сигнала по узкополосному каналу связи, подверженному воздействию шумов.

Возможно преобразование речевого сигнала по трем параметрам: амплитуде, частоте и времени. Считается, что использовать амплитуду нецелесообразно, так как изменяющиеся во времени затухание канала и отношение сигнал/шум делают чрезвычайно сложным точное восстановление амплитуды переданного сигнала. Практическое применение получило только частотное и временное скремблирование и их комбинации. Как вторичные ступени скремблирования в этих системах могут использоваться ограниченные виды амплитудного скремблирования.

Как уже отмечалось выше, существует два основных вида частотных скремблеров инверсный и полосовой. Оба основаны на преобразованиях спектра исходного речевого сигнала для скрытия передаваемой информации и восстановлении полученного речевого сообщения путем обратных преобразований.

Инверсный скремблер осуществляет преобразование речевого спектра, равносильное повороту частотной полосы речевого сигнала вокруг некоторой средней точки (рис.3). При этом достигается эффект преобразования низких частот в высокие частоты, и наоборот.

Данный способ обеспечивает невысокий уровень закрытия, так как при перехвате легко устанавливается величина частоты, соответствующая средней точке инверсии в полосе спектра речевого сигнала.

Некоторое повышение уровня закрытия обеспечивает полосно-сдвиговый инвертор, осуществляющий разделение полосы на две субполосы, при этом точка разбиения выступает в роли некоторого ключа системы. В дальнейшем каждая субполоса инвертируется вокруг своей средней частоты. Этот вид скремблирования, однако, также слишком прост для вскрытия при перехвате и не обеспечивает надежного закрытия. Повысить уровень закрытия можно путем изменения по некоторому закону частоты, соответствующей точке разбиения полосы речевого сигнала (ключа системы).

Речевой спектр можно также разделить на несколько частотных полос равной ширины и произвести их перемешивание и инверсию по некоторому правилу (ключ системы). Так функционирует полосовой скремблер (рис.4).

Изменение ключа системы позволяет повысить степень закрытия, но требует введения синхронизации на приемной стороне системы. Основная часть энергии речевого сигнала сосредоточена в небольшой области низкочастотного спектра, поэтому выбор вариантов перемешивания ограничен, и многие из систем характеризуются относительно высокой остаточной разборчивостью.

Существенное повышение степени закрытия речи может быть достигнуто путем реализации в полосовом скремблере быстрого преобразования Фурье (БПФ). При этом количество допустимых перемешиваний частотных полос значительно увеличивается, что обеспечивает высокую степень закрытия без ухудшения качества речи. Можно дополнительно повысить степень закрытия путем осуществления задержек различных частотных компонент сигнала на разную величину. Пример реализации такой системы показан на рис.5

Главным недостатком использования БПФ является возникновение в системе большой задержки сигнала (до 300 мс), обусловленной необходимостью использования весовых функций. Это приводит к затруднениям в работе дуплексных систем связи.

Временные скремблеры основаны на двух основных способах закрытия: инверсии по времени сегментов речи и их временной перестановке. По сравнению с частотными скремблерами задержка у временных скремблеров намного больше, но существуют различные методы ее уменьшения.

В скремблерах с временной инверсией речевой сигнал делится на последовательность временных сегментов и каждый из них передается инверсно во времени - с конца. Такие скремблеры обеспечивают ограниченный уровень закрытия, зависящий от длительности сегментов. Для достижения неразборчивости медленной речи необходимо, чтобы длина сегмента составляла около 250 мс. Это означает, что задержка системы будет равна примерно 500 мс, что может оказаться неприемлемым для некоторых приложений.

Для повышения уровня закрытия прибегают к способу перестановки временных отрезков речевого сигнала в пределах фиксированного кадра (рис.6). Правило перестановок является ключом системы, изменением которого можно существенно повысить степень закрытия речи. Остаточная разборчивость зависит от длительностей отрезков сигнала и кадра и с увеличением последнего уменьшается.

Главным недостатком скремблера с фиксированным кадром является большая величина времени задержки системы, равная удвоенной длительности кадра. Этот недостаток устраняется в скремблере с перестановкой временных отрезков речевого сигнала со скользящим окном. В нем число комбинаций возможных перестановок ограничено таким образом, что задержка любого отрезка не превосходит установленного максимального значения. Каждый отрезок исходного речевого сигнала как бы имеет временное окно, внутри которого он может занимать произвольное место при скремблировании. Это окно скользит во времени по мере поступления в него каждого нового отрезка сигнала. Задержка при этом снижается до длительности окна.

Используя комбинацию временного и частотного скремблирования, можно значительно повысить степень закрытия речи. Комбинированный скремблер намного сложнее обычного и требует компромиссного решения по выбору уровня закрытия, остаточной разборчивости, времени задержки, сложности системы и степени искажений в восстановленном сигнале. Количество же всевозможных систем, работающих по такому принципу, ограничено лишь человеческим воображением.

В таком скремблере спектр оцифрованного аналогово-цифровым преобразователем (АЦП) речевого сигнала разбивается посредством использования алгоритмов цифровой обработки сигналов на частотно-временные элементы, которые затем перемешиваются на частотно-временной плоскости в соответствии с одним из криптографических алгоритмов и суммируются, не выходя за пределы частотного диапазона исходного сигнала.

В представленной системе закрытия речи используются четыре процессора цифровой обработки сигналов. Количество частотных полос спектра, в которых производятся перестановки с возможной инверсией спектра, - четыре. Максимальная задержка частотно-временного элемента по времени равна пяти. Полученный таким образом закрытый сигнал при помощи цифро-аналогового преобразователя (ЦАП) переводится в аналоговую форму и подается в канал связи. На приемном конце производятся обратные операции по восстановлению полученного закрытого речевого сообщения. Стойкость представленного алгоритма сравнима со стойкостью систем цифрового закрытия речи.

Скремблеры всех типов, за исключением простейшего (с частотной инверсией), вносят искажения в восстановленный речевой сигнал. Границы временных сегментов нарушают целостность сигнала, что неизбежно приводит к появлению внеполосных составляющих. Нежелательное влияние оказывают и групповые задержки составляющих речевого сигнала в канале связи. Результатом искажений является увеличение минимально допустимого отношения сигнал/шум, при котором может осуществляться надежная связь.

Однако, несмотря на указанные проблемы, методы временного и частотного скремблирования, а также комбинированные методы успешно используются в коммерческих каналах связи для защиты конфиденциальной информации.

Дискретизация речи с последующим шифрованием (цифровое скремблирование)

Альтернативным аналоговому скремблированию методом передачи речи в закрытом виде является шифрование речевых сигналов, преобразованных в цифровую форму, перед их передачей ( см. рис. 1-С и 1-D). Этот метод обеспечивает более высокий уровень закрытия по сравнению с описанными выше аналоговыми методами. В основе устройств работающих по такому принципу, лежит представление речевого сигнала в виде цифровой последовательности, закрываемой по одному из криптографических алгоритмов. Передача данных, представляющих дискретизированные отсчеты речевого сигнала или его параметры, по телефонным сетям, как и в случае устройств шифрования алфавитно-цифровой и графической информации, осуществляется через устройства, называемые модемами.

Основной целью при разработке устройств цифрового закрытия речи является сохранение тех ее характеристик, которые наиболее важны для восприятия слушателем. Одним из путей является сохранение формы речевого сигнала. Это направление применяется в широкополосных цифровых системах закрытия речи. Однако использование свойств избыточности информации, содержащейся в человеческой речи, более эффективно. Это направление разрабатывается в узкополосных цифровых системах закрытия речи.

Ширину спектра речевого сигнала можно считать приблизительно равной 3,3 кГц, а для достижения хорошего качества восприятия необходимое соотношение сигнал/шум должно составлять 30 дБ. Тогда, согласно теории Шеннона, требуемая скорость передачи дискретизированной речи будет соответствовать величине 33 кбит/с.

С другой стороны, структура речевого сигнала представляет собой последовательность звуков (фонем), передающих информацию. Поскольку в английском языке около 40 фонем, а в немецком - 70, то для представления фонетического алфавита потребуется 6-7 бит. Максимальная скорость произношения не превышает 10 фонем в секунду. Следовательно, минимальная скорость передачи основной технической информации речи не ниже 60-70 бит/с.

Сохранение формы сигнала требует высокой скорости передачи и, соответственно, использования широкополосных каналов связи. Например, при импульсно-кодовой модуляции (ИКМ), используемой в большинстве телефонных сетей, необходима скорость передачи, равная 64 кбит/с. В случае применения адаптивной дифференциальной ИКМ она понижается до 32 кбит/с и ниже. Для узкополосных каналов, не обеспечивающих такие скорости передачи, требуются устройства, исключающие избыточность речи до ее передачи. Снижение информационной избыточности речи достигается параметризацией речевого сигнала, при которой характеристики речи, существенные для восприятия, сохраняются.

Таким образом, правильное применение методов цифровой передачи речи с высокой информационной эффективностью является крайне важным направлением разработок устройств цифрового закрытия речевых сигналов. В таких системах устройство кодирования речи (вокодер), анализируя форму речевого сигнала, производит оценку параметров переменных компонент модели генерации речи и передает эти параметры в цифровой форме по каналу связи на синтезатор, где согласно этой модели по принятым параметрам синтезируется речевое сообщение. В таких моделях речевой сигнал представляется в виде нестационарного процесса с ограниченной скоростью изменения параметров из-за механической инерции голосовых органов человека. На малых интервалах времени (до 30 мс) параметры сигнала могут рассматриваться как постоянные. Чем короче интервал анализа, тем более точно может быть представлена динамика речи, но при этом требуется более высокая скорость передачи данных. В большинстве практических случаев используются 20-миллисекундные интервалы и достигается скорость передачи данных 2400 бит/с.

Наиболее распространенными типами вокодеров являются полосные и с линейным предсказанием. Целью любого вокодера является передача параметров, характеризующих речь и имеющих низкую информационную скорость. Полосный вокодер достигает этого путем передачи амплитуды нескольких частотных полос речевого спектра. Каждый полосовой фильтр такого вокодера возбуждается при попадании энергии речевого сигнала в его полосу пропускания. Так как спектр речевого сигнала изменяется относительно медленно, набор амплитуд выходных сигналов фильтров образует пригодную для вокодера основу. В синтезаторе параметры амплитуды каждого канала управляют коэфициентами усиления фильтра, характеристики которого подобны характеристикам фильтра анализатора. Таким образом, структура полосного вокодера базируется на двух блоках фильтров - для анализа и синтеза. Увеличение числа каналов улучшает разборчивость, но при этом требуется большая скорость передачи. Компромиссным решением обычно становится выбор 16-20 каналов при скорости передачи около 2400 бит/с.

Полосовые фильтры в цифровом исполнении строятся на базе аналоговых фильтров Баттерворта, Чебышева, эллиптических и других. Каждый 20-миллисекундный отрезок времени кодируется 48 битами, из них 6 бит отводится на информацию об основном тоне, один бит на информацию "тон-шум", характеризующую наличие или отсутствие вокализованного участка речевого сигнала, остальные 41 бит описывают значения амплитуд сигналов на выходе полосовых фильтров.

Существуют различные модификации полосного вокодера, приспособленные для каналов с ограниченной полосой пропускания. При отсутствии жестких требований на качество синтезированной речи удается снизить количество бит передаваемой информации с 48 до 36 на каждые 20 миллисекунд, что обеспечивает снижение скорости до 1800 бит/с. Уменьшение скорости передачи до 1200 бит/с возможно в случае передачи каждого второго кадра речевого сигнала и в нем дополнительной информации о синтезе пропущенного кадра. Потери в качестве синтезированной речи от таких процедур не слишком велики, достоинством же является снижение скорости передачи сигнала.

Наибольшее распространение среди систем цифрового кодирования речи с последующим шифрованием получили системы, основным узлом которых являются вокодеры с линейным предсказанием речи (ЛПР).

Математическое представление модели цифрового фильтра, используемого в вокодере с линейным предсказанием, имеет вид кусочно-линейной аппроксимации процесса формирования речи с некоторыми упрощениями, а именно: каждый текущий отсчет речевого сигнала является линейной функцией Р предыдущих отсчетов. Несмотря на несовершенство такой модели, ее параметры обеспечивают приемлемое представление речевого сигнала. В вокодере с линейным предсказанием анализатор осуществляет минимизацию ошибки предсказания, представляющей собой разность текущего отсчета речевого сигнала и средневзвешенной суммы Р предыдущих отсчетов, где Р - порядок предсказания, а весовые коэффициенты являются коэффициентами линейного предсказания. Оценка качества проводится по минимуму среднеквадратической величины ошибки предсказания. Существует несколько методов минимизации ошибки. Общим для всех является то, что при оптимальной величине коэффициентов предсказания спектр сигнала ошибки приближается к белому шуму и соседние значения ошибки имеют минимальную корреляцию. Известные методы делятся на две категории: последовательные и боковые, которые получили наибольшее распространение.

В вокодере с линейным предсказанием речевая информация передается тремя параметрами: амплитудой, решением "тон/шум" и периодом основного тона для вокализованных звуков. Так, согласно федеральному стандарту США, период анализируемого отрезка речевого сигнала составляет 22,5 мс, что соответствует 180 отсчетам при частоте дискретизации 8 кГц. Кодирование в этом случае осуществляется 54 битами, что соответствует скорости передачи 2400 бит/с. При этом 41 бит отводится на кодирование десяти коэффициентов предсказания, 5 - на кодирование величины амплитуды, 7 - на передачу периода основного тона, и 1 бит определяет решение "тон/шум". При осуществлении подобного кодирования предполагается, что все параметры независимы, однако в естественной речи параметры коррелированы и возможно значительное снижение скорости передачи данных без потери качества, если правило кодирования оптимизировано с учетом зависимости всех параметров. Такой подход известен под названием векторного кодирования. Его применение к вокодеру с линейным предсказанием позволит снизить скорость передачи данных до 800 бит/с и менее с очень малой потерей качества.

Основной особенностью использования систем цифрового закрытия речевых сигналов является необходимость использования модемов. В принципе возможны следующие подходы при проектировании систем цифрового закрытия речевых сигналов:

- цифровая последовательность параметров речи с выхода вокодерного устройства подается на вход шифратора, где подвергается преобразованию по одному из криптографических алгоритмов, затем поступает через модем в канал связи, на приемной стороне которого осуществляются обратные операции по восстановлению речевого сигнала, в которых задействованы модем и дешифратор (см. рис.1.D). Шифрующие/дешифрующие функции обеспечиваются либо в отдельных устройствах, либо в программно-аппаратной реализации самого вокодера;

- шифрующие/дешифрующие функции обеспечиваются самим модемом (так называемый засекречивающий модем) обычно по известным криптографическим алгоритмам типа DES и другим. Цифровой поток, несущий информацию о параметрах речи, с выхода вокодера непосредственно поступает на такой модем. Организация связи по каналу аналогична вышеприведенной.

Синтез речи (TTS -Text-to-Speech). Преобразование произвольной текстовой информации в речь

Синтез устной речи - это преобразование заранее не известной текстовой информации в речь. Речевой вывод информации - это речевого интерфейса, без которой общение не может состояться. Фактически, благодаря синтезу речи предоставляется еще один канал передачи данных от компьютера, мобильного телефона к человеку, аналогично монитору. Конечно, передать рисунок голосом невозможно, но вот прослушать электронную почту или расписание на день в ряде случаев довольно удобно, особенно если в это время взгляд занят чем-либо другим. Например, придя утром на работу, готовясь к переговорам, Вы могли бы поправлять у зеркала галстук или прическу, в то время как компьютер читает вслух последние новости, почту или напоминает важную информацию для переговоров.

Технология синтеза устной речи нашла широкое применение для людей, имеющих проблемы со зрением. Для всех остальных она создает новое измерение удобства пользования техникой и значительно снижает нагрузку на зрение, на нервную систему, позволяет задействовать слуховую память.

Любой текст состоит из слов, разделенных пробелами и знаками препинания. Произнесение слов зависит от их расположения в предложении, а интонация фразы - от знаков препинания. Наконец, произнесение зависит и от смысла слова! Соответственно, для того чтобы синтезированная речь звучала натурально, необходимо решить целый комплекс задач, связанных как с обеспечением естественности голоса на уровне плавности звучания и интонации, так и с правильной расстановкой ударений, расшифровкой сокращений, чисел, аббревиатур и специальных знаков с учетом особенностей грамматики русского языка.

Существует несколько подходов к решению поставленных задач:

системы аллофонного синтеза - обеспечивают стабильное, но недостаточно естественное, роботизированное звучание.

системы, основанные на подходе Unit Selection - обеспечивают гораздо более естественное звучание, однако могут содержать фрагменты речи с резкими провалами качества, вплоть до потери разборчивости.

гибридная технология, основанная на подходе Unit Selection и дополненная единицами аллофонного синтеза.

На основе этой технологии была создана система VitalVoice, которая обеспечивает стабильное и естественное звучание на акустическом уровне.

Области применения:

-Корпоративные решения:

а) Построение автоматизированных информационно-справочных телефонных систем голосового самообслуживания в Контакт-центрах (СГС - система голосового самообслуживания)

б) Интеграция в корпоративные информационные системы

в) Системы оповещения

г) Озвучивание информации, размещенной на сайтах (Голосовой интернет)

-Мобильные устройства:

а)Навигационные системы

б)Чтение информации с интернет сайтов (новостные ленты, блоги и т.д.)

в)Автоматические переводчики

г)Портативные устройства для людей с ограниченными возможностями по зрению и речи

-Приложения на базе ПК:

а)Чтение электронной почты, быстрый доступ к бизнес информации

б)Программы обучения русскому языку

в)Создание аудиокниг

г)Компьютерные игры

д)Интеграция в устройства (терминалы оплаты, автоматические газетные киоски)

-Потенциальные потребители:

а)Владельцы и разработчики новостных сайтов, а также сайтов с часто обновляемым содержанием

б)Государственные органы, размещающие в сети Интернет сайты, информация которых должны быть максимально доступна всем категория граждан

в)Частные компании, чьи сайты нацелены на наибольшую доступность информации о деятельности компании широкой аудитории

г)Компании, заинтересованные в создании и размещении собственных подкастов из неограниченного объема контента без использования дикторов и специальных акустических условий

Использование в продукция. VitalVoice. Синтез русской речи

Назначение и области применения:

VitalVoice реализует основное требование пользователей к системам синтеза речи: она позволяет озвучить любые, пусть даже очень нестандартные тексты (SMS, электронные письма, Интернет-форумы и т.п.) таким образом, что у слушателя складывается ощущение, что он слышит естественный человеческий голос.

Текст может быть прочтен различными голосами синтеза. Каждый голос основан на использовании речевой базы диктора объемом около 10 часов речи, размеченной на 9 уровнях, включающих текстовую расшифровку, разметку на слова, слоги, аллофоны, паузы, маркеры словных и фразовых ударений, типы интонации, неречевые явления и другие фонетические явления.

Для правильного интонирования и определения места ударения в словах разработан мощный модуль автоматической обработки русского текста, использующий морфологический, синтаксический и семантический виды анализа. Использование данного модуля, также как и столь объемные и тщательно размеченные голосовые базы, делают «VitalVoice» уникальной технологией синтеза русской речи.


Подобные документы

  • Уточнение технических и эксплуатационных показателей устройства. Импульсно-кодовая модуляция. Линейное предсказание. Вокодер - один из основных узлов ПО пакетирования речи. Кодирование звука. Структура устройства. Электрическая принципиальная схема.

    дипломная работа [153,5 K], добавлен 05.11.2012

  • Задачи при передаче речи и данных. Цифровая передача речи. Категории методов цифрового кодирования речи. Кодеры формы сигнала. Вид амплитудной характеристики компрессора. Дискретная модель речеобразования. Особенности метода кратковременного анализа.

    контрольная работа [56,6 K], добавлен 18.12.2010

  • Преимущества радиоканальных охранных систем. Основные направления кодирования речи: кодирование формы (Waveform coding) и источника сигнала (Source coding). Структурная схема процесса обработки речи в стандарте GSM. Оценка качества кодирования речи.

    реферат [46,8 K], добавлен 20.10.2011

  • Методы кодирования и декодирования циклических кодов, метод кодирования и декодирования сверточных кодов, формирование проверочных разрядов. Изучение обнаруживающей и исправляющей способности циклических кодов, исследование метода коммутации.

    лабораторная работа [709,6 K], добавлен 26.08.2010

  • Схема кодирования звуковой информации. Аналоговая и дискретная формы представления информации. Выделение количества уровней громкости в процессе кодирования звуковой информации. Качество двоичного кодирования звука. Расчет информационного объема.

    презентация [613,8 K], добавлен 26.11.2012

  • Методы помехоустойчивого кодирования и декодирования информации с помощью линейных групповых кодов. Принципы построения и функционирования кодирующих и декодирующих устройств этих кодов. Способы их декодирования с учетом помех различной кратности.

    лабораторная работа [39,2 K], добавлен 26.09.2012

  • Сущность и виды кодирования, примеры их использования, основные проблемы. Криптографическая защита информации от несанкционированного доступа. Цифровая система связи. Синхронное и асинхронное кодовое уплотнение каналов. Параметры и известные типы кодов.

    презентация [324,5 K], добавлен 22.10.2014

  • Использование помехоустойчивого кодирования в системах передачи информации. Построение структурной схемы восьмиразрядного микроконтроллера M68HC11. Разработка алгоритма кодирования и декодирования информации. Подключение внешних портов ввода/вывода.

    курсовая работа [1,7 M], добавлен 05.09.2014

  • Характеристика кодирования как средства защиты и повышения достоверности передачи информации по каналу связи. Частотный диапазон Bluetooth и способ кодирования пакета в цифровых системах связи. Классификация кодов, их параметры и оптимальные значения.

    презентация [146,0 K], добавлен 22.10.2014

  • Цель и понятие кодирования сообщений. Засекречивание передаваемой информации. Помехоустойчивое кодирование. Экономное кодирование - сокращения объема информации и повышения скорости ее передачи или сокращения полосы частот, требуемых для передачи.

    реферат [51,3 K], добавлен 11.02.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.