Вокодеры с линейным предсказанием
Устройство и функции вокодера с линейным предсказанием, виды липредеров на примере устройств с низкой скоростью передачи данных. Методы анализа речи на основе использования вокодеров с линейным предсказанием, липредеры на основе ковариационного метода.
Рубрика | Коммуникации, связь, цифровые приборы и радиоэлектроника |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 17.05.2012 |
Размер файла | 1,6 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Была проведена также сравнительная проверка для того, чтобы оценить разницу в качестве между системами со скоростями 3600 и 7200 бит/с. Тридцать предложений, использовавшихся при проверке по установлению категорий, были обработаны в модели вокодера со скоростью 7200 бит/с, в которой длительность сегмента была равна 10 мс, причем на сегмент отводилось по 72 двоичных единицы. Предложения для обеих систем (с 3600 и 7200 бит/с) были объединены в тест, включающий 30 разделов.
Результаты для всех дикторов и предложений показали, что в 53% случаев предпочтение было отдано системе с более высокой скоростью передачи данных. Когда же рассматривались только дикторы женщины, в результате получили цифру 58%. Этот результат объясняется ухудшением интерполяции коротких периодов ОТ в сигнале, соответствующем женскому голосу при сегменте анализа длительностью 20 мс. Такое небольшое предпочтение показывает, что нет существенного роста в субъективном качестве при увеличении скорости передачи свыше 3600 бит/с.
Исследование соображений по реализации вокодеров привели к следующей оценке числа операций на сегмент: 4200 операций для передатчика и 5000 операций для приемника (всего 9200 операций на сегмент или, при скорости передачи 3600 бит/с, 461 000 операций в секунду). Предполагалось, что для выполнения всех этих операций необходим процессор, работающий в режиме с плавающей запятой.
Уэлч и другие, основываясь на системе Атала -- Ханауэра и исследовании Хаски и других, ввели некоторые модификации, которые позволили реализовать систему при использовании быстродействующего цифрового процессора.
Глава 4. Методы анализа речи на основе использования вокодеров с линейным предсказанием
Прямое использование предсказания позволяет воспроизводить звук, но с плохим качеством. Поэтому этот метод имеет много различных разновидностей, улучшающих это качество. Эти методы касаются улучшения параметров возбуждения генераторов на приемном конце. Поэтому из трех составляющих системы с предсказанием -- аппроксимации, предсказания и методов восстановления (возбуждения генераторов) речи -- все усовершенствования метода линейного предсказания касаются последней составляющей. Поэтому они иногда называются гибридными кодерами, ибо представляют собой гибриды вокодеров и кодеров сигнала. Рассмотрим коротко каждый из них.
Все методы анализа речи предполагают достаточно медленное изменение свойств речевого сигнала во времени. Характеристики голосового тракта можно считать неизменными на интервале 10-20 мс, то есть параметры надо измерять с частотой порядка 1/20 мс = 50 Гц.
Известно несколько разновидностей метода линейного предсказания, а именно:
- с возбуждением от импульсов основного тона- LPC (Linear Predictive Coding);
- многоимпульсным возбуждением MPELP (Multi Pulse Excited Linear Predictive) или MPLPC (Multi Pulse Excited LPC);
- возбуждением от остатка предвидения RELP (Residual Excited Linear Predictive);
- возбуждением от кода СELP (Code Excited Linear Predictive).
В кодере LPC сигнал возбуждения передается при помощи трех параметров: периода основного тона (Тот) для звуков, которые вокализованы; сигнала тон-шум (характеризующего наличие в данный момент его параметров или тона, или шума) и амплитуды сигнала.
Кодер с возбуждением от частоты основного тона (ЧОТ) - это кодер LPC, который используется для передачи параметров речевого сигнала со скоростью 2400 бит/с и ниже.
Кодер с возбуждением от ЧОТ не обеспечивает необходимого качества синтезированной речи даже при высокой скорости передачи. Не для всех звуков удается получить точное разделение речи на вокализованную и невокализованную.
Известно, что кроме ЧОТ основного возбуждения, которое имеет место при смыкании голосовой щели, имеется вторичное возбуждение, которое имеется не только при размыкании голосовой щели, но и при смыкании.
В многоимпульсном возбуждении сигнал остатка LPC представляется в виде последовательности импульсов с неравномерно распределенными интервалами и с различными амплитудами (приблизительно 8 импульсов за 10 мс).
Информация о положениях и амплитудах импульсов возбуждения вместе с LPC-параметрами в каждом кадре формируется кодером.
Если используется скорость до10 параметров LPC 1,8 кбит/с (36 бит кадров20 мс), то при скоростях передачи 16 и 9,6 кбит/с на передачу параметров сигнала возбуждения отводятся скорости соответственно 14,2 и 7,8 кбит/с. На скорости 16 кбит/с и даже ниже создается высококачественная синтезированная речь. При скоростях 16 и 9,6 кбит/с синтезированная речь отвечает по качеству ИКМ сигналам (с логарифмическим компандированием) со скоростями передачи 56 и 52 кбит/с.
На скорости 4,8 кбит/с на прием передаются параметры LPC и кроскореляционная функция. Автокореляционная функция воспроизводится с параметров LPC, которые принимаются, после чего определяются положения и амплитуды импульсов возбуждения. Качество синтезированной речи при многоимпульсном возбуждении при скорости передачи 4,8 кбит/с заметно выше, чем при одноимпульсном возбуждении при той самой скорости передачи.
Кодер с линейным предсказанием, в котором в качестве сигнала возбуждения может использоваться остаток предсказания, называется RELP кодером. Остаток предсказания пропускается через ФНЧ с частотой среза 800 Гц при передаче на скорости 9,6 кбит/с и 600 Гц на скорости 4,8 кбит/с. В первом случае сигнал остатка дискретизируется с частотой 7,2 кбит/с и с той же частотой передается. Остаток 9,6-7,2 = 2,4 кбит/с используются для передачи коэффициентов предсказания и усиления. Во втором случае, т.е. при скорости передачи 4,8 сигнал остатка дискретизируется на частоте 2,4 кбит/с и с этой же скоростью передается. Остаток 2,4 кбит/с используются так же, как и в первом случае.
В декодере сигнал возбуждения восстанавливается во всей полосе частот. При этом верхняя половина возобновленного спектра возбуждения становится зеркальным отображением нижней половины.
Сигнал остатка для RELP-кодера может формироваться и во время декодирования. Дело в том, что для передачи этого сигнала нужна достаточно высокая скорость, являющаяся неприемлемой для кодеров LPC, скорость передачи каких 2,4 кбит/с, поэтому необходимо создавать сигнал остатка на прием сигнала ЧОТ.
Сигнал остатка не обладает амплитудным спектром, а имеет те же самые резонансные области, что и реальный речевой сигнал. Именно поэтому сигнал остатка обладает высокой разборчивостью. Амплитуды формант на выходе синтезирующего фильтра LPC часто бывают меньше амплитуд формант в реальном речевом сигнале. Случается это в результате квантирования параметров LPC.
В линейном предсказателе с возбуждением от кода СELP (Code Excited Linear Predictive) сигнал возбуждения представляется в виде вектора, которому присваивается определенный индекс, т.е. код.
Выбор оптимального вектора осуществляется с большого множества векторов-кандидатов, которые составляют кодовую книгу. Определение размера кодовой книги возбуждения имеет определяющее значение для создания необходимого качества восстановления синтезированного языка.
Метод линейного предсказания с кодовым возбуждением обеспечивает высокое качество речевого сигнала при скоростях передачи 4…16 кбит/с.
Данный класс речевых кодеров занимает промежуточное место между кодерами формы сигнала и параметрическими вокодерами. Анализ параметров речи осуществляется на интервалах 10-30 мс, что позволяет эффективно применять CELP при скоростях передачи от 4 до 16 Кбит/c. Как видно из структурной схемы кодера CELP (рис. 8), вместо кодирования сигналов отсчет за отсчетом кодером разностного сигнала применяется "кодовая книга возбуждения". В этом случае каждому разностному сигналу сопоставляется строка (шаблон) сигналов. Эта строка содержит набор отсчетов, соответствующих передаваемой остаточной последовательности на основе полученного значения ошибки. На приемном конце вместо декодера разностного сигнала также применяется "кодовая книга возбуждения".
Существует большое число разновидностей кодовых книг, которые классифицируются:
1. по принципу поиска кодов векторов (с полным перебором, двоичный или последовательный поиск и т.п.);
2. по способам обучения (Фиксированная или адаптируемая книга);
3. по виду хранимой информации (выборки речи или реализация шума).
Алгоритм CELP позволяет воспроизводить речь с высоким качеством. Средняя экспертная оценка: 3,5--3,5. Однако он требует больших вычислительных ресурсов, поэтому на его основе построено много разновидностей кодеров. По отношению к многоимпульсному методу CELP-метод достигает более высоких показателей восстановления речи при одинаковых скоростях.
Рис. 8. Структурная схема кодера CELP
В США приняты два федеральных стандарта на применение CELP:
- 1015 (LPC-10E, 2400 бит/с);
- 1016 (E-CELP, 4800 бит/с).
ITU (Международный союз электросвязи, МСЭ) разработал рекомендации:
- G.728 на алгоритм LD-CELP (16 кбит/с);
- G.729 на алгоритм CS-ACELP (8 кбит/с).
Характеристики некоторых основных алгоритмов кодирования речи приведены в табл.1.
Таблица 1. Основные характеристики наиболее известных типов вокодеров
Название алгоритма |
Рекомендация |
Скорость алгоритма (кбит/с) |
Размер речевого кадра (октетов) |
Задержка накопления (мс) |
|
CS-ACELP |
ITU G.729 |
8 |
10 |
10 |
|
PCM |
ITU G.711 |
64 |
40 |
5 |
|
56 |
35 |
5 |
|||
48 |
30 |
5 |
|||
ADPCM |
ITU G.726 |
40 |
25 |
5 |
|
32 |
20 |
5 |
|||
24 |
15 |
5 |
|||
16 |
10 |
5 |
|||
LD-CELP |
ITU G.728 |
16 |
10 |
5 |
|
MP-MLQ |
ITU G.723.1 |
6.3 |
24 |
30 |
|
ACELP |
ITU G.723.1 |
5.3 |
20 |
30 |
Важной характеристикой любого вокодера является качество воспроизводимой речи. Для того, чтобы оценить это качество, было введено понятие средней субъективной оценки (MOS - mean opinion score) или психологической реакции человека на воспроизводимую речь.
Оценка по шкале MOS определяется путем обработки оценок, даваемых группами слушателей. В табл. 2 приведены оценки MOS для различных методов кодирования.
Таблица 2. Показатели MOS основных алгоритмов кодирования речи
Название алгоритма |
MOS |
|
G.711 (PCM; 64 кбит/c) |
4,1 |
|
G.726 (ADPCM; 32 кбит/c) |
3,8 |
|
G.728 (LD-CELP; 16 кбит/c) |
3,6 |
|
G.723.1 (ACELP; 5,3 кбит/c) |
3,7 |
|
G.723.1 (MP-MLQ; 6,3 кбит/c) |
3,9 |
Наиболее предпочтительным среди приведенных методов кодирования с точки зрения соотношения качество речи / скорость потока является алгоритм G.723.1.
Глава 5. Кодеки
Рассмотрим теперь более широкое понятие - кодеки. Кодек (англ. codec, от coder/decoder -- кодировщик/декодировщик или compressor/decompressor) -- это устройство или программа, способная выполнять преобразование данных или сигнала. Специальные голосовые кодеки как раз и используют вокодерные принципы. Данная глава будет несколько дублировать прошлую, однако ее рассмотрение необходимо с целью понимания общей системы кодеков.
Эффективность использования пропускной способности IP-сети существенным образом зависит от выбора оптимального алгоритма кодирования/декодирования речевой информации - кодека.
Все существующие типы речевых кодеков по принципу действия можно разделить на три группы:
· Кодеки с импульсно-кодовой модуляцией (ИКМ) и адаптивной дифференциальной импульсно-кодовой модуляцией (АДИКМ), появившиеся в конце 50-х годов и использующиеся сегодня в системах традиционной телефонии. В большинстве случаев они представляют собой сочетание АЦП/ЦАП.
· Кодеки с вокодерным преобразованием речевого сигнала возникли в системах мобильной связи для снижения требований к пропускной способности радио тракта. Эта группа кодеков использует гармонический синтез сигнала на основании информации о его вокальных составляющих - фонемах. В большинстве случаев, такие кодеки реализованы как аналоговые устройства.
· Комбинированные (гибридные) кодеки сочетают в себе технологию вокодерного преобразования/синтеза речи (преобразование речевого сигнала в цифровой поток со скоростью от 1,2 до 4,8 Кбит/с), но оперируют уже с цифровым сигналом посредством специализированных цифровых сигнальных процессоров (Digital Signal Processor, DSP).
Кодеки этого типа содержат в себе ИКМ или АДИКМ кодек и реализованный цифровым способом вокодер.
На рис. 9 представлена усредненная субъективная оценка качества кодирования речи для вышеперечисленных типов кодеков.
Рис. 9. Усредненная субъективная оценка качества кодирования речи для различных типов кодеков
В голосовых шлюзах IP-телефонии понятие кодека подразумевает не только алгоритмы кодирования/декодирования, но и их аппаратную реализацию. Большинство кодеков, используемых в IP-телефонии, описаны в рекомендациях семейства «G» стандарта Н.323 (рис. 10).
Рис. 10. Стандарты для кодирования речевых сигналов
Рассмотрим некоторые основные кодеки, используемые в шлюзах IP-телефонии операторского уровня.
Кодек G.711. Рекомендация G.711, утвержденная МККТТ в 1984 г., описывает кодек, использующий ИКМ преобразование аналогового сигнала с точностью 8 бит, тактовой частотой 8 Кгц и простейшей компрессией амплитуды сигнала. Скорость потока данных на выходе преобразователя составляет 64 Кбит/с. Для снижения шума квантования и улучшения преобразования сигналов с небольшой амплитудой при кодировании используется нелинейное квантование по уровню (рисунок 11) согласно специальному псевдо-логарифмическому закону: А-закону для европейской системы ИКМ-30/32 или µ-закону для североамериканской системы ИКМ-24.
Рис. 11. Нелинейное квантование по уровню
Первые ИКМ кодеки с нелинейным квантованием появились уже в 60-х годах. Кодек G.711 широко распространен в системах традиционной телефонии с коммутацией каналов. Несмотря на то, что рекомендация G.711 в стандарте Н.323 является основной и первичной, в шлюзах IP-телефонии данный кодек применяется редко из-за высоких требований к скорости передачи (64 Кбит/с) и задержкам в канале передачи. Использование G.711 в системах IP-телефонии обосновано лишь в тех случаях, когда требуется обеспечить максимальное качество кодирования речевой информации при небольшом числе одновременных разговоров.
Кодек G.726. Один из старейших алгоритмов сжатия речи - адаптивная дифференциальная ИКМ (АДИКМ) - был принят в 1984 г. (рекомендация G.726). Этот алгоритм дает практически такое же качество воспроизведения речи, как и ИКМ, однако для передачи информации при его использовании требуется полоса всего в 16-32 Кбит/с. Метод основан на том, что в аналоговом сигнале, содержащем речевую информацию, невозможны резкие скачки интенсивности. Поэтому, если кодировать не мгновенное значение амплитуды сигнала, а ее изменение по сравнению с предыдущим значением, то можно обойтись меньшим числом разрядов. В АДИКМ (ADPCM) изменение уровня сигнала кодируется четырехразрядным числом, при этом частота измерения амплитуды сигнала сохраняется неизменной (8 Кгц). Процесс преобразования не вносит существенной задержки и требует от DSP 5,5-6,4 миллионов операций в секунду (Million Instructions Per Second, MIPS). Кодек G.726 может применяться совместно с кодеком G.711 для снижения скорости кодирования последнего. Кодек G.726 предназначен для использования в системах видеоконференций.
Кодек G.723.1. Рекомендация G.723.1 описывает гибридные кодеки, использующие технологию кодирования речевой информации, сокращенно называемую "множественное импульсное, многоуровневое квантование" (Multy-Pulse - Multy Level Quantization, MP-MLQ). Данный тип кодеков можно охарактеризовать как комбинацию АЦП/ЦАП и вокодера. Своим возникновением гибридные кодеки обязаны системам мобильной связи. Применение вокодера позволяет снизить скорость передачи данных в канале, что принципиально важно для эффективного использования радио тракта и канала в IP-сетях. Основной принцип работы вокодера - синтез исходного речевого сигнала посредством адаптивной замены его гармонических составляющих соответствующим набором частотных фонем и согласованными шумовыми коэффициентами. Кодек G.723 осуществляет преобразование аналогового сигнала в поток данных со скоростью 64 Кбит/с (ИКМ), а затем при помощи многополосного цифрового фильтра/вокодера выделяет частотные фонемы, анализирует их и передает по IP-каналу информацию только о текущем состоянии фонем в речевом сигнале. Данный алгоритм преобразования позволяет снизить скорость кодированной информации до 5,3-6,3 Кбит/с без заметного для пользователя ухудшения качества воспроизведения речи. Кодек имеет две скорости и два варианта кодирования: 6,3 Кбит/с с алгоритмом MP-MLQ и 5,3 Кбит/с с алгоритмом CELP (Code Excited Linear Prediction) - линейное предсказание с кодовым возбуждением. Первый вариант предназначен для сетей с пакетной передачей голоса и обеспечивает лучшее качество кодирования по сравнению с вариантом CELP, но менее адаптирован к использованию в сетях со смешанным типом трафика (голос/данные). Класс речевых кодеров с линейным предсказанием и кодовым возбуждением (CELP) занимает промежуточное положение между кодерами формы сигнала и параметрическими вокодерами. Анализ параметров речевого сигнала осуществляется на интервалах 10-30 мс, что позволяет наиболее эффективно применять CELP при скоростях передачи от 4 до 16 Кбит/с.
Процесс преобразования требует от DSP 16,4-16,7 MIPS и вносит задержку 37 мс. Кодек G.723.1 широко применяется в голосовых шлюзах и прочих устройствах IP-телефонии. Кодек G.723.1 уступает по качеству кодирования речи кодеку G.729a, но менее требователен к ресурсам процессора и пропускной способности канала.
Кодеки G.729. Семейство включает кодеки G.729, G.729 Annex A, G.729 Annex B. Кодер содержит детектор активности источника речевого сигнала (Voice Activity Detector, VAD) и генератор комфортного шума. Детектор активности источника речевого сигнала предназначен для обнаружения и выделения интервалов активности источника или шума без речи. Порог принятия решения в детекторе не должен быть слишком низким, приводящим к частому срабатыванию от шумов. В то же время, порог не должен быть и слишком высоким, так как это приведет к вырезанию начала фразы и ухудшению разборчивости. Кодеки G.729 сокращенно называют CS-ACELP (Conjugate Structure - Algebraic Code Excited Linear Prediction), что переводится как "сопряженная структура с управляемым алгебраическим кодом линейным предсказанием". Процесс преобразования использует DSP 21,5 MIPS и вносит задержку 15 мс. Скорость кодированного речевого сигнала составляет 8 Кбит/с. В устройствах VoIP данный кодек занимает лидирующее положение, обеспечивая наилучшее качество кодирования речевой информации при достаточно высокой компрессии.
Кодек G.728. Гибридный кодек, описанный в рекомендации G.728 в 1992 г., относится к категории кодеков с управляемым кодом линейным предсказанием и малой задержкой (Low Delay - Code Excited Linear Prediction, LD-CELP). Кодек обеспечивает скорость преобразования 16 Кбит/с, вносит задержку при кодировании от 3 до 5 мс. Для его реализации необходим процессор с быстродействием более 40 MIPS. Кодек предназначен для использования, в основном, в системах видеоконференций. В устройствах IP-телефонии данный кодек применяется достаточно редко.
Основные характеристики рассмотренных кодеков приведены в таблице 3.
Таблица 3. Основные характеристики кодеков |
||||||
Кодек |
Метод компрессии |
Скорость кодирования |
Сложность реализации |
Качество |
Задержка |
|
G.726 |
ADPCM |
32/24/16 Кбит/с |
Низкая (8 MIPS) |
Хорошее (32 К), плохое (16 К)/TD> |
Очень низкая (0,125мс) |
|
G.729 |
CS-ACELP |
8 Кбит/с |
Высокая (30 MIPS) |
Хорошее |
Низкая (10 мс) |
|
G.729A |
CA-ACELP |
8 Кбит/с |
Умеренная (20 MIPS) |
Среднее |
Низкая (10 мс) |
|
G.723.1 |
MP-MLQ |
6,4/5,3 Кбит/с |
Умеренная (16 MIPS) |
Хорошее (6,4), среднее (5,3) |
Высокая (37 мс) |
|
G.728 |
LD-CELP |
16 Кбит/с |
Очень высокая (40 MIPS) |
Хорошее |
Очень низкая (3-5 мс) |
Как видно из таблицы, наиболее предпочтительным среди приведенных методов кодирования с точки зрения соотношения качество речи / скорость потока является алгоритм G.723.1.
Количественными характеристиками ухудшения качества речи являются единицы QDU (Quantization Distortion Units): 1 QDU соответствует ухудшению качества при оцифровке с использованием стандартной процедуры ИКМ; значения QDU для основных методов компрессии приведены в табл. 4.
Таблица 4. Единицы ухудшения качества речи QDU для различных методов компрессии
Метод компрессии |
QDU |
|
ADPCM 32 кбит/с |
3,5 |
|
ADPCM 24 кбит/с |
7 |
|
LD-CELP 16 кбит/с |
3,5 |
|
CS-CELP 8 кбит/с |
3,5 |
Дополнительная обработка речи всегда ведет к дальнейшей потере качества. Согласно рекомендациям МСЭ-Т, для международных вызовов величина QDU не должна превышать 14, причем передача разговора по международным магистральным каналам ухудшает качество речи, как правило, на 4 QDU. Следовательно, при передаче разговора по национальным сетям должно теряться не более 5 QDU. Поэтому для качественной передачи речи процедуру компрессии/декомпрессии желательно применять в сети только один раз. В некоторых странах это является обязательным требованием регулирующих органов по отношению к корпоративным сетям, подключенным к сетям общего пользования. Подавление пауз (silence suppression) - важная функция ATM-коммутаторов. Суть технологии подавления пауз заключается в определении различия между моментами активной речи и молчания в период соединения. В результате применения этой технологии генерация ячеек происходит только в моменты активного разговора. Поскольку в процессе типичного разговора по телефону тишина составляет до 60% времени, происходит двукратная оптимизация по количеству данных, которые должны быть переданы по линии. Объединение технологии сжатия речи и подавления пауз речи в коммутаторах приводит к уменьшению потока данных в канале до восьми раз.
Современные продукты для IP-телефонии применяют самые разные кодеки, стандартные и нестандартные. Конкурентами являются кодеки GSM (13,5 кбит/с) и кодеки МСЭ-Т серии G, использование которых предусматривается стандартом Н.323 для связи по IP-сети. Единственным обязательным для применения кодеком в Н.323-совместимых продуктах остается стандарт G.711: выдаваемые им массивы данных составляют от 56 до 64 кбит/с. В качестве дополнительных высокопроизводительных кодеков стандарт Н.323 рекомендует G.723 и G.729 - последние способны сжимать оцифрованную 16-разрядную ИКМ-речь длительностью 10 мс всего в 10 байт. Стандарт G.729 уже получил широкое распространение в системах передачи голоса по IP; его поддерживают значительное число производителей продуктов для IP-телефонии.
Глава 6. Вокодеры в современности
В таблице 5 приведены основные виды вокодеров и требуемая пропускная способность канала связи.
Сегодня вокодеры применяют для кодировании телефонных сигналов в военных и коммерческих цифровых системах связи. Перспективно применение вокодеров для организации служебной телефонной связи со скоростью передачи данных 1 200 - 2 400 бит/с. Формантные и полосные вокодеры находят применение также при цифровой передаче телефонных сигналов по КВ-каналам радиосвязи.
Таблица 5. Основные виды вокодеров
Современные вокодеры обеспечивают хорошее качество речи при скорости передачи 4 800 - 2 400 бит/с и качество речи, пригодное для ведения служебных переговоров, при скорости передачи 1 200 бит/с.В таблице 6 приведен краткий список вокодеров, которые производятся в настоящее время.
Таблица 6. Перечень вокодеров, которые производятся в настоящее время.
Рассмотрим теперь в качестве примера один из выпускаемых вокодеров-липредеров вокодер LSP2400.
Разработчики для скорости 2400 бит/с выбрали вокодер с линейным предсказанием.
Структурно вокодер состоит из двух частей. Первая часть - анализатор, функции которого заключаются в выделении текущих параметров речевого сигнала и их упаковке в кадр соответствующего формата.
Вторая часть - синтезатор по принятому кадру восстанавливает с некоторой ошибкой параметры текущего фрагмента сигнала и с их помощью воспроизводит синтетическую речь.
Цифровой сигнал поступает на предыскажающий фильтр (1-0.9375*z-1) и далее из него посредством полусинхронной с основным тоном процедуры выделяется фрагмент анализа. Предыскажение, кроме компенсации высокочастотной части спектра речевого сигнала, служит для снижения необходимой точности вычислений.
Полусинхронная с основным тоном процедура выделения фрагмента анализа заключается во взвешивании фрагмента треугольным окном переменной длины, зависящей от текущего основного тона. Треугольное окно в данном варианте алгоритма располагается в центре фрагмента. После получения фрагмента анализа коэффициенты линейного предсказания вычисляются путем использования ковариационного метода. Выбор ковариационного метода (среди двух возможных: автокорреляционного и ковариационного) обусловлен тем, что длина фрагмента анализа определяется основным тоном, а при возможных малых значениях длины фрагмента автокорреляционный метод даст значительные искажения текущего спектра сигнала.
Оценка периода основного тона производится по алгоритму, основанному на базе метода Голда-Рабинера.
В канал связи передаются линейные спектральные частоты (LSF). Квантование спектральных частот выполняется на основе метода динамического программирования. В качестве конкретных квантователей использованы неравномерные квантователи из 34-битного независимого квантования LSF стандарта USFS-1016.
В синтезаторе производится задержка на 1 кадр, поэтому сглаживание канальных ошибок производится на основе принятых параметров из трех текущих кадров - прошлого, настоящего и будущего. Степень сглаживания параметров зависит от числа детектированных канальных ошибок. При увеличении числа ошибок в канале степень сглаженности возрастает.
В качестве возбуждения на невокализованных фрагментах используется белый шум, а на вокализованных - импульсный отклик фазового звена.
Синтезирующий фильтр реализуется в прямом виде. Его коэффициенты представлены с 16-разрядной точностью. Выходной сигнал пропускается через фильтр, обратный предыскажающему, и после цифро-аналогового преобразования синтетический сигнал поступает на выход.
Более подробное описание алгоритма речевого кодирования LSP2400 на скорости 2400 бит/с можно найти в книгах:
§ Linear-Rrediction Vocoder for Speech Transmission with 2.4(1.2) kbit/sec rate, St.Petersburg State University of Telecommunication DSP Center, St.Petersburg, 1994
§ Implementation of HF Modem for Digital Data Transmission, St.Petersburg Bonch-Bruevich State University of Telecommunication DSP Center, St.Petersburg, 1996
Заключение
Алгоритмы кодирования формы сигнала основываются на наличии корреляционных связей между отсчетами сигнала, которые дают возможность линейного предсказания. В сочетании с адаптивным квантованием этот подход позволяет обеспечить хорошее качество речи при скорости передачи битов порядка 24-32 Кбит/с. По сравнению с другими подобными устройствами LPC-вокодеры (липредеры) используют простую математическую модель голосового тракта и позволяют использовать очень низкие скорости передачи информации 1200-2400 бит/с, однако ценой «синтетического» характера речи.
Список используемой литературы
1. Дж.Д.Маркел, А.Х.Грэй, «Линейное предсказание речи», перевод под редакцией Ю.Н.Прохорова и В.С.Звездина, М., изд. «Связь», 1980.
2. Калинцев Ю.К. Разборчивость речи в цифровых вокодерах. - М.: Радио и связь, 1991.
3. М.А.Сапожков, «Акустика.Справочник», М.,изд. «Радио и связь», 1989.
4. Интернет-сайт http://www.intuit.ru. Интернет-Университет Информационных Технологий.
5. Интернет-сайт http://www.bnti.ru/. Бюро научно-технической информации. По материалам 2-ой Всероссийской конференции "Теория и практика речевых исследований".
6. Интернет-сайт http://www.wikipedia.org/. Свободная энциклопедия.
7. Разные интернет-ресурсы, посвященные вокодерным технологиям.
Размещено на Allbest.ru
Подобные документы
Принцип действия и устройство решетчатых фильтров, назначение и достоинства. Синтез решетчатого фильтра. Генерация случайных процессов на основе фильтра с решетчатой структурой. Система уравнений, описывающая фильтр с долговременным предсказанием.
реферат [196,4 K], добавлен 10.11.2010Цифровая обработка сигналов. Классификация вокодеров по способу анализа и синтеза речи. Структура БИХ-фильтра. Разработка функциональной схемы вокодера. Расчет параметров и характеристик набора цифровых полосовых фильтров. Алгоритм работы вокодера.
курсовая работа [1,0 M], добавлен 07.11.2012Разработка вокодерной системы передачи на основе фонемного вокодера. Методы анализа и синтеза речевых сигналов. Анализ структурных и принципиальных схем фонемного вокодера. Программа для проверки алгоритма устройства. Смета затрат на разработку.
дипломная работа [6,5 M], добавлен 22.10.2011Принцип работы аппаратуры линейного тракта систем передачи "Сопка-3М". Требования к линейным сигналам ВОСП и определение скорости их передачи. Принцип равномерного распределения регенераторов. Расчет детектируемой мощности и выбор оптических модулей.
курсовая работа [163,2 K], добавлен 27.02.2009Характеристика требований к линейным сигналам оптических систем передачи. Разработка схемы и расчет основных параметров фотоприемного устройства ВОЛС в диапазоне скоростей передачи 1-10 Гбит/с. Определение минимально необходимого соотношения сигнал-шум.
курсовая работа [524,7 K], добавлен 24.12.2012Основные термины в технологии защиты потоков SDH и суть одного из методов обеспечения быстрого восстановления работоспособности синхронных сетей. Требования, предъявляемые к линейным кодам волоконно-оптических систем передачи, кодирование сигнала.
контрольная работа [436,0 K], добавлен 09.07.2009Описание аппарата управления станции Круговец. Функции и режимы функционирования диспетчерской централизации "Неман", ее линейная аппаратура и программное обеспечение. Расчет надежности блока ТУ-16 телеуправления. Контроль поездной ситуации на станции.
дипломная работа [2,1 M], добавлен 30.07.2013Типы устройств СВЧ в схемах распределительных трактов антенных решеток. Проектирование устройств СВЧ на основе метода декомпозиции. Работа с программой "Модель-С" для автоматизированного и параметрического видов синтеза многоэлементных устройств СВЧ.
контрольная работа [337,5 K], добавлен 15.10.2011Изучение различных типов устройств СВЧ, используемых в схемах распределительных трактов антенных решеток. Практические расчеты элементов автоматизированного проектирования устройств СВЧ на основе метода декомпозиции. Конструирование баз и устройств СВЧ.
контрольная работа [120,9 K], добавлен 17.10.2011Определение и классификация радиотехнических координаторов. Способы измерения координат и методы пеленгования цели. Измерительная система координат. Радиотехнические координаторы с линейным сканированием. Повышение точности измерения угловых координат.
курсовая работа [3,3 M], добавлен 09.06.2009