Исследование и разработка метода сжатия речевых данных при передаче экспресс-сообщений по телекоммуникационным каналам

Анализ проблем связанных с избыточностью применения существующих методов передачи речи в системах ЭС (экспресс-сообщений). Разработка модели обработки информации на передающей и приемной сторонах в системе ЭС. Разработка метода сжатия речевых сообщений.

Рубрика Программирование, компьютеры и кибернетика
Вид автореферат
Язык русский
Дата добавления 31.07.2018
Размер файла 429,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

АВТОРЕФЕРАТ

диссертации на соискание ученой степени

Исследование и разработка метода сжатия речевых данных при передаче экспресс-сообщений по телекоммуникационным каналам

Специальность 05.13.01 - Системный анализ, управление и обработка информации

кандидата технических наук

Зернов Павел Сергеевич

Санкт-Петербург, 2009

Работа выполнена в Санкт-Петербургском государственном университете телекоммуникаций им. проф. М.А. Бонч-Бруевича

Научный руководитель кандидат технических наук, доцент Юрий Тихонович Бутыльский

Официальные оппоненты доктор технических наук, профессор Дегтярев Владимир Михайлович

кандидат технических наук Гусев Михаил Николаевич

Ведущее предприятие Санкт-Петербургский государственный электротехнический университет «ЛЭТИ»

Защита состоится « 2 » июля 2009 года в 10 часов на заседании диссертационного совета Д 219.004.02 при Санкт-Петербургском государственном университете телекоммуникаций им. проф. М.А. Бонч-Бруевича по адресу: 191186 Санкт-Петербург, наб. р. Мойки, д.61.

С диссертацией можно ознакомиться в библиотеке университета.

Отзыв на автореферат в двух экземплярах, заверенных печатью учреждения, просим направлять по указанному адресу на имя ученого секретаря диссертационного отдела.

Автореферат разослан « 1 » июня 2009 г.

Ученый секретарь

диссертационного совета

кандидат технических наук, доцент В.Х. Харитонов

избыточность экспресс сообщение речевой

Общая характеристика работы

Актуальность темы. В настоящее время, как средства общения и обмена информацией, широкое распространение получили системы экспресс-сообщений (ЭС). ЭС являются видом оперативных коммуникационных услуг, позволяющим двум пользователям создавать в сети Интернет сессии обмена информацией на основе текстовых сообщений. Дополнительно, некоторые из систем ЭС позволяют передавать голосовую информацию, на базе технологии VoIP. В качестве терминалов могут использоваться персональные компьютеры (стационарные, ноутбуки), беспроводные устройства (сотовые телефоны, КПК) или другое интернет оборудование. Возможны различные комбинации этих устройств.

ЭС имеют две основные особенности: предоставляют возможность обмена текстовыми сообщениями в реальном масштабе и передают информацию о присутствии пользователя. Высокой популярностью ЭС обязаны этим двум особенностям, отличающим их от электронной почты и SMS сообщений и позволяющим клиентам систем вести диалог путем набора текста на клавиатуре терминала (ПК, КПК, мобильного телефона и т.д.). Для пользователей, работающих в системе ЭС, характерно употребление единой терминологии. Разговоры связаны общими интересами и обычно происходят на одном языке.

Для системы ЭС использование технологии VoIP, зачастую является избыточным. Анализ существующих разновидностей технологий ЭС, показывает возможность использования словаря для преобразования, как текстовых сообщений, так и речи на передающей стороне и передаче в канал связи индекса каждого обработанного слова. На приемной стороне по словарю можно синтезировать в естественную речь индексы полученных из канала связи слов. Таким образом, на базе системы ЭС возможно предоставление услуги передачи речи, отличающейся сниженным объемом передаваемых в канал связи данных, по сравнению с технологией VoIP.

Своими исследованиями в области цифровой обработки речевых сигналов известны Л. Рабинер, Р. Шафер, С. Левинсон, А. Ланнэ (RusVox). Вопросы синтеза речи освещены в работах В. Кучерова, Б. Лобанова, Г. Фанта, Дж. Фланагана, М. Сапожникова. Теории обработки разговорной речи посвящены работы X. Хуанга, А. Асеро, Х. Хона. Все эти наработки в области распознавания и синтеза речи могут быть применены в системах ЭС, порождая тем самым новый метод передачи речи, исключающий избыточность существующих подходов.

Поэтому поставленная и решенная в диссертационной работе задача является актуальной.

Целью работы и задачей исследования является повышение эффективности использования канала связи, путем снижения объема передаваемых в системе ЭС данных. Цель достигается путем решения нижеперечисленных основных задач.

1. Анализа систем ЭС и выявления проблем связанных с избыточностью применения существующих методов передачи речи в системах ЭС.

2. Исследования и разработки метода сжатия речевых сообщений в системе ЭС.

3. Исследования и разработки модели обработки информации на передающей и приемной сторонах в системе ЭС.

4. Исследования и разработки алгоритмов модели обработки информации в системе ЭС.

5. Экспериментальной проверки разработанного метода, модели, алгоритмов и сравнения с существующим методом.

Методы исследования. При проведении исследований в диссертационной работе использовались методы теории обработки речевых сигналов, вычислительной математики, программирования, теории телетрафика, теории вероятностей.

В качестве инструмента исследования автором было разработано приложение для обмена речевой информацией в системе ЭС. Данное приложение использовалось для получения количественных оценок объема передаваемых в канал связи данных и времени доставки пакетов ЭС, было экспериментальной платформой для внедрения и применения разработанного метода передачи речи.

Научная новизна. В данной работе предложен новый метод передачи ЭС, модель обработки информации, модель процесса преобразования речи и ее алгоритмы. Научная новизна заключается в разработке для систем ЭС нового подхода, основанного на применении систем распознавания и синтеза речи, функционирующих по словарю. Словарь позволяет преобразовывать поступающую на передающей стороне речь в индексы слов, а на приемной стороне, переданные через канал связи индексы слов синтезировать в речевой сигнал. Исследование систем ЭС и разработка метода передачи речи, дает толчок к созданию лингвистических моделей языка общения пользователей, в рамках этих систем, тем самым, расширяя возможности систем ЭС.

Практическая ценность работы. К практической ценности разработанного метода можно отнести:

1. уменьшение объема передаваемой в канал связи информации и снижение нагрузки на сеть;

2. обеспечения более эффективного, по сравнению с набором на клавиатуре, способа ввода ЭС и более эффективного, по сравнению с чтением на дисплее, способа восприятия ЭС;

3. совместная передача на базе протоколов системы ЭС как речевой, так и текстовой информации в едином цифровом потоке.

Разработчикам, инженерам, операторам предоставляется новый инструмент, позволяющий обмениваться как текстовой, так и голосовой информацией в реальном масштабе времени. Математическим аппарат, представленный в работе в виде модели обработки информации удобен и доступен для инженерных расчетов в системах обмена информацией. Разработанные средства также могут быть использованы в системах требующих низкую скорость передачи данных, к примеру: в системах передачи данных на подводных лодках, в шахтах или в туннелях.

Апробация работы. Результаты работы докладывались на:

· 59 (май 2005) и 60 (май 2006) научно-технических конференциях студентов, аспирантов и молодых специалистов СПбГУТ;

· 58 (январь 2006), 59 (январь 2007), 60 (январь 2008), 61 (январь 2009) научно-технических конференциях профессорско-преподавательского состава, научных сотрудников и аспирантов СПбГУТ.

Основные практические результаты работы демонстрировались на ежегодной конференции IBM Lotus Forum 25 сентября 2008 в городе Москве.

Основные положения, выносимые на защиту. К основным научным результатам, которые получены лично автором, включены в диссертацию и выносятся на защиту, относятся:

1. результаты анализа существующих систем ЭС и их особенностей;

2. предложенный метод передачи речи на базе системы ЭС;

3. разработанная модель обработки информации в системе ЭС;

4. созданные алгоритмы для модели обработки информации в системе ЭС;

5. результаты экспериментальных проверок работы предложенного метода для системы ЭС в режиме реального времени и оценок объема данных, передаваемого в канал связи;

6. дальнейшие пути исследований:

· построение лингвистической модели языка, используемого в системе ЭС;

· снижение требований к вычислительной мощности аппаратуры клиентской части системы, за счет распознавания речи на выделенном сервере;

· создание клиентской части системы на базе программируемой логики в виде аппаратного решения;

· разработка клиентской части системы, работающей на мобильных устройствах;

· исследования по применению созданной системы в работе на низкоскоростных каналах связи, например инфразвуковых.

Личный вклад автора. Основные научные положения, теоретические и практические выводы и результаты экспериментов, содержащиеся в диссертационной работе, получены автором самостоятельно.

Публикации. По теме диссертации опубликовано 13 научных работ, в том числе в 4 изданиях из перечня, рекомендуемого ВАК.

Структура и объем работы. Работа состоит из введения, 4 глав, заключения, списка литературы, включающего 106 наименований. Работа содержит 150 страниц машинописного текста, 34 рисунка, 12 таблиц.

Содержание работы

Во введении проведено обоснование актуальности, научной и практической ценности решения задач связанных с ЭС, в основе архитектуры которых заложено преобразование речевой информации на передающей и приемной сторонах по словарю.

В первой главе вводится ряд определений и классификаций, проводится анализ существующих систем ЭС. Исследуются особенности передачи речи на базе ЭС. Рассматриваются используемые в системах ЭС протоколы, производится их сравнение.

Сделаны выводы об актуальности рассмотрения систем ЭС и выявлен круг проблем связанных с ними. Определена возможность сокращенной передачи информации от отправителя к получателю с использованием выявленного словаря. Отмечена проблема неэффективного ввода и восприятия информации в системе ЭС. Намечены пути устранения избыточности существующих методов передачи речи, предполагающие обработку информации на передающей и принимающей сторонах по словарю. Отмечена необходимость обеспечения совместной передачи как речевой, так и текстовой информации в едином цифровом потоке.

Во второй главе рассматривается предложенный метод передачи речи для системы ЭС (МПРЭС) в рамках ее архитектуры. Базовые положения МПРЭС для передающей стороны:

· формирование входной информации в виде отдельных слов по словарю;

· введение в структуру передающей стороны словаря, достаточного для обмена ЭС между определенной группой пользователей (словарь должен присутствовать как на передающей, так и на приемной сторонах);

· определение произнесенного пользователем слова по словарю как наиболее вероятного с помощью речевого распознавателя с большим словарем, основанного на использовании лексических единиц размером меньше слова (Sphinx4), разработанного в Университете Карнеги-Меллон (CMU), группой Sphinx Group;

· формирование пакета ЭС, содержащего преобразованный по кодовой таблице индекс слова (последовательность индексов слов).

Базовые положения МПРЭС для приемной стороны:

· преобразование переданного по каналу связи индекса (последовательности индексов) по кодовой таблице;

· извлечение текстового представления слова из словаря, согласно полученному индексу;

· преобразование слова в речевой сигнал по словарю с помощью речевого синтезатора, основанного на использовании лексических единиц размером меньше слова (Festival), разработанного в Эдинбургском Университете, в Центре Исследования Речевых Технологий (CSTR).

Для МПРЭС описан процесс преобразования речи. На рис. 1.а изображена модель процесса преобразования речи (МППР) в ASCII коды, на рис. 1.б МППР ASCII кодов в речь.

а)

б)

Рис. 1. Предложенная МППР: а - речь в ASCII коды, б - ASCII коды в речь

На основе МПРЭС разработана сетевая архитектура системы ЭС (САЭС). В САЭС выделяются четыре основные задержки:

· задержка на обработку речи;

· задержка синтеза речи;

· задержка помещения пакета в очередь;

· задержка очереди.

Проанализированы существующие системы распознавания и синтеза речи, сформулированы требования для таких систем в рамках ЭС.

Требования, предъявляемые к системе распознавания речи:

· работа в реальном масштабе времени, т.е. распознавание речи в темпе поступающего речевого сигнала;

· низкий процент ошибок распознавания слов (5% неверно распознанных слов, является минимальным приемлемым для систем распознавания речи процентом);

· словарь, достаточный для распознавания слов, используемых в общих разговорах (по расчетам лингвистов, объем активного словаря, для образованного человека составляет в среднем в 5000-10000 слов);

· распознавание слитной речи, т.е. возможность автоматического разделения произнесенной фразы или предложения на слова с последующим распознаванием по словарю;

· наличие в публичном доступе баз для распознавания русской речи;

· наличие в публичном доступе исходных кодов системы распознавания для их модификации и адаптации под задачи ЭС, т.е. система должна быть некоммерческой.

Требования, предъявляемые к системе синтеза речи:

· работа в реальном масштабе времени, т.е. синтез речи в темпе поступающих индексов слов в словаре;

· синтез речи с качеством близким к реальной человеческой речи;

· клиент-серверная архитектура системы синтеза;

· наличие в публичном доступе баз, для синтеза русской речи;

· наличие в публичном доступе исходных кодов системы синтеза, для их модификации и компиляции под задачи ЭС.

Согласно сформулированным выше требованиям произведен выбор системы распознавания речи с большим словарем (Sphinx4) и системы синтеза речи (Festival), основанные на использовании лексических единиц размером меньше слова.

Сделаны выводы о необходимости создания модели обработки информации на передающей и приемной сторонах для определения возможности работы предлагаемой архитектуры в масштабе реального времени и вычисления объема, передаваемых в канал связи данных.

В третьей главе рассмотрена модель обработки информации в системе ЭС (МОИЭС) построенной согласно предлагаемому методу.

МОИЭС на передающей стороне является представлением процесса преобразования речи в ASCII коды для системы ЭС. В настоящее время в обработке речи успешно применяются стохастические модели сигнала, а именно скрытые марковские модели (СММ). В основе выбранной в главе 2 системы распознавания речи Sphinx4, также заложены принципы описания речевого сигнала с помощью СММ.

На рис. 2 изображен фрагмент МОИЭС на передающей стороне. Предположим, что имеется некоторый словарь из слов, которые нужно распознавать, и что каждое слово нужно моделировать отдельной СММ.

Предположим также, что для каждого слова из словаря имеется некоторое обучающее множество, состоящее из реализаций каждого слова (произнесенного одним или несколькими дикторами). Реализация слова представляет собой последовательность наблюдений, а сами эти наблюдения являются некоторым подходящим представлением характеристик данного слова (спектральных и/или временных). Для каждого такого слова словаря строится СММ , т.е. определяется значения параметров модели , которые оптимизируют правдоподобия векторов наблюдения обучающей последовательности для -го слова.

Входным параметром МОИЭС является речевой сигнал (сигнал, формирующийся через микрофон на передающей стороне из слов, произнесенных пользователем) длиной и интенсивностью . Поступающий речевой сигнал проходит предварительный спектральный анализ, с целью получения векторов наблюдений по его отсчетам.

Рис. 2. Фрагмент МОИЭС на передающей стороне

На основе полученной после спектрального анализа последовательности наблюдений , инициируется процесс распознавания. При этом выполняются следующие шаги:

вычисляются вероятности правдоподобия всех возможных моделей

, , (1)

относительно последовательности наблюдений произнесенного слова;

осуществляется выбор слова, вероятность правдоподобия модели которого наибольшая, т. е.

, ,(2)

где - распознанное слово по словарю .

Перед передачей в канал связи, индекс распознанного слова проходит специальное преобразование. Если произнесенное слово не распознано системой, то преобразование производится над последовательностью индексов его спектров. Значения индекса слова или индексов спектров пересчитываются по модулю 64, согласно (3)

.(3)

В дальнейшем это преобразование позволит заменить любой числовой индекс на ASCII символ из кодовой таблицы, используемой в методе кодирования base64.

Система распознавания речи Sphinx4 позволяет задать параметр , количество одновременно выдаваемых индексов обработанных слов поступившего речевого сигнала. Таким образом, при параметре равном 1, система распознавания речи выдает индекс каждого обработанного слова отдельно. Если параметр больше 1, то система выдает последовательности индексов обработанных слов. В последовательности индексов обработанных слов, могут входить как индексы распознанных слов, так и индексы спектров нераспознанных слов.

Таким образом - объем передаваемой в канал связи последовательности индексов распознанных слов вычисляется по формуле:

, (4)

где - размер закодированного по кодовой таблице индекса распознанного слова (для словаря размером 4096 слов - 2 байта); - количество индексов распознанных слов в последовательности; - размер закодированного по кодовой таблице индекса спектра нераспознанного слова (для словаря размером 4096 слов - 1 байт); - количество индексов спектров в нераспознанном -м слове; - количество нераспознанных слов в последовательности.

Выразим - объем данных, передаваемый в канал связи процессом преобразования речи за единицу времени, как отношение объема сформированного на выходе процессом преобразования речи пакета ко времени его формирования (5):

,(5)

где - темп речи на входе процесса преобразования речи; - размер блока служебных данных в передаваемом пакете ЭС; - коэффициент реального времени, описывающий отношение времени распознавания фрагмента речевого сигнала, к его длине.

В случае, когда в процессе преобразования речи по словарю были определены все произнесенные слова, объем передаваемых в канал связи данных вычисляется по формуле (6).

,(6)

Согласно требованиям, предъявляемым к системам распознавания речи, процент нераспознанных слов не должен превышать 5%, что задает вероятность распознавания слова равную и вероятность не распознавания . Тогда согласно биномиальному распределению, - вероятность распознавания слов из последовательности размером определяется по формуле (7).

,(7)

при этом математическое ожидание (7) записывается как , а дисперсия

Время обработки пакета ЭС , характеризующее промежуток времени с момента произношения пользователем на передающей стороне первого звука из последовательности слов размером , до момента начала воспроизведения на приемной стороне синтезированной последовательности слов, можно записать как (8).

,(8)

где - время формирования пакета ЭС из слов на передающей стороне, - время задержки пакета в сети IP, - время формирования синтезируемой последовательности слов на приемной стороне.

Сравним объемы передаваемых данных существующего метода и предлагаемого для случая распознавания всех слов (6). Оптимальное количество слов, в пакете ЭС, составляется 11-12 слов. При таком размере пакета ЭС, объем передаваемых данных в единицу времени составляет порядка 0,13-0,12 кбит/с, что в 140 раз меньше величины объема данных, передаваемого в канал связи с использование кодека на основе существующего метода (17,92 кбит/с). При инкапсуляции в пакет ЭС индекса одного распознанного слова, объем данных увеличивается до 1,23 кбит/с, что в 14,5 раз меньше объема данных существующего способа передачи речи. Анализируя время доставки пакетов, можно обратить внимание на большую задержку доставки пакетов для предложенного метода, относительно требований рекомендации G. 114, которая гласит, что для хорошего качества голоса значение односторонней сквозной задержки не должно превышать 150 мс. Время доставки пакета с одним индексом распознанного слова, составляет для темпа речи 80 слов в минуту - 1,57 секунд, а для 120 слов в минуту - 1,11 с. При увеличении количества индексов слов в пакете ЭС, время доставки линейно увеличивается.

Согласно МОИЭС на передающей стороне, в процессе распознавания речи, на этапе акустического моделирования производится оценка вероятностей правдоподобия всех возможных моделей (1) выбор слова, вероятность правдоподобия модели которого наибольшая (2). Эти вероятности обычно вычисляются с помощью алгоритма Витерби (т. е. используется наиболее правдоподобный путь), что требует выполнения количества вычислений, выраженных формулой (9). При этом каждое вычисление подразумевает выполнение операции умножения, операции сложения и операции вычисления плотности наблюдений :

, (9)

где - объем словаря, - число состояний в СММ слова, - число сегментов или кадров речевого сигнала для неизвестного слова.

МОИЭС на приемной стороне является представлением процесса преобразования ASCII кодов, поступающих из канала связи, в речевой сигнал для системы ЭС. Компонент, реализующий процесс преобразования, включает в себя систему синтеза речи. В качестве системы синтеза речи, для построения модели, будет использоваться выбранная в гл. 2 система Festival.

На рис. 3 представлен фрагмент МОИЭС на приемной стороне. Входным параметром МОИЭС является последовательность ASCII символов, поступающих из канала связи. Согласно таблице, используемой в методе кодирования/декодирования информации base64, каждый символ последовательности преобразуется в числовой код. Таким образом, вся пришедшая из канала связи последовательность текстовых символов преобразуется в последовательность числовых кодов. Числовой код может представлять как часть индекса слова в словаре , так и часть последовательности индексов спектров из акустической модели. В любом случае, каждый числовой код приводится к десятичному значению, а затем вся последовательность числовых кодов, в зависимости от содержащейся информации, либо преобразуется в последовательность индексов спектров , либо в индекс слова из словаря .

Если получена последовательность индексов спектров , то она синтезируется в слово по акустической базе, как объединение всех спектров в речевой сигнал. Если получен индекс слова по словарю , то происходит извлечение представления слова в текстовом виде. Затем слово проходит текстовый и фонетический анализ. Текстовый анализ подразумевает проверку структура слова, нормализацию слова и его лингвистический анализ. Фонетический анализ производит разбиение слова на фонетические единицы по словарю, выделяет важные реплики в слове и проверяет корректность слова, для получения максимально точного произношения.

Затем необходимо произвести оценку полученной последовательности фонетических единиц слова, с точки зрения максимальной приближенности к описывающему ее речевому сигналу из акустического словаря.

Рис. 3. Фрагмент МОИЭС на приемной стороне

Пусть - речевой сегмент, чья фонетическая транскрипция . Пусть объединение речевых сегментов, общая фонетическая транскрипция которых . является последовательностью фонетических единиц, и так как у каждого сегмента есть, по крайней мере, одна фонетическая единица, считается что .

Дисторсия или функция стоимости между последовательностью сегментов и целью T может быть выражены как сумма соответствующей стоимости речевого сегмента и затрат перехода следующим образом:

,(10)

где - стоимость речевого сегмента в пределах цели , является стоимостью перехода в объединении речевых сегментов и .

Оптимальная последовательность сегментов может быть найдена как минимум полной стоимости:

, (11)

по последовательностям со всем возможным числом сегментов.

Согласно МОИЭС на приемной стороне, в процессе синтеза речи, производится оценка реализации последовательности сегментов и выбирается наименьшая (11). Оценки наиболее эффективно проводить с использованием алгоритма Витерби, что требует выполнения количества вычислений, выраженных формулой (12).

, (12)

где - количество слов в словаре системы, - число возможных разложений сегментов синтезируемого слова, - число состояний в СММ синтезируемого слова (количество фонетических единиц слова), - число кандидатов из базы системы для фонетической единицы.

При этом каждое вычисление (12) представляет расчет стоимости перехода между соседними сегментами (операция вычитания и умножения), расчет стоимость речевого сегмента в пределах цели (несколько операций сложения, число зависит от количества признаков, которые описывают сегмент) и выбор кандидата для фонетической единицы (несколько операций сравнения, число зависит от количества параметров, которые описывают кандидата). Формула (12) не учитывает технику отсечения, применяемую для уменьшения количества рассматриваемых последовательностей сегментов.

Результатом исследований является разработка МОИЭС на передающей и приемной сторонах, в основу которой заложена система распознавания речи Sphinx4 и система синтеза речи Festival. В рамках МОИЭС была доказана возможность распознавания речи в системе ЭС в реальном масштабе времени, а также произведен расчет объема передаваемых в канал связи данных и времени доставки пакета ЭС. Сделаны выводы о возможности реализации МПРЭС на существующей элементной базе. Разработанные алгоритмы для МОИЭС дают возможность построения программы на языке Java реализующей практически МПРЭС.

В четвертой главе показаны результаты экспериментальной проверки разработанного на основе предлагаемого МПРЭС программно-аппаратного комплекса. В главе приводятся результаты мониторинга объема передаваемых данных в территориально распределенной сети компании ЗАО «Поликом Про», где производилось внедрение комплекса. На рис. 4 представлен отчет об объеме полученной и отправленной информации за ноябрь 2008 года, построенный в программе Netflow Analyzer, на основе статистических данных с Интернет Контроль Сервера, на сетевом интерфейсе Cisco в направлении города Москва. Делаются выводы о снижении общего объема передаваемой и получаемой по сети информации, за счет перехода пользователей от VoIP телефонии к голосовому общению на базе более экономного способа передачи речи, основанного на предлагаемом методе для системы ЭС (см. таблицу).

Рис. 4. Объем переданных и полученных данных через московский сетевой интерфейс (ноябрь 2008г.)

Объем вход. и исх. информации в сети ЗАО «Поликом Про» через сетевые интерфейсы в г. Москва и Челябинск по портам IBM Lotus Sametime и VoIP за три месяца

Сетевой интер-фейс Cisco

Порт сетевого интер-фейса

Тип инфор-мации

Объем данных, Мб

Сентябрь

% от всего объема

Октябрь

% от всего объема

Ноябрь

% от всего объема

MSK

IBM Lotus Sametime

вх.

31,19

<1

90,98

1

116,22

1

исх.

40,54

<1

100,11

2

147,01

2

VoIP

вх.

1596,01

25

800,53

12

418,01

7

исх.

2001,14

37

501,29

9

222,94

4

CHL

IBM Lotus Sametime

вх.

5,14

<1

20,13

<1

34,78

1

исх.

2,01

<1

15,95

<1

27,69

1

VoIP

вх.

580,66

19

250,36

9

200,61

7

исх.

201,37

9

115,89

4

110,34

4

В результате функционирования внедренного программно-аппаратного комплекса в территориально распределенной сети компании ЗАО «Поликом Про» (Санкт-Петербург, Москва, Челябинск) в течение трех месяцев, было зафиксировано увеличение объема передаваемых и получаемых данных в системе ЭС IBM Lotus Sametime, по исходящим данным на 2%, а по входящим на 1%. Это свидетельствует об активном использовании комплекса для передаче речи. При этом были получены следующие результаты (общее время голосового общения сотрудников компании за период сентябрь-ноябрь 2008 постепенно возрастало):

· объем входящих голосовых VoIP данных по сетевому интерфейсу московского офиса компании сократился в 3,8 раза, а исходящих в 9 раз;

· объем входящих VoIP данных в ноябре стал составлять 7% от общего объема (против 25% в сентябре), а исходящих 4% (против 37% в сентябре);

· в челябинском офисе компании, объем входящих VoIP данных снизились в 2,9 раза, а исходящих в 2 раза и составляет соответственно 7% и 4% от общего объема.

В заключении перечисляются основные результаты диссертационной работы.

Основные результаты диссертационной работы

В процессе исследований в диссертационной работе проведены следующие работы и получены основные результаты.

1. Анализ систем экспресс-сообщений, позволивший выявить метод решения проблемы избыточности для существующей технологии передачи речи в IP сети.

2. Предложен метод передачи речи в системе экспресс-сообщений (МПРЭС), основанный на преобразовании речи по словарю, достаточного объема для обмена сообщениями между определенной группой пользователей.

3. Разработана модель обработки информации в системе экспресс-сообщений (МОИЭС), основанная на речевом распознавателе с большим словарем (Sphinx4) и речевом синтезаторе (Festival), использующими лексические единицы размером меньше слова.

4. Проведено вычисление объема передаваемых в канал связи данных для предложенного метода и его сравнение с объемом передаваемых в канал связи данных для используемой в настоящее время технологии VoIP.

5. Доказана возможность работы модели обработки информации в масштабе реального времени на существующей элементной базе.

6. Разработаны алгоритмы функционирования модели обработки информации, создано программное и информационное обеспечение.

7. Произведена экспериментальная проверка разработанного на основе предложенного метода программно-аппаратного комплекса, позволившего в сети компании ЗАО «Поликом Про» на направлении Санкт-Петербург-Москва снизить объем передаваемых голосовых данных с 37 до 6%, (в 9 раз), а получаемых с 25 до 8% (в 3,8 раза) относительно общего объема.

8. Разработана концептуальная модель развития предложенного метода передачи речи, связанная с построением лингвистической модели используемого в системе экспресс-сообщений языка и исследованиями по применению созданного программного и информационного обеспечения для работы на низкоскоростных каналах связи.

Список публикаций по теме диссертации

1. Зернов, П.С. Передача мультимедийной информации в системе экспресс сообщений на базе протокола XMPP / П.С. Зернов // 59-я СНТК: материалы / ГОУВПО СПбГУТ.- СПб, 2005. - С. 27 - 31.

2. Зернов, П.С. Проблемы безопасности алгоритма md5 при аутентификации в системе экспресс сообщений на базе протокола XMPP / П.С. Зернов // 59-я СНТК: материалы / ГОУВПО СПбГУТ.- СПб, 2005. - С. 34 - 37.

3. Зернов, П.С. Методы формирования информационного контента для мобильных устройств на базе экспресс сообщений / П.С. Зернов // 58-я НТК: материалы / ГОУВПО СПбГУТ.- СПб, 2006. - С. 27 - 28.

4. Зернов, П.С. Новый принцип формирования текстовых сообщений для системы экспресс сообщений / П.С. Зернов // 60-я СНТК: материалы / ГОУВПО СПбГУТ.- СПб, 2006. - С. 8 - 12.

5. Зернов, П.С. Особенности передачи бинарных данных в системе экспресс сообщений на базе протокола XMPP / П.С. Зернов // 59-я НТК: материалы / ГОУВПО СПбГУТ.- СПб, 2007. - С. 35 - 36.

6. Зернов, П.С. Подходы к обоснованию математической модели системы экспресс сообщений / Ю.Т Бутыльский, П.С. Зернов // 59-я НТК: материалы / ГОУВПО СПбГУТ.- СПб, 2007. - С. 36 - 37.

7. Зернов, П.С. Технология быстрого формирования текстовых сообщений для системы экспресс сообщений / П.С. Зернов // Техника Связи. - 2007. - № 6. - С. 52 - 55.

8. Зернов, П.С. Математическая модель системы экспресс сообщений с совместной передачей текста и голосовой информации / П.С. Зернов // 60-я НТК: материалы / ГОУВПО СПбГУТ.- СПб, 2008. - С. 34 - 35.

9. Зернов, П.С. Новый подход к передаче речи / П.С. Зернов // Технологии и средства связи. - 2008. - № 2. С. 104 - 105 (из перечня ведущих рецензируемых научных журналов и изданий, рекомендованных ВАК Минобрнауки России).

10. Зернов, П.С. Синтез русской речи в системе экспресс-сообщений. / П.С. Зернов // Технологии и средства связи. - 2008. - № 3. С. 58 - 60 (из перечня ведущих рецензируемых научных журналов и изданий, рекомендованных ВАК Минобрнауки России).

11. Зернов, П.С. Быстро и просто. / П.С. Зернов // Технологии и средства связи - 2008. - № 4. С. 92 - 94 (из перечня ведущих рецензируемых научных журналов и изданий, рекомендованных ВАК Минобрнауки России).

12. Зернов, П.С. Передача речи в системе экспресс-сообщений. / П.С. Зернов // Технологии и средства связи - 2008. - № 5. С. 82 - 85 (из перечня ведущих рецензируемых научных журналов и изданий, рекомендованных ВАК Минобрнауки России).

13. Зернов, П.С. Математическая модель оценки трафика процесса преобразования голосовых сообщений в системе экспресс-сообщений / П.С. Зернов // 61-я НТК: материалы / ГОУВПО СПбГУТ.- СПб, 2009. - С. 57.

Размещено на Allbest.ru


Подобные документы

  • Разработка программного комплекса для автоматизации получения и передачи сообщений между центром обработки звонков и клиентами. Пути сокращения среднего времени, затрачиваемого на телефонное соединение, повышение производительности работы менеджеров.

    дипломная работа [6,1 M], добавлен 13.10.2013

  • Современные методы защиты информации средствами стеганографии. Анализ канала передачи сообщений, подходы к реализации стеганографического приложения. Алгоритмы методов последнего бита и передачи сообщений через стегоканал; ограничения его использования.

    курсовая работа [105,7 K], добавлен 05.11.2011

  • Классификация и основные характеристики метода сжатия данных. Вычисление коэффициентов сжатия и оценка их эффективности. Алгоритмы полиноминальных, экстраполяционных и интерполяционных методов сжатия и их сравнение. Оптимальное линейное предсказание.

    курсовая работа [1,1 M], добавлен 17.03.2011

  • Применение алгоритмов, обеспечивающих высокую степень сжатия, для увеличения скорости передачи данных по каналам связи. Особенности и методы нахождения сингулярного разложения. Разработка программы, реализующей сжатие изображения с помощью SVD-сжатия.

    дипломная работа [3,3 M], добавлен 13.10.2015

  • Требования, предъявленные к полноценному локальному чату. Протокол передачи данных TCP. Описание программы сервера. Этапы разработки программного продукта. Функция приема сообщений от сервера. Принятие и отправка сообщений всем пользователям чата.

    курсовая работа [447,0 K], добавлен 21.01.2016

  • Количество информации и ее мера. Определение количества информации, содержащегося в сообщении из ансамбля сообщений источника. Свойства количества информации и энтропии сообщений. Избыточность, информационная характеристика источника дискретных сообщений.

    реферат [41,4 K], добавлен 08.08.2009

  • Системы автоматизации перевода, структура подсистемы сбора данных. Схема ввода речевых сообщений на компьютер. Расчет характеристик и выбор микрофона. Технические характеристики микрофонного усилителя ВМ-137. Аналого-цифровой преобразователь AD1871.

    контрольная работа [733,5 K], добавлен 08.11.2012

  • Обзор существующих программ сжатия данных без потерь. Анализ методов сжатия: алгоритмов группы, KWE, Lossless JPEG, кодирование Хаффмана. Обзор составляющих компонентов. Разработка кода программы-архиватора, работающей на основе алгоритма Хаффмена.

    курсовая работа [487,3 K], добавлен 14.07.2011

  • Структура аппаратуры передачи информации. Разработка передающей и приемной части в соответствии с заданными параметрами. Разработка функциональной схемы устройства преобразования сигналов и устройства защиты от ошибок, алгоритм его функционирования.

    курсовая работа [754,8 K], добавлен 12.03.2009

  • Обзор существующих решений на основе открытых данных. Выбор социальных сетей для извлечения данных. Ограничение геолокации сообщений из социальных сетей. Разработка формата хранения. Визуализация собранных данных методом теплой карты. Архитектура системы.

    дипломная работа [1,0 M], добавлен 18.11.2017

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.