Поиск информации в звуковых файлах

Извлечение текстовых фрагментов из звуковых файлов. Технологии, используемые поисковыми сайтами для осуществления процесса преобразования голоса в текстовый запрос. Программы распознавания речи. Использование голосовой навигации в текстовом редакторе.

Рубрика Программирование, компьютеры и кибернетика
Вид курсовая работа
Язык русский
Дата добавления 29.03.2013
Размер файла 49,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Понятно, что с таким набором слов попросту невозможно надиктовать нормальный связный текст. Отсюда задача: для начала добавить в словарь «Горыныча» эти недостающие словоформы. Если вы собираетесь диктовать программе какие-то специфические тексты, например из области эзотерики или программирования, придется добавить множество слов по этой тематике. С этой целью удобно воспользоваться одной из программ, умеющих выделять ключевые и наиболее информативные слова из разных мудреных текстов. Примером такой программы является «МЛ Аннотатор SDK 1.0» компании «МедиаЛингва».

РАСПОЗНАВАНИЕ РЕЧИ С ОТКРЫТЫХ ИСТОЧНИКОВ:

После тестирования «Горыныча» можно с уверенностью сказать, что качественно распознать звуковое сопровождение телепередачи с помощью этой программы практически невозможно. Даже если допустить, что микрофон ноутбука удовлетворяет требованиям программы (что весьма сомнительно), другие причины не позволят повторить рекламный эксперимент, описанный в начале статьи.

- Словари диктовки «Горыныча» (да простят нас его разработчики) можно назвать словарями Эллочки-Людоедки по сравнению со словарями таких англоязычных программ, как IBM ViaVoice и Dragon NaturallySpeaking.

- Даже если использовался пополненный кем-то словарь «Горыныча», скажем, хотя бы до 50 тыс., он фактически является индивидуальным и малопригодным для распознавания речи произвольного диктора.

Теперь представьте текст без знаков препинания, составленный из ограниченного словарного набора и без малейших признаков форматирования. А что получится после перевода такого текста, даже если исключить ошибки при его распознавании? Вот диктор CNN удивился бы, увидев такой текст!

Дабы не обидеть разработчиков единственной подобной русскоязычной программы, скажем, что и зарубежные «коллеги» «Горыныча» не смогут справиться с распознаванием теленовостей. Достаточно назвать одну причину: акустическая модель программ не успеет адаптироваться под конкретного диктора.

Итак, «Горыныч» весьма неплохо справляется с управлением компьютером, и даже light-версия вполне подойдет для этой цели. Конечно, при условии, что словари будут пополнены недостающими командами.

Для диктовки на русском языке альтернатив «Горынычу» пока не существует, и само существование такой программы является огромным достижением ее разработчиков. Но отображать связные тексты программа сможет только после кропотливой работы по тренировке и расширению словаря. Сколько времени займет эта работа, зависит от того, какого рода тексты вы собираетесь диктовать программе и сколько времени сможете уделять ей каждый день. Форсировать события не получится - чересчур усердная работа с программой может плохо отразиться на вашем здоровье.

Из-за большого объема ручной работы при диктовке реальная скорость распознавания речи будет гораздо ниже указанной в инструкции к программе, и хорошо, если поначалу она достигнет 40-60 слов в минуту. При регулярной и упорной тренировке программы возможно плавное повышение этой скорости и улучшение качества распознавания.

Дикторонезависимость и языконезависимость:

Западные системы распознавания речи хоть и позволяют вводить слитную речь, но нуждаются в длительных предварительных тренингах, в процессе которых происходит перегенерация их словарей под особенности речи говорящего (диктора). Кроме того, для каждого языка создается отдельная версия программы.

Более того, существуют специальные версии программ Dragon NaturallySpeaking и IBM ViaVoice для различных диалектов одного и того же языка - например, для английского: американская, английская, британская. Вот почему практически невозможно «приспособить» эти программы для русского языка (например, взять и надиктовать для них русский словарь с использованием транслитерации хотя бы для работы в режиме команд).

По этой же причине русскому человеку так трудно работать с иноязычными системами распознавания - они хоть и подстраиваются под наше рязанское произношение, но все же ориентированы на кембриджское или оксфордское.

Российские разработчики речевых систем чаще всего идут другим путем - делают свои программы дикторонезависимыми и языконезависимыми. Поэтому в «Горыныче» отсутствует предварительный тренинг, и по определению такие программы должны распознавать голос любого человека независимо от национальности сразу же после установки и настройки микрофона. Пусть и не на все 100%, но сразу. Велик и могуч русский язык.

Разработка модуля распознавания русской речи требует значительных финансовых и интеллектуальных ресурсов. Эта задача оказалась не по зубам даже таким крупнейшим компаниям-разработчикам речевых технологий, как IBM, Scansoft, Philips. По той же причине до сих пор отсутствует поддержка русского языка в системе речевого ввода в Office XP - даже Microsoft распознавание русского языка с его обширным словообразованием оказалось не под силу. В результате большинство разработанных на сегодня речевых программ - англоязычные, для других языков их значительно меньше.

Русскоязычные же утилиты можно буквально пересчитать по пальцам. Еще более обидным является то, что «достать» хорошие русскоязычные модули распознавания речи простому пользователю практически невозможно - российские речевые технологии являются либо объектами научных исследований и носят, скорее, демонстративный характер, либо предметами коммерческих сделок. В качестве примеров можно назвать разработки московской и минской компаний «Стэл - Компьютерные Системы» и «Сакрамент», рассчитанные на применение в различных аппаратных системах и программных приложениях.

Заключение

В качестве вывода на основе изученного материала можно предположить, что поиск в аудиофайлах и голосовой поиск по происшествию некоторого времени прочно закрепится в нашей жизни и будет таким привычным делом, как поиск информации в GOOGLE или в любой другой поисковой системе. Уже сегодня мы имеем данные технологии у себя в КПК или в планшетных компьютерах и вполне логично предположить, что в скором времени подобные технологии будут интегрированы в персональные компьютеры или ноутбуки. Хотя эта технология много раз испытана и внедряется в нашу жизнь, все же у нее выявляется ряд недостатков. К примеру, данная технология распознает не все языки и диалекты и требует четкого и понятного образца для поиска, что является не совсем возможным, так как многие люди обладают различными дефектами речи и могу4т говорить с акцентами. Так же основной проблемой является то, что на аудио запросе должен быть записан только голос с информацией для запроса, что затрудняет поиск в общественных и шумных местах. Для усовершенствования, по- моему мнению, стоит интегрировать системы частотного анализа звуковых файлов. Это поможет устройству анализировать устройству полученный аудио образец и позволит отделить в аудио файле с помощью частотного анализа голос от прочих шумов, что могло бы заметно улучшить данную технологию.

Литература

1. Игорь Лантратов о голосовом поиске Google.

2. Материалы с конференции goggle «образование 2.0» от 27.03.2007.

3. Толковый словарь Ожегова.

4. Орфографический словарь.

5. Д. Н. Колисниченко «Поисковые системы и продвижение сайтов в интернете». текстовый звуковой навигация

6. Рахимов Р.Г. Компьютерные технологии в музыке:- Уфа: ООО «Вагант», 2007.

7. «Новейшая энциклопедия интернета»2005 год В.П.Леонтьев.

Размещено на Allbest.ru


Подобные документы

  • Формат звукового файла wav, способ его кодирования. Реализация возможностей воспроизведения звука в среде программирования MATLAB. Составление функциональной схемы программы. Апробирование информационной технологии воспроизведения звуковых файлов.

    курсовая работа [1,2 M], добавлен 13.02.2016

  • Роль информационно-коммуникационных технологий в совершенствовании образовательного процесса. Структура, содержание и реализация практикума "Подготовка звуковых фрагментов для образовательных ресурсов", методика его использования в учебном процессе.

    дипломная работа [2,8 M], добавлен 11.04.2012

  • Текстовый редактор - приложение для обработки текстовой информации. Описание текстовых процессоров как более совершенных текстовых редакторов. Типы текстовых файлов: форматированные, неформатированные. Основные правила редактирования и набора текста.

    презентация [747,3 K], добавлен 26.11.2010

  • Методы предобработки изображений текстовых символов. Статистические распределения точек. Интегральные преобразования и структурный анализ. Реализация алгоритма распознавания букв. Анализ алгоритмов оптического распознавания символов. Сравнение с эталоном.

    курсовая работа [2,1 M], добавлен 20.09.2014

  • Функциональные характеристики программы форматирования текстовых файлов, требования к ее интерфейсу и данным. Схема взаимодействия компонентов системы, выбор среды исполнения и программная реализация алгоритмов. Тестирование и оценка качества программы.

    курсовая работа [61,1 K], добавлен 25.07.2012

  • Предотвращение несанкционированного распространения информации в текстовых файлах. Разработка подсистемы обнаружения утечки информации с фильтром идентификации текстовых областей в передаваемом потоке данных и их сходства с конфиденциальными данными.

    дипломная работа [1,8 M], добавлен 14.03.2013

  • Описание текстового редактора MS Word, его структура и элементы, функциональные особенности и возможности. Создание списков в текстовом редакторе, вставка объектов в документ, цветовое оформление. Принципы организации рабочего места, его оборудование.

    курсовая работа [2,2 M], добавлен 18.01.2014

  • Возможности Word по созданию и размещению графики в текстовых документах. Вставка объекта, созданного в другом графическом редакторе (Paint, Microsoft Drawing, Paintbrush). Создание растровых и векторных графических объектов. Рисунки из коллекции Clipart.

    лабораторная работа [255,9 K], добавлен 15.11.2010

  • Общие сведения о текстовом редакторе Microsoft Word. Основные операции редактора по работе с документами. Запуск программы, средства редактирования. Ввод и исправление текста, использование буфера обмена, форматирование абзацев, работа со шрифтами.

    контрольная работа [25,5 K], добавлен 12.03.2011

  • Функции текстового редактора как программы для работы с текстом. Использование редактора MS Word в научной деятельности исследователя-ономаста. Технология распознавания текста и организация работы с программой FineReader. Системы распознавания речи.

    реферат [979,3 K], добавлен 16.10.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.