Поиск информации в звуковых файлах

Извлечение текстовых фрагментов из звуковых файлов. Технологии, используемые поисковыми сайтами для осуществления процесса преобразования голоса в текстовый запрос. Программы распознавания речи. Использование голосовой навигации в текстовом редакторе.

Рубрика Программирование, компьютеры и кибернетика
Вид курсовая работа
Язык русский
Дата добавления 29.03.2013
Размер файла 49,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Министерство образования науки Российской федерации

Государственное образовательное учреждение высшего профессионального образования

Таганрогский государственный педагогический институт имени А.П.Чехова

Факультет информатики

Кафедра Информатики и управления

Курсовая работа на тему:

Поиск информации в звуковых файлах

Студентки 3 курса 31 группы:

Шеверда Марии

Информатика с доп. спец. Иностр.яз.

Научный руководитель:

К.Т.Н. Доц. Белаконова И.А.

Таганрог, 2010

Содержание

Введение

1. Аналитический раздел

2. Результирующий раздел

Литература

Введение

В настоящее время интерес пользователей к мультимедийному контенту постоянно возрастает по мере того как стремительно увеличивается количество широкополосных подключений к интернету. Мультимедийный контент становится все более востребованным, но пользователи не могут его найти, потому что поисковые сайты неспособны индексировать текст внутри мультимедийных файлов, хотя такие технологии существуют. Дошло до того, что уже сами производители мультимедийного контента начали подстраиваться под требования современных поисковых машин. Если Google пока не может автоматически распознавать текст в аудиозаписях, то приходится делать это самостоятельно. Например, одна из крупнейших в Америке радиостанций NPR начала выкладывать на своем сайте текстовую расшифровку всех репортажей и выпусков новостей, которые выходят в эфир. Расшифровка производится в реальном режиме времени с помощью специального ПО для распознавания речи от компании StreamSage. Теперь сайт радиостанции, наконец, начал появляться среди результатов поиска Google и Yahoo!. А Google даже сделала NPR специальное предложение по включению аудиозаписей в некий "мультимедийный" раздел поиска, который еще даже официально не объявлен.

Впрочем, надежное распознавание речи в мультимедийных файлах пока в будущем. А сейчас крупнейшим в интернете сайтом по поиску аудио- и видеоконтента является более примитивный Singingfish, который не распознает речь, а использует тэги. Поисковый индекс Singingfish содержит описания более 9 млн. потоковых мультимедийных файлов (валидность ссылок около 99%), и каждый день база данных увеличивается примерно на 80 тыс.

Для включения файла в индекс требуется создать для него до 70 текстовых полей описания - это автор, битрейт, размер файла и т.д. Поскольку интерес пользователей к мультимедиа в интернете стремительно растет, то в данный момент Singingfish обрабатывает уже 6 млн. запросов ежемесячно, хотя еще в январе 2004 г. количество запросов составляло 3 млн.

Полнотекстовый поиск по мультимедийным файлам - очень перспективная технология, над которой работают множество фирм. Например, технологию Speechbot разрабатывает НР. Над этими же проблемами работают компании Nexidia и Virage, которая сейчас является собственностью Autonomy, а также такие гиганты как Yahoo! и AOL. Например, Yahoo! Приобрела компанию AltaVista, которая в свое время одной из первых разработала механизм для поиска аудио- и видеофайлов в интернете. AOL также не осталась в стороне и недавно приобрела компанию Singingfish.

Американская Fast-Talk Communications представила новую технологию поиска текстовых фрагментов в звуковых файлах. Подобный инструментарий может оказаться весьма полезным для компаний, обрабатывающих значительные объемы речевой информации. Новая технология может пригодиться и журналистам, у которых отпадет необходимость в длительной и трудоемкой расшифровке интервью.

Работа системы Fast-Talk Communications основана на фонетическом поиске информации. Движок программы анализирует аудиофайл с записанной речью и разбивает его на отдельные фонемы. В случае английского языка число фонем составляет 42. Индексирование записей ведется в реальном времени, то есть обработку интервью можно вести во время его записи.

Для поиска информации в полученном индексе аудиофайла необходимо ввести запрос.

Он может быть задан в виде набора фонем (транскрипцию слов можно найти в словарях), либо в виде написанного слова или фразы. Программа автоматически преобразует написанное слово в набор фонем. При этом слово может быть набрано с ошибками и опечатками, главное, чтобы произношение правильного и ошибочного варианта написания было одинаковым. К примеру, информацию о президенте Ливии можно с равным успехом искать по запросам QUADAFY или KADDAFI.

По заявлению разработчиков, поиск текста в аудиофайлах осуществляется с точностью порядка 98%. Результаты практически не зависят от особенностей произношения конкретного человека: акцента, использования диалекта, интонационных особенностей и т.д. Качество записи может быть и невысоким. Поиск информации ведется с высокой скоростью: необходимые данные в тридцатичасовой записи можно найти за одну секунду.

Журналист издания InfoWorld Джон Юделл провел собственные испытания демонстрационной версии системы поиска от Fast-Talk. Он использовал программу для записи 45-минутного интервью и последующего поиска в нем определенных фраз. Юделл остался очень доволен результатами, и, по его мнению, разработка Fast-Talk является революционной. Хотя при вводе запросов нужно учитывать, что поиск ведется по фонемам. Например, по запросу MySQL никаких результатов получено не было, тогда как запрос my sequel оказался более эффективным. С другой стороны, фонетическая модель облегчает поиск имен, так как исчезает необходимость в их точном написании.

Юделл также испытал Fast-Talk на уже готовых интервью с людьми, для которых английский язык не является родным. Результаты оказались вполне удовлетворительными, однако максимально эффективно программа обрабатывает все же речь носителей английского языка. В настоящее время Fast-Talk предлагает свой поисковый движок в комплекте с инструментарием для разработчиков. Компания также предлагает демонстрационную версию программы поиска, работающую с файлами формата wav.

В музыкальной сфере существует ряд программ для редактирования звуковой информации, в частности голоса. Используются такие программы как celemony melodyne, так же используются некоторые программы дополнения музыкальных программ это плагины формата vst. В частности такой плагин variaudio, который используется в виртуальном секвенсоре cubase, данная программа и плагин выполняет обработку звукового файла с распознаванием его частотных характеристик. Таким образом, осуществляется своеобразный поиск информации в звуковом файле. Проанализировав частотную характеристику файла, пользователь (звукооператор) может изменить длительность отдельных фраз, тональность и темпер голоса. В итоге, звукооператор исправляет ошибки при записи вокала и сольных инструментальных пар.

В настоящее время поиск звуковых файлов получил распространение навигационных программ, предназначенных для прокладки маршрутов по средствам GPS и ГЛАНАС. С применением данной технологии пользователь может просто произнести конечную точку своего маршрута. Навигационное устройство проведет анализ и поиск информации, связанных с прокладкой маршрута.

Голосовой интерфейс с компьютером долгое время существовал лишь на страницах фантастических романов - но уже сегодня есть производители, которые предлагают его просто не в качестве интересной игрушки, а в роли основного средства ввода информации.

Например, компания LXE, специализирующаяся на компактных компьютерах в защищенном исполнении, оснащенных беспроводными интерфейсами, полнила свой ассортимент специализированной моделью HX3 для сбора данных в складском учете. Особенностью носимого компьютера HX3 является использование распознавания речи, как основной формы ввода данных.

По словам компании, она стала первым производителем, выпустившим такое изделие на рынок.

Для беспроводного подключения HX3 использует протокол 802.11b/g, обеспечивающий высокую скорость обмена и защиту информацию. Само устройство заключено в компактный (12,6 x 8,9 x 3,6 см) корпус из магниевого сплава. Конструкция оптимизирована для ношения на поясе, а органы управления расположены с таким расчетом, чтобы не требовать визуального контакта - оператор работает «на ощупь». Основной объем данных, как уж говорилось, вводится голосом. Предусмотрено также сканирование штриховых кодов. Причем, наличие в HX3 стандартного интерфейса Bluetooth 2.0+EDR обеспечивает не, только подключение гарнитуры, но и беспроводного сканера штриховых кодов.

Конфигурация компьютера включает процессор XScale PXA255 (400 МГц), 128 Мб SDRAM и 128MB или 512 Мб флэш-памяти. В качестве операционной системы используется Windows CE 5.0 Professional Plus.

Безусловно, область применения компьютера - учет - накладывает свои особенности, в том числе, и на приложения, работающие с голосовым вводом. Тем не менее, перенос центра тяжести именно на этот канал взаимодействии с оператором свидетельствует об определенном уровне зрелости технологии.

Голосовое управление - это способ взаимодействия с устройством при помощи голоса. Первыми бытовыми устройствами с голосовым управлением стали стиральные машины, сегодня ряд компаний (Speereo Software, Nuance, Vox) занимаются разработками исключительно систем с голосовым управлением - речевыми интерфейсами.

В 21 веке голосовое управление становится все более востребованным. Голосовой набор номера поддерживается многими современными мобильными телефонами. Сейчас повсеместному распространению голосового управления мешает недостаточная вычислительная мощность процессоров и проблема наличия посторонних (внешних) шумов. Однако, созданный в 2002 году уникальный математический алгоритм, позволяющий полноценное развертывание системы распознавание речи даже на устройствах с процессором в 40MIPS, успешно доработан и внедрен в ряд устройств крупных мировых производителей.

Голосовое управление основано на технологии распознавания речи: система получает информацию о колебаниях воздуха через микрофон, сравнивает полученные данные с командами, которые записаны в системе и, в случае совпадения, выполняет предписанное действие. Чем больше слогов в записанной команде, тем больше шанс, что система ее распознает без ошибок. К примеру, слова «Июнь» и «Июль» настолько схожи, что очень велика вероятность ошибки. Разработчики систем голосового управления решают эту проблему по-разному. Так, программное обеспечение Nuance может «учиться» интонациям пользователя и «привыкать» к его манере говорить. А голосовой переводчик Speereo просто учитывает, что пользователь запросил перевод слова «Вишня» в рамках раздела «Еда», поэтому программа не перепутает его с божеством «Вишну», который находится в разделе «Религия». Алгоритм распознавания Speereo не основывается на сравнении с другими произношениями, а лишь уникально раскладывает речевой сигнал.

Голосовое управление берется на вооружение автомобильными гигантами: производители автомобилей стремятся повысить безопасность и комфорт водителя, поэтому дают возможность управлять бортовой электроникой при помощи голоса (наподобие «Включи радио, станция четыре»).

Это позволяет не отводить взгляда от дороги и не занимать руки водителя лишними манипуляциями.

Предсказанные много лет назад фантастами диалоги с компьютерами сегодня стали реальностью - компьютерная эра подарила человечеству общение с использованием технологий, закодированных в загадочные аббревиатуры ASR (Automated Speech Recognition) и TTS (Text-To-Speech). На смену устаревших технологий IVR (Interactive Voice Response) с "кнопочным" (DTMF) набором, повсеместно приходят Speech-enable IVR, предусматривающие управление голосовыми командами за счет применения технологии распознавания речи (ASR).

OPENCOM предлагает речевые технологии: распознавания и синтеза речи.

Сегодня такие голосовые технологии, как распознавание и синтез речи, становятся все более эффективным средством снижения затрат и решением, позволяющим повысить качество телефонного обслуживания клиентов. В настоящее время более 7 миллионов телефонных звонков ежедневно обрабатывается автоматизированными справочными системами самообслуживания клиентов - это голосовые сервисы, построенные на основе технологий распознавания и синтеза речи.

Инвестиции в речевые технологии растут на 25% ежегодно. По прогнозам аналитиков, в 2009 году компании потратят около 2.7 млрд. долларов на внедрение услуг с использованием речевых технологий. Это свидетельствует о том, что многие руководители Call-центров стремятся сократить расходы компании за счет использования автоматизированных справочных систем самообслуживания клиентов. Компаниям выгоднее организовать голосовые сервисы самообслуживания, автоматизировав часто повторяющиеся и рутинные обращения клиентов, чем постоянно расширять штат операторов.

Автоматизированная справочная система самообслуживания клиентов.

Популярность применения автоматизированных справочных систем самообслуживания клиентов связана с использованием в них технологий распознавания и синтеза речи, что позволяет организовать полноценный диалог с клиентом, в котором автоматизированная справочная система самообслуживания клиентов задает вопросы и, получая ответы клиента, адекватно на них реагирует.

Голосовые сервисы стремительно развиваются - уходят в прошлое системы с тоновым набором, в которых приходится прослушивать все разделы меню, пытаясь понять и запомнить, на какую клавишу телефона нажать, чтобы попасть в нужный раздел голосового меню. Система Speech-enable IVR при произнесении ключевого слова сама переключает клиента в нужный раздел меню.

Распознавание и синтез речи в российских голосовых сервисах.

В данный момент идет большое количество споров по вопросу необходимости внедрения решений с голосовыми технологиями распознавания и генерации речи в России. Многие считают, что с позвонившим в компанию клиентом должен общаться только оператор Call-центра, но опыт показывает, что клиент готов самостоятельно получать необходимую ему информацию: например, где находится банкомат, филиал компании, точка продаж или какой сегодня курс обмена валют. Поэтому автоматизированная справочная система самообслуживания клиентов - это рациональное решение для контакт-центров.

OPENCOM предлагает решения, построенные на базе современных речевых технологий распознавания и синтеза речи и ориентированные для использования в различных секторах бизнеса. Наши инновационные решения используются как эффективные инструменты для оптимизации работы операторского Call-центра и повышения клиентоориентированности компаний.

Вероятность распознавания слов, фраз или предложений способна достигать 100%; клиенту проще назвать ключевое слово, чем прослушать и запомнить большое количество пунктов меню и цифр; сквозная навигация по меню голосовыми командами позволяет клиентам call-центра упростить и ускорить доступ к интересующей информации и избавляет от мучительного набора команд в тональном режиме, что особенно удобно в случаях с глубоким уровнем вложенности разделов меню; голосовое меню необходимо создавать так, чтобы клиент интуитивно понимал, какую фразу или команду ему необходимо назвать для получения ответа на запрос, необходимо превращать общение с системой в удобный диалог.

1. Аналитический раздел

Первое устройство для распознавания речи появилось в 1952 году, оно могло распознавать произнесённые человеком цифры. В 1964 году на ярмарке компьютерных технологий в Нью-Йорке было представлено устройство IBM Shoebox.

Коммерческие программы по распознаванию речи появились в начале девяностых годов. Обычно их используют люди, которые из-за травмы руки не в состоянии набирать большое количество текста. Эти программы (например, Dragon NaturallySpeaking, VoiceNavigator) переводят голос пользователя в текст, таким образом, разгружая его руки. Надёжность перевода у таких программ не очень высока, но с годами она постепенно улучшается.

Увеличение вычислительных мощностей мобильных устройств позволило и для них создать программы с функцией распознавания речи. Среди таких программ стоит отметить приложение Microsoft Voice Command, которое позволяет работать со многими приложениями при помощи голоса. Например, можно включить воспроизведение музыки в плеере или создать новый документ.

Интеллектуальные речевые решения, позволяющие автоматически синтезировать и распознавать человеческую речь, являются следующей ступенью развития интерактивных голосовых систем (IVR). Использование интерактивного телефонного приложения в настоящее время не веяние моды, а жизненная необходимость. Снижение нагрузки на операторов контакт-центров и секретарей, сокращение расходов на оплату труда и повышение производительности систем обслуживания - вот только некоторые преимущества, доказывающие целесообразность подобных решений.

Прогресс, однако, не стоит на месте и в последнее время в телефонных интерактивных приложениях все чаще стали использоваться системы автоматического распознавания и синтеза речи. В этом случае общение с голосовым порталом становится более естественным, так как выбор в нем может быть осуществлен не только с помощью тонового набора, но и с помощью голосовых команд. При этом системы распознавания являются независимыми от дикторов, то есть распознают голос любого человека.

Основным преимуществом голосовых систем является дружественность к пользователю - он избавляется от необходимости продираться сквозь сложные и запутанные лабиринты голосовых меню. Теперь достаточно произнесения цели звонка, после чего голосовая система автоматически переместит звонящего в нужный пункт меню.

Следующим шагом технологий распознавания речи можно считать развитие так называемых Silent Speech Interfaces (SSI) (Интерфейсов Безмолвного Доступа). Эти системы обработки речи базируются на получении и обработке речевых сигналов на ранней стадии артикулирования. Данный этап развития распознавания речи вызван двумя существенными недостатками современных систем распознавания: чрезмерная чувствительность к шумам, а также необходимость четкой и ясной речи при обращении к системе распознавания. Подход, основанный на SSI, заключается в том, чтобы использовать новые сенсоры, не подверженные влиянию шумов в качестве дополнения к обработанным акустическим сигналам.

На сегодняшний день существует два типа систем распознавания речи - работающие "на клиенте" (client-based) и по принципу "клиент-сервер" (client-server). При использовании клиент-серверной технологии речевая команда вводится на устройстве пользователя и через Интернет передается на удаленный сервер, где обрабатывается и возвращается на устройство в виде команды (Google Voice, Vlingo, пр.); ввиду большого количества пользователей сервера система распознавания получает большую базу для обучения. Первый вариант работает на иных математических алгоритмах и встречается редко (Speereo Software) - в этом случае команда вводится на устройстве пользователя и обрабатывается в нем же. Плюс обработки "на клиенте" в мобильности, независимости от наличия связи и работы удаленного оборудования. Так, система, работающая "на клиенте" кажется надежнее, но ограничивается, порой, мощностью устройства на стороне пользователя.

Google, для своей операционной системы, используемой на мобильных устройствах и планшетных компьютеров, привлекла разработчиков программного обеспечения, с целью создать программы мгновенного перевода. Уже имеются первые разработки, в качестве них можно привести программу universal translated. Принцип работы ее заключается в том, чтобы помочь данному пользователю пообщаться с иностранцами на другом языке. Смысл ее использования довольно прост. Пользователь, выбрав свой язык, произносит речь, которая записывается в память устройства по истечению нескольких секунд программа анализирует полученный аудио файл и переводит его в текстовый формат. На следующем этапе программа переводит язык, который пользователь указал для языка перевода. Затем, полученный аудио файл переводится и воспроизводится. Таким образом, в программе задействованы алгоритмы распознавания речи и поиска информации в аудио файлах. В свою очередь компания APLE выпустила ряд программ данной технологии. Программы предназначаются для распознавания исполнителя той или иной музыкальной композиции. Ее работа заключается в том, что вы записываете часть песни на музыкальный магнитофон и программа анализирует запись и сравнивает ее с базой данных на музыкальном магазине itunes.

В начале года корпорация IBM объявила о новом достижении в области голосовых технологий, которое даст возможность водителям автомобилей и пользователям карманных ПК управлять аппаратными средствами с помощью естественного языка, освободив их от необходимости заучивания специальных команд. Новый компонент программного пакета IBM Embedded ViaVoice 4.4 значительно усовершенствует технологии голосового управления для карманных устройств и навигационных систем автомобилей. При этом обеспечивается большая гибкость системы и точность выполнения указаний пользователя.

Прежде для взаимодействия с системами распознавания речи пользователям приходилось запоминать фиксированный набор фраз и команд. Теперь, благодаря разработанной IBM технологии, для управления радиоприемником водитель может просто сказать: «настроиться на частоту 104,3», или «установить приемник на частоту 104,3», или «изменить радиостанцию на 104,3». Чтобы настроить радиоприемник на желаемую волну, подходят самые разнообразные, простые и понятные фразы.

Пакет IBM Embedded ViaVoice 4.4 включает специальный компонент, который использует современные средства статистического языкового моделирования и семантической интерпретации, чтобы обеспечить взаимодействие между пользователем и системой распознавания голоса в радиоприемниках, навигационных системах или карманных ПК на естественном языке. Кроме того, новый пакет значительно повышает точность распознавания голоса на фоне любых шумов благодаря новым акустическим моделям, усовершенствованным методикам обучения и улучшенному определению границы «речь/тишина» с учетом различных случайных шумов (неровности дорожного покрытия, сирены, пересечение железнодорожной линии и т. д.).

ПО IBM Embedded ViaVoice Version 4.4 предлагает голосовые технологии для мобильных устройств, таких, как навигационные системы автомобилей, телефоны с голосовым управлением, карманные ПК, и других интеллектуальных устройств.

Встраиваемые приложения могут использовать голосовые технологии IBM как для автоматического распознавания речи ASR (Automatic Speech Recognition), чтобы вводить команды в мобильные устройства, так и для преобразования текста в речь TTS (Text-To-Speech), чтобы синтезировать голос человека для воспроизведения текста и другой информации из мобильного устройства.

Помимо этого, было объявлено, что компания VoiceBox Technologies будет встраивать механизм распознавания речи IBM Embedded ViaVoice в свое решение VoiceBox Navigator - первую в мире платформу для голосового поиска в диалоговом режиме. Решение VoiceBox предоставляет пользователям возможность находить информационные ресурсы и перемещаться по ним в режиме диалога в свободной форме. Кроме того, это решение формирует и выполняет процедуры интеллектуального поиска, определяя намерения пользователя на базе контекста запроса. Что бы ему ни потребовалось - найти музыку или развлекательные ресурсы, определить маршрут движения или сделать телефонный звонок, - сочетание технологий двух компаний позволит просто и точно осуществлять навигацию по информационным ресурсам и управлять ими с мобильных устройств в режиме диалога. Принцип работы VoiceBox Navigator основан на использовании алгоритмов Knowledge Enhanced Search and Speech Recognition, определяющих контекст и намерения пользователя в диалоговом режиме, а также механизма голосового поиска, который динамически формирует и выполняет ориентированные на контекст запросы.

Первым пользователем платформы VoiceBox со встроенной технологией IBM Embedded ViaVoice стала компания XM Satellite Radio, предлагающая 160 цифровых каналов радиовещания, транслирующих музыкальные, новостные и спортивные передачи, интервью и развлекательные программы. Новое приложение позволяет водителям автомобилей находить XM-каналы, регулировать громкость, а также запрашивать данные о движении на дорогах, курсах акций, информацию о спорте и погоде - просто «разговаривая» со своим XM-радиоприемником. Планируется, что в течение этого года новую технологию уже смогут использовать компании по производству и модернизации автомобилей.

Кроме того, компании Johnson Controls и VoiceBox недавно заключили многолетний договор на использование VoiceBox Navigator для диалогового поиска и извлечения ресурсов посредством IBM Embedded ViaVoice на беспроводных мобильных устройствах BlueConnect, предлагаемых Johnson Controls для автомобильного рынка. Телематические средства голосового поиска включают голосовой набор номера с использованием технологии Bluetooth и навигацию по музыкальным ресурсам. Телематическое решение этих компаний будет использовать технологии, входящие в пакет IBM Embedded ViaVoice, и платформу VoiceBox Navigator. Технологии IBM Embedded ViaVoice гарантируют точное и надежное распознавание речи, а VoiceBox обеспечит диалоговый поиск мультимедийных и других цифровых ресурсов с помощью различных устройств в машине и дома или посредством мобильного телефона.

В заключение отметим, что компания Openstream намерена интегрировать в свою платформу для мобильных решений программный продукт IBM WebSphere Everyplace Multimodal. Это даст возможность получать доступ к информации по требованию, используя различные способы ввода и вывода информации, в том числе путем голосового управления, ввода команд на клавиатуре или нажатия клавиш на телефонах, КПК и других мобильных устройствах. ПО IBM WebSphere Everyplace Multimodal основано на технологии IBM Embedded ViaVoice, позволяющей вводить данные и управлять устройством различными способами. В рамках этого комплексного подхода пользователи могут с помощью голосовых команд получить доступ к электронной почте, новостям и Web-ресурсам по требованию.

Кроме того, технология позволяет преобразовывать текст в речь, так что пользователь сможет не только читать информацию, но и прослушивать ее.

Две самые популярные поисковые системы Google «Яндекс» практически одновременно запускают голосовой поиск. Информация о русскоязычном голосовом поиске Google уже прошла по всем телеэкранам мира, в то время как о голосовом поиске Yandex пока что знают лишь немногие.

Хоть и технология преобразования речи в поисковые запросы на английском языке работает у Google ещё с 2008 года, компания Google только сейчас решила массово распространить эту новость, введя поиск на русском языке и, уже создала, приложения для Android, которые можно скачать в Android Маркете, а для iPhone и Nokia S60 эта функция входит в приложение Google Mobile App.

Пока неизвестно, будет ли голосовой поиск работать со всем спектром услуг Google, или ограничится, как «Яндекс», только некоторыми сервисами. Технологию работы голосового поиска компания Google пока не раскрывает. На данный момент голосовой поиск от Google доступен не на всех языках и не для всех мобильных телефонов.

В отличие от Google, Yandex предлагает воспользоваться голосовым поиском только в «Яндекс. карты», что достаточно логично, так как, пользуясь навигацией во время движения почти невозможно отвлечься, чтобы набрать искомый адрес. С помощью голосового запроса пользователи «Яндекс.карт» смогут быстро находить нужные адреса, а также ближайшие заправочные станции, рестораны или отделения банков.

Технология, которую использует «Яндекс», подразумевает распознавание речи и преобразование её в текстовый запрос. Эта технология была разработана петербургской компанией «Центр речевых технологий», сотрудник которого Анна Белаш рассказала, что словарь системы содержит миллионы распознаваемых слов.

Напомним, что аналогичные голосовые услуги поиска предоставляют пока только поисковые системы Yahoo! и Bing.

Статистики, говорящей об эффективности или популярности метода, пока нет - лишь компания Google недавно рассказала, что около четверти запросов с мобильных телефонов под управлением Android осуществляется голосом.

Данные технологии разрабатывались российскими программистами и ранее. Одним из результатов трудов в этой отрасли вы можете найти на нашем сайте, воспользовавшись поиском по ключевым словам «Управление компьютера голосом».

Сложностью данных приложений являлась универсальность. Написать такую программу под одного человека было несложно, для одного языка сложнее, но так, же возможно. А вот сделать программу универсально было не под силу никому. Ну, как мы видим обе компании пошли вторым путем, они разрабатывают голосовой поиск для отдельных языков, что, в общем, то было неплохим решением. Давно пора. Уже близится то время, когда мы будем работать на компьютере в абсолютно неподвижном состоянии.

Осталось компании Microsoft создать данное дополнение для Офисных приложений серии Microsoft Office и мы начнем писать текст, используя лишь микрофон.

2. Результирующий раздел

Распознавание речи выполняется программами, которые могут быть либо установлены на компьютер, либо «прошиты» в памяти мобильных гаджетов. С технической точки зрения любое распознавание речи осуществляется по одному и тому же принципу: микрофон воспринимает звуковые волны человеческого голоса, а система распознавания речи преобразует их в текст, который впоследствии сопоставляется с заранее заданными образцами. В подобных программах, как правило, таких образцов довольно много.

Существуют два типа программ распознавания речи:

- привязанные к говорящему - эти программы постоянно обучаются и со временем начинают понимать голос «своего хозяина» все лучше и лучше. Чем чаще пользователь работает в программе, тем лучше она понимает его.

- независимые от говорящего - вы можете начинать говорить сразу - программа будет реагировать на голосовые команды. В отличие от первого типа, этим программам не нужно учиться понимать вас.

Наоборот, вам надо научиться говорить так, чтобы программа вас понимала.

Работа на ПК существенно облегчится.

Диктовка - с помощью программ распознавания речи многие пользователи надиктовывают тексты документов.

Такая возможность актуальна, например, для медиков, проводящих обследование (в ходе которого руки обычно заняты) и одновременно протоколирующих его результаты. Для обычного пользователя, которому набивать текст по какой-либо причине сложно (или просто лень) она также может оказаться полезной.

Ввод команд - пользователи ПК могут использовать «распознавалку» для ввода команд, то есть проговариваемое слово будет восприниматься системой как щелчок клавиши мыши.

Пользователь командует: «Открыть файл», «Отправить почту» или «Новое окно», а компьютер выполняет соответствующие действия. Это особенно актуально для людей с ограниченными физическими возможностями - вместо мыши и клавиатуры они смогут управлять компьютером при помощи голоса.

Для распознавания речи требуется:

Программа распознавания речи - англоязычные пользователи Windows могут воспользоваться, например, Dragon Naturally Speaking или IBM Via Voice. Русский язык понимают программы «Горыныч» и «Диктограф». В операционную систему Windows Vista программа распознавания речи уже встроена.

Микрофон или гарнитура (гибрид наушника и микрофона) - для «попадания» слов в компьютер.

Достаточно производительный компьютер - для работы функции распознавания речи компьютер не должен быть сверхбыстрым. Вполне достаточно 1 Гб оперативной памяти (для работы Windows Vista лучше иметь 2 Гб) и тактовой частоты процессора не менее 1 ГГц.

Функция распознавания речи используется в:

- Функция распознавания речи может использоваться не только в ПК, но и во многих других устройствах.

- Мобильные телефоны - уже несколько лет существуют модели с возможностью голосового управления. Но к распознаванию голоса это отношения не имеет - аппарат не переводит голос в текст, а сравнивает произнесенную фразу с заранее записанной (последняя является «эталонной» и обычно называется «голосовой меткой»). Голосовая метка может соответствовать записи в адресной книге (голосовой набор) или пункту меню (голосовое управление). Если телефон изначально не имеет соответствующих функций, «обучить» его будет невозможно.

- Мобильные навигаторы - в новых навигационных устройствах, например, Tom Tom Go 720T водитель может голосом ввести пункт назначения. Если произносить слова отчетливо и, по возможности, в тишине, то эта функция работает очень хорошо. Хотя данная операция занимает столько же времени, сколько и клавиатурный ввод, но во время движения в любом случае более безопасно и удобно использовать голосовое управление. Правда, совсем без рук здесь не обойтись - для запуска голосовой команды нужно нажать на экранную кнопку.

- Автомобили - некоторыми новыми марками автомобилей, например, Mercedes, Audi, Toyota, Ford или BMW, можно управлять при помощи голоса (правда, набор команд ограничен).

Например, в некоторых моделях BMW после нажатия кнопки, расположенной на руле (см. рисунок), активируются функции голосового управления стереосистемой или системой навигации.

- Мультимедийные диски для изучения иностранных языков - некоторые обучающие программы проверяют правильность произношения. Программа просит вас прочитать определенное предложение и, обработав с помощью функции распознавания речи результат, сообщает, все ли у вас в порядке с произношением.

Перспективы функции распознавания речи:

В мобильных телефонах роль функции распознавания речи существенно возрастет, ведь набивать текст на маленьких клавиатурах мобильных телефонов весьма утомительно.

Диктовка SMS-сообщений - скоро вам не понадобится набирать текст сообщений на телефоне - можно будет просто диктовать. Эту функцию обещает внедрить в некоторые модели своих телефонов фирма Samsung (в ближайшее время они должны появиться на рынке).

Перевод - ко времени проведения Олимпийских игр-2008 в Пекине ожидается появление мобильного телефона со встроенным переводчиком. Если вы, находясь в Поднебесной, захотите, к примеру, отобедать в ресторане, то вам достаточно будет по-русски наговорить свой заказ в мобильный телефон - все будет переведено на китайский язык, а электронный голос из динамика передаст заказ официанту.

Можно предположить, что со временем все большее количество устройств будет понимать человеческий голос. Поэтому не удивляйтесь, если однажды утром ваша кофе-машина не только спросит вас, что приготовить - капуччино или эспрессо - но и поймет ваш ответ.

Программы распознавания речи.

Наиболее удачными оказались разработки в этой области для английского языка, потому что он довольно прост по сравнению с другими. Но даже эти программы являются хоть и успешными, но все же экспериментами, потому что не обеспечивают стопроцентного распознавания.

С русским языком все намного сложнее. Сейчас не существует ни одной программы распознавания речи, позволяющей достичь хоть какого-то приемлемого результата. Не верьте рекламе, утверждающей, что с помощью их продукта вы сможете набирать по 500 знаков в минуту. На деле все наоборот - вы будете тщетно пытаться добиться «угадывания» программой простейшего слова, произнося его множество раз.

Даже если вы создадите для работы программы идеальные условия, которые она запрашивает - хорошая звуковая карта, качественная гарнитура (наушники + микрофон), отсутствие посторонних шумов, четкое членораздельное произношение слов, подстройка под ваш голос - все равно пользы от нее не будет.

Русскоязычные программы для перевода речи в текст - это популярный (но отнюдь не полезный) Горыныч, Диктограф (или Микросервис), Перпетуум-Мобиле, Комбат.

Довольно впечатляющие результаты показывает «Программа пофонемного распознавания речи». Но она не позволяет переводить распознанные слова в текстовый редактор. Она распознает только слова, уже имеющиеся в ее словаре, а это около двадцати слов. Словарь можно самостоятельно дополнять, но для этого нужно записать в специальный файл транскрипцию слова, используя особенные обозначения фонем. Это очень долго и не имеет смысла, раз уж нельзя диктовать в редактор. Если дописать модуль перевода распознанных слов в текст, научить программу распознавать речь без выдержки пауз между словами или хотя бы сделать требуемые паузы минимальными и создать большой словарь, то может получиться высококачественный программный продукт.

В нынешнее время достижения в области речевых технологий, эффективно используемые на практике, не связаны с диктовкой текста. Индустрия речевых технологий ориентирована на голосовую идентификацию пользователей (пароли и безопасность), управление различными электронными устройствами (от персонального компьютера до самолета) с помощью голоса, программы для незрячих, шумоочистку, логопедию и др.

Даже лидер в этой области, российская компания «Центр речевых технологий», работающая уже более двадцати лет, не берется (во всяком случае, пока) за выпуск программного обеспечения по переводу речи в текст.

Описание одной из программ.

Практически вся современная научная фантастика предсказывает нам, что в будущем компьютером и прочими “умными” бытовыми приборами мы будем управлять исключительно голосом. Этот весьма необычный способ управления существует уже сегодня, но вот работоспособен ли он?

Была такая реклама в одном уважаемом компьютерном журнале: с помощью встроенного в ноутбук микрофона в реальном времени осуществлялся захват звука англоязычного блока теленовостей CNN; полученный звуковой поток тут же передавался системе распознавания речи «Горыныч», преобразовывался в электронный текст и отображался в окне WordPad; распознанный англоязычный текст обрабатывался программой-переводчиком «ПРОМТ» и уже на русском языке распечатывался на принтере «для неторопливого чтения в свободное время».

О программе:

«Горыныч Проф 3.0? - собственная разработка российской компании VoiceLock.

«Древние» версии русских «Драконов» - «Комбат» и «Диктограф», представляющие собой простой перевод программы Dragon Dictate, не имеют никакого отношения к современному «Горынычу» - единственной на сегодняшний день полнофункциональной системе распознавания речи, которая кроме английского понимает и русский язык.

Программа имеет два режима: команд и диктовки. Ввод текста возможен в окна любых приложений под Windows. Ожидаемая скорость ввода - 500-700 печатных знаков в минуту. Реализована возможность голосового управления периферийным оборудованием, функциями прикладных программ и операционных систем Windows 98SE/Mе/2000/XP. В основе работы - принцип дикторонезависимости. Программа распространяется на CD компанией «Новый Диск» и стоит $49. Облегченная версия (light) урезана в возможностях, имеет маленькие словари, но позволяет сделать вывод насчет эффективности и к тому же стоит на порядок меньше полной ($4).

Как видите, программа, судя по ее описанию, обещает заманчивую перспективу - отложить в сторону мышь с клавиатурой и просто говорить в микрофон. Компьютер будет выполнять команды и печатать текст в два раза быстрее профессиональной машинистки. Программа поймет голос любого пользователя сразу после установки (раз она дикторонезависимая).

ГОТОВИМСЯ К ВСТРЕЧЕ С «ГОРЫНЫЧЕМ».

Самой распространенной ошибкой при работе с программами речевого восприятия является использование устройств мультимедиа низкого качества.

В результате на форумах, посвященных этим программам, можно увидеть нелестные отзывы вроде: «Поставил я «Горыныча» и снес его через два дня - полнейший отстой, ничего не слышит!». Конечно, не услышит, если пытаться общаться с программой с помощью микрофона за 200 рублей и такой же дешевой звуковой карты.

Распознавание речи - настолько не типовая задача, что решить ее при помощи стандартного оборудования, устанавливаемого по умолчанию на большинство компьютеров, попросту невозможно. Нечего и мечтать о работе с «Горынычем» без гарнитуры вроде “Voice Direct” (наушники с закрепленным на них микрофоном). Эта гарнитура обеспечивает приемлемое качество передачи речи и позволяет минимизировать влияние сторонних фоновых шумов. Не нужно использовать и встроенные (например, в монитор) приемники звука.

НАСТРОЙКА МИКРОФОНА:

«Горыныч» состоит их трех отдельных программных модулей, которые не могут быть запущены одновременно. Собственно, сам «Горыныч Проф 3.0? - это главное окно программы, модули «Настройка словарей» и «Настройка микрофона». Последний модуль необходимо запустить первым - сразу после установки программы. Без этого шага сам «Горыныч» просто не запустится. Настройка микрофона (может быть как ручной, так и автоматической) заключается в произнесении нескольких фраз и, в соответствии с индикаторами, уменьшении или увеличении уровня записи. Один цикл автоматической настройки состоит из двух последовательно проводящихся тестов: шума и сигнала с данными. При тесте шума нужно соблюдать тишину (ничего не говорить в микрофон), поскольку эта часть нужна для определения уровня фонового шума. В тесте сигнала с данными достаточно произнести любую фразу из двух-трех слов. Говорить следует с такой громкостью и интонацией, с какой в дальнейшем вы собираетесь работать с программой.

ИНТЕРФЕЙС «ГОРЫНЫЧА»:

При запуске основного модуля программы открывается главное окно и два вспомогательных окна мониторинга, предназначенных для наблюдения за сигналом с микрофона во время произнесения слов.

В верхнем окне сигнал отображается по мере поступления со звуковой карты. В нижнее окно выводится графическое отображение сказанного слова.

В средней части главного окна расположена панель с основными кнопками управления.

- Кнопка включения и выключения звукозаписи. Важно помнить: перед выходом из программы звукозапись следует выключить.

- Кнопки английского/русского языка - переключают программу в режим использования английских/русских словарей диктовки и команд.

- Кнопка настройки модулей - элементов программы, отвечающих за возможности голосового управления другими программами и некоторыми функциями операционной системы.

- Кнопка прослушивания предыдущего сказанного слова - для контроля качества сигнала с микрофона. Например, если прослушивание сопровождается сильным треском, то это может быть следствием шума при записи звука.

- Кнопка переключения между режимами команд и диктовки.

В процессе работы с программой в главном окне отображается следующая информация:

- описание текущего режима работы;

- заголовок окна, в которое будет выводиться текст в режиме диктовки (этим текстом и будет вестись управление в командном режиме);

- описание текущего состояния звукозаписи;

- текстовое отображение последнего распознанного слова.

НАСТРОЙКА СЛОВАРЕЙ:

«Горыныч» может распознать только те слова, которые имеются в его активном словаре. Каждому элементу такого словаря соответствует его текстовое представление и звуковая модель произношения - как слышится и как пишется. Программа укомплектована словарями диктовки на 5000 слов и словарями команд на 100 слов для каждого из двух языков. В каждом словаре можно заменить (потренировать) слова, уже находящиеся в нем, либо настроить слово под свое произношение. Для контроля записанное слово можно прослушать.

Новые команды станут дикторонезависимыми, если их произнесет и запишет по очереди 15-20 человек.

РЕЖИМ КОМАНД:

«Горыныч» запускается в режиме команд. Остается только включить звукозапись, чтобы эти команды могли быть услышаны, распознаны и выполнены. В окно доступных команд выводится список слов, которые можно сказать в данный момент. Список этих команд изменяется в зависимости от того, что происходит на компьютере. Например, щелчок мыши по Рабочему столу приводит к появлению в этом списке команд, соответствующих подписям под значками: «Блокнот», «Корзина», «Мой компьютер» и другие.

Однако некоторые команды, например, для значков «Книга», «Проигрыватель Windows Media» и The Bat!, не появляются. Оказывается, многие команды отсутствуют в русском словаре команд, и их нужно в него добавить. Но и после этого не все из них будут в списке доступных. Так, из перечисленных выше команд в список добавилась только «Книга».

Причина в следующем: в свойствах модуля запуска ярлыков с Рабочего стола настройки по умолчанию запрещают реакцию программы на команды, состоящие более чем из двух слов, а строка символов для исключения содержит латинские буквы. Если увеличить максимальное количество слов в команде до трех-четырех и убрать в строке ограничений латинские буквы, команды для всех ярлычков появятся в списке доступных. Произнесение команды в микрофон будет равносильно щелчку по соответствующему значку на Рабочем столе.

Так, по команде «Блокнот» откроется текстовый редактор «Блокнот», и в списке доступных появятся команды для активизации его меню. Скомандуете, скажем, «меню» - к командам добавятся действия, возможные для встроенного меню «Блокнота»: «файл», «правка», «поиск», «справка». Нетрудно догадаться, что команда «файл» будет эквивалентна щелчку по этому пункту меню и список команд опять изменится. Используя эти команды, можно выполнять любые действия, как и при работе с мышью (например, открыть какой-то файл и распечатать его на принтере).

Аналогичным образом можно управлять работой отдельных функций операционной системы, большинства приложений и периферийного оборудования. Само собой, все возможные команды должны быть добавлены в словарь команд. Для возможности работы с приложениями, имеющими англоязычные интерфейсы, в настройках соответствующих модулей должны быть сняты ограничения на латинские символы.

К сожалению, программа не выводит команд для запуска приложений из списков кнопки «Пуск» и «Все программы». Запустить что-то из этих перечней можно, лишь перемещаясь по ним с помощью команд управления курсором мыши («вверх», «влево», «вправо», «дальше», «нажать ввод»). Если программ установлено много, голосовая навигация по этим спискам становится неудобной - проще и быстрее сделать это мышью. Добавим, что «Горыныч» не всегда правильно распознает команды, да еще и моментально выполняет то, что услышал - в программе нет режима подтверждения или отмены команды. Вот почему во избежание досадных недоразумений лучше сразу переозвучить весь командный словарь.

Для оценки качества работы программы в командном режиме вычислялся процент правильно распознанных команд от общего количества произнесенных. После десяти попыток выводился усредненный показатель. В командном режиме «Горыныч» сработал довольно сносно - с уровнем распознавания 87%.

ДРЕССИРОВКА «ГОРЫНЫЧА»:

То, что «Горыныч» некоторые слова все же слышит, наводит на мысль, что программа не так уж и безнадежна, как может показаться поначалу. Значит, нужно найти и устранить причины, по которым она не воспринимает другие слова.

Заглянем в русскоязычный словарь диктовки. Оказывается, из 32 слов нашего текста в словаре присутствует всего семь! Да еще точка с запятой. Диктуем только эти семь слов - распознано четыре. Диктуем 50 других слов, имеющихся в словаре, - распознано 32, причем только десять из них с первой попытки. Остальные пришлось повторить от двух до пяти раз.

Вывод: несмотря на дикторонезависимость программы, слова распознаются неуверенно и далеко не на все 100%. Для повышения уровня распознавания необходима тренировка словаря, и оптимальным будет добавление собственных вариантов произношения для всех слов.

После добавления в словарь всех недостающих слов из нашего текста и переозвучивания имеющихся «Горыныч» воспроизвел на экране все продиктованные слова.

Правда, поначалу примерно половину слов пришлось повторять по нескольку раз. В основном это связано с не монотонностью произношения - стоит изменить интонацию, и программа уже вас не слышит. Для решения этой проблемы нужно научиться говорить на манер электронных синтезаторов - спокойно, монотонно и разборчиво. Важно исключить посторонние шумы, придыхание, четко проговаривать окончания слов. Также желательно постоянно находиться на одинаковом расстоянии от микрофона.

К счастью, «Горыныч» способен «привыкать» к голосу пользователя, и чем чаще вы диктуете, тем быстрее это происходит. Главное, после работы с программой не забывать сохранять словари. Однако от запоминания неудачных сеансов (много нераспознанных слов) лучше отказаться, иначе качество распознавания только ухудшится.

Так, десять раз продиктовав «Горынычу» наш текст (каждый раз закрывая программу и сохраняя свои варианты произношения), удалось повысить уровень распознавания до 85%. Однако неуверенность идентификации осталась довольно высокой: 20% слов пришлось повторять дважды, чтобы они хотя бы появились в окне вариантов, и дополнительно 5% всегда выбирались из этого списка.

ОФОРМЛЕНИЕ ТЕКСТА:

Придавать тексту нужный вид в «Горыныче» можно, лишь переключившись в командный режим с использованием голосовой навигации по меню текстового редактора. Делается это неоправданно долго, и гораздо проще оформить текст вручную. То же можно сказать и о перемещении по документу (страница вверх, страница вниз) и по тексту (влево, вправо и т. д.).

Встроенного контроля пунктуации в программе нет, поэтому точки и запятые нужно диктовать в нужном месте. Однако ставить их тоже придется вручную - «Горыныч» почему-то печатает эти знаки препинания отдельно от текста (через пробел). Более того, вместо запятой упорно лепит точку, хотя прекрасно «слышит» этот символ - «,» присутствует в списке вариантов, но при ее выборе все равно появляется точка. За правописанием «Горыныч» не следит - предполагается, что при пополнении словарей вы будете правильно набирать слова. И все же лучше проверить текст средствами программы Word. Добавим, что «Горыныч» все печатает с маленькой буквы - большие нужно вводить с клавиатуры.

Сидеть сложа руки, диктуя «Горынычу» текст, как видите, не получится.

ПОПОЛНЕНИЕ СЛОВАРЯ ДИКТОВКИ:

Напомним, что словарь «Горыныча» запускается в отдельном программном модуле, и для его запуска нужно закрыть главное окно программы. Добавлять таким образом каждое нераспознанное слово (а таких поначалу немало) - не набегаешься. К тому же эти вновь добавляемые слова не сортируются по алфавиту, а валятся в кучу в конец словаря. В результате трудно проверить наличие какого-то слова, поскольку поиск по словарю отсутствует.

Вот почему нераспознанные слова лучше набирать вручную, копировать в отдельный файл, а позже скопом добавлять в словарь - в один сеанс. Важно не допускать появления в словаре дублированных записей (программа допускает их создание). Отслеживать изменение в словаре с анализом новых слов можно разными способами, например с помощью специального макроса для Excel.

Пятитысячный словарь «Горыныча» содержит общеупотребительные слова и, к сожалению, включает далеко не все словоформы, например, существительные только в именительном падеже (адрес, адреса), лишь некоторые формы глаголов (бывает, бывал, бывать) и прилагательные без склонения (высокая, высокий, высокие).


Подобные документы

  • Формат звукового файла wav, способ его кодирования. Реализация возможностей воспроизведения звука в среде программирования MATLAB. Составление функциональной схемы программы. Апробирование информационной технологии воспроизведения звуковых файлов.

    курсовая работа [1,2 M], добавлен 13.02.2016

  • Роль информационно-коммуникационных технологий в совершенствовании образовательного процесса. Структура, содержание и реализация практикума "Подготовка звуковых фрагментов для образовательных ресурсов", методика его использования в учебном процессе.

    дипломная работа [2,8 M], добавлен 11.04.2012

  • Текстовый редактор - приложение для обработки текстовой информации. Описание текстовых процессоров как более совершенных текстовых редакторов. Типы текстовых файлов: форматированные, неформатированные. Основные правила редактирования и набора текста.

    презентация [747,3 K], добавлен 26.11.2010

  • Методы предобработки изображений текстовых символов. Статистические распределения точек. Интегральные преобразования и структурный анализ. Реализация алгоритма распознавания букв. Анализ алгоритмов оптического распознавания символов. Сравнение с эталоном.

    курсовая работа [2,1 M], добавлен 20.09.2014

  • Функциональные характеристики программы форматирования текстовых файлов, требования к ее интерфейсу и данным. Схема взаимодействия компонентов системы, выбор среды исполнения и программная реализация алгоритмов. Тестирование и оценка качества программы.

    курсовая работа [61,1 K], добавлен 25.07.2012

  • Предотвращение несанкционированного распространения информации в текстовых файлах. Разработка подсистемы обнаружения утечки информации с фильтром идентификации текстовых областей в передаваемом потоке данных и их сходства с конфиденциальными данными.

    дипломная работа [1,8 M], добавлен 14.03.2013

  • Описание текстового редактора MS Word, его структура и элементы, функциональные особенности и возможности. Создание списков в текстовом редакторе, вставка объектов в документ, цветовое оформление. Принципы организации рабочего места, его оборудование.

    курсовая работа [2,2 M], добавлен 18.01.2014

  • Возможности Word по созданию и размещению графики в текстовых документах. Вставка объекта, созданного в другом графическом редакторе (Paint, Microsoft Drawing, Paintbrush). Создание растровых и векторных графических объектов. Рисунки из коллекции Clipart.

    лабораторная работа [255,9 K], добавлен 15.11.2010

  • Общие сведения о текстовом редакторе Microsoft Word. Основные операции редактора по работе с документами. Запуск программы, средства редактирования. Ввод и исправление текста, использование буфера обмена, форматирование абзацев, работа со шрифтами.

    контрольная работа [25,5 K], добавлен 12.03.2011

  • Функции текстового редактора как программы для работы с текстом. Использование редактора MS Word в научной деятельности исследователя-ономаста. Технология распознавания текста и организация работы с программой FineReader. Системы распознавания речи.

    реферат [979,3 K], добавлен 16.10.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.