Система голосового управления кабиной лифта

Разработка концепции голосового управления кабиной лифта. Использование технологии распознавания голосовых команд, что позволяет взаимодействовать с панелью управления лифта бесконтактным способом. Разработка алгоритма данной функционирования системы.

Рубрика Коммуникации, связь, цифровые приборы и радиоэлектроника
Вид дипломная работа
Язык русский
Дата добавления 07.12.2019
Размер файла 3,3 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕВЫСШЕГО ОБРАЗОВАНИЯ

«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ

«ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»

МОСКОВСКИЙ ИНСТИТУТ ЭЛЕКТРОНИКИ И МАТЕМАТИКИ

им. А.Н. ТИХОНОВА

Выпускная квалификационная работа

Система голосового управления кабиной лифта

студента образовательной программы бакалавриата

«Инфокоммуникационные технологии и системы связи»

Самойленко Кирилл Аркадьевич, группа БИТ-151

Рецензент ООО «ТиссенКруппЭлеватор»,

Директор филиала «Москва-Сити» М.А. Кулешов

Руководитель к.т.н., доцент департамента электронной инженерии

И.А. Иванов

Москва 2019 г.

Аннотация

Данная работа посвящена разработке концепции голосового управления кабиной лифта. Особенность данной системы заключается в использовании технологии распознавания голосовых команд, что позволяет взаимодействовать с панелью управления лифта бесконтактным способом. В настоящее время, существуют различные способы управления техническими устройствами, в том числе и бесконтактные, однако не многие из них приемлемы и актуальны для использования в кабине лифта. Положительными сторонами предложенной системы являются её потенциальное использование детьми и людьми с инвалидностью, а также повышение степени удобства в бытовом применении. Кроме того, при современном уровне развития технологий производства электронных компонентов появилась возможность проводить процесс обработки и распознавания голосовых команд на достаточно вычислительно мощных и малых по габаритам одноплатных микрокомпьютерах, что существенно упрощает и удешевляет их интеграцию в промышленные и бытовые устройства. В результате проведенной работы была разработана концепция системы голосового управления на базе одноплатного компьютера Raspberry Pi 3.

Abstract

This work is devoted to the development of the concept of voice control of the elevator cabin. The peculiarity of this system is the use of voice recognition technology, which allows you to interact with the elevator control panel contactless. Currently, there are various ways to control technical devices, including contactless, but not many of them are acceptable and relevant for use in the elevator cabin. Positive aspects of the proposed system are its potential use by children and people with disabilities, as well as increasing the degree of convenience in everyday life. In addition, with the current level of development of technologies for the production of electronic components there is an opportunity to carry out the process of processing and recognition of voice commands on fairly powerful and small in size single-board microcomputers, which significantly simplifies and reduces the cost of their integration into industrial and household devices. As a result of this work, the concept of voice control system based on a single-board computer Raspberry Pi 3 was developed.

Оглавление

  • Введение
  • Глава 1. Аналитический обзор
    • 1.1 Исторический вопрос развития технологии
    • 1.2 Алгоритмы, модели и методы распознавания
    • 1.3 Применение систем распознавания голоса
    • 1.4 Погрешности и проблемы распознавания
    • 1.5 Анализ рынка продуктов распознавания голоса
    • 1.6 Анализ современных систем управления лифтом
    • 1.7 Анализ существующих систем голосового управления
    • 1.8 Постановка задачи
  • Глава 2. Разработки системы
    • 2.1 Разработка структурной схемы системы
    • 2.2 Разработка электрической схемы устройства
    • 2.3 Разработка прототипа
    • 2.4 Система распознавания речи CMU PocketSphinx
    • 2.5 Разработка алгоритма функционирования системы
  • Глава 3. Экспериментальная часть
  • Заключение
  • Список литературных источников
    • Приложение 1
    • Введение
    • Развитие технологий изготовления и последующее за этим уменьшение размеров микропроцессоров без ущерба для их вычислительной мощности, а также усовершенствования математического аппарата и исследования в области обработки человеческой речи неизбежно привели к появлению технологии распознавания голоса. Использование данной технологии, поначалу, оставалось введенье только у военных, однако со временем распространилось на игрушки и наконец появилось в массовой промышленности. К тому же, первоначальная точность распознавания и возможный объем словарного запаса системы, находящиеся уже на приемлемом уровне, всё же были не достаточны для массового применения. С появлением на рынке распознавания корпорации Google, обладающей доступностью к огромному массиву данных голосовых запросов и высокопроизводительным облачным дата-центрам, получилось поднять планку точности на более высокий уровень, благодаря усовершенствованным моделям обработки. Следующим важным этапом проникновения этой технологии в обычную жизнь стало её использование в концепции «Умного дома», где важна компактность модулей и возможность работать в автономном режиме. Эта сфера до сих пор активно развивается и находятся всё новые области взаимодействия человека и техники посредством управления голосовыми командами.
    • Таким образом, одной из отличительных черт нашего времени становятся доступные и, в некотором роде, футуристические средства автоматизации бытовых взаимодействий человека и привычных объектов техники и электроники, что не только лишь является расширенной функциональностью, но и знаменует начало нового поколения технических инструментов. Широко известно и изучается выделение этапов в истории развития компьютеров: поколения электронно-вакуумных ламп, затем транзисторов, после чего вступили в промышленность компьютеры на микросхемах и на больших интегральных схемах (БИС). Очевидно, что достижения инженерии тех лет не получили бы столь огромной роли без параллельного развития технологий интеракций, но об их пути в литературе говорится гораздо реже, хотя краткий экскурс в историю вычислительной техники позволяет по аналогии выделить не менее интересные этапы развития. Первоначально, пользователь был вынужден общаться с контроллерами на языке сигналов либо использовать примитивные методы - кнопки, переключатели, ручки, обеспечивающие взаимодействие с системами на физическом уровне. Сложные системы на основе процессоров управлялись машинными кодами (до изобретения ассемблера), данные вводились с перфолент и перфокарт. Такое взаимодействие было медленным, неудобным, но необходимым, даже при наличии терминала с клавиатурой. Революцией стало изобретение периферии, существенно ускоряющей взаимодействие системы «компьютер-пользователь»: компьютерной мыши. Нельзя недооценивать так же тот факт, что совершенствовались языки программирования, и более того - появились операционные системы, что позволило увеличить степень разделения человека и электроники. Наконец, в последнее десятилетие взаимодействия вступили в третий этап развития, становясь все более естественными: жесты, «drag'n'drop», «материальный» интерфейс обрели безусловную популярность именно потому, что близки пользователю, просты и естественны. Итак, из года в год наблюдается совершенствование методов интерфейса. Голосовое управление может быть названо новым, четвертым этапом развития благодаря тому, что оно в максимальной степени естественно и беспрецедентно исключает необходимость в прямом прикосновении к технике. Таким образом, голосовое управление - шаг в закономерном развитии технологий, и лишь вопросом времени является то, когда оно затронет те или иные привычные явления.
    • Целью исследования является разработка системы голосового управления кабиной лифта, приводящей к повышению степени автоматизации.
    • Структура работы разделяется на введение, три главы и заключение.
    • Первая глава содержит в себе аналитический обзор исторического контекста, методов и алгоритмов распознавания, современные системы и их применение, а также интерфейсы взаимодействия с кабиной лифта. Рассмотрев положительные и отрицательных стороны различных систем, алгоритмов и способов взаимодействия были выбраны оптимальные из них.
    • Во второй главе находится описание характеристик и причин выбора электронных компонентов.
    • Третья глава описывает основные пункты разработки, настройки программного обеспечение и операционной системы Raspbian, проектирования макета голосового управления лифтом.

Глава 1. Аналитический обзор

1.1 Исторический вопрос развития технологии

голосовой управление лифт

Историю развития распознавания человеческого голоса стоит начинать с появления первого, записывающего и воспроизводящего устройства - фонографа, изобретенного Томасом Эдисоном в 1877 году. В последствии Эдисон смог улучшить своё изобретение, сделав его менее хрупким и подверженным повреждениям, после чего данное устройство, получившее названии диктофон плотно вошло в жизнь секретарей, врачей и других людей, в работе которых существовала необходимость делать много письменных заметок. Эти исследования обеспечили фундамент для будущих инноваций, однако технологический контекст того времени не позволял ещё несколько десятков лет изобретателям совершить важные прорывы. Следующей важной вехой в развитии технологии была система «Audrey», созданная в 1952 году тремя исследователями из Bell Labs (Stephen Balashek, R. Buddulph, и K. H. Davis) и способная распознать цифры от единственного пользователя, т. е. система была спикер-зависимая, с 90% точностью. Эта система была основана на анализе формант (локальный максимум) в спектре мощностей каждого слова. В ходе тестирования были выявлены некоторые основные проблемы в распознавании речи: голос каждого человека может сильно варьироваться в зависимости от регионального диалекта, скорости, акцента, социального класса и пола. Из этого можно сделать вывод, что масштабирование систем распознавания речи является сложной и нетривиальной задачей. В 1960 году шведский ученный Гуннар Фант опубликовал работу, посвященную модели фильтрации источников производства речи. На основе этой модели строятся многие методы анализа речи, и она также способствует развитию в исследовании восприятия речи. Примерно в это же время советские исследователи изобрели алгоритм динамической трансформации временной шкалы (DTW, dynamic type warping) и использовали его для создания программы распознавания, способной работать со словарем из 200 слов. DTW обрабатывал речь путем разделения ее на короткие кадры, например 10 миллисекундные сегменты, и обработки каждого кадра как единого целого. Хотя DTW будет заменен более современными алгоритмами, эта технология продолжит свое развитие. Однако, вопрос о независимости от ораторов в этот период так и не был решен. Вплоть до 90-х годов даже самые успешные системы базировались на согласовании шаблонов, где звуковые волны переводились в набор цифр и сохранялись. Затем они срабатывали, когда в аппарат поступал идентичный звук. Конечно, это означало, что человек должен был говорить очень четко, медленно и в обстановке без фонового шума, чтобы иметь хорошие шансы на распознавание звуков. Следующей серьезной и важной инновацией стало исследование и развитие машинного обучения и последующее применение скрытой марковской модели (HMM, Hidden Markov Hodel). Введение HMM позволило совместить различные источники знаний, как например синтаксис акустика и язык, в рамках единой вероятностной модели. Следствием этого стало повышение гибкости системы за счет кластеризации данных и прогнозировании приближающихся фонем, основанных на последних моделях. Использование этой модели противоречило убеждениям, что распознавание речи можно получить только посредством моделирования имитаций процессов человеческого мозга, однако эксперименты показали хорошие результаты, позволив расширить количество распознаваемых языков и HMM стал доминирующим алгоритмом распознавания речи в 80-ых годах, обогнав алгоритм DTW. В начале 90-ых словарный запас типичной для коммерческого сегмента системы распознавания насчитывал больше слов чем в лексиконе стандартного человека. Однако, только Радж Редди и Ксуедонг Хуанг из CMU (Carnegie Mellon University) впервые смогли создать систему (Sphinx-II) способную распознавать не только непрерывную речь, но и стать ещё первой спикеро-независимой системой. Главным движущим фактором в 21 веке стало машинное обучение. Как и во многих других направлениях научных исследований, эта технология послужила основой для большинства прорывов в области распознавания речи. Примером успешного применения этой технологии можно представить компанию Google, которая смогла объединить новейшие технологии, метода статистического анализа и мощность облачных вычислительных комплексов для повышения точности алгоритмов машинного обучения, благодаря чему появилась инновационная технология, способная анализировать не только морфемы, но и контекст слов и предложений.

1.2 Алгоритмы, модели и методы распознавания

Чтобы преобразовать речь в текст на экране или компьютерную команду, компьютер должен пройти через несколько сложных этапов. Человек, выдыхая, пропускает воздух через голосовые складки, что приводит к их вибрации и появления звуковых колебаний. Применяя Аналого-цифровой преобразователь (АЦП) можно получить эту аналоговую волну в цифровые варианте, которые компьютер может понять. Для этого данный преобразователь записывает фрагменты или оцифровывается звук, выполняя точные измерения частоты волн с определенной периодичностью. Система фильтрует оцифрованный звук для удаления нежелательных шумов, а иногда и для разделения его на различные полосы частот. Дополнительно система нормализует звук или настраивает его на постоянный уровень громкости. Люди не всегда говорят с одинаковой скоростью, поэтому звук должен быть настроен в соответствии со скоростью шаблонных образцов звука, уже хранящихся в памяти системы. Затем сигнал делится на небольшие сегменты длиной в несколько сотых или даже тысячных долей в случае плотных согласных звуков - звуков, возникающих при блокировке потока воздуха в голосовом тракте - например, "б" или "д". Затем программа сопоставляет эти сегменты с известными фонемами на соответствующем языке. Фонема - это наименьший элемент языка - отображение звуков, которые мы создаем и собираем воедино, чтобы сформировать значимые выражения. В русском языке имеется около 42 фонем (у разных лингвистов разные мнения о точном количестве), в то время как в других языках может быть иное количество. Следующий шаг является наиболее трудным для выполнения и находится в центре внимания большинства исследований в сфере распознавания речи. Программа исследует фонемы в контексте других фонем вокруг них. Он запускает контекстный фонетический блок через сложную статистическую модель и сравнивает его с большой библиотекой известных слов, фраз и предложений. Затем программа определяет, что пользователь, вероятно, говорил, и либо выводит это в виде текста, либо выдает компьютерную команду. В более ранних системах распознавания речи была предпринята попытка применить набор речевых грамматических и синтаксических правил. В том случае, когда произнесенные слова вписываются в определенный набор правил, программа может определить, что это за слова. Однако у человеческого языка есть множество исключений из его собственных правил, даже если на нем постоянно говорят. Акценты, диалекты и манеры могут значительно изменить способ произношения определенных слов или фраз. Системы, основанные на правилах, оказались неэффективными, поскольку они не могли справиться с этими вариациями. Это также объясняет, почему более ранние системы не справлялись с непрерывной речью - каждое слово приходилось произносить отдельно, с небольшим перерывом между ними. Современные системы распознавания речи применяют мощные и сложные системы статистического моделирования. Эти системы используют вероятностные и математические функции для определения наиболее вероятного результата. Сегодня доминируют две модели - Скрытая Марковская модель и нейронные сети. Эти методы включают в себя сложные математические функции, но, фактически, они используют информацию, известную системе, чтобы выяснить скрытую от нее информацию.

На текущий момент наибольшее распространение получила Скрытая модель Маркова. В общем представлении можно представить слово цепочкой из звеньев, где каждое отдельное звено это фонема. Однако цепочка разветвляется в разных направлениях, поскольку программа пытается сопоставить цифровой звук с фонемой, которая, скорее всего, будет следующей. При обработке данная программа присваивает каждой фонеме рейтинг вероятности, основанный на ее встроенном словаре и обучении пользователя. Этот процесс еще более усложняется для фраз и предложений - система должна выяснить, где заканчивается и начинается каждое слово. Статистические системы нуждаются в достаточно большом количестве образцовых данных, чтобы достичь высокой производительности и точности. Иногда требуются с сотни мегабайт записанных образцов человеческой речи и большие объёмы текстовых данных. Однако, даже такой объём позволяет сделать только базовую модель, т. к. для специализированных областей нужен собственный словарь терминов и аббревиатур.

Рисунок 1 - Пример оцифрованного голосового сигнала

На практике, вместо привычным нам фонем, применяются более сложные и комплексные минимальные звуковые блоки - трифоны, особенность которых заключается в индивидуальной контекстной зависимости полученной с помощью скрытой Марковской модели. Задача построения акустической модели - зависимость акустических характеристик речевых сигналов от типа звукового блока - относится к числу наиболее сложных в автоматическом распознавании речи. До недавнего времени алгоритм выглядел примерно таким образом:

· Звуковой сигнал делится на короткие участки (около 10-50 мс);

· Применяется обработка сигнала в частотной области для каждого участка посредством быстрого преобразования Фурье;

· Логарифмирование получаемого спектра (в связи логарифмическим восприятием звуковой шкалы человеческим ухом);

· Применение дискретного косинусного преобразования (ДКП)логарифма спектра для получения кепстральные (практически независимых) коэффициентов;

· Запись кепстральных коэффициентов в виде смеси случайных векторов.

Затем, революционные результаты применения технологии глубокого обучения нашли своё место и в распознавании речи. Использование глубоких нейронных сетей прямого распространения, последовательно обучающихся без учителя от одного слоя к другому, совместно с применением скрытой марковской модели, повысило точно непрерывной и спонтанной речи на десятки процентов. Такой скомбинированный подход получил наибольшее количество реализаций в современной сфере распознавания речи. Отдельным и очень перспективным вектором развития технологий распознавания являются рекуррентные нейронные сети. Их основное достоинство заключается в учете контекста. Такой подход позволяет отойти от ограничений на использование в распознавании только предыдущих слов. Это действительно важная особенность, т. к. на слух распознаются не все слова, и способность машины угадывать пропущенные, на что способен почти любой человек, помогает добиться почти человеческой точности итогового распознавания.

1.3 Применение систем распознавания голоса

Интегрирование технологии распознавании речи началось в начале 90-ых годов прошлого века. Уже тогда она позволила снизить затраты за счет автоматизации некоторых функций и предоставления новых услуг, появление которых было ограниченно из-за невыгодности и неэффективности использования «живых» операторов. В качестве примеров применения этой технологии можно привести следующее:

· Автоматизация справочных систем (АСС). АСС были созданы для оказания помощи операторам в определении телефонных номеров в ответ на запросы клиентов по телефону. Такие системы пока не практичны (из-за похожести названий), но для небольших каталогов такие системы широко используются (например, в корпоративной среде);

· Голосовые системы набора номера. Применялись для голосового набора по имени (так называемый набор по псевдонимам, например, «Позвонить Домой») чтобы клиенты могли выполнять вызовы без нажатия кнопок, связанных с вызываемым номером телефона;

· IVR (Interactive Voice Response, интерактивный голосовой интерфейс). Системы предварительно записанных голосовых сообщений, выполняющая функцию маршрутизации вызовов, несмотря на свои преимущества могут вызывать разочарование и неудобство использования у клиентов компании. Однако есть способ усовершенствовать этот сценарий. Термин "интеллектуальное управление вызовами" (ICS, intelligent call steering) не подразумевает нажатия кнопок. Систем спрашивает клиента, чего он хочет, анализирует ответ, а затем переадресовывает звонок на наиболее подходящий ресурс.

· Автомобильные системы. Как правило, активация происходит простым нажатием кнопки на руле, что позволяет водителя не отвлекаться от дороги, после звукового запроса система переходит в режим "прослушивания", в котором она может принимать входной речевой сигнал для распознавания. Простые голосовые команды могут использоваться для осуществления телефонных звонков, выбора радиостанций или воспроизведения музыки с совместимого смартфона, MP3-плеера или флэш-накопителя с загруженной музыкой. Функции распознавания голоса различаются в зависимости от марки и модели автомобиля. Некоторые из последних моделей автомобилей предлагают естественное распознавание речи вместо фиксированного набора команд, позволяя водителю использовать полные предложения и общие фразы. Таким образом, в таких системах пользователю нет необходимости запоминать набор фиксированных командных слов;

· Медицинская документация. Реализация распознавания речи возможна также в секторе здравоохранения. Например, в процессе медицинского документирования. Существует два способа обработки: фронт-энд распознавание речи - это когда поставщик диктует в движок распознавания речи, распознанные слова отображаются в том виде, в каком они произносятся, а диктатор отвечает за редактирование и подписание документа. А также внутреннее или отложенное распознавание речи - это когда поставщик диктует в цифровой системе диктовки, голос направляется через устройство распознавания речи, а распознанный черновой вариант документа направляется вместе с оригинальным голосовым файлом в редакцию, где проект редактируется и составляется отчет. В настоящее время в отрасли широко используется отложенное распознавание речи;

· Высокопроизводительный истребитель. Значительные усилия в последнее десятилетие были направлены на тестирование и оценку распознавания речи в истребителях. Подобные программы, связанные с различными авиационными платформами, получают развитие в США, Франции, Великобритании. В этих программах распознавание речи успешно используются в истребителях, в том числе для настройки радиочастот, управления системой автопилота, задания координат точки и параметров выпуска оружия, а также управления дисплеем полета.

· Образование и повседневная жизнь. Распознавание речи может быть полезным при изучении иностранного языка: помощь в становлении правильного произношения и в развитии беглости речи. Слепые или слабовидящие учащиеся могут воспользоваться этой технологией для написания, а затем для прослушивания текста для проверки на компьютере, а также использовать компьютер, управляя голосом, вместо того чтобы смотреть на экран и клавиатуру. Учащиеся с ограниченными физическими возможностями или страдающие от повторяющихся деформаций/других травм верхних конечностей могут быть освобождены от необходимости беспокоиться о почерке и написания текста при использовании программы "речь в текст". Они также могут использовать технологию распознавания речи, чтобы свободно пользоваться Интернетом или компьютером дома без необходимости физического управления мышью и клавиатурой. Не стоит также забывать об применении данной технологии в бытовых условиях, Известный концепт «Умный дом» позволяет повысить степень комфорта и автоматизации не только для людей с ограниченными возможностями, но и для детей и их родителей, и пожилых людей. Управления освещением, розетками, бытовыми приборами, медицинскими аппаратами, охранной системой, системами автоматического полива и уборки помещений - это далеко не все автоматизированные системы, контроль которых возможен посредством голосового управления.

1.4 Погрешности и проблемы распознавания

На текущий день любая технология распознавания речи не способна добиться 100% точности, оставляя за собой некоторый процент погрешности. Идеальному распознаванию мешает ряд факторов, устранить которые возможно в той или иной мере:

· Физические

· Математические

· Антропогенные

· Технические.

Одним из главных факторов, мешающих полноценной работе системы, является любой дополнительный шум. Человеческая речь находится примерно на одном уровне громкости с окружающим нас «белым» шумом, что так же затрудняет работу системы. Кроме того, шум может исходить из нескольких источников, может появляться от недостаточно экранированных электронных устройств самой системы, может быть даже частично заглушать человеческий голос (на промышленных предприятиях и т. п.), и даже являться речью другого человека, слова которого также должны быть изолированы от распознавания. Решениями данных проблем является использование более качественных микрофонов, с системами автоматического шумоподавления, проектирование архитектуры помещений с учётом акустического баланса, а также системы, состоящие из нескольких микрофонов, что позволит вычленять и отсекать лишний звуковые сигналы.

К математическим проблемам относится сложность обработки речевого сигнала в контексте других слов и морфем, повышения в геометрический прогрессия объёма обработки, при увеличении количества слов в словаре, а также ограничения при использовании того или иного алгоритма. Например, недостатками распространённого и популярного в системах распознавания алгоритма НММ (СММ) являются следующие особенности:

· Теоретические ограничения самого метода. НММ основан на свойстве Маркова, которое гласит, что вероятность нахождения в данном состоянии в данный момент времени t зависит только от состояния в момент времени t-1. Это не всегда верно в отношении голосовых сигналов, когда зависимости иногда распространяются на несколько состояний;

· Кадры фиксированной длины. Данное требование ограничивает возможности по выделению и извлечению элементов (предварительная обработка). В случае, если длина кадра динамически определяется по переднему краю, то возможность извлечь лучшее отображение существенно повышается;

· Применение метода проб и ошибок при выборе топологии модели. Результаты различных исследований показывают, что архитектура слева направо работает лучше, чем эргодическая. Однако, формального способа принятия решения об архитектуре до сих пор не существует. Отсутствует также и метод определения количества состояний и перестановок, необходимых для модели, наличия альтернативных путей прохождения через модель, универсальной топологии для всех моделей HMM;

· Количество параметров, необходимых для настройки HMM. Для простого, состоящего из четырех состояний HMM с пятью непрерывными каналами потребуется оценить в общей сложности 50 параметров. 40 параметров являются средними и среднеквадратическими отклонениями, которые сами по себе являются агрегированными значениями. В сумме количество необходимых параметров получается достаточно велико, что не позволяет его использовать на низкопроизводительных процессорах;

· Объем данных, необходимых для обучения HMM. В результате большого количества параметров, которые необходимо оценить в типичном наборе НММ, трудно получить большие данные по обучению. Иногда такие методы, как полунепрерывная НММ, кластеризация и интерполяция трифонов успешно используются для улучшения неблагоприятных последствий недостаточной подготовки. Несмотря на эти ограничения, они хорошо работают, когда применяются к определенным видам проблем распознавания речи.

Несмотря на вышеперечисленные недостатки, алгоритм скрытого моделирования Маркова остаётся оптимальным при использованиях в системах с небольшим ограниченным словарём (например, командных слов), благодаря своей универсальности и доступности.

К погрешностям антропогенного характера относится различные особенности человеческой речи. Несмотря на то, что постепенно системы, благодаря обучающим подборкам, становятся всё более универсальными и точность распознавания всё меньше зависит от пола, национальности, возраста и других характеристик человека, спонтанная речь трудно распознаётся из-за различных фальстартов, заиканий, покашливаний, смеха и нечленораздельных звуков (например, «кгхм», «ээээ», «ммм»). Такие «человеческие» особенности затрудняют работу самых точных алгоритмов, поскольку их на данный момент их невозможно точно отделить от остальной речи.

Наименьшую значимость имеют технические факторы, потому как постоянный рост вычислительных мощностей наряду с уменьшением габаритов, позволяет получать достаточную степень точности распознавания даже на не самых производительных смартфонах. Однако, современные системы ещё не способны обеспечить полноценное распознавание непрерывной речи с большим словарём без подключения к облачным сервисам.

Начиная с середины прошлого века, процент, верно, распознанных слов постоянно возрастал, миную различные стадии стагнации. Текущая ситуация такова, что от 100% результатов нас отделяет тонкая, но сложнорешаемая грань.

1.5 Анализ рынка продуктов распознавания голоса

На современном мировом рынке технология распознавания речи является одной из самых перспективных и стремительно развивающихся. На рост инвестиций в эту сферу частично сказался интерес военных, частично массовая популярность голосовых поисковиков, и в некоторой мере различные умные гаджеты. Самыми популярными направлениями, основываясь на данных Tractica, являются:

· Здравоохранение

· Голосовой поиск

· Управление Умным домом

· Безопасность и Аутентификация

Рисунок 2 - Доход от программного обеспечения распознавания речи

Рисунок 3 - Доли мирового рынка распознавания речи в 2017 году

Концепция «Умный дом» входит в более общую идею «Интеллектуального искусственного окружения». Эту концепцию Philips, технологическая компания и группа исследователей, впервые представили более 20 лет назад, и сегодня её можно считать конечной конвергенцией Интернета вещей (IoT) и искусственного интеллекта (AI). Это физическая среда может быть интегрирована с датчиками и интеллектуальными системами, которые знают людей и могут взаимодействовать с ними, постоянно адаптируясь к их потребностям. Ожидается, что к 2020 году количество IoT устройств превысит планку в 20 млрд, к тому же популярные сейчас интуитивно понятные голосовые ассистенты стремительно входят в жизнь всё большего числа людей, что в совокупности приведёт к желанию использовать голосовой интерфейс во всех областях, в том числе и в управление лифтом.

Самыми крупными игроками на мировом рынке распознавания считается Google, Amazon, Apple, Microsoft. Главным образом внимание сосредоточенно на системах с голосовой активацией, например персональных AI ассистентах в телефоне (Сortana, Siri). В российском сегменте лидирующие позиции занимает голосовой помощник «Алиса». Однако постепенно догоняя, раскрывается область и таких многопрофильных систем как Amazon Echo и Google Home, которые уже способны контролировать и взаимодействовать с достаточно обширным набором устройств, подключенных к Интернету. Посредством введение таких технологий в бытовую жизнь, маркетологи повышают степень привыкания к такому способу взаимодействия с девайсами, что уже привело к достаточному большому распространению голосоактивирующих систем среди пожилой части населения.

Несмотря на относительно невысокую стоимость подобных систем (65$ - Amazon Echo), они являются ограниченными и проприетарными системами, что не позволяет расширить спектр их возможностей и достичь более узкопрофильных целей. В этом случае на помощь приходит программное обеспечение (ПО) с открытым исходным кодом. Благодаря своей гибкости и независимости подобное ПО способно подстраиваться под более широкий спектр задач, позволяя применять технологию распознавания речи не только для управления домашними устройствами.

Самыми известными системами распознавания речи с открытом кодом являются HTK, CMU Sphinx (pocketsphinx), Kaldi, Julius, iAtros, RWTH ASR. Результаты проведенного анализа скорости и точности группой исследователей [X], можно увидеть в следующей таблице.

Таблица 1 - Результаты сравнения по точности и скорости

Система

WER, %

WRR, %

SF

HTK

19,8

80,2

1.4

CMU Sphinx

(pocketsphinx/sphinx4)

21.4/22.7

78.6/77.3

0.5/1

Kaldi

6.5

93.5

0.6

Julius

23.1

76.9

1.3

iAtros

16.1

83.9

2.1

RWTH ASR

15.5

84.5

3.8

Где, WER - Word Error Rate, (процент ошибок), WRR - Word Recognition Rate (процент распознанных слов), SF - Speed Factor (скорость распознавания). Рассмотрев данную таблицу, можно увидеть, что лидирующими системами в соотношении скорости-точности являются CMU Sphinx и Caldi. Важными для моего проекта преимуществами CMU Sphinx, в отличии от остальных систем, являются:

· Поддержка распознавания русского языка (единственная среди вышепредложенных систем);

· Распространения под лицензией BSD (Berkeley Software Distribution), что позволяет интегрировать её в коммерческие проекты;

· Предоставление API, которое упрощает налаживание взаимодействия со сторонним приложениями, облегчаю разработку.

1.6 Анализ современных систем управления лифтом

Современные потребности создают современные способы их решения. Некоторые задачи приходят к нам из анализа перспектив будущего, как например «Какой необходим интерфейса управления для 1000-этажного лифта?». Однако, существуют и более актуальные проблемы. Гигиена при использовании кнопок, удобство взаимодействия для детей и людей с ограниченными возможностями, различные уровни доступа для разных групп людей - это далеко не все вопросы, решения, которые заключается в использовании более современных способов взаимодействия с интерфейсом управления лифта. Ниже будут проанализированы некоторые из них.

Стандартная кнопочная панель.

Рисунок 4 - Кнопочная панель управления

Лифт управляемый кнопками появился ещё в конце 19 века, но не смотря на это до сих пор является мировым страндартом. Данна концепция долгок время оставалась неизменной и аккумулировала различные недостатки. Кнопочная панель подразумевает под собой прикосновения к ней пользователя, что не всегда удобно, комфортно и безопасно. Кроме того, все механические детали имеют свойство приходить в негодность со временем, даже при нормальных условиях использования. Увеличение количества этажей или функций лифта приводит к соотвественному увеличению числа кнопок и занимаемой ими площади, что также отрицательно сказывается на удобстве использования. В совокупности это приводит нас к выводу, что такой интерфейс управления хоть и является привычным и для многим интуитивно понятным, всё же явлется устаревшим и требует новых идей.

Управления жестами. Данный способ интересен прежде всего тем, что интерфейс является бесконтактным, что позволяет применять его в местах с повышенными требованиями к стерильности, например в больницах. Информационная и развлекательная составляющая такого способа тоже заслуживает внимания, например, интегрируя этот интерфейс с дополненной реальностью, можно создать живописную инсталляцию в лифтах небоскреба, где пользователи смогут получить некоторые информационные или ознакомительные материалы. В исследовании [8] показано, что показатель интуитивности и удобство для пользователей данной системы, независимо от возраста и степени знаний, достигает более 80%.

Рисунок 5 - Пример интерфейся для жестового управления

Процесс ввода информации (в данном случае это выбор этажа и удержание створок лифта открытыми) в этой системе возможен при помощи следующих технологий:

· Компьютерного зрения;

· Распознавании ближнего электрического поля.

Однако несмотря на все преимущества данной системы, она всё же остается зависимой от местоположения человека в кабине лифта, от возможности человека пользоваться руками, и не способна разграничивать доступ к управлению для различных категорий людей.

Управление голосовыми командами. Применение данного способа взаимодействия с лифтом позволяет сохранить большинство положительных сторон предыдущего, а также добавить независимость от местоположения в кабине и способность к верификации пользователей, т. е. «голосовой пароль», что позволяет разграничить уровень доступа. Типичным недостатком такого подхода является не 100 % точность распознавания и следовательно ошибки при использовании. Решением этого может быть подтверждение ввода команды, активизация по ключевому слову, микрофоны более высокого качества или их дублирование, а также методы распознавания, учитывающие влияние шумной окружающей среды.

При реализации этой системы возможно настроить систему таким образом, что она будет верифицировать (идентифицировать) человека по его голосу ещё на походе к лифту или по кодовой фразе и анализирую свою внутреннюю память запускать лифт на заранее настроенный пользователем этаж. Дополнительно способом использования будет настройка названий определенных компаний на заранее заданный этаж, что позволит посетителям бизнес центров проходить сразу в лифт (и вместо этажа называть фирму), миную стойку администраторов.

Анализ современной ситуации показывает, что основная часть российского рынка распознавания речи применяется в области обработки телефонных разговоров и голосового поиска. Системы «Умного дома» и «Интеллектуального окружения» имеет пока небольшую долю рынка, что связанно с сильными иностранными конкурентами из США и Китая, однако уже существует качественные отечественные аналоги. Особенностью проектируемого устройства управления кабиной лифта является дешевая электронная составляющая, гибкое программное обеспечение с открытым кодом и компактность конечного устройства.

1.7 Анализ существующих систем голосового управления

Как показало исследование возможных решений схожего типа, каждое обладает теми или иными недостатками.

Японская Компания Mitsubishi Electric представило свой активирующийся голосом лифт ещё в 2011 году, и значительно упростила его пользование для людей с ограниченными возможностями, добавив две важные функции в свой пользовательский интерфейс лифта.

Новая система обладала функцией распознавания голоса, чтобы незрячие пользователи могли говорить номер этажа, к которому им нужно доехать, а лифт делает объявление при достижении этого этажа. Система также имела датчик снаружи лифта, который обнаруживал инвалидные коляски (в пределах 30 см от датчика). При обнаружении инвалидной коляски автоматически включалась система распознавания голоса (что означает, что человеку с ограниченными возможностями не приходилось сталкиваться с проблемой нажатия высоких кнопок или обращаться за помощью к кому-либо другому). Однако, возможно, такой акцент на людей с инвалидностью, который не позволяет использовать эту систему другим людям (например, людям с занятыми вещами руками), локализация только на одном языке, а также необходимость вручную активировать голосовое распознавания, привёл к тому, что информации о выходе на глобальный рынок подобной системы до сих пор нет.

Более современным и простым решением является использования модуля HM2007, предложенным в статье [5], представляющего собой однокристальный модуль распознавания голоса CMOS. Это встроенная в чип аналоговая интегральная схема с процессами анализа голоса, распознавания речи и распознавания голоса. HM2007 может работать в двух режимах: ручной режим и режим управления процессором.

Рисунок 6 - Модуль распознавания HM2007

В ручном режиме работы модуль распознавания голоса HM2007 используется для построения простой системы распознавания голоса путем подключения таких компонентов, как клавиатура, памяти SRAM (объемом 8 Кбайт) и другие компоненты. В режиме управления процессором в этом режиме предусмотрено несколько функций, таких как RECOG, TRAIN, RESULT, UPLOAD, DOWNLOAD, RESET модуля распознавания голоса HM2007. Подобно ручному режиму работы, в этом режиме также выполняются операции включения, распознавания, обучения, загрузки, загрузки, скачивания и сброса настроек, основанные на различных критериях.

Положительными сторонами системы, основанной на данном модуле, являются простота обучения распознаваемых команд, компактные размеры платы и низкое энергопотребление. Однако, ограниченное число памяти (позволяющая запомнить только коротких 15 слов), потребность близкого контакта при настройке (при любом обновлении словаря, нужно будет доставать плату из корпуса), а также зависимость от спикера и невозможность более тонкой и гибкой настройки, делают данный модуль неприменимым для многих проектов (например, ограничение объема словарного запаса команд даёт ограничения на количество этажей в доме).

Суммируя недостатки вышеперечисленных систем, решение, предлагаемое в данной работе, должна быть более гибкой в настройках, с возможностью бесконтактной удаленной настройки, обладать русской локализацией, поддерживать большой словарный запас, быть спикеро-независемой, активируемой по голосу, доступной и малогабаритной. Исходя их этих критериев и требований будет подобрана элементная база и программное обеспечение.

1.8 Постановка задачи

Проведенный анализ информационных и литературных источников, а также маркетинговых исследований показывает, что на данный момент не существует бюджетных систем управления кабиной лифта, в которых бы применялся интуитивный и простой способ управления с помощью голосовых команд. Зачастую современным решениям не хватает гибкости, объёма словаря распознавания и возможностям встраивать дополнительный функционал.

Таким образом, тема выпускной квалификационной работы, решающей описанные проблемы является актуальной.

Целью данной дипломной работы является повышение комфортности и доступности управления лифтом для людей с ограниченными возможностями. Для это были поставлены следующие задачи:

· Анализ предметной области;

· Разработка структурной схемы системы управления лифтом;

· Разработка принципиальной электрической схемы устройства;

· Разработка прототипа;

· Разработка алгоритма функционирования.

2. Разработки системы

2.1 Разработка структурной схемы системы

Рисунок 7 - Структурная схема система

Рисунок 7 иллюстрирует структуру системы голосового управления лифтом. Анализирую поступающие с микрофона звуковые сигналы с помощью алгоритма Виттерби и Скрытой Модели Маркова, утилита Pocketsphinx сравнивает полученные данные с заданным словарем и грамматическими конструкциями. После чего, в случае успешного распознавания, передаёт строку в созданный с помощью языка программирования Python скрипт, который управляет работой двигателя. В зависимости от полученной команды «лифт» будет подниматься или опускаться до определенного уровня. Регулирую работу GPIO выходов на Raspberry Pi 3, этот скрипт через модуль управления будет регулировать вращение двигателя. В заданный для распознавания словарь входят следующие слова: номера этаже и дополнительные команды. Дополнительные слова (не относящиеся к номеру этажа) необходимы для лучшего распознавания и отсеивания неправильных результатов с помощью грамматического конструирования предложения.

Так мощностей микроконтолеров не хватает для обработки и распознования было принято решение использовать одноплатный компьютер.

Для разработки и дальнейшего проектирования макета будет использован Raspberry Pi 3.

Данный одноплатный компьютер, основанный на 64-битном процессоре Broadcom 2873 ARMv8, имеет достаточно большую вычислительную мощность, учитывая компактные размеры, сравнимые с кредитной картой. Благодаря 4-х ядерному микропроцессору Cortex-A53 64-bit SoC @ 1.4GHz, на базе подобного устройства появилась возможность запускать «тяжелые» вычислительные процессы для технологии распознавания речи. Данный одноплатный компьютер содержит несколько электронных компонентов, которые будут перечислены ниже.

1. Broadcom BCM2387 микрочип, специально созданный для этой модели, объединяющий 1.2GHz четырёх-ядерный ARM Cortex-A53 (с 32 Кбит Level 1 и 512Кбит Level 2 кэш-памятью) и VideoCore IV графический процессор, связанный с модулем памяти 1GB LPDDR2 на задней панели платы.

Рисунок 8 - Broadcom BCM2387 микрочип

2. Микросхема SMSC LAN9514 отвечает за подключение 10/100 Ethernet и четырёх USB каналов на плате. Микросхема SMSC подключается к вычислительному процессору через один USB-канал, действуя в качестве USB-to-Ethernet адаптера и USB-концентратора.

Рисунок 9 - Микросхема SMSC LAN9514

3. Антенна - отвечает за беспроводной соединение по Wi-Fi (802.11bgn) и Bluetooth 4.1 (Bluetooth Classic and LE)

Рисунок 10 - Блок антенны

4. GPIO входы/выходы - представляют собой свободные цифровые сигнальные выводы на интегральной схеме или электронной плате, поведение которых, в том числе в качестве входа или выхода, контролируется пользователем во время работы. Они позволяют добавлять различные электронные компоненты и модули, расширяя тем самым возможности платы.

Рисунок 11 - GPIO разъёмы

Данный микрокомпьютер управляется посредством операционной системы Raspbian Stretch, оптимизированной для низкопроизводительных ARM процессоров линейки Raspberry Pi. Unix подобные системы очень эффективно используют виртуальную память, поэтому многие программы могут работать со скромным объемом физической памяти. Богатый набор небольших команд и утилит, которые хорошо справляются с конкретными задачами, не перегруженный множеством специальных опций - является ещё одним фактором выбора этой операционной системы.

Рисунок 12 - Физическое представления Raspberry Pi 3

2.2 Разработка электрической схемы устройства

Рисунок 13 - Принципиальная электрическая схема

На рисунке 13 представлена интеграция микрокомпьютера Raspberry Pi 3 в электрическую схему кнопочного управления. При распознавании определенного этажа, на GPIO выходы А1-А5 будет подавать логическая единица, которая замкнет определенной ключ в схеме

2.3 Разработка прототипа

Для прототипа данной системы, кроме Raspberry Pi? потребуется микрофон, который будет принимать звуковые сигналы для распознавания. Основываясь на том, что на данной плате нет отдельного аудиовхода, было решено использовать USB-микрофон eBerry с возможностью изменения чувствительности, что может уменьшить количество ошибочных срабатываний, тем самым повышая точность распознавания.

Рисунок 13 - USB-микрофон eBerry

Для иллюстрации работы прототипа будет использован шаговый двигатель 28BYJJ-48 является широко используемым шаговым двигателем, который преобразует электрические импульсы в дискретное механическое вращение. Двигатель состоит из 4 катушек, которые образуют кольцо вокруг ротора. Эти катушки известны как статор, так как они стационарны и стационарны. Каждая катушка рассчитана на +5 В, что позволяет легко управлять ею с помощью любого микроконтроллера, например, Raspberry.

Рисунок 14 - Шаговый двигатель 28BYJJ-48

ULN2003 является одной из наиболее распространенных ИС (интегральных схем) для управления приводом двигателя, которая содержит массив из 7 пар транзисторов Дарлингтона, каждый из которых способен управлять нагрузками до 500мА и 50В. По сути, пара Дарлингтонских транзисторов представляет собой пару транзисторов, где второй транзистор усиливает выходной ток первого транзистора. Как показано на схеме ниже, плата драйвера ULN2003 состоит из ULN2003, припаянной к плате, вместе с резисторами, конденсаторами, которые помогают создать схему, которая принимает импульсы от контроллера и преобразует их в движение шагового двигателя.

Рисунок 15 - Схема подключения ULN2003 к двигателю

На рисунке 12 отображена схематичная 3D модель макета, выполненная в программе Fusion 360.

Рисунок 16 - 3D-схема макета

Для выполнения экспериментальной части с помощью программы DipTrace была собрана принципиальная схема прототипа.

Рисунок 17 - Принципиальная схема прототипа в DipTrace

2.4 Система распознавания речи CMU PocketSphinx

Основываясь на результатах анализа (приведенного в главе 1.5), для данной работы была выбрана система СMU Sphinx версии 5prealpha. Написанная на языке программирования С, PocketSphix (разработанная для ARM процессоров) имеет самую быструю скорость распознавания среди подобных решений с открытым кодом. Для извлечения признаков система использует Мел-кепстральные коэффициенты (MFCC), акустическое моделирование происходит с использованием улучшенного алгоритма НММ. Так же данная система позволяет использовать программное шумоподавление и настроить ключевое слово, которое будет переводить программу из фонового режима в активный, тем самым позволяя исключить ложные срабатывания.

2.5 Разработка алгоритма функционирования системы

Рисунок 16 - Алгоритм функционирования системы голосового управления

Рисунок 16 представляет собой разработанный алгоритм функционирования системы распознавания речи, с помощью которого можно проектировать интеграцию в различные лифтовые системы.

GPIO - интерфейсы ввода, вывода на Raspberry Pi 3, через которые подаётся управляющий сигнал.

3. Экспериментальная часть

Подготовка ПО и настройка Raspberry Pi 3

Одноплатный компьютер на основе микроархитектуры ARM Cortex-A53 поддерживает различные операционные системы (Debian, Ubuntu, Android, Windows 10 IOT и другие), однако самой стабильной и наилучше адаптированной к этой микроархитектуре является Raspbian. Для её установки требуется записать образ на карту памяти (MicroSD). Для беспроводного взаимодействия с устройством настраиваем протоколы SSH и VNC, которые позволят нам подключиться к Raspberry Pi3 через Wi-Fi адаптер. VNC - это графическая система совместного использования рабочего стола, использующая протокол Remote Frame Buffer Protocol (RFB) для удаленного управления другим компьютером. Он передает события с клавиатуры и мыши с одного компьютера на другой, передавая обновления графического экрана обратно в другом направлении по сети.

Следующим шагом является установка пакета исходного кода Spinxbase и утилиты для распознавания речи PocketSphinx:

Для распознавания требуется акустическая языковая модель, статистическая языковая модель и словарь. Данная система, в стандартной версии, использует английскую языковую модель, однако, благодаря тому, что этот проект распространяется с открытым исходным кодом, существует возможность встраивать альтернативные фонетические модели, в то числе и русского языка. В любом языке, помимо фонетики, существует ещё грамматика, позволяющая лучше структурировать речь. В процессе распознавания речи применение грамматических правил позволяет отсекать лишние слова, упрощать работу программы и повышать процент верных результатов. Так как для управления лифтом отсутствует необходимость создавать большой словарь и есть возможность использовать заранее продуманную структуру предложений, то в данному случае можно воспользоваться Java Speech Grammar Format (JSGF). Это BNF-формат, платформенно-независимое и не зависящее от производителя текстовое представление грамматики для использования при распознавании речи. Грамматическая конструкция, построенная для управления лифтом, проиллюстрирована в приложении 2.


Подобные документы

  • Разработка системы управления электроприводом пассажирского лифта на 5 остановок на базе программируемого контроллера S7-200 фирмы "SIEMENS SIMATIC". Выбор автоматических выключателей и магнитных пускателей. Алгоритмы управления движением лифта.

    курсовая работа [364,5 K], добавлен 15.10.2012

  • Проектирование структуры системы управления электроприводом лифта. Анализ измерительных средств и методов получения информации от объекта. Выбор количества и типов входных и выходных информационных каналов. Разработка структуры информационного канала.

    курсовая работа [2,4 M], добавлен 28.09.2010

  • Основные функции конструктивных элементов пассажирского лифта, принцип и структурная схема его работы. Характеристика релейной и микропроцессорной станций управления. Преимущества разрабатываемого устройства, реализация его режимов управления лифтом.

    дипломная работа [1014,2 K], добавлен 25.04.2013

  • Цифровая обработка сигналов и ее использование в системах распознавания речи, дискретные сигналы и методы их преобразования, основы цифровой фильтрации. Реализация систем распознавания речи, гомоморфная обработка речи, интерфейс записи и воспроизведения.

    дипломная работа [1,1 M], добавлен 10.06.2010

  • Состояние проблемы автоматического распознавания речи. Обзор устройств чтения аудио сигналов. Архитектура системы управления периферийными устройствами. Схема управления электрическими устройствами. Принципиальная схема включения электрических устройств.

    дипломная работа [1,1 M], добавлен 18.10.2011

  • Выбор системы электропривода и типоразмера электродвигателя. Выбор силового оборудования и расчет параметров электропривода. Синтез системы автоматического управления. Анализ статических показателей, динамики электропривода. Расчет узлов ограничений.

    курсовая работа [1,0 M], добавлен 13.01.2016

  • Разработка алгоритма управления и расчёт параметров устройств управления: моделирование процессов управления, определение и оценка показателей качества, разработка принципиальной электрической схемы и выбор датчиков управления элементами электропривода.

    курсовая работа [1,5 M], добавлен 05.01.2010

  • Формирование статических механических характеристик электропривода с целью стабилизации скорости. Система непрерывного управления скоростью. Определение структуры и параметров объекта управления, разработка алгоритма. Конструкция блока управления.

    курсовая работа [1,6 M], добавлен 29.07.2009

  • Разработка контроллера управления цифровой частью системы, перечень выполняемых команд. Описание алгоритма работы устройства, его структурная организация. Синтез принципиальной электрической схемы, особенности аппаратных затрат и потребляемой мощности.

    курсовая работа [318,8 K], добавлен 14.06.2011

  • Описание алгоритма работы и разработка структурной схемы микропроцессорной системы управления. Разработка принципиальной схемы. Подключение микроконтроллера, ввод цифровых и аналоговых сигналов. Разработка блок-схемы алгоритма главной программы.

    курсовая работа [3,3 M], добавлен 26.06.2016

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.