Метод детектирования движения губ человека в видеопотоке
Разработка метода детектирования движений контура губ человека в видеопотоке с использованием камеры Microsoft Kinect. Поиск точек контура губ на изображении. Описание основных шагов метода детектирования простых движений губ человека в видеопотоке.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 06.05.2018 |
Размер файла | 480,0 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
МЕТОД ДЕТЕКТИРОВАНИЯ ДВИЖЕНИЯ ГУБ ЧЕЛОВЕКА В ВИДЕОПОТОКЕ
Бирюков С. А.,
Розалиев В.Л.,
Орлова Ю. А.
Современные методы выделения нужной информации из видеопотока для распознавания речи недостаточно точны. На распознавание сильно влияет качество камеры, освещенность, угол наклона или поворота головы говорящего. Поэтому разработчики методов и инструментов в данной области стараются создать универсальные, устойчивые к изменению вышеперечисленных условий, алгоритмов и методов, позволяющих достаточно точно выделить губы из видеопотока и проанализировать их движения.
В качестве источника информации для распознавания движений губ может использоваться положение контрольных точек контура губ или лица в целом. В работах [1, 2] представленные способы получения контрольных точек контура.
Некоторые исследователи не используют информацию о контрольных точках контура [3]. В качестве входной информации для анализа может служить прямоугольная область губ.
У каждого способа есть свои положительные и отрицательные стороны. В первом случае требуется провести больше вычислительных затрат на моменте поиска контура губ. Во втором случае требуется произвести больше вычислений для обработки области губ, для извлечения неких признаков, которые в последствии поддаются анализу.
В данной работе производится поиск точек контура губ на изображении и последующий анализ движения.
Данную задачу можно разделить на 2 крупных этапа. Первый этап - выделение точек контура на изображении. Второй этап - анализ положения точек и распознавание движения.
Распознавание точек контура губ
Для решения проблемы выделения контура губ использовалась камера Microsoft Kinect. Она позволяет в режиме реального времени определять 121 ключевую точку лица человека, из которых 10 контрольных точек внешнего контура губ и 8 внутреннего. Камера специально создавалась для управления компьютерными играми, что говорит о высокой скорости работы камеры и предоставляемых библиотечных методах. [4, 5]
Так же, использование камеры Kinect позволяет в задаче распознавания контура губ повысить точность распознавания, т.к. библиотечные методы используют для определения положения точек контура карту глубины и цветное изображение.
В результате распознавания, на данном этапе, определяются 10 точек внешнего контура губ. Нумерация точек контура в методе представлена на рисунке 1.
Рис. 1 - Нумерация точек в предложенном методе
Анализ положения точек
Во время активности, человек не может статично держать голову, и поэтому координаты положения контрольных точек могу меняться даже если не производится никаких действий губами. Для решения этой проблемы можно дополнительно локализовать положение головы в кадре и производить вычисления изменения координат в пределах полученной области, но это приводит к дополнительным вычислительным ресурсам системы.
В данной работе для решения проблемы предлагается отказаться от статической системы координат. Если соединить ключевые точки уголков губ и среднюю верхнюю и нижнюю точки (точки 0-5 и 1-9, рис. 1), то получится новая система координат, начало координат которой перемещается вместе с остальными точками. Относительно данной системы можно однозначно сказать, как изменилось положение точки в пространстве. Схематический пример динамической системы координат представлен на рисунке 2а. Пример полученной системы представлен на рисунке 2б.
Рис. 2 - Динамическая система координат: а) схематический пример; б) результат
После вычисления положения начала координат требуется определить изменение положения точек. Вычисление координат точек контура в новой системе иногда сильно влияет на производительность метода, поэтому было решено использовать изменение длины отрезка, началом которого является точка начала координат новой системы, а концом - ключевая точка контура.
Так же, в результате экспериментов было выявлено, что для определения движения не требуется вычислять значение изменения длины отрезка для верхних левой и правой точек (точки 4 и 6, рис. 1), т.к. однозначно можно утверждать изменение длины для центральной верхней точки.
Вычисление производится один раз за каждый кадр, начиная со второго входного кадра видеопотока. После определения изменений формируется строка, в которой отражается изменение размера каждого отрезка. Для положительного изменения используется символ «+», для отрицательного - «-». Для исключения погрешности работы камеры, если изменение размеры меньше определенного значения - записывается «0». Получается строка из 8ми символов вида «+-+-+++-++», которая поддается дальнейшему анализу.
Анализ движения
Анализ выглядит следующим образом. Существует заранее сформированный набор возможных действий. При получении информации об изменении размеров всех интересующих отрезков производится сравнение произошедшего действия с действием из списка. Для этого просто сравниваются отношения количества совпавших символов строки действия из набора и выходной строки к общему количеству символов строки. Во время вычисления сразу определяется максимальное значение отношения. Действие, которое имеет наибольший процент совпадений и будет наиболее вероятным произошедшим действием. Т.к. производится сравнение изменения положения точек между двумя кадрами, количество возможных действий сильно ограниченно. А именно это закрытие и открытие рта. Если рот открывается, то размер отрезков всех точек будет увеличиваться, и выходная строчка будет иметь наибольшее количество «+». Если рот закрывается, то в выходной строчке будут преобладать «-». Если же в данный момент не происходит никаких действий, или изменение размеров не велико, тогда либо губы находятся в статическом положении, либо производится последнее действие, но с достаточно медленной скоростью. То есть, если рот открывался, то при преобладании «0» в выходной строке, вероятно он либо открыт, либо все еще открывается.
Результаты
В результате работы был получен эффективный метод, позволяющий определять простые действия губ в видеопотоке, получаемого с камеры Microsoft Kinect. Метод достаточно устойчив, в основном благодаря камере, к освещению и дополнительным помехам на лице (очки, борода или усы). Но процесс обнаружения лица при плохом освещении может занять большее время, чем при нормальном, дневном свете.
Скорость работы метода позволяет обрабатывать видеопоток в реальном времени. С камеры получается видеопоток с разрешением 640х480 пикселей и частотой 30 кадров в секунду. При этом, во время работы метода, не наблюдается прерывание потока.
Точность распознавания очень сильно зависит от двух критериев: точности обнаружения контрольных точек и точности определения изменения положения точек. Точность обнаружения контрольных точек достаточно хорошая. Особенностью работы библиотек Kineсt в том, что точки контура губ обнаруживаются относительно других контрольных точек головы.
Но основным недостатком метода является то, что производится определение только простых движения. Для определения более сложных действий, например - определения произносимых букв, требуется анализ большего количества кадров с использованием более сложных алгоритмов анализа.
детектирование движение губа видеопоток
Литература
1. Самойлов Д. С. Биотехническая система распознавания фонем русской речи по изображению губ // Молодежный научно-технический вестник: электронный журнал URL: http://sntbul.bmstu.ru/doc/467494.html
2. Ковшов Е. Е. Система обработки движения губ человека для речевого ввода информации / Е.Е. Ковшов, Т.А. Завистовская // Cloud of science. - 2014. - т. 1, №2. - С. 279 - 291.
3. Zhao, G., Local Spatiotemporal Descriptors for Visual Recognition of Spoken Phrases / Z. Guoying, M. Pietikainen, A.Hadid // Proceedings of the international workshop on Human-centered multimedia. - 2007. - P. 57 - 66.
4. Face Tracking [Электронный ресурс] - Режим доступа: https://msdn.microsoft.com/en-us/library/jj130970.aspx
5. Kinect [Электронный ресурс] - 2016 - Режим доступа: https://en.wikipedia.org/wiki/Kinect
Размещено на Allbest.ru
Подобные документы
Искусственная нейронная сеть - математическая модель, представляющая собой систему соединённых, взаимодействующих между собой нейронов. Методы детектирования движения в видеопотоке. Обзор инструментальных средств для разработки программного продукта.
дипломная работа [2,0 M], добавлен 06.06.2017Понятие визуальной системы ввода информации, ее сущность и особенности, место и роль в современном развитии интерфейсов между человеком и компьютером. Развитие технологии автоматического обнаружения и распознавания лица, контуров губ в видеопотоке.
научная работа [94,3 K], добавлен 29.01.2009Алгоритмы поиска динамических шумов и их компенсации на основе метода Motion estimation. Разработка программного продукта для детектирования движения капель дождя и их удаления на видеопоследовательностях, и его реализация среде Microsoft Visual Studio.
магистерская работа [6,6 M], добавлен 09.02.2013Описание среды разработки Microsoft Visual Studio. Поддерживаемые технологии и языки программирования. Возможности и особенности компьютеризированного тестирования человека. Проектирование программного обеспечения с использованием объектного подхода.
курсовая работа [3,0 M], добавлен 09.02.2013Разработка структурной схемы руки человека. Методика определения коэффициента сервиса и координат точек ориентации. Разработка метода многомерной оптимизации для решения обратной задачи кинематики. Программная реализация определения коэффициента сервиса.
дипломная работа [1,2 M], добавлен 15.06.2013Задача локализации проекции шаблона на изображении. Свойства биномиального распределения. Определение проекций опорных точек в области локализации. Понижение разрешения и дифференцирование локализованного изображения. Поиск вероятных приближенных решений.
дипломная работа [3,5 M], добавлен 06.11.2011Методики обнаружения и лечения трудноудаляемых программ для сбора конфиденциальной информации. Тестирование популярных AntiSpyware-программ для Windows. Исследования эффективности выявления вредоносного ПО с применением эвристического детектирования.
дипломная работа [1,1 M], добавлен 21.01.2015Анализ систем распознавания поведения лабораторных мышей. Классификация движений на основе построенных дескрипторов. Существующие методы обнаружения движения, разработка соответствующего программного обеспечения и оценка его эффективности, функции.
дипломная работа [1,1 M], добавлен 16.09.2017Решение задачи на тему максимизации функций многих переменных. Описание метода дихотомии, его применение для решения нелинейных уравнений. Решение данной задачи с использованием метода покоординатного спуска. Составление алгоритмов, листинг программы.
курсовая работа [138,5 K], добавлен 01.10.2009Сущность и описание симплекс-метода и улучшенного симплекс-метода (метода обратной матрицы), преимущества и недостатки их применения в линейном прогаммировании. Листинг и блок-схема программы на языке Turbo Pascal для решения математической задачи.
курсовая работа [45,0 K], добавлен 30.03.2009