Оценка эмоционального состояния кинозрителя
Разработка нового способа получения семантических метаданных аудиовизуального контента. Распознавание эмоционального профиля зрителя программой FaceReader во время просмотра кинофильма. Оценка эмоционального состояния кинозрителей разных возрастов.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 30.09.2017 |
Размер файла | 6,9 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Аннотация
Объектом исследования является новый способ получения семантических метаданных аудиовизуального контента. Этот способ основывается на распознавании эмоционального профиля зрителя программой FaceReader во время просмотра кинофильма. Цель данной работы заключается в нахождении корреляции между семантическими метаданными, полученными с помощью программы FaceReader, и прогнозами, составленными профессиональными аналитиками для одного и того же кинофильма. В процессе работы были проведены эксперименты с двумя группами школьников разных возрастов. В результате экспериментов была обнаружена прямая связь между семантическими метаданными, полученными в автоматическом режиме, и составленными вручную аналитиками. Предполагаемый подход к получению семантических метаданных позволит создавать различные версии компактных представлений кинофильмов для разных групп зрителей.
Содержание
Введение
Глава 1
1.1 Важность и назначение семантических метаданных
1.2 MPEG-7. Стандарт описания аудиовизуального контента
1.2.1 Контекст MPEG-7
1.2.2 Цель MPEG-7
1.2.3 Область применения MPEG-7
1.3 Получение семантических метаданных методом, основанным на взаимодействии с группами зрителей
1.3.1 Создание субъективных семантических метаданных
1.3.2 Группы пользователей и получение семантических метаданных
1.3.3 Проводимы эксперименты
1.4 EmotionSpot: мониторинг зрительских предпочтений
1.4.1 Мониторинг эмоций зрителя
1.4.2 Классификация эмоций
1.4.3 Архитектура системы
1.5 Выводы
Глава 2
2.1. Оценка эмоционального состояния кинозрителя по изображению лица
2.2. Распознавание эмоционального профиля человека
2.3. Системная архитектура
2.4. Эксперименты
2.5. Выводы
Глава 3
3.1 Экономическое обоснование ВКР. Постановка задачи
3.2 Определение себестоимости НИР
3.3 Расчет затрат на приобретение основных материалов
3.4 Транспортные расходы
3.5 Монтаж оборудования
3.6. Заработная плата
3.7. Начисления на фонд оплаты труда
3.8 Затраты на электропотребление
3.9 Затраты на накладные расходы
3.10 Расчет себестоимости НИР
3.11 Выводы
Заключение
Список литературы
Введение
эмоциональный кинозритель facereader аудиовизуальный
С каждой секундой в Интернете появляется все больше и больше аудиовизуальной информации. Появляется все больше различных телеканалов, телепередач и новых кинофильмов. Все это усложняет поиск необходимой и интересной нам информации. Семантические метаданные являются наиболее полезными в таких ситуациях. Обычно они создаются профессиональными аналитиками в процессе кропотливой работы. В данной ВКР рассматриваются различные способы извлечения семантических метаданных аудиовизуального контента. Но все они имеют ряд своих недостатков. Целью данной ВКР является разработка инновационного способа получения таких данных, который исключал бы недостатки ранее предположенных способов, с использованием современных программных средств и последних технологий.
Такой способ был разработан. В его основе лежит распознавание человеческих эмоций по изображению лица во время просмотра аудиовизуальной информации. Невербальное взаимодействие зрителя с анализатором не отвлекает зрителя от потребления контента и не требует от него каких-либо действий, что является несомненным преимуществом такого подхода.
Для получения практических результатов были проведены эксперименты. Было установлено, что распределение эмоций человека во время просмотра фильма дают компактное представление о содержании фильма и ключевых моментах. Было доказано, что разная возрастная аудитория различно реагирует на один и тот же контент. Это позволяет составлять качественную персональную подборку контента по результатам эмоциональных оценок зрителя. По результатам эксперимента также было выявлено соответствие между эмоциональными результатами аудитории, полученными в автоматическом режиме, и сюжетной формой, составленной профессиональным аналитиком.
Результаты проведенных исследований имеют огромное значение для автоматизации многих процессов в различных средах, например, информационных, развлекательных или рекламных, и привлечения внимания широкой общественности к киноархивам, являющихся кинематографической памятью человечества.
Глава 1
1.1 Важность и назначение семантических метаданных
Огромное количество аудио-визуальной информации стало доступно в цифровой форме, в виде цифровых архивов, во всемирной паутине. Стало появляться возрастающее количество различных телеканалов и телепередач. Это приводит к затруднительному поиску аудиовизуальной информации, которая может быть интересна или полезна зрителю. Значение информации часто зависит оттого, насколько ее легко найти, извлечь, отфильтровать и управлять.
Тенденция очевидна. В ближайшие несколько лет, пользователи столкнутся с таким большим числом мультимедийных материалов, предоставляемых разными провайдерами, что эффективный доступ к этому почти бесконечному материалу представляется трудно вообразимым. Несмотря на тот факт, что пользователи имеют увеличивающиеся ресурсы, управление ими становится все более сложной задачей, из-за их объема. В настоящее время существуют сервисы, которые позволяют искать текстовую информацию. Для достижения конкурентного преимущества, эти сервисы должны переходить от сбора и обработки текстовых данных к сбору и управлению информацией об аудиовизуальных архивных материалах. Хранилище метаданных высокого класса является ключом у управлению этими данными. Это может улучшить качество аудиовизуального контента, обеспечивая должное представление об его содержимом. Другими словами необходимо делать упор на извлечение информации (быстрый и эффективный поиск для различных типов мультимедийных документов, представляющих интерес для пользователя) и фильтрацию потоков описаний аудиовизуального материала (чтобы получить только те элементы мультимедиа данных, которые удовлетворяют предпочтениям пользователя). Например, программа во время телепередачи запускает соответствующим образом программируемый VCR, чтобы записать эту программу, или сенсор изображения выдает предупреждение, когда происходит определенное событие.
Семантические метаданные являются наиболее ценными для пользователей, которые хотят получить необходимую информацию. Они составляют необходимое представление о содержании контента, позволяют экономить время на поиске и обработке нужной информации.
1.2 MPEG-7. Стандарт описания аудиовизуального контента
1.2.1 Контекст MPEG-7
MPEG-7 является стандартом ISO/IEC, разработанным MPEG (Moving Picture Experts Group), комитетом, который разработал стандарты MPEG-1, MPEG-2 и MPEG-4. Стандарты MPEG-1 и MPEG-2 сделали возможным интерактивное видео на CD-ROM и цифровое телевидение. Стандарт MPEG-4 предоставляет стандартизованные технологические элементы, позволяющие интеграцию парадигм производства, рассылки и доступа к содержимому в области цифрового телевидения, интерактивной графики и интерактивного мультимедиа.
MPEG-7 формально называется “Мультимедиа-интерфейс для описания содержимого” (Multimedia Content Description Interface), он имеет целью стандартизовать описание мультимедийного материала, поддерживающего некоторый уровень интерпретации смысла информации, которая может быть передана для обработки. Стандарт MPEG-7 не ориентирован на какое-то конкретное приложение, он стандартизует некоторые элементы, которые рассчитаны на поддержку как можно более широкого круга приложений.
MPEG-7 предлагает полный набор аудиовизуальных средств описания, которые образуют базис для приложений, делая возможным высококачественный доступ к мультимедийному материалу, что предполагает хорошие решения для записи, идентификации материала, обеспечения прав собственности, и быстрой, эргономичной, точной целевой фильтрации, поиска.
1.2.2 Цель MPEG-7
В октябре 1996, группа MPEG начала разработку проблем, рассмотренных выше. Новым элементом семейства MPEG стал интерфейс описаний мультмедийного материала, называемый “Multimedia Content Description Interface”, целью которого явилась стандартизация базовых технологий, позволяющих описание аудио-визуальных данных в рамках мультимедийной среды.
Аудиовизуальный материал MPEG-7 может включать в себя: статические изображения, графику, 3D модели, звук, голос, видео и композитную информацию о том, как эти элементы комбинируются при мультимедийной презентации. В особых случаях этих общих видов данных сюда может включаться выражения лица и частные характеристики личности.
MPEG-7, как и другие объекты семейства MPEG, предоставляют стандартное представление аудио-визуальных данных, удовлетворяющих определенным требованиям. Одной из функций стандарта MPEG-7 является обеспечение ссылок на определенные части мультимедийного материала. Например, дескриптор формы, используемый в MPEG-4, может оказаться полезным в контексте MPEG-7, точно также Это может относиться к полям вектора перемещения, используемым в MPEG-1 и MPEG-2.
Так как описательные характеристики должны иметь смысл в контексте приложения, они будут различными для разных приложений. Это подразумевает, что один и тот же материал может быть описан различным образом в зависимости от конкретного приложения. Возьмем в качестве примера визуальный материал: нижним уровнем абстракции будет описание, например, формы, размера, текстуры, цвета, движения (траектории) и позиции ("где на сцене может размещаться объект"). А для аудио: ключ, тональность, темп, вариации темпа, положение в звуковом пространстве. Высшим уровнем представления будет семантическая информация: "Это сцена с лающей коричневой собакой слева и голубым мячом, падающим справа, с фоновым звуком проезжающих авто".
Уровень абстракции относится к способу выделения определенных характеристик: многие характеристики нижнего уровня могут быть выделены полностью автоматически, в то время как характеристики высокого уровня требуют большего взаимодействия с человеком.
Во многих случаях будет желательно использовать для описания текстовые данные. Необходимо позаботиться о том, чтобы полезность описаний была независима по возможности от языка. Хорошим примером текстуального описания является указания авторов, названия фильма и пр.
Следовательно, средства MPEG-7 позволят формировать описания материала, который может содержать:
• Информацию, описывающую процессы создания и производства материала (директор, заголовок, короткометражный игровой фильм)
• Информацию, относящуюся к использованию материала (указатели авторского права, история использования, расписание вещания)
• Информация о характеристиках записи материала (формат записи, кодирование)
• Структурная информация о пространственных, временных или пространственно-временных компонентах материала (разрезы сцены, сегментация областей, отслеживание перемещения областей)
• Информация о характеристиках материала нижнего уровня (цвета, текстуры, тембры звука, описание мелодии)
• Концептуальная информация о реальном содержании материала (объекты и события, взаимодействие объектов)
• Информация о том, как эффективно просматривать материал (конспекты, вариации, пространственные и частотные субдиапазоны, ...)
• Информация о собрании объектов.
• Информация о взаимодействии пользователя с материалом (предпочтения пользователя, история использования)
Все эти описания являются, конечно, эффективно закодированными для поиска, отбора и т.д.
Чтобы удовлетворить этому многообразию дополнительных описаний материала, MPEG-7 осуществляет описание материала с нескольких точек зрения. Наборы средств описаний, разработанные с учетом этих точек зрения, представляются в виде отдельных объектов. Однако они взаимосвязаны и могут комбинироваться множеством способов. В зависимости от приложения, некоторые будут присутствовать, а другие отсутствовать, а могут присутствовать лишь частично.
Описание, сформированное с помощью средств MPEG-7, будет ассоциировано с самим материалом, чтобы позволить быстрый и эффективный поиск и фильтрацию материала, представляющего интерес для пользователя.
MPEG-7 относится ко многим различным приложениям в самых разных средах. Этот стандарт должен обеспечивать гибкую и масштабируемую схему описания аудио-визуальных данных. Следовательно, MPEG-7 не определяет монолитную систему описания материала, а предлагает набор методов и средств для различных подходов описания аудио-визуального материала.
1.2.3 Область применения MPEG-7
Элементы, которые стандартизует MPEG-7, будут поддерживать широкий диапазон приложений (например, мультимедийные цифровые библиотеки, выбор широковещательного медийного материала, мультимедийное редактирование, домашние устройства для развлечений и т.д.).
Это станет применимо для огромных архивов, которые станут доступны для широкой публики. Информация, используемая для извлечения материала, может также применяться агентами для отбора и фильтрации широковещательного материала или целевой рекламы. Кроме того, описания MPEG-7 позволят быстрые и эффективные с точки зрения затрат полуавтоматические презентации и редактирование.
Все области применения, базирующиеся на мультимедиа, выиграют от использования MPEG-7. Ниже предлагается список возможных приложений MPEG-7:
• Архитектура, недвижимость и интерьерный дизайн (например, поиск идей)
• Выбор широковещательного медийного канала (например, радио, TV)
• Услуги в сфере культуры (исторические музеи, картинные галереи и т.д.)
• Цифровые библиотеки (например, каталоги изображений, музыкальные словари, биомедицинские каталоги изображений, фильмы, видео и радио архивы)
• E-коммерция (например, целевая реклама, каталоги реального времени, каталоги электронных магазинов)
• Образование (например, депозитарии мультимедийных курсов, мультимедийный поиск дополнительных материалов)
• Домашние развлечения (например, системы управления личной мультимедийной коллекцией, включая манипуляцию содержимым, например, редактирование домашнего видео, поиск игр, караоке)
• Исследовательские услуги (например, распознавание человеческих особенностей, экспертизы)
• Журнализм (например, поиск речей определенного политика, используя его имя, его голос или его лицо)
• Мультимедийные службы каталогов (например, Желтые страницы, туристская информация, географические информационные системы
• Мультимедийное редактирование (например, персональная электронная служба новостей, персональная медийная среда для творческой деятельности)
• Удаленное опознавание (например, картография, экология, управление природными ресурсами)
• Осуществление покупок (например, поиск одежды, которая вам нравится)
• Надзор (например, управление движением, транспортом, неразрушающий контроль в агрессивной среде)
Все вышесказанное делает стандарт MPEG-7 уникальным инструментом для описания аудиовизуального контента с помощью метаданных, но в тоже время на него не налагаются какие-либо методы извлечения особенностей содержимого контента.
1.3 Получение семантических метаданных методом, основанным на взаимодействии с группами зрителей
1.3.1 Создание субъективных семантических метаданных
Для того, чтобы в полной мере использовать возможности стандартов, описывающих аудиовизуальный контент, автоматическое создание метаданных будет чрезвычайно полезный. Однако, автоматическое извлечение особенностей объекта, а также создание семантических метаданных не всегда возможно.
Семантические метаданные обычно создаются профессиональными аналитиками в достаточно трудоемком рабочем процессе. Эта работа очень дорогостоящая и занимает значительное время. Семантический Оценочный Метод (The Semantic Score Method) может быть использован для выявления сюжетной формы программы или фильма, основываясь на теории Фрейтага. Согласно этому способу, действие фильма или программы может быть представлено в графическом виде. Оценщики фильма должны интерпретировать все происходящее в фильме и все поступающие драматические инциденты в простые численные значения, так называемые Семантические Единицы, с точки зрения усложнения/разрешения сюжета. Горизонтальная ось графика соответствует времени, вертикальная соответствует сложности. В полученной на графике фигуре отражается, так называемый, «Треугольник Фрейтага». Левая сторона треугольника показывает нарастания действий, которые приводят к кульминации или поворотным событиям, в то время, как правая часть показывает развязку действий, которая приводит к концу сюжета.
Семантический Оценочный Метод является эффективным инструментом для описания фильмов и ТВ-программ, но составление такого описание занимает большое количество времени. Этот метод является нецелесообразным, если необходимо получить семантические метаданные для многих профилей пользователей.
Рис. 1 График отображения действия фильма или ТВ-программы («Треугольник Фрейтага»)
Для создания семантических метаданных в таких случаях предлагается подход, основанный на сборе и систематизации субъективной оценки контента, получаемой от пользователей в реальном времени. Различные пользователи c разным происхождением, образованием, профессиями, полом, возрастом, интересами будут проводить исследования просматриваемых программ и фильмов. С точки зрения пользователя это исследование является обычным действием тщательного изучения аудиовизуального контента. Время от времени, пользователя просят оценить программу, используя шкалу, приведенную выше.
Пользователи могут осуществлять оценку всего фильма, отдельного эпизода или сцены, а также поминутное оценивание какого-либо контента.
1.3.2 Группы пользователей и получение семантических метаданных
Пользователи, которые имеют схожее происхождение, образование, интересы будут объединяться в пользовательские группы. Система управления архивными метаданными получает данные от пользователей и делает статистический анализ, создает таблицы предпочтений для всех пользователей, для профилей различных пользователей и для различных групп пользователей. Это означает, что эмоциональная информация фактической аудитории пользователей может быть собранная в архивном хранилище метаданных.
Кооперативное взаимодействие архива и пользователей приводит к семантическому наполнению метаданных. Эти данные формируются в виде электронного документа, который представляет собой результат семантического сжатия контента. Конечно, деятельность пользователя, связанная с наполнением метаданных, должна осуществляться в соответствии с соглашением, достигнутым между архивом и пользователем. Необходимая оценка аудиовизуального контента архивных материалов должна быть частью соглашения и может рассматриваться, как определенная плата за доступ к архивным материалам.
Предложенный подход может быть реализован с использованием специализированного программного обеспечения, работающем на персональном компьютере или ресивере цифрового ТВ.
1.3.3 Проводимые эксперименты
Для подтверждения работоспособности вышеописанного метода получения семантических метаданных был проведен эксперимент. Цель эксперимента заключалась в оценке эмоционального напряжения, вызванного особыми моментами фильма и выборе ключевых кадров тех моментов. В эксперименте принимали участие 70 человек из различных возрастных групп (школьники, студенты, взрослые (профессиональные аналитики)).
Зрителям предлагалось дать положительное или отрицательное значение (Семантический Балл) каждому событию в фильме в соответствии со шкалой усложнение/разрешение. Семантическому Баллу присваивалось значение от -10 до 10 с шагом 1. Это число было положительным в случаи усложнения и отрицательным в случаи разрешения сюжета. С самого начала происходит накопление Семантических Баллов, что свидетельствует о усложнении сюжета фильма с каждым новым моментом и действием. Семантические Баллы могут быть использованы для визуализации сюжетной формы фильма.
Рис. 2 Сюжетная форма фильма «А Ну Отвали!», составленная профессиональными аналитиками
Сюжетная форма для небольшого фильма «А Ну Отвали!», составленная профессиональными аналитиками, представлена на Рис. 2. Можно отметить, что ее форма характеризуется большей нелинейностью и зазубренностью, чем на Рис. 1. Эта форма использовалась, как ориентировочная для других сюжетных форм, составленных не экспертными зрителями.
Результаты оценки того же фильма, полученные 6-ю студентами, которые в будущем будут режиссерами кино и операторами, представлены на Рис. 3.
Рис. 3 Сюжетная форма фильма «А Ну Отвали!», составленная студентами, будущими кинематографистами
Самое заметное отличие, это максимальное пиковое значение. Это означает, что нормированный график относительно их максимального пикового значения является полезным инструментом, который позволяет сравнивать различные сюжетные формы фильма. Нормированная сюжетная форма, полученная студентами, показана на Рис. 4.
Рис. 4 Нормированная сюжетная форма фильма «А Ну Отвали!», составленная студентами, будущими кинематографистами
Результаты оценки того же фильма, полученные школьниками, представлены на Рис. 5.
Рис. 5 Нормированная сюжетная форма фильма «А Ну Отвали!», полученная школьниками
Как можно было и ожидать, отклонение оценки намного больше, чем в случаи со студентами.
Можно отметить, что нормированные сюжетные формы, составленные студентами и школьниками, являются слегка линейными и не содержат каких-либо деталей, которые можно заметить на Рис. 2. Тем не менее, линии на рисунках 2, 4 и 5 имеют общую форму. Сравнить сюжетные формы, составленные студентами и школьниками, с ориентировочной сюжетной формой с Рис. 2. позволяет коэффициент корреляции Пирсона. Этот коэффициент равен 0,87 в случаи со студентами и 0,73 в случаи со школьниками. Это довольно высокое значение.
Рис. 6 Сравнение сюжетных форм, полученных школьниками, студентами и профессиональными аналитиками
Результаты полученных экспериментов подтверждают, что пользователи разных возрастов, с разным образованием, происхождение и интересами могут составлять семантические метаданные, которые отражали бы их эмоциональное напряжение во время просмотра фильма.
Недостатком этого метода может служить то, что придется уделять некоторое время на объяснение принципа работы. Сложная теория может быть понятна не каждому зрителю. Ввести такой способ сбора метаданных в массы будет весьма затруднительно. Многим он может показаться неудобным и возможно будет отвергнут широкой аудиторией.
1.4 EmotionSpot: Мониторинг зрительских предпочтений
1.4.1 Мониторинг эмоций зрителя
Вышеупомянутый метод получения семантических метаданных позволяет строить сюжетные формы фильмов. Он позволяет оценивать эмоциональное напряжение зрителя во время просмотра. Но по этим сюжетным формам трудно оценить субъективную оценку и предпочтения зрителя. Для этих целей необходимо производить мониторинг зрительских предпочтений.
Широкое использование Интернет сервисов и социальных сетей обеспечило появление нового «социального» метода для генерирования семантических метаданных, которые позволяют оценить отношение пользователя к контенту. Имеет смысл упомянуть несколько таких примеров: кнопка «Like», используемая в социальной сети Facebook, и кнопки «Like/Dislike» на видеохостинге YouTube. Пользователь с помощью этих кнопок может оценивать контент, влиять на рейтинг и впоследствии получать индивидуальную подборку аудиовизуальной информации.
На этом развитие в данном направлении не останавливается. Предполагается еще один инновационный метод для мониторинга зрительских предпочтений. В отличии от существующих подходов, связанных с оценкой всего контента, этот метод основывается на регистрации эмоций зрителя во время потребления контента. Каждая эмоция пользователя ассоциируется с соответствующим эпизодом контента. Таблица «время контента/эмоция» дополняет семантические метаданные контента. Эмоциональные профили зрителей создаются анализированием таких таблиц и уже существующими семантическими метаданными. Каждый профиль описывает предпочтения соответствующего пользователя. Такой метод может использоваться с существующими потребительскими девайсами и не предполагает установку дополнительного оборудования. Также этот метод совместим с любым типом контента.
1.4.2 Классификация эмоций
Эмоции составляют ядро предполагаемого подхода. Поэтому необходимо определить набор эмоциональных оценок, которые соответствовали бы эмоциям пользователя. Такие эмоциональные оценки должны быть понятны пользователю и позволять им выражать свое текущее эмоциональное состояние. Кроме того, чтобы сохранить систему простой в использовании, количество эмоциональных оценок должно быть достаточно небольшим.
Имеет смысл рассмотреть классификации эмоций для того, чтобы получить набор эмоциональных оценок. Проблема классификации эмоций очень сложна и не имеет единственного практического решения.
Есть много различных теорий. Пол Экман, исходя из выражений лица, выбрал следующие основные эмоции: гнев, отвращение, страх, счастье, печаль и удивление. Рене Декарт в одной из своих работ выбрал следующие основные эмоции: изумление, любовь, ненависть, страсть, радость и печаль. Роберт Платчик совместил базовые и производные эмоции в одну модель, чтобы создать так называемое колесо эмоций от восьми биполярных эмоций: радость против печали, гнев против страха, доверие против отвращения и удивление против ожидания. Все эти эмоции могут быть выражены с различной интенсивностью. Колесо эмоций показано на Рис.7.
Рис. 7 Колесо эмоций
Эмоциональные оценки создаются в соответствии с базовыми эмоциями. Любая поддерживаемая теория классификации эмоций может быть выбрана для создания набора эмоциональных оценок.
Процесс идентификации эмоциональных оценок должен быть простым и интуитивно понятным для пользователей. Это является одним из основных критериев выбора соответствующего набора базовых эмоций. «Нравится/не нравится» система оценки, которая широко применяется в Интернет-сервисах и хорошо знакома большинству веб-пользователей. Поэтому для предложенного подхода была выбрана двумерная система (нравится/не нравится и степень возбуждения) эмоционального пространства. Кроме того, данная модель была расширена дополнительными эмоциями (интерес и скука), чтобы получить более выразительные эмоциональные характеристики.
Большой набор эмоций может быть использован для создания более детальной и точной эмоциональной картины. Но в тоже время это может запутать пользователя при выборе между несколькими схожими эмоциями.
Проведенные эксперименты стали тому подтверждением. Пользователи предпочитают четкое разделение набора возможных вариантов для выбора. Пользователю трудно было сделать выбор из более чем 6-и основных эмоций. Упомянутые выше наборы из 2-х или 4-х основных эмоции представляют собой оптимальные варианты для классификации.
1.4.3 Архитектура системы
Предполагаемый метод заключается в использовании двух главных компонентов: сервер и клиент. Сервер отвечает за управление метаданными контента, сбор всех эмоциональных оценок пользователей и за анализ всех этих данных при составлении эмоциональных профилей пользователей. Клиент реализуется, как программное обеспечение, установленное на один из потребительских устройств: смартфон, планшет или смарт-ТВ. Аудитория использует эти клиенты для выражения их эмоций с помощью эмоциональных оценок во время потребления контента.
Для этих целей был разработан универсальный клиент. Этот тип клиента реализован в виде мобильного приложения для операционных систем портативных устройств (IOS, Android, BlackBerry, Java ME и т.д.) и установлен на соответствующие устройства.
Универсальный клиент применим к любому типу контента. Приложением можно пользоваться во время потребления различного контента: во время просмотра фильма или ТВ программы, прослушивания музыки и т.д. Очевидное ограничение такого клиента заключается в предварительном выборе потребляемого контента в приложении клиента.
Пользовательский интерфейс может быть упрощен на устройствах с сенсорным экраном. Вместо кнопок люди могут использовать жесты (пролистывание и т.д.) для ввода соответствующей эмоциональной оценки без особого внимания к экрану устройства.
Рис. 8 Окно инструкции
Рисунок 8 демонстрирует окно инструкции универсального клиента. Он состоит из четырех основных эмоции (нравится, не нравится, радость и скука) соответствующих четырем главным направлениям (вверх, вниз, вправо, влево). Таким образом, взаимодействие с пользователем довольно простое: чтобы выразить эмоцию нужно просто провести пальцем в соответствующем направлении.
Предложенный метод может быть использован для создания эмоциональных профилей аудитории. Анализ этих профилей позволяет отслеживать предпочтения зрителей. Метод предоставляет качественную характеристику потребления контента и отвечает на вопрос «Как данный контент был воспринят?». Кроме этого, он не подразумевает использование дополнительного оборудования.
Этот метод не ограничивается фильмами или музыкой. Любой контент может быть оценен таким способом.
Социальные аспекты для этого подхода имеют решающее значение для его успеха. Интеграция в социальные сервисы и рекомендация системы играет важную роль в ее принятии. Такая платформа может быть очень полезна для распространителей контента: она повышает удовлетворенность пользователей и увеличивает время, проведенное на соответствующем сервисе.
1.5 Выводы
· Семантические метаданные являются наиболее ценными для пользователей при поиске нужной им информации. Они составляют необходимое представление о содержании контента, позволяют экономить время на поиске и обработке нужной информации.
· Для описание аудиовизуального контента с помощью метаданных уже разработан специальный стандарт MPEG-7. Он позволяет кодировать и хранить метаданные в файле, но в тоже время он не подразумевает какого-либо способа извлечения семантических метаданных.
· Ручное составление семантических метаданных является эффективным способом получения сюжетных форм кинофильмов, но сам процесс является довольно сложным и кропотливым, что не позволяет внедрить его в массовое использование.
· Мониторинг предпочтений пользователей с помощью приложения, которое позволяет оценить эмоциональное состояние зрителя, является одним из предпочтительных инструментов для сбора семантических метаданных. Несмотря на свою простоту, такой метод может работать с двумя или четырьмя эмоциями, и это является существенным недостатком и ограничением.
· Исходя из вышесказанного, можно заключить, что в данном направлении необходимо разработать метод извлечения семантических метаданных пользователей в полностью автоматическом режиме и с более подробными и точными характеристиками эмоционального профиля зрителя.
Глава 2
2.1 Оценка эмоционального состояния кинозрителя по изображению лица
Основываясь на ранее проведенных исследованиях, и проанализировав различные способы извлечения семантических метаданных зрителей, можно заключить, что такие метаданные имеют огромную пользу, как для потребителей контента, так и для его поставщиков, но в тоже время нет такого подхода для получения этих данных, который мог бы быть принят широкой аудиторией. Необходим подход, который бы требовал от пользователя минимального количества действий, и никаким образом не отвлекал бы его от потребления контента. Такой инновационный подход рассмотрен в данной главе.
Новый способ извлечения семантических метаданных и создание эмоциональной оценки контента основан на невербальном взаимодействии со зрителем. С точки зрения невербальной психологии, очень ценным источником информации является мимика лица человека. По ней мы можем определить, какие эмоции испытывает человек (гнев, страх, грусть, горе, отвращение, радость, удовлетворение, удивление, презрение), а также силу их проявления.
Зачастую, человек даже не в состоянии контролировать свою мимику. Так называемые, микровыражения непроизвольно появляются на лице человека, пытающегося скрыть или подавить эмоцию. Микровыражения появляются независимо от желания и отражают настоящее отношение человека к происходящему.
Из этого следует, что лицо человека является лучшим объектом для извлечения семантических метаданных невербальным способом.
Новый подход заключается в захвате изображения лица кинозрителя во время просмотра фильма, с последующим анализом и получением эмоциональной оценки содержимого этого фильма.
2.2 Распознавание эмоционального профиля человека
Автоматическое распознавание эмоций человека в реальном времени является ядром текущего подхода. Современные программы позволяют нам это осуществить.
Аппаратно-программный комплекс FaceReader разработан специально для автоматического анализа эмоций человека, и который может быть использован для реализации представленного метода сбора семантических метаданных.
Принцип работы комплекса FaceReader состоит из трех основных действий:
1) Обнаружение лица в кадре изображения, используя существующие для этого алгоритмы.
2) Разбиение изображение лица на 500 ключевых точек.
3) Анализ положения ключевых точек и идентификация эмоции.
Рис. 9 Принцип работы программы FaceReader
Программа позволяет оценивать 7 различных состояний лица человека:
1) Счастье
2) Грусть
3) Злость
4) Удивление
5) Страх
6) Отвращение
7) Презрение
Программа выдает информацию в различных удобных представлениях:
Рис. 10 Текущее распределение эмоций
Рис. 11 Итоговое распределение эмоций
Рис. 12 Валентность эмоций (указывает, положительные или отрицательные эмоции испытывает человек в настоящий момент)
FaceReader является уникальным инструментом для анализа текущего состояния человека по изображению его лица. Опыты и исследования, проведенные с помощью этой программы, позволяют делать новые открытия в различных областях науки.
2.3 Системная архитектура
Предполагаемы метод будет реализован в виде отдельного сервиса. Его система заключается в использовании трех главных компонентов: сервер, клиент и веб-камера. Сервер отвечает за управление контентными метаданными, сбор всех эмоциональных оценок пользователей и анализ всех этих данных для создания эмоциональных профилей зрителей. Клиент реализуется, как отдельная программа, которую можно установить на ноутбук, стационарный ПК, планшет или смарт-ТВ. Также можно предложить вариант интегрировать клиент в существующие интернет сервисы (YouTube, онлайн-кинотеатра и т.д.). Через клиент и веб-камеру происходит регистрация пользовательских эмоций во время потребления контента, и отправка этих данных на сервер для дальнейшей обработки.
Работа такой системы состоит из нескольких этапов:
1) Клиент с помощью веб-камеры распознает эмоции зрителя во время просмотра какого-либо контента.
2) Клиент отправляет полученные результаты на сервер.
3) Сервер обрабатывает все полученные метаданные и составляет эмоциональную оценку данному контенту.
Такой подход может быть очень удобен для многих сервисов, связанных с хранением и распространением аудиовизуального контента. На базе такого подхода можно создать онлайн-кинотеатр (онлайн-ТВ), в котором оценка фильма (ТВ-программы) будет формироваться на основании проявленных зрителем эмоций во время просмотра. На таком сервисе пользователи могли бы заводить персональные странички (профили), указывать на ней необходимую информацию для более удобного анализирования аудитории. Сервис позволил бы более детальный мониторинг зрительской аудитории. Подбор контента для пользователя основывался бы на его возрастной категории, на его предпочтениях, интересах и т.п.
2.4 Эксперименты
Эксперименты были проведены для проверки предложенного подхода. Цель эксперимента заключалась в автоматической оценке эмоционального состояния кинозрителя по изображению лица во время просмотра короткого фильма, чтобы выявить ключевые моменты того фильма, на которые зритель реагировал наиболее активно, и попытаться соотнести их с сюжетной формой, составленной вручную профессиональными аналитиками.
В эксперименте принимали участие 24 школьника из разных возрастных категорий (5 и 8 классы). Всем участникам были показаны одинаковые фильмы, в качестве которых были выбраны два эпизода видеожурнала «Ералаш».
Первый фильм был показан с целью выявить эмоциональное напряжение зрителей разных возрастов во время его просмотра. На рисунках 13, 14 и 15 можно увидеть результаты этого эксперимента.
Рис. 13 Эмоции учеников 8-го класса во время просмотра фильма «Третий»
В данном эксперименте для мониторинга были выбраны только две эмоции (положительная «Happy» и негативная «Disgusted») из восьми возможных состояний. Как видно из рисунков 13 и 14, положительная эмоция намного превышает негативную, что соответствует жанру показанного фильма.
Рис. 14 Эмоции учеников 5-го класса во время просмотра фильма «Третий»
Для удобства сравнения эмоционального состояния школьников, положительную эмоцию каждого класса представили на одном рисунке (Рис.15).
Рис. 15 Эмоция «Happy» учеников 5 и 8 классов во время просмотра фильма «Третий»
Как видно из Рис.15, реакция на большинство ключевых моментов фильма совпадает, как у учеников 5 класса, так и 8-го. Отличается лишь степень реагирования. Ученики 5 класса реагировали на каждый смешной момент фильма и более активно, чем ученики 8 класса, по причине того, что показанный фильм был ориентирован на более юную аудиторию, что и подтвердили результаты данного эксперимента. Очевиднее всего это проявилось в концовке фильма, где реакция 5 класса достигла пикового значения, а реакция 8 класса практически не проявилась.
Второй фильм был показан для сравнения эмоционального профиля зрителей с сюжетной формой фильма, составленной профессиональным аналитиком. Сюжетная форма фильма представлена на Рис. 16.
Рис. 16 Сюжетная форма фильма «А Ну Отвали!», составленная профессиональным аналитиком
Сюжетная форма получена Семантическим Оценочным Методом, который был описан в первой главе. Этот график показывает эмоциональное напряжение/разряжение сюжета фильма.
На Рис. 17, 18 и 19 отражены результаты того же фильма, полученные с помощью программы-анализатора. В данном эксперименте оценивались три эмоциональных состояния зрителя: положительное «Happy», негативное «Disgusted» и удивленное «Surprised». Третья эмоция необходима для оценки неожиданной развязки фильма.
Рис. 17. Эмоции учеников 8-го класса во время просмотра фильма «А Ну Отвали!»
В момент основного действия, состояние удивления учеников 8 класса имеет практически постоянное значение (отклоняется приблизительно в пределах 0,025 от среднего значения), а в конце фильма происходит заметный спад этой эмоции, что свидетельствует о предсказуемости сюжета для лиц их возраста. Негативная эмоция по прежнему имеет незначительную величину, что соответствует жанру фильма.
Рис. 18 Эмоции учеников 5-го класса во время просмотра фильма «А Ну Отвали!»
Ученики 5 класса продемонстрировали более ожидаемые результаты. Если сравнить результат с сюжетной формой составленной вручную профессиональным аналитиком, то моменты возрастания/убывания эмоционального напряжения очень близки по времени друг-с-другом. Также можно отметить активность эмоции «Удивление» на развязке фильма. Она имеет существенный всплеск в момент кульминации сюжета.
Совмещенный график, представленный на Рис. 19 демонстрирует отличия восприятия фильма разными возрастными группами.
Рис. 19 Эмоция «Happy» учеников 5 и 8 классов во время просмотра фильма «А Ну Отвали!»
Здесь хорошо видно субъективное восприятие контента различными возрастными группами зрителей и подтверждение объективной оценки, составленной профессиональным аналитиком.
2.5 Выводы
· Проанализировав различные способы извлечения семантических метаданных, можно заключить, что на данный момент нет более эффективного и удобного способа, чем оценка эмоционального состояния кинозрителя по изображению лица.
· Проведенные эксперименты подтвердили, что зрители различных возрастных групп будут по разному реагировать на те или иные ключевые моменты какого-либо контента.
· Проведенные эксперименты также подтвердили объективную оценку контента, составленную профессиональным аналитиком, для возрастной группы, на которую был ориентирован этот контент.
Глава 3
3.1 Экономическое обоснование ВКР. Постановка задачи
Данная выпускная квалификационная работа посвящена исследованию новому инновационному способу получения семантических метаданных кинозрителя. В ходе данных исследований проводился показ небольшого фильма группе учащихся школ разных возрастов, с последующим анализом их эмоций во время просмотра фильма, с помощью специальной программы FaceReader. Предлагаемая тема является актуальной в наши дни, потому что появляется все больше и больше различной аудиовизуальной информации, и поиск подходящего материала в дальнейшем будет вызвать только большие затруднения. Получение семантических метаданных и правильная их интерпретация позволит в будущем создавать компактные представления аудиовизуального контента, что облегчит поиск необходимого в Интернете или получать качественные подборки. Для выполнения исследований было задействовано следующее оборудование: Ноутбук «HP 15-af123ur», веб-камера «Ritmix RVC-007M», программа «FaceReader».
3.2 Определение себестоимости НИР
Основой для представления сметы при проведении НИР является экономически обоснованное определение величины затрат на ее выполнение независимо от источника финансирования. В состав затрат на проведение НИР включают затраты на материалы, транспортные расходы, монтаж оборудования, затраты на энергопотребление, основную заработную плату основных исполнителей НИР, дополнительная, а также начисления на фонд оплаты труда.
С учетом трудоемкости выполняемых работ, рассчитываются затраты на оплату труда ее исполнителей. Так как работа инженера выполнялась студентом, издержки на оплату труда студента не учитываются.
3.3 Расчет затрат на приобретение основных материалов
Таблица 3.3.1 Трудоемкость работ по проведению НИР
Этап проведения НИР |
Наименование работ |
Трудоемкость чел-дней |
||
Преподаватель |
Студент |
|||
Разработка технического задания |
Разработка технического задания |
2 |
2 |
|
Выбор направления исследования |
Подбор информации по заданной теме Составление аналитического обзора состояния вопросов по теме, обоснование актуальности исследования. оценка проведения НИР |
3 |
27 |
|
Теоретические и экспериментальные исследования |
Изучение литературы по теме Проведение экспериментальных исследований Обработка полученных данных и анализ |
1 |
36 |
|
Выводы и оценка результатов |
Оценка результатов по проведенной НИР и выводы |
3 |
18 |
|
Итого: |
9 |
83 |
Таблица 3.3.2 Стоимость основных материалов
№ |
Наименование |
Цена за 1 шт., руб |
Количество, шт. |
Сумма в рублях |
|
1 |
Ноутбук «HP 15-af123ur» |
18 000 |
1 |
18 000 |
|
2 |
Веб-камера «Ritmix RVC-007M» |
700 |
1 |
700 |
|
3 |
Программа «FaceReader» |
0 (Trial) |
1 |
0 (Trial) |
|
Итоговая стоимость: |
18700 |
3.4 Транспортные расходы
Расходы на доставку составляют около 6% от общей стоимости всего оборудования:
187000,06=1200 руб. (3.4.1)
3.5 Монтаж оборудования
Расходы на монтаж компьютерного оборудования составляют 5% от их стоимости:
187000,05=950 руб. (3.5.1)
3.6 Заработная плата
Таблица 3.6.1 Расчет основной заработной платы основных исполнителей НИР
Исполнитель |
Оплата за час, руб. |
Количество часов |
Сумма, руб. |
|
Руководитель |
200 |
20 |
4 000 |
|
Преподаватель |
175 |
9 |
1 575 |
|
Консультант по экономике |
175 |
3 |
525 |
|
Итого: |
6 100 |
Дополнительная заработная плата составляет 20% от основной:
6100 0,2 = 1220 руб (3.6.1)
3.7 Начисления на фонд оплаты труда
В состав себестоимости включаются начисления на ФОТ. Расчет начислений на заработную плату составляет 30% от суммы основной и дополнительной заработных плат:
(6100+1220) 0,3 = 2196 руб (3.7.1)
3.8 Затраты на энергопотребление
Общая энергия в процессе проведения эксперимента складывается из потребления энергии ноутбуком.
0,06 кВт 5 ч=0,3 кВт , (3.8.1)
где 0,06 кВт - потребление энергии ноутбука за час, 5 ч - время работы ноутбука.
Затраты на энергопотребление будут составлять:
0,3 кВт 3,84 руб/кВт=2 руб (3.8.2)
3.9 Затраты на накладные расходы
Таблица 3.9.1 Накладные расходы
Наименование материала |
Единица измерений |
Количество |
Цена, руб. |
Сумма, руб. |
|
Бумага писчая А4 |
Пачка (500 л.) |
1 |
234 |
234 |
|
Картридж для принтера |
Шт. |
1 |
1 700 |
1 700 |
|
Итого: |
1 934 |
3.10 Расчет себестоимости НИР
На основании полученных данных в таблице 3.10.1 приведен расчет себестоимости НИР
Таблица 3.10.1 Расчет себестоимости НИР
Статья затрат |
Сумма, руб. |
|
Сырье и материалы |
18700 |
|
Основная заработная плата основных исполнителей НИР |
6 100 |
|
Дополнительная заработная плата |
1 220 |
|
Отчисления на ФОТ |
2196 |
|
Транспортные расходы |
1200 |
|
Монтаж оборудования |
950 |
|
Затраты на энергопотребление |
2 |
|
Накладные расходы |
1 934 |
|
Итого себестоимость: |
32302 |
18700+6100+1220+2196+1200+950+2+1934 =32302 руб (3.10.1)
3.11 Вывод
Выбранное оборудование позволяет подготовить необходимый материал для проводимого исследования эмоционального состояния кинозрителя по изображению лица. Себестоимость научно-исследовательской работы составит 32302 рублей. Почти 60% затрат приходится на необходимое оборудование.
Заключение
В результате выполнения ВКР были разобраны методы получения и обработки семантических метаданных аудиовизуальной информации. Были выявлены недостатки существующих подходов, и на их основании разработан новый подход для получения эмоциональных профилей потребителей контента, основанный на оценке эмоционального состояния кинозрителя по изображению лица.
Проведенные эксперименты подтвердили практическое применение данного подхода. На основании полученных результатов можно заключить, что данным способом можно получать индивидуальные эмоциональные оценки контента для каждого зрителя в отдельности или для различных групп.
Ядром разработанного метода получения семантических метаданных является современное программное обеспечение, которое позволяет распознавать эмоции человека по изображению его лица. Это обеспечивает невербальное взаимодействие программы со зрителем, что позволяет не отвлекать зрителя от потребления контента и не требует от него каких-либо действий во время просмотра.
Эмоциональные оценки, полученные таким способом позволяют составлять качественное представление о содержании контента, облегчают поиск нужной и интересной аудиовизуальной информации. Результаты проведенных исследований имеют огромное значение для автоматизации многих процессов в различных средах, например, информационных, развлекательных или рекламных, и привлечения внимания широкой общественности к киноархивам, являющихся кинематографической памятью человечества.
Список литературы
1. Перегудов А.Ф., Гласман К.Ф. Enrichment of Semantic Metadata Based on Interactions with User Associations // Published in Consumer Electronics, 2004 IEEE International Symposium on.
2. Гласман А.К., Зелов Р.А., Гласман К.Ф. EmotionSpot: Monitoring of User Preference and Viewing Habits // Published in Consumer Electronics - Berlin (ICCE-Berlin), 2012 IEEE International Conference on.
3. Лабунская В. А. Невербальное поведение (социально-перцептивный подход) -- Ростов: Изд-во Ростов., 1986.
4. Марк Нэпп, Джудит Холл. Невербальное общение: полное руководство. Москва: изд--во «Прайм-ЕВРОЗНАК», 2006.
5. Пол Экман. Психология Лжи. Санкт-Петербург: Изд-во «Питер»., 2012.
6. Стандарт MPEG-7. URL: http://book.itep.ru/2/25/mpeg_7.htm (дата обращения: 31.05.2016).
7. URL: http://www.facereader-online.com (дата обращения: 31.05.2016)
Размещено на Allbest.ru
Подобные документы
Модели эмоционального и культурного интеллектов. Способы развития EQ и CQ, используя возможности информационных технологий. Культурные различия в разных странах, включая особенности невербальной коммуникации. Сайт как возможность развития интеллекта.
курсовая работа [1,6 M], добавлен 24.11.2016Зависимость уровня эмоционального выгорания от стажа профессиональной деятельности. Анализ информационных ресурсов и сервисов. Программные средства для создания web-ресурса. Описание структуры web-ресурса. Определение уровня физиологического стресса.
дипломная работа [1,7 M], добавлен 20.12.2011Метаданные как машинопонятная информация о web ресурсах и других сущностях. Способы получения и передачи метаданных. Пространство имен атрибутов. Модель данных RDF - RDF-граф. Литералы, символьные константы. Определение значения типизированного литерала.
лекция [56,0 K], добавлен 01.09.2013Необходимые стандарты и форматы. Извлечение графики для верстки. Современные стандарты верстки. Разработка 3D-моделей и основных ракурсов. Интеграция системы статистики. Выбор методики и показателей экономической эффективности мультимедийного контента.
курсовая работа [1,4 M], добавлен 15.05.2014Понятие и особенности построения алгоритмов распознавания образов. Различные подходы к типологии методов распознавания. Изучение основных способов представления знаний. Характеристика интенсиональных и экстенсиональных методов, оценка их качества.
презентация [31,6 K], добавлен 06.01.2014Структура системы FAT. Структура файловой записи. Цепочки кластеров, корневой каталог, файловые атрибуты. Структура построения проекта. Функции и переменные управляющего приложения и DLL-модуля. Ошибка, вызванная некорректным ID контроля диалогового окна.
курсовая работа [1,1 M], добавлен 22.01.2013Участие регистров ввода-вывода в работе периферийных устройств. Отражение состояния периферийных устройств в состоянии разрядов регистров состояния. Перечень имен и номеров регистров ввода-вывода, управления и состояния микроконтроллеров разных типов.
курсовая работа [171,2 K], добавлен 22.08.2010Различие между данными и метаданными, их классификация и структура. Роль и использование метаданных, проблемы их стандартизации и формат. Принципы, определяющие политику в области метаданных в перспективных информационных системах в публичном интернете.
реферат [16,6 K], добавлен 10.06.2011Назначение и специфика программного обеспечения "NordVision". Оценка его качества, надежности, работоспособности и устойчивости. Разработка структуры программы, пользовательского интерфейса и основных алгоритмов. Организация контекстно-зависимой помощи.
дипломная работа [2,5 M], добавлен 24.02.2015Выбор типа и структуры нейронной сети. Подбор метода распознавания, структурная схема сети Хопфилда. Обучение системы распознавания образов. Особенности работы с программой, ее достоинства и недостатки. Описание интерфейса пользователя и экранных форм.
курсовая работа [3,0 M], добавлен 14.11.2013