Опыт выявления плагиата при работе с графической информацией
Исследование проблемы проверки на плагиат графической информации. Методика числового сопоставления выборок данных. Использование статистических функций для подтверждения полученной информации. Модель работы с цифровыми изображениями для анализа данных.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 19.05.2016 |
Размер файла | 730,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Бакалавр Казанский (Приволжский) Федеральный Университет
Опыт выявления плагиата при работе с графической информацией
Егорова Кристина Николаевна
Аннотация
Цель данной работы - создать модель с заложенным в неё алгоритмом, который должен решать некий класс задач, связанных с работой по определению плагиата для графических изображений - задачи подбора, сопоставления и анализа данных для исследования и возможного решения проблемы. В данном исследовании нас интересовало два момента: какие методы и модели пригодны для сопоставления изображений (для выявления пар "оригинал - плагиат") и какие категории лиц больше подвержены заимствованию (чаще заимствуют изображения).
Ключевые слова: графические информация; плагиат; сопоставление; анализ изображений.
Обозначение проблемы
В век цифровых технологий проблема интеллектуальной собственности стоит весьма остро. Участились случаи плагиата и воровства чужих идей и в сфере изобразительного искусства - с появлением цифровой живописи недобросовестные художники стали воровать работы у других или же заниматься обрисовкой фотографий. Они зарабатывают деньги на чужом труде, участвуя в конкурсах с чужими работами или используя их для создания своих путем "обмазывания" исходных картинок в цифровых редакторах. Именно эта проблема лежит в основе нашего исследования.
Актуальность проблемы в том, что на данный момент что не существует инструмента, позволяющего автоматически выявлять пары "оригинал - плагиат" среди цифровых изображений; в то время как для текстовой информации существуют "антиплагиат"-системы, автоматизирующие процесс сравнения и выборки. Имеющиеся алгоритмы позволяют найти на просторах Интернет только копии исходного изображения или его дубликаты, что не решает задачу. В своем исследовании мы стремились предложить схему анализа, которая помогает решать поставленную проблему как для растровых, так и для векторных изображений.
В результате удалось так же определить категории лиц для которых наиболее активно используется плагиат - данная тенденция становится наиболее заметна среди молодых людей возрастом от 16 лет.
Модель и методы исследования
Таким образом, от общей проблемы математического анализа изображений мы перешли к проблеме проверки на плагиат графической информации. Для этого нами была поставлена задача попарного сопоставления изображений. В процессе выборки мы стремились для каждой пары выбранных изображений выделить некое формальное обоснование (критерии), позволяющее признать пару подходящей для исследования.
Для второй части исследования (распознавание категорий лиц) использовалась методика числового сопоставления выборок данных и использование статистических функций для подтверждения полученной нами информации.
Данные исследования
Для проведения исследования были отобраны ресурсы, содержащие достаточное количество данных для данной предметной области. К ресурсам был выдвинут ряд требований:
1. Соответствие выбранной области (концентрация на тематике плагиаторства и "обводок")
2. Информативность (содержательные, полные посты)
3. Конструктивность ("не предвзятые" записи, преследующие цель восстановить справедливость, а не оклеветать человека)
4. Постоянная активность ресурса (наличие постоянных обновлений в течении долгого времени). Наличие необходимого контингента.
Поиск источников позволил нам выделить базовые страницы, которые являются источниками для осуществления выборки по заданным критериям - сообщества в социальных сетях [4, 5, 6] и отдельные сайты [7,8].
В свою очередь, для данных были выбраны следующие критерии, которым они должны соответствовать:
1. Достоверность (т.е. доказательство плагиата обязательно - им является пара изображений "оригинал-плагиат"). Данный критерий обязателен на этапе выборки данных, но в искомую таблицу учета данных не вносится по ненадобности.
2. Уникальность (информация об одном и том же человеке не должна дублироваться, несмотря на то)
3. Сопоставимость (представление данных в одинаковых форматах)
4. Полнота информации об авторе (примерный возраст, пол, творческий "стаж")
5. Год публикации на ресурсах - 2013 или 2015.
Пример одной такой пары, удовлетворяющей заданным критериям представлен на рис.1 и рис 2.
Рис.1 (предположительно оригинал. Название: "Silent Breeze" [9]);
Рис.2 (предположительно плагиат). 2013 год. Информация об авторе плагиата: девушка, возраст 16 лет, стаж ~полгода [9-10]
Ход исследования на основе описанной модели
Для наглядного исследования проблемы по заданной модели, мы выдвинули следующую гипотезу:
· А, неформальное определение: Средний возраст плагиаторов в 2015 по сравнению с 2013 годом уменьшился, и в плагиате среди молодых художников чаще заметны девушки.
· В, формальное определение: Если сопоставить выборки пар "оригинал-плагиат" за 2013 и за 2015 год, рассматривая в качестве критерия также возраст автора, то можно выявить следующую тенденцию: количество плагиаторов среди молодых художниц возросло, и оно больше, чем количество плагиаторов-парней.
Решающий критерий для принятия гипотезы - количественное сопоставление данных, найденных в выбранных источниках, и подтверждение их статистическими формулами. Основная гипотеза будет принята, если данные будут удовлетворять критерию: количество плагиата за 2015 год (среди авторов до 20 лет) будет выше, чем за 2013. Альтернативная гипотеза предполагает обратное - количество плагиата осталось тем же или даже уменьшилось.
Для подтверждения или же опровержения гипотезы мы проводили эксперимент в соответствии с выдвинутыми критериями: для источников данных, для самих данных, для принятия основной/альтернативной гипотезы.
В своем исследовании мы рассмотрели 2 глобальных интервала: 1.01.2013-31.12.2013 и 1.01.2015-01.12.2015 (т.е. в качестве интервала выступает 1 год). Для каждого интервала рассматривается подборка из 36 записей. Выделено 2 подынтервала для каждого интервала: 1.01.2013-31.05.2013 и 1.06.2013-31.12.2013, 1.01.2015-31.05.2015 и 1.06.2015-31.12.2015.
Визуализация имеющихся наборов данных:
рис.3 Диаграмма, отображающая количественное соотношение плагиаторов младше 20 лет к их общему числу.
рис.4 Диаграмма, отображающая количественное соотношение девушек к общему числу "заимствующих" в выборках по подынтервалам.
Обработанные и подсчитанные данные были внесены в таблицы. Затем производилась работа с формулами, отображающими статистические зависимости. Для работы с гипотезой использовались следующие:
· Функция ХИ 2 тест на независимость, которая возвращает значение статистики для распределения хи-квадрат (ч2) и соответствующее число степеней свободы. Критерий ч2 можно использовать для определения того, подтверждается ли гипотеза экспериментом.
· F-тест - двусторонняя вероятность того, что разница между дисперсиями массивов несущественна.
· Коэффициент корреляции Пирсона.
Ниже приведена финальная таблица с обработанными данными и значениями, полученные в результате вычисления заявленных выше формул.
плагиат цифровой изображение статистический
Таблица 1. Результаты выборок по подинтервалам и вычисление статистических формул.
Результаты исследования показывают, что доля девушек среди общего числа плагиаторов возросла (выборка 1). Также по результатам исследования видно, что количество молодых художников - до 20 лет - в 2015 году возросло (выборка 2). Используя значение ч2 можно предположить, что гипотеза доказана.
Выводы
Данная статья была написана в процессе подготовки по курсу "Теория систем и системный анализ". Мы проводили своё исследование, опираясь на статьи, описывающие опыт работы с данными, средствами визуализации и содержащие общие рекомендации по работе с информацией [1-3].
В ходе нашего исследования мы предложили свою модель работы с цифровыми изображениями для решения определенного класса задач (для подбора, сопоставления и анализа данных, необходимых для некоторого исследования). В ходе него также были описаны методики работы с информацией, определены критерии для источников данных и для выборок. Были выдвинуты гипотезы и проведены испытания, которые её подтвердили.
Представленная нами модель не позволяет полностью автоматизировать работу по распознаванию изображений и выделению заданных пар вида "оригинал-плагиат", но позволяет существенно сократить усилия, необходимые для этого. Она актуальна и представляется на уровне объективной новизны, т.к. в настоящее время нет никаких вспомогательных инструментов, облегчающих данную задачу. Кроме того, представленная модель показала себя эффективной для исследования различных категорий населения, что позволяет нам выйти за рамки данной задачи и использовать имеющийся алгоритм и в других областях.
Библиографический список
1. Vlasova, V.K., Kirilova, G.I., Curteva, O.V. Matrix classification of information environment algorithms application in the educational process / Vlasova, V.K., Kirilova, G.I., Curteva, O.V. // Mathematics Education . - V. 11. - № 1. - 2016. - P.165-171.
2. Кирилова Г.И., Шорина Т.В. Опыт применения средств визуализации в курсе "Информационная безопасность и защита" // Вестник НЦБЖД. 2010. № 3. С. 22-26.
3. Кирилова Г.И. Исследовательская компетентность специалиста информационного общества // Образовательные технологии и общество. 2008. Т. 11. № 4. С. 390-395.
4. LF: сообщество социальной сети vk.com, посвященное работам цифровых художников и поиску заимствований чужих работ [Электронный ресурс]. - Режим доступа: https://vk.com/noitarebil_tnorf (дата обращения: 20.12.2015), для доступа требуется авторизация.
5. Берешь и рисуешь: сообщество социальной сети vk.com, посвященное работам цифровых художников [Электронный ресурс]. - Режим доступа: https://vk.com/club29809816
6. Плагиат, обводки, обмазки. Список умельцев: сообщество социальной сети vk.com, посвященное работам цифровых художников и уличению в конкретных случаях плагиата [Электронный ресурс]. - Режим доступа: https://vk.com/art_plagiary (дата обращения: 24.12.2015)
7. Deviantart Режим доступа: http://www.deviantart.com/
8. Tumblr [Электронный ресурс]. - Режим доступа: www.tumblr.com
9. Изображение (предположительно оригинал): автор roido-kun. Источник: http://www.deviantart.com/art/Silent-Breeze-482559037
10. Изображение (предположительно плагиат): автор stacygreenhv. Источник: http://stacygreenhv.deviantart.com/ (дата обращения: 20.12.2015)
Размещено на Allbest.ru
Подобные документы
Изучение существующих методов и программного обеспечения для извлечения числовых данных из графической информации. Программное обеспечение "graphtrace", его структура и методы обработки данных. Использование этой системы для данных различного типа.
дипломная работа [3,9 M], добавлен 06.03.2013Разработка системы по поиску плагиата среди работ студентов. Получение оценочной информации о работе и коэффициенте плагиата. Повышение эффективности оценивания работы студента. Информационное обеспечение системы. Выбор устройства управления данными.
курсовая работа [893,9 K], добавлен 23.04.2014Представление графической информации в компьютере. Графические форматы и их преобразование. Информационные технологии обработки графической информации. Формирование и вывод изображений. Файлы векторного формата и растровый графический редактор.
курсовая работа [1,0 M], добавлен 25.04.2013Стандартное устройство вывода графической информации в компьютере IBM - система из монитора и видеокарты. Основные компоненты видеокарты. Графическое и цветовое разрешение экрана. Виды мониторов и видеокарт. Мультимедиа-проекторы, плазменные панели.
контрольная работа [38,7 K], добавлен 09.06.2010Обзор пакетов программ, предназначенных для визуализации и анализа данных. Обоснование выбора среды программирования. Организация аварийного буфера. Передача данных от нижнего уровня к верхнему и сохранение данных. Отображение данных в графической форме.
дипломная работа [512,4 K], добавлен 28.08.2012Назначение, классификация и экономическая целесообразность использования устройств ввода текстовой и графической информации. Обзор и сравнительный анализ программ распознавания образов Acrobat Reader и ASDee. Охрана труда при работе на компьютере.
дипломная работа [4,3 M], добавлен 23.07.2010Технология обработки графической информации с помощью ПК, применение в научных и военных исследованиях: формы, кодирование информации, ее пространственная дискретизация. Создание и хранение графических объектов, средства обработки векторной графики.
реферат [20,7 K], добавлен 28.11.2010Исследование истории концепции электронного издания для образовательных целей. Характеристика требований к электронному изданию учебного назначения. Анализ технологии создания проекта "Обработка графической информации". Описание алгоритма решения задачи.
курсовая работа [505,8 K], добавлен 13.01.2015Географическая информационная система как программный продукт, предназначенный для сбора, хранения, анализа и графической визуализации пространственных данных и информации об объектах: компоненты, структуры, модели, классификация; этапы ввода данных.
курс лекций [4,5 M], добавлен 07.02.2012Описание устройств ввода графической, звуковой информации, их назначение, классификация, конструкция, характеристики. Графические планшеты, сканнеры. Анализ способов представления и кодирования информации. Программные средства для архивации данных.
контрольная работа [31,2 K], добавлен 22.11.2013