Анализ возможности использования технологии обработки больших данных в системах для территориально-распределенных комплексов
Анализ использования технологии обработки баз данных в информационных системах территориально-распределенных комплексов. Безопасность вычисления в распределенных программных системах. Проблемы компаний, возникающие при хранении больших объемов данных.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 25.11.2017 |
Размер файла | 92,2 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http: //www. allbest. ru/
Кубанский государственный технологический университет, г. Краснодар, Россия
05.00.00 Технические науки
Анализ возможности использования технологии обработки больших данных в системах для территориально-распределенных комплексов
Видовский Леонид Адольфович, д.т.н., профессор
Янаева Марина Викторовна, к.т.н., доцент
Мурлин Алексей Георгиевич, к.т.н., доцент
Мурлина Владислава Анатольевна, к.т.н., доцент
Гвозденко Анастасия Алексеевна, студент
Аннотация
Статья посвящена анализу использования технологии обработки больших данных в информационных системах территориально-распределенных комплексов
Ключевые слова: территориально-распределенный комплекс, большие данные, пропускной контроль, видеонаблюдение, информационная система
Annotation
Technical sciences
Analysis of the opportunity of using the technology of processing large data in systems for territorial-distributed complexes
Vidovsky Leonid Adolfovich
Dr.Sci.Tech., Professor
Yanaeva Marina Viktorovna
Cand.Tech.Sci, associate professor
Murlin Aleksey Georgievich
Cand.Tech.Sci, associate professor
Murlina Vladislava Anatolevna
Cand.Tech.Sci, associate professor
Gvozdenko Anastasia Alekseyevna
student
Kuban State Technological University, Krasnodar, Russia
The article is devoted to the analysis of the use of large data processing technology in information systems of territorially distributed complexes
Keywords: territorial-distributed complex, great data, passenger control, video-observation, information system
При разработке систем контроля и наблюдения в территориально- распределенных комплексах возникает необходимость обработки и хранения больших объемов информации, что зачастую проблематично с учетом удаленности объектов комплекса. Территориально распределенный комплекс - это совокупность объектов, имеющих связи в рамках одной организации, расположенных на значительном удалении друг от друга, что характерно для крупных компаний. Технология обработки больших объемов данных занимается проблемами, связанными с их хранением и обработкой. В информационных технологиях большие данные (англ. Big Data) представляют собой серию подходов, методов и инструментов обработки неструктурированных и структурированных данных огромных объемов и значительного многообразия для получения человеко-читаемых результатов, которые будут полезны в условиях быстрого прироста и распределения по многочисленным узлам вычислительной сети.
Системы, основанные на Big Data, обладают следующими общими принципами построения:
- данные системы состоят из огромного количества узлов, состоящих из дешевого оборудования;
- каждый узел представляет из себя сервер хранения и обработки данных;
- обработка данных ведется в режиме MapReduce;
- сохранение данных в нескольких копиях, как правило в трех, поэтому отказ узла или двух узлов не критичен для системы;
- неограниченное масштабирование объемов информации. [4]
Существует несколько современных технологий обработки Big Data:
- NoSQL DB (СУБД, построенные по принципу «ключ-значение», обеспечивают быструю запись и выборку по ключу);
- MapReduce (фреймворк для распределенных вычислений и обработки данных на тысячах узлах);
- Hadoop (это лидирующая реализация MapReduce (проект Apache); является масштабируемой пакетной обработкой (имеет большое количество наработок);
- HDFS (Hadoop Distributed File System, используется для построения дешевых, распределенных, масштабируемых хранилищ).
Само понятие Big Data означает огромнейшие хранимые и обрабатываемые массивы из сотен гигабайт, и даже петабайт данных. Те данные, которые можно обработать и извлечь из них некоторое количество полезной информации. Приведем в таблице сравнение обычной базы данных с базой больших данных.
Таблица 1 Сравнительный анализ
Характеристика |
Традиционная БД |
База больших данных |
|
Объем информации |
от гигабайт (109 байт) до терабайт (1012 байт) |
от петабайт (1015 байт) до эксабайт (1018 байт) |
|
Способ хранения |
централизованный |
децентрализованный |
|
Структурированность данных |
структурирована |
полуструктурирована и неструктурирована |
|
Модель хранения и обработки данных |
вертикальная модель |
горизонтальная модель |
|
Взаимосвязь данных |
сильная |
слабая |
Для Больших Данных определяющими характеристиками являются «три V»:
а) volume - величина физического объема;
б) velocity - скорость скорости прироста данных и необходимости высокоскоростной обработки и получения результатов);
в) variety - возможности одновременной обработки разнообразных типов, полуструктурированных и структурированных данных.
Основные проблемы системы BigData сводятся к этим трем характеристикам. Требуются специальные условия для хранения огромных объемов информации, и это вопрос пространства и возможностей. Старые методы обработки оказывают значительное влияние на скорость из-за чего возможны замедления и «торможения», это еще один вопрос интенсивности: чем быстрее процесс, тем продуктивнее результат (больше отдача). По причине разрозненности качества, форматов и источников возникает проблема неоднородности и неструктурированности.
В Big Data еще существует проблема отсутствия предела «величины» данных. Её достаточно трудно предугадать, поэтому неизвестно какие технологии и сколько финансовых затрат потребуется на её устранение. Поскольку ресурсы не бесконечны, то становится нецелесообразно хранить все возможные данные. Зачастую возникает вопрос отказа от части данных. Данный вопрос является главной причиной отсрочки внедрения в компании проектов BigData.[2]
Не меньшей проблемой становится подбор данных, требуемых к обработке, и алгоритма анализа. Зачастую отсутствует понимание, какие данные следует собирать и хранить, а какие можно игнорировать. Исходя из этого становится очевидной проблема нехватки в данной отрасли профессиональных специалистов, которые способны на глубинный анализ, создание отчетов для решения бизнес-задач и как следствие извлечение прибыли из BigData.
При разработки поисковых систем возникают вопросы, имеющие этический характер - это необходимость без согласия пользователя накопления о нем всей доступной информации: IP-адреса, геолокации, личных данных, интересов, онлайн режимов работы. Данная информация позволяет демонстрировать контекстную рекламу в соответствии с интересами пользователя в интернете.
Исходя из того, что BigData накапливает различную информацию о пользователях возникает проблема обеспечения безопасности хранения и использования данных. Некоторые данные используются для решения многих бизнес-задач. Но никто не может гарантировать безопасность аналитической платформы, которая получает данные о посетителях в автоматическом режиме (просто за посещение данного сайта).
Также в современной информационной среде наблюдается вирусная активность и хакерские атаки, которые не всегда могут выдержать даже отлично защищенные серверы правительственных спецслужб, тем более распределенные информационные системы удаленных объектов предприятия. территориальный база данные программный
В этом году члены Cloud Security Alliance провели анализ и выявили главные проблемы современных компаний, возникающие при хранении больших объемов данных:
- безопасность вычисления в распределенных программных системах;
- безопасность нереляционных баз данных;
- безопасность хранения данных;
- проверка достоверности;
- мониторинг безопасности в режиме реального времени;
- data mining и аналитика, которые сохраняют конфиденциальность;
- шифрование управления доступом и обеспечение безопасности соединения;
- фрагментарный контроль доступа, т.е. возможность сегментировать данные по степени их конфиденциальности;
- происхождение данных. [5]
Таким образом, основные принципы работы с использованием технологии Big Data могут быть сформулированы следующим образом:
1) Горизонтальная масштабируемость. Данных очень много, поэтому любая система, в которой возможна обработка больших данных, должна быть расширяемой. Следовательно, рост объема данных должен быть прямо пропорционален увеличению количества железа в кластере.
2) Отказоустойчивость. Принцип из первого пункта подразумевает, что в одном кластере может быть много машин. Ярким примером является Hadoop-кластер Yahoo, который имеет более 42000 машин. Очевидно, что часть включенных в кластер машин будет гарантированно выходить из строя. Данные сбои должны учитываться методами, применимыми в работе с большими данными.
3) Локальность данных. Принцип локальности данных, заключающийся в обработке данных на машине, на которой хранятся эти данные. Иначе при работе с большими системами, где данные распределены по большому количеству машин, в случае нахождения физически данных на одном сервере, а обработки на другом - расходы на передачу данных могут превысить расходы на саму обработку.
Большинство современных методов работы с большими данными в большей или меньшей степени соответствуют этим трем принципам. Для того, чтобы им следовать - необходимо придумывать какие-то методы, способы и парадигмы разработки средств разработки данных.
Методы и техники анализа, применимые к большим данным, выделены в отчете McKinsey:
- методы класса Data Mining: обучение ассоциативным правилам, классификация, кластерный анализ, регрессионный анализ;
- краудсорсинг (с данными работает достаточно широкий, неопределенных круг лиц, обеспечивающий категоризацию и обогащение данных, люди находятся вне трудовых отношений и привлечённы на основании публичной оферты);
- data fusion and integration (набор техник, для интеграции разнородных массивов данных из различных источников для возможности глубинного анализа);
- машинное обучение, включая обучение с учителем и без учителя, а также Ensemble learning (англ.) -- использование моделей, построенных на базе статистического анализа или машинного обучения для получения комплексных прогнозов на основе базовых моделей;
- искусственные нейронные сети, cетевой анализ, оптимизация, в том числе генетические алгоритмы;
- распознавание образов;
- прогнозная аналитика;
- имитационное моделирование;
- spatial analysis - класс методов, использующих топологическую, геометрическую и географическую информацию о данных;
- статический анализ;
- визуализация аналитических данных -- представление информации в виде рисунков, диаграмм, с использованием интерактивных возможностей и анимации как для получения результатов, так и для использования в качестве исходных данных для дальнейшего анализа. [4]
Технология BigData используется во многих сферах деятельности. В первую очередь это выявление с помощью BigData предпочтений клиентов, оценка эффективности маркетинговых кампаний или проверка анализа рисков. На рисунке представлены результаты опроса IBM Institute, о направлениях использования BigData в компаниях. [1]
Размещено на http: //www. allbest. ru/
Рисунок 1 Результаты опроса IBM Institute
Из диаграммы видно, что большинство компаний используют большие данные в сфере клиентского сервиса, вторым по популярности направлением является операционная эффективность, в сфере управления рисками BigData на текущий момент наименее распространены. В настоящее время Big Data является одной из самых быстрорастущих сфер информационных технологий, согласно статистике общий объем получаемых и хранимых данных удваивается каждые 1-2 года.
Стоит отметить, что Big Data обычно хранятся и организуются в распределенных файловых системах. Иными словами, информация хранится на нескольких жестких дисках стандартных персональных компьютеров. Так называемая «карта» (map) отслеживает, на каком компьютере и диске хранится конкретная часть информации. Каждую часть информации принято сохранять несколько раз, как правило - три, чтобы обеспечить надежность и отказоустойчивость.
Информация по территориально-распределенному комплексу, которую необходимо обрабатывать и хранить системе контроля и наблюдения на первый взгляд может показаться незначительной. Первой основной функцией программного продукта является распознавание государственных регистрационных знаков. Поэтому следует хранить и обрабатывать следующую информацию:
- номерные знаки, используемые для обучения системы;
- характеристики камер видеофиксации;
- видеозаписи с камер наблюдения;
- кадры с изображением отдельных автомобилей до распознавания;
- кадры с распознанными номерами;
- информация об автомобилях, принадлежащих компании, владельцу комплекса;
- журнал фиксации движения автотранспорта.
Для анализа поведенческих ситуаций требуется хранить и обрабатывать следующую информацию:
- поведенческие образы сотрудников, разграниченные в соответствие с нормами поведения, используемые для обучения системы;
- видеопоток с камер;
- кадры для анализа ситуаций;
- кадры с зафиксированным аномальным поведением;
- информация о срабатывании систем безопасности.
Наименее затратным по объему информации является реализация третьей функции - системы контроля и управления доступом, которая потребует лишь место на диске для:
- хранения информации о посещении сотрудниками комплекса;
- хранения отчетов;
- информация о сотрудниках.
И это только основные объекты, требующие хранения и обработки информации.
Преимущество использования технологии Big Data заключается в хранении всего возможного объема информации, не беспокоясь о том, какая часть данных актуальна для последующего анализа и принятия решения. Поэтому для распределенных систем контроля и наблюдения для предприятий с территориально-распределенной структурой, где объекты находятся на значительном удалении актуальны вопросы хранения всех объемов, имеющейся информации для последующего анализа и обработки. Недостатком является последующая трудоемкая обработка этих «всех данных». Поскольку физические накопители, используемые для хранения информации, могут достигать своего предела, то необходимо грамотно обрабатывать полученные данные и сохранять лишь ценную для компании информацию.
Список литературы
1. Веретенников А. В. BigData: анализ больших данных сегодня // Молодой ученый. -- 2017. -- №32. -- С. 9-12.
2. Смирнов Д. Защита Big Data: проблемы и решения // Еженедельник IT Weekly. - 2017. - № 13. - С. 22-30.
3. Проектирование интеллектуальных систем контроля доступа на объекты территориально-распределенных комплексов / Л.А. Видовский, М.В. Янаева, А.Г. Мурлин и др. // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2016. - №09(123). - IDA [article ID]: 1231609130. - Режим доступа: http://ej.kubagro.ru/2016/09/pdf/130.pdf.
4. Натан Марц, Джеймс Уоррен. Большие данные. Принципы и практика построения масштабируемых систем обработки данных в реальном времени. - Москва: Вильям, 2016. - 368с.
5. Cloud Security Alliance [Электронный ресурс]. - Москва, 2017. - Режим доступа: https://cloudsecurityalliance.org
References
1. Veretennikov A. V. BigData: analiz bol'shih dannyh segodnja // Molodoj uchenyj. -- 2017. -- №32. -- S. 9-12.
2. Smirnov D. Zashhita Big Data: problemy i reshenija // Ezhenedel'nik IT Weekly. - 2017. - № 13. - S. 22-30.
3. Proektirovanie intellektual'nyh sistem kontrolja dostupa na ob#ekty territorial'no-raspredelennyh kompleksov / L.A. Vidovskij, M.V. Janaeva, A.G. Murlin i dr. // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta (Nauchnyj zhurnal KubGAU) [Jelektronnyj resurs]. - Krasnodar: KubGAU, 2016. - №09(123). - IDA [article ID]: 1231609130. - Rezhim dostupa: http://ej.kubagro.ru/2016/09/pdf/130.pdf.
4. Natan Marc, Dzhejms Uorren. Bol'shie dannye. Principy i praktika postroenija masshtabiruemyh sistem obrabotki dannyh v real'nom vremeni. - Moskva: Vil'jam, 2016. - 368s.
5. Cloud Security Alliance [Jelektronnyj resurs]. - Moskva, 2017. - Rezhim dostupa: https://cloudsecurityalliance.org
Размещено на Allbest.ru
Подобные документы
Преимущества распределенных система обработки данных. Классификация интегрированных технологий. Модели реализации технологии "клиент-сервер". Мониторы обработки транзакций. Глобальные вычислительные и информационные сети. Виды доступа к глобальным сетям.
презентация [2,1 M], добавлен 20.11.2013Виды архитектуры распределенных информационных систем. Сущность синхронного и асинхронного, блокирующего и неблокирующего взаимодействия в распределенных информационных системах. Основные проблемы и принципы реализации удаленного вызова процедур.
реферат [26,4 K], добавлен 22.06.2011Агентно-ориентированная программная архитектура систем обработки потоковых данных. Обеспечение гибкости и живучести программного обеспечения распределенных информационно-управляющих систем. Спецификации программных комплексов распределенной обработки.
реферат [1,1 M], добавлен 28.11.2015Принципы и критерии построения распределенных баз данных. Ряд свойств, которым по К. Дейту должна удовлетворять распределенная база данных: независимость узлов, прозрачность расположения, обработка распределенных запросов. Типы распределенных баз данных.
реферат [131,5 K], добавлен 18.06.2013Проблемы, связанные с продуктивным распределением и систематизированием больших потоков информации. Основные виды распределенных баз данных, анализ процессов их функционирования. Стратегии распределения данных. Распределение сетевого справочника данных.
курсовая работа [397,5 K], добавлен 09.08.2015Общие сведения о компьютерном математическом моделировании. Принцип построения и функционирования распределенных систем. Технологии объектного связывания данных. Механизм изоляции транзакций и преодоления ситуаций несогласованной обработки данных.
курсовая работа [92,5 K], добавлен 13.12.2014Анализ видов обеспечения автоматизированных систем предприятия. Средства программирования распределенных систем обработки информации. Изучение особенностей использования технологии распределенных объектов. Эксплуатация программного обеспечения системы.
отчет по практике [486,0 K], добавлен 23.11.2014Определение, свойства и характеристики распределенных систем баз данных. Основная задача систем управления ими. Архитектура распределения СУБД. Сравнение технологий файлового сервера и "клиент-сервера". Стратегия распределения данных по узлам сети ЭВМ.
курсовая работа [601,3 K], добавлен 24.05.2015Информационные и автоматизированные системы управления технологическими процессами на промышленных предприятиях. Базы данных в автоматизированных системах управления. Системы планирования ресурсов предприятия, сбора и аналитической обработки данных.
контрольная работа [486,7 K], добавлен 29.10.2013Понятие администрирования баз данных, функции и роли администраторов. Управление целостностью данных в системах управления базами данных, буферизация, транзакция, журнализация. Управление безопасностью в системах, источники нарушения целостности данных.
курсовая работа [164,7 K], добавлен 15.07.2012