Большие данные BigData

Сущность и понятие больших данных (BigData): подходы и методы их обработки. Исследование вопросов, касающихся их назначения, области применения, техник и методов анализа. Характеристика перспектив развития рынка больших данных в Российской Федерации.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 25.04.2022
Размер файла 13,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Большие данные BigData

Нестерова Н.С., кандидат технических наук, доцент доцент кафедры «Математики и вычислительной техники»

Академия маркетинга и социально - информационных технологий -

ИМСИТ Россия, г. Краснодар

Котов О.Д., студент

4 курс, Институт информационных технологий и инноваций

Россия, г. Краснодар

Аннотация

bigdata большие данные

В статье дано понятие больших данных и освещены вопросы, касающееся их назначения, области применения, техник и методов анализа. Показаны перспективы развития рынка больших данных в России.

Ключевые слова: BigData, Анализ, Данные, Информация.

Annotation

The article gives the concept of big data and highlights issues related to their purpose, scope, techniques and methods of analysis. Shows the prospects for the development of the big data market in Russia.

Key words: Big Data, Analysis, Data, Information.

Bigdata(в переводе большие данные) -- это различные инструменты, подходы и методы обработки как структурированных, так и неструктурированных данных для достижения конкретных целей [1].

Понятие Bigdataпоявилось в 2008 году, когда в журнале Natureего впервые употребили в сообщении о взрывном росте объёмов информации в мире в 100 Гб в день. В настоящее время этот термин применяют при решении задач хранения и обработки данных в связи с открывшимися возможностями автоматизации всех сфер жизни человека [2].

По данным компании IBS, к 2003 году мир накопил 5 эксабайтов данных (1 ЭБ = 1 млрд гигабайтов). К 2008 году этот объем вырос до 0,18 зеттабайта (1 ЗБ = 1024 эксабайта), к 2011 году -- до 2 зеттабайт, к 2013 году -- до 13 зеттабайт. В 2015 году глобальное количество данных превысило 16 зеттабайт.

В 2020 году человечество сформировало 51 зеттабайт информации. А к 2025 году вырастет до 175 зеттабайт. Большую часть данных генерировать будут сами предприятия, а не обычные потребители.

Bigdataможно использовать для помощи:

1) в постановке медицинского диагноза,

2) в управлении транспортом и контроле его работы,

3) в анализе больших массивов данных в банковской сфере.

Большие данные применяют также в целях изучения атмосферных

явлений и прогнозирования погоды, в сельском хозяйстве для полного контроля над состоянием почв, в сфере безопасности

Данные стали жизненно важным активом, а их безопасность - критически важна для жизни.

Техники и методы анализа, применимые в больших данных [3]:

1) Data Mining,

2) распознавание образов,

3) статистический анализ,

4) прогнозная статистика,

5) машинное обучение,

6) искусственные нейронные сети,

7) визуализация аналитических данных.

Базовый принцип больших данных - горизонтальная масштабируемость- заключается в том, что данные обрабатываются на специальных вычислительных узлах без потери производительности.

Используемые технологии:

1) NoSQL,

2) MapReduce,

3) Hadoop,

4) R,

5) Аппаратные решения.

Для больших данных выделяют традиционные определяющие характеристики «Три V» [4]:

1. Volume -- величина физического объёма.

2. Velocity-- скорость прироста и необходимости быстрой обработки данных для получения результатов.

Variety-- возможность одновременно обрабатывать различные типы данных

В июле 2021 года был утверждён российский национальный стандарт в области больших данных Гост “Информационные технологии. Большие данные. Обзор и словарь”, который идентичен мировому Informationtechnology-Bigdata - Overviewandvocabulary. Он призван обеспечить взаимопонимание между органами власти, НИИ и компаниями, а также осуществляет перевод английский терминов из мирового стандарта. Был разработан стандарт «Информационные технологии. Эталонная архитектура больших данных Часть 1 Структура и процесс применения», входящий в серию из 5 стандартов

В планах разработать и принять ещё 8 стандартов касательно архитектуры, безопасности, методов анализа, сценариев использования. Планируется создание госоператора больших данных. Доступ к государственным большим данным будет предоставлять госкорпорация. И она же будет формировать дата-сеты на основании запросов разработчиков, осуществлять их обезличивание и обеспечит создание инфраструктуры доступа к государственным наборам данных.

Большие данные обычно поступают из:

1) Интернета,

2) корпоративных архивов,

3) показаний датчиков и приборов.

Большими данными пользуются ВТБ24 для сегментации и управления оттоком клиентов, а Альфа-банк применяет их для анализа социальных сетей, оценок кредитоспособности клиентов. Примером сервиса, работающего с большими данными, является Google Trends[5].

Благодаря реализации законодательных инициатив наблюдается развитие российского рынка больших данных. Российские организации выделяют средства на внедрение технологий больших данных, а рынок оценивается в 45 млрд руб. с потенциальным приростом в 12 %.

Мировой рынок больших данных оценивается в 41,85 млрд $ по итогам 2019 года. По прогнозам он вырастет до 115,13 млрд и будет расти в среднем на 11,9 % ежегодно с 2020 по 2028 год.

У ЕС есть планы по созданию единого рынка данных для противостояния Facebook, Googleи Amazon. Это сделано с целью потеснить американские корпорации и обойти китайские. “В настоящее время очень малое число крупных технологических компаний хранит значительную часть мировых данных. Это серьезное препятствие для развития бизнеса на основе данных, для появления и роста новых компаний и введения инноваций, в том числе в Европе, но при правильном подходе перед нами могут раскрыться огромные возможности,” -- говорится в предложении Европейской комиссии.

Доля сегментов рынка больших данных в объёме выручки в процентах:

1) IT-сервисы - 41 %,

2) Программное обеспечение - 35,5 %,

3) Аппаратные решения - 12,5 %,

4) Бизнес-сервисы - 11 %.

Крупнейшим рынком больших данных является США с доходом в 100 млрд долларов, на втором месте Япония с 9,6 млрд долларов, на третьем Великобритания с 9,2 млрд долларов. Рынок США составляет 53 % от всего рынка больших данных.

IBMинвестировала в анализ больших данных порядка 12 млрд долларов

Республика Корея поставила своей целью формирование электронного правительства на основе технологии больших данных.

Большие данные используются в Нью-Йорке при сборе информации городскими камерами, в Барселоне для изучения большого количества данных о жизни города, в частности, статистики загруженности автобусных маршрутов, IBMприменяет их для проникновения на рынок медицины. Компания создала суперкомпьютер для постановки диагнозов пациентам “Watson”, но он выдаёт много ошибок [6].

Развитию BigDataпридал бы импульс диалог между государством и бизнесом для обеспечения их повсеместного внедрения.

Ускорению этого процесса может помочь:

1) повышения доверия к облачным хранилищам,

2) стабильность экономики,

3) наличие квалифицированных кадров,

4) большая открытость компаний.

От внедрения выиграют компании, умеющие обращаться с данными и процессами управления их жизненным циклом.

Основные проблемы анализа больших данных [7]:

1) разнородность,

2) накопление шума в виде большого количества информации и параметр оценки,

3) ложная корреляция, которая может привести к ошибочным открытиям и неправильным выводам,

4) случайнаяэндогенность, возникающая из-за высокой размерности.

Выделяют 4 сценарий развития больших данных [8] :

1) Пессимистичный

Заключается в ограничениях на использования данных и отсутствии поддержки. В таком случае вклад в ВВП составил не более 1 процента и прирост будет низким.

2) Бездействия

Есть установленные ограничивающие прецеденты. Доля составит 0,5 % и прирост будет оставаться низким, но большим, чем в первом варианте.

3) Базовый

Будет установлен упрощённый доступ и обработка, разработана стратегия БД традиционных индустрий. Доля прироста по отношению к 2019 составит 1,2 % и составит 100 млрд рублей.

4) Оптимистичный

Будет обеспечена возможность обмена данными, финансированы инновации и ресурсная экосистема. Установлены стимулы для инноваций. Прирост составит 1,8 % и увеличится на 160 млрд рублей.

5) Мечта

Установлены платформы для крупномасштабного обмена данными. Определены специализированные государственные инвестиционные программы и доступна финансовая поддержка экспорта. Рост в 2,4 % и составит 230 млрд рублей.

Использованные источники

1. Большие данные [Электронный ресурс]. URL: Ьйр8://ги.,шкфеёт.о^/'шЫ/Большие_данные

2. Что такое Bigdata: собрали всё самое важное о больших данных [Электронный ресурс]. URL: https://rb.ru/howto/chto-takoe-big-data/

3. Аналитика BigData- реалии и перспективы в России и мире - [Электронный ресурс]. URL: https://habr.com/ru/company/vk/blog/449370/

4. Big Data: что это, где и как использовать технологии больших данных [Электронный ресурс]. URL: https://www.calltouch.ru/glossary/big-data/

5. Большие данные (BigData) [Электронный ресурс]. URL: https://www.tadviser.m/mdex.php/Статья:Большие_данные_(Big_Data)_в_России

6. Большие данные (BigData) мировой рынок [Электронный ресурс].URL:https://www.tadviser.ru/index.php/Статья:Большие_данные_(Big_Data)_мировой_рынок

7. Проблемы анализа больших данных [Электронный ресурс]. URL: https://habr.com/ru/post/456088/

8. Big Data: перспективыразвития, трендыиобъёмырынкабольшихданных [Электронныйресурс] - URL: https://delprof.ru/press-center/open- analytics/big-data-perspektivy-razvitiya-trendy-i-obemy-rynka-bolshikh-dannykh/

Размещено на Allbest.ru


Подобные документы

  • Этапы статистического анализа данных, приемы и методы его проведения. Ключевые положения закона больших чисел в теории вероятностей, его общий смысл. Теорема Бернулли - простейшая форма закона больших чисел. Количество данных, способы его измерения.

    реферат [112,3 K], добавлен 03.03.2014

  • Обработка текстовых данных, хранящихся в файле. Задачи и алгоритмы обработки больших массивов действительных и натуральных чисел. Практические задачи по алгоритмам обработки данных. Решение задачи о пяти ферзях. Программа, которая реализует сортировку Шел

    курсовая работа [29,2 K], добавлен 09.02.2011

  • Открытые данные - машиночитаемые данные доступные для широкого круга лиц. Государство - один из самых больших потенциальных генераторов данных в сеть. Некоммерческие международные и российские негосударственные проекты, посвящённые открытым данным.

    реферат [667,0 K], добавлен 25.12.2012

  • Система управление базами данных, реляционная модель. Принципы взаимодействия между клиентскими и серверными частями. Трехуровневая модель технологии "клиент-сервер". Фрактальные методы сжатия больших объемов данных. Анализ концепции хранилища данных.

    курс лекций [265,0 K], добавлен 05.06.2009

  • Проблема применения методов прогнозирования кадровой работы на основе использования компьютерных технологий. Концепция банка данных, сущность и функции. Отличие реляционных и объектно-ориентированных баз данных. Организация и технология обработки данных.

    реферат [1,0 M], добавлен 23.09.2014

  • Рассмотрение общей характеристики данных. Исследование особенностей и назначения линейных, табличных и иерархических структур данных, анализ процесса их упорядочения. Рассмотрение основных режимов обработки данных. Описание алгоритма решения задачи.

    реферат [27,4 K], добавлен 20.04.2019

  • Изучение существующих методов и программного обеспечения для извлечения числовых данных из графической информации. Программное обеспечение "graphtrace", его структура и методы обработки данных. Использование этой системы для данных различного типа.

    дипломная работа [3,9 M], добавлен 06.03.2013

  • Технология деятельности техника-программиста на предприятии. Анализ предметной области. Обоснование выбора среды разработки. Сравнительный анализ методов сортировки данных. Проектирование базы данных. Методы, алгоритм и средства обработки данных.

    отчет по практике [498,2 K], добавлен 03.05.2015

  • Термины "логический" и "физический" как отражение различия аспектов представления данных. Методы доступа к записям в файлах. Структура систем управления базами данных. Отличительные особенности обработки данных, характерные для файловых систем и СУБД.

    лекция [169,7 K], добавлен 19.08.2013

  • Возможности Matlab, выполнении математических и логических операций, интерактивные инструменты построения графиков. Конструкции для обработки и анализа больших наборов данных, программные и отладочные инструменты, оптимизация данных, операций и функций.

    статья [170,5 K], добавлен 01.05.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.