Корпоративные хранилища данных: архитектуры, методы построения, основные концепции анализа информации

Основные элементы концепции хранилищ данных. Архитектуры глобальных хранилищ данных. Взаимосвязанные и независимые магазины данных. Анализ методов повышения эффективности алгоритмов обработки хранимых данных в связи с валообразным увеличением их объема.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 15.08.2020
Размер файла 182,6 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

КОРПОРАТИВНЫЕ ХРАНИЛИЩА ДАННЫХ: АРХИТЕКТУРЫ, МЕТОДЫ ПОСТРОЕНИЯ, ОСНОВНЫЕ КОНЦЕПЦИИ АНАЛИЗА ИНФОРМАЦИИ

Аспирантка Кутенкова Ю.Ф.

Таганрогский радиотехнический университет

Россия, г. Таганрог, тел 8-8364-371787

This article considers problems, connected with corporate data storages, and existing architectures, development methods and general concepts in particular. Information system features, connected with corporate data storages processing and their requirements are also described. Finally, a conclusion was made that efficiency increase of data processing algorithms in case of fast growing data rates is need.

Исторически сложилось так, что решения по автоматизации оперативной деятельности наиболее развиты. Речь идет о системах транзакционной обработки данных (OLTP), проще называемых оперативными системами. Эти системы обеспечивают регистрацию некоторых фактов, их непродолжительное хранение и сохранение в архивах. Основу таких систем обеспечивают системы управления реляционными базами данных (РСУБД). Традиционным подходом являются попытки использовать уже построенные оперативные системы для поддержки принятия решений. Обычно пытаются строить развитую систему запросов к оперативной системе и использовать полученные после интерпретации отчеты непосредственно для поддержки решений. Отчеты могут строиться на заказной базе, т.е. руководитель запрашивает отчет, и на регулярной, когда отчеты строятся по достижении некоторых событий или времени. Конечно, такая схема обеспечивает в какой-то мере поддержку принятия решений, но она имеет крайне низкую эффективность и огромное число недостатков. Ничтожное количество данных используется для поддержки критически важных решений..

Хранилище данных должно обеспечивать долговременное хранение данных больших объемов, предварительно консолидированных, а также предоставление результирующей информации пользователям в удобной форме для различных форм анализа. При этом к хранилищу данных предъявляются следующие требования: [1]

– Ориентация на предметную область. Хранилище должно разрабатываться с учетом специфики предметной области, а не прикладных областей деятельности.

– Интегрированность и внутренняя непротиворечивость. Поскольку данные в хранилище поступают из разных источников (OLTP-системы, архивы и пр.), необходимо привести их к единому формату. В процессе загрузки хранилища должна быть обеспечена консолидация, очистка и согласованность данных.

– Привязка ко времени занесения данных в хранилище. Учет хронологии позволяет существенно сократить время выполнения аналитических запросов.

– Неизменяемость. Данные не обновляются в оперативном режиме, а лишь регулярно пополняются из систем оперативной обработки по заданной дисциплине.

– Поддержка высокой скорости получения данных из хранилища.

– Возможность получения и сравнения срезов данных.

– Полнота и достоверность хранимых данных.

– Поддержка качественного процесса пополнения данных.

Рис. 1. Основные элементы концепции хранилищ данных

Рассмотрим основные архитектуры построения хранилищ данных, не затрагивая моделей представления данных.

1. Глобальная архитектура хранилища данных.

Такая архитектура может быть определена как централизованное с точки зрения доступа и управления хранилище данных. Основной недостаток этой архитектуры - централизация. Однако, глобальная архитектура построения хранилища данных не исключает возможности физического распределения информации по узлам корпоративной сети или по жестким дискам. К примеру, централизованное глобальное хранилище данных может использоваться всеми подразделениями организации при анализе данных, но управление осуществляется отделом информатизации предприятия. Распределенное глобальное хранилище данных подразумевает расположение данных на различных узлах локальной сети, но точно также контролируется одним отделом информатизации. Глобальная архитектура позволяет конечным пользователям иметь наиболее полную информацию о деятельности предприятия в целом, но, однако, такая архитектура является весьма дорогостоящей в реализации. Также существенно увеличивается время отклика системы на запросы пользователя.

Рис.2. Архитектуры глобальных хранилищ данных

2. Архитектура, основанная на независимых магазинах данных.

Такая архитектура подразумевает наличие нескольких магазинов данных, независимых друг от друга, каждый из которых находится в ведении отдельных групп пользователей (подразделений предприятия). В принципе, такие магазины данных могут быть даже не соединены с магазинами данных других отделов. Данные могут поступать как из внешних независимых источников, так и из глобального хранилища данных, если такое существует. Преимуществом такой архитектуры является относительно высокая скорость реакции на запросы пользователя. Однако, недостатком является отсутствие глобального представления всех данных предприятия. Также следует сказать, что данные магазина данных могут быть доступны только подразделению-владельцу.

3. Архитектура, основанная на взаимосвязанных магазинах данных.

Отличается от описанной выше тем, что в этом случае магазины данных подразделений могут связываться или объединяться с целью представления более полной информации. Фактически, на самом высоком уровне интеграции такая архитектура представляет собой глобальное хранилище данных. Каждый магазин данных находится в ведении подразделения-владельца, которые выполняют обновление данных.

Рис.3. Взаимосвязанные и независимые магазины данных

Среди распространенных методов реализации хранилищ данных выделяют два основных подхода: нисходящий и восходящий. Нисходящий подход предполагает наличие глобального хранилища данных; магазины данных организуются позже, исходя из соображений безопасности, потребностях в данных подразделений и т.д. Второй подход, соответственно, ориентирован на первоначальное построение магазинов данных. Это не означает обязательного отсутствия глобального хранилища данных - оно может быть построено в дальнейшем как расширение уже существующих магазинов данных.

Восходящий подход наиболее распространен в настоящее время, в основном из-за быстрой окупаемости, т.к. такой подход не требует столь комплексного анализа и дизайна, как нисходящий. Однако, с ростом числа магазинов данных возможно рассогласование хранимой информации.

С точки зрения моделирования данных, при проектировании хранилища данных используют следующие подходы: либо ER-моделирование предметной области, либо многомерное ее представление, и на настоящий момент нет общепринятого мнения, какой из этих подходов более эффективен.

Применительно к анализу данных на данный момент широко используются следующие подходы: формирование отчетов, многомерный анализ данных (OLAP) и т.н. разработка данных (Data Mining).

Формирование отчетов заключается в постановке определенного запроса, поиске релевантной информации и представлении ее в наглядной форме. Процесс формирования отчетов может быть представлен в виде нескольких этапов:

1. Определение запроса,

2. доступ к данным и поиск,

3. вычисления,

4. подготовка отчета,

5. доставка отчета пользователю.

Многомерный анализ (OLAP), представляя данные в виде многомерного куба (гиперкуба), позволяет произвести анализ зависимости одной из величин от большого количества факторов, а также на различных уровнях детализации. При этом гиперкуб - это концептуальная логическая модель организации данных, а не физическая, поскольку храниться такие данные могут и в реляционных таблицах (как правило, используются схемы типа «звезда» и «снежинка»).

Разработка данных (Data mining) является сравнительно новой технологией анализа и заключается в извлечении из данных полезной (а порой и неожиданной) информации и новых знаний, которые затем можно использовать. Здесь можно отметить, что в некоторых работах, к примеру, в [2,3], авторы говорят об интеграции OLAP и разработки данных как о многоуровневом анализе агрегированных данных.

Среди задач разработки данных наиболее известными являются:

1. поиск ассоциативных правил;

2. многоуровневая агрегация данных;

3. классификация данных;

4. кластерный анализ.

При этом весьма актуальным становится вопрос о решении этих задач для распределенных источников данных, т.е. для случая, когда необходимо обработать информацию, к примеру, в глобальном распределенном хранилище. В свою очередь, распределенные данные могут быть расщеплены как горизонтально, так и вертикально, что делает нетривиальным процесс объединения локальных решений[4].

Также в области разработки данных можно выделить задачи по повышению эффективности алгоритмов разработки данных. Например, для поиска ассоциативных правил существует несколько различных алгоритмов, наиболее известные из которых: Apriori, SETM, AIS, DHP. Работы в направлении повышения их эффективности ведутся и по сей день: были предложены разнообразные модификации этих алгоритмов, ориентированные на параллельную обработку данных и использование хэш-таблиц.

В заключение можно сказать несколько слов о перспективах развития концепции хранилища данных. Вполне очевидно, что востребованность хранилищ данных среди корпораций будет и дальше возрастать - это прежде всего связано с интеграцией предприятий, жесткой конкуренцией на рынке и с ориентацией фирм-производителей «на конечного пользователя». Кажется наиболее вероятным акцентирование внимания разработчиков на дальнейшем повышении эффективности алгоритмов обработки хранимых данных в связи с валообразным увеличением их объема. Кроме того, по этой же причине в последнее время распределенное размещение данных становится более предпочтительным, а потому требуются новые подходы к их обработке и анализу.

данные хранилище алгоритм обработка

Литература

1. C. Ballard, D. Herreman, D. Schau. Data Modelling Techniques for Data Warehousing. International Technical Support Organization, 1998.

2. M. Chen, J. Han, P.S. Yu. Data Mining: an overview from database perspective. http://citeseer.nj.nec.com/cs.

3. J.Han. OLAP mining: an integration of OLAP with data mining. http://citeseer.nj.nec.com/cs.

4. H. Kargupta, B. Park, D. Hershberger, E. Johnson. Collective data mining: a new perspective toward distributed data mining. http:www//citeseer.nj.nec.com/cs.

Размещено на Allbest.ru


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.