Главная Коллекция "Otherreferats" Программирование, компьютеры и кибернетика Корпоративные хранилища данных: архитектуры, методы построения, основные концепции анализа информации

Корпоративные хранилища данных: архитектуры, методы построения, основные концепции анализа информации

Основные элементы концепции хранилищ данных. Архитектуры глобальных хранилищ данных. Взаимосвязанные и независимые магазины данных. Анализ методов повышения эффективности алгоритмов обработки хранимых данных в связи с валообразным увеличением их объема.

Рубрика	Программирование, компьютеры и кибернетика
Вид	статья
Язык	русский
Дата добавления	15.08.2020
Размер файла	182,6 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

КОРПОРАТИВНЫЕ ХРАНИЛИЩА ДАННЫХ: АРХИТЕКТУРЫ, МЕТОДЫ ПОСТРОЕНИЯ, ОСНОВНЫЕ КОНЦЕПЦИИ АНАЛИЗА ИНФОРМАЦИИ

Аспирантка Кутенкова Ю.Ф.

Таганрогский радиотехнический университет

Россия, г. Таганрог, тел 8-8364-371787

This article considers problems, connected with corporate data storages, and existing architectures, development methods and general concepts in particular. Information system features, connected with corporate data storages processing and their requirements are also described. Finally, a conclusion was made that efficiency increase of data processing algorithms in case of fast growing data rates is need.

Исторически сложилось так, что решения по автоматизации оперативной деятельности наиболее развиты. Речь идет о системах транзакционной обработки данных (OLTP), проще называемых оперативными системами. Эти системы обеспечивают регистрацию некоторых фактов, их непродолжительное хранение и сохранение в архивах. Основу таких систем обеспечивают системы управления реляционными базами данных (РСУБД). Традиционным подходом являются попытки использовать уже построенные оперативные системы для поддержки принятия решений. Обычно пытаются строить развитую систему запросов к оперативной системе и использовать полученные после интерпретации отчеты непосредственно для поддержки решений. Отчеты могут строиться на заказной базе, т.е. руководитель запрашивает отчет, и на регулярной, когда отчеты строятся по достижении некоторых событий или времени. Конечно, такая схема обеспечивает в какой-то мере поддержку принятия решений, но она имеет крайне низкую эффективность и огромное число недостатков. Ничтожное количество данных используется для поддержки критически важных решений..

Хранилище данных должно обеспечивать долговременное хранение данных больших объемов, предварительно консолидированных, а также предоставление результирующей информации пользователям в удобной форме для различных форм анализа. При этом к хранилищу данных предъявляются следующие требования: [1]

– Ориентация на предметную область. Хранилище должно разрабатываться с учетом специфики предметной области, а не прикладных областей деятельности.

– Интегрированность и внутренняя непротиворечивость. Поскольку данные в хранилище поступают из разных источников (OLTP-системы, архивы и пр.), необходимо привести их к единому формату. В процессе загрузки хранилища должна быть обеспечена консолидация, очистка и согласованность данных.

– Привязка ко времени занесения данных в хранилище. Учет хронологии позволяет существенно сократить время выполнения аналитических запросов.

– Неизменяемость. Данные не обновляются в оперативном режиме, а лишь регулярно пополняются из систем оперативной обработки по заданной дисциплине.

– Поддержка высокой скорости получения данных из хранилища.

– Возможность получения и сравнения срезов данных.

– Полнота и достоверность хранимых данных.

– Поддержка качественного процесса пополнения данных.

Рис. 1. Основные элементы концепции хранилищ данных

Рассмотрим основные архитектуры построения хранилищ данных, не затрагивая моделей представления данных.

1. Глобальная архитектура хранилища данных.

Такая архитектура может быть определена как централизованное с точки зрения доступа и управления хранилище данных. Основной недостаток этой архитектуры - централизация. Однако, глобальная архитектура построения хранилища данных не исключает возможности физического распределения информации по узлам корпоративной сети или по жестким дискам. К примеру, централизованное глобальное хранилище данных может использоваться всеми подразделениями организации при анализе данных, но управление осуществляется отделом информатизации предприятия. Распределенное глобальное хранилище данных подразумевает расположение данных на различных узлах локальной сети, но точно также контролируется одним отделом информатизации. Глобальная архитектура позволяет конечным пользователям иметь наиболее полную информацию о деятельности предприятия в целом, но, однако, такая архитектура является весьма дорогостоящей в реализации. Также существенно увеличивается время отклика системы на запросы пользователя.

Рис.2. Архитектуры глобальных хранилищ данных

2. Архитектура, основанная на независимых магазинах данных.

Такая архитектура подразумевает наличие нескольких магазинов данных, независимых друг от друга, каждый из которых находится в ведении отдельных групп пользователей (подразделений предприятия). В принципе, такие магазины данных могут быть даже не соединены с магазинами данных других отделов. Данные могут поступать как из внешних независимых источников, так и из глобального хранилища данных, если такое существует. Преимуществом такой архитектуры является относительно высокая скорость реакции на запросы пользователя. Однако, недостатком является отсутствие глобального представления всех данных предприятия. Также следует сказать, что данные магазина данных могут быть доступны только подразделению-владельцу.

3. Архитектура, основанная на взаимосвязанных магазинах данных.

Отличается от описанной выше тем, что в этом случае магазины данных подразделений могут связываться или объединяться с целью представления более полной информации. Фактически, на самом высоком уровне интеграции такая архитектура представляет собой глобальное хранилище данных. Каждый магазин данных находится в ведении подразделения-владельца, которые выполняют обновление данных.

Рис.3. Взаимосвязанные и независимые магазины данных

Среди распространенных методов реализации хранилищ данных выделяют два основных подхода: нисходящий и восходящий. Нисходящий подход предполагает наличие глобального хранилища данных; магазины данных организуются позже, исходя из соображений безопасности, потребностях в данных подразделений и т.д. Второй подход, соответственно, ориентирован на первоначальное построение магазинов данных. Это не означает обязательного отсутствия глобального хранилища данных - оно может быть построено в дальнейшем как расширение уже существующих магазинов данных.

Восходящий подход наиболее распространен в настоящее время, в основном из-за быстрой окупаемости, т.к. такой подход не требует столь комплексного анализа и дизайна, как нисходящий. Однако, с ростом числа магазинов данных возможно рассогласование хранимой информации.

С точки зрения моделирования данных, при проектировании хранилища данных используют следующие подходы: либо ER-моделирование предметной области, либо многомерное ее представление, и на настоящий момент нет общепринятого мнения, какой из этих подходов более эффективен.

Применительно к анализу данных на данный момент широко используются следующие подходы: формирование отчетов, многомерный анализ данных (OLAP) и т.н. разработка данных (Data Mining).

Формирование отчетов заключается в постановке определенного запроса, поиске релевантной информации и представлении ее в наглядной форме. Процесс формирования отчетов может быть представлен в виде нескольких этапов:

1. Определение запроса,

2. доступ к данным и поиск,

3. вычисления,

4. подготовка отчета,

5. доставка отчета пользователю.

Многомерный анализ (OLAP), представляя данные в виде многомерного куба (гиперкуба), позволяет произвести анализ зависимости одной из величин от большого количества факторов, а также на различных уровнях детализации. При этом гиперкуб - это концептуальная логическая модель организации данных, а не физическая, поскольку храниться такие данные могут и в реляционных таблицах (как правило, используются схемы типа «звезда» и «снежинка»).

Разработка данных (Data mining) является сравнительно новой технологией анализа и заключается в извлечении из данных полезной (а порой и неожиданной) информации и новых знаний, которые затем можно использовать. Здесь можно отметить, что в некоторых работах, к примеру, в [2,3], авторы говорят об интеграции OLAP и разработки данных как о многоуровневом анализе агрегированных данных.

Среди задач разработки данных наиболее известными являются:

1. поиск ассоциативных правил;

2. многоуровневая агрегация данных;

3. классификация данных;

4. кластерный анализ.

При этом весьма актуальным становится вопрос о решении этих задач для распределенных источников данных, т.е. для случая, когда необходимо обработать информацию, к примеру, в глобальном распределенном хранилище. В свою очередь, распределенные данные могут быть расщеплены как горизонтально, так и вертикально, что делает нетривиальным процесс объединения локальных решений[4].

Также в области разработки данных можно выделить задачи по повышению эффективности алгоритмов разработки данных. Например, для поиска ассоциативных правил существует несколько различных алгоритмов, наиболее известные из которых: Apriori, SETM, AIS, DHP. Работы в направлении повышения их эффективности ведутся и по сей день: были предложены разнообразные модификации этих алгоритмов, ориентированные на параллельную обработку данных и использование хэш-таблиц.

В заключение можно сказать несколько слов о перспективах развития концепции хранилища данных. Вполне очевидно, что востребованность хранилищ данных среди корпораций будет и дальше возрастать - это прежде всего связано с интеграцией предприятий, жесткой конкуренцией на рынке и с ориентацией фирм-производителей «на конечного пользователя». Кажется наиболее вероятным акцентирование внимания разработчиков на дальнейшем повышении эффективности алгоритмов обработки хранимых данных в связи с валообразным увеличением их объема. Кроме того, по этой же причине в последнее время распределенное размещение данных становится более предпочтительным, а потому требуются новые подходы к их обработке и анализу.

данные хранилище алгоритм обработка

Литература

1. C. Ballard, D. Herreman, D. Schau. Data Modelling Techniques for Data Warehousing. International Technical Support Organization, 1998.

2. M. Chen, J. Han, P.S. Yu. Data Mining: an overview from database perspective. http://citeseer.nj.nec.com/cs.

3. J.Han. OLAP mining: an integration of OLAP with data mining. http://citeseer.nj.nec.com/cs.

4. H. Kargupta, B. Park, D. Hershberger, E. Johnson. Collective data mining: a new perspective toward distributed data mining. http:www//citeseer.nj.nec.com/cs.

Размещено на Allbest.ru

статья "Корпоративные хранилища данных: архитектуры, методы построения, основные концепции анализа информации" скачать

Подобные документы

Хранилища данных
Концепции хранилищ данных для анализа и их составляющие: интеграции и согласования данных из различных источников, разделения наборов данных для систем обработки транзакций и поддержки принятия решений. Архитектура баз для хранилищ и витрины данных.

реферат [1,3 M], добавлен 25.03.2013
Аналитическая обработка данных (OLAP). Информационное хранилище данных. Модели данных, используемые для построения информационных хранилищ
Понимание хранилища данных, его ключевые особенности. Основные типы хранилищ данных. Главные неудобства размерного подхода. Обработка информации, аналитическая обработка и добыча данных. Интерактивная аналитическая обработка данных в реальном времени.

реферат [849,7 K], добавлен 16.12.2016
Классификация баз данных. Фактографические и документальные базы данных. Базы данных оперативной и ретроспективной информации. Хранилища данных. Соотношение основных требований и свойств систем управления базами данных: система компромиссов
Формы представляемой информации. Основные типы используемой модели данных. Уровни информационных процессов. Поиск информации и поиск данных. Сетевое хранилище данных. Проблемы разработки и сопровождения хранилищ данных. Технологии обработки данных.

лекция [15,5 K], добавлен 19.08.2013
Построение хранилища данных на базе информационной системы предприятия
Методы построения хранилища данных на основе информационной системы реального коммерческого предприятия. Основные аналитические задачи, для решения которых планируется внедрение хранилищ данных. Загрузка процессоров на серверах. Схемы хранения данных.

контрольная работа [401,0 K], добавлен 31.05.2013
Организация хранилищ данных
Определение многомерной модели данных для удовлетворения основных информационных потребностей предприятия. Экстракция, загрузка и перенос данных из различных источников данных. Разработка собственных ETL–систем. Оптимизация работы хранилища данных.

презентация [9,1 M], добавлен 25.09.2013
Хранилища и базы данных
Принципы построения и основные компоненты хранилищ данных, общая характеристика основных требований к ним по Р. Кинболлу. Понятие и виды баз данных. Методика проектирования комплекса задач автоматизации учета по счету 02 "Амортизация основных средств".

контрольная работа [27,8 K], добавлен 12.11.2010
Основные принципы организации баз данных
Системы автоматизированной обработки информации. Хранение большого объема информации. Понятие базы данных (БД). Обеспечение секретности данных. Уровни представления данных в БД. Логическая структура данных. Ограничения, накладываемые на данные.

реферат [65,2 K], добавлен 26.11.2011
Система анализа полученных из хранилищ данных
Разработка программного обеспечения для анализа полученных из хранилища данных. Система SAS Enterprise Miner и система Weka. Расчёт капитальных затрат на создание ПМК для анализа полученных из хранилища данных с использованием библиотеки XELOPES.

дипломная работа [1,4 M], добавлен 07.06.2012
Базы данных
Модели информационного процесса обработки данных. Классификация баз данных. Сеть архитектуры и технология клиент-сервер. Создание запросов к реляционным базам данных на SQL. Работа с электронными таблицами MS Excel: форматирование данных, вычисления.

контрольная работа [17,8 K], добавлен 17.01.2010
Наращивание экономической и статистической информации в двухструктурных реляционных базах данных
Эволюция концепций баз данных. Требования, которым должна удовлетворять организация базы данных. Модели представления данных. Язык SQL как стандартный язык баз данных. Архитектуры баз данных. Среда Delphi как средство для разработки СУБД.

дипломная работа [278,9 K], добавлен 26.11.2004

Другие документы, подобные "Корпоративные хранилища данных: архитектуры, методы построения, основные концепции анализа информации"

весь список подобных работ

скачать работу можно здесь

сколько стоит заказать работу?

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.