Хранилище данных и его использование в корпоративных информационных системах

Хранилище данных как один из важнейших инструментов управления и развития бизнеса. Компоненты, с помощью которых реализуется анализ данных в хранилище. Состав корпоративного хранилища данных, его преимущества. Практическая реализация тройной стратегии.

Рубрика Программирование, компьютеры и кибернетика
Вид реферат
Язык русский
Дата добавления 04.07.2013
Размер файла 480,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru

Размещено на http://www.allbest.ru

Оглавление

Введение

Что такое хранилище данных

Назначение продукта

Модели данных

Ведение НСИ

Данные и метаданные

Состав корпоративного хранилища данных

Заключение

Список литературы

Введение

В настоящее время совершенствование корпоративного управления становится ключевой стратегической задачей развития и жизнедеятельности любого предприятия. В силу того, что практически все экстенсивные способы совершенствования управления исчерпаны, единственным способом выживания в конкурентной борьбе остаются интенсивные способы улучшения управления. Одним из таких способов является информатизация корпоративного управления за счет внедрения информационных технологий.

Что такое хранилище данных

Хранилище данных, как один из важнейших инструментов управления и развития бизнеса является предметно-ориентированным, интегрированным, зависимым от времени набором данных. Хранилище данных нацелено не только на автоматизацию бизнес-процессов, но и на содержательный анализ информации и предназначено для поддержки принятия решений, а его пользователи - это высший и средний менеджмент организации, аналитики, представители подразделений финансового анализа, маркетинга и других отделов.

Интегрированность данных означает, что, например, данные о клиентах, подразделениях, продуктах и услугах, полученные из различных источников, хранятся согласованно и централизованно. При этом полная информация о клиенте может включать данные, поступившие как из основных транзакционных и информационных (бухгалтерских, торговых либо банковских) систем, так и из фронт-офисного или иного приложения.

Хранилище содержит исторические данные, или зависимый от времени набор данных. Если в оперативных источниках представлены самые последние значения (например, текущее наименование клиента или его физический адрес), то хранилище данных будет содержать в себе всю их предысторию с указанием периода, когда те или иные данные были актуальны.

Назначение продукта

Хранилище данных позволяет собрать в едином, по крайней мере с точки зрения пользователя, месте - супербазе всю информацию, которая может понадобиться управляющему при принятии решения. Источниками данных для информационного хранилища служат в первую очередь данные из разрозненных транзакционных и учетных информационных систем, основанных на различных реляционных СУБД, которые обслуживают повседневную бизнес-деятельность. Источниками необходимой информации могут быть также газеты, радио, телевидение, Интернет и любые другие. При этом предполагается, что данные предварительно должны быть приведены к единым стандартам, очищены от противоречий, структурированы и обобщены с требуемым уровнем детализации.

Хранилище данных может заменять существующие информационно-аналитические системы или являться надстройкой над ними.

Хранилище позволяет вести процесс анализа показателей собственной коммерческой деятельности и деятельности конкурентов в их взаимосвязи с внутренними и внешними факторами.

Анализ продаж помогает выявлять тенденции, планировать продажи по продуктам, клиентам, подразделениям и, исходя из результатов сбыта, строить механизмы стимулирования клиентских и продуктовых подразделений. Благодаря использованию хранилища данных можно получить интегрированное представление о результатах продаж и взять эту информацию на вооружение при формировании планов.

Преимущества хранилища данных:

Отсутствие информационного посредника сокращает число невыполненных заказов;

Повторный анализ может проводиться столько раз, сколько это необходимо;

Использование киоска данных не снижает производительности операционной системы;

Увеличение числа аналитических функций и совершенствование возможностей генерации отчетов;

Исходными данными для аналитической системы могут быть либо существующие источники, либо специально организованные хранилища и витрины данных;

Наилучшим с точки зрения производительности и надежности решения является сохранение данных в корпоративном хранилище. В этом случае при решении задач анализа и оценки используется разнородная, но взаимосвязанная информация о всей финансово-хозяйственной деятельности компании;

Работа будет происходить только с хранилищем данных и соответственно возрастет скорость выполнения заданий;

Базы данных имеющихся информационных систем не будут загружаться дополнительной работой;

Сохранность всех исторических данных будет обеспечена.

Модели данных

TEDF может быть реализовано как на реляционной, так и на многомерной СУБД. Центральным компонентом хранилища является отраслевая модель данных. Витрины, построенные на основе хранилища данных или на базе первичных источников, проектируются для удовлетворения потребностей определенной группы пользователей, ориентированных на решение конкретных аналитических задач. Витрины позволяют сравнительно легко обеспечить приемлемую производительность, так как содержат меньший объем данных, заблаговременно их агрегируют и востребованы ограниченным кругом пользователей.

Анализ данных в хранилище реализуется компонентом UniCube, поддерживающим многомерное представление и визуализацию данных с целью их анализа и подготовки отчетов.

Компонент Trisoft UniCube характеризуется следующими возможностями:

Разделение данных на показатели (переменные) и измерения, определяющие соответственно состояние и пространство бизнеса.

Логическое представление значений показателей в виде многомерных кубов, упорядоченных по равноправным измерениям.

Неограниченное число и количество уровней иерархических связей между значениями измерениями.

Гибкое манипулирование данными. Возможность построение подмножества значений показателя по любому дискриминирующему правилу, определенному на множестве значений его измерений.

Неограниченные возможности агрегирования заданного подмножества значений показателя. Предоставлятется возможность вычислять не только сумму значений, но и любой другой определенный пользователем функционал, например, минимум, максимум, среднее, медиану и прочие.

Возможность обработки запросов в "реальном времени" - в темпе процесса аналитического осмысления данных пользователем.

Развитые средства табличного и графического представления данных пользователю.

Крупнейшие компании России внедряют хранилища с середины 90х годов. Предыдущие проекты нельзя назвать неуспешными, так как они решали текущие задачи, в частности, обеспечить руководство компании достоверной непротиворечивой информацией хотя бы по некоторым направлениям деятельности. Однако рост компаний, изменение законодательства и возросшие требования к стратегическому анализу и планированию требуют дальнейшего развития стратегий построения хранилища данных.

К этому времени в компаниях уже сформировалось понимание, что для успешного создания хранилища данных необходимо создание системы централизованного ведения НСИ и системы управления метаданными. К сожалению, эти проекты все еще рассматриваются по отдельности. Принято считать, что создание корпоративных хранилищ данных (КХД) является проектом интеграции данных из разрозненных источников. В то же время, источники содержат не только данные, но и НСИ, а также элементы метаданных. Как правило, крупные компании начинают проект построения хранилищ данных без выделения средств и ресурсов на ведение метаданных или НСИ.

Причиной построения хранилищ данных в большинстве случаев являются требования бизнес - пользователей, которые более не в состоянии сводить воедино данные из различных информационных систем. То есть, именно требования бизнес - пользователей определяют, в первую очередь, информационное содержание будущего хранилища данных.

Источниками данных для будущего хранилища являются транзакционные базы данных (OLTP), унаследованные системы, файловые хранилища, интранет-сайты, разрозненные локальные аналитические приложения. Прежде всего, необходимо определить, где находятся требуемые данные. Поскольку, как правило, эти данные хранятся в различных форматах, необходимо их привести к единому виду, для чего применяются довольно сложные системы извлечения, преобразования и загрузки (Extract, Transformation, Load -ETL) в хранилище данных.

Эта работа не может быть выполнена без сопутствующего анализа метаданных и НСИ. Более того, практика внедрения хранилищ данных показала , что метаданные, созданные и импортированные из различных источников, фактически управляют всем процессом сбора данных.

Ведение НСИ

Прототипом системы управления метаданными являлись системы словарей-справочников данных, которые были предназначены для логической централизации сведений об информационных ресурсах предприятия и должны были выполнять функции инструмента управления информационными ресурсами предприятия.

Источники данных, в том числе транзакционные системы, содержат метаданные в неявном виде. Например, названия таблиц и имена столбцов в таблицах являются техническими метаданными, а определения сущностей, хранящихся в таблицах, представляют собой бизнес метаданные. Статистика работы приложений, которая может вестись в системах мониторинга, должна быть отнесена к операционным метаданным. Связь между ролями в проекте и правами доступа к базе данных, в том числе правами администрирования, а также данные для аудита и управления изменениями, обычно относятся к проектным метаданным. И, наконец, самая важная часть метаданных - это бизнес метаданные, которые включают в себя бизнес-правила, определения, терминологию, глоссарии, происхождение данных и алгоритмы их обработки.

Структура хранилища данных включает три основных уровня информации: детальные, сводные и архивные данные, а также сопровождающие их метаданные 3. В настоящее время стало ясно, что этот список должен быть дополнен нормативно-справочной информацией. Связь между данными, НСИ и метаданными можно наглядно представить в виде треугольника (рис. 1).

 

Как видно из рисунка, все взаимосвязи распадаются на три пары:

данные - метаданные

данные - НСИ

метаданные - НСИ

Данные и метаданные

В корпоративных информационных системах все не так просто и очевидно. Несмотря на то, что первые публикации о необходимости создания систем словарей-справочников появились в середине 80-х годов, корпоративные ресурсы все еще проектируются, разрабатываются и эксплуатируются обособленно, без создания единого смыслового пространства. Подобная ситуация в библиотечном деле означала бы, что читатель одной библиотеки даже не смог бы узнать, есть ли необходимая ему книга в другой библиотеке. В 1995г. была опубликована статья 4, в которой было указано, что для успешной интеграции данных необходимо организовать и поддерживать поток метаданных. На языке пользователей библиотек это открытие звучит приблизительно так: "Библиотеки должны обмениваться информацией о книгах в едином формате". Сейчас стало ясно, что это требование нуждается в уточнении, так как метаданные порождаются на всех этапах создания и эксплуатации информационных систем.

Состав корпоративного хранилища данных

Корпоративное хранилище данных (КХД) преобразует данные, метаданные и НСИ из разнородных источников и предоставляет их пользователям аналитических систем как единую версию правды. Под источниками данных обычно понимают транзакционные базы данных, унаследованные системы, файлы различных форматов, а также иные источники, данные из которых должны быть предоставлены пользователям.

В состав КХД входят:

средства ETL извлечения, преобразования и загрузки данных в центральное хранилище данных;

центральное хранилище данных (ЦХД), предназначенное и оптимизированное для надежного и защищенного хранения данных;

витрины данных, обеспечивающие эффективный доступ пользователей к данным, которые хранятся в структурах, оптимальных для решения конкретных задач пользователей.

Центральное хранилище включает в себя, прежде всего, три репозитория:

репозиторий нормативно - справочной информации (НСИ);

репозиторий данных;

репозиторий метаданных.

В рассмотренную схему не входят оперативный склад данных, зоны промежуточного хранения (staging area), средства доставки данных и доступа к ним, приложения и другие компоненты КХД, несущественные для данного уровня детализации.

  

Необходимость в репозитории данных стала бесспорной после ряда неудачных попыток создать виртуальные хранилища данных. В этой архитектуре клиентская программа напрямую получала данные из источников, преобразуя их на лету. Время ожидания исполнения запроса и преобразования данных компенсировалось простотой архитектуры. Поскольку результат выполнения запроса не сохранялся, повторный запрос с теми же или подобными параметрами требовал повторного преобразования данных, что и привело к отказу от виртуальных хранилищ и к созданию репозиториев данных.

Текущая ситуация с метаданными и НСИ напоминает положение с виртуальными хранилищами данных. Метаданные и НСИ интенсивно используются на этапе загрузки данных. Очищенные данные размещаются в хранилище данных. Но метаданные и НСИ отбрасываются, как отработанный материал. Создание репозиториев метаданных и НСИ позволит значительно сократить издержки на реализацию КХД и повысить качество информационного обслуживания бизнес - пользователей благодаря многократному использованию согласованных метаданных и НСИ из единого источника.

Пример реализации существующих подходов

В качестве иллюстрации существующих подходов к интеграции данных можно привести статью  о внедрении системы НСИ в банке. Банк затратил более шести месяцев на реинжиниринг процессов планирования и прогнозирования для управления эффективностью деятельности. Успех внедрения инициативы управления НСИ вице-президент банка объясняет тем, что команда сосредоточилась на решении локальной задачи, избегая "большого взрыва", под которым понимается создание корпоративного хранилища данных. По его мнению, создание корпоративных мастер данных является долгой, сложной и рискованной работой.

В качестве следующего этапа планируется создание системы банковской отчетности на основе интеграции всех основных банковских систем с целью использования более детальных данных, согласованных с главной бухгалтерской книгой. В результате будет создан репозиторий финансовых данных, который должен стать основным источником для всех финансовых отчетных систем, и будет поддерживать технологию детализированного (drill-down) анализа.

Внимательное прочтение статьи приводит к следующим выводам. Прежде всего, этот проект не предусматривал интеграцию корпоративных данных и охватывал только реинжиниринг процессов планирования и прогнозирования. Созданный репозиторий данных, по-видимому, является узко тематической витриной, и не способен поддерживать распространенные аналитические методы, например, технологию детализированного (drill-down) анализа.

В противоположность этому, корпоративное хранилище данных предоставляет согласованные корпоративные данные для широкого ряда аналитических приложений. На практике, единую версию данных способно обеспечить только корпоративное хранилище данных, работающее в одной связке с корпоративными системами ведения НСИ и метаданных. В статье же описывается создание единой версии правды лишь для метаданных, ограниченных областью финансовой отчетности.

Таким образом, проектная команда внедрила системы ведения метаданными и НСИ для одной специфической области деятельности. Команда сознательно избегала решений уровня предприятия - не было внедрено ни корпоративное хранилище данных, ни системы ведения метаданными или НСИ компании.

Утверждения о практической невозможности внедрения корпоративного хранилища данных опровергаются проектами, ведущимися сотрудниками IBM на регулярной основе.

Это проект - типичный "fast win", основная цель которого - демонстрация быстрого маленького успеха. На данном этапе никто не задумывается о том, какова будет цена переработки созданных приложений и их включения в корпоративную инфраструктуру. К сожалению, все чаще приходится устранять последствия активности "быстрых победителей", всячески избегающих сложных, длительных и потому рискованных решений.

Практическая реализация тройной стратегии

Хранилище данных как корпоративная память должно предоставлять целостную непротиворечивую информацию, но обычно это не достигается из-за противоречивой НСИ и недостатка единого понимания смысла данных (т.е. метаданных).

Известным решением является анализ данных и метаданных в рамках проекта интеграции данных, но без создания систем ведения метаданных и НСИ. Внедрение этих систем обычно рассматриваются как отдельные проекты и исполняются после внедрения хранилища данных (рис.3).

Недостатки такого подхода обнаруживаются в процессе эксплуатации, а именно, невысокое качество информации, предоставляемой конечным пользователям хранилища данных, из-за отсутствия согласованного управления метаданными и НСИ, дополнительные расходы на переработку хранилища данных с целью приведения существующих процессов интеграции данных в соответствие с требованиями новых систем управления метаданными и/или НСИ. В результате заказчик получает неэффективную работу трех систем управления данными, метаданными и НСИ, сосуществование модулей с близкой функциональностью, растущую стоимость разработки, высокую стоимость владения и разочарование пользователей из-за расхождения данных, метаданных и НСИ.

Проекты по интеграции данных, метаданных и НСИ, выполненные последовательно в любом порядке, не могут обеспечить пользователям требуемое качество информации.

Чтобы решить эту задачу при построении хранилища данных, три взаимосвязанных проекта интеграции данных, метаданных и НСИ должны выполняться одновременно (рис.4).

Интеграция корпоративных метаданных устанавливает единое понимание смысла данных и метаданных.

Интеграция НСИ исключает конфликты в кодировке данных и метаданных.

Интеграция данных предоставляет конечным пользователям единую версию правды на основе согласованных метаданных и НСИ

Корпоративное хранилище данных, построенное в результате скоординированного исполнения этих трех проектов, имеет более высокое качество при пониженной стоимости и сокращенном времени разработки. Предлагаемая стратегия повышает качество информации, предоставляемой хранилищем данных для бизнес - пользователей, и, следовательно, обеспечивает лучшую поддержку принятия решений на основе более точной информации.

Эти три интеграционных проекта (для данных, метаданных и НСИ), выполненные параллельно, позволяют реализовать согласованные архитектуры, окружение, жизненные циклы и ключевые возможности для хранилища данных и систем ведения метаданных и НСИ. Проекты могут начинаться с небольшой задержкой относительно друг друга, с тем, чтобы основная часть всех работ выполнялась параллельно.

На практике существует множество способов, методов и подходов, обеспечивающих успех параллельного скоординированного исполнения трех крупных проектов интеграции данных, метаданных и НСИ.

Три проекта желательно (но не обязательно) объединить в единую программу.

Необходимо придерживаться одного из всемирных или национальных стандартов в области управления проектами (напр., Guide to Project Management Body of Knowledge или PRINCE2).

Следует выбрать соответствующий жизненный цикл разработки (каскадная модель, спиральная, инкрементальная и так далее).

Выбрать подходящее окружение (среду)

Для хранилища данных (возможно, источники данных, ETL / ELT, репозитории данных, зоны промежуточного хранения, операционные склады данных, прикладные витрины данных, тематические и региональные витрины данных, аналитические средства, генераторы отчетов и другие приложения)

Для метаданных (напр., Управляемая среда метаданных с 6 уровнями: уровни источников, интеграции, репозиториев, управления, витрин метаданных и доставки)

Для НСИ (как вариант, зона восходящих потоков НСИ, ядро управления НСИ, зона нисходящих потоков НСИ)

Выбрать пригодную архитектуру

Для хранилища данных (существует около 20 вариантов архитектур хранилищ данных)

Для метаданных (централизованная, децентрализованная, распределенная))

Для НСИ (реестр, репозиторий или веерная архитектура)

Выбрать уместный жизненный цикл

Для данных (вариант цикла: понимание, извлечение, преобразование, загрузка, консолидация, архивирование, доставка)

Для метаданных (вариант цикла: разработка, публикация, владение, потребление, управление метаданными)

Для НСИ (вариант цикла: отождествление, создание, обзор, публикация, обновление, выведение из использования)

Выбрать ключевые характеристики

Для хранилища данных (зависят от функциональных и нефункциональных требований)

Для метаданных (определить типы метаданных и их характеристики)

Для НСИ (вариант характеристик: доступ к данным, отождествление ключей, управление записями, управление иерархиями, модель данных, управление данными, технологические операции и безопасность, интероперабльность)

Следует определить набор ролей и специалистов в трех проектах и выбрать рабочие инструменты для каждой роли в команде.

Особенностью, которая абсолютно необходима для реализации предлагаемой стратегии, является координация этих проектов. В общем случае, такая координация является предметом управления программами. Специфические детали межпроектного взаимодействия (кто, что, когда, где, как, почему) зависят от проектного окружения, которое было описано выше.

Заключение

В настоящее время IBM является единственной компанией, которая предлагает почти полный набор продуктов для осуществления предлагаемой идеи. К ним относятся средства извлечения данных из разнородных источников, средства ведения глоссария метаданных, инструменты проектирования структур данных, средства извлечения и ведения НСИ, современные методологии проектирования среды бизнес - разведки (BI), индустриальные модели данных, а также ПО промежуточного слоя, позволяющее связать компоненты в единую среду информационного обслуживания пользователей.

Идея тройной стратегии, изложенная в данной работе, могла возникнуть в 90-х годах прошлого века. Но ее осуществление было практически невозможно из-за огромных временных, финансовых и трудовых затрат на разработку необходимого инструментария, который стал доступен в последнее время.

Список литературы

хранилище данный корпоративный

“Введение в CRM” - Бирюков В., Дрожжинов В.- №25, 2001.

 “Внедрение ERP-систем. Основные ошибки” - Мухтарова Г.- “Директор-инфо” (№36, 2003).

“Выбор ПО для автоматизации управления” - Филипенко И. -

“Корпоративные системы” (№3, 2001).

“Информационные технологии в Управлении предприятием” - Крылович А.В. - http://www.cfin.ru/itm/kis/ .

“Использование программы SAP/R3 в целях управленческого учёта” - Круглов А.А., Родионов Д.А. - Тезисы докладов VII Всероссийской научной студенческой конференции - Воронеж: ВГУ, 2004 - С. 71.

“Корпоративные информационные системы на платформе Microsoft” - Стахурлов С.В. - Материалы Третьей всероссийской научно-практической конференции “Электронный бизнес: опыт и перспективы - 2004”. - Воронеж: ВГУ, 2004. - С. 37 - 44.

 “Наиболее эффективные методы внедрения систем управления” - Квинтин Андерсон - http://www.cfin.ru/vernikov/kias/ .

“Российские предприятия задумались об автоматизации” - КИА центр - “Логинфо” (№5, 2001).

 “Российский рынок CRM-решений” - Голод Е.- “Планета КИС”, 2002.
“Управление общей стоимостью владения КИС” - Козаченко В.Е. 

“Управление взаимоотношениями с клиентами. Заметки о CRM” - Лошков В.

Размещено на Allbest.ru


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.