Информационно-аналитическая система

Назначение, стадии и технология создания информационно-аналитической системы. Ее составные части, функциональная модель, схема метаданных. Процессы доступа, извлечения, очистки, преобразования, интеграции, суммаризации, объединения и загрузки информации.

Рубрика Программирование, компьютеры и кибернетика
Вид реферат
Язык русский
Дата добавления 28.11.2010
Размер файла 145,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Министерство образования и науки Российской Федерации

Федеральное агентство по образованию

Реферат

Тема: Информационно-аналитическая система

по дисциплине «Информационные системы»

Содержание

1. Место и роль информационно-аналитических систем

1.1 Назначение информационно-аналитических систем

1.2 Необходимость создания информационно-аналитической системы на базе хранилища данных

2. Состав

2.1 Составные части информационно-аналитических систем

2.2 Функциональная модель информационно-аналитической системы

2.3 Источники данных

2.4 Модель метаданных

2.5 Репозиторий

2.6 Процессы доступа, извлечения, очистки, преобразования, интеграции, суммаризации, объединения и загрузки данных

2.7 Процессы аналитической обработки данных

2.8 Система управления базами данных

3. Стадии создания информационно-аналитических систем

4. Технология создания информационно-аналитических систем

5. Список использованной литературы

1. Место и роль информационно-аналитических систем

1.1 Назначение информационно-аналитических систем

Назначением любой современной информационно-аналитической системы (ИАС) является обеспечение руководителей, аналитиков и менеджеров информацией о всех аспектах деятельности компании для ее последующей оценки и анализа. В состав информационно-аналитической системы обычно включаются следующие подсистемы:

-подсистема сбора и хранения корпоративных данных, решающая задачи по сбору и фильтрации данных, накоплению и индексированию информации, обеспечивающая возможность использования информации в аналитических целях, а также при поддержке принятия решений на различных уровнях управления;

-подсистема доступа к данным, анализа и корпоративной отчетности, включающая в себя модули, обеспечивающие доступ к данным и защиту конфиденциальной информации, инструменты по поддержке принятия решений и оперативному анализу информации, средства корпоративной отчетности и визуализации данных.

Первая подсистема традиционно базируется на технологии оперативной обработки транзакций OLTP (On-Line Transaction Processing). В основе второй лежит концепция хранилищ данных (Data Warehouse).

Хранилища данных содержат непротиворечивые консолидированные исторические данные предприятия, отражающие его деятельность за достаточно продолжительный период времени, а также данные о внешней среде его функционирования.

Часто, наряду с общим хранилищем данных предприятия, используют витрины данных (Data Mart), представляющие собой специализированные аналитические базы данных по конкретному подразделению или аспекту деятельности предприятия. В соответствии с этим хранилище данных может иметь как двухуровневую (источники данных - хранилище данных), так и трехуровневую (источники данных - общее хранилище данных - специализированные аналитические базы данных) архитектуру.

Другими словами, хранилище данных определяется как “предметно-ориентированная, интегрированная, зависимая от времени, некорректируемая коллекция данных, предназначенная для поддержки принятия управленческих решений”.

Основной целью создания информационно-аналитических систем является перемещение информационного базиса компании из аморфной среды в структурированную, развивающуюся в соответствии с заранее намеченным планом, являющуюся источником информации, отвечающей насущным потребностям бизнеса. Создание и наполнение такой среды является первым шагом на пути к архитектуре корпоративных данных (информационной архитектуре), способной удовлетворять информационные потребности бизнеса.

Информационно-аналитические системы предназначены, прежде всего, для работников управления, они объединяет, анализирует и хранит как единое целое информацию, извлекаемую как из операционных баз данных, так и из внешних источников. Входящие в состав информационно-аналитических систем хранилища данных обеспечивают преобразование больших объемов сильно детализированных данных в управляемые и выверяемые обзорные отчеты, которые могут быть использованы работниками управления для принятия обоснованных решений. Информационно-аналитические системы являются сегодня инструментом для всех руководителей, столь же настоятельно необходимым, как и транзакционные системы, которые эффективно регистрируют операционную активность организации.

Информационно-аналитическая система, как правило, базируется на хранилище данных, которое:

-является базой данных, предназначенной только для чтения;

-обновляется из операционных деловых систем на периодической основе;

-предлагает единый подход к именованию и хранению данных, причем не имеет значения, как организованы данные в источниках;

-разрабатывается для поддержки управленческих нужд, а не для транзакционной обработки.

Хранилище данных предлагает среду накопления данных, оптимизированную для выполнения сложных аналитических запросов управленческого персонала. Эти запросы могут быть достаточно индивидуальны для каждого подразделения и даже отдельного руководителя.

Хранилище данных автоматически собирает операционные данные, согласовывая их и объединяя в предметно-ориентированный формат, который нужен работникам управления. Данные в хранилище данных не предназначены для модификации.

Предметная ориентация хранилищ данных означает, что данные объединены в категории и хранятся в соответствии с теми областями, которые они описывают, а не с приложениями, в которых они используются.

Интегрированность хранилищ данных подразумевает, что при переносе в хранилище данных, принадлежащих различным источникам, кодирование которых обычно не совпадает, эти данные согласуются по существующей системе наименований. Интегрированность определяет данные сразу таким образом, чтобы они удовлетворяли требованиям всего предприятия (в его развитии), а не единственной функции бизнеса. Тем самым, хранилище данных гарантирует, что одинаковые отчеты, сгенерированные для разных аналитиков будут содержать одинаковые результаты.

Некорректируемость хранилищ данных заключается в том, что хранилище данных само только считывает данные, оно не создает данные (они поступают от операционных или внешних источников), не корректирует их и не удаляет. Целостность данных обеспечивает концепцию единого источника достоверной информации в организации.

Зависимость от времени данных в хранилищах подразумевает, что хранилище данных предназначено для анализа данных во времени, например, чтобы их можно было использовать для сравнений, идентификации трендов и прогнозов. Важно знать не только значения данных, но и время их появления. Кроме того, данные в хранилище данных должны быть согласованы во времени. Нельзя допустить, чтобы данные из различных источников считывались по состоянию на разные моменты времени.

Направленность хранилищ данных на потребности управления гарантирует правильное использование хранилища данных для анализа и поддержки принятия решений, а не для обработки транзакций.

Хранилище данных содержит данные, извлеченные из систем оперативной работы, и физически отличается от обычных баз данных организации. Хранилище данных обеспечивает среду накопления данных, которая не только надежна, но также оптимизирована по доступу к данным и манипулированию ими.

Наиболее важное отличие между хранилищем данных и традиционными базами данных заключается в методах суммаризации данных, а также в использовании словаря метаданных для описания и управления этими данными. Осуществление суммаризации в громадной степени уменьшает объем данных и увеличивает скорость доступа. В то же самое время, это позволяет пользователям быстро получить обзор ситуации, чтобы затем детально посмотреть на нужный предмет. Суммаризация также обеспечивает эффективный механизм повышения секретности между данными разных уровней агрегации, описанными в словаре метаданных.

Хранилище данных дополняет и расширяет функции систем оперативной работы без отрицательного воздействия на них. Более того, хорошо организованное хранилище данных также оптимизирует существующие инвестиции компании в данные и оборудование.

Несмотря на обилие данных, возможностей их сбора и хранения, компании до сих пор испытывают существенный недостаток в информации, необходимой для стратегического и оперативного управления своей деятельностью. Существующие системы сбора и обработки корпоративных данных в принципе не пригодны для использования в многоплановом процессе принятия управленческих решений.

Согласно опросу, проведенному консалтинговой группой META Group, существует несколько основных причин, по которым компании применяют технологии хранилищ данных:

-возможность принятия высокоэффективных решений;

-повышение качества деловой информации;

-улучшение услуг для клиентов;

-поддержка стратегического планирования;

-общая реорганизация бизнес-процесса.

В условиях быстро меняющегося рынка, нестабильной политической обстановки, ужесточающейся конкуренции новые требования предъявляются к актуальности деловой информации и ее достоверности. В результате развития горизонтальных связей и делегирования полномочий вниз все больше требуется оперативный анализ ситуации, все большее значение приобретают тактические решения.

В этой ситуации промышленный процесс производства информации должен укладываться в жесткие временные рамки. Именно хранилище данных может и должно обеспечить требуемые временные характеристики. После того, как традиционная система обработки данных реализована и начинает функционировать, она становится ровно таким же самостоятельным объектом, как и любой производственный процесс. В этом смысле данные обладают ровно теми же свойствами и характеристиками, что и любой промышленный продукт: сроком годности, местом складирования (хранения), совместимостью с данными из других производств, рыночной стоимостью, транспортабельностью, комплектностью, ремонтопригодностью и т.д.

Именно с этой точки зрения рассматриваются данные в хранилище данных. Предметом рассмотрения являются не способы описания и отображения объектов предметной области, а собственно данные, как самостоятельный объект предметной области, порожденный в результате функционирования ранее созданных систем оперативной обработки данных.

Сегодня можно говорить о том, что появление концепции хранилища данных послужило серьёзным стимулом для развития внутренней архитектуры современных систем управления базами данных (СУБД), их программного окружения, инструментальных средств конечного пользователя, различных межкорпоративных стандартов.

Среди особенностей разработки хранилищ данных, прежде всего, выделяется проблема обеспечения защиты данных. Хранилища данных представляют собой совокупность конфиденциальной информации, собранной со всего предприятия. Доступ к ней конкурентов в той или иной форме может привести к существенным потерям для компании. Проблемы могут возникать даже вследствие доступа к «чужой» информации сотрудниками компании, когда сотрудники одного подразделения, например, получают доступ к внутренней информации другого подразделения. Решение этой проблемы не всегда возможно на уровне администрирования доступа в СУБД, так как требует разделения доступа на уровне отдельных строк. В результате проблемы обеспечения конфиденциальности должны решаться на уровне разрабатываемых приложений.

Традиционная проблема создания хранилищ данных - обеспечение требуемого объема хранения данных. Согласно данным консалтинговой группы META Group, уже сегодня, около половины организаций планируют хранилища объемом в сотни гигабайт. При этом следует помнить, что объем необходимого дискового пространства может в несколько раз (до десяти) превышать объеме хранимых данных (и этот коэффициент растет с ростом объема хранимых данных).

Наиболее распространённой на сегодня ошибкой, является попытка найти в концепции хранилища данных некий законченный рецепт реализации информационной аналитической системы. Тем более, это не некий готовый программный продукт или некое готовое универсальное решение. В этом смысле, интересна и показательна оценка компании Butler Group Co. структуры затрат на реализацию хранилища данных, по которой до 50% от стоимости системы составляет стоимость консалтинга и лишь оставшиеся 50% является стоимость аппаратных, сетевых и программных компонент.

Эффект от правильной организации, стратегического и оперативного планирования развития бизнеса трудно заранее оценить в цифрах, но очевидно, что он в десятки и даже сотни раз может превзойти затраты на реализацию таких систем. Однако не следует и заблуждаться. Эффект обеспечивает не сама система, а люди с ней работающие. Поэтому не совсем корректны декларации типа: “Хранилище данных будет помогать менеджеру принимать правильные решения”. Современные аналитические системы не являются системами искусственного интеллекта и они не могут ни помочь, ни помешать в принятии решения. Их цель своевременно обеспечить менеджера всей информацией, необходимой для принятия решения. А какая информация будет запрошена и какое решение будет принято на её основе, зависит только от конкретного человека.

Экономический эффект, обеспечиваемый информационно-аналитическими системами, существенно превышает эффект от традиционных оперативных систем. Однако стоимость аналитических систем, базирующихся на хранилищах данных, остается достаточно высокой, поскольку методологии и технологии реализации таких систем находятся ещё в стадии становления. В этой связи необходимо подчеркнуть, что непременным условием успеха проекта создания информационно-аналитической системы является наличие соответствующей технологии, регламентирующей весь жизненный цикл ее.

1.2 Необходимость создания информационно-аналитической системы на базе хранилища данных

информационный аналитический функциональный

В системах, используемых для автоматизации бизнес-процессов современных компаний, реализуются два следующих основных подхода:

-подход, основанный на OLTP-технологии оперативной обработки транзакций (соответствующие системы также называют автоматизированными системами обработки данных или транзакциоными системами);

-подход, основанный концепции хранилищ данных.

Опережающее развитие OLTP-технологий характерно как для всей отрасли информационных технологий, так и для конкретного предприятия, развивающего собственную автоматизацию. Это связано с тем, что транзакционные системы, во-первых, позволяют навести порядок именно в процессах повседневной рутинной обработки (переработки) данных, что является первоочередной задачей автоматизации, а, во-вторых, именно они являются, по сути, источниками данных для аналитических систем. Однако, если развитие технологии хранилищ данных запаздывает, возникает парадоксальная ситуация, при которой на предприятии накоплены большие архивы исторических данных, но использовать их для решения конкретных аналитических задач невозможно. Дело в том, что на достаточно большом предприятии (корпорации), как правило, используется несколько, а иногда и достаточно много информационных систем. Данные в системах могут быть структурированы различным образом. Они плохо стыкуются между собой. Их трудно интегрировать. Другой причиной сложности использования этих данных для анализа является то, что используемые в них структуры данных формируются для оптимального выполнения операций ввода и редактирования данных. Операции поиска данных по сложным критериям и их агрегации при этом нередко требуют большого времени и, что еще хуже, тормозят работу операторов, осуществляющих ввод и редактирование оперативных данных. Поэтому, например, операции формирования отчетов традиционно выполняются в таких системах в то время, когда оперативная нагрузка на системы снижается, то есть, чаще всего, ночью.

Чтобы упростить решение указанных выше проблем, создаются корпоративные хранилища данных. Хранилища данных содержат выверенную и согласованную информацию, предназначенную для использования в информационно-аналитических системах и системах поддержки принятия решений. Информация в них хранится в специальной форме, удобной для быстрого выполнения различных запросов, позволяющих предоставлять данные в различных разрезах с различной степенью агрегации. Эти данные могут быть востребованы непосредственно, а также могут использоваться для реализации нескольких витрин данных, представляющих собой, по сути, специализированные аналитические базы данных для решения конкретных задач, например, поддерживающие прогнозирование спроса, планирование производства или анализ издержек.

Следует особо отметить, что информация, собираемая в хранилищах данных, существенно отличается от информации в OLTP-системах. Основные отличия представлены в таблице (таблица 1 ).

Таблица 1 - Сравнение характеристик данных в OLTP-системах и хранилищах данных

Характеристика данных

OLTP-системы

Хранилища данных

Частота обновления

Высокая частота, маленькими порциями

Малая частота, большими порциями

Источники данных

В основном - внутренние

В основном - внешние

Объемы хранимых данных

Сотни мегабайт, гигабайты

Гигабайты и терабайты

Возраст данных

Текущие (за период от нескольких месяцев до одного года)

Текущие и исторические (за период в несколько лет, десятки лет)

Назначение

Фиксация, оперативный поиск и преобразование данных

Хранение детализированных и агрегированных исторических данных, аналитическая обработка, прогнозирование и моделирование

Необходимость создания хранилищ данных кроме того связана с потребностями в специфических способах визуализации информации для руководителей, в формировании не только регламентированных отчетов, характерных для OLTP-систем, но и отчетов по произвольным запросам, представляющих данные в различных разрезах и с различной степенью агрегации. Хранилище данных должно обеспечить высших руководителей компании информацией для формирования и коррекция целей развития корпорации, принятия стратегических решений.

2. Состав

2.1 Составные части информационно-аналитических систем

Создание информационно-аналитической системы всегда направлено на решение задач управления во всех его аспектах - управления финансовыми, кадровыми, техническими ресурсами и т.д. Поэтому, в конечном счете, отдача от внедрения информационно-аналитической системы будет состоять в резком повышении эффективности управления: оперативного принятия сбалансированных решений, возможности долговременного планирования и прогнозирования и т.д. Эффективность управления достигается, в том числе, и за счет существенного возрастания обоснованности принятых решений на основе больших выборок точных данных и огромного аналитического аппарата.

Следует подчеркнуть, что информационно-аналитическая система - это не готовый продукт или семейство продуктов. Успех реализации информационно-аналитической системы зависит от правильного выбора и максимально тесной интеграции используемых для его реализации средств.

Типовыми компонентами информационно-аналитических систем на основе хранилищ данных являются:

-автоматизированные и информационные OLTP-системы, которые рассматриваются как источники данных для хранилища данных;

-средства извлечения, преобразования, согласования и транспортировки данных;

-средства моделирования, используемые для подготовки информационной модели, описывающей существующие структуры данных в источниках их получения (оперативных базах, архивах и т.д.); правила, процедуры и периодичность их выборки, согласования и агрегации, целевые структуры данных в хранилище данных; процедуры формирования регламентов выборки и представления данных;

-репозиторий, используемый для хранения описаний моделей данных и метаданных;

-средства реализации баз данных хранилища данных;

-инструментальные средства реализации регламентированных процедур выборки и представления данных (регламентированные запросы);

-инструментальные средства конечного пользователя, предназначенные для формирования нерегламентированных запросов, выполняемых в пакетном режиме;

-инструментальные средства конечного пользователя, предназначенные для формирования нерегламентированных запросов, выполняемых в оперативном режиме.

2.2 Функциональная модель информационно-аналитической системы

Функциональная модель информационно-аналитической системы, базирующейся на хранилище данных (см. рисунок), включает следующие основные компоненты:

-операционные данные в существующих источниках данных (файлах, базах данных, внешних источниках информации);

-процессы доступа, извлечения, очистки, преобразования, интеграции, суммаризации, объединения, и загрузки операционных данных;

-метаданные;

-процессы управления накоплением данных и сопровождения метаданных;

-процессы доставки аналитических данных конечным пользователям;

-процессы исследования и анализа данных;

-аналитические данные в базе данных информационного хранилища.

Рисунок - Функциональная модель информационно-аналитической системы

2.3 Источники данных

В качестве источников данных для информационно-аналитической системы выступают операционные данные, то есть данные, обрабатываемые существующими автоматизированными системами. Эти системы собирают огромные количества детализированных данных, необходимых для ежедневной работы. Можно выделить следующие характеристики операционных данных:

-данные хранятся в сложных структурах, для осуществления доступа к которым часто требуется использование специализированных программных инструментов;

-данные структурируются для оптимизации производительности и хранения, а не для нестандартных запросов или аналитических отчетов;

-данные распределены между различными доставшимися по наследству разнородными системами, разработанными в разное время;

-при разработке информационных систем применялись различные технологии хранения данных, которые не могут обеспечить быстрый и прозрачный доступ к ним;

-отсутствие единой стратегии в проектировании баз данных часто приводит к тому, что на каждом отрезке времени принимаются различные обозначения для одних и тех же элементов данных.

2.4 Модель метаданных

Принципиальной особенностью информационно-аналитических систем является большая важность метаинформации при разработке, сопровождении и использовании соответствующих систем.

Метаданные - это буквально данные о данных. Метаданные как таковые не несут информации, но описывают атрибуты данных, содержащих сведения (например, не само имя заказчика, а то, что поле «Имя заказчика» имеет длину 35 символов, состоит из заглавных и строчных букв и связано с полем «Имя»). Метаданные размещаются в репозитории в форме таблиц базы данных, и их сопровождение осуществляется централизовано. Их назначение - контроль непротиворечивости атрибутов данных в процессе функционирования системы и облегчение управления данными путем корректировки атрибутов централизованно в одном месте. При этом результаты корректировки будут автоматически распространены на все необходимые приложения.

Первой задачей, с которой приходится сталкиваться при проектировании и реализации информационно-аналитической системы, является необходимость одновременной работы с самыми разнородными внешними источниками данных, несогласованностью их структур и форматов, масштабами и количеством архивов, которые должны быть переработаны и загружены. И при построении такой системы, разработчику сложно обойтись без высокоуровневых средств описания информационной модели системы. Причем эта модель должна содержать описания не только целевых структур данных в базе данных хранилища данных, но и структур данных в источниках их получения (различных информационных системах, архивах, электронных справочниках и т.д.), правила, процедуры и периодичность их выборки и выгрузки, процедуры и места согласования и агрегации.

Если в OLTP-системах метаданные важны прежде всего для разработчиков, в существенно меньшей степени - для администраторов систем и баз данных, и практически не важны для конечных пользователей, для которых эти системы, собственно и создаются, то в хранилищах данных эти данные важны для пользователя не в меньшей степени, чем для разработчика.

Наличие метаданных и средств их представления конечным пользователям является одним из основополагающих факторов успешной реализации хранилища данных. Более того, без наличия актуальных, максимально полных и легко понимаемых пользователем описаний данных, хранилище данных превращается в обычный, но очень дорогостоящий электронный архив.

В совокупности метаданные нужны трем категориям пользователей информационно-аналитических систем: системным администраторам, разработчикам и конечным пользователям.

Системные администраторы - категория специалистов, основной задачей которых является поддержание хранилища данных в актуальном рабочем состоянии. Их, как правило, интересует не семантика данных, а способы их физического представления и организации. Администратор обычно не работает с конкретными значениями данных, не занимается написанием новых и модернизацией уже существующих прикладных программ. И хотя потребность в наличии и доступности метаданных у этой категории специалистов высока, их обычно вполне устраивают ограниченные описания данных, содержащиеся в традиционных справочниках баз данных. Даже, несмотря на то, что структура описаний в таких справочниках достаточно сложна для понимания, это также не вызывает особых нареканий. Число администраторов обычно невелико и они, как правило, обладают достаточной квалификацией и опытом работы.

Разработчики - категория специалистов ответственных за разработку и дальнейшее развитие информационно-аналитической системы. Метаданные для разработчиков информационно-аналитической системы характеризуются значительно большей изменчивостью, чем метаданные транзакционных систем. Это связано как с необходимостью реагировать на все возможные изменения в информационной архитектуре предприятия (появление новых источников информации, например, новых OLTP-систем, либо изменение структуры данных, предоставляемых этими системами), так и с необходимостью реагировать на новые вызовы - решать новые задачи, встающие перед предприятием. Еще одной причиной изменчивости метаданных является освоение пользователями инструментальных средств и понимание возможности их использования в тех задачах, для решения которых они изначально не предполагались. В процессе эксплуатации хранилищ данных вносимые изменения в прикладные программы и в структуры данных приводят к тому, что описания данных, сформированные в процессе разработки, перестают соответствовать реальности. Поэтому при модификации (модернизации) приложений и хранилища данных необходимо помнить и о параллельной модификации метаданных.

Конечные пользователи - это наиболее массовый слой специалистов работающих с информационно-аналитической системой. Именно они, в конечном счете, являются основными заказчиками и пользователями системы. Метаданные на уровне конечного пользователя в явном виде представляют описание данных в хранилище в терминах предметной области.

Для конечного пользователя база метаданных является тем же самым, что и путеводитель для туриста, попавшего в незнакомый город. Прежде чем сформулировать свой вопрос к системе, пользователь должен понять, какая информация в ней есть, её актуальность, насколько ей можно доверять и даже, сколько времени может занять формирование ответа. Поэтому, для конечного пользователя крайне важно и желательно, чтобы в системе содержались не только описания собственно структур данных, их взаимосвязей, предвычисленных уровней агрегации, но и следующая информация:

-Описания источников получения данных. Пользователю, осуществляющему анализ данных, желательно не просто знать о том, какие данные есть в системе, но и источники их получения, и степень их достоверности. Например, одна и та же информация может попасть в хранилище данных из различных источников. В этом случае, пользователь должен иметь возможность узнать, какой источник был выбран в качестве основного, и каким образом выполнялись согласование и очистка исходных данных;

-Описание периодичности обновления. Пользователю желательно не просто знать, какому моменту времени соответствуют те или иные данные, но и когда они будут обновлены;

-Описание собственников данных. В отличие от традиционных автоматизированных систем обработки данных (АСОД), где пользователь видит только то, что ему разрешено, здесь пользователю будет полезно знать, какие еще данные есть в системе, кто является их собственником и какие шаги он должен предпринять, чтобы получить к ним доступ;

-Статистические оценки запросов. Еще до выполнения запроса пользователю желательно иметь хотя бы приблизительную оценку времени, которое потребуется для получения ответа, и представлять, каков будет объем этого ответа.

Для метаданных используется несколько уровней описания. Таблица 2 содержит описание уровней метаданных информационно-аналитической системы.

Таблица - Уровни метаданных информационно-аналитической системы

Уровень

Описание

Уровень приложения (внешних источников данных)

Описывает структуру данных в операционных БД и других источни­ках данных. Обычно, этот уровень достаточно сложен для понимания неподготовленного пользователя и является ориентированным на приложение

Уровень ядра хранилища данных

Описывает структуру и взаимосвязи данных в хранилище данных

Уровень конечного пользователя

Описывает структуры данных в хранилище данных в терминах предметной области конечного пользователя

Проектирование информационно-аналитической системы должно проводиться не в интересах хранения всей доступной информации, а в интересах обеспечения бизнес-процессов компании необходимой информацией. Модель метаданных отражает потребности бизнес-процессов в информации и структурирована в соответствии с их структурой, охватывая при этом всю компанию. Она предоставляет каркас для разработки структур данных корпоративного уровня, обеспечивающих возможность совместного доступа к информации для бизнес-приложений, и служит инструментом для понимания и распределения корпоративных информационных ресурсов по основным направлениям бизнеса компании. При этом верхний уровень модели определяет высокоуровневые типы данных (с упором на выделение информации, необходимой для поддержки бизнеса в терминах предметной области), а нижний - содержит бизнес-определения элементов данных, важных и повсеместно применяемых в компании.

Особо следует отметить, что все изменения в бизнес-процессах и поддерживающих их OLTP-системах отражаются в метаданных хранилища данных. Это позволяет легко и эффективно вносить корректировки в хранилище данных и, в целом, обеспечить соответствие текущего состояния бизнеса и хранилища данных.

Типичной проблемой проектирования информационно-аналитических систем является отсутствие в компании единой терминологии для предметной области, отсутствие единых справочников и классификаторов. В такой ситуации важно совместить разработку хранилища данных с выработкой единой терминологии. Разумеется, выработка терминологии является задачей, которую должны решать не разработчики, а непосредственные участники бизнес-процессов. В силу этого участие заказчика в проектах создания информационно-аналитических систем должно быть более объемным и более активным, чем в других проектах автоматизации предприятия. Рекомендуется, в частности, привлекать пользователей к формированию единой терминологии и описаний данных, хранимых в системе, в форме, понятной пользователям. После этого сформированное будущими пользователями описание данных используется техническими специалистами при разработке системы.

Такой подход позволяет действительно собирать в хранилище данные, необходимые для повышения эффективности бизнес-процессов предприятия. Кроме того, сформированные представителями пользователей описания хранимых данных позволяют создать на их основе очень эффективные описания хранилища, с помощью которых новые пользователи, не участвовавшие в ходе разработки, смогут быстрее освоить и существенно полнее использовать потенциальные возможности хранилища.

Разработчики используют полученные в ходе таких предварительных обсуждений описания данных при разработке структуры хранилищ и для решения других технических задач. В результате удается, например, обеспечить синхронность данных, хранимых в различных структурах для использования в различных приложениях.

В качестве инструмента для хранения таких описаний желательно использовать единый репозиторий метаданных. Наличие такого репозитория также существенно упрощает сопровождение хранилища и внесение необходимых изменений при изменении бизнес-процессов. Доступность репозитория для пользователей гарантирует его корректность и актуальность на протяжении всего жизненного цикла хранилища.

Модель метаданных формируется из набора взаимосвязанных моделей данных. Модели данных включают в себя ER-модель и реляционную модель хранилища данных, модель сбора данных, модель доступа к данным и модель администрирования. Модели данных связываются между собой через правила отображения, поскольку компоненты в одной модели данных являются производными по отношению к другой модели данных.

Основу модели метаданных хранилища данных составляют словари данных источников информации и форматы данных. Это необходимо для их последующего согласования, определения периодичности обновления данных и согласованности их во времени.

Если источники данных расположены на разных платформах и обслуживаются различными системами управления, то это также должно быть отражено в модели метаданных. Задача построения модели метаданных в данном случае состоит в том, чтобы возложить стандартизацию источников данных на хранилище данных.

Модель метаданных не предписывает шаги разработки информационно-аналитической системы и не определяет требования к полному проекту перед началом реализации. Модель метаданных - это рамки, которые позволяют организации начать с небольшого проекта, основанного на специфических нуждах пользователей, определить источники данных для поддержки этих нужд, и спроектировать небольшое хранилище данных. Модель метаданных также гарантирует, что когда требования изменятся или когда возникнут новые требования, они будут удовлетворены благодаря хорошо управляемой архитектуре. Это гарантирует улучшенную интеграцию данных, а также максимальное повторное использование данных.

При построении модели метаданных необходимо выполнить следующие шаги:

-определить специфические нужды использования информации;

-найти и представить соответствующие источники данных так, как они есть (без преобразования), в виде модели источников данных;

-выбрать те элементы данных, которые имеют значение для целей складирования данных;

-согласовать имена элементов данных;

-интегрировать и отобразить подобные или связанные источники данных в предметные модели данных;

-интегрировать и отобразить предметные модели данных в консолидированную глобальную модель данных;

-преобразовать и отобразить глобальную модель данных в модель хранилища данных, добавив метки времени, производные элементы, декодировав, возможно денормализовав, разбив на части.

Если существует необходимость большого числа преобразований, которые должны быть выполнены над исходными данными, чтобы сделать их полезными и пригодными к использованию (как это часто случается), легче решить эту задачу пошаговым способом. Спроектированные элементы метаданных не всегда предполагают свою физическую реализацию в базе данных.

Таким образом, модель метаданных - это иерархия моделей, каждая из которых представляет либо исходные данные, либо складируемые данные, либо данные пользователей. Между всеми компонентами поддерживаются связи типа "источник-приемник" либо через механизм межуровневого взаимодействия, либо через процедуры преобразования данных. Посредством сопровождения связей между моделями, таблицами и столбцами (или элементами данных) возможно документировать правила извлечения и преобразования или отображения между существующими источниками данных и хранилищем данных, а также между хранилищем данных и представлениями пользователей. Без сопровождения таких связей в модели метаданных управляемая, координируемая эволюция хранилища данных будет затруднена из-за сложности и размеров множества моделей.

Существует несколько важных факторов для успешной реализации модели метаданных:

-существование команды хорошо обученных специалистов по моделированию данных, а также продвинутых аналитиков предметной области;

-качественные модели исходных данных, хранилища данных и пользовательских представлений;

-хорошо документированные отображения между ER-моделью и моделями сбора данных, доступа к данным и администрирования;

-качественная пользовательская документация по моделям для облегчения доступа пользователей к пользовательским представлениям и/или хранилищу данных;

-единый инструментальный комплекс для сбора значимых данных, создания моделей данных, определения правил отображения между моделями, и генерации описаний базы данных и программ преобразования.

Таким образом, полная модель метаданных состоит из моделей как операционных, так и аналитических данных с межмодельными отображениями внутри и между операционными и аналитическими данными. Все модели логически взаимосвязаны таким образом, чтобы пользовательские представления были отображены в существующие данные в исходных системах.

2.5 Репозиторий

Репозиторий является информационной базой конфигурационного управления и управления изменениями на протяжении всего жизненного цикла хранилища данных. Репозиторий также содержит всю информацию, необходимую заинтересованным лицам в на стадиях его создания и эксплуатации. Репозиторий хранит базовые версии программного обеспечения хранилища данных, сведения, отражающие предысторию его создания и эксплуатации, рекламации по обнаруженным ошибкам в процессе его эксплуатации и требования и пожелания по его модернизации и полный комплект документации на версию программного обеспечения хранилища данных. Он также хранит детальную информацию по процессам его разработки и сопровождения.

Конфигурационное управление и управление изменениями обеспечивают устранение конфликтов в процессе создания и сопровождения информационно-аналитической системы, связанных с одновременной модификацией объектов конфигурационного управления, их ограниченной нотификацией и одновременным существованием нескольких версий объектов конфигурационного управления.

В зависимости от особенностей создаваемой информационно-аналитической системы, включающих в себя его сложность, объемы обрабатываемой информации, особенности построения архитектуры, необходимость тиражирования и другие, состав, структура и количество репозиториев может быть разными. В простейшем случае, когда создается один экземпляр хранилища данных силами коллектива организации, где оно и будет эксплуатироваться, и его сопровождение в процессе эксплуатации будут осуществлять разработчики, достаточно иметь один репозиторий. В случае, когда сопровождение хранилища данных выполняется не разработчиками, один репозиторий создается разработчиками для стадий создания хранилища данных, а перед началом его эксплуатации организация, которая будет сопровождать хранилище данных, создает свой репозиторий, который должен содержать всю необходимую для его эксплуатации документацию (включая все объекты конфигурационного управления самой версии), и в который будут заноситься все изменения, вносимые в версию в процессе эксплуатации хранилища данных.

Структура репозитория зависит от числа и характера объектов конфигурационного управления, входящих в состав информационно-аналитической системы. В качестве объектов конфигурационного управления могут выступать:

-компоненты программного обеспечения,

-покупные программные изделия, входящие в состав программного обеспечения,

-метаданные,

-документация,

-сведения о конфигурации аппаратного комплекса,

-сведения о конфигурации локальной, интранет или интернет сети.

В репозиторий заносятся также предложения и требования по модификации и модернизации информационно-аналитической системы и рекламации по обнаруженным ошибкам, поступающие на протяжении жизненного цикла от заинтересованных лиц.

Архитектура репозитория и тип его базы данных во многом зависят от выбора инструментальных средств его ведения.

Эффективность использования репозитория на протяжении жизненного цикла информационно-аналитической системы и эффективность и качество ее разработки и сопровождения во многом зависят от корректности выделения объектов конфигурационного управления. При этом необходимо учитывать, что состав и структура объектов конфигурационного управления может корректироваться в процессе его жизненного цикла.

2.6 Процессы доступа, извлечения, очистки, преобразования, интеграции, суммаризации, объединения, и загрузки данных

Множественность источников данных, их разнородность и рассогласованность требуют организации процессов доступа, извлечения, очистки, преобразования, интеграции, суммаризации, объединения и загрузки данных.

Вопросы организации доступа к данным связаны, прежде всего, с унификацией алгоритмов доступа. Первое решение проблемы доступа к разнородным данным было предложено фирмой Microsoft в виде спецификации разработанного стандарта на алгоритм доступа к разнородным базам данных - Open Database Connectivity (ODBC). Использование этой спецификации позволило разработчикам не заботиться об особенностях работы с той или иной СУБД и делать свои системы переносимыми между различными СУБД. За время своего существования ODBC стал стандартом де-факто, и на сегодняшний день большинство систем работают с источниками информации через алгоритмы доступа ODBC. В их числе такие широко распространенные системы, как Microsoft Word, Lotus Notes, языки четвертого поколения PowerBuilder, Visual Basic и другие.

Процесс извлечения перемещает информацию из одной или нескольких баз данных в отдельную базу данных, специально созданную для хранения данных. При извлечении данные могут сочетаться так, как нужно конечному пользователю. Извлечение данных выполняется вручную, средствами используемой СУБД, или для этого применяется специализированные программные средства. Ключевым аспектом процесса извлечения данных является периодичность его прохождения. Периодичность связана со временем накопления или изменения данных в источниках, а также с требованиями к согласованности и актуальности извлекаемых данных.

Очистка данных требуется в тех случаях, когда существует вероятность ошибок, возникающих при вводе данных, например, в написании адресов, наименований, артикулов и т.п. Выявление подобных ошибок возможно как на основе специальных словарей, так и на основе анализа сопутствующей информации. Например, артикул товара и его наименование должны соответствовать друг другу. Очистка данных выявляет и устраняет подобные несоответствия. В некоторых системах данные поступают в неочищенном виде и проходят процедуры доводки в процессе работы. В этих случаях важно, чтобы извлечение данных проходило в моменты, когда данные уже очищены в самих источниках. Очистка данных может потребоваться также из-за дублирования данных в различных источниках информации. При этом следует добиваться того, чтобы один и тот же факт распознавался как единичное событие, а не множество событий, каждое из которых зарегистрировано в своей базе данных. Очистка данных подразумевает:

-устранение избыточности и обнаруженных ошибок в данных;

-обнаружение и разрешение противоречий между данными;

-восполнение пропусков данных;

-проверку ограничений целостности и устранение их нарушений и т.п.

Преобразование данных - это процесс приведения в соответствие обозначений, принятых в различных источниках данных, генерация новых обозначений, вычисление производных значений. Преобразование данных служит для того, чтобы привести данные к единой системе обозначений и единому формату. Этот процесс существенно связан с семантикой данных, поскольку в разных системах одни и те же параметры кодируются различным образом и измеряются в различных единицах измерения. Согласование соответствующих друг другу параметров, приведение их к единому знаменателю является задачей процесса преобразования данных.

Интеграция данных предполагает группировку извлеченных и преобразованных данных в соответствии с теми предметными областями, к которым они относятся. Интеграция призвана сформировать целостную и непротиворечивую картину предметной области, в которой предполагается проводить анализ в дальнейшем. Интеграция включает в себя группировку данных по различным измерениям и срезам выбранной предметной области, например по заказчикам, счетам, поставщикам, товарам, регионам и т.п.

Суммаризация - это процесс формирования обобщенных данных на основе детализированных. Как правило, под суммаризацией понимается вычисление промежуточных и окончательных итогов, средних и количественных значений, процентных величин. Суммаризация необходима для увеличения производительности при запросе обобщенных данных. Кроме того, учитывая, что инструменты запросов, даже обеспечивающие удовлетворительное время отклика, могут использовать различные алгоритмы подсчетов, которые могут приводить к различным результатам на одних и тех же данных, не следует пользоваться вычисляемыми значениями, они должны быть сохранены физически. Некоторые обобщенные величины могут являться результатом неверных вычислений, однако, несмотря на это, они должны быть сохранены, если на их основе производились те или иные операции.

Объединение данных подразумевает слияние извлеченных, очищенных, преобразованных и суммаризованных данных в общие структуры. Процесс объединения предполагает, что данные уже находятся в общих форматах, согласованных структурах и могут быть помещены в единую базу данных. Обычно формируется сводная таблица, называемая таблицей фактов, каждая строка которой содержит информацию о дате начала и дате конца периода, когда данные были актуальны, о дате изменения данных в источнике, о дате поступления данных. Таким образом, процесс объединения данных включает также присвоение меток времени объединяемым данным.

Загрузка данных - процесс, подразумевающий перенос подготовленных данных в единую базу данных. Процесс загрузки зависит от типа используемой СУБД. Загрузка многомерных баз данных - наиболее трудоемкий процесс, занимающий много времени. (Некоторые хранилища данных во время своего формирования требуют загрузки терабайт информации). Время загрузки данных должно соответствовать потребностям в актуальности аналитической информации.

Как правило процессы доступа, извлечения, очистки, преобразования, интеграции, суммаризации, объединения, и загрузки данных реализуются с помощью специализированных ETL-инструментов. В аббревиатуре ETL термин «extraction» (извлечение) означает перемещение данных из разнотипных транзакционных источников, термин «transformation» (преобразование) означает перекодировку данных, включая их очистку, агрегирование, и фильтрацию, термин «loading» (загрузка) означает процесс размещения перемещенных и агрегированных данных в новой базе данных, из которой в целях анализа будет запрашиваться информация.

2.7 Процессы аналитической обработки данных

Анализ данных базируется на технологиях интерактивной аналитической обработки данных OLAP (On-Line Analytical Processing) /4/, глубинного анализа данных (Data Mining) и визуализации данных.

OLAP (On line Analytical Processing) - интерактивная аналитическая обработка данных - это подход к анализу данных и генерации отчетов, позволяющий пользователям легко извлекать электронным способом и рассматривать с различных точек зрения информацию на основе многомерных структур данных, называемых «кубами». OLAP предоставляет информацию пользователям в удобном для анализа виде, выдавая агрегированные данные, по запросу пользователя детализируя их.

В основе технологии OLAP лежит многомерное представление данных, обеспечивающее адекватность методов моделирования данных потребностям их анализа. В многомерной модели данные представляются в виде кубов данных (или гиперкубов), имеющих несколько независимых измерений многомерного пространства данных, при этом каждому измерению соответствует некоторый характеризующий какое-либо качественное свойство данных атрибут - время, территория, категория продукции и т.п. На множестве значений атрибутов могут быть определены иерархические отношения - “год-квартал-месяц”, “регион-город-район”, “услуга-консалтинг-реинжиниринг”. Наборы значений атрибутов определяют ячейки куба, с которыми ассоциируются конкретные значения соответствующих показателей. С использованием такой модели возможен анализ данных с необходимой степенью детализации за счет:

-построения сечения (проекции) куба данных путем фиксации значений наборов атрибутов;

-обобщения данных на основе использования значений атрибутов более высокого уровня иерархии и агрегирования соответствующих значений показателей;

-детализации данных (обратной по отношению к операции обобщения);

-вращения куба путем изменения порядка измерений.

Технологии глубинного анализа данных позволяют анализировать данные с помощью математических моделей, основанных на статистических, вероятностных или оптимизационных методах, с целью выявления в них заранее неизвестных закономерностей или зависимостей. К задачам глубинного анализа относятся задачи классификации, выявления ассоциаций, поиска типовых образцов на заданном множестве, выявление объектов, не соответствующих общим характеристикам и т.п.

В процессе анализа данных активно используются разнообразные формы их графического представления, облегчающие понимание данных и обеспечивающие возможности качественной оценки их свойств. В случае недостаточности пассивного восприятия применяются операции вращения куба данных, операция пролистывания сечений куба и т.п.

Конечный пользователь может работать с информационно-аналитической системой в двух основных режимах: в режиме построения отчетов и в режиме исследования.

Режим построения отчетов

Режим построения отчетов оптимизирован для создания сводных печатных и/или экранных форм с использованием математических вычислений, сравнительного анализа и многих других возможностей, которые позволяют пользователю привести данные к желаемому виду.

Опыт эксплуатации информационно-аналитических систем показал, что для разных задач и разных групп пользователей требуются совершенно разные подходы доступа к данным. Далее приведены возможные решения организации доступа к данным:

-Windows-интерфейс. Пользовательские интерфейсы могут быть реализованы как "толстый" Windows-клиент;


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.