Хранилище данных

Понятие, схема, структура и технологические критерии хранилища данных. Извлечение данных: определения, назначение, методы. Проектирование баз и хранилищ данных. Основные функции группы администратора БД. Технология разработки и внедрения хранилища данных.

Рубрика Программирование, компьютеры и кибернетика
Вид реферат
Язык русский
Дата добавления 29.03.2011
Размер файла 158,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Термин "хранилище данных" можно представить в виде объединения двух основных идей: интеграция разобщенных данных в едином хранилище (например, данные о браке на производстве или параметрах выпускаемых деталей) и разделение наборов данных и приложений для обработки и анализа.

Хранилище данных необходимо для единого доступа данным, например, у вас имеется производственный процесс, когда выход с одного цеха подается на вход другого цеха, при этом необходимо обеспечить беспрепятственный обмен данными между ними.

Для менеджеров по контролю качества и инженеров в свою очередь требуется система, которая позволяет: проводить анализ с учетом временных рамок, формирование произвольных запросов к системе, обрабатывать большие объемы данных, объединять данных с различных систем (например, из нескольких цехов). Простые регистрирующие системы не удовлетворяют этим требованиям - информация в регистрирующей системе актуальна только на момент подачи запроса, а в другой момент времени данные уже совершенно иные. Регистрирующие системы обычно рассчитаны на проведение жестко ограниченных операций, и создание нерегламентированного запроса могло поставить эту систему в тупик. Также были весьма ограничены возможности обработки больших массивов информации.

Хранилище данных

Хранилище данных - это "предметно-ориентированная, интегрированная, содержащая исторические данные, неразрушаемая совокупность данных, предназначенная для поддержки принятия управленченских решений". Одним из первых это определение дал Уильям Инмон в своей монографиии. Схему хранилища данных можно представить следующим образом:

Рис.1. Схема хранилища данных

Данные из различных источников помещаются в хранилище, а их описания -- в репозиторий метаданных. Конечный пользователь с помощью различных инструментов может анализировать данные в хранилище. Результатом является информация в виде готовых отчетов, найденных скрытых закономерностей, каких-либо прогнозов. Так как средства работы конечного пользователя с хранилищем данных могут быть самыми разнообразными, то теоретически их выбор не должен влиять на структуру хранилища и функции его поддержания в актуальном состоянии. Физическая реализация данной схемы может быть самой разнообразной.

Рассмотрим первый вариант - виртуальное хранилище данных, это система, предоставляющая доступ к обычной регистрирующей системе, которая эмулирует работу с хранилищем данных. Виртуальное хранилище можно организовать двумя способами. Можно создать ряд "представлений" (view) в базе данных или использовать специальные средства доступа к базе данных (например, продукты класса desktop OLAP).

Рис.2. Виртуальное хранилище

Теперь рассмотрим основные преимущества и недостатки виртуальных хранилищ. Преимущества: простота и малая стоимость реализации, единая платформа с источником информации, отсутствие сетевых соединений между источником информации и хранилищем данных. Недостатков больше: работаем всего лишь с иллюзией хранилища данных, остаются проблемы с производительностью, трансформацией данных, интеграцией данных с другими источниками, отсутствием истории, чистотой данных, зависимость от доступности и структуры основной базы данных.

Поскольку конструирование хранилища данных -- сложный процесс, который может занять несколько лет, некоторые организации вместо этого строят витрины данных (data mart), содержащие информацию для конкретных подразделений. Например, маркетинговая витрина данных может содержать только информацию о клиентах, продуктах и продажах и не включать в себя планы поставок. Несколько витрин данных для подразделений могут сосуществовать с основным хранилищем данных, давая частичное представление о содержании хранилища. Витрины данных строятся значительно быстрее, чем хранилище, но впоследствии могут возникнуть серьезные проблемы с интеграцией, если первоначальное планирование проводилось без учета полной бизнес-модели. Это второй способ.

Двухуровневая архитектура хранилища данных подразумевает построение витрин данных (data mart) без создания центрального хранилища, при этом информация поступает из регистрирующих систем и ограничена конкретной предметной областью. При построении витрин используются основные принципы построения хранилищ данных, поэтому их можно считать хранилищами данных в миниатюре.

Рис.3. Двухуровневая структура хранилища

Плюсы: простота и малая стоимость реализации; высокая производительность за счет физического разделения регистрирующих и аналитических систем, выделения загрузки и трансформации данных в отдельный процесс, оптимизированной под анализ структурой хранения данных; поддержка истории; возможность добавления метаданных.

Построение полноценного корпоративного хранилища данных обычно выполняется в трехуровневой архитектуре. На первом уровне расположены разнообразные источники данных -- внутренние регистрирующие системы, справочные системы, внешние источники (данные информационных агентств, макроэкономические показатели). Второй уровень содержит центральное хранилище, куда стекается информация от всех источников с первого уровня, и, возможно, оперативный склад данных, который не содержит исторических данных и выполняет две основные функции.

Во-первых, он является источником аналитической информации для оперативного управления и, во-вторых, здесь подготавливаются данные для последующей загрузки в центральное хранилище. Под подготовкой данных понимают их преобразование и проведение определенных проверок. Наличие оперативного склада данных просто необходимо при различном регламенте поступления информации из источников. Третий уровень представляет собой набор предметно-ориентированных витрин данных, источником информации для которых является центральное хранилище данных. Именно с витринами данных и работает большинство конечных пользователей.

Рис.4. Корпоративное хранилище данных

Специалисты в области информационных технологий решают проблемы создания систем поддержки принятия решений (СППР, систем ППР) уже около 20 лет. Так, в начале 80-х гг эти проблемы решались с помощью информационного центра. При этом сотрудники информационного центра занимались подготовкой для ЭВМ копий данных организации в соответствии с фиксированным форматом и запуском специализированных программ, формирующих отчеты по запросам конечных пользователей. Этот метод был достаточно успешным и применялся до тех пор, пока не появились реляционные СУБД (РСУБД) и их навигационный язык - структурированный язык запросов SQL. С помощью РСУБД очень легко обрабатывать запросы, а SQL позволяет пользователю напрямую обращаться к БД и получать необходимую информацию тогда, когда это требуется. Теперь нет необходимости договариваться с информационным центром о том, какие данные можно было бы получить и какой протокол экспорта возможно использовать. Недостатком данного подхода является требование хорошей подготовки пользователя, так как для выполнения неудачно сформулированного запроса могут потребоваться многие часы машинного времени.

Чтобы удовлетворить непрерывно растущие потребности в информации, усиливается инвестирование в область создания БД, отделенных от оперативных БД производства, для выполнения запросов, требующих аналитической обработки больших массивов данных. Понятие отдельной БД для поддержки работы инженера по знаниям было новым и получило название «информационного хранилища» (по терминологии IBM) или «хранилища данных» (терминология W.H. Inmon [1]). Хранилище данных - это ориентированное на предметную область, интегрированное, устойчивое собрание данных для процесса поддержки принятия решений. На основе хранилища может быть легко получен репозиторий непротиворечивых исторических данных, пригодный для поддержки принятия решений.

Как правило, жизненный цикл технологии составляет примерно 9 лет и включает 3 основные стадии [2]: нововведение, развертывание и завершенность. На протяжении первых трех лет - фазы нововведения - потребителями новой технологии становятся лишь немногие энтузиасты и сторонники. Для технологии хранилищ данных эта фаза началась с публикации в 1991 г. книги Билла Инмона «Построение хранилища данных» [1]. Он создал теоретический фундамент для хранилищ данных, определив их характеристики и подходы к построению. Сегодня технология хранилищ данных переживает фазу развертывания и подходит к началу третьей фазы развития, когда технология становится общепризнанной. Основная проблема при переходе к третьей фазе состоит в дороговизне проектов хранилищ. Так, обзор консалтинговой компании META Group за 1998 г. показал, что, в среднем, для поддержки хранилищ данных требуется около 1.8 млн. долл. на технические средства и около 1.4 млн. долл. на программные средства. Если ситуация не изменится, то большой сегмент рынка останется неохваченным и технология хранилищ данных никогда не достигнет третьей фазы развития.

Возможно, выход будет найден. Например, специалисты из исследовательской компании Gartner Group утверждают, что «Наибольшая выгода от использования технологии хранилищ данных достигается тогда, когда Вы можете поддерживать 20 различных приложений ППР на одной и той же архитектуре».

Некоторые эксперты утверждают [3], что извлечение данных (data mining, DM) - наиболее важное приложение технологии информационных хранилищ. Извлечение данных предполагает выявление скрытой предсказывающей информации из больших БД [4]. В своем отчете [5] специалисты из Gartner Group относят DM к 5 передовым технологиям, которые будут оказывать существенное влияние на широкий спектр областей промышленности в течение ближайших 3 - 5 лет. В свою очередь, META Group предсказывает рост дохода от внедрения новых инструментов DM от 3.3 билл. долл. в 1996 году до 8.4 билл. долл. в 2000 году.

В настоящем обзоре, посвященном извлечению данных, рассматриваются как вопросы, касающиеся самой технологии DM (архитектура СППР, алгоритмы DM, основные направления исследований), так и связи ее с другими технологиями (OLAP). Так как технологии DM и хранилищ данных являются передовыми и бурно развивающимися, то на сегодняшний день еще не определена устоявшаяся терминология. Более того, продолжаются споры исследователей о связи DM и СППР, DM и OLAP [6]. Поэтому, не претендуя на полноту изложения, попытаемся нарисовать общую картину, сложившуюся в области DM, используя последние данные зарубежных исследований.

Технологические критерии

Так как DM работает с данными из хранилища, рассмотрим сначала технологические критерии, которые необходимо учитывать при разработке системы хранилища данных. Они включают следующие [7]:

1. Масштабируемость - это способность системы увеличивать производительность при росте требований пользователя, наращивать объем хранимых данных при увеличении количества пользователей системы и приложений, использующих хранилище.

2. Управляемость. Технология хранилищ данных требует развития и реализации новых процессов, инструментов и рабочих систем для управления извлечением, трансформацией оперативных данных, администрированием пользователей и т.п. Необходимо определить условия для поддержки управления.

3. Исполнение. От того, насколько хорошо будет реализована система, главным образом, зависит успех проекта. Существует несколько областей, накладывающих непосредственный отпечаток на представление системы: архитектура технических средств и базы данных. Технические средства предполагают использование архитектур симметричной мультиобработки (SMP) и массово-параллельной обработки (MPP). Тем не менее, существует много приложений, которые могут удовлетворительно работать на непараллельных системах. Некоторые разработчики баз данных решили поддержать архитектуру технических средств, введя параллелизм в функции БД.

4. Гибкость. Технология хранилищ данных должна быть гибкой, чтобы своевременно реагировать на изменяющиеся условия.

5. Соотношение `простота - скорость' для реализации. Средства развития и поддержки, используемые вместе с хранилищами данных, являются ключом к успеху проекта. Хорошо ли интегрированы эти средства, или группе сопровождения придется бороться с их несовместимостью? Являются ли интерфейсы пользователя графическими или командными? Генерируется ли автоматически состав метаданных? Эти вопросы касаются не только исходной разработки, но и последующего сопровождения системы.

6. Интеграция инструментов предполагает хорошее и бесперебойное взаимодействие различных архитектурных компонентов. Как утверждается в журнале Datamation, «иметь хорошо и глубоко интегрированные друг с другом инструментальные средства - это необходимость, а не роскошь».

7. Полнота решения говорит о наличии всех архитектурных компонентов. Это означает, что все элементы архитектуры, необходимые для работы, реализованы и функционируют: извлечение, преобразование и хранение данных; метаданные, определяющие основные данные; требуемые аналитические и управляющие процессы.

Архитектура систем ППР

Основу систем ППР составляют средства для быстрого и надежного анализа и визуализации деловой информации, а также набор инструментов, необходимых для синтеза информации с целью получения новых знаний об управляемой системе и выработки управляющих решений.

Системы ППР состоят их следующих архитектурных элементов (Рис. 1):

· хранилище информации (массив данных и знаний);

· средства управления данными (накопление, хранение, оперирование, защита и т.д.);

· средства анализа (извлечения) данных - Data mining (аналитическая обработка данных);

· средства синтеза управляющих решений (моделирование, прогнозирование, оптимизация, анализ альтернатив и т.д.).

Базовый набор инструментов систем ППР обычно включает в себя широкий ассортимент средств статистического анализа данных, средства выявления тенденций и прогнозирования, а также функции моделирования, агрегирования и объединения данных, и, наконец, средства оптимизации управляющих решений.

Так как организация хранилища данных очень важна как для успешной реализации всей СППР в целом, так и для проведения анализа данных, то рассмотрим более подробно архитектуру хранилища. По утверждению Билла Инмона [8], существует два наиболее общих типа информационных хранилищ: текущее хранилище с подробными данными и витрина (datamart). В текущем хранилище собираются разрозненные атомарные данные, и оно имеет очень большой объем. Для витрины характерно хранение специальных данных, необходимых для решения конкретных задач (например, одного департамента). В [9] отмечается, что для большинства проектов разработка многоуровневого хранилища уже стала общепризнанным архитектурным решением.

Многоуровневость - это архитектурное решение проблемы контроля стоимости управления хранилищем в условиях неустойчивого информационного окружения. Базовая структура хранилища (Рис. 2) включает три составляющие:

1. Система записи (слой-источник) - это исходная система, из которой извлекаются ряды данных для хранилища. Обычно эти источники либо вертикальные интегрированные OLTP-системы, либо данные третьей стороны.

2. Базовый слой хранилища - это общий фонд данных, содержащий интегрированные и рационализированные данные из системы записи. Данные здесь хранятся в соответствии с семантикой и представляются в исторической последовательности.

3. Слой доступа к хранилищу - это слой выдачи данных, где система хранилища встречается с пользователями и их ППР-приложениями. Структуры данных могут варьироваться от стратегических данных для очень устойчивых предметных областей (домен схем типа `звезда') до многомерных БД, определяемых спецификой проекта. Основные свойства уровня - понятность для делового пользователя и легкость доступа.

Как утверждается в [5], существует все увеличивающаяся пропасть между мощными системами хранения данных и способностью пользователей эффективно анализировать и воздействовать на информацию, которую они содержат. Требуется новый технологический скачок для структурирования и упорядочения информации в соответствии со специфическими задачами пользователя. Для этого и предназначены инструменты DM, которые наиболее эффективны при наличии интеграции с существующими информационными системами. К сожалению, сегодня многие инструменты DM действуют вне информационных хранилищ, требуя выполнения дополнительных шагов извлечения, импорта и анализа данных. В [5] предлагается интегрированная архитектура для анализа данных из хранилища. Она связывает на основе тесного взаимодействия хранилище, OLAP-сервер и систему DM. Такая архитектура сильно отличается от традиционных СППР. Вместо того, чтобы просто направлять данные к конечному пользователю через программы подготовки отчетов и запросов, модели применяются непосредственно к данным хранилища и возвращаются результаты анализа наиболее подходящей информации. Эти результаты позволяют улучшить метаданные в OLAP-сервере, создавая слой динамических метаданных. Отчеты и визуализация оказываются полезными при планировании будущих действий.

Извлечение данных: определения, назначение

По существу, процесс извлечения (анализа) данных является частью более общего процесса, называемого принятием решений, и в силу этого служит для трансформации данных, хранимых в информационных хранилищах или витринах, в информацию, помогающую принять правильное решение. DM получило свое название благодаря сходству поиска значимой информации в больших БД и добычи в горе жилы ценной руды [5]. Оба процесса требуют либо `просеивания' огромного количества материала, либо `зондирования' для определения точного местоположения искомого объекта.

Приведем несколько определений процесса извлечения данных. Традиционно цель определения и использования информации, скрытой в данных, достигалась с помощью генераторов запросов и систем, интерпретирующих данные. В этом случае необходимо было сформулировать предположение о возможном отношении в БД и перевести эту гипотезу в запрос. Данный подход к анализу данных являлся ручным, управляемым пользователем, нисходящим. В процессе DM запрос выполняется самим алгоритмом, а не пользователем, то есть извлечение данных - это управляемый данными, самоорганизующийся, восходящий подход к анализу [10]. Более развернутое определение можно найти в [11]: «В ходе извлечения данных осуществляется попытка сформулировать, проанализировать и выполнить основные процессы индукции, упрощающие извлечение содержательной информации и знаний из неструктурированных данных». DM полуавтоматически извлекает образцы, изменения, ассоциации и аномалии из больших массивов данных. Таким образом, DM пытается извлечь знания из данных. Заметим, что под большими массивами данных понимаются такие множества, которые слишком велики, чтобы находиться в памяти одной рабочей станции.

По сути, DM обнаруживает образцы и связи, скрытые в данных. DM - часть процесса обнаружения знаний, которая состоит в применении к данным методов статистического анализа и моделирования, чтобы найти полезные образцы и связи. Процесс обнаружения знаний описывает шаги, которые необходимо предпринять, чтобы получить результаты, имеющие смысл.

Средства извлечения данных используют данные для построения модели реального мира. В результате моделирования создается описание образцов и связей данных. Пользователь может использовать эти модели двумя способами:

1) описание образцов и связей в БД может предоставлять знания, направляющие действия пользователя (ассоциативные модели);

2) образцы могут быть использованы для предсказаний.

Извлечение данных применяется для построения моделей шести типов [3]:

1) классификация;

2) регрессия;

3) временные ряды;

4) кластеризация;

5) анализ ассоциаций;

6) обнаружение закономерностей.

При этом модели типов 1, 2 и 3 применяются прежде всего для предсказания, модель 4 используется как для прогнозов, так и для описания, а модели 5 и 6 - прежде всего для описания поведения, определяемого данными БД. Приведем краткое описание этих моделей в соответствии с [3].

Классификация назначает примеры (типы) группе или классу. Существующие типы, используемые для поиска классификационного образца, могут находиться в исторической БД. Они также могут быть получены в ходе эксперимента, в котором часть исходной БД тестировалась в реальном мире, и результаты используются для создания классификационного множества данных, по которому может быть разработана модель.

Регрессия использует ряды существующих значений и их атрибуты для предсказания последующих значений.

Предсказание временных рядов, подобно регрессии, использует ряды существующих значений и их атрибутов для предсказания будущих значений. Отличие же состоит в том, что эти значения зависят от времени. Инструменты могут использовать различные свойства времени, особенно иерархию периодов, сезонность, календарные эффекты, арифметику дат, специальные соглашения вроде того, какой период прошлого влияет на будущее.

Кластеризация разбивает БД на различные группы. В отличие от классификации, заранее не известны кластеры, с которых начнется процесс, или вокруг каких атрибутов будут собираться данные. Следовательно, аналитику необходимо интерпретировать смысл кластеров.

Ассоциации - объекты, появляющиеся одновременно в данном событии или записи. Инструменты ассоциаций и упорядочения обнаруживают правила вида: «Если объект А - часть события, то в x процентах случаев объект B - часть этого события».

Обнаружение закономерностей тесно связано с анализом ассоциаций за исключением того, что связанные объекты имеют протяженность во времени. Чтобы обнаруживать эти последовательности, должны учитываться детали каждой транзакции наряду с идентификацией участников транзакций.

Средства и методы извлечения данных

С появлением информационных хранилищ анализ данных потребовал систематического подхода. По мнению Gartner Group, извлечение данных не есть некий аналитический метод, а скорее процесс, вбирающий в себя много методов и приемов, подобранных под специфику прикладной области. Как отмечается в [12], из-за сложности и разнообразия данных, находящихся в разработанных хранилищах, единственный метод извлечения данных недостаточен для решения каждой задачи, даже связанной с построением одной конкретной модели. Поэтому приходится комбинировать несколько методов анализа. Алгоритмы и методы DM включают [5, 13, 14]: нейронные сети, деревья решений (алгоритмы CART - классификационные и регрессионные деревья, и CHAID - автоматическое c2-выявление взаимосвязей), индукция правил (извлечение полезных `если - то' правил из данных, основанное на статистической значимости), генетические алгоритмы, метод ближайшего соседа (классифицирует каждую запись из множества данных по основным комбинациям классов из k-записей исторической БД, наиболее похожих на нее), кластеризация, регрессия (линейная и логистическая), анализ временных рядов, обнаружение ассоциаций, сегментация БД. Кроме того, активно используются алгоритмы визуализации как самостоятельно, так и для улучшения результатов, полученных с помощью других алгоритмов.

Таблица 1 [14] дает представление о возможных сочетаниях перечисленных алгоритмов (используются также их варианты) по ряду продуктов DM.

Для любой конкретной задачи природа самих данных влияет на выбор метода анализа. Поясним это на примере решения задач классификации и кластеризации [3, 10]. Для этих задач широко используются как нейронные сети, так и символьные классификаторы, известные также как программы индукции правил или деревьев решений. Оба метода автоматически исследуют данные для поиска кластеров или образцов. Оба разбивают множество данных на значимые группы или классы. Различные по построению, оба типа основываются на индуктивной теории (обучение на примерах) и выполняют сходную работу над БД. Они разбивают или классифицируют независимые переменные по отношению к зависимым переменным или требуемому результату. Эти инструменты основываются на понятии, известном как управляемое обучение.

Но в то же время можно заметить существенные различия в применении методов. Нейронные сети требуют большого количества экспериментов и проверок, таких как установка верного числа узлов, критерия останова, обучающей выборки, импульсных коэффициентов и скрытых весов. Однако с помощью использования генетических алгоритмов для оптимизации этих установок можно повысить точность выходных данных для нейронных сетей. Другое ограничение, касающееся нейронных сетей, состоит в том, что они работают только с числами или бинарными данными. Часто требуется, чтобы данные были нормализованы и промасштабированы, включая предварительные преобразования. Результаты представляются в виде формул или массива весов. Существует еще ряд аргументов против использования нейронных сетей, например, их непрозрачность (факторы, приводящие к результирующему предсказанию, не являются очевидными) и потеря точности выходных данных.

Символьные классификаторы из области алгоритмов машинного обучения и статистические алгоритмы CHAID и CART предлагают более подходящее средство для DM, когда требуется объяснение смысла образцов. Деревья решений представляют правила, определяющие класс или значение. Такие деревья очень популярны благодаря разумной точности и понятности. Они строятся быстрее, чем нейронные сети. Но существуют и недостатки, например, стандартные алгоритмы для деревьев решений не могут обнаруживать правила, основанные на сочетаниях переменных.

В ходе международных четырехлетних экспериментальных исследований (StatLog) по сравнительному тестированию статистических алгоритмов и алгоритмов машинного обучения на масштабных приложениях для классификации, предсказания и управления был выполнен сравнительный анализ ряда классификационных систем, включая статистику, нейронные сети и символьные классификаторы, на 12 больших реальных множествах данных из областей распознавания образов, медицины, инженерии и финансов. Было обнаружено, что не существует наилучшего метода для классификации или предсказания, и исследователи пришли к заключению: точность любого метода извлечения данных, будь то нейронные сети, регрессионная статистика или символьные классификаторы, сильно зависит от структуры анализируемого множества данных. Обнаружено, что символьные классификаторы превосходят по точности нейронные сети на непараметризованных множествах данных и базах данных, содержащих большое количество нечисловых полей данных типа:

Женат - да / нет

Уровень потребления - низкий / средний / высокий

Номер по каталогу - 8M79Y.

Помимо основных, существуют еще алгоритмы и методы, являющиеся вспомогательными для извлечения данных. Чтобы лучше представить диапазон таких алгоритмов, приведем результаты последних достижений исследований по материалам трех конференций, посвященных извлечению данных [11] (информация сгруппирована по областям и методам, связанным с извлечением данных):

Согласованное обучение. Вместо того, чтобы использовать DM для построения единственной предсказывающей модели, часто лучше построить набор или ансамбль моделей и комбинировать их, скажем, по эффективности стратегии голосования. Эта простая идея применяется в настоящее время в широком спектре контекстов и приложений. Известно, что при некоторых условиях этот метод позволяет сократить разброс в предсказаниях и, следовательно, уменьшить общую ошибку модели.

Линейная алгебра. Масштабирование (scaling) алгоритмов извлечения данных часто критически зависит от масштабирования лежащих в основе вычислений линейной алгебры. Последние работы в области параллельных алгоритмов для решения линейных систем и алгоритмов для решения разреженных линейных систем большого порядка важны для ряда приложений DM: от извлечения текстов до определения незаконного доступа в сеть.

Широкомасштабная оптимизация. Некоторые алгоритмы извлечения данных могут быть представлены как широкомасштабные, часто невыпуклые, задачи оптимизации. Разработаны параллельные и распределенные методы для задач непрерывной и дискретной оптимизации, включая методы эвристического поиска.

Эффективные вычисления и взаимодействия. Извлечение данных требует статистически интенсивных операций над большими множествами данных. Эти типы вычислений не могут быть практически осуществлены без появления мощных SMP-рабочих станций и высокопроизводительных кластеров рабочих станций. Кроме того, распределенное извлечение данных требует перемещения огромных объемов информации между географически удаленными точками, что возможно благодаря развитию сетей.

Базы данных, информационные хранилища и цифровые библиотеки. Наиболее длительной по времени частью процесса извлечения данных является их подготовка. Время выполнения этого шага может быть частично линейным по отношению к объему данных, если они находятся в БД, хранилище или цифровой библиотеке, тогда как извлечение данных из различных БД представляет собой сложную задачу. Некоторые алгоритмы, например, ассоциативные, жестко связаны с БД. В то же время существуют примитивные операции, которые при встраивании в хранилище делают реальным выполнение ряда приложений DM.

Визуализация массивных множеств данных. Визуализация - это метод для исследования тенденций (трендов) в БД, дополняемый обычно навигацией массивов данных, и визуально ориентированный на данные, чтобы обнаружить скрытые зависимости. Методы визуализации используют абстрактное представление в интерактивных, 3-D, виртуальных средах, чтобы отобразить большие объемы данных. Системы визуализации приспособлены для поддержки приложений реального времени, так как значения параметров могут быть отображены как движущееся или имитационное измерение данных. Последние достижения в многомерной визуализации позволяют выполнять ее параллельно, и, следовательно, делают практически выполнимыми задачи визуализации.

В заключение отметим, что сегодня для пользователя процесс выполнения DM включает 5 шагов [15]:

1. Выбрать и подготовить данные для анализа.

2. Квалифицировать данные с помощью кластерного анализа или анализа характеристик. Кластеризация и сегментация данных предназначена для снижения их сложности, чтобы облегчить выполнение анализа.

3. Выбрать один или несколько инструментов DM.

4. Применить выбранные инструменты для обнаружения знаний.

5. Использовать обнаруженные знания для достижения цели исследования.

Сравнительный анализ технологии извлечения данных и других технологий и методов

Сегодня многие исследователи склонны считать, что DM связано, главным образом, с процессами индукции и в отличие от предшествующих технологий впервые позволяет получать обоснованную предсказывающую информацию по большим БД. Те, кто разделяют это мнение, представляют процесс эволюции извлечения данных примерно так, как это показано в Таблице 2 на примере решения задач маркетинга [5].

В то же время в [15] отмечается, что извлечение данных может пониматься и более упрощенно и предлагаются отличительные характеристики подлинного средства DM:

1) процесс извлечения должен быть автоматизированным;

2) должен быть хороший статистический базис для отделения интересующей пользователя информации от нерелевантной.

В настоящее время наблюдается тенденция к слиянию технологий извлечения данных, OLAP и СППР [15]. DM тесно взаимодействует и повышает эффективность применения ряда технологий [16]:

1. Реализация запросов и генерация отчетов. DM позволяет сосредоточиться на использовании этих систем и методов, так что релевантная информация получается быстрее и экономится время аналитика.

2. Многомерные таблицы и базы данных. DM обеспечивает автоматический анализ, помогающий повысить эффективность использования данных, поддерживаемых многомерными инструментами.

3. Визуализация данных позволяет аналитику получить глубокое понимание результатов анализа данных. В то же время методы визуализации могут не справиться с огромными объемами информации базы данных, а DM дает начальные данные для продуктивного использования визуализации.

Остановимся теперь более подробно на сравнении методов DM и статистики, а также технологий извлечения данных и OLAP.

6.1. Методы статистики и извлечение данных

Традиционно цель определения и использования информации, скрытой в данных, достигалась с помощью генераторов запросов и систем, интерпретирующих данные (пакеты статистической обработки SPSS, SAS и др.). Согласно [11], формальный статистический вывод - это предположение, выводимое в том смысле, что гипотеза сформулирована и доказывается на основе данных. Извлечение данных, напротив, управляется открытием в том смысле, что образцы и гипотезы автоматически извлекаются из данных. Другими словами, DM управляется данными, а статистика - человеком. Исследовательский анализ данных - область статистики, наиболее близкая к извлечению данных, работает с меньшими множествами данных, чем DM.

DM также отличается от статистики тем, что иногда цель состоит в извлечении качественных моделей, которые могут быть легко переведены в логические правила или визуальные представления; в этом смысле DM ориентируется на человека и иногда дополняется использованием человеко-машинных интерфейсов. DM - является интерактивным, полуавтоматическим процессом, начинающимся с рядов данных. Процесс DM предназначен для обнаружения скрытых данных, его результат - правила или предсказывающие модели. Как справедливо отмечается в [10], DM расширяет статистические подходы, допуская автоматизированную проверку большого количества гипотез и сегментацию БД. DM приобретает огромные преимущества по сравнению со статистикой при росте объема БД. В то же время следует подчеркнуть, что технология DM возникла из нескольких направлений: статистики, машинного обучения, баз данных и эффективных вычислений.

6.2. Технология OLAP и извлечение данныхfcibhztn cnfnbcnbxtcrbt gjl[jls?ра

Технология OLAP (Online Analytical Processing) обеспечивает интерактивную обработку сложных запросов и последующий многопроходный анализ, предоставляя тем самым пользователям возможность анализировать в оперативном режиме большие массивы разнообразных данных, выявлять взаимосвязи, определять тенденции развития и предсказывать будущее состояние. Можно выделить два фундаментальных отличия технологий OLAP и DM.

1. Обработка данных. Как утверждается в [10], главное отличие между OLAP и DM в том, как они обрабатывают данные. OLAP-инструменты обеспечивают многомерный анализ данных, то есть они могут работать с распределенными данными. OLAP обычно выполняет объединение множества баз данных в очень сложные таблицы. OLAP-средства работают с агрегированными данными, то есть OLAP-технология приходит к обработке данных через добавление. DM, напротив, связано с соотношениями, образцами и связями во множестве данных. В то же время обе технологии могут быть использованы совместно. Фактически, агрегирование и индуктивный анализ дополняют друг друга. Например, анализ данных может обнаружить существенную взаимосвязь во множестве атрибутов. OLAP может затем обобщить результат и сгенерировать отчет, показывающий детально влияние этого открытия.

2. Происхождение гипотезы. В [3] отмечается, что ключевое отличие этих технологий состоит в следующем: OLAP направляется пользователем; аналитик строит гипотезу и использует OLAP-средство, чтобы ее подтвердить. Напротив, при DM инструмент обрабатывает данные, чтобы сгенерировать гипотезу. Аналогично, когда пользователи используют OLAP и другие средства запросов для исследования данных, они направляют исследование. При применении DM-средств, эти средства сами выполняют исследование.

Рассмотрим пример, приведенный в [3]. Аналитик может предположить, что людям, имеющим большой долг и низкие доходы, рискованно предоставлять кредит (высокий риск кредита). Аналитик мог бы использовать OLAP различными способами, чтобы доказать или опровергнуть эту гипотезу. DM-средство может использоваться, чтобы обнаружить факторы риска для предоставления кредита: например, оно может обнаружить, что люди, имеющие большой долг и низкие доходы, имеют высокий риск кредита. Но DM может также обнаружить образец, который аналитик даже не мог предположить: например, соотношение долга, дохода и риска, связанного с возрастом. Здесь DM и OLAP дополняют друг друга: перед тем, как работать с образцом, аналитик должен знать финансовые предпосылки использования обнаруженного образца для определения тех, кто получает кредит. OLAP помогает ответить на такие вопросы. Более того, OLAP может улучшить ранние стадии процесса обнаружения знаний, помогая понять данные, фокусируя внимание на важных переменных, указывающих исключения, или при поиске взаимосвязей. Эти операции важны, так как чем лучше пользователь понимает данные, тем эффективнее будет процесс обнаружения знаний.

Применение методов извлечения данных для обнаружения продукционных правил в базе данных

Одно из главных препятствий в применении методов извлечения данных к большим реальным базам данных - недостаточная эффективность управления данными. В [17] выделяют следующие виды методов для работы с большими множествами данных:

·Выборочные методы используют небольшое подмножество БД, такое что могут быть применены методы нейросетей и традиционные алгоритмы машинного обучения. При этом неизбежна потеря информации.

·Инкрементные методы предполагают единственный просмотр всей БД. При этом необходима оперативная память достаточно большого объема для поддержки алгоритмов обучения и классификационных деревьев.

·Итерационные методы выполняют пошаговое усовершенствование начального множества правил путем получения дополнительной информации из БД.

В [17, 18, 19] рассматривается система Monet с двухуровневой архитектурой (Рис. 3) для поддержки DM, включающей инструментальное средство для DM и параллельный cервер СУБД. Эта система использует итерационные методы при работе с БД. Отличительные черты Monet: использование простых и быстрых операций с БД; повторное использование результатов, полученных в предыдущих запросах; максимальное использование основной памяти для хранения наиболее часто требующегося подмножества БД; параллельная обработка запросов.

В [18] выделяют следующие проблемы, возникающие при выявлении скрытых связей между данными:

Велико количество возможных связей в БД (требуются алгоритмы эффективного поиска, но прямое их применение к большим БД влечет появление проблемы оптимизации и, как правило, многократные просмотры БД).

Возможность пропуска интересных связей между данными, если используется не вся БД, а некоторое ее подмножество - образец (то есть такое подмножество должно быть также очень большого объема).

Применение DM для классификационных правил

Требуется найти правила, определяющие принадлежность объекта конкретному подмножеству, называемому классом. На практике пользователь разбивает БД на два подмножества:

1) P - положительные примеры для класса;

2) N - отрицательные примеры для класса.

Затем система ищет классификационные правила, которые предсказывают, будет ли конкретный объект принадлежать множеству P или N, основываясь на значениях его атрибутов.

Классификационные правила имеют вид: <D>®<C>, где C - класс, D - «условие» - конъюнкция условий на значениях атрибутов. Условия на значениях атрибутов представляются в виде равенств в случае категориальных атрибутов и неравенств для числовых атрибутов. Фактически, условие D описывает выборку из БД, а так как БД разбита на подмножества P и N, то образуются две выборки и . Правило корректно по отношению к БД, если его условие описывает все положительные примеры (= P и =). В общем случае существует мало корректных правил, так как принадлежность классу часто определяется информацией, отсутствующей в БД. Следовательно, имеет смысл искать вероятные правила. Для этого с каждым правилом R связывается характеристика качества или силы: /(||+||) (для корректных правил качество равно 1).

Стратегия поиска. Для нахождения вероятных правил высокого качества используется итерационная стратегия поиска, управляемая метрикой качества. Начальное правило R0 имеет пустое условие: R0: <true>®<C> (все объекты в БД принадлежат классу C). Тогда Q(R) - число положительных примеров, деленное на размер БД. В процессе DM правило расширяется добавлением условий на значения атрибутов. Применяется эвристика, состоящая в том, чтобы выбирать такие расширения правила, которые сохраняют его высокое качество. Для этого вычисляется качество всех возможных расширений правил. Комбинаторный взрыв правил-кандидатов сдерживается специальным алгоритмом лучевого поиска: дальнейший поиск и порождение расширений осуществляется только для правил, имеющих высокое значение качества из заданного диапазона. Процесс продолжается до тех пор, пока качество правил продолжает улучшаться и длина правил не превышает заданного предела.

Для вычисления качества расширений правила Ri требуется рассмотрение только подмножества, описываемого Ri, а не всей БД. Все же основная задача - эффективное вычисление качества всех возможных расширений правила. Могут быть следующие решения:

1. Расчет качества для каждого расширения отдельно. При этом требуется два запроса: первый - подсчет числа объектов в и второй - в. Этот подход неэффективен.

2. Вычисление приращения качества для множества правил (к каждому правилу добавляется счетчик). Предполагается, что последовательность просмотра БД не приводит к сокращению количества классификационных правил.

3. Модификация 1, в которой результаты запросов , сохраняются в кэш-памяти для повторного использования.

Функции сервера БД Monet:

1. Хранение и обеспечение доступа к данным. Преобразование сложных объектов и таблиц отношений в бинарные ассоциативные таблицы (BAT). Каждый атрибут хранится в отдельной таблице: 1-я колонка - заголовок - содержит уникальный идентификатор объекта, а 2-я - значения атрибутов. В результате улучшается доступ к БД для инструментов DM. Кроме того, используется вертикальное разбиение БД, при котором в основную память загружаются только те атрибуты, которые соответствуют текущей задаче DM.

2. Сбор статистики. Качество расширений правил вычисляется с использованием гистограмм. Гистограмма H для BAT A есть новая таблица, содержащая пары <значение, частота>: H(A)={<v1,f1>,...,<vn,fn>}, где fi - количество появлений значения vi в A для категориальных условий (вычисляется на основе специального SQL-запроса) и сумма частот для значений, меньших vi для числовых условий.

3. Вычисление выборок. Для определения множества объектов, описываемых правилом R1, то есть таких, что A=v строятся две таблицы P1 и N1. Сначала производится выборка для A=v из таблицы A. Заголовки результирующей таблицы T содержат идентификаторы всех объектов, для которых A=v. P1 находится как полуобъединение P0 и T. Аналогично находится и N1. Благодаря сжимающему характеру используемого алгоритма размер буфера в основной памяти, необходимый для хранения промежуточных результатов, стабилизируется после нескольких итераций.

4. Управление промежуточными результатами. После каждой фазы работы сервер уничтожает временные данные и их имена будут вновь использоваться.

5. Параллелизм. Можно параллельно вычислять BAT и их гистограммы. Алгоритм лучевого поиска также допускает параллельную реализацию.

Применение DM для ассоциативных правил

Ассоциативное правило - выражение X®Y, где X и Y - множества атрибутов, означающее, что если атрибут в X - истина, то атрибут в Y, как правило, тоже истина. Для заданного множества атрибутов X носитель s(X) - количество транзакций, которые содержат все элементы X. Все ассоциативные правила X®Y, для которых s(XY)іs могут быть найдены в два этапа:

1. Поиск в БД всех больших предметных множеств, то есть множеств атрибутов, которые появляются вместе по крайней мере в s-транзакциях в БД («тяжелый» с вычислительной точки зрения этап).

2. Генерация ассоциативных правил по найденным предметным множествам («легкий» этап).

В [19] рассматривается первый этап. Отмечается, что большинство алгоритмов, реализующих его, работают по схеме:

·находятся носители для отдельных объектов и строятся большие одно-предметные множества;

·осуществляется итерационный процесс для s=2,3,..., в котором

1) по большим (s-1)-предметным множествам генерируются s-предметные множества - кандидаты;

2) вычисляются носители для множеств-кандидатов по БД и те из них, которые оказываются большими, используются на следующем шаге (в результате происходит сокращение области поиска).

Подчеркивается, что такие алгоритмы не поддерживают напрямую иерархии объектов.

Новые направления исследований в области извлечения данных и приложения задач анализа данных

Итак, подведем итоги. Рост объема цифровых данных за последние 10 лет приобрел взрывной характер, тогда как количество ученых, инженеров и аналитиков, способных анализировать эту информацию, остается постоянным. Чтобы преодолеть этот разрыв, необходимо решить фундаментальные новые исследовательские проблемы, которые могут быть сгруппированы следующим образом [11]:

1) разработка алгоритмов и систем для извлечения больших, объемных и многомерных множеств данных;

2) разработка алгоритмов и систем для извлечения новых типов данных;

3) fрарараразработка алгоритмов, протоколов и другой инфраструктуры для извлечения распределенных данных;

4) повышение легкости использования систем извлечения данных;

5) разработка подходящей модели обеспечения безопасности для DM.

Рассмотрим подробнее проблемы, которые требуется решать в каждом случае.

Масштабирование алгоритмов извлечения данных. Большинство алгоритмов предполагает, что данные размещаются в основной памяти. Фундаментальная задача состоит в том, чтобы выполнить масштабирование DM-алгоритмов для увеличения:

· количества записей или наблюдений;

· количества атрибутов, приходящееся на наблюдение;

· количества предсказывающих моделей или множеств правил, используемых для анализа набора наблюдений;

· скорости реакции системы.

Кроме того, требуются не только распределенные и параллельные версии существующих алгоритмов, но и совершенно новые алгоритмы. Например, сегодня ассоциативные алгоритмы могут анализировать данные, не помещающиеся в памяти, за 1 или 2 прохода, требуя, чтобы лишь часть дополнительных данных находилась в памяти.

Распространение DM-алгоритмов на новые типы данных. Сегодня большинство алгоритмов работает с векторными данными. Важная задача - распространить работу DM-алгоритмов на другие типы данных: временные ряды и процессы, неструктурированные данные (текст), полуструктурированные данные (HTML- и XML-документы), мульти-медиа, иерархические и многомерные данные и т.п.

Развитие распределенных DM-алгоритмов. Большинство алгоритмов требуют, чтобы данные были собраны вместе в централизованном информационном хранилище. Фундаментальная задача - выполнять извлечение данных так, чтобы часть данных оставалась на своих местах. Кроме того, требуются подходящие протоколы, языки и сетевые услуги для извлечения распределенных данных, обработки метаданных и соответствий, необходимых при распределенном хранении данных.

Простота использования. Извлечение данных сегодня в идеальном случае - полуавтоматический процесс и, возможно, навсегда останется таким. С другой стороны, проблема заключается в том, чтобы развивать DM?системы, которые легко использовать даже случайным пользователям. Соответствующие методы включают: улучшение пользовательского интерфейса, развитие методов и систем для управления метаданными, требующимися для DM, и разработку подходящих языков и протоколов для обеспечения случайного доступа к данным. Кроме того, развитие сред DM и обнаружения данных, которые связаны с процессами сбора, обработки, извлечения и визуализации данных наряду с аспектами подготовки отчетов и объединения результатов при работе с данными и информацией, получаемыми в этих средах, представляет другую фундаментальную проблему.

Защита и безопасность. Извлечение данных может быть мощным средством для получения полезной информации из данных. Так как становится доступно все больше и больше цифровых данных, то возрастает возможность злоупотребления средствами извлечения данных. Задача заключается в том, чтобы развивать модели и протоколы обеспечения безопасности, подходящие для извлечения данных, и добиться того, чтобы следующие поколения DM-систем использовали эти модели и протоколы.

Заключение

На сегодняшний день разработан ряд коммерческих продуктов для извлечения данных. В результате их внедрения уже получены первые уроки по применению технологии DM [14]:

· Успешная работа DM-продуктов зависит от поддержки специалистов в области информационных технологий.

· Развитие проекта DM направляется задачами предметной области.

· DM чаще вырабатывает специфические результаты, чем общие правила.

· Дружественный графический интерфейс маскирует сложность систем.

· Сложные результаты не всегда удается интерпретировать или понять.

· Для успешного использования требуется знание статистики, БД и предметной области.

· Результаты критически зависят от качества данных.

Технология извлечения данных поддерживается в настоящее время отчасти благодаря появлению новых приложений, требующих новых возможностей, не предоставляемых существующими технологиями. Эти новые приложения естественным образом могут быть разделены на три широкие категории по типу обрабатываемых данных [11]:

1. Деловые, экономические и коммерческие данные. Сюда включаются офисные и сетевые приложения, порождающие большие объемы данных о деловом процессе. Использование этих данных для эффективного принятия решений остается фундаментальной проблемой.

2. Научные и инженерные данные. Научные данные и метаданные имеют более сложную структуру, чем деловые. Кроме того, ученые и инженеры все активнее используют имитацию и системы с базой знаний из прикладной области.

3. Сетевые данные. Объем данных в сети увеличивается и возрастает их сложность: используются тексты, образы, числовые данные.

Реферат: "Проектирование баз и хранилищ данных"

Раздел: Рефераты по информатике, программированию

Проектирование баз и хранилищ данных

Теория баз данных -- сравнительно молодая область знаний Возраст ее составляет немногим более 30 лет. Однако изменился ритм времени, оно уже не бежит, а летит, и мы вынуждены подчиняться ему во всем. И действительно, современный мир информационных технологий трудно представить себе без использования баз данных. Практически все системы в той или иной степени связаны с функциями долговременного хранения и обработки информации.

Фактически информация становится фактором, определяющим эффективность любой сферы деятельности. Увеличились информационные потоки и повысились требования к скорости обработки данных, и теперь уже большинство операций не может быть выполнено вручную, они требуют применения наиболее перспективных компьютерных технологий. Любые административные решения требуют четкой и точной оценки текущей ситуации и возможных перспектив ее изменения. И если раньше в оценке ситуации участвовало несколько десятков факторов, которые могли быть вычислены вручную, то теперь таких факторов сотни и сотни тысяч, и ситуация меняется не в течение года, а через несколько минут, а обоснованность принимаемых решений требуется большая, потому что и реакция на неправильные решения более серьезная, более быстрая и более мощная, чем раньше. И, конечно, обойтись без информационной модели производства, хранимой в базе данных, в этом случае невозможно.


Подобные документы

  • Концепции хранилищ данных для анализа и их составляющие: интеграции и согласования данных из различных источников, разделения наборов данных для систем обработки транзакций и поддержки принятия решений. Архитектура баз для хранилищ и витрины данных.

    реферат [1,3 M], добавлен 25.03.2013

  • Формы представляемой информации. Основные типы используемой модели данных. Уровни информационных процессов. Поиск информации и поиск данных. Сетевое хранилище данных. Проблемы разработки и сопровождения хранилищ данных. Технологии обработки данных.

    лекция [15,5 K], добавлен 19.08.2013

  • Понимание хранилища данных, его ключевые особенности. Основные типы хранилищ данных. Главные неудобства размерного подхода. Обработка информации, аналитическая обработка и добыча данных. Интерактивная аналитическая обработка данных в реальном времени.

    реферат [849,7 K], добавлен 16.12.2016

  • Понятие и структура хранилища данных, его составные элементы и назначение. Технологии управления информацией. Методика создания базы данных и составления ее схемы, пользовательские формы, структура и содержание таблиц. Программная реализация базы данных.

    дипломная работа [1,4 M], добавлен 13.04.2010

  • Понятие и функциональное назначение информационного хранилища, свойства и компоненты. Проблемы интеграции данных, принципы организации хранилищ. Проектирование и анализ реляционной базы данных "Салона красоты" методом нормальных форм и "сущность-связь".

    курсовая работа [573,5 K], добавлен 21.02.2015

  • Методы построения хранилища данных на основе информационной системы реального коммерческого предприятия. Основные аналитические задачи, для решения которых планируется внедрение хранилищ данных. Загрузка процессоров на серверах. Схемы хранения данных.

    контрольная работа [401,0 K], добавлен 31.05.2013

  • Определение многомерной модели данных для удовлетворения основных информационных потребностей предприятия. Экстракция, загрузка и перенос данных из различных источников данных. Разработка собственных ETL–систем. Оптимизация работы хранилища данных.

    презентация [9,1 M], добавлен 25.09.2013

  • Архитектура и технология функционирования системы. Извлечение, преобразование и загрузка данных. Oracle Database для реализации хранилища данных. Создание структуры хранилища. Механизм работы системы с точки зрения пользователя и с точки зрения платформы.

    курсовая работа [2,2 M], добавлен 22.02.2013

  • Файловая организация баз данных. Взаимодействие администратора баз данных с пользователями. Иерархическая и сетевая даталогические модели системы управления базами данных. Принципиальная организация системы обработки информации на основе БД-технологии.

    реферат [762,0 K], добавлен 23.12.2015

  • Принципы построения и основные компоненты хранилищ данных, общая характеристика основных требований к ним по Р. Кинболлу. Понятие и виды баз данных. Методика проектирования комплекса задач автоматизации учета по счету 02 "Амортизация основных средств".

    контрольная работа [27,8 K], добавлен 12.11.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.