Технология Data Mining
Data Mining как метод обнаружения знаний, необходимых для принятия решений в различных сферах деятельности, скрытых в больших объемах исходных данных. Алгоритм решения задачи поиска ассоциативных правил Apriori. Методы визуализации анализируемых данных.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 04.07.2013 |
Размер файла | 358,0 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Федеральное государственное бюджетное общеобразовательное учреждение высшего профессионального образования
Уфимский государственный авиационный технический университет
Кафедра ТК
Пояснительная записка к курсовой работе
по дисциплине "Современные методы теории управления"
на тему: "Технология Data Mining"
Выполнила: студ. гр. ИСУ-102м,
Абдуллина А.З.
Проверил: к.т.н., доцент
Мигранов А.Б.
Уфа 2012
Оглавление
- Введение
- 1. Задачи Data Mining
- 1.1 Классификация задач Data Mining
- 1.2 Задача классификации и регрессии
- 1.3 Задача поиска ассоциативных правил
- 1.4 Задача кластеризации
- 2. Базовые методы Data Mining
- 2.1 Нечеткая логика
- 2.2 Генетические алгоритмы
- 2.3 Нейронные сети
- 3. Процесс Data Mining
- 4. Построение деревьев решений в системе See5
- 4.1 Подготовка данных для анализа
- 4.2 Задание начальных параметров и построение ДР
- 4.3 Анализ полученного дерева решений
- 4.4 Преобразование дерева решений в набор правил
- Заключение
- Введение
- Data Mining буквально в переводе с английского означает "данные, факты, сведения, информация", и "добыча полезных ископаемых".
- Область Data Mining началась с семинара, проведенного Григорием Пятецким-Шапиро в 1989 году Интервью Григория Пятецкого-Шапиро "Великие раскопки и великие вызовы" в журнале "Компьютерра"№ 11(679) 2007.. Изначально, задача ставилась следующим образом: имеется достаточно крупная база данных, предполагается, что в базе данных находятся некие "скрытые знания", необходимо разработать методы обнаружения знаний, скрытых в больших объёмах исходных "сырых" данных. Тогда же был предложен термин Data Mining как собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
- Основу методов Data Mining составляют:
- методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памяти, нечёткой логики;
- статистические методы - дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов.
- Одно из важнейших назначений методов Data Mining состоит в наглядном представлении результатов вычислений, что позволяет использовать инструментарий Data Mining людьми, не имеющих специальной математической подготовки. В то же время, применение статистических методов анализа данных требует хорошего владения теорией вероятностей и математической статистикой.
- Возникновение и развитие Data Mining обусловлено различными факторами, назовем основные:
- - совершенствование аппаратного и программного обеспечения;
- - совершенствование технологий хранения и записи данных;
- - накопление большого количества ретроспективных данных;
- - совершенствование алгоритмов обработки информации.
- Итак, Data Mining - это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации). Суть и цель технологии Data Mining можно охарактеризовать как технологию, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей.
- Целью данной работы является раскрытие основных свойств возможностей технологии "добычи знаний", а также рассмотрение возможностей применения технологии Data Mining на примере SAS Interprise Miner.
1. Задачи Data Mining
1.1 Классификация задач Data Mining
Основу технологии Data Mining составляет концепция шаблонов, представляющих собой закономерности. Различным типам закономерностей, соответствуют определенные задачи Data Mining:
- классификация,
- кластеризация,
- прогнозирование,
- ассоциация,
- визуализация,
- анализ и обнаружение отклонений,
- оценивание,
- анализ связей,
- подведение итогов.
Задача классификации. В результате решения задачи классификации обнаруживаются признаки, которые характеризуют группы объектов исследуемого набора данных - классы; по этим признакам новый объект можно отнести к тому или иному классу. Для решения задачи классификации могут использоваться методы: ближайшего соседа; k-ближайшего соседа; байесовские сети; индукция деревьев решений; нейронные сети.
Кластеризация. Особенность кластеризации заключается в том, что классы объектов изначально не предопределены. Результатом кластеризации является разбиение объектов на группы. Пример метода решения задачи кластеризации: обучение "без учителя" особого вида нейронных сетей - самоорганизующихся карт Кохонена.
В ходе решения задачи поиска ассоциативных правил отыскиваются закономерности между связанными событиями в наборе данных. Отличие ассоциации от двух предыдущих задач Data Mining: поиск закономерностей осуществляется не на основе свойств анализируемого объекта, а между несколькими событиями, которые происходят одновременно. Наиболее известный алгоритм решения задачи поиска ассоциативных правил - алгоритм Apriori. Последовательность позволяет найти временные закономерности между транзакциями. Задача последовательности подобна ассоциации, но ее целью является установление закономерностей не между одновременно наступающими событиями, а между событиями, связанными во времени (т.е. происходящими с некоторым определенным интервалом во времени). Другими словами, последовательность определяется высокой вероятностью цепочки связанных во времени событий. Фактически, ассоциация является частным случаем последовательности с временным лагом Временной лаг (time lag). В реальной экономике и в экономических моделях задержка, в связи с возникновением определенных событий после совершения действий, которые, как полагают, их вызвали., равным нулю.
В результате решения задачи прогнозирования на основе особенностей исторических данных оцениваются пропущенные или же будущие значения целевых численных показателей. Для решения таких задач широко применяются методы математической статистики, нейронные сети и др.
Цель решения задачи определения отклонений или выбросов, анализ отклонений или выбросов - обнаружение и анализ данных, наиболее отличающихся от общего множества данных, выявление так называемых нехарактерных шаблонов.
Задача оценивания сводится к предсказанию непрерывных значений признака.
Анализ связей - задача нахождения зависимостей в наборе данных.
В результате визуализации создается графический образ анализируемых данных. Для решения задачи визуализации используются графические методы, показывающие наличие закономерностей в данных. Пример методов визуализации - представление данных в 2-D и 3-D измерениях.
Подведение итогов - задача, цель которой - описание конкретных групп объектов из анализируемого набора данных.
Перечисленные задачи по назначению делятся на описательные и предсказательные.
Описательные (descriptive) задачи уделяют внимание улучшению понимания анализируемых данных. Ключевой момент в таких моделях - легкость и прозрачность результатов для восприятия человеком. Возможно, обнаруженные закономерности будут специфической чертой именно конкретных исследуемых данных и больше нигде не встретятся, но это все равно может быть полезно и потому должно быть известно. К такому виду задач относятся кластеризация и поиск ассоциативных правил.
Решение предсказательных (predictive) задач разбивается на два этапа. На первом этапе на основании набора данных с известными результатами строится модель. На втором этапе она используется для предсказания результатов на основании новых наборов данных. При этом, естественно, требуется, чтобы построенные модели работали максимально точно. К данному виду задач относят задачи классификации и регрессии. Сюда можно отнести и задачу поиска ассоциативных правил, если результаты ее решения могут быть использованы для предсказания появления некоторых событий.
По способам решения задачи разделяют на "обучение с учителем" и "обучение без учителя". Такое название появилось при разработке алгоритмов искусственного интеллекта, в частности Machine Learning (машинное обучение).
В случае "обучения с учителем" задача анализа данных решается в несколько этапов. Сначала строится модель анализируемых данных - классификатор. Затем классификатор подвергается обучению. Другими словами, проверяется качество его работы, и, если оно неудовлетворительное, происходит дополнительное обучение классификатора. Так продолжается до тех пор, пока не будет достигнут требуемый уровень качества или не станет ясно, что выбранный алгоритм не работает корректно с данными, либо же сами данные не имеют структуры, которую можно выявить. К этому типу задач относят задачи классификации и регрессии.
"Обучение без учителя" объединяет задачи, выявляющие описательные модели, например закономерности в покупках, совершаемых клиентами большого магазина. Очевидно, что если эти закономерности есть, то модель должна их представить и неуместно говорить об ее обучении. Достоинством таких задач является возможность их решения без каких-либо предварительных знаний об анализируемых данных. К этим задачам относятся кластеризация и поиск ассоциативных правил.
1.2 Задача классификации и регрессии
данные алгоритм визуализация ассоциация
При анализе часто требуется определить, к какому из известных классов относятся исследуемые объекты, т. е. классифицировать их.
Примером задачи классификации является фильтрация электронной почты. Программа фильтрации должна классифицировать входящее сообщение как спам или как письмо. Данное решение принимается на основании частоты появления в сообщении определенных слов (например, имени получателя, безличного обращения, слов и словосочетаний: "приобрести", "заработать", "выгодное предложение" и т. п.).
В общем случае количество классов в задачах классификации может быть более двух. Например, в задаче распознавания образа цифр таких классов может быть 10 (по количеству цифр в десятичной системе счисления). В такой задаче объектом классификации является матрица пикселов, представляющая образ распознаваемой цифры.
В Data Mining задачу классификации рассматривают как задачу определения значения одного из параметров анализируемого объекта на основании значений других параметров. Определяемый параметр часто называют зависимой переменной, а параметры, участвующие в его определении, - независимыми переменными. В рассмотренных примерах независимыми переменными являлись: частота появления определенных слов; значения цвета пикселов матрицы.
Зависимыми переменными в этом примере являлись соответственно: тип сообщения (возможные значения этой переменной - "spam" и "mail"); цифра образа (возможные значения этой переменной - 0, 1, ..., 9).
Необходимо обратить внимание на то, что во всех рассмотренных примерах независимая переменная принимала значение из конечного множества значений: {"spam", "mail"}, {0, 1, ..., 9}. Если значениями независимых и зависимой переменных являются действительные числа, то задача называется задачей регрессии.
Задача классификации и регрессии решается в два этапа. На первом выделяется обучающая выборка. В нее входят объекты, для которых известны значения как независимых, так и зависимых переменных. В описанных ранее примерах такими обучающими выборками могут быть: сообщения, классифицированные вручную как спам или как письмо; распознанные ранее матрицы образов цифр.
На основании обучающей выборки строится модель определения значения зависимой переменной. Ее часто называют функцией классификации или регрессии. Для получения максимально точной функции к обучающей выборке предъявляются следующие основные требования:
- количество объектов, входящих в выборку, должно быть достаточно большим;
- в выборку должны входить объекты, представляющие все возможные классы в случае задачи классификации или всю область значений в случае задачи регрессии;
- для каждого класса в задаче классификации или для каждого интервала области значений в задаче регрессии выборка должна содержать достаточное количество объектов.
На втором этапе построенную модель применяют к анализируемым объектам (к объектам с неопределенным значением зависимой переменной).
Основные проблемы, с которыми сталкиваются при решении задач классификации и регрессии, - это неудовлетворительное качество исходных данных, в которых встречаются как ошибочные данные, так и пропущенные значения, различные типы атрибутов - числовые и категорические, разная значимость атрибутов, а также так называемые проблемы overfitting и underfitting. Суть первой из них, заключается в том, что классификационная функция при построении "слишком хорошо" адаптируется к данным и встре- чающиеся в них ошибки и аномальные значения пытается интерпретировать как часть внутренней структуры данных. Очевидно, что в дальнейшем такая модель будет некорректно работать с другими данными, где характер ошибок будет несколько иной. Термином underfitting обозначают ситуацию, когда слишком велико количество ошибок при проверке классификатора на обучающем множестве. Это означает, что особых закономерностей в данных не было обнаружено, и либо их нет вообще, либо необходимо выбрать иной метод их обнаружения.
1.3 Задача поиска ассоциативных правил
Суть задачи поиска ассоциативных правил заключается в определении часто встречающихся наборов объектов в большом множестве таких наборов. Данная задача является частным случаем задачи классификации. Первоначально она решалась при анализе тенденций в поведении покупателей в супермаркетах. Анализу подвергались данные о совершаемых ими покупках - продуктах, которые покупатели складывают в тележку (корзину). Это послужило причиной второго часто встречающегося названия - анализ рыночных корзин. При анализе этих данных интерес прежде всего представляет информация о том, какие товары покупаются вместе, в какой последовательности, какие категории потребителей какие товары предпочитают, в какие периоды времени и т. п. Такая информация позволяет более эффективно планировать закупку товаров, проведение рекламной кампании и т. д.
При анализе часто вызывает интерес последовательность происходящих событий. При обнаружении закономерностей в таких последовательностях можно с некоторой долей вероятности предсказывать появление событий в будущем, что позволяет принимать более правильные решения. Такая задача является разновидностью задачи поиск ассоциативных правил и называется сиквенциальным анализом.
Основным отличием задачи сиквенциального анализа от поиска ассоциативных правил является установление отношения порядка между исследуемыми наборами. Данное отношение может быть определено разными способами. При анализе последовательности событий, происходящих во времени, объектами таких наборов являются события, а отношение порядка соответствует хронологии их появления. Сиквенциальный анализ широко используется, например в телекоммуникационных компаниях, для анализа данных об авариях на различных узлах сети. Информация о последовательности совершения аварий может помочь в обнаружении неполадок и предупреждении новых аварий.
1.4 Задача кластеризации
Задача кластеризации состоит в разделении исследуемого множества объектов на группы "похожих" объектов, называемых кластерами (cluster). Слово cluster переводится с английского как сгусток, пучок, группа. Часто решение задачи разбиения множества элементов на кластеры называют кластерным анализом.
Кластеризация может применяться практически в любой области, где необходимо исследование экспериментальных или статистических данных.
Для научных исследований изучение результатов кластеризации, а именно выяснение причин, по которым объекты объединяются в группы, способно открыть новые перспективные направления. Традиционным примером, который обычно приводят для этого случая, является периодическая таблица элементов. В 1869 г. Дмитрий Менделеев разделил 60 известных в то время элементов на кластеры или периоды. Элементы, попавшие в одну группу, обладали схожими характеристиками. Изучение причин, по которым элементы разбивались на явно выраженные кластеры, в значительной степени определило приоритеты научных изысканий на годы вперед. Но лишь спустя 50 лет квантовая физика дала убедительные объяснения периодической системы.
Кластеризация отличается от классификации тем, что для проведения анализа не требуется иметь выделенную зависимую переменную, поэтому она относится к классу "обучение без учителя". Эта задача решается на начальных этапах исследования, когда о данных мало что известно. Ее решение помогает лучше понять данные, и с этой точки зрения задача кластеризации является описательной.
Для задачи кластеризации характерно отсутствие каких-либо различий, как между переменными, так и между объектами. Напротив, ищутся группы наиболее близких, похожих объектов. Методы автоматического разбиения на кластеры редко используются сами по себе, а только для получения групп схожих объектов. После определения кластеров используются другие методы Data Mining, чтобы попытаться установить, что означает такое разбиение, чем оно вызвано.
Кластерный анализ позволяет рассматривать достаточно большой объем информации и резко сокращать, сжимать большие массивы информации, делать их компактными и наглядными.
2. Базовые методы Data Mining
К базовым методам Data Mining принято относить алгоритмы, основанные на переборе. Простой перебор всех исследуемых объектов требует (2N) операций, где N - количество объектов.
Следовательно, с увеличением количества данных объем вычислений растет экспоненциально, что при большом объеме делает решение любой задачи таким методом практически невозможным.
Для сокращения вычислительной сложности в таких алгоритмах, как правило, используют разного вида эвристики, приводящие к сокращению перебора. Оптимизация подобных алгоритмов сводится к приведению зависимости количества операций от количества исследуемых данных к функции линейного вида. В то же время, зависимость от количества атрибутов, как правило, остается экспоненциальной. При условии, что их немного (в подавляющем большинстве случаев их значительно меньше, чем данных), такая зависимость является приемлемой.
Основным достоинством данных алгоритмов является их простота, как с точки зрения понимания, так и реализации. К недостаткам можно отнести отсутствие формальной теории, на основании которой строятся такие алгоритмы, а следовательно, и сложности, связанные с их исследованием и развитием.
К базовым методам Data Mining можно отнести также и подходы, использующие элементы теории статистики. В связи с тем, что Data Mining является развитием статистики, таких методов достаточно много. Их основная идея сводится к корреляционному, регрессионному и другим видам статистического анализа. Главным недостатком является усреднение значений, что приводит к потере информативности данных. Это в свою очередь приводит к уменьшению количества добываемых знаний.
2.1 Нечеткая логика
Основным способом исследования задач анализа данных является их отображение на формализованный язык и последующий анализ полученной модели. Неопределенность по объему отсутствующей информации у системного аналитика можно разделить на три большие группы:
1. Неизвестность.
2. Неполнота (недостаточность, неадекватность).
3. Недостоверность.
Недостоверность бывает физической (источником ее является внешняя среда) и лингвистической (возникает в результате словесного обобщения и обусловливается необходимостью описания бесконечного числа ситуаций ограниченным числом слов за ограниченное время).
Выделяют два вида физической неопределенности:
1. Неточность (неточность измерений значений определенной величины, выполняемых физическими приборами).
2. Случайность (или наличие во внешней среде нескольких возможностей, каждая из которых случайным образом может стать действительностью предполагается знание соответствующего закона распределения вероятностей).
Выделяют два вида лингвистической неопределенности:
1. Неопределенность значений слов (многозначность, расплывчатость, неясность, нечеткость). Она возникает в случае, если отображаемые одним и тем же словом объекты задачи управления различны.
2. Неоднозначность смысла фраз (выделяют синтаксическую и семантическую).
Для обработки физических неопределенностей успешно используются методы теории вероятностей и классическая теория множеств. Однако с развитием систем, использующих методы теории искусственного интеллекта, в которых требуется обрабатывать понятия и отношения естественного языка, возникла необходимость расширения множества формальных методов с целью учета лингвистической неопределенности задач.
Основной сферой применения нечеткой логики было и во многом остается управление. Не случайно основоположником теории нечетких множеств стал известный специалист в области управления Л. Заде. Дело в том, что в исходную идею о нечеткой логике очень хорошо укладывались представления об управлении и процессах принятия решений. А поскольку подобные задачи возникают почти во всех технологических процессах, потребности в развитии данной теории и возможности ее приложения достаточно широки.
С увеличением размеров и сложности системы существенно усложняется ее моделирование с помощью известных математических выражений. Это связано с увеличением числа переменных и параметров, повышением сложности измерения отдельных переменных. В результате, создание адекватной модели становится практически невозможным. Вместо этого Л. Заде предложил лингвистическую модель, которая использует не математические выражения, а слова, отражающие качество. Применение словесной модели не обеспечивает точность, аналогичную математическому моделированию, однако создание хорошей, качественной модели возможно.
В этом случае предметом обсуждения становится нечеткость слов языка описания системы.
Человеку в процессе управления сложными объектами свойственно оперировать понятиями и отношениями с расплывчатыми границами. Источником расплывчатости является существование классов объектов степень принадлежности к которым - величина, непрерывно изменяющаяся от полной принадлежности к нему до полной непринадлежности. Обычное математическое понятие множества, основанное на бинарной характеристической функции, не позволяет формализовать такое описание. Введение Л. Заде двух основных исходных понятий - нечеткого множества и лингвистической переменной - существенно расширило возможности формализации описаний подобных сложных систем. Такие модели стали называться лингвистическими.
Нечеткая логика позволяет удачно представить мышление человека. В повседневной деятельности человек никогда не пользуется формальным моделированием на основе математических выражений, не ищет одного универсального закона, описывающего все окружающее. Он использует нечеткий естественный язык. В процессе принятия решения человек легко овладевает ситуацией, разделяя ее на события, находит решение сложных проблем, применяя для отдельных событий соответствующие, по опыту, правила принятия решений, используя при этом большое количество иногда даже противоречивых качественных критериев. Таким образом, перед человеком возникает ряд локальных моделей, описывающих свойства фрагментов объектов в определенных условиях. Крайне важным является то, что все модели обладают некой общностью и очень просты для понимания на качественном уровне. Ярким примером каркаса подобной словесной модели является конструкция "если..., то... ".
Теперь определим три основные особенности нечеткой логики:
1. Правила принятия решений являются условными высказываниями типа "если..., то... " и реализуются с помощью механизма логического вывода.
2. Вместо одного четкого обобщенного правила нечеткая логика оперирует со множеством частных правил. При этом для каждой локальной области распределенного информационного пространства, для каждой регулируемой величины, для каждой цели управления задаются свои правила. Это позволяет отказываться от трудоемкого процесса свертки целей и получения обобщенного целевого критерия, что, в свою очередь, дает возможность оперировать даже с противоположными целями.
3. Правила в виде "если..., то... " позволяют решать задачи классификации в режиме диалога с оператором, что способствует повышению качества классификатора уже в процессе эксплуатации.
Таким образом, нетрудно заметить существенные общие черты нечеткой логики и мышления человека, поэтому методы управления на основе нечеткой логики можно считать во многом эвристическими.
Эвристические приемы решения задач основаны не на строгих математических моделях и алгоритмах, а на соображениях "здравого смысла". Развитием эвристических алгоритмов обработки нечетких данных можно считать самоорганизующиеся системы. В любом случае исходным ядром последних является обработка нечеткостей, а следовательно, используются принципы мышления человека. Однако самоорганизующиеся системы идут дальше и начинают развиваться, настраиваться на объект, в определенном смысле, самостоятельно, используя получаемую в процессе работы информацию об объекте управления.
В общем случае можно предложить следующую схему реализации
процесса управления: распознавание > предсказание > идентификация > принятие решения > управление.
Можно показать, что все эти задачи относятся к одному классу и могут быть решены самоорганизующимися системами.
2.2 Генетические алгоритмы
Генетические алгоритмы (ГА) относятся к числу универсальных методов оптимизации, позволяющих решать задачи различных типов (комбинаторные, общие задачи с ограничениями и без ограничений) и различной степени сложности. При этом ГА характеризуются возможностью как однокритериального, так и многокритериального поиска в большом пространстве, ландшафт которого является негладким.
В последние годы резко возросло число работ, прежде всего зарубежных ученых, посвященных развитию теории ГА и вопросам их практического использования. Результаты данных исследований показывают, в частности, что ГА могут получить более широкое распространение при интеграции с другими методами и технологиями. Появились работы, в которых доказывается эффективность интеграции ГА и методов теории нечеткости, а также нейронных вычислений и систем.
Эффективность такой интеграции нашла практическое подтверждение в разработке соответствующих инструментальных средств (ИС). Так, фирма Attar Software включила ГА-компонент, ориентированный на решение задач оптимизации, в свои ИС, предназначенные для разработки экспертной системы. Фирма California Scientific Software связала ИС для нейронных сетей с ГА-компонентами, обеспечивающими автоматическую генерацию и настройку нейронной сети. Фирма NIBS Inc. включила в свои ИС для нейронных сетей, ориентированные на прогнозирование рынка ценных бумаг, ГА-компоненты, которые, по мнению финансовых экспертов, позволяют уточнять прогнозирование.
Интеграция ГА и нейронных сетей позволяет решать проблемы поиска оптимальных значений весов входов нейронов, а интеграция ГА и нечеткой логики позволяет оптимизировать систему продукционных правил, которые могут быть использованы для управления операторами ГА (двунаправленная интеграция).
Одним из наиболее востребованных приложений ГА в области Data Mining является поиск наиболее оптимальной модели (поиск алгоритма, соответствующего специфике конкретной области). Несмотря на известные общие подходы к интеграции ГА и нечеткой логики, по-прежнему актуальна задача определения наиболее значимых параметров операционного базиса ГА с целью их адаптации в процессе работы ГА за счет использования нечеткого продукционного алгоритма (НПА).
2.3 Нейронные сети
Нейронные сети - это класс моделей, основанных на биологической аналогии с мозгом человека и предназначенных после прохождения этапа так называемого обучения на имеющихся данных для решения разнообразных задач анализа данных. При применении этих методов, прежде всего, встает вопрос выбора конкретной архитектуры сети (числа "слоев" и количества "нейронов" в каждом из них). Размер и структура сети должны соответствовать (например, в смысле формальной вычислительной сложности) существу исследуемого явления. Поскольку на начальном этапе анализа природа явления обычно известна плохо, выбор архитектуры является непростой задачей и часто связан с длительным процессом "проб и ошибок" (однако в последнее время стали появляться нейронно-сетевые программы, в которых для решения трудоемкой задачи поиска наилучшей архитектуры сети применяются методы искусственного интеллекта).
Затем построенная сеть подвергается процессу так называемого обучения. На этом этапе нейроны сети итеративно обрабатывают входные данные и корректируют свои веса так, чтобы сеть наилучшим образом прогнозировала данные, на которых выполняется "обучение". После обучения на имеющихся данных сеть готова к работе и может использоваться для построения прогнозов.
Нейронная сеть, полученная в результате "обучения", выражает закономерности, присутствующие п в данных. При таком подходе она оказывается функциональным эквивалентом некоторой модели зависимостей между переменными, подобной тем, которые строятся в традиционном моделировании. Однако, в отличие от традиционных моделей, в случае нейронных сетей эти зависимости не могут быть записаны в явном виде, подобно тому, как это делается в статистике (например, "А положительно коррелированно с В для наблюдений, у которых величина С мала, a D велика"). Иногда нейронные сети выдают прогноз очень высокого качества, однако они представляют собой типичный пример нетеоретического подхода к исследованию. При таком подходе сосредотачиваются исключительно на практическом результате, в данном случае на точности прогнозов и их прикладной ценности, а не на сути механизмов, лежащих в основе явления, или на соответствии полученных результатов какой-либо имеющейся теории.
Следует, однако, отметить, что методы нейронных сетей могут применяться и в исследованиях, направленных на построение объясняющей модели явления, поскольку нейронные сети помогают изучать данные с целью поиска значимых переменных или групп таких переменных, и полученные результаты могут облегчить процесс последующего построения модели. Более того, сейчас имеются нейросетевые программы, которые помощью сложных алгоритмов могут находить наиболее важные входные переменные, что уже непосредственно помогает строить модель.
Одно из главных преимуществ нейронных сетей состоит в том, что они, по крайней мере теоретически, могут аппроксимировать любую непрерывную функцию, и поэтому исследователю нет необходимости заранее принимать какие-либо гипотезы относительно модели и даже в ряде случаев о том, какие переменные действительно важны. Однако существенным недостатком нейронных сетей является то обстоятельство, что окончательное решение зависит от начальных установок сети и, как уже отмечалось, его практически невозможно интерпретировать в традиционных аналитических терминах, которые обычно применяются при построении теории явления.
3. Процесс Data Mining
Процесс Data Mining является своего рода исследованием. Как любое исследование, этот процесс состоит из определенных этапов, включающих элементы сравнения, типизации, классификации, обобщения, абстрагирования, повторения.
Процесс Data Mining строит модель, а в процессе принятия решений эта модель эксплуатируется.
Традиционный процесс Data Mining включает следующие этапы:
Процесс Data Mining может быть успешным и неуспешным. Использование Data Mining не является гарантией получения исключительно достоверных знаний и принятия на основе этих знаний абсолютно верных решений.
Построенная модель может обладать рядом погрешностей: недостоверные исходные допущения при построении модели; ограниченные возможности при сборе необходимых данных; неуверенность и страхи пользователя системы, и, в силу этого, слабое их применение; неоправданно высокая стоимость.
4. Построение деревьев решений в системе See5
Система See5/C5.0 компании RuleQuest предназначена для анализа больших баз данных, содержащих до сотни тысяч записей и до сотни числовых или номинальных полей. Результат работы See5 выражается в виде деревьев решений и множества if-then-правил. Система проста в обращении и не требует от пользователя специфических знаний в области прикладной статистики; некоммерческая версия для обучения ограничена количеством анализируемых записей (до 200).
Основные этапы обработки и анализа данных при построении дерева решений в системе See5 проиллюстрируем на конкретном примере. Рассмотрим задачу оценки кредитного риска на основе следующих критериев: возраста, трудового стажа, дохода, категории работодателя, кода консультанта и кредитной истории. Выборка содержит 198 объектов. Фрагмент выборки представлен в табл. 2.1.
Таблица 2.1 Данные о кредитном риске
Возраст |
Трудовой стаж |
Доход |
Категория работодателя |
Код консультанта |
Кредитная история |
Значения |
||
1 |
21-50 |
3-12 мес |
5-10 т.р. |
ИП |
да |
отрицательная |
отказ |
|
2 |
21-50 |
3-12 мес |
5-10 т.р. |
ИП |
нет |
отсутствует |
необходима доп. Проверка |
|
3 |
21-50 |
3-12 мес |
5-10 т.р. |
Частная |
да |
положительная |
отказ |
|
4 |
21-50 |
3-12 мес |
5-10 т.р. |
Государственная |
да |
отрицательная |
отказ |
|
5 |
21-50 |
3-12 мес |
более 20 т.р. |
ИП |
да |
отрицательная |
отказ |
|
6 |
21-50 |
3-12 мес |
более 20 т.р. |
ИП |
нет |
отсутствует |
необходима доп. Проверка |
|
7 |
21-50 |
3-12 мес |
более 20 т.р. |
Частная |
нет |
положительная |
пол. Решение |
|
8 |
21-50 |
более 1 года |
5-10 т.р. |
ИП |
нет |
положительная |
необходима доп. Проверка |
|
9 |
21-50 |
более 1 года |
5-10 т.р. |
Частная |
да |
отрицательная |
отказ |
|
10 |
21-50 |
более 1 года |
5-10 т.р. |
Государственная |
нет |
отрицательная |
отказ |
|
11 |
21-50 |
более 1 года |
5-10 т.р. |
Государственная |
нет |
отсутствует |
необходима доп. Проверка |
|
12 |
21-50 |
более 1 года |
5-10 т.р. |
Государственная |
нет |
положительная |
пол. Решение |
|
13 |
21-50 |
более 1 года |
более 20 т.р. |
ИП |
нет |
отсутствует |
необходима доп. Проверка |
|
14 |
21-50 |
более 1 года |
более 20 т.р. |
ИП |
нет |
положительная |
необходима доп. Проверка |
|
15 |
21-50 |
более 1 года |
более 20 т.р. |
Частная |
да |
отрицательная |
отказ |
|
16 |
21-50 |
более 1 года |
более 20 т.р. |
Государственная |
нет |
отрицательная |
отказ |
|
17 |
51-65 |
3-12 мес |
5-10 т.р. |
ИП |
нет |
отсутствует |
необходима доп. Проверка |
|
18 |
51-65 |
3-12 мес |
5-10 т.р. |
Частная |
нет |
положительная |
необходима доп. Проверка |
|
19 |
51-65 |
3-12 мес |
5-10 т.р. |
Государственная |
да |
отрицательная |
отказ |
|
20 |
51-65 |
3-12 мес |
10-20 т.р. |
Частная |
да |
отрицательная |
отказ |
|
21 |
51-65 |
более 1 года |
5-10 т.р. |
Государственная |
нет |
положительная |
пол. Решение |
|
22 |
51-65 |
более 1 года |
10-20 т.р. |
ИП |
да |
отрицательная |
отказ |
|
23 |
51-65 |
более 1 года |
10-20 т.р. |
ИП |
да |
отсутствует |
отказ |
В табл. 2.2 приведены обозначения и описание, используемых в работе переменных.
Таблица 2.2 Обозначение и описание используемых переменных
Возраст |
Трудовой стаж |
Доход |
Категория работодателя |
Код консультанта |
Кредитная история |
Решение |
|
age |
stag |
income |
employer_type |
consultant_ID |
credit_history |
credit_decision |
|
21-50 |
менее 3 мес |
менее 5 тр |
ИП |
да |
отрицательная |
отказ |
|
51-65 |
3-12 мес |
5-10 тр |
Частная |
нет |
отсутствует |
необходима доп проверка |
|
более 1 года |
10-20 тр |
Государственная |
положительная |
пол решение |
|||
более 20 тр |
4.1 Подготовка данных для анализа
Подготовка данных для анализа в системе See5 предполагает создание двух обязательных файлов: файла имен переменных и файла данных.
Файл имен переменных содержит перечисление имен разделяющих признаков и указанием классифицирующего признака. Файл создается в любом текстовом редакторе и сохраняется с расширением *.names.
Файл имен переменных exam.names в нашей задаче выглядит следующим образом (рис. 2.1).
Рис. 2.1. Файл имен переменных
При подготовке файла имен переменных следует иметь в виду, что пробелы, пустые строки и знаки табуляции игнорируются системой (кроме, конечно, случаев, когда они применяются в именах переменных).
После имени каждой явно определенной переменной вставляется двоеточие ":", а затем следует характеристика этой переменной. Возможны следующие характеристики:
· continuous - количественный признак;
· список значений переменной, разделенных запятой (для дискретной, номинальной переменной);
· максимальное значение N для дискретной переменной (эту характеристику рекомендуется применять очень осторожно, так как здесь исключается дополнительная проверка данных при их вводе в анализ);
· ignore - для признака, исключаемого из анализа;
· label - метка для идентификации отдельного объекта.
После имени каждой неявно определенной переменной также следует двоеточие и далее записывается формула. В формуле используются, где необходимо, скобки, а дискретные признаки ограничиваются кавычками. Ниже приведены доступные операторы:
· +, -, *, /, % (mod), ^ (возведение в степень);
· >, >=, <, <=, =, <> или != (не равно);
· and, or;
· sin(...), cos(...), tan(...), log(...), exp(...), int(...).
В зависимости от применяемой формулы конечный результат может быть как количественным, так и давать логическое значение true/false.
Файл данных содержит сведения об объектах. В файле по строкам располагаются объекты, а по столбцам признаки, причем в том порядке, в котором они заданы в файле имен переменных. Если значение целевой переменной находится вверху файла имен переменных, строка начинается со значения этой целевой переменной. Затем через запятую следуют значения всех остальных признаков. Файл создается в любом текстовом редакторе и сохраняется с расширением *.data.
Файл данных exam.data в нашей задаче выглядит следующим образом (рис. 2.2).
Рис. 2.2. Файл данных
4.2 Задание начальных параметров и построение ДР
В главном окне See5 располагается кнопки (рис. 2.3), предназначение которых представлено в табл. 2.3.
Таблица 2.3 Назначение кнопок меню
Кнопка |
Назначение |
|
Locate Data |
Вызов окна для просмотра доступных файлов данных и их загрузки в систему |
|
Construct Classifier |
Обращение к окну диалога для выбора типа классификатора и установки его параметров |
|
Stop |
Останов процесса построения дерева решений |
|
Use Classifier |
Запуск процесса интерактивной классификации одного или более объектов |
|
Cross-Reference |
Вызов окна, в котором наглядно раскрываются связи между объектами обучающей выборки и найденными правилами их классификации |
Рис. 2.3. Главное окно See5
Все перечисленные функции доступны также из меню File. В свою очередь, в меню Edit предоставляется возможность редактирования файла имен данных и файла стоимости ошибок классификации.
Для построения ДР необходимо загрузить данные из файла данных в систему See5 (Locate Data) и построить классификатор (Construct Classifier).
4.3 Анализ полученного дерева решений
See5 [Release 1.14] Tue December 12 19:28:41 2012
Options:
Generating rules
Read 198 cases (6 attributes) from exam.data
Decision tree:
сonsultant_ID = да: отказ (99)
consultant_ID = нет:
:...credit history = отрицательная: отказ (33)
credit_history = отсутствует: необходима доп проверка (33/1)
credit_history = пол решение:
:...employer_type = ИП: проверка (11/1)
employer_type = Государственная: пол решение (11)
employer_type = Частная:
:...stag = более 1 года: пол решение (5)
stag = 3-12 мес:
:...age = 21-50: пол решение (3/1)
age = 51-65: проверка (3)
Evaluation on training data (198 cases):
Decision Tree Rules
---------------- ----------------
Size Errors No Errors
8 3(1.5%) 6 3(1.5%) <<
(a) (b) (c) <-classified as
---- ---- ----
132 (a): class отказ
45 1 (b): class необходима доп проверка
2 18 (c): class пол решение
Time: 0.2 secs
В первой строке отчета о результатах дается информация об используемой версии системы See5 и текущее время. Затем в следующих двух строках говорится о том, что прочтенный файл данных exam.data содержит 198 объектов, каждый из которых описан 6 признаками.
В следующих строках отчета отображено построенное ДР.
Каждая ветка дерева заканчивается указанием номера класса, к которому она приводит. Сразу за номером следует запись вида (") или (n/m). Например, самая первая ветка заканчивается записью (99). Это означает, что данной ветке соответствует 99 объектов из определенного класса (отказ).
В следующем разделе отчета приводятся характеристики сконструированного классификатора, оцениваемые на обучающей выборке. Здесь мы видим, что построенное дерево решений имеет 8 веток (size = 8), а ошибка классификации наблюдается на 3 объектах, что составляет 1,5 %.
В завершающей части отчета дается таблица с детальным разбором результатов классификации. Исходя из данных этой таблицы, можно сказать, что из первого класса (отказ) правильно классифицируются 132 объекта; среди объектов второго класса (необходима доп. проверка) 45 диагностируются правильно, а 2 ошибочно (класс 3, пол решение); все объекты третьего класса (пол решение) классифицируются правильно за исключением одного ошибочно классифицированного объекта, попадающего в класс 2.
В заключение система See5 выдает сообщение о затраченном на решение времени. Здесь надо отметить вообще очень высокую скорость работы алгоритма See5, позволяющую оперативно обрабатывать высокоразмерные массивы информации, содержащие тысячи и десятки тысяч записей.
4.4 Преобразование дерева решений в набор правил
В ряде случаев полученное ДР может оказаться слишком сложным для восприятия. Например, при решении задач высокой размерности для неоднородных данных дерево нередко получается кустистое и довольно запутанное. Вместо того чтобы «ползать" по каждой полученной ветке, в системе See5 предусмотрена возможность преобразования дерева решений в набор правил IF...THEN. Для этого требуется вызвать окно диалога для заданий параметров конструируемого алгоритма (Construct Classifier) и поставить флажок в поле Rulesets (набор правил). После проведения такой операции система добавляет в окно отчета список правил, соответствующих рассчитанному дереву решений.
Extracted rules:
Rule 1: (99, lift 1.5)
consultant_ID = да
-> class отказ [0.990]
Rule 2: (66, lift 1.5)
credit_history = отрицательная
-> class отказ [0.985]
Rule 3: (33/1, lift 4.1)
consultant_ID = нет
credit_history = отсутствует
-> class необходима доп проверка [0.943]
Rule 4: (11/1, lift 3.6)
employer_type = ИП
consultant_ID = нет
credit history = положительная
-> class необходима доп проверка [0.846]
Rule 5: (3, lift 3.4)
age = 51-65
stag = 3-12 мес
employer_type = Частная
consultant_ID = нет
credit_history = положительная
-> class необходима доп проверка [0.800]
Rule 6: (33/14, lift 5.7)
consultant_ID = нет
credit_history = положительная
-> class пол решение [0.571]
Default class: отказ
Каждое правило состоит из следующих фрагментов:
· номера правила;
· количества объектов обучающей выборки, подпадающих под действие правила ("n");
· одного или нескольких элементарных логических событий, входящих в состав правила;
· номера класса, которому соответствует данное правило;
· величины, принимающей значение от 0 до 1, которая выражает степень доверия к правилу (характеристика точности правила).
Более подробный анализ результатов классификации проводится при помощи перекрестных ссылок. Для этого необходимо в главном окне See5 нажать кнопку Cross-Reference (перекрестная ссылка). Система выдаст окно, в левой половине которого нарисовано построенное дерево решений, а в правой половине перечисляются объекты, попавшие на ту или иную ветвь дерева (рис. 2.4).
Рис. 2.4. Окно задания перекрестных ссылок
Чтобы выделить интересующую ветвь, нужно щелкнуть по ней левой кнопкой мыши (справа от ветви появится темный круг). Кроме того, если щелкнуть мышью по номеру какого-либо объекта из правого поля, то система выдаст еще одно окно с именем Case, в котором приводятся значения признаков и выделенного объекта.
В системе See5 реализована возможность усиление решения. Идея усиления решения заключается в конструировании не одного, а сразу нескольких деревьев решений. Главное требование к ДР заключается в том, чтобы они как можно меньше дублировали друг друга. Для этого необходимо на первом шаге построить начальное ДР. При этом классификатор, построенный на основе начального дерева, дает ошибки на некоторых объектах.
На втором шаге при конструировании следующего дерева делается попытка избежать ранее сделанных ошибок. Следствием такой попытки считается существенное отличие второго дерева от начального. Полученное дерево также будет приводить к ошибочным решениям, но уже на других объектах. На следующем шаге работы алгоритма очередное дерево строится с учетом ошибок всех предыдущих деревьев решений.
Для запуска процесса усиления решения требуется установить флажок Boost в диалоговом окне для задания параметров работы алгоритма. Кроме того, в этом же окне нужно задать общее число строящихся ДР. Это число проставляется в поле trials. В результате построения такой совокупности деревьев решений значительно повышается точность классификации. Разработчики See5 утверждают, что при использовании 10 ДР ошибки классификации снижаются в среднем на 25 %.
В рассматриваемом примере после проведения усиления решения (построения трех деревьев решений) количество ошибочно классифицированных объектов снизилось с 1,5% до 0,5%. Ошибочно классифицированным оказался лишь один объект.
Evaluation on training data (198 cases):
Trial Decision Tree
----- ----------------
Size Errors
0 8 3(1.5%)
1 15 7(3.5%)
2 8 8(4.0%)
boost 1(0.5%) <<
(a) (b) (c) <-classified as
---- ---- ----
132 (a): class отказ
46 (b): class необходима доп проверка
1 19 (c): class пол решение
Time: 3.3 secs
В режиме консультации выполним проверку эффективности построенной системы при помощи команды File, Use classifier. После выполнения команды станет доступным окно задания исходных значений переменных, результат анализа которых будет сформирован в виде рекомендуемого решения с коэффициентом уверенности.
Заключение
Традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, откровенно не справляется с возникшими проблемами. Главная причина - концепция усреднения по выборке, приводящая к операциям над фиктивными величинами (типа средней температуры пациентов в больнице, средней высоты дома на улице и т.п.).
В основу Data Mining (discovery-driven data mining) положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборки и виде распределений значений анализируемых показателей.
Важное положение Data Mining - нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные регулярности в данных, составляющих так называемые скрытые знания. К обществу пришло понимание того, что сырые данные содержат глубинные пласт знаний, при грамотной раскопке которого могут быть обнаружены настоящие самородки.
Существует множество определений Data Mining, но в целом они совпадают в выделении 4-х основных признаков:
Data Mining - это процесс обнаружения в сырых данных
· ранее неизвестных,
· нетривиальных,
· практически полезных,
· доступных интерпретации знаний (закономерностей), необходимых для принятия решений в различных сферах человеческой деятельности.
Нахождение скрытых закономерностей в данных, взаимосвязей между различными переменными в базах данных, моделирование и изучение сложных систем на основе истории их поведения - вот предмет и задачи Data Mining.
Результаты Data Mining - эмпирические модели, классификационные правила, выделенные кластеры и т.д. - можно затем инкорпорировать в существующие системы поддержки принятия решений и использовать их для прогноза будущих ситуаций.
В заключении хочется отметить тот факт, что средства Data Mining относятся к дорогостоящим программным инструментам - цена некоторых из них доходит до нескольких десятков тысяч долларов. Поэтому до недавнего времени основными потребителями этой технологии были банки, финансовые и страховые компании, крупные торговые предприятия, а основными задачами, требующими применения Data Mining, считались оценка кредитных и страховых рисков и выработка маркетинговой политики, тарифных планов и иных принципов работы с клиентами. В последние годы ситуация претерпела определенные изменения: на рынке программного обеспечения появились относительно недорогие инструменты Data Mining от нескольких производителей, что сделало доступной эту технологию для предприятий малого и среднего бизнеса, ранее о ней и не помышлявших.
Список литературы
1. Барсегян А.А., Куприянов М.С. и др. Технологии анализа данных. Data Mining, Visual Mining, Text Mining, OLAP. Изд.: БХВ-Петербург, 2007, стр. 384.
2. Методические указания к лабораторным работам по дисциплине "Теоретические основы автоматизированного управления". ЮГУ; специальность 230102.65; 4 курс; 21 стр.
3. Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям. - СПб.: Питер, 2009. - 624 с
4. Пятецкий-Шапиро Г. "Великие раскопки и великие вызовы" в журнале "Компьютерра"№ 11(679) 2007.
5. Чубукова И.А. Data Mining. Курс лекций интернет-университета INTUIT, 2006 г., 328 стр.
6. Хайкин, С. Нейронные сети: полный курс / С. Хайкин. - М.: Вильямс, 2006. - 1104 с.
7. http://www.businessdecision.ru/2082-sas-enterprise-miner.htm
8. www.interface.ru - Курс по интеллектуальному анализу данных (Data Mining) с использованием платформы MS SQL 2005.
9. http://www.sas.com/technologies/analytics/datamining/miner/
Размещено на Allbest.ru
Подобные документы
Описание функциональных возможностей технологии Data Mining как процессов обнаружения неизвестных данных. Изучение систем вывода ассоциативных правил и механизмов нейросетевых алгоритмов. Описание алгоритмов кластеризации и сфер применения Data Mining.
контрольная работа [208,4 K], добавлен 14.06.2013Основы для проведения кластеризации. Использование Data Mining как способа "обнаружения знаний в базах данных". Выбор алгоритмов кластеризации. Получение данных из хранилища базы данных дистанционного практикума. Кластеризация студентов и задач.
курсовая работа [728,4 K], добавлен 10.07.2017Совершенствование технологий записи и хранения данных. Специфика современных требований к переработке информационных данных. Концепция шаблонов, отражающих фрагменты многоаспектных взаимоотношений в данных в основе современной технологии Data Mining.
контрольная работа [565,6 K], добавлен 02.09.2010Data mining, developmental history of data mining and knowledge discovery. Technological elements and methods of data mining. Steps in knowledge discovery. Change and deviation detection. Related disciplines, information retrieval and text extraction.
доклад [25,3 K], добавлен 16.06.2012Data Mining как процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации). Его закономерности и этапы реализации, история разработки данной технологии, оценка преимуществ и недостатков, возможности.
эссе [36,8 K], добавлен 17.12.2014Классификация задач DataMining. Создание отчетов и итогов. Возможности Data Miner в Statistica. Задача классификации, кластеризации и регрессии. Средства анализа Statistica Data Miner. Суть задачи поиск ассоциативных правил. Анализ предикторов выживания.
курсовая работа [3,2 M], добавлен 19.05.2011Перспективные направления анализа данных: анализ текстовой информации, интеллектуальный анализ данных. Анализ структурированной информации, хранящейся в базах данных. Процесс анализа текстовых документов. Особенности предварительной обработки данных.
реферат [443,2 K], добавлен 13.02.2014Классификация задач Data Mining. Задача кластеризации и поиска ассоциативных правил. Определению класса объекта по его свойствам и характеристикам. Нахождение частых зависимостей между объектами или событиями. Оперативно-аналитическая обработка данных.
контрольная работа [26,1 K], добавлен 13.01.2013Создание структуры интеллектуального анализа данных. Дерево решений. Характеристики кластера, определение групп объектов или событий. Линейная и логистическая регрессии. Правила ассоциативных решений. Алгоритм Байеса. Анализ с помощью нейронной сети.
контрольная работа [2,0 M], добавлен 13.06.2014Анализ проблем, возникающих при применении методов и алгоритмов кластеризации. Основные алгоритмы разбиения на кластеры. Программа RapidMiner как среда для машинного обучения и анализа данных. Оценка качества кластеризации с помощью методов Data Mining.
курсовая работа [3,9 M], добавлен 22.10.2012