Интеллектуальный анализ данных и извлечение знаний из данных

Понятие термина "интеллектуальный анализ данных", принципы построения моделей. Изучение методики извлечения знаний, KDD - как процесс поиска полезных знаний в "сырых" данных. Сравнение достоинств и недостатков изученных моделей, комбинирование подходов.

Рубрика Экономико-математическое моделирование
Вид реферат
Язык русский
Дата добавления 17.11.2009
Размер файла 33,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

9

Министерство образования и науки российской федерации

Федеральное агентство по образованию

Государственное образовательное учреждение

Высшего профессионального образования

Тюменский государственный университет

Международный институт финансов, управления и бизнеса

Кафедра экономической социологии

РЕФЕРАТ

По дисциплине: Прикладная статистика

На тему: Интеллектуальный анализ данных и извлечение знаний из данных (Knowledge Discovery in Databases, KDD)

Выполнила студентка группы:

25ИМ701

Серегина М.М.

Научный руководитель:

Тарасова А.Н.

Тюмень 2009

§ 1. Понятие термина «интеллектуальный анализ данных»

Термин интеллектуальный анализ данных можно понимать двояко. В узком смысле это попытка адекватного русского перевода термина Data Mining, который ввёл в обиход Григорий Пятецкий-Шапиро в 1992 году. Согласно его определению Data Mining -- это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных, доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Дословный перевод «раскопки (или добыча) данных» следует, по всей видимости, считать неудачным.

В широком смысле это современная концепция анализа данных, предполагает следующее:

· данные могут быть неточными, неполными (содержать пропуски), противоречивыми, разнородными, косвенными, и при этом иметь гигантские объёмы; поэтому понимание данных в конкретных приложениях требует значительных интеллектуальных усилий;

· сами алгоритмы анализа данных могут обладать «элементами интеллекта», в частности, способностью обучаться по прецедентам, то есть делать общие выводы на основе частных наблюдений; разработка таких алгоритмов также требует значительных интеллектуальных усилий;

· процессы переработки сырых данных в информацию, а информации в знания уже не могут быть выполнены по старинке вручную, и требуют нетривиальной автоматизации.

Необходимость интеллектуального анализа данных возникла в конце XX века в результате повсеместного распространения информационных технологий, позволяющих детально протоколировать процессы бизнеса и производства.

По составу решаемых задач Data Mining практически не отличается от стандартного набора средств, применяемых с середины XX века в области прикладной статистики, машинного обучения (machine learning), информационного поиска (information retrieval). Основное различие заключается в эффективности алгоритмов и технологичности их применения. Подавляющее большинство классических процедур имеют время выполнения, квадратичное или даже кубическое по объёму исходных данных. При количестве объектов, превосходящем несколько десятков тысяч, они работают неприемлемо медленно даже на самых современных компьютерах. За последние десятилетия значительные усилия в области Data Mining были направлены на создание специализированных алгоритмов, способных выполнять те же задачи за линейное или даже логарифмическое время без существенной потери точности.

Анализ данных

Основой для анализа данных служит моделирование. Построение моделей является универсальным способом изучения окружающего мира. Построение моделей позволяет обнаруживать зависимости, извлекать новые знания, прогнозировать, управлять и решать множество других задач. Большинство экономических систем относятся к категории сложных, т.е. с большим количеством элементов и сложными связями.

Принципы построения моделей

· При анализе отталкиваться от опыта эксперта.

· Рассматривать проблему под разными углами и комбинировать подходы.

· Не стремиться к высокой точности модели, а двигаться от более простых и грубых моделей к более сложным и точным.

· По прошествии времени и накоплению новых сведений нужно повторять цикл моделирования.

§ 2. Методика извлечения знаний

Knowledge Discovery in Databases (KDD) - это процесс поиска полезных знаний в "сырых" данных. KDD включает в себя вопросы: подготовки данных, выбора информативных признаков, очистки данных, применения методов Data Mining (DM), постобработки данных и интерпретации полученных результатов. Безусловно, "сердцем" всего этого процесса являются методы DM, позволяющие обнаруживать знания. Этими знаниями могут быть правила, описывающие связи между свойствами данных (деревья решений), часто встречающиеся шаблоны (ассоциативные правила), а также результаты классификации (нейронные сети) и кластеризации данных (карты Кохонена) и т.д.

Knowledge Discovery in Databases не задает набор методов обработки или пригодные для анализа алгоритмы, он определяет последовательность действий, которую необходимо выполнить для того, чтобы из исходных данных получить знания. Данный подход универсальный и не зависит от предметной области, что является его несомненным достоинством. Deductor - полнофункциональная платформа для решения задач Knowledge Discovery in Databases, позволяющая провести все вышеописанные шаги.

Несмотря на большое количество разнообразных бизнес-задач, почти все они решаются по единой методике Knowledge Discovery in Databases. Она описывает не конкретный алгоритм или математический аппарат, а последовательность действий, которую необходимо выполнить для построения модели (извлечения знания). Данная методика не зависит от предметной области, это набор атомарных операций, комбинируя которые, можно получить нужное решение. Выглядит она примерно как изображено на схеме ниже.

Расшифровка схемы:

1) KDD - выборка данных

Первым шагом в анализе является получение исходной выборки. На основе этих данных и строятся модели. На этом шаге необходимо активное участие эксперта для выдвижения гипотез и отбора факторов, влияющих на анализируемый процесс. Желательно, чтобы данные были уже собраны и консолидированы. Крайне необходимо наличие удобных механизмов подготовки выборки. Чаще всего в качестве источника рекомендуется использовать специализированное хранилище данных, агрегирующее всю необходимую для анализа информацию.

2) KDD - очистка данных

Реальные данные для анализа редко бывают хорошего качества. Необходимость предварительной обработки при анализе данных возникает независимо от того, какие технологии и алгоритмы используются. Более того, эта задача может представлять самостоятельную ценность в областях, не имеющих непосредственного отношения к анализу данных. К задачам очистки данных относятся такие как: заполнение пропусков, редактирование аномалий, сглаживание, обнаружение дубликатов и противоречий и прочие.

3) KDD - трансформация данных

Трансформация данных - последний этап перед, собственно, анализом. Дело в том, что различные алгоритмы анализа требуют специальным образом подготовленные данные, например, для прогнозирования необходимо преобразовать временной ряд при помощи скользящего окна или вычисление агрегируемых показателей. К задачам трансформации данных относятся: скользящее окно, приведение типов, выделение временных интервалов, преобразование непрерывных значений в дискретные и наоборот, сортировка, группировка и прочее.

4) KDD - Data Mining (задачи)

Data Mining - это процесс обнаружения в «сырых» данных ранее неизвестных нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Информация, найденная в процессе применения методов Data Mining, должна быть нетривиальной и ранее неизвестной, например, средние продажи не являются таковыми. Знания должны описывать новые связи между свойствами, предсказывать значения одних признаков на основе других.

Задачи решаемые методами Data Mining:

· Классификация - это отнесение объектов к одному из заранее известных классов.

· Регрессия - установление зависимости непрерывных выходных переменных от входных значений.

· Кластеризация - объекты внутри кластера должны быть 'похожими' друг на друга и отличаться от объектов, вошедших в другие кластеры.

· Ассоциация - нахождение зависимости, что из события X следует событие Y.

· Последовательные шаблоны - установление закономерностей между связанными во времени событиями.

Можно говорить еще и о задаче анализа отклонений - выявления наиболее нехарактерных шаблонов.

Применение Data Mining в экономике

· Классификация - отнесение клиента к определенной группе риска, оценка перспективности клиентов

· Регрессия - прогнозирование продаж, эластичность спроса

· Кластеризация - сегментация клиентской базы, анализ продуктовой линейки

· Ассоциация - кросс-продажи, стимулирование спроса

· Последовательные шаблоны - предсказание спроса, оптимизация закупок

Data Mining - алгоритмы

Для решения вышеописанных задач используются различные методы и алгоритмы Data Mining. Ввиду того, что Data Mining развивался и развивается на стыке таких дисциплин, как статистика, теория информации, машинное обучение, теория баз данных, вполне закономерно, что большинство алгоритмов и методов Data Mining были разработаны на основе различных методов из этих дисциплин. В общем случае, не принципиально, каким именно алгоритмом будет решаться одна из 5-ти задач Data Mining - главное иметь метод решения для каждого класса задач. На сегодня наибольшее распространение получали самообучающиеся методы и машинное обучение.

5) KDD - интерпретация

В случае, когда извлеченные знания непрозрачны для пользователя, должны существовать методы постобработки, позволяющие привести их к интерпретируемому виду. Для оценки качества полученной модели нужно использовать как формальные методы оценки, так и знания эксперта. Так как именно эксперт может сказать, насколько применима полученная модель к реальным данным. Полученные модели являются, по сути, формализованными знаниями эксперта, а следовательно их можно тиражировать. Найденные знания должны быть применимы и на новых данных с некоторой степенью достоверности.

Достоинства и недостатки моделей

Использование методов построения моделей позволяет получать новые знания, которые невозможно извлечь другим способом. Кроме того, полученные результаты являются формализованным описанием некоего процесса, а следовательно поддаются автоматической обработке. Недостатком же является то, что такие методы более требовательны к качеству данных, знаниям эксперта и формализации самого изучаемого процесса. К тому же почти всегда имеются случаи не укладывающиеся ни в какие модели.

Комбинирование подходов

На практике подходы комбинируются, например, визуализация данных наводит эксперта на некоторые идеи, которые он пробует проверить при помощи различных способов построения моделей, а результаты построения моделей подаются на вход механизмам визуализации. Полнофункциональная система анализа не должна замыкаться на применении только одного подхода или одной методики анализа. Механизмы визуализации и построения моделей должны дополнять друг друга. Максимальную отдачу можно получить комбинируя методы и подходы к анализу данных.

С помощью KDD решаются небольшие бизнес-задачи, например:

· План-факторный анализ - визуализация данных

· Анализ денежных потоков - визуализация данных

· Прогнозирование - задача регрессии

· Управление рисками - регрессия, кластеризация и классификация

· Стимулирование спроса - кластеризация, ассоциация

· Оценка эластичности спроса - регрессия

· Выявление предпочтений клиентов - последовательность, кластеризация, классификация

Список литературы

1) http://v8.1c.ru/consolid/1018.htm

2) http://www.uni-dubna.ru/~mazny/students/upr_zn/4_3.html

3) Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. М.: ЮНИТИ, 1998


Подобные документы

  • Разработка и исследование эконометрических методов с учетом специфики экономических данных и в соответствии с потребностями экономической науки и практики. Применение эконометрических методов и моделей для статистического анализа экономических данных.

    реферат [43,1 K], добавлен 10.01.2009

  • Изучение методов моделирования и анализа панельных данных. Построение ABC-XYZ классификации среди данных широкой номенклатуры по товарным запасам торгового предприятия. Виды исходных данных и построение на их основе модели регрессии по панельным данным.

    курсовая работа [363,2 K], добавлен 23.02.2015

  • Реконструкция работы клетки на уровне регуляции экспрессии генов и построение генных сетей на основе анализа данных микрочиповых экспериментов. Выявление генов, изменивших уровень экспрессии (по раку молочной железы). Моделирование генной регуляции.

    дипломная работа [2,6 M], добавлен 24.09.2012

  • Понятие, задачи и основные цели регрессионного анализа. Прогнозирование, основанное на использовании моделей временных рядов. Определение степени детерминированности вариации критериальной переменной предикторами. Ошибки, возникающие при измерении данных.

    контрольная работа [785,9 K], добавлен 13.11.2011

  • Понятие искусственного интеллекта, основные цели разработок в этой области. Что такое интеллектуальное поведение и его возможности. Структура интеллектуальных информационных систем, базы данных и базы знаний. Области применения экспертной системы.

    презентация [80,1 K], добавлен 07.06.2010

  • Изучение математической теории, развивающей формальные методы для исследования взаимосвязей и отношений состояний знаний субъектов в определенной предметной области. Понятие карты навыков. Рассмотрение отношений между состояниями знаний и навыками.

    дипломная работа [263,5 K], добавлен 12.10.2015

  • Выявление производственных связей на основе регрессионных моделей. Расчет прогнозных значений показателей, при уровне факторных показателей, на 30% превышающем средние величины исходных данных. Использование коэффициента корреляции рангов Спирмэна.

    задача [58,5 K], добавлен 11.07.2010

  • Обоснование целесообразности применения статистических данных в анализе устойчивого развития региона. Сбор, обработка статистических данных по основным секторам Кемеровской области. Оценка их полноты и качества. Принципы построения математической модели.

    дипломная работа [2,6 M], добавлен 30.05.2013

  • Методика и этапы построения экономических моделей с помощью программы Microsoft Excel. Определение оптимальной структуры производства консервного завода на основании имеющихся статистических данных. Нахождение условного экстремума функции в Excel.

    контрольная работа [1,4 M], добавлен 01.06.2009

  • Основные методы обработки данных, представленные выборкой. Графические представления данных. Расчет с помощью ЭВМ основных характеристик выборки. Статистические гипотезы, используемые в экономике. Парная линейная, нелинейная и полиноминальная регрессия.

    лабораторная работа [92,8 K], добавлен 01.03.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.