Интеллектуальный анализ бюджетных доходов и расходов субъектов РФ

Метод главных компонент. Кластерный анализ с применением карт Кохонена. Построение деревьев решений. Прикладные системы искусственного интеллекта. Институциональная память экспертных систем. Система поддержки принятия решений, основанной на знаниях.

Рубрика Экономико-математическое моделирование
Вид курсовая работа
Язык русский
Дата добавления 28.05.2013
Размер файла 1,0 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Курсовая работа

Интеллектуальный анализ бюджетных доходов и расходов субъектов РФ

  • Аннотация
  • В данной курсовой работе выполняется интеллектуальный анализ данных о бюджетных доходах и расходах субъектов РФ методами компонентного, кластерного анализа, построения деревьев решений, а также нейросетевыми методами на основе карт Кохонена.
  • Цель анализа - выявление закономерностей вида классификации, кластеризации и формирование правил для разработки системы поддержки принятия решений, основанной на знаниях.
  • Введение

Экспертные системы - это прикладные системы искусственного интеллекта, в которых база знаний представляет собой формализованные эмпирические знания высококвалифицированных специалистов (экспертов) в какой либо узкой предметной области. Экспертные системы предназначены для замены при решении задач экспертов в силу их недостаточного количества, недостаточной оперативности в решении задачи или в опасных (вредных) для них условиях.

Экспертные системы ? это наиболее распространенный класс интеллектуальных систем, ориентированный на тиражирование опыта высококвалифицированных специалистов в областях, где качество принятия решений традиционно зависит от уровня экспертизы, например, медицина, юриспруденция, геология, экономика, военное дело и др. Экспертные системы эффективны лишь в специфических «экспертных» областях, где важен эмпирический опыт специалистов.

Основным назначением экспертных систем является разработка программных средств, которые при решении задач, трудных для человека, получают результаты, не уступающие по качеству и эффективности решения решениям, получаемым человеком-экспертом. Экспертные системы используются для решения так называемых неформализованных задач, общим для которых является то, что:

* задачи не могут быть заданы в числовой форме;

* цели нельзя выразить в терминах точно определенной целевой функции;

* не существует алгоритмического решения задачи;

* если алгоритмическое решение есть, но его нельзя использовать из-за ограниченности ресурсов (время, память).

Кроме того, неформализованные задачи обладают ошибочностью, неполнотой, неоднозначностью и противоречивостью как исходных данных, так и знаний о решаемой задаче

Экспертная система - это программное средство, использующее экспертные знания для обеспечения высокоэффективного решения неформализованных задач в узкой предметной области. Основу экспертной системы составляет база знаний о предметной области, которая накапливается в процессе построения и эксплуатации экспертно системы. Накопление и организация знаний ? важнейшее свойство всех экспертных систем. Знания являются явными и доступными, что отличает экспертные системы от традиционных программ, и определяет их основные свойства, такие, как применение высококачественного опыта, наличие прогностических возможностей, институциональная память, возможность обучения и тренировки.

Применение для решения проблем высококачественного опыта, который представляет уровень мышления наиболее квалифицированных экспертов в данной области, ведёт к решениям творческим, точным и эффективным.

Наличие прогностических возможностей, при которых экспертная система выдает ответы не только для конкретной ситуации, но и показывает, как изменяются эти ответы в новых ситуациях - это возможность подробного объяснения каким образом новая ситуация привела к изменениям.

Экспертная система обладает таким качеством, как институциональная память, за счет входящей в состав экспертной системы базы знаний, которая разработана в ходе взаимодействий со специалистами организации, и представляет собой текущую политику этой группы людей. Этот набор знаний становится выводом квалифицированных мнении и постоянно обновляемым справочником наилучших стратегий и методов, используемых персоналом. Возможности использования экспертной системы для обучения и тренировки руководящих работников обеспечивают новых служащих обширным багажом опыта и стратегий, по которым можно изучать рекомендуемую политику и методы.

1. Цель анализа

Цель анализа состоит в выявлении закономерностей вида классификации, кластеризации и формировании правил для разработки системы поддержки принятия решений, основанной на знаниях.

Необходимо выявить различия между субъектами РФ по уровню расхода и дохода бюджетных средств, характеризующегося доходами: налоговыми, неналоговыми, и безвозмездными перечислениями, расходами: на ЖКХ, социальную политику, образование, сельское хозяйство, дорожное хозяйство, здравоохранение, промышленность и транспорт.

2. Исходные данные

В качестве объектов в данной работе выступают субъекты РФ: Белгородская, Брянская, Владимирская, Воронежская, Ивановская, Калужская Костромская, Курская, Липецкая, Московская, Орловская, Рязанская, Смоленская, Тамбовская, Тверская, Тульская, Ярославcкая, г. Москва, Республика Карелия, Республика Коми, Архангельская, Вологодская, Калининградская, Ленинская, Мурманская, Новгородская, Псковская, Республика Адыгея, г.Санкт-Петербург, Республика Дагестан, Республика Ингушетия, Кабардино-Балкарская, Калмыкия, Карачаево-Черкесская, Республика Северная Осетия, Чеченская, Краснодарский край, Ставропольский край, Астраханская, Волгоградская, Ростовская, Республика Башкортостан, Республика Марий Эл, Республика Мордовия, Республика Татарстан, Удмуртская область, Чувашская, Кировская, Нижегородская, Оренбургская.

В качестве признаков выбраны следующие данные, характеризующие доходы бюджета: налоговые, неналоговые, безвозмездные перечисления, промышленность, сельское хозяйство, транспорт, ЖКХ, образование, здравоохранение, социальная политика, дорожное хозяйство.

3. Анализ методом главных компонент

Метод главных компонент (ГК) осуществляет переход к новой системе координат в исходном пространстве признаков, являющейся системой ортонормированных линейных комбинаций. Метод ГК заключается в нахождении набора из p ортогональных векторов в n-мерном исходном пространстве данных; поскольку при этом p<<n, то это дает возможность перейти к сокращенному признаковому пространству. Эффективность метода состоит в минимальном искажении геометрической структуры точек (объектов) при их проектировании в пространство меньшей размерности.

Первый ГК соответствует наибольшему собственному числу и рассчитывается как линейная комбинация исходных признаков, обладающая наибольшей дисперсией. Таким образом, первый ГК берется вдоль направления с максимальной дисперсией. Второй ГК лежит в подпространстве, перпендикулярном тому, где находится первый ГК. В пределах этого подпространства второй ГК берется вдоль направления с максимальной дисперсией. Затем третий ГК находится в направлении наибольшей дисперсии в подпространстве, перпендикулярном первым двум и т.д.

Введем исходные данные в электронную таблицу STATGRAPHICS (50х11). Исходная сводка анализа метода ГК представлена в таблице 3.1.

Таблица 3.1 Исходная сводка метода ГК

Component Number

Eigenvalue

Percent of Variance

Cumulative Percentage

1

5,32796

48,436

48,436

2

1,65124

15,011

63,447

3

1,52706

13,882

77,33

4

0,90983

8,271

85,601

5

0,671956

6,109

91,71

6

0,345837

3,144

94,854

7

0,191054

1,737

96,59

8

0,168196

1,529

98,119

9

0,109291

0,994

99,113

10

0,0613569

0,558

99,671

11

0,0362112

0,329

100

Number of complete cases:50

Анализу подвергаются следующие переменные: доходы: налоговые, неналоговые, безвоздмездные перечисления; расходы: дорожное хозяйство, ЖКХ, здравоохранение, образование, промышленность, сельское хозяйство, социальная политика, транспорт. Количество объектов 50.

В таблице представлена информация о результатах построения главных компонент: собственные значения главных компонент, упорядоченные по величине (Eigenvalue); процент дисперсии, приходящийся на каждую выделенную главную компоненту (Percent of Variance); суммарный процент дисперсии (Cumulative Precentage). Приведенные цифры говорят о том, что уже первые две главные компоненты описывают 63,5% дисперсии исходных данных. Третья главная компонента добавляет еще 13,8% дисперсии, так что в сумме получается 77,330% дисперсии, что достаточно для анализа пространственного распределения объектов. В следующей таблице представлены веса признаков в главных компонентах (табл. 3.2).

Таблица 3.2 Веса признаков в главных компонентах

Доходы/ Расходы

Component1

Component2

Component3

Налоговые доходы

0,372133

-0,113501

0,153412

Неналоговые доходы

0,369142

-0,17244

-0,0341084

Безвозмездные перечисления

0,0877118

0,473386

-0,622216

Расходы на дорожное хозяйство

0,115288

0,361796

0,711223

Расходы на ЖКХ

0,374535

-0,167428

-0,046722

Расходы на здравоохранение

0,364422

0,0387097

-0,0490826

Расходы на образование

0,286038

-0,295668

-0,0350764

Расходы на промышленность

0,309883

0,360406

0,0147228

Расходы на сельское хозяйство

0,199504

0,57611

0,0207075

Расходы на социальную политику

0,300532

-0,109858

-0,25057

Расходы на транспорт

0,311027

-0,107602

0,114267

Как следует из таблицы, первая главная компонента в наибольшей степени зависит от признаков: расходы: дорожное хозяйство, ЖКХ, промышленность, налоговые и неналоговые доходы. Вторая главная компонента в наибольшей степени зависит от признака: неналоговые доходы. Третья главная компонента - от признака: промышленность.

Диаграмма рассеивания всего множества объектов на плоскости выделенных двух главных компонент представлена на рисунке 3.1.

Рисунок 3.1 - Проекция исследуемых объектов на пространство двух ГК

На представленном рисунке хорошо видно, что все множество объектов разделилось на 3 достаточно четких класса. Проекция множества объектов на пространство трех ГК представлена на рисунке 3.2.

искусственный интеллект экспертный система

Рисунок 3.2 - Проекция множества объектов на пространство трех ГК

Выбор значащих компонент и определение названия для них представлены ниже.

1) Выберем p=3 главных компонент.

2) Определим названия для них по формуле:

где [wkj] - подмножество участвующих в названии весовых коэффициентов j-й компоненты;

[wj] - все весовые коэффициенты j-й компоненты.

wij =

0,372133

-0,113501

0,153412

0,369142

-0,17244

-0,0341084

0,0877118

0,473386

-0,622216

0,115288

0,361796

0,711223

0,374535

-0,167428

-0,046722

0,364422

0,0387097

-0,0490826

0,286038

-0,295668

-0,0350764

0,309883

0,360406

0,0147228

0,199504

0,57611

0,0207075

0,300532

-0,109858

-0,25057

0,311027

-0,107602

0,114267

Для первой ГК коэффициент информативности рассчитывается следующим образом

k1= 0,760740089

Коэффициент информативности КИ1 принадлежит интервалу [0,75; 1] - это означает, что первая ГК определяется влиянием признаков: налоговые, неналоговые, ЖКХ, промышленность, здравоохранение, транспорт. Для второй ГК коэффициент информативности рассчитывается следующим образом:

k1=0,816785042

Коэффициент информативности КИ2 принадлежит интервалу [0,75; 1] - это означает, что вторая ГК определяется влиянием признаков: безвозмездные перечисления, дорожное хозяйство, промышленность, сельское хозяйство.

Для третьей ГК коэффициент информативности рассчитывается следующим образом

{ k1=0,892991116

Коэффициент информативности КИ3 принадлежит интервалу [0,75; 1] - это означает, что третья ГК определяется влиянием признаков: безвозмездные перечисления и дорожное хозяйство.

На основании рисунка 3.2 можно заключить, что первый класс характеризуется низким значением 1-й компоненты; средним значением 2-й компоненты, средним значением 3-й компоненты.

Второй класс характеризуется средним значением 1-й компоненты; высоким значением 2-й компоненты, средним значением 3-й компоненты.

Третий класс характеризуется высоким значением 1-й компоненты; низким значением 2-й компоненты, средним значением 3-й компоненты.

Характеристика классов относительно компонент представлена в таблице 3.3.

Таблица 3.3 Характеристика классов относительно компонент

Класс

Значение компоненты

Компонента 1

Компонента 2

Компонента 3

1

Низкое

Среднее

Среднее

2

Высокое

Низкое

Среднее

3

Среднее

Высокое

Среднее

Перечислим состав объектов в выделенных классах.

В первый класс входят номера объектов:

1,2,3,4,5,6,7,8,9,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,28,29,30,31,32,33,34,36,37,38,39,41,42,44,45,46,47,48

Во второй класс входят номера объектов: 10,28

В третий класс входят номера объектов: 36,41,44

Характеристика классов относительно признаков представлена в таблице 3.4.

Таблица 3.4 Характеристика классов относительно признаков

Значение признаков

Класс

1

2

3

Налоговые доходы

Высокое

Среднее

Низкое

неналоговые

Высокое

Среднее

Низкое

ЖКХ

Высокое

Среднее

Низкое

Промышленность

Высокое

Среднее

Низкое

Здравоохранение

Высокое

Среднее

Низкое

транспорт

Высокое

Среднее

Низкое

Правило 1 для 1 компоненты:

1). Если налоговые доходы = высокие И неналоговые = высокие И расходы на ЖКХ = высокие И расходы на здравоохранение = высокие И транспорт = высокие И расходы промышленность = высокие, ТО класс = Первый;

Правило 2 для 2 компоненты:

2). Если налоговые доходы = средние И неналоговые = средние И расходы на ЖКХ = средние И расходы на здравоохранение = средние И транспорт = средние И расходы промышленность = средние, ТО класс = Второй;

Правило 3 для 3 компоненты:

3). Если налоговые доходы = низкие И неналоговые = низкие И расходы на ЖКХ = низкие И расходы на здравоохранение = низкие И транспорт = низкие И расходы промышленность = низкие, ТО класс = Третий;

4. Кластерный анализ

Кластерный анализ предназначен для разбиения множества объектов на заданное или неизвестное число классов на основании некоторого математического критерия качества классификации

Введем исходные данные в электронную таблицу STATGRAPHICS (20x8). Для более детального анализа проделаем ряд операций. Получим дендрограмму методом Варда для трех кластеров (классов) (рисунок 4.1).

Рисунок 4.1 - Дендрограмма для трех классов

Сводка кластерного анализа представлена в таблицах 4.1 и 4.2.

Таблица 4.1 Сводка кластерного анализа

Cluster

Members

Percent

1

44

89,58

2

2

4,17

3

3

6,25

Таблица 4.2

Centroids

Cluster

налоговые

неналоговые

безвозмездные перечисления

Дорожное хозяйство

1

9071,69

796,186

2793,46

423,245

2

71205

13009,1

2279,6

284,95

3

28442,1

3655,87

14837,9

1736,27

Centroids

Cluster

ЖКХ

здравоохранение

Образование

промышленность

1

1661,98

2496,45

3844,76

1077,23

2

11458,5

13891

20601,1

8416,05

3

4156,15

8608,47

4249,53

11707,2

Centroids

Cluster

Сельское хозяйство

Социальная политика

Транспорт

1

367,861

1768,98

157,832

2

323,75

12107,5

1734,85

3

1918,07

4565,13

658,667

Как видно из таблиц 4.1 и 4.2, в сводке кластерного анализа представлено число кластеров, количество объектов в каждом кластере и соответствующий процент. Кроме того, в нижней части сводки приводится дополнительная информация по координатам центроидов. По этим координатам можно судить о том, какие переменные играют наиболее важную роль в каждом кластере.

В таблице 4.3.представлена информация о принадлежности объектов к кластерам.

Таблица 4.3 Принадлежность объектов к кластерам

Номер

НАИМЕНОВАНИЕ

КЛАСТЕР

1

Белгородская

1

2

Брянская

1

3

Владимирская

1

4

Воронежская

1

5

Ивановская

1

6

Калужская

1

7

Костромская

1

8

Курская

1

9

Липецкая

1

10

Московская

2

11

Орловская

1

12

Рязанская

1

13

Смоленская

1

14

Тамбовская

1

15

Тверская

1

16

Тульская

1

17

Ярославская

1

18

Республика Карелия

1

19

Республика Коми

1

20

Архангельская

1

21

Вологодская

1

22

Калининградская

1

23

Ленинская

1

24

Мурманская

1

25

Новгородская

1

26

Псковская

1

27

Республика Адыгея

1

28

г.Санкт-Петербург

2

29

Республика Дагестан

1

30

Республика Ингушетия

1

31

Кабардино-Балкарская

1

32

Калмыкия

1

33

Карачаево-Черкесская

1

34

Республика Северная Осетия

1

35

Чеченская

1

36

Краснодарский край

3

37

Ставропольский край

1

38

Астраханская

1

39

Волгоградская

1

40

Ростовская

1

41

Республика Башкортостан

3

42

Республика Марий Эл

1

43

Республика Мордовия

1

44

Республика Татарстан

3

45

Удмуртская область

1

46

Чувашская

1

47

Кировская

1

48

Нижегородская

1

49

Оренбургская

1

Диаграмма рассеивания представлена на рисунке 4.2.

Рисунок 4.2 ? Двухмерная диаграмма рассеивания

Диаграмма показывает, как группируются исследуемые наблюдения на плоскости двух переменных налоговые и неналоговые доходы. Каждый кластер обозначен на диаграмме собственным символом.

Из рисунка видно, что первый кластер включает объекты

1,2,3,4,5,6,7,8,9,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,28,29,30,31,32,33,34,36,37,38,39,41,42,44,45,46,47,48.

Во втором кластере находятся объекты с номерами 10 и 27. В третий кластер попадают объекты 35,40,43.

Рассмотрим трехмерную диаграмму рассеивания. Она представлена на рисунке 4.3.

Рисунок 4.3 ? Трехмерная диаграмма рассеивания

Таким образом, на основании информации о координатах центроидов выделенных кластеров и диаграммы рассевания можно сформулировать следующие правила классификации:

Правило 1 для кластера 1:

1). Если налоговые доходы = низкие И неналоговые = низкие И расходы на ЖКХ = низкие И расходы на здравоохранение = низкие И транспорт = низкие И расходы промышленность = низкие, ТО группа = Первая;

Правило 2 для кластера 2:

2). Если налоговые доходы = высокие И неналоговые = высокие И расходы на ЖКХ = высокие И расходы на здравоохранение = высокие И транспорт = высокие И расходы промышленность = высокие, ТО группа = Вторая;

Правило 3 для кластера 3:

3). Если налоговые доходы = средние И неналоговые = средние И расходы на ЖКХ = средние И расходы на здравоохранение = средние И транспорт = средние И расходы промышленность = средние, ТО группа = Третья;

5. Кластерный анализ с применением карт Кохонена

Для решения задачи кластеризации используется метод самоорганизующихся карт Кохонена с реализацией на основе нейросетевого пакета SOMap analyzer 1.0.

Самоорганизующиеся карты Кохонена представляют собой прямонаправленные нейронные сети, которые используют алгоритм обучения без учителя, и с помощью процесса самоорганизации формируют выходные ячейки в топологическую карту, имеющую двухмерную структуру.

Структура сети Кохонена представлена на рисунке 5.1. Сеть однослойная (слой Кохонена); количество нейронов входного слоя определяется размерностью вектора признаков, по которому ведется кластеризация и равно 11; количество нейронов выходного слоя - 3 , который выдает номер кластера. Каждый нейрон слоя Кохонена с помощью весовых коэффициентов запоминает координаты ядра кластера и отвечает за отнесение объектов к этому кластеру. Интерпретатор выбирает максимальное значение среди всех выходов и выдает номер этого выхода, который является номером кластера.

Рисунок 5.1 - Структура сети Кохонена

В качестве исходных данных взяты признаки: доходы: налоговые, неналоговые, безвоздмездные перечисления; расходы: дорожное хозяйство, ЖКХ, здравоохранение, образование, промышленность, сельское хозяйство, социальная политика, транспорт.

Процесс обучения сети состоит из 5 этапов: выбор источника данных; настройка полей; установка параметров обучения; установка параметров визуализации; обучение (построение) карты.

В качестве источника данных используем созданную обучающую выборку. Параметры обучения, параметры визуализации представлены на рисунке 5.2.

Рисунок 5.2 - Информация о карте

Для построения карт открываем окно с картами по обучающей выборке и выбираем нужные карты. Результаты построения карт представлены на рисунке 5.3.

Рисунок 5.3 - Карты по обучающей выборке

На основе анализа построенных карт были выявлены следующие характеристики построенных кластеров. В таблице 5.1 приведены значения признаков, наиболее характерных для каждого из кластеров; жирным шрифтом отмечены признаки, определяющие принадлежность объекта кластеру.

Таблица 5.1 Характеристика кластеров по признакам

Кластер 1

Кластер 2

Кластер 3

Налоговые доходы

малый

высокий

средний

Неналоговые доходы

малый

высокий

средний

Безвозмездные перечисления

средний

малый

высокий

Расходы на дорожное хозяйство

средний

малый

высокий

Расходы на ЖКХ

малый

высокий

средний

Расходы на здравоохранение

малый

высокий

средний

Расходы на образование

средний

высокий

малый

Расходы на промышленность

малый

средний

высокий

Расходы на сельское хозяйство

средний

малый

высокий

Расходы на социальную политику

средний

высокий

средний

Расходы на транспорт

малый

высокий

средний

Статистика по каждому кластеру в отдельности представлена на рисунках 5.4- 5.6.

Рисунок 5.4 - Статистика по первому кластеру

Рисунок 5.5 - Статистика по второму кластеру

Рисунок 5.6 - Статистика по третьему кластеру

В окне «статистика» отображаются: минимальное значение; максимальное значение; среднее значение; стандартное отклонение (дисперсия); количество элементов в кластере.

На основе проведенного кластерного анализа можно извлечь следующие правила.

1. Если налоговые = высокий И неналоговые = высокий, то Кластер 2.

2. Если налоговые = средний И неналоговые = средний, то Кластер 3.

3. Если налоговые = малый И неналоговые = малый, то Кластер 1.

6. Построение деревьев решений

Деревья решений (ДР)- метод, позволяющий представить анализируемые данные в виде множества правил «если-то», представленных в виде иерархической структуры - дерева. Построение ДР проводится с использованием пакета See5, позволяющим конструировать классификатор объектов в виде ДР, которому может быть поставлено в соответствие некоторое множество логических правил.

Файл имен переменных viborka.names выглядит следующим образом:

class.

class: 1,2,3.

nalogovie: continuous.

nenalogovie: continuous.

bezvozmezdnie: continuous.

dorognoe hozyaistvo: continuous.

GKH: continuous.

zdravoohranenie: continuous.

obrazovanie: continuous.

promishlennost: continuous.

S/h: continuous.

soc.politika: continuous.

transport: continuous.

Целевой признак Class принимает три значения: 1- первый класс, 2- второй класс, 3- третий класс. Затем описывается совокупность признаков:

Налоговые доходы, неналоговые доходы, безвозмездные перечисления

расходы на дорожное хозяйство, расходы на ЖКХ, расходы на здравоохранение, расходы на образование , расходы на промышленность, расходы на сельское хозяйство , расходы на социальную политику расходы на транспорт.

Файл данных viborka.data, который имеет следующий вид:

1,14281.9,830.6,397.1,1789.9,190.4,71,1926.4,3656,2320.7,1718.1,755.8

1,6107.8,692,3888.3,1042.5,346.1,80.2,1360.9,2869.9,1983.8,1349,340.4

1,9327.6,915.8,1898.9,578.1,246.2,105.6,1690.3,3693.8,2227.3,1580.6,210.8

1,12914.7,1868.8,4844.2,1033.7,491,241.8,1997.3,4768.9,4487.5,1705.1,929.9

1,5293.2,488.8,3709.8,511.7,284.8,61.9,1894.3,2199.5,1719.2,1555.7,65.6

1,7781.2,570.8,2880.5,1137.3,258.1,123.8,1314.7,3098.7,1822.4,1457.4,99

1,4599.7,442.1,1609.8,275.8,183.9,100.4,854.8,1817.3,1042.1,899.8,157.1

1,8219.1,482.9,1698.6,873.1,204.7,139.1,850.8,2971.1,1781.8,1043.1,45.8

1,20829.8,683.8,513.5,2474.1,802,436.7,2173,3676.5,3226.5,1631.6,824.1

2,72161.5,10021.3,977.3,7728.1,411,834.6,10041.1,22729.7,17072.7,11877.9,411.7

1,6227.2,295.9,1983.6,461,305.1,89.3,752.7,2969.2,2304,958.5,595.6

1,8606.6,813.3,1729.4,1181.2,557.6,2.9,1302.4,2825.5,2510.3,1108.7,91.9

1,6862.8,615.3,1241.3,386.6,271.8,119.8,1143.4,2409.4,2462.2,1079.7,123.8

1,5374.1,504.8,2937.7,759.7,236.3,61.7,922,2514.6,2562.6,988.2,127.6

1,10476.9,955.9,2929.1,527.7,389.6,56,1968.3,3221.7,3497.3,1696.6,1211.8

1,12102,673.7,1572.6,634.4,276.9,573.9,2040.8,2891.6,3700.4,1696.5,12

1,15122,1099.4,1194.6,1060.3,316.3,628.9,2949,3253.1,4164.6,1645.7,1343.2

1,6600.7,1008.4,1739.5,550.2,265.3,15.5,692.8,3208.2,1949.4,1152,987.5

1,17899.1,1174.3,1363.9,1096.2,381.9,91.1,2861.6,5751,3651.3,1907.3,137.5

1,15392.7,1677.6,3578.8,1209.3,436.6,240.3,2615.7,5901.9,3666.2,2290.4,11.4

1,4022.9,461.7,305.7,1302.3,725.4,66.5,3030.2,906.5,3201.3,2125.5,85.8

1,21931.6,1121.9,1159.7,1176.6,195.1,114.9,1812.5,5304.7,1488,950,485.2

1,7956.3,918.3,2279.6,2286.2,429.3,255.9,3389.6,2595.7,3588.1,2354.2,190

1,17963.8,1683.6,463.9,349.9,170.7,63.9,3151.8,5523.7,2686,1591.1,56.9

1,12247.9,975.7,1772.7,230.2,111.9,127.3,1151.6,4043.6,1010.8,842.2,34.9

1,5251.8,592.5,1114.9,344.5,128.2,62.5,1229.3,1911.3,1258.6,799.3,235.9

1,4507,342.1,2275.7,357.2,45.1,4.9,228.5,900.1,786.8,461.3,9.8

2,70248.5,15996.9,3581.9,9104,236.5,2635.1,12875.9,18472.4,10709.3,12337.2,158.2

1,1431.2,124.5,2009.7,2398.1,566.1,1.6,1576.8,900.1,2842.9,2227.1,545

1,4045.4,228.7,14781.8,735,134.1,42.4,270.7,5391.7,668.1,473.4,120.2

1,494.6,16.8,3839.6,523.7,104.1,7.7,552.8,671.9,1140.6,684.4,126

1,1937.6,104.5,4160.7,548.2,177.9,8.2,303.3,1902.1,708.4,395.7,13.1

1,3417.8,131.5,1268.9,712.1,129,5.3,486.8,1135.4,664.8,634.9,193.8

1,1505.5,66.9,2727.1,846,153.4,82.1,1168.7,966.1,1244.1,771.4,535

1,2746.8,240.5,5278.3,1303.7,387.2,75.7,836.1,1619.4,1355.7,13941.6,216

3,1707.2,73.8,23157.1,4497.4,1261.4,87.9,4441.8,1745.7,9704.2,6024.3,324.7

1,10613.1,991.8,11120.1,1399.9,1106.4,116.8,2455.7,11365.1,3262,2329,246.7

1,4308.9,3687.9,6754.9,660.2,126.1,99,1081.6,5810,1585.5,913.7,100

1,383.7,54.5,690.7,1469.7,795.8,605.8,2502.3,2456.5,3827.6,2277.9,180

1,2974.8,152.4,1364.4,3123.2,567.6,356.8,3862.1,5292.6,6062.1,4664.8,2525.1

3,35528.3,3503.9,9513.8,7683.6,1482.1,875.4,3480,9024.6,7170.8,3516.6,3684.1

1,3355.1,276.6,2893.4,524,239.1,14,887.5,11887.5,1151.6,888.5,153

1,17465.1,677,2814.8,2111.3,554.4,74.4,988.6,1882,1717.5,1037.7,1762

3,48090.7,7389.9,11842.8,22940.5,3010.7,1012.7,4547.7,1978.3,8950.4,4154.5,1200

1,13944.2,859.3,1775.9,1824.4,497.3,263.5,1911.1,13020.2,3190,1410.7,0.1

1,6903.6,726.2,4306.8,2411.2,357.4,108.2,1130.7,4781.9,2073,1190.1,816.2

1,8617.9,1161.3,2716.4,752.8,562.5,186,1496.1,2971.6,3123.4,1445,0.3

1,27765.8,2440.9,796.7,1091.7,800.4,645.1,4167.7,4129.3,5387.6,3509.2,637.9

1,1200.9,2528.7,1333.2,676.8,316.2,2143.9,8102.7,4739.8,2452.3,1283.1,193.42

Результаты построения начального ДР приведены в таблице 6.1.

Таблица 6.1 Результаты построения начального дерева решений

Дерево решений

Извлеченные правила

S/h <= 6062.1

S/h > 6062.1

soc.politika > 6024.3

S/h > 6062.1

soc.politika <= 6024.3

Rule 1: (44, lift 1.1)

Rule 2: (2, lift 18.4)

Rule 3: (3, lift 13.1)

Результаты классификации

Decision Tree

----------------

Size Errors

3 0( 0.0%) <<

(a) (b) (c) <-classified as

---- ---- ----

44 (a): class 1

2 (b): class 2

3 (c): class 3

Файл данных viborka.data содержит 50 объектов, каждый из которых описан 11 признаками.

В таблице представлено построенное ДР. Оно интерпретируется следующим образом: «Если расходы на сельское хозяйство меньше 6062,1, то класс =1 (44 объекта) , иначе если расходы на социальную политику больше 6024,3 то класс = 2 (2 объекта), иначе класс = 3 (3 объекта)».

Каждая ветка ДР заканчивается указанием номера класса, к которому она принадлежит. Например, самая первая ветка заканчивается записью 1 (44). Это означает, что данной ветке соответствует 44 объекта из определенного 1 класса. Аналогично для дочерних веток.

Ниже приводятся характеристики сконструированного классификатора, оцениваемые по обучающей выборке. Здесь мы видим, что построенное ДР имеет 3 ветки (Size = 3). Далее представлена таблица с детальным разбором результатов классификации. Исходя из данных, можно сказать, что из класса 1 правильно классифицируются 44 объекта, в классе 2 правильно классифицируется 2 объекта, в классе 3 правильно классифицируются 3 объекта.

Количество сработавших правил равно 2, ошибок извлечения объектов не наблюдалось (0.0%).

7. Структурирование проблемной области

Структурирование проблемной области можно представить в виде дерева целей (рис.7.1)

Рисунок 7.1 - Дерево целей

Представим структурирование предметной области в более детальном виде с учетом результатов компонентного анализа:

Рисунок 7.2 - Скорректированное дерево целей с учетом результатов компонентного анализа

Заключение

С целью разработки интеллектуальной системы в рамках курсовой работы выполнено формирование знаний с помощью технологий интеллектуального анализа данных путем применения: метода главных компонент, кластерного анализа, метода построения деревьев решений и нейросетевых методов построения карт Кохонена.

По результатам применения метода главных компонент выделено три кластера и определены наиболее характерные признаки кластеров и их состав. Получены следующие правила:

Правило 1 для кластера 1:

1). Если налоговые доходы = низкие И неналоговые = низкие И расходы на ЖКХ = низкие И расходы на здравоохранение = низкие И транспорт = низкие И расходы промышленность = низкие, ТО группа = Первая;

Правило 2 для кластера 2:

2). Если налоговые доходы = высокие И неналоговые = высокие И расходы на ЖКХ = высокие И расходы на здравоохранение = высокие И транспорт = высокие И расходы промышленность = высокие, ТО группа = Вторая;

Правило 3 для кластера 3:

3). Если налоговые доходы = средние И неналоговые = средние И расходы на ЖКХ = средние И расходы на здравоохранение = средние И транспорт = средние И расходы промышленность = средние, ТО группа = Третья;

По результатам применения метода кластерного анализа выявлено, что

Номер

НАИМЕНОВАНИЕ

КЛАСТЕР

1

Белгородская

1

2

Брянская

1

3

Владимирская

1

4

Воронежская

1

5

Ивановская

1

6

Калужская

1

7

Костромская

1

8

Курская

1

9

Липецкая

1

10

Московская

2

11

Орловская

1

12

Рязанская

1

13

Смоленская

1

14

Тамбовская

1

15

Тверская

1

16

Тульская

1

17

Ярославская

1

18

Республика Карелия

1

19

Республика Коми

1

20

Архангельская

1

21

Вологодская

1

22

Калининградская

1

23

Ленинская

1

24

Мурманская

1

25

Новгородская

1

26

Псковская

1

27

Республика Адыгея

1

28

г.Санкт-Петербург

2

29

Республика Дагестан

1

30

Республика Ингушетия

1

31

Кабардино-Балкарская

1

32

Калмыкия

1

33

Карачаево-Черкесская

1

34

Республика Северная Осетия

1

35

Чеченская

1

36

Краснодарский край

3

37

Ставропольский край

1

38

Астраханская

1

39

Волгоградская

1

40

Ростовская

1

41

Республика Башкортостан

3

42

Республика Марий Эл

1

43

Республика Мордовия

1

44

Республика Татарстан

3

45

Удмуртская область

1

46

Чувашская

1

47

Кировская

1

48

Нижегородская

1

49

Оренбургская

1

При построении деревьев решений получено: Если расходы на сельское хозяйство меньше 6062,1, то класс =1 (44 объекта) , иначе если расходы на социальную политику больше 6024,3 то класс = 2 (2 объекта), иначе класс = 3 (3 объекта).

При построении карт Кохонена выявлены правила кластеризации:

1. Если налоговые = высокий И неналоговые = высокий, то Кластер 2.

2. Если налоговые = средний И неналоговые = средний, то Кластер 3.

3. Если налоговые = малый И неналоговые = малый, то Кластер 1.

Сравнение полученных результатов позволяет заключить, что :

Необходимо выявить различия между субъектами РФ по уровню расхода и дохода бюджетных средств, характеризующегося доходами: налоговыми, неналоговыми, и безвозмездными перечислениями, расходами: на ЖКХ, социальную политику, образование, сельское хозяйство, дорожное хозяйство, здравоохранение, промышленность и транспорт.

К первому кластеру, характеризующемуся низкими налоговыми и неналоговыми доходами, низкими расходами на ЖКХ,здравоохранение, промышленность и транспорт относятся следующие субъекты РФ Белгородская, Брянская, Владимирская, Воронежская, Ивановская, Калужская Костромская, Курская, Липецкая, Орловская, Рязанская, Смоленская, Тамбовская, Тверская, Тульская, Ярославcкая, Республика Карелия, Республика Коми, Архангельская, Вологодская, Калининградская, Ленинская, Мурманская, Новгородская, Псковская, Республика Адыгея, Республика Дагестан, Республика Ингушетия, Кабардино-Балкарская, Калмыкия, Карачаево-Черкесская, Республика Северная Осетия, Чеченская, Ставропольский край, Астраханская, Волгоградская, Ростовская, Республика Марий Эл, Республика Мордовия, Удмуртская область, Чувашская, Кировская, Нижегородская, Оренбургская.

Ко второму кластеру, характеризующемуся высокими налоговыми и неналоговыми доходами, высокими расходами на ЖКХ, здравоохранение, промышленность и транспорт относятся следующие субъекты РФ: г.Москва, Московская область, г.Санкт-Петербург.

К третьему кластеру, характеризующемуся средними налоговыми и неналоговыми доходами, средними расходами на ЖКХ, здравоохранение, промышленность и транспорт относятся следующие субъекты РФ: Республика Башкортостан, Республика Татарстан, Краснодарский край.

Список литературы

1. Методические указания «Изучение методов интеллектуального анализ данных: компонентный анализ, кластерный анализ» к лабораторному практикуму по дисциплине «Интеллектуальные технологии и представление знаний» / Уфимск. roc. авиац. техн. ун-т; Сост.: Б.Г.Ильясов, Е.А.Макарова, Э.Р.Габдуллина - Уфа, 2007.-30 с.

2. Методические указания «Изучение алгоритмов построения деревьев решений в системах SEE/5 и TREE ANALYZER» к лабораторному практикуму по дисциплине «Интеллектуальные технологии и представление знаний» / Уфимск. roc. авиац. техн. ун-т; Сост.: Б.Г.Ильясов, Е.А.Макарова, Э.Р.Габдуллина - Уфа, 2007.-29 с.

3. Методические указания к курсовому проектированию по дисциплине «Моделирование ИАС» дли специальности АСОИУ / Уфимск. roc. авиац. техн. ун-т; Сост.: Е.А.Макарова. - Уфа, 2001.

4. Базы знаний интеллектуальных систем / Т.А.Гаврилова, В.Ф.Хорошевский СПб: Питер, 2000 - 384 с.

5. Тельнов Ю.Ф. Интеллектуальные информационные системы в экономике. Уч. пособие. - М.: Синтег, 1998. - 216 с.

6. Статические и динамические экспертные системы: Учеб. пособие / Э.В.Попов, И.Б.Фоминых, Е.Б.Кисель, М.Д.Шапот. - М.: Финансы и статистика, 1996. - 320 с.: ил.

Приложение

Принадлежность наблюдений к классам

Наименование

Компонентный анализ

Кластерный анализ

Сети Кохонена

Деревья решений

1

Белгородская

1

1

1

1

2

Брянская

1

1

1

1

3

Владимирская

1

1

1

1

4

Воронежская

1

1

1

1

5

Ивановская

1

1

1

1

6

Калужская

1

1

1

1

7

Костромская

1

1

1

1

8

Курская

1

1

1

1

9

Липецкая

1

1

1

1

10

Московская

2

2

2

2

11

Орловская

1

1

1

1

12

Рязанская

1

1

1

1

13

Смоленская

1

1

1

1

14

Тамбовская

1

1

1

1

15

Тверская

1

1

1

1

16

Тульская

1

1

1

1

17

Ярославкая

1

1

1

1

18

г.Москва

2

2

2

2

19

Республика Карелия

1

1

1

1

20

Республика Коми

1

1

1

1

21

Архангельская

1

1

1

1

22

Вологодская

1

1

1

1

23

Калининградская

1

1

1

1

24

Ленинская

1

1

1

1

25

Мурманская

1

1

1

1

26

Новгородская

1

1

1

1

27

Псковская

1

1

1

1

28

г.Санкт-Петербург

2

2

2

2

29

Республика Адыгея

1

1

1

1

30

Республика Дагестан

1

1

1

1

31

Республика Ингушетия

1

1

1

1

32

Кабардино-Балкарская

1

1

1

1

33

Калмыкия

1

1

1

1

34

Карачаево-Черкесская

1

1

1

1

35

Республика Северная Осетия

1

1

1

1

36

Чеченская

1

1

1

1

37

Краснодарский край

3

3

3

3

38

Ставропольский край

1

1

1

1

39

Астраханская

1

1

1

1

40

Волгоградская

1

1

1

1

41

Ростовская

1

1

1

1

42

Республика Башкортостан

3

3

3

3

43

Республика Марий Эл

1

1

1

1

44

Республика Мордовия

1

1

1

1

45

Республика Татарстан

3

3

3

3

46

Удмуртская область

1

1

1

1

47

Чувашская

1

1

1

1

48

Кировская

1

1

1

1

49

Нижегородская

1

1

1

1

50

Оренбургская

1

1

1

1

Размещено на Allbest.ru


Подобные документы

  • Понятие искусственного интеллекта, основные цели разработок в этой области. Что такое интеллектуальное поведение и его возможности. Структура интеллектуальных информационных систем, базы данных и базы знаний. Области применения экспертной системы.

    презентация [80,1 K], добавлен 07.06.2010

  • Оптимизация решений динамическими методами. Расчет оптимальных сроков начала строительства объектов. Принятие решений в условиях риска (определение математического ожидания) и неопределенности (оптимальная стратегия поведения завода, правило максимакса).

    контрольная работа [57,1 K], добавлен 04.10.2010

  • Построение графического дерева решений по установленному критерию оптимальности. Анализ узлов дерева решений с точки зрения доступности информации. Определение вектора приоритетов альтернатив, используя метод анализа иерархий и матрицы парных сравнений.

    контрольная работа [106,4 K], добавлен 09.07.2014

  • Статистические модели принятия решений. Описание моделей с известным распределением вероятностей состояния среды. Рассмотрение простейшей схемы динамического процесса принятия решений. Проведение расчета вероятности произведенной модификации предприятия.

    контрольная работа [383,0 K], добавлен 07.11.2011

  • Разработка и принятие правильного решения как задачи работы управленческого персонала организации. Деревья решений - один из методов автоматического анализа данных, преимущества их использования и область применения. Построение деревьев классификации.

    контрольная работа [91,6 K], добавлен 08.09.2011

  • Теория статистических решений как поиск оптимального недетерминированного поведения в условиях неопределенности. Критерии принятия решений Лапласа, минимаксный, Сэвиджа, Гурвица и различия между ними. Математические средства описания неопределенностей.

    контрольная работа [66,0 K], добавлен 25.03.2009

  • Классическая теория оптимизации. Функция скаляризации Чебышева. Критерий Парето-оптимальность. Марковские процессы принятия решений. Метод изменения ограничений. Алгоритм нахождения кратчайшего пути. Процесс построения минимального остовного дерева сети.

    контрольная работа [182,8 K], добавлен 18.01.2015

  • Математическая теория оптимального принятия решений. Табличный симплекс-метод. Составление и решение двойственной задачи линейного программирования. Математическая модель транспортной задачи. Анализ целесообразности производства продукции на предприятии.

    контрольная работа [467,8 K], добавлен 13.06.2012

  • Теория игр в контексте теории принятия решений. Игры без седловых точек. Использование линейной оптимизации при решении матричных игр. Критерии, используемые для принятия решений в играх с природой. Решение парных матричных игр с нулевой суммой.

    контрольная работа [437,2 K], добавлен 14.02.2011

  • Расчет матриц парных коэффициентов корреляции, оценка их значимости. Построение уравнения регрессии. Точечный и интервальный прогноз значения У. Кластерный анализ методом К-средних. Упорядочивание субъектов РФ в порядке убывания по значениям факторов.

    курсовая работа [2,2 M], добавлен 10.11.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.