АСК-анализ классов вина по его свойствам на основе данных репозитория UCI

Когнитивные функции как способ графической визуализации содержательных феноменологических моделей, формируемых интеллектуальной системой. Анализ экранной формы управления созданием случайных моделей, совпадающих по размерностям основных баз данных.

Рубрика Программирование, компьютеры и кибернетика
Вид курсовая работа
Язык русский
Дата добавления 25.05.2017
Размер файла 2,2 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru

Размещено на http://www.allbest.ru

Введение

Создание систем искусственного интеллекта является одним из важных и перспективных направлений развития современных информационных технологий. Так как существует множество альтернатив систем искусственного интеллекта, то возникает необходимость оценки качества математических моделей этих систем. В данной работе рассмотрено решение задачи идентификации классов вина.

Для достижения поставленной цели необходимы свободный доступ к тестовым исходным данным и методика, которая поможет преобразовать эти данные в форму, которая необходима для работы в системе искусственного интеллекта. Удачным выбором является база данных тестовых задач для систем искусственного интеллекта репозитория UCI.

В данной работе использована база данных «Wine Data Set» из банка исходных данных по задачам искусственного интеллекта - репозитория UCI.

Для решения задачи используем стандартные возможности Microsoft Office Word и Excel, блокнот, а также систему искусственного интеллекта "Эйдос- Х++".

1. Синтез и верификация моделей

1.1 Описание решения

В соответствии с методологией АСК-анализа решение поставленной задачи проведем в четыре этапа:

1. Преобразование исходных данных из HTML-формата в промежуточные файлы MS Excel.

2. Преобразование исходных данных из промежуточных файлов MS Excel в базы данных системы "Эйдос".

3. Синтез и верификация моделей предметной области.

4. Применение моделей для решения задач идентификации, прогнозирования и исследования предметной области.

1.2 Преобразование исходных данных из HTML-формата в файл исходных данных MS Excel

Из банка исходных данных по задачам искусственного интеллекта - репозитория UCI получаем исходную информацию по базе данных «Wine Data Set http://archive.ics.uci.edu/ml/datasets/wine», которую оставим без изменений.

Общее описание задачи:

Файл «wine.names»:

1. Title of Database: Wine recognition data

Updated Sept 21, 1998 by C.Blake : Added attribute information

2. Sources:

(a) Forina, M. et al, PARVUS - An Extendible Package for Data

Exploration, Classification and Correlation. Institute of Pharmaceutical

and Food Analysis and Technologies, Via Brigata Salerno,

16147 Genoa, Italy.

(b) Stefan Aeberhard, email: stefan@coral.cs.jcu.edu.au

(c) July 1991

3. Past Usage:

S. Aeberhard, D. Coomans and O. de Vel,

Comparison of Classifiers in High Dimensional Settings,

Tech. Rep. no. 92-02, (1992), Dept. of Computer Science and Dept. of

Mathematics and Statistics, James Cook University of North Queensland.

(Also submitted to Technometrics).

The data was used with many others for comparing various

classifiers. The classes are separable, though only RDA

has achieved 100% correct classification.

(RDA : 100%, QDA 99.4%, LDA 98.9%, 1NN 96.1% (z-transformed data))

(All results using the leave-one-out technique)

In a classification context, this is a well posed problem

with "well behaved" class structures. A good data set

for first testing of a new classifier, but not very

challenging.

S. Aeberhard, D. Coomans and O. de Vel,

"THE CLASSIFICATION PERFORMANCE OF RDA"

Tech. Rep. no. 92-01, (1992), Dept. of Computer Science and Dept. of

Mathematics and Statistics, James Cook University of North Queensland.

(Also submitted to Journal of Chemometrics).

Here, the data was used to illustrate the superior performance of

the use of a new appreciation function with RDA.

4. Relevant Information:

- These data are the results of a chemical analysis of

wines grown in the same region in Italy but derived from three

different cultivars.

The analysis determined the quantities of 13 constituents

found in each of the three types of wines.

- I think that the initial data set had around 30 variables, but

for some reason I only have the 13 dimensional version.

I had a list of what the 30 or so variables were, but a.)

I lost it, and b.), I would not know which 13 variables

are included in the set.

- The attributes are (dontated by Riccardo Leardi,

riclea@anchem.unige.it)

1) Alcohol

2) Malic acid

3) Ash

4) Alcalinity of ash

5) Magnesium

6) Total phenols

7) Flavanoids

8) Nonflavanoid phenols

9) Proanthocyanins

10) Color intensity

11) Hue

12) OD280/OD315 of diluted wines

13) Proline

5. Number of Instances

class 1 59

class 2 71

class 3 48

6. Number of Attributes

13

7. For Each Attribute:

All attributes are continuous

No statistics available, but suggest to standardise

variables for certain uses (e.g. for us with classifiers

which are NOT scale invariant)

NOTE: 1st attribute is class identifier (1-3)

8. Missing Attribute Values:

None

9. Class Distribution: number of instances per class

class 1 59

class 2 71

class 3 48

Обучающая выборка:

Таблица 1 - wine.data

Class

Alcohol

Malic acid

Ash

Alcalinity of ash

Magne-sium

Total phenols

Flavanoids

Nonfla_vanoid phenols

Proanth_ocyanins

Color intensity

Hue

OD280 /OD315 of diluted wines

1

Class 1

14

2

2

16

127

3

3

0

2

6

1

4

2

Class 1

13

2

2

11

100

3

3

0

1

4

1

3

3

Class 1

13

2

3

19

101

3

3

0

3

6

1

3

4

Class 1

14

2

3

17

113

4

3

0

2

8

1

3

5

Class 1

13

3

3

21

118

3

3

0

2

4

1

3

6

Class 1

14

2

2

15

112

3

3

0

2

7

1

3

7

Class 1

14

2

2

15

96

3

3

0

2

5

1

4

8

Class 1

14

2

3

18

121

3

3

0

1

5

1

4

9

Class 1

15

2

2

14

97

3

3

0

2

5

1

3

10

Class 1

14

1

2

16

98

3

3

0

2

7

1

4

11

Class 1

14

2

2

18

105

3

3

0

2

6

1

3

12

Class 1

14

1

2

17

95

2

2

0

2

5

1

3

13

Class 1

14

2

2

16

89

3

3

0

2

6

1

3

14

Class 1

15

2

2

11

91

3

4

0

3

5

1

3

15

Class 1

14

2

2

12

102

3

4

0

3

8

1

3

16

Class 1

14

2

3

17

112

3

3

0

1

7

1

3

17

Class 1

14

2

3

20

120

3

3

0

2

6

1

3

18

Class 1

14

2

3

20

115

3

3

0

2

7

1

3

19

Class 1

14

2

2

17

108

3

4

0

2

9

1

3

20

Class 1

14

3

3

15

116

3

3

0

2

5

1

3

21

Class 1

14

2

2

16

126

3

3

0

2

6

1

4

22

Class 1

13

4

3

19

102

2

2

0

2

5

1

4

23

Class 1

14

2

2

17

101

3

3

0

2

4

1

4

24

Class 1

13

2

3

18

95

2

2

0

1

4

1

4

25

Class 1

14

2

3

20

96

3

3

0

2

4

1

4

26

Class 1

13

2

3

25

124

3

3

0

2

4

1

3

27

Class 1

13

2

3

16

93

3

3

0

1

5

1

3

28

Class 1

13

2

2

17

94

2

2

0

1

4

1

3

29

Class 1

14

2

3

19

107

3

3

0

2

5

1

3

30

Class 1

14

2

2

16

96

3

2

0

2

5

1

4

31

Class 1

14

2

3

23

101

3

3

0

2

6

1

3

32

Class 1

14

2

2

19

106

3

3

0

2

7

1

3

33

Class 1

14

2

2

17

104

2

3

0

2

4

1

3

34

Class 1

14

2

3

20

132

3

3

1

1

5

1

3

35

Class 1

14

2

3

19

110

2

3

0

2

4

1

3

36

Class 1

13

2

2

21

100

3

3

0

2

5

1

3

37

Class 1

13

2

3

16

110

3

3

0

1

5

1

3

38

Class 1

13

2

3

18

98

2

2

0

1

4

1

3

39

Class 1

13

2

2

16

98

2

3

0

1

4

1

3

40

Class 1

14

4

3

13

128

3

3

0

2

5

1

4

41

Class 1

14

2

2

16

117

3

3

0

2

6

1

3

42

Class 1

13

4

2

19

90

2

3

0

1

4

1

3

43

Class 1

14

2

3

15

101

3

4

0

2

5

1

4

44

Class 1

13

4

2

18

103

3

3

0

2

4

1

3

45

Class 1

13

2

2

17

107

3

3

0

2

5

1

3

46

Class 1

14

4

2

19

111

3

3

0

1

5

1

3

47

Class 1

14

4

2

16

102

3

3

0

2

5

1

3

48

Class 1

14

2

2

16

101

3

3

0

2

6

1

3

49

Class 1

14

2

2

19

103

3

3

0

2

6

1

3

50

Class 1

14

2

2

17

108

3

4

0

2

9

1

3

51

Class 1

13

2

2

12

92

3

3

0

3

7

1

3

52

Class 1

14

2

3

17

94

2

3

0

2

6

1

3

53

Class 1

14

2

2

14

111

4

4

0

2

7

1

3

54

Class 1

14

2

3

17

115

3

3

0

2

6

1

3

55

Class 1

14

2

2

16

118

3

3

0

2

6

1

3

56

Class 1

14

2

2

21

116

3

3

0

2

6

1

3

57

Class 1

14

2

2

16

118

3

3

0

2

6

1

3

58

Class 1

13

2

3

17

102

3

3

0

2

6

1

3

59

Class 1

14

1

3

17

108

3

4

0

2

7

1

3

60

Class 2

12

1

1

11

88

2

1

0

0

2

1

2

61

Class 2

12

1

2

16

101

2

1

1

0

3

1

2

62

Class 2

13

1

2

17

100

2

1

1

1

6

1

2

63

Class 2

14

1

2

18

94

2

2

0

1

4

1

2

64

Class 2

12

1

2

19

87

4

3

0

2

4

1

3

65

Class 2

12

1

3

19

104

2

2

0

1

3

1

2

66

Class 2

12

1

3

18

98

2

3

0

2

5

1

2

67

Class 2

13

1

2

15

78

3

3

0

2

5

1

3

68

Class 2

12

1

2

20

78

2

2

0

1

5

1

3

69

Class 2

13

1

2

17

110

3

1

1

0

3

1

2

70

Class 2

12

1

2

17

151

2

1

0

3

3

1

3

71

Class 2

12

2

2

20

103

1

1

0

1

3

1

2

72

Class 2

14

2

3

25

86

3

3

0

2

3

1

3

73

Class 2

13

2

2

24

87

2

2

0

1

4

1

3

74

Class 2

13

2

3

30

139

3

3

0

2

3

1

4

75

Class 2

12

1

2

21

101

3

2

0

2

3

1

3

76

Class 2

12

2

2

16

97

2

2

0

1

4

1

2

77

Class 2

13

1

2

16

86

2

2

0

1

5

1

2

78

Class 2

12

3

2

18

112

2

1

0

1

3

1

3

79

Class 2

12

1

2

15

136

2

2

0

3

3

1

2

80

Class 2

13

4

2

23

101

3

3

0

2

3

1

3

81

Class 2

12

1

2

19

86

2

2

0

1

3

1

3

82

Class 2

13

2

2

19

86

2

3

0

2

4

1

3

83

Class 2

12

1

3

24

78

2

2

0

1

2

1

3

84

Class 2

13

4

2

23

85

2

2

1

2

5

1

2

85

Class 2

12

1

3

18

94

2

2

0

2

3

1

3

86

Class 2

13

1

2

18

99

2

2

0

1

3

1

3

87

Class 2

12

2

2

23

90

2

2

0

2

2

1

2

88

Class 2

12

2

3

26

88

2

2

0

1

3

1

3

89

Class 2

12

2

2

22

84

2

2

0

1

3

1

3

90

Class 2

12

1

2

24

70

2

2

0

1

2

1

3

91

Class 2

12

2

2

19

81

2

2

1

2

2

1

2

92

Class 2

12

2

2

22

86

1

1

1

2

4

1

3

93

Class 2

13

2

2

21

80

1

1

1

2

3

1

2

94

Class 2

12

3

2

18

88

2

2

0

2

2

1

3

95

Class 2

12

2

2

18

98

3

2

0

1

3

1

3

96

Class 2

12

2

2

19

162

3

2

0

3

3

1

3

97

Class 2

12

2

3

22

134

2

1

0

2

3

1

2

98

Class 2

12

1

2

16

85

3

3

0

2

3

1

3

99

Class 2

12

1

2

19

88

4

4

0

2

5

1

3

100

Class 2

12

3

2

18

88

3

3

0

3

2

1

3

101

Class 2

12

2

2

18

97

2

2

0

1

3

1

3

102

Class 2

13

1

2

19

88

1

1

0

1

2

1

3

103

Class 2

12

2

2

21

98

3

2

0

1

3

1

3

104

Class 2

12

2

2

20

86

3

2

0

1

2

1

2

105

Class 2

13

2

2

21

85

2

2

0

1

3

1

4

106

Class 2

12

3

2

22

90

2

2

1

1

3

1

3

107

Class 2

12

2

2

19

80

2

2

0

2

3

1

3

108

Class 2

13

2

2

23

84

1

2

0

2

3

1

2

109

Class 2

12

1

2

19

92

2

2

0

2

3

1

3

110

Class 2

12

1

3

20

94

3

3

0

2

3

1

3

111

Class 2

11

4

2

20

107

3

3

0

4

3

1

3

112

Class 2

13

2

2

21

88

3

2

0

1

2

1

3

113

Class 2

12

3

3

20

103

2

2

1

1

4

1

3

114

Class 2

11

1

3

21

88

2

2

0

1

3

1

2

115

Class 2

12

1

3

23

84

3

2

0

1

3

1

3

116

Class 2

11

2

2

22

85

2

2

1

2

2

2

3

117

Class 2

12

1

2

21

86

2

2

0

2

2

1

3

118

Class 2

12

2

2

23

108

2

2

0

2

2

1

3

119

Class 2

13

3

2

16

80

2

1

0

1

3

1

2

120

Class 2

12

3

2

19

87

2

2

0

2

1

1

3

121

Class 2

11

2

2

20

96

3

3

0

2

3

1

3

122

Class 2

12

2

3

29

119

3

5

0

2

6

1

4

123

Class 2

12

4

3

27

102

2

2

0

2

2

1

3

124

Class 2

13

6

2

22

86

3

3

0

2

3

1

3

125

Class 2

12

4

2

21

82

3

3

0

3

3

1

4

126

Class 2

12

2

2

21

85

3

3

0

1

3

1

3

127

Class 2

12

2

2

22

86

3

3

0

2

4

1

3

128

Class 2

12

2

3

29

92

2

2

1

2

3

1

2

129

Class 2

12

2

2

25

88

2

2

0

2

2

1

3

130

Class 2

12

4

2

22

80

2

2

0

1

3

1

3

131

Class 3

13

1

2

18

122

2

1

0

1

4

1

1

132

Class 3

13

3

2

20

104

1

1

0

1

5

1

1

133

Class 3

13

2

2

24

98

1

1

0

1

6

1

1

134

Class 3

13

4

2

22

106

2

1

0

1

5

1

1

135

Class 3

13

1

2

18

85

2

1

1

1

5

1

2

136

Class 3

13

2

2

19

94

2

1

1

1

7

1

2

137

Class 3

12

5

3

21

89

1

0

1

1

4

1

1

138

Class 3

13

6

3

25

96

2

1

1

1

5

1

2

139

Class 3

13

4

2

20

88

2

0

1

1

6

1

2

140

Class 3

13

3

3

24

101

2

1

1

1

5

1

2

141

Class 3

13

3

3

21

96

2

1

1

1

5

1

2

142

Class 3

13

3

2

20

89

1

1

0

1

6

1

2

143

Class 3

14

3

3

24

97

2

1

1

1

4

1

2

144

Class 3

14

5

2

20

92

2

1

0

1

4

1

2

145

Class 3

12

4

2

19

112

1

1

0

1

8

1

2

146

Class 3

13

4

2

21

102

2

1

0

1

4

1

2

147

Class 3

14

5

2

20

80

1

0

0

1

5

1

1

148

Class 3

13

5

2

22

86

2

1

0

1

8

1

2

149

Class 3

13

3

2

22

92

2

1

0

1

8

1

2

150

Class 3

13

4

2

22

113

1

1

0

1

9

1

1

151

Class 3

14

3

3

24

123

1

2

0

1

9

1

1

152

Class 3

13

3

2

22

112

1

1

0

1

11

0

1

153

Class 3

13

2

3

26

116

2

1

0

2

7

1

1

154

Class 3

13

3

2

19

98

2

1

1

2

11

1

2

155

Class 3

13

1

2

20

103

1

1

1

1

8

1

2

156

Class 3

13

5

2

22

93

2

1

1

2

8

1

1

157

Class 3

14

4

2

20

89

2

1

0

2

9

1

2

158

Class 3

12

3

3

27

97

2

1

1

1

8

1

2

159

Class 3

14

2

3

25

98

3

1

1

3

13

1

2

160

Class 3

13

2

3

23

89

3

1

1

2

12

1

2

161

Class 3

12

4

2

21

88

2

1

1

1

8

1

2

162

Class 3

14

3

3

20

107

2

1

1

1

6

1

2

163

Class 3

13

3

3

22

106

2

1

1

1

6

1

2

164

Class 3

13

3

2

19

106

1

1

0

1

5

1

2

165

Class 3

14

3

2

22

90

1

1

0

1

10

1

2

166

Class 3

14

4

2

23

88

1

0

1

1

7

1

2

167

Class 3

13

4

3

23

111

2

1

0

1

11

1

2

168

Class 3

13

3

2

20

88

1

1

0

1

10

1

2

169

Class 3

14

3

3

25

105

2

1

0

2

9

1

2

170

Class 3

13

5

3

25

112

2

1

0

1

9

1

2

171

Class 3

12

3

2

19

96

1

0

0

1

6

1

2

172

Class 3

13

2

2

20

86

1

1

0

1

10

1

2

173

Class 3

14

3

2

20

91

2

1

0

1

10

1

2

174

Class 3

14

6

2

21

95

2

1

1

1

8

1

2

175

Class 3

13

4

2

23

102

2

1

0

1

7

1

2

Поскольку ввод исходных данных в систему «Эйдос» планируется осуществить с помощью ее универсального программного интерфейса импорта данных из внешних баз данных, который работает с файлами MS Excel, то преобразуем данные из html-файла в xls-файл, для чего выполним следующие операции.

Скопируем получившуюся таблицу из MS Word в MS Excel и запишем ее с именем: Inp_data.xls в папку: c:\Aidos-X\AID_DATA\Inp_data\. В файле Inp_data.xls добавим пустую колонку на позиции «A» и автоматически пронумеруем все строки. В результате получим таблицу исходных данных, полностью подготовленную для обработки в системе «Эйдос» и записанную в нужную папку в виде файла нужного типа с нужным именем.

Автоматизированная формализация предметной области путем импорта исходных данных из внешних баз данных в систему "Эйдос".

Для загрузки базы исходных данных в систему «Эйдос» необходимо воспользоваться универсальным программным интерфейсом для ввода данных из внешних баз данных табличного вида, т.е. режимом 2.3.2.2 (рисунок 1):

Рисунок 1. Экранная форма Универсального программного интерфейса импорта данных в систему "Эйдос" (режим 2.3.2.2.)

В экранной форме, приведенной на рисунке 1, задать настройки, показанные на рисунке:

? "Задайте тип файла исходных данных Inp_data": "XLS - MS Excel- 2003";

? "Задайте диапазон столбцов классификационных шкал": "Начальный столбец классификационных шкал" - 2, "Конечный столбец классификационных шкал" - 2 (последний столбец в таблице);

? "Задайте диапазон столбцов описательных шкал": "Начальный столбец описательных шкал" - 3, "Конечный столбец описательных шкал" - 12;

? "Задание параметров формирования сценариев или способа интерпретации текстовых полей": "Не применять сценарный метод АСК- анализа и спец.интерпретацию TXT-полей".

После нажать кнопку "ОК". Далее открывается окно, где размещена информация о размерности модели (рисунок 2). В этом окне необходимо нажать кнопку "Выйти на создание модели".

Рисунок 2. Задание размерности модели системы "Эйдос"

Далее открывается окно, отображающее стадию процесса импорта данных из внешней БД "Inp_data.xls" в систему "Эйдос" (рисунок 3), а также прогноз времени завершения этого процесса. В том окне необходимо дождаться завершения формализации предметной области и нажать кнопку "ОК".

Рисунок 3. Процесс импорта данных из внешней БД "Inp_data.xls" в систему "Эйдос"

В результате формируются классификационные и описательные шкалы и градации, с применением которых исходные данные кодируются и представляются в форме эвентологических баз данных. Этим самым полностью автоматизировано выполняется 2-й этап АСК- анализа «Формализация предметной области». Для просмотра классификационных шкал и градаций необходимо запустить режим 2.1 (рисунок 4).

Рисунок 4. Классификационные шкалы и градации (фрагмент)

Для просмотра описательных шкал и градаций необходимо запустить режим 2.2 (рисунок 5), а обучающей выборки - режим 2.3.1. (рисунок 6):

Рисунок 5. Описательные шкалы и градации (фрагмент)

Рисунок 6. Обучающая выборка (фрагмент)

Тем самым создаются все необходимые и достаточные предпосылки для выявления силы и направления причинно-следственных связей между значениями факторов и результатами их совместного системного воздействия (с учетом нелинейности системы).

1.3 Синтез и верификация статистических и интеллектуальных моделей

Далее запускаем режим 3.5, в котором задаются модели для синтеза и верификации, а также задается модель, которой по окончании режима присваивается статус текущей (рисунок 7).

Рисунок 7. Выбор моделей для синтеза и верификации, а также текущей модели

В данном режиме имеется много различных методов верификации моделей, в том числе и поддерживающие бутстрепный метод. Но мы используем параметры по умолчанию, приведенные на рисунке 10. Стадия процесса исполнения режима 3.5 и прогноз времени его окончания отображаются на экранной форме, приведенной на рисунке 8.

Рисунок 8. Синтез и верификация статистических моделей и моделей знаний

Интересно заметить (см. рисунок 8), что синтез и верификация всех 10 моделей на данной задаче заняли 56 секунд. При этом верификация (оценка достоверности моделей) проводилась на всех 178 примерах наблюдения из обучающей выборки. В результате выполнения режима 3.5 созданы все модели, со всеми частными критериями, перечисленные на рисунке 8, но ниже мы приведем лишь некоторые из них (таблицы 2, 3, 4).

1.4 Виды моделей системы «Эйдос»

Рассмотрим решение задачи идентификации на примере модели INF1, в которой рассчитано количество информации по А.Харкевичу, которое мы получаем о принадлежности идентифицируемого объекта к каждому из классов, если знаем, что у этого объекта есть некоторый признак.

По сути, частные критерии представляют собой просто формулы для преобразования матрицы абсолютных частот (таблица 2) в матрицы условных и безусловных процентных распределений, и матрицы знаний (таблицы 3 и 4).

Таблица 2 - Матрица абсолютных частот (модель ABS (фрагмент)

Таблица 3 - Матрица информативностей (модель INF1) в битах (фрагмент)

Таблица 4 - Матрица знаний (модель INF3) (фрагмент)

1.5 Результаты верификации моделей

Результаты верификации (оценки достоверности) моделей, отличающихся частными критериями с двумя приведенными выше интегральными критериями приведены на рисунке 9.

Рисунок 9. Оценки достоверности моделей

Наиболее достоверной в данном приложении оказались модели INF1, INF2, INF4 и INF5 при интегральном критерии «Семантический резонанс знаний». При этом достоверность модели в соответствии с F-мерой Ван Ризбергена составляет 0,916, что является очень хорошим результатом. Таким образом, уровень достоверности прогнозирования с применением модели выше, чем экспертных оценок, достоверность которых считается равной примерно 70%. Для оценки достоверности моделей в АСК-анализе и системе «Эйдос» используется F-критерий Ван Ризбергена, а также L-критерий, предложенный проф. Е.В. Луценко и являющийся нечетким мультиклассовым обобщением F-критерия (рисунок 10).

Также обращает на себя внимание, что статистические модели, как правило, дают более низкую средневзвешенную достоверность идентификации и не идентификации, чем модели знаний, и практически никогда - более высокую. Этим и оправдано применение моделей знаний и интеллектуальных технологий. На рисунке 11 приведены частные распределения уровней сходства и различия для верно и ошибочно идентифицированных и неидентифицированных ситуаций в наиболее достоверной модели INF4.

Рисунок 10. Виды прогнозов и принцип определения достоверности моделей по авторскому варианту метрики, сходной с F-критерием

Рисунок 11. Частное распределение сходства-различия верно и ошибочно идентифицированных и неидентифицированных состояний объекта моделирования в модели INF4

Из рисунка 11 видно, что:

- наиболее достоверная модель INF4 лучше определяет непринадлежность объекта к классу, чем принадлежность (что видно также из рисунка 9);

- модуль уровня сходства-различия в наиболее достоверной модели INF4 для верно идентифицированных и верно неидентифицированных объектов значительно выше, чем для ошибочно идентифицированных и ошибочно неидентифицированных. Это верно практически для всего диапазона уровней сходства-различия, кроме небольших по модулю значений в диапазоне от 0 до 20% уровня сходства. Для больших значений уровней сходства-различия (более 20%) также различие между верно и ошибочно идентифицированными и неидентифицированными ситуациями очевидно и позволяет их безошибочно разделить. На этом и основано нечеткое мультиклассовое обобщение F-меры, предложенное проф. Е.В. Луценко (L-мера).

Любые данные о наблюдениях можно считать суммой истинного значения и шума, причем ни первое, ни второе неизвестны. Поэтому имеет смысл сравнить созданные модели с чисто случайными моделями, совпадающими по основным характеристикам. В системе «Эйдос» есть лабораторная работа № 2.01: «Исследование RND-модели при различных объемах выборки». Если данная работа устанавливается при отсутствии текущего приложения, то все параметры создаваемых моделей задаются вручную, если же текущая модель существует, как в нашем случае, то все основные ее параметры определяются автоматически (рисунок 12).

Рисунок 12. Экранная форма управления созданием случайных моделей, совпадающих с текущей по размерностям основных баз данных

На рисунке 13 показано частное распределение сходства-различия верно и ошибочно идентифицированных и неидентифицированных состояний в случайной модели INF4.

графический визуализация интеллектуальный

Рисунок 13. Частное распределение сходства-различия верно и ошибочно идентифицированных и неидентифицированных состояний в случайной модели INF4

Совершенно очевидное различие частотных распределений уровней сходства-различия верно и ошибочно идентифицированных и неидентифицированных состояний объекта моделирования и случайной модели (рисунки 11 и 13) объясняется тем, что в реальных моделях кроме шума есть также и информация об истинных причинно-следственных взаимосвязях факторов и их значений с одной стороны, и состояниями объекта моделирования, которые ими обуславливаются, с другой стороны. Если же такой информации в модели нет, то и распределение получается типа, приведенного на рисунке 13.

На рисунке 14 приведены данные по достоверности статистических и когнитивных моделей, созданных на основе случайной выборки.

Рисунок 14. Достоверность статистических и когнитивных моделей, созданных на основе случайной выборки

На основе его сравнения с рисунком 9 можно сделать следующие выводы:

- достоверность лучшей модели INF5, отражающей реальный объект моделирования, примерно на 34% выше, чем аналогичной случайной модели (0,916/0,685=1,337);

- различие между достоверностью статистических моделей и моделей знаний, созданных на основе случайной выборки, значительно меньше, чем у моделей, отражающих реальный объект моделирования;

- в реальных моделях кроме шума есть также и информация об истинных причинно-следственных взаимосвязях факторов и их значений с одной стороны, и состояниями объекта моделирования, которые ими обуславливаются, с другой стороны, причем примерно 1/3 достоверности обусловлена отражением в реальных моделях закономерностей предметной области, а 2/3 достоверности обусловлено наличием шума в исходных данных. На основании этого можно предположить, что в исходных данных уровень сигнала о реальных причинно-следственных связях в моделируемой предметной области примерно в два раза ниже уровня шума.

2. Решение задач в наиболее достоверной модели

2.1 Решение задачи идентификации

В соответствии с технологией АСК-анализа зададим текущей модель INF4 (режим 5.6) (рисунок 15) и проведем пакетное распознавание в режиме 4.2.1 (рисунок 16):

Рисунок 15. Экранные формы режима задания модели в качестве текущей

Рисунок 16. Экранная форма режима пакетного распознавания в текущей модели

В результате пакетного распознавания в текущей модели создается ряд баз данных, которые визуализируются в выходных экранных формах, отражающих результаты решения задачи идентификации и прогнозирования.

Режим 4.1.3 системы «Эйдос» обеспечивает отображение результатов идентификации и прогнозирования в различных формах:

1. Подробно наглядно: "Объект - классы".

2. Подробно наглядно: "Класс - объекты".

3. Итоги наглядно: "Объект - классы".

4. Итоги наглядно: "Класс - объекты".

5. Подробно сжато: "Объект - классы".

6. Обобщенная форма по достоверности моделей при разных интегральных критериях.

7. Обобщенный статистический анализ результатов идентификации по моделям и интегральным критериям.

8. Статистический анализ результатов идентификации по классам, моделям и интегральным критериям.

9. Распознавание уровня сходства при разных моделях и интегральных критериях.

10.Достоверность идентификации классов при разных моделях и интегральных критериях.

Ниже кратко рассмотрим некоторые из них.

На рисунках 17 и 18 приведены примеры прогнозов высокой и низкой достоверности частоты и классов ирисов в наиболее достоверной модели INF4 на основе наблюдения предыстории их развития:

Рисунок 17. Пример идентификации классов вина в модели INF4

Рисунок 18. Пример идентификации классов вина в модели INF4

2.2 Поддержка принятия решений с помощью SWOT и PEST матриц и диаграмм

SWOT-анализ является широко известным и общепризнанным методом стратегического планирования. Однако это не мешает тому, что он подвергается критике, часто вполне справедливой, обоснованной и хорошо аргументированной. В результате критического рассмотрения SWOT-анализа выявлено довольно много его слабых сторон (недостатков), источником которых является необходимость привлечения экспертов, в частности для оценки силы и направления влияния факторов. Ясно, что эксперты это делают неформализуемым путем (интуитивно), на основе своего профессионального опыта и компетенции. Но возможности экспертов имеют свои ограничения и часто по различным причинам они не могут и не хотят это сделать. Таким образом, возникает проблема проведения SWOT-анализа без привлечения экспертов. Эта проблема может решаться путем автоматизации функций экспертов, т.е. путем измерения силы и направления влияния факторов непосредственно на основе эмпирических данных. Подобная технология разработана давно, ей уже около 30 лет, но она малоизвестна - это интеллектуальная система «Эйдос». Данная система всегда обеспечивала возможность проведения количественного автоматизированного SWOT-анализа без использования экспертных оценок непосредственно на основе эмпирических данных. Результаты SWOT-анализа выводились в форме информационных портретов. В версии системы под MS Windows: «Эйдос-Х++» предложено автоматизированное количественное решение прямой и обратной задач SWOT-анализа с построением традиционных SWOT-матриц и диаграмм (рисунок 21).

Рисунок 21. Пример SWOT-матрицы и SWOT-диаграммы в модели INF4

2.3 Наглядное отображение эмпирических закономерностей с помощью когнитивных функций

Рассмотрим режим 4.5, в котором реализована возможность визуализации когнитивных функций для любых моделей и любых сочетаний классификационных и описательных шкал (рисунок 19)

Рисунок 19. Экранная форма режима 4.5 системы «Эйдос-Х++» «Визуализация когнитивных функций»

Применительно к задаче, рассматриваемой в данной работе, когнитивная функция показывает, какое количество информации содержится в различных значениях факторов о том, что объект моделирования перейдет в те или иные будущие состояния. Когнитивным функциям посвящено много работ автора, но наиболее новой и обобщающей из них является работа. Поэтому здесь не будем останавливаться на описании того, что представляют собой когнитивные функции в АСК-анализе. На рисунке 20 приведены визуализации всех когнитивных функций данного приложения для модели INF4.

Рисунок 20. Визуализация когнитивных функций для обобщенных классов и всех описательных шкал для модели INF4

Когнитивные функции являются графической визуализацией содержательных феноменологических моделей, формируемых интеллектуальной системой «Эйдос» и являются непосредственной основой для разработки научных гипотез, содержательно объясняющих причины существования отраженных в этих функциях эмпирических закономерностей.

Заключение

Так как существует множество систем искусственного интеллекта, то возникает необходимость сопоставимой оценки качества их математических моделей. Одним из вариантов решения этой задачи является тестирование различных системы на общей базе исходных данных, для чего очень удобно использовать общедоступную базу репозитория UCI. В данной работе приводится развернутый пример использования базы данных репозитория UCI для оценки качества математических моделей, применяемых в АСК-анализе и его программном инструментарии системе искусственного интеллекта «Эйдос». При этом наиболее достоверной в данном приложении оказались модели INF4, основанная на семантической мере целесообразности информации А.Харкевича при интегральном критерии «Сумма знаний». Достоверность модели составляет 0,916, что заметно выше, чем достоверность экспертных оценок, которая считается равной около 70%. Для оценки достоверности моделей в АСК-анализе и системе «Эйдос» используется с F-критерий и его нечеткое мультиклассовое обобщение, предложенное проф. Е.В. Луценко (L-критерий). Также обращает на себя внимание, что статистические модели в данном приложении дают примерно на 21% более низкую средневзвешенную достоверность идентификации и не идентификации, чем модели знаний, что, как правило, наблюдается и в других приложениях. Этим и оправдано применение моделей знаний.

На основе базы данных UCI, рассмотренной в данной работе, построить модели прогнозирования не с помощью АСК-анализа и реализующей его системы «Эйдос», а с применением других математических методов и реализующих их программных систем, то можно сопоставимо сравнить их качество.

Размещено на Allbest.ru


Подобные документы

  • Построение систем визуализации моделей раскроя и их модификации. Анализ способов и методов создания универсального хранилища данных, на примере построения динамически формируемого информационного файла. Графические возможностей языка высокого уровня С.

    научная работа [355,5 K], добавлен 06.03.2009

  • Современные системы управления базами данных (СУБД). Анализ иерархической модели данных. Реляционная модель данных. Постреляционная модель данных как расширенная реляционная модель, снимающая ограничение неделимости данных, хранящихся в записях таблиц.

    научная работа [871,7 K], добавлен 08.06.2010

  • Обзор пакетов программ, предназначенных для визуализации и анализа данных. Обоснование выбора среды программирования. Организация аварийного буфера. Передача данных от нижнего уровня к верхнему и сохранение данных. Отображение данных в графической форме.

    дипломная работа [512,4 K], добавлен 28.08.2012

  • Анализ способов построения генераторов случайных чисел для криптографических задач. Анализ генератора случайных чисел на основе магнитометров. Анализ статистических свойств двоичных последовательностей, полученных путем квантования данных магнитометра.

    дипломная работа [2,5 M], добавлен 06.05.2018

  • Назначение разработанных программных средств. Визуализации иклинометрии и каротажа. Изучение структуры баз данных, используемых в приложении. Встроенные типы данных Oracle и описание разработанных методов. Взаимодействие пользователя с экранной формой.

    курсовая работа [1,1 M], добавлен 14.08.2014

  • Описание внешних иерархических моделей базы данных. Проектирование нормализованных локальных ER-моделей. Выявление и устранение эквивалентных сущностей и категорий, дублирования атрибутов и связей. Создание внутренней реляционной модели данного проекта.

    курсовая работа [87,9 K], добавлен 20.01.2015

  • Основные функции системы управления базами данных - описание структуры базы данных, обработка данных и управление данными. Компьютерный магазин как предметная область, ее технико-экономические характеристики. Построение логической и физической моделей.

    курсовая работа [3,7 M], добавлен 02.07.2012

  • Обзор существующих решений на основе открытых данных. Технологии обработки данных и методы их визуализации. Социальные сети для извлечения данных. Ограничение географической локации. Выбор набора и формат хранения открытых данных, архитектура системы.

    курсовая работа [129,5 K], добавлен 09.06.2017

  • Модель данных как совокупность структур данных и операций их обработки. Иерархическая, сетевая и реляционная модели данных, их основные преимущества и недостатки. Операции над данными, определенные для каждой из моделей, ограничения целостности.

    реферат [128,4 K], добавлен 16.02.2012

  • Типы моделей данных: иерархическая, сетевая, реляционная. Структура входных и выходных данных. Классы управления данными, исключений. Структура таблиц, используемых в программе. Описание алгоритмов решения задачи. Диаграммы классов, блок-схемы алгоритмов.

    курсовая работа [1,5 M], добавлен 22.06.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.