Методологические аспекты выявления, представления и использования знаний в АСК-анализе и интеллектуальной системе "Эйдос"
Методологические аспекты технологии выявления знаний из эмпирических данных, представления знаний и их использования для решения задач прогнозирования, принятия решений. Меню режима задания параметров импорта данных из внешних баз в систему "Эйдос".
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 28.04.2017 |
Размер файла | 1,9 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru//
Размещено на http://www.allbest.ru//
“Истинное знание - это знание причин”
Френсис Бэкон (1561-1626 гг.)
Интеллектуальные системы - это автоматизированные системы, обеспечивающие выявление знаний из эмпирических данных, хранение и накопление их в различных формах представления, а также их использование для решения различных задач. Современный уровень развития теории и практики искусственного интеллекта и динамика развития этого научного и технологического направления таковы, что, по-видимому, можно обоснованно говорить о его затяжном кризисе, более того, о том, что его развитие возможно пошло по тупиковому пути. У автора есть развитые конкретные глубоко аргументированные представления о путях выхода из этого кризиса, связанные с решением ключевых вопросов о том, может ли мыслить объект и какими структурами поддерживается функция мышления у людей и какими структурами она в принципе может поддерживаться в технических системах. Парадоксальность ситуации заключается в том, что, казалось бы, само собой разумеющиеся и очевидные ответы на эти «простые» вопросы, скорее всего, являются неверными. Однако обсуждение этих путей и вопросов далеко выходит за рамки данной работы, т.к. требуют углубленного анализа закономерностей развития человека, технологии и общества, а также некоторых изменений в современных мировоззренческих концепциях и научных парадигмах http://ru.wikipedia.org/wiki/Парадигма .
Здесь же отметим лишь, что выявление, представление и использование знаний безусловно является проблемой, и в различных интеллектуальных системах эта проблема решаются (или не решаются) по-разному См., например: http://www.aiportal.ru/ .
Далее рассмотрим вариант решения этой проблемы в автоматизированном системно-когнитивном анализе (АСК-анализ) и его программном инструментарии - интеллектуальной системе «Эйдос».
Прежде всего, кратко рассмотрим соотношение содержания понятий: «данные», «информация» и «знания».
Данные - это информация, рассматриваемая безотносительно к ее смысловому содержанию, находящаяся на носителях или в каналах связи и представленная в определенной системе кодирования или на определенном языке (т.е. в формализованном виде).
Информация - это осмысленные данные. Смысл, семантика, содержание (согласно концепции смысла Шенка-Абельсона [6]) - это знание причинно-следственных зависимостей.
Знания - это информация, полезная для достижения целей (рисунок 1).
Рисунок 1. Соотношение содержания понятий: «данные», «информация», «знания»
Знания могут быть представлены в различных формах, характеризующихся различной степенью формализации:
- вообще неформализованные знания, т.е. знания в своей собственной форме, ноу-хау (мышление без вербализации есть медитация);
- знания, формализованные в естественном вербальном языке;
- знания, формализованные в виде различных методик, схем, алгоритмов, планов, таблиц и отношений между ними;
- знания в форме технологий, организационных производственных, социально-экономических и политических структур;
- знания, формализованные в виде математических моделей и методов представления знаний в автоматизированных интеллектуальных системах (логическая, фреймовая, сетевая, продукционная, нейросетевая, нечеткая и другие).
Таким образом, для решения сформулированной проблемы необходимо осознанно и целенаправленно последовательно повышать степень формализации исходных данных до уровня, который позволяет ввести исходные данные в интеллектуальную систему, а затем:
- преобразовать исходные данные в информацию;
- преобразовать информацию в знания;
- использовать знания для решения задач прогнозирования, принятия решений и исследования предметной области.
Для этого в АСК-анализе предусмотрены следующие этапы [2]:
1. Когнитивная структуризация предметной области, при которой определяется, что мы хотим прогнозировать и на основе чего (конструирование классификационных и описательных шкал).
2. Формализация предметной области (8):
- разработка градаций классификационных и описательных шкал (номинального, порядкового и числового типа);
- использование разработанных на предыдущих этапах классификационных и описательных шкал и градаций для формального описания (кодирования) исследуемой выборки.
3. Синтез и верификация (оценка степени адекватности) модели.
4. Если модель адекватна, то ее использование для решения задач идентификации, прогнозирования и принятия решений, а также для исследования моделируемой предметной области.
Рассмотрим, как реализуются эти этапы на простом наглядном примере, который положен в основу лабораторной работы №1 по дисциплине: «Интеллектуальные информационные системы», преподаваемой автором в Кубанском государственном аграрном университете [14]. Этот пример интересен тем, что рассматриваемая в нем задача легко решается также и с помощью «естественного интеллекта», что позволяет сравнить результаты его работы с работой автоматизированной интеллектуальной системы и увидеть как она работает.
Данная задача взята из книги Д.Мичи и Р.Джонстона "Компьютер - творец" [1], (c.205-208), в которой она приводится в качестве примера задачи, решаемой методами искусственного интеллекта. Авторами этой задачи являются Рышард Михальски и Джеймс Ларсон.
Суть этой задачи сводится к тому, чтобы выработать правила, обеспечивающие идентификацию железнодорожных составов и прогнозирование направления их следования на основе их формализованных или вербальных описаний (рисунок 2).
Рисунок 2. Исходные данные по примеру в графическом виде
Выбор данной задачи не накладывает ограничений на выводы, полученные в результате ее исследования. Это обусловлено тем, что она имеет ряд характерных особенностей, наблюдающихся в подобных задачах в самых различных предметных областях. Поэтому ее с полным основанием можно рассматривать как типовую для широкого класса задач идентификации и прогнозирования.
Эти особенности состоят в следующем:
1. Рассматривается ряд объектов (фактов), представляющих в совокупности исследуемую выборку.
2. Каждый из объектов исследуемой выборки представляет собой систему, имеющую сложную многоуровневую структуру признаков (экстенсионально описание).
3. Для каждого из объектов исследуемой выборки известно, к каким обобщенным категориям (классам) он относится (интенсионально описание).
4. Необходимо сформировать модель, обеспечивающую идентификацию объектов по их признакам, т.е. определение их принадлежности к обобщенным классам.
Если признаки и классы относятся к одному времени, то имеет место задача идентификации (распознавания). Если же признаки (факторы, причины) относятся к прошлому, а классы, характеризующие состояния объектов, - к будущему, то это задача прогнозирования. Математически эти задачи не отличаются.
Совокупность экстенсионального и интенсинального описания каждого объекта, по сути, представляет собой его определение через подведение под более общее понятие и выделение специфических признаков. Например, так определяется понятие «млекопитающее»: это животное (более общее понятие), выкармливающее своих детей молоком (специфический признак). На основе ряда определений конкретных объектов путем их обобщения можно получить определения классов. Если привести в качестве примеров исследуемой выборки множество различных животных, как млекопитающих, так и других, каждый из таких примеров определить множеством признаков и построить модель, то окажется, что наиболее характерным признаком млекопитающих является не наличие шерсти или когтей, а именно вскармливание детенышей молоком.
Первым делом вручную То, что в данном случае преобразование исходных данных из графической формы в табличную осуществляется вручную не является каким-либо ограничением, т.к. нет никаких принципиальных проблем автоматизировать подобное преобразование. преобразуем исходные данные из графической формы, представленной на рисунке 2, в форму Excel-таблицы исходных данных (таблица 1):
Таблица 1 - EXCEL-ТАБЛИЦА ИСХОДНЫХ ДАННЫХ
Источник информации |
Классификационные шкалы |
Описательные шкалы |
||||||||
Состав следует на |
Наименование состава |
Форма вагона |
Длина вагона |
Количество осей вагона |
Грузоподъемность вагона |
Вид стенок вагона |
Вид крыши вагона |
Вид груза (кол-во и вид) |
||
Сост-01,ваг-1 |
ВОСТОК |
Состав-01 |
Прямоугольная |
Короткий |
2 |
40,0 |
Одинарные |
Отсутствует |
1 овал |
|
Сост-02,ваг-1 |
ВОСТОК |
Состав-02 |
Прямоугольная |
Короткий |
2 |
40,0 |
Одинарные |
Прямая |
2 овала |
|
Сост-03,ваг-1 |
ВОСТОК |
Состав-03 |
Прямоугольная |
Длинный |
3 |
80,0 |
Одинарные |
Прямая |
1 перевернутый треугольник |
|
Сост-04,ваг-1 |
ВОСТОК |
Состав-04 |
Прямоугольная |
Короткий |
2 |
40,0 |
Одинарные |
Отсутствует |
1 квадрат |
|
Сост-05,ваг-1 |
ВОСТОК |
Состав-05 |
Прямоугольная |
Короткий |
2 |
40,0 |
Одинарные |
Прямая |
1 овал |
|
Сост-06,ваг-1 |
ЗАПАД |
Состав-06 |
Прямоугольная |
Короткий |
2 |
40,0 |
Одинарные |
Отсутствует |
1 треугольник |
|
Сост-07,ваг-1 |
ЗАПАД |
Состав-07 |
Прямоугольная |
Длинный |
2 |
60,0 |
Одинарные |
Гофрированная |
Отсутствует |
|
Сост-08,ваг-1 |
ЗАПАД |
Состав-08 |
U-образная |
Короткий |
2 |
30,0 |
Одинарные |
Отсутствует |
1 овал |
|
Сост-09,ваг-1 |
ЗАПАД |
Состав-09 |
V-образная |
Короткий |
2 |
30,0 |
Одинарные |
Отсутствует |
1 овал |
|
Сост-10,ваг-1 |
ЗАПАД |
Состав-10 |
Прямоугольная |
Длинный |
2 |
60,0 |
Одинарные |
Отсутствует |
2 прямоугольника |
|
Сост-01,ваг-2 |
ВОСТОК |
Состав-01 |
Прямоугольная |
Длинный |
3 |
80,0 |
Одинарные |
Отсутствует |
1 ромб |
|
Сост-02,ваг-2 |
ВОСТОК |
Состав-02 |
V-образная |
Короткий |
2 |
30,0 |
Одинарные |
Отсутствует |
1 прямоугольник |
|
Сост-03,ваг-2 |
ВОСТОК |
Состав-03 |
Ромбовидная |
Короткий |
2 |
40,0 |
Одинарные |
Прямая |
1 треугольник |
|
Сост-04,ваг-2 |
ВОСТОК |
Состав-04 |
Овальная |
Короткий |
2 |
40,0 |
Одинарные |
Овальная |
1 ромб |
|
Сост-05,ваг-2 |
ВОСТОК |
Состав-05 |
Прямоугольная |
Длинный |
3 |
80,0 |
Одинарные |
Прямая |
1 длинный прямоугольник |
|
Сост-06,ваг-2 |
ЗАПАД |
Состав-06 |
Прямоугольная |
Длинный |
2 |
60,0 |
Одинарные |
Прямая |
3 овала |
|
Сост-07,ваг-2 |
ЗАПАД |
Состав-07 |
U-образная |
Короткий |
2 |
30,0 |
Одинарные |
Отсутствует |
1 треугольник |
|
Сост-08,ваг-2 |
ЗАПАД |
Состав-08 |
Прямоугольная |
Длинный |
3 |
80,0 |
Одинарные |
Прямая |
1 длинный прямоугольник |
|
Сост-09,ваг-2 |
ЗАПАД |
Состав-09 |
Прямоугольная |
Короткий |
2 |
40,0 |
Одинарные |
Отсутствует |
1 прямоугольник |
|
Сост-10,ваг-2 |
ЗАПАД |
Состав-10 |
U-образная |
Короткий |
2 |
30,0 |
Одинарные |
Отсутствует |
1 прямоугольник |
|
Сост-01,ваг-3 |
ВОСТОК |
Состав-01 |
Прямоугольная |
Короткий |
2 |
40,0 |
Одинарные |
Треуголь-ная |
1 треугольник |
|
Сост-02,ваг-3 |
ВОСТОК |
Состав-02 |
U-образная |
Короткий |
2 |
30,0 |
Одинарные |
Отсутст-вует |
1 треугольник |
|
Сост-03,ваг-3 |
ВОСТОК |
Состав-03 |
Прямоугольная |
Короткий |
2 |
40,0 |
Одинарные |
Отсутст-вует |
1 овал |
|
Сост-04,ваг-3 |
ВОСТОК |
Состав-04 |
Прямоугольная |
Короткий |
2 |
40,0 |
Двойные |
Отсутст-вует |
1 треугольник |
|
Сост-05,ваг-3 |
ВОСТОК |
Состав-05 |
Прямоугольная |
Короткий |
2 |
40,0 |
Двойные |
Отсутствует |
1 треугольник |
|
Сост-07,ваг-3 |
ЗАПАД |
Состав-07 |
Прямоугольная |
Короткий |
2 |
40,0 |
Двойные |
Отсутствует |
1 овал |
|
Сост-09,ваг-3 |
ЗАПАД |
Состав-09 |
Прямоугольная |
Длинный |
2 |
60,0 |
Одинарные |
Гофрированная |
1 длинный прямоугольник |
|
Сост-01,ваг-4 |
ВОСТОК |
Состав-01 |
Прямоугольная |
Длинный |
2 |
60,0 |
Одинарные |
Отсутст-вует |
3 квадрата |
|
Сост-04,ваг-4 |
ВОСТОК |
Состав-04 |
U-образная |
Короткий |
2 |
30,0 |
Одинарные |
Отсутст-вует |
1 треугольник |
|
Сост-09,ваг-4 |
ЗАПАД |
Состав-09 |
V-образная |
Короткий |
2 |
30,0 |
Одинарные |
Отсутств-ует |
1 овал |
Итак, исходные данные по задаче - это Excel-таблица №1.
Процедура преобразования исходных данных в информацию - это анализ данных, состоящий из двух шагов:
- выявление в исходных данных фактов или событий;
- выявление причинно-следственных связей (зависимостей) между этими событиями.
Фактически для преобразования исходных данных в информацию необходимо:
1. Разработать классификационные и описательные шкалы и градации.
2. С использованием классификационных и описательных шкал и градаций закодировать исходные данные, в результате чего получится обучающая выборка, состоящая из фактов, представляющих собой примеры в единстве экстенсионального и интенсинального описания.
3. Произвести расчет матриц абсолютных частот, условных и безусловных процентных распределений и матрицы информативностей, отражающей причинно-следственные связи между значениями факторов и принадлежностью объектов к классам.
Таким образом, информация по задаче - это исходные данные плюс классификационные и описательные шкалы и градации, обучающая выборка, а также матрицы частот, процентных распределений и информативностей.
Процедура преобразования информации в знания - это оценка полезности информации для достижения цели.
Значит знания по задаче - это информация плюс цель и оценка степени полезности информации для достижения этой цели.
Знания получаются из информации, когда мы классифицируем будущие состояния объекта управления как желательные (целевые) и нежелательные.
Банк данных - это базы данных плюс система управления базами данных (СУБД) (стандартные термины). СУБД - это, по сути, система управления данными.
Информационный банк - это информационные базы плюс информационные системы (предлагается стандартизировать эти термины). Информационная система - это, по сути, система управления информацией.
Банк знаний - это базы знаний плюс интеллектуальные системы (стандартные термины). Интеллектуальная система - это, по сути, система управления знаниями.
Существует очевидная параллель между терминами и понятиями, связанными с данными, информацией и знаниями, наглядно представленная в таблице 2.
Таблица 2 - ПАРАЛЛЕЛЬ МЕЖДУ ПОНЯТИЯМИ И ТЕРМИНАМИ,
КАСАЮЩИМИСЯ ДАННЫХ, ИНФОРМАЦИИ И ЗНАНИЙ
Объект |
Субъект |
Система |
|
База данных (БД) |
Система управления базами данных (СУБД) |
Банк данных=БД+СУБД |
|
Информационная база (ИБ) |
Информационная система (система управления информационными базами - СУИБ) |
Информационный банк=ИБ+СУИБ |
|
База знаний (БЗ) |
Интеллектуальная система (система управления базами знаний - СУБЗ) |
Банк знаний=БЗ+СУБЗ |
Автор предлагает «узаконить», т.е. стандартизировать термины, отмеченные в таблице 2 красным цветом. Это позволит упорядочить все эти термины в единой стройной системе, построенной на основе соотношения содержания понятий «данные», «информация» и «знания».
Это актуально, т.к. в настоящее время существуют явная путаница в использовании этих понятий, встречающая даже в названиях соответствующих дисциплин: «Управление знаниями», «Интеллектуальные информационные системы», «Представление знаний в информационных системах». Например, дисциплина «Управление знаниями» является гуманитарной и в ней изучаются слабо формализованные, не основанные на применении автоматизированных интеллектуальных систем, этапы, формы и методы управления знаниями Типичные вопросы, изучаемые в этой дисциплине: стратегия управления знаниями предприятия; организационная культура в контексте управления знаниями; измерение интеллектуального капитала; корпоративные знания: как ими управлять; интеграция знаний предприятия; бизнес держится на знаниях, сам того не зная; новые программы корпоративного обучения в среде управления знаниями: опыт зарубежных компаний; менеджмент знаний: подход к внедрению; общепринятых заблуждений об управлении знаниями (knowledge management). Вместе с тем название этой дисциплины явно соотносится с названием дисциплины «Управление данными». Интеллектуальные системы часто некорректно называются интеллектуальными информационными системами, с тем же успехом их можно было бы называть: «Интеллектуальные СУБД», но лучше и правильнее было бы называть их как предложено: «Системы управления базами знаний». Дисциплина «Алгоритмы и структуры данных» соотносится с дисциплиной «Представление знаний в информационных системах», хотя ясно, что они представляются не в информационных, а в интеллектуальных системах. В настоящее время дисциплина «Интеллектуальные информационные системы» по своему содержанию включает «Представление знаний в информационных системах», тогда как из вышеизложенного ясно, что они должны соотносится по своему содержанию также, как СУБД и «Модели баз данных» (в которых обычно преподается лишь одна реляционная модель). Отметим также, что если применить определение знаний к моделям, описываемым в дисциплине «Представление знаний в информационных системах», то обнаруживается, что иногда в ней описываются не модели баз знаний, а модели баз данных или информационные модели. В частности это видно на примере семантических сетей, которые, по сути, представляют собой инфологическую модель реляционной базы данных.
По мнению автора дисциплины «Управление знаниями» и «Представление знаний в интеллектуальных системах» по сути, представляют собой две части одной дисциплины и должны отражать не способы управления знаниями различной степени формализации (как в настоящее время), а описание автоматизированных интеллектуальных систем и баз знаний.
Существует дисциплина: «Алгоритмы и структуры данных». Предлагается ввести аналогичные дисциплины: «Алгоритмы и информационные структуры» (в АСК-анализе - это формализация предметной области и синтез модели) и «Алгоритмы структурирования знаний» (по содержанию близко к когнитологии, инженерии знаний, представлению знаний)».
Факт наличия причинно-следственных зависимостей может быть установлен методом хи-квадрат, а ее вид - многофакторным анализом. Однако факторный анализ позволяет обрабатывать данные лишь очень небольших размерностей (по числу факторов) и предъявляет чрезвычайно жесткие требования к наличию полных повторностей всех вариантов сочетаний факторов в исходных данных (т.е. данные не должны быть фрагментарными), что на практике выполнить удается крайне редко.
Поэтому большой интерес представляют другие подходы к решению задачи выявления в эмпирических данных причинно-следственных зависимостей и их вида, отражения выявленных зависимостей в наглядной графической и аналитической форме.
Рассмотрим вариант решения этой задачи, развиваемый в СК-анализе и реализованный в системе Эйдос».
Для этого сформулируем требования к форме представления данных, информации и знаний, позволяющие оценить степень их пригодности для решения задач прогнозирования и принятия решений, а также исследования предметной области (например, кластерного анализа).
Прежде всего, результаты решения вышеперечисленных задач должны быть инвариантны относительно:
- единиц измерения градаций факторов (признаков);
- типов шкал, используемых для формализации классов и факторов (номинальные, порядковые и числовые);
- различных статистических характеристик исходной выборки: частотных распределений объектов по классам (обобщенным категориям), частотных распределений градаций факторов, различий в количестве признаков в описаниях объектов исследуемой выборки, различий в суммарном количестве признаков по классам.
Кроме того, форма представления должна обеспечивать решение вышеперечисленных задач с минимальными дополнительными затратами ручного труда, а это значит, что вся предварительная обработка должна быть максимально автоматизирована.
Эти требования можно рассматривать и как критерии выбора наиболее подходящей для решения вышеперечисленных задач формы представления данных, информации и знаний.
Рассмотрим влияние единиц измерения в исходной выборке на результаты решения задач прогнозирования и принятия решений, а также исследования предметной области (например, кластерного анализа).
Если в исходных данных какие-то значения выражены в больших единицах измерения, то их числовые значения будут малыми, и наоборот, если единицы измерения мелкие, то числовые значения - большие. Большие значения оказывают большее влияние на результаты математической обработки, чем малые, и это приводит к возникновению зависимости результатов решения задач идентификации, прогнозирования и принятия решений, а также кластерного анализа, от выбранных размерностей исходных данных, что, на взгляд автора, совершенно неприемлемо и указывает на то, что такое решение нельзя признать корректным и даже вообще решением. По этой же причине некорректно совместно обрабатывать сами исходные данные, представленные в различных единицах измерения (натуральных или ценовых), например, складывать расстояния, представленные в километрах и в метрах, а затем прибавлять к ним тонны и килограммы, а затем еще и безразмерные величины. Вроде это очевидно, но, как это ни удивительно, но как показывает опыт на практике это довольно часто делается, а потом еще на основе подобного «анализа» делаются и выводы. Очень странно, что обычно на это не обращают никакого внимания при использовании исходных данных, представленных в различных единицах измерения. Например, даже в таких популярных (причем, совершенно заслуженно) системах, как SPSS, в подсистеме кластерного анализа приводятся примеры кластерного анализа над исходными данными, представленными в различных единицах измерения.
Для решения поставленной задачи в АСК-анализе проводится последовательное повышение степени формализации исходных данных до уровня, обеспечивающего их обработку на компьютере в программной системе. После выполнения когнитивной структуризации и формализации предметной области осуществляется синтез модели.
Рассмотрим на нашем простом примере, как осуществляется формализация предметной области и преобразование исходных данных в информацию и знания.
В системе «Эйдос» есть подсистема _15, содержащая большое количество различных программных интерфейсов для импорта в систему «Эйдос» исходных данных из внешних баз данных различных стандартов (рисунок 3):
Рисунок 3. Меню выхода на подсистему _15 системы «Эйдос»
Для импорта исходных из таблиц, стандарта таблицы 1 и автоматизированной формализации предметной области служит программный интерфейс _152. На рисунке 4 приведен Help этого режима, в котором люъясняются требования к файлу исходных данных (поэтому в тексте мы повторять их не будем), а на рисунке 5 - меню задания параметров импорта данных из внешних баз данных в систему «Эйдос». В первой экранной форме на рисунке 5 задаются параметры преобразования, а на второй приведена таблица, характеризующая модель, которая будет создана в результате применения этих параметров. Если пользователя что-либо не устраивает в этих результатах, то он имеет возможность скорректировать параметры преобразования.
Рисунок 4. Help режима _152 системы «Эйдос»
Рисунок 5. Меню режима _152 задания параметров импорта данных
из внешних баз данных в систему «Эйдос»
В результате работы режима _152 системы «Эйдос» на основе заданных параметров модели автоматически формируются справочники классификационных и описательных шкал и градаций номинального (текстового), порядкового (целочисленного) и числового типа (последние - в форме интервальных значений), а также исходная (обучающая) выборка (таблицы 3-7). На шкалах номинально типа определены отношения только тождества и различия. На порядковых шкалах, кроме того, определены отношения больше и меньше между градациями. На числовых шкалах, кроме того, есть начало отсчета и единица измерения и над градациями определены все арифметические операции. Необходимо отметить, что формализация числовых значений в виде интервальных значений является вполне естественной и хорошо обоснованной, т.к. фактически результатом измерения является не просто число, а число, заданное с определенной точностью или погрешностью, т.е. относящееся к некоторому интервалу. Количество интервалов на числовой шкале должно определяться таким образом, чтобы все они были представлены как минимум 5 примерами, что считается минимальной статистикой. Это значит, что если исследуемая выборка мала, то интервалы должны быть велики, и погрешность модели будет вынужденно велика, и наоборот, если по мере увеличения объема исходной выборки интервалы могут быть уменьшены и точность модели возрастает. Иначе говоря, невозможно точно отразить предметную область, если у нас недостаточно данных. Это можно считать каким-то вариантом теоремы Котельникова об отсчетах http://ru.wikipedia.org/wiki/Теорема%20Котельникова .
Таблица 3 - СПРАВОЧНИК КЛАССИФИКАЦИОННЫХ ШКАЛ
KOD |
NAME |
|
1 |
СОСТАВ СЛЕДУЕТ НА |
|
2 |
НАИМЕНОВАНИЕ СОСТАВА |
Таблица 4 - СПРАВОЧНИК КЛАССИФИКАЦИОННЫХ ШКАЛ И ГРАДАЦИЙ
KOD |
NAME |
|
1 |
СОСТАВ СЛЕДУЕТ НА-ВОСТОК |
|
2 |
СОСТАВ СЛЕДУЕТ НА-ЗАПАД |
|
3 |
НАИМЕНОВАНИЕ СОСТАВА-Состав-01 |
|
4 |
НАИМЕНОВАНИЕ СОСТАВА-Состав-02 |
|
5 |
НАИМЕНОВАНИЕ СОСТАВА-Состав-03 |
|
6 |
НАИМЕНОВАНИЕ СОСТАВА-Состав-04 |
|
7 |
НАИМЕНОВАНИЕ СОСТАВА-Состав-05 |
|
8 |
НАИМЕНОВАНИЕ СОСТАВА-Состав-06 |
|
9 |
НАИМЕНОВАНИЕ СОСТАВА-Состав-07 |
|
10 |
НАИМЕНОВАНИЕ СОСТАВА-Состав-08 |
|
11 |
НАИМЕНОВАНИЕ СОСТАВА-Состав-09 |
|
12 |
НАИМЕНОВАНИЕ СОСТАВА-Состав-10 |
Градации второй классификационной шкалы, т.е. все градации с 3-й по 12-ю удалены вручную, т.к. интересует не определение номера состава, а его идентификация с обобщенными образами классов составов идущих на восток и на запад.
Таблица 5 - СПРАВОЧНИК ОПИСАТЕЛЬНЫХ ШКАЛ
KOD |
NAME |
|
1 |
ФОРМА ВАГОНА |
|
2 |
ДЛИНА ВАГОНА |
|
3 |
КОЛИЧЕСТВО ОСЕЙ ВАГОНА |
|
4 |
ГРУЗОПОДЪЕМНОСТЬ ВАГОНА |
|
5 |
ВИД СТЕНОК ВАГОНА |
|
6 |
ВИД КРЫШИ ВАГОНА |
|
7 |
ВИД ГРУЗА (КОЛ-ВО И ВИД) |
|
8 |
КОЛИЧЕСТВО ВАГОНОВ В СОСТАВЕ |
Восьмая шкала введена вручную, т.к. соответствующие признаки являются признаками второго уровня иерархии, если рассматривать состав, как систему, т.е. это не признаки вагонов, а признаки состава в целом.
Таблица 6 - СПРАВОЧНИК ОПИСАТЕЛЬНЫХ ШКАЛ И ГРАДАЦИЙ
KOD |
NAME |
Примечание: тип шкалы |
|
1 |
ФОРМА ВАГОНА-U-образная |
Номинальный (текстовый) |
|
2 |
ФОРМА ВАГОНА-V-образная |
||
3 |
ФОРМА ВАГОНА-Овальная |
||
4 |
ФОРМА ВАГОНА-Прямоугольная |
||
5 |
ФОРМА ВАГОНА-Ромбовидная |
||
6 |
ДЛИНА ВАГОНА-Длинный |
Номинальный (текстовый) |
|
7 |
ДЛИНА ВАГОНА-Короткий |
||
8 |
КОЛИЧЕСТВО ОСЕЙ ВАГОНА-002 |
Порядковый (целочисленный) |
|
9 |
КОЛИЧЕСТВО ОСЕЙ ВАГОНА-003 |
||
10 |
ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 1/5-{30.00, 40.00} |
Числовой (интервальные значения) |
|
11 |
ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 2/5-{40.00, 50.00} |
||
12 |
ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 3/5-{50.00, 60.00} |
||
13 |
ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 4/5-{60.00, 70.00} |
||
14 |
ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 5/5-{70.00, 80.00} |
||
15 |
ВИД СТЕНОК ВАГОНА-Двойные |
Номинальный (текстовый) |
|
16 |
ВИД СТЕНОК ВАГОНА-Одинарные |
||
17 |
ВИД КРЫШИ ВАГОНА-Гофрированная |
||
18 |
ВИД КРЫШИ ВАГОНА-Овальная |
||
19 |
ВИД КРЫШИ ВАГОНА-Отсутствует |
||
20 |
ВИД КРЫШИ ВАГОНА-Прямая |
||
21 |
ВИД КРЫШИ ВАГОНА-Треугольная |
||
22 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 длинный прямоугольник |
Номинальный (текстовый) |
|
23 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 квадрат |
||
24 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 овал |
||
25 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 перевернутый треугольник |
||
26 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 прямоугольник |
||
27 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 ромб |
||
28 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 треугольник |
||
29 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-2 овала |
||
30 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-2 прямоугольника |
||
31 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-3 квадрата |
||
32 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-3 овала |
||
33 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-Отсутствует |
Таблица 7 - ИСХОДНАЯ (ОБУЧАЮЩАЯ) ВЫБОРКА
Код объекта |
Наименование объекта |
Коды классов |
Коды признаков |
|||||||||||
33 |
Состав-01 |
1 |
4 |
7 |
8 |
10 |
11 |
16 |
19 |
24 |
4 |
6 |
9 |
|
|
|
|
16 |
19 |
27 |
4 |
7 |
8 |
10 |
11 |
16 |
21 |
28 |
|
|
|
|
6 |
8 |
12 |
13 |
16 |
19 |
31 |
36 |
||||
34 |
Состав-02 |
1 |
4 |
7 |
8 |
10 |
11 |
16 |
20 |
29 |
2 |
7 |
8 |
|
|
|
|
16 |
19 |
26 |
1 |
7 |
8 |
10 |
16 |
19 |
28 |
35 |
|
35 |
Состав-03 |
1 |
4 |
6 |
9 |
14 |
16 |
20 |
25 |
5 |
7 |
8 |
10 |
|
|
|
|
16 |
20 |
28 |
4 |
7 |
8 |
10 |
11 |
16 |
19 |
24 |
|
|
|
|
35 |
|||||||||||
36 |
Состав-04 |
1 |
4 |
7 |
8 |
10 |
11 |
16 |
19 |
23 |
3 |
7 |
8 |
|
|
|
|
11 |
16 |
18 |
27 |
4 |
7 |
8 |
10 |
11 |
15 |
19 |
|
|
|
|
1 |
7 |
8 |
10 |
16 |
19 |
28 |
36 |
||||
37 |
Состав-05 |
1 |
4 |
7 |
8 |
10 |
11 |
16 |
20 |
24 |
4 |
6 |
9 |
|
|
|
|
16 |
20 |
22 |
4 |
7 |
8 |
10 |
11 |
15 |
19 |
28 |
|
|
|
|
35 |
|||||||||||
38 |
Состав-06 |
2 |
4 |
7 |
8 |
10 |
11 |
16 |
19 |
28 |
4 |
6 |
8 |
|
|
|
|
13 |
16 |
20 |
32 |
34 |
|||||||
39 |
Состав-07 |
2 |
4 |
6 |
8 |
12 |
13 |
16 |
17 |
33 |
1 |
7 |
8 |
|
|
|
|
16 |
19 |
28 |
4 |
7 |
8 |
10 |
11 |
15 |
19 |
24 |
|
|
|
|
35 |
|||||||||||
40 |
Состав-08 |
2 |
1 |
7 |
8 |
10 |
16 |
19 |
24 |
4 |
6 |
9 |
14 |
|
|
|
|
20 |
22 |
34 |
|||||||||
41 |
Состав-09 |
2 |
2 |
7 |
8 |
10 |
16 |
19 |
24 |
4 |
7 |
8 |
10 |
|
|
|
|
16 |
19 |
26 |
4 |
6 |
8 |
12 |
13 |
16 |
17 |
22 |
|
|
|
|
7 |
8 |
10 |
16 |
19 |
24 |
36 |
|||||
42 |
Состав-10 |
2 |
4 |
6 |
8 |
12 |
13 |
16 |
19 |
30 |
1 |
7 |
8 |
|
|
|
|
16 |
19 |
26 |
34 |
Обучающая выборка состоит из трех таблиц баз данных:
- первая включает коды объектов выборки и наименование источника данных;
- вторая содержит коды классов, к которым принадлежит объект;
- третья содержит коды признаков объекта.
Первая таблица связана со второй и третьей отношением «один ко многим».
Объекты исходной выборки формируются путем кодирования строк таблицы исходных данных (таблица 1) с применением справочников классификационных и описательных шкал и градаций (таблицы 4 и 6), но при этом могут формироваться и объединенные объекты из строк по классам. Суммарное количество классификационных и описательных шкал, с которым работает режим _152, не ограничено, но на практике составляет не более 256, что связано с ограничением MS Excel 2003. В более поздних версиях MS Excel это ограничение снято, но из них исключен XLS-DBF-конвертер. Нет никаких принципиальных проблем снять все эти ограничения и путем разработки небольших специализированных программ, объединяющих листы MS Excel (что и делалось при необходимости автором) или использования имеющихся конвертеров. Суммарное количество градаций классификационных шкал, как и градаций описательных шкал в текущей версии системы «Эйдос» ограничено 4000, но в будущих версиях это ограничение планируется снять.
База данных, представленная в таблице 1, рассматриваемая совместно с таблицами 3, 4, 5, 6 и 7, является результатом формализации предметной области.
После формализации предметной области осуществляется синтез и верификация (оценка достоверности) модели, а также повышение ее эффективности [2]. Синтез модели включает расчет на основе эмпирических данных, представленных в исследуемой выборке, следующих матриц (таблицы 8, 9, 10):
- матрицы абсолютных частот (большинство статических систем этим и ограничиваются);
- матрицы условных и безусловных процентных распределений (в некоторых системах это также делается);
- матрицы информативностей или матрицы знаний (что осуществляется только в АСК-анализе).
Таблица 8 - МАТРИЦА АБСОЛЮТНЫХ ЧАСТОТ
Код |
Наименование |
Восток |
Запад |
Сумма |
|
1 |
ФОРМА ВАГОНА-U-образная |
2 |
3 |
5 |
|
2 |
ФОРМА ВАГОНА-V-образная |
1 |
1 |
2 |
|
3 |
ФОРМА ВАГОНА-Овальная |
1 |
|
1 |
|
4 |
ФОРМА ВАГОНА-Прямоугольная |
11 |
8 |
19 |
|
5 |
ФОРМА ВАГОНА-Ромбовидная |
1 |
|
1 |
|
6 |
ДЛИНА ВАГОНА-Длинный |
4 |
5 |
9 |
|
7 |
ДЛИНА ВАГОНА-Короткий |
13 |
8 |
21 |
|
8 |
КОЛИЧЕСТВО ОСЕЙ ВАГОНА-002 |
14 |
12 |
26 |
|
9 |
КОЛИЧЕСТВО ОСЕЙ ВАГОНА-003 |
3 |
1 |
4 |
|
10 |
ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 1/5-{30.00, 40.00} |
11 |
6 |
17 |
|
11 |
ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 2/5-{40.00, 50.00} |
9 |
2 |
11 |
|
12 |
ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 3/5-{50.00, 60.00} |
1 |
3 |
4 |
|
13 |
ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 4/5-{60.00, 70.00} |
1 |
4 |
5 |
|
14 |
ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 5/5-{70.00, 80.00} |
1 |
1 |
2 |
|
15 |
ВИД СТЕНОК ВАГОНА-Двойные |
2 |
1 |
3 |
|
16 |
ВИД СТЕНОК ВАГОНА-Одинарные |
15 |
11 |
26 |
|
17 |
ВИД КРЫШИ ВАГОНА-Гофрированная |
|
2 |
2 |
|
18 |
ВИД КРЫШИ ВАГОНА-Овальная |
1 |
|
1 |
|
19 |
ВИД КРЫШИ ВАГОНА-Отсутствует |
10 |
9 |
19 |
|
20 |
ВИД КРЫШИ ВАГОНА-Прямая |
5 |
2 |
7 |
|
21 |
ВИД КРЫШИ ВАГОНА-Треугольная |
1 |
|
1 |
|
22 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 длинный прямоугольник |
1 |
2 |
3 |
|
23 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 квадрат |
1 |
|
1 |
|
24 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 овал |
3 |
4 |
7 |
|
25 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 перевернутый треугольник |
1 |
|
1 |
|
26 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 прямоугольник |
1 |
2 |
3 |
|
27 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 ромб |
2 |
|
2 |
|
28 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 треугольник |
5 |
2 |
7 |
|
29 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-2 овала |
1 |
|
1 |
|
30 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-2 прямоугольника |
|
1 |
1 |
|
31 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-3 квадрата |
1 |
|
1 |
|
32 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-3 овала |
|
1 |
1 |
|
33 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-Отсутствует |
|
1 |
1 |
|
34 |
КОЛИЧЕСТВО ВАГОНОВ В СОСТАВЕ-2 |
|
3 |
3 |
|
35 |
КОЛИЧЕСТВО ВАГОНОВ В СОСТАВЕ-3 |
3 |
1 |
4 |
|
36 |
КОЛИЧЕСТВО ВАГОНОВ В СОСТАВЕ-4 |
2 |
1 |
3 |
|
|
Кол-во объектов обуч.выборки |
5 |
5 |
10 |
Матрица абсолютных частот (таблица 1) по сути, является таблицей сопряженности См.: http://www.machinelearning.ru/wiki/index.php?title=Таблица%20сопряженности. Таблица 1, рассматриваемая совместно с таблицами 3, 4, 5, 6, 7, а также 8, 9 и 10, в соответствии с терминологией, предлагаемой в таблице 2, является уже не базой данных, а информационной базой.
Если же среди классов выделить целевые и нежелательные, то таблица 10 может рассматриваться уже как база знаний, т.к. содержит количественные оценки степени полезности (и вредности) информации для достижения целей.
Рассмотрим, используя вышеперечисленные критерии, в какой степени эти матрицы пригодны для решения задач прогнозирования и принятия решений, а также исследования предметной области (например, кластерного анализа) и какую работу необходимо выполнять вручную и автоматизировать, чтобы повысить их пригодность для этого.
Матрица абсолютных частот отражает, сколько раз каждая градация факторов встречается у объектов каждого класса.
Проблема размерностей при расчете матрицы абсолютных частот решается тем, что сами размерные исходные данные с использованием шкал различных типов (номинальных, порядковых и числовых) заменяются на факты их встречи, т.е. на частоты встреч тех или иных их интервальных значений [31] в различных группах, соответствующих классам. Фактом является наблюдение определенного экстенсионального значения (признака, градации фактора) у объекта исходной выборки, относящегося к некоторой интенсиональной категории (классу).
Однако вышеперечисленные задачи решать на основе абсолютных частот можно только в том случае, если по каждому классу в исходных данных было приведено одинаковое количество примеров, что на практике встречается крайне редко и является трудно достижимым при сборе исходных данных, за исключением случая жестко спланированного управляемого эксперимента (обычно очень небольшой размерности). Можно, конечно, вручную учитывать это различие, однако реально это возможно сделать только на моделях очень небольшой размерности и требует специальных усилий (работы).
Чтобы результаты решения вышеперечисленных задач не зависели от количества примеров по разным классам (т.е. были инвариантны относительно формы частотных распределений примеров по классам, частотного распределения признаков и др.) можно с помощью формул (1) перейти от матрицы абсолютных частот к матрице условных и безусловных процентных распределений (матрице относительных частот или частостей Частота (абсолютная частота) - количество элементов совокупности, которые имеют данное значение признака. Частость (относительная частота) - отношение частоты к общему количеству исследуемых элементов, т.е. объему совокупности. ) (таблица 9).
(1)
где:
Nij - суммарное количество наблюдений факта: "действовал i-й фактор и объект перешел в j-е состояние";
Ni - суммарное количество встреч i-го фактора у всех объектов;
W - количество классов (мощность множества будущих состояний объекта управления).
Таблица 9 - МАТРИЦА УСЛОВНЫХ И БЕЗУСЛОВНЫХ
ПРОЦЕНТНЫХ РАСПРЕДЕЛЕНИЙ (СИМ-2)
Код |
Наименование |
В группе: «Восток» |
В группе: «Запад» |
По всей выборке |
|
1 |
ФОРМА ВАГОНА-U-образная |
40,0 |
60,0 |
50,0 |
|
2 |
ФОРМА ВАГОНА-V-образная |
20,0 |
20,0 |
20,0 |
|
3 |
ФОРМА ВАГОНА-Овальная |
20,0 |
|
10,0 |
|
4 |
ФОРМА ВАГОНА-Прямоугольная |
220,0 |
160,0 |
190,0 |
|
5 |
ФОРМА ВАГОНА-Ромбовидная |
20,0 |
|
10,0 |
|
6 |
ДЛИНА ВАГОНА-Длинный |
80,0 |
100,0 |
90,0 |
|
7 |
ДЛИНА ВАГОНА-Короткий |
260,0 |
160,0 |
210,0 |
|
8 |
КОЛИЧЕСТВО ОСЕЙ ВАГОНА-002 |
280,0 |
240,0 |
260,0 |
|
9 |
КОЛИЧЕСТВО ОСЕЙ ВАГОНА-003 |
60,0 |
20,0 |
40,0 |
|
10 |
ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 1/5-{30.00, 40.00} |
220,0 |
120,0 |
170,0 |
|
11 |
ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 2/5-{40.00, 50.00} |
180,0 |
40,0 |
110,0 |
|
12 |
ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 3/5-{50.00, 60.00} |
20,0 |
60,0 |
40,0 |
|
13 |
ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 4/5-{60.00, 70.00} |
20,0 |
80,0 |
50,0 |
|
14 |
ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 5/5-{70.00, 80.00} |
20,0 |
20,0 |
20,0 |
|
15 |
ВИД СТЕНОК ВАГОНА-Двойные |
40,0 |
20,0 |
30,0 |
|
16 |
ВИД СТЕНОК ВАГОНА-Одинарные |
300,0 |
220,0 |
260,0 |
|
17 |
ВИД КРЫШИ ВАГОНА-Гофрированная |
|
40,0 |
20,0 |
|
18 |
ВИД КРЫШИ ВАГОНА-Овальная |
20,0 |
|
10,0 |
|
19 |
ВИД КРЫШИ ВАГОНА-Отсутствует |
200,0 |
180,0 |
190,0 |
|
20 |
ВИД КРЫШИ ВАГОНА-Прямая |
100,0 |
40,0 |
70,0 |
|
21 |
ВИД КРЫШИ ВАГОНА-Треугольная |
20,0 |
|
10,0 |
|
22 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 длинный прямоугольник |
20,0 |
40,0 |
30,0 |
|
23 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 квадрат |
20,0 |
|
10,0 |
|
24 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 овал |
60,0 |
80,0 |
70,0 |
|
25 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 перевернутый треугольник |
20,0 |
|
10,0 |
|
26 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 прямоугольник |
20,0 |
40,0 |
30,0 |
|
27 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 ромб |
40,0 |
|
20,0 |
|
28 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 треугольник |
100,0 |
40,0 |
70,0 |
|
29 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-2 овала |
20,0 |
|
10,0 |
|
30 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-2 прямоугольника |
|
20,0 |
10,0 |
|
31 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-3 квадрата |
20,0 |
|
10,0 |
|
32 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-3 овала |
|
20,0 |
10,0 |
|
33 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-Отсутствует |
|
20,0 |
10,0 |
|
34 |
КОЛИЧЕСТВО ВАГОНОВ В СОСТАВЕ-2 |
|
60,0 |
30,0 |
|
35 |
КОЛИЧЕСТВО ВАГОНОВ В СОСТАВЕ-3 |
60,0 |
20,0 |
40,0 |
|
36 |
КОЛИЧЕСТВО ВАГОНОВ В СОСТАВЕ-4 |
40,0 |
20,0 |
30,0 |
|
|
Кол-во объектов обуч.выборки |
5 |
5 |
10 |
При неограниченном увеличении объема выборки частости стремятся (сходятся) к теоретическим вероятностям, как своим пределам, поэтому частости можно считать эмпирическими вероятностями. Способ, которым частости приближаются к вероятностям, называется сходимостью модели. В системе «Эйдос» реализован специальный режим, позволяющий исследовать сходимость модели, в том числе скорость сходимости и погрешность различия частости и вероятности при различных объемах исследуемой выборки. Учитывая все это при достаточно больших выборках, по мнению авторов, допустимо вместо термина «частость» использовать термин «условная вероятность», тем более что в аналитических выражениях обычно оперируют именно вероятностями Процентные распределения отличаются от вероятностных тем, что вероятности умножены на 100..
Однако и при решении вышеперечисленных задач на основе матрицы условных и безусловных процентных распределений приходится вручную осуществлять сравнение условных относительных частот, является определенной работой и реально возможно только на моделях очень малой размерности и требует довольно больших специальных усилий. Поэтому есть смысл автоматизировать и это сравнение, так, чтобы в нашем распоряжении была матрица, содержащая уже сами результаты сравнения условных относительных частот в количественной форме.
Для того чтобы реализовать эту автоматизацию необходимо выбрать базу сравнения и способ сравнения, т.е. ответить на два вопроса:
- с чем сравнивать условные относительные частоты: друг с другом или с безусловными частотами;
- каким способом сравнивать условные относительные частоты: с помощью вычитания или с помощью деления.
Если в модели есть всего два класса, то можно сравнивать условные относительные частоты как друг с другом, так и с безусловными частотами, т.к. это одинаково как по трудоемкости (затрачиваемым вычислительным ресурсам), так и по результатам сравнения. Если же в модели хотя бы три класса, то уже возникают определенное затруднения в том, как сравнить условные процентные распределения по ним, а если их сотни или тысячи, то это становится даже в теоретическом плане непонятным. Поэтому в [2] предлагается использовать в качестве базы для сравнения (нормы) условных относительных частот их взвешенное среднее по всей исследуемой выборке или безусловные частоты (2):
(2)
где:
- Pij - вероятность перехода объекта в j-е состояние при условии действия на него i-го значения фактора;
- Pi - вероятность наблюдения i-го значения фактора по всей выборке;
Подставим в выражение (2), представляющее собой вариант формулы А.Харкевича, значения вероятностей, выраженные через фактически наблюдаемые абсолютные частоты из (3)
(3)
где:
W - количество классов (мощность множества будущих состояний объекта управления)
M - максимальный уровень сложности смешанных состояний объекта управления;
Nij - суммарное количество наблюдений факта: "действовал i-й фактор и объект перешел в j-е состояние";
Nj - в СИМ-1 (семантической информационной модели) суммарное количество встреч различных факторов у объектов, перешедших в j-е состояние;
Ni - в суммарное количество встреч i-го фактора у всех объектов;
N - суммарное количество встреч различных факторов у всех объектов.
(4)
Выражение (4) дает количество информации о принадлежности объекта к j-му классу, если он обладает i-м признаком, выраженное через абсолютные частоты из таблицы 8.
Это решение, приводящее к выражению (2), соответствует принятому в статистике методу средних и отклонений от средних и представляет собой косвенное или опосредованное сравнение условных процентных распределений друг с другом, т.к. база сравнения рассчитывается с их использованием.
Кроме того, важно отметить, что получающееся в результате этого выражение (4) для количества информации тождественно выражению (6), получающемуся путем сравнения фактически наблюдаемой абсолютной частоты встреч признака в определенной группе (классе) с теоретически ожидаемой частотой его наблюдения по методу хи-квадрат [2, раздел 3.4] http://lc.kubagro.ru/aidos/aidos02/3.4.htm , т.е. если принять, что:
Nij - фактическое количество встреч i-го признака у объектов j-го класса;
Tij - теоретически ожидаемое количество встреч i-го признака у объектов j-го класса:
(5)
Подставив выражение (4) в (3) получаем:
(6)
или:
(7)
Что касается вопроса о том, вычитание или деление для этого сравнения использовать, то этот вопрос не является принципиальным, т.к. различие между вычитанием и делением сводится к выбору единиц измерения результатов сравнения: если взять логарифм от отношения, то получится разность логарифмов делимого и делителя.
Из выражения (6) для количества знаний следует:
Если фактическая вероятность наблюдения i-го признака при предъявлении объекта j-го класса равна теоретически ожидаемой (средней), то наблюдение этого признака не несет никакой информации о принадлежности объекта к данному классу. Если же она выше средней - то это говорит в пользу того, что предъявлен объект данного класса, если же ниже - то другого.
Поэтому наличие статистической связи (информации) между признаками и классами распознавания, т.е. отличие вероятностей их совместных наблюдений от предсказываемого в соответствии со случайным нормальным распределением, приводит к увеличению фактической статистики 2 по сравнению с теоретической величиной.
В работе [2, раздел 3.4] http://lc.kubagro.ru/aidos/aidos02/3.4.htm предлагается основанная на выражении (6) и вышеприведенной интерпретации мера количества знаний в базе знаний, представляющая собой количественную меру степени выраженности закономерностей в предметной области:
(8) |
где:
- средняя информативность признаков по матрице информативностей (при увеличении объема выборки стремится к нулю). |
Значение данной меры показывает среднее отличие количества информации в факторах о будущих состояниях активного объекта управления от среднего количества информации в факторе (которое при больших выборках близко к 0). По своей математической форме эта мера сходна с мерами для значимости факторов и степени сформированности образов классов и коррелирует с объемом когнитивного пространства классов и пространства атрибутов.
Интересно отметить, что в американском Internet-ресурсе http://www.heritagehealthprize.com/c/hhp/Details/Rules
предлагается следующая метрика для оценки достоверности модели (качества алгоритма):
(9) |
Where:
1. i is a member;
2. n is the total number of members;
3. p is the predicted number of days spent in hospital for member i in the test period;
4. a is the actual number of days spent in hospital for member i in the test period.
5. log is the natural logarithm function.
Эта метрика (количественная мера) весьма сходна с выражением (8) из работы [2] и, по существу, содержит под квадратным корнем сумму квадратов выражения (7), если считать, что теоретически ожидаемое значение величины - это и есть ее прогнозируемое значение:
(10)
Если переписать выражение (9) с учетом вышесказанного и выражения (7), то получим:
(11)
Выражение (11) практически совпадает с выражением (8) из работы автора [2] (изданной в 2002 году), если учесть, что при увеличении объема выборки среднее по Iij стремится к нулю. Это значит, что информационная мера сходства, используемая в АСК-анадизе и системе «Эйдос», тесно связана с энтропийной мерой сходства См.: http://yandex.ru/yandsearch?text=энтропийная%20мера%20сходства , http://www.mce.su/eng/archive/mce14/sect283/authors/person2421/doc12304/ и др.
Переход от матрицы абсолютных частот к матрице условных и безусловных процентных распределений обеспечивает инвариантность результатов решения вышеперечисленных задач от формы частотного распределения примеров по классам, однако при этом никак не решается вопрос о зависимости этих результатов от размерностей различных градаций факторов (признаков) и типов шкал, используемых для формализации факторов.
Проблему размерностей можно было бы решить, перейдя к стандартизированным величинам При стандартизации вектора каждая его координата заменяется на отношение ее разности со средним по всем координатам к среднеквадратичному отклонению координат от среднего. или отношениям условных и безусловных вероятностей. Например, формулу Байеса http://ru.wikipedia.org/wiki/Теорема%20Байеса можно рассматривать как дающую количественную оценку степени влияния фактора на наступление некоторого события. Отношение условной вероятности наблюдения некоторого значения фактора в группе (классе) к безусловной вероятности его наблюдения по всей исследуемой выборке также можно рассматривать как количественную меру силы и направления его влияния на переход объекта в состояние, соответствующее классу, т.е. как количественную оценку силы и направления причинно-следственной связи между ними.
Возникает вопрос о том, каким образом формально описать влияние на объект не отельных значений факторов, а всей их системы. Для того чтобы это сделать введем понятие частных критериев и интегрального критерия.
Частным критерием будем называть выраженное в количественной форме влияние отдельного значения фактора на переход объекта в различные состояния.
Это значит, что отношение условной вероятности наблюдения некоторого значения фактора в группе (классе) к безусловной вероятности его наблюдения по всей исследуемой выборке можно, рассматривать как частный критерий.
Тогда, если значение фактора способствует переходу объекта в некоторое состояние, то отношение условной вероятности наблюдения этого значения фактора в группе (классе), соответствующей данному состоянию, будет больше безусловной вероятности его наблюдения по всей исследуемой выборке и этот критерий будет иметь значение больше 1.
Если значение фактора препятствует переходу объекта в некоторое состояние, то отношение условной вероятности наблюдения этого значения фактора в группе (классе), соответствующей данному состоянию, будет меньше безусловной вероятности его наблюдения по всей исследуемой выборке и этот критерий будет иметь значение меньше 1.
Если же значение фактора никак не влияет на переход объекта в некоторое состояние, то отношение условной вероятности наблюдения этого значения фактора в группе (классе), соответствующей данному состоянию, будет равно безусловной вероятности его наблюдения по всей исследуемой выборке и этот критерий будет иметь значение равное 1.
Интегральным критерием будем называть некоторое аналитическое выражение от частных критериев, которое количественно отражает силу влияния системы факторов на переход объекта в различные состояния.
Моделируемый объект является линейным, если результат совместного действия на него совокупности факторов является суммой результатов влияния на него каждого из этих факторов в отдельности, т.е. выполняется принцип суперпозиции http://slovari.yandex.ru/~книги/БСЭ/Суперпозиции%20принцип/ факторов. Чем меньше интенсивность взаимодействия между факторами в объекте, тем ближе система факторов к множеству [29] и тем ближе объект к линейному. Таким образом, для линейных объектов можно обоснованно считать, что взаимодействие между факторами в этих объектах отсутствует, т.е. по сути можно считать, что на них действует не система факторов, а множество факторов.
Для линейных объектов интегральный критерий, отражающий совместное влияние факторов на объект, можно представить в форме суммы влияния каждого из этих факторов в отдельности, т.е. в форме суммы частных критериев, т.е. для линейных объектов оправданно и обоснованно использовать аддитивный интегральный критерий.
Приведенные выше количественные меры силы и направления причинно-следственных связей очень неудобны для использования подобных в качестве частных критериев, в основном потому, что в случае отсутствия влияния фактора они равны 1. В результате в аддитивном интегральном критерии будет присутствовать некое слагаемое, равное количеству недействующих факторов, и для каждого класса это слагаемое будет свое. В результате подобный интегральный критерий окажется просто непригодным для оценки влияния совокупности факторов на поведение объекта.
Поэтому эти частные критерии необходимо нормировать так, чтобы в случае отсутствия влияния он принимали значение равное нулю, а не единице. Есть много вариантов осуществить подобную нормировку, из которых наиболее очевидными являются:
- вычесть 1 из отношения условной вероятности к безусловной;
- взять логарифм от отношения условной вероятности к безусловной.
Первый вариант нормировки приводит к показателям типа ROI http://ru.wikipedia.org/wiki/ROI (количественная оценка степени полезности инвестиций) и различным его обобщениям.
Второй вариант сразу приводит к семантической мере целесообразности информации А.Харкевича. Из этих вариантов для количественной оценки степени полезности информации для достижения целей по мнению автора предпочтительным является применение меры А.Харкевича [2]. Это связано с тем, что использование логарифма в этой мере позволяет привлечь огромный пласт научных понятий, связанных с данными, информацией и знаниями, что является для нас очень ценным.
Очень важно, что этот подход позволяет автоматически решить проблему сопоставимой обработки многих факторов, измеряемых в различных единицах измерения, т.к. в этом подходе рассматриваются не сами факторы, какой бы природы они не были и какими бы шкалами не формализовались, а количество информации, которое в них содержится о поведении моделируемого объекта (таблица 10):
Таблица 10 - МАТРИЦА ИНФОРМАТИВНОСТЕЙ (БАЗА ЗНАНИЙ)
В МИЛЛИБИТАХ Использование миллибитов оправдано тем, что это позволяет лучше использовать разрядную сетку за счет отсутствия ведущего нуля и десятичной точки. (СИМ-2)
Код |
Наименование |
В группе: «Восток» |
В группе: «Запад» |
Дискрими- нантная сила признака |
|
1 |
ФОРМА ВАГОНА-U-образная |
-322 |
263 |
414 |
|
2 |
ФОРМА ВАГОНА-V-образная |
|
|
|
|
3 |
ФОРМА ВАГОНА-Овальная |
1000 |
|
707 |
|
4 |
ФОРМА ВАГОНА-Прямоугольная |
212 |
-248 |
325 |
|
5 |
ФОРМА ВАГОНА-Ромбовидная |
1000 |
|
707 |
|
6 |
ДЛИНА ВАГОНА-Длинный |
-170 |
152 |
228 |
|
7 |
ДЛИНА ВАГОНА-Короткий |
308 |
-392 |
495 |
|
8 |
КОЛИЧЕСТВО ОСЕЙ ВАГОНА-002 |
107 |
-115 |
157 |
|
9 |
КОЛИЧЕСТВО ОСЕЙ ВАГОНА-003 |
585 |
-1000 |
1121 |
|
10 |
ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 1/5-{30.00, 40.00} |
372 |
-503 |
618 |
|
11 |
ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 2/5-{40.00, 50.00} |
710 |
-1459 |
1534 |
|
12 |
ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 3/5-{50.00, 60.00} |
-1000 |
585 |
1121 |
|
13 |
ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 4/5-{60.00, 70.00} |
-1322 |
678 |
1414 |
|
14 |
ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 5/5-{70.00, 80.00} |
|
|
|
|
15 |
ВИД СТЕНОК ВАГОНА-Двойные |
415 |
-585 |
707 |
|
16 |
ВИД СТЕНОК ВАГОНА-Одинарные |
206 |
-241 |
316 |
|
17 |
ВИД КРЫШИ ВАГОНА-Гофрированная |
|
1000 |
707 |
|
18 |
ВИД КРЫШИ ВАГОНА-Овальная |
1000 |
|
707 |
|
19 |
ВИД КРЫШИ ВАГОНА-Отсутствует |
74 |
-78 |
107 |
|
20 |
ВИД КРЫШИ ВАГОНА-Прямая |
515 |
-807 |
935 |
|
21 |
ВИД КРЫШИ ВАГОНА-Треугольная |
1000 |
|
707 |
|
22 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 длинный прямоугольник |
-585 |
415 |
707 |
|
23 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 квадрат |
1000 |
|
707 |
|
24 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 овал |
-222 |
193 |
293 |
|
25 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 перевернутый треугольник |
1000 |
|
707 |
|
26 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 прямоугольник |
-585 |
415 |
707 |
|
27 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 ромб |
1000 |
|
707 |
|
28 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 треугольник |
515 |
-807 |
935 |
|
29 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-2 овала |
1000 |
|
707 |
|
30 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-2 прямоугольника |
|
1000 |
707 |
|
31 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-3 квадрата |
1000 |
|
707 |
|
32 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-3 овала |
|
1000 |
707 |
|
33 |
ВИД ГРУЗА (КОЛ-ВО И ВИД)-Отсутствует |
|
1000 |
707 |
|
34 |
КОЛИЧЕСТВО ВАГОНОВ В СОСТАВЕ-2 |
|
1000 |
707 |
|
35 |
КОЛИЧЕСТВО ВАГОНОВ В СОСТАВЕ-3 |
585 |
-1000 |
1121 |
|
36 |
КОЛИЧЕСТВО ВАГОНОВ В СОСТАВЕ-4 |
415 |
-585 |
Подобные документы
База знаний - структурированная информация из области знаний для использования кибернетическим устройством (человеком). Классификация, структура, формат представления знаний, интеллектуальные системы поиска информации. Базы знаний на примере языка Пролог.
презентация [51,3 K], добавлен 17.10.2013Изучение фреймового способа представления знаний, его специфики и основных характеристик. Обзор других методов представления знаний, их плюсы и минусы. Иерархическая структура данных фрейма. Механизм управления выводом с помощью присоединенной процедуры.
реферат [2,6 M], добавлен 22.12.2014Сущность данных и информации. Особенности представления знаний внутри ИС. Изучение моделей представления знаний: продукционная, логическая, сетевая, формальные грамматики, фреймовые модели, комбинаторные, ленемы. Нейронные сети, генетические алгоритмы.
реферат [203,3 K], добавлен 19.06.2010Изучение в реальных условиях способов представления знаний во Всемирной сети. Представления данных в интернет и способы эффективной публикации данных. Конфигурация Web-сервера на виртуальном хостинге. Настройка и отладка работы сайтов на разных CMS.
отчет по практике [947,2 K], добавлен 09.02.2012Основные модели представления знаний. Системы поддержки принятия решений. Диаграмма UseCase. Разработка базы данных на основе трех моделей: продукционные правила, семантическая сеть, фреймовая модель. Программная реализация системы принятия решений.
курсовая работа [715,1 K], добавлен 14.05.2014Проблема представления знаний. Представление декларативных знаний как данных, наделенных семантикой. Представление процедурных знаний как отношений между элементами модели, в том числе в виде процедур и функций. Представление правил обработки фактов.
курсовая работа [33,1 K], добавлен 21.07.2012Классы и группы моделей представления знаний. Состав продукционной системы. Классификация моделей представления знаний. Программные средства для реализации семантических сетей. Участок сети причинно-следственных связей. Достоинства продукционной модели.
презентация [380,4 K], добавлен 14.08.2013Представление знаний в когнитологии, информатике и искусственном интеллекте. Связи и структуры, язык и нотация. Формальные и неформальные модели представления знаний: в виде правил, с использованием фреймов, семантических сетей и нечетких высказываний.
контрольная работа [29,9 K], добавлен 18.05.2009Определения знаний и приобретения знаний человеком. Виды знаний и способы их представления. Приобретение и извлечение знаний. Визуальное проектирование баз знаний как инструмент обучения. Программное обеспечение для проведения лабораторных работ.
дипломная работа [960,9 K], добавлен 12.12.2008Анализ процессов диагностики повреждений трубопровода. Разработка модели продукционной базы знаний: обзор методов представления знаний, описание создания базы знаний и разработки механизма логического вывода. Экономическое обоснование концепции проекта.
дипломная работа [3,0 M], добавлен 16.04.2017