Упорядочение и классификация объектов с противоречивыми признаками
Множество с повторяющимися элементами как удобная математическая модель для представления объектов, которые характеризуются многими разнородными признаками. Методы упорядочения объектов, основанных на теории метрических пространств мультимножеств.
Рубрика | Экономико-математическое моделирование |
Вид | статья |
Язык | русский |
Дата добавления | 17.01.2018 |
Размер файла | 78,6 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Наиболее общим определением класса является следующее: класс - это совокупность (семейство) объектов, обладающих общими свойствами. Информация о свойствах объекта может быть получена путем наблюдений, измерений, оценок и тому подобное и представлена совокупностью признаков, значения которых выражаются в числовых и/или вербальных шкалах. Входящие в один и тот же класс объекты считаются неразличимыми (эквивалентными), а каждый класс объектов характеризуется некоторым качеством, отличающим его от других классов. Все классы вместе должны составлять исходную совокупность объектов.
Свойство сходства и различимости объектов, относящихся к одному и тому же классу, широко используется при построении различных методов классификации. Так, например, в ряде методов сортировки объектов, основанных на теориях нечетких [16], [17] и грубых [18] множеств, допускается неоднозначность классификации объектов, связанная с разной степенью принадлежности объекта к классу, то есть объекты, которые «несомненно» и «возможно» принадлежат к некоторому классу, считаются различающимися.
Процедура классификации объектов в рамках формальной логики может быть описана как совокупность (последовательность) решающих правил, которые представляются выражениями вида:
ЕСЛИ условия, ТО решение. (10)
При прямой классификации терм условия включает названия объектов или перечень значений признаков, описывающих объекты класса, что часто считается эквивалентным. При непрямой классификации один или несколько термов условия конструируются как отношения между различными признаками и/или их значениями. Терм решение в обоих случаях означает, что объект принадлежит к определенному классу. Заметим, что подобным же образом формируются базы знаний экспертных систем продукционного типа.
При достаточно небольшом числе классифицируемых объектов и признаков, их описывающих, семейство решающих правил легко обозримо и доступно для анализа. Чем больше количество рассматриваемых объектов и разнообразнее решающее правила их классификации, тем труднее становится анализ этих правил. Могут существовать различные причины, обусловливающие неоднозначность классификации, к примеру, если объекты сортируются разными экспертами. Эксперты могут относить сильно различающиеся объекты в один и тот же класс, а объекты со сходными значениями признаков - в разные классы. Несогласованность индивидуальных решающих правил может быть вызвана неоднозначностью понимания экспертами решаемой задачи, ошибками или неточностями, допущенными экспертами при первоначальной классификации объектов, субъективным различием решающих правил, используемых разными экспертами, специфичностью знаний самих экспертов, нетранзитивностью отдельных экспертных суждений и многими другими причинами. В итоге может появиться семейство решающих правил, среди которых будут одинаковые, сходные, различающиеся и противоречивые правила.
В этом случае возникает проблема: построить такое обобщенное решающее правило или небольшую группу правил, которые наилучшим (в некотором смысле) образом аппроксимируют совокупность всех индивидуальных правил сортировки объектов, включают минимальный набор признаков и относят объекты в заданные классы с допустимой точностью.
Аппроксимация индивидуальных правил сортировки. Перейдем к формальной постановке задачи аппроксимации большого числа правил сортировки многопризнаковых объектов компактным набором простых решающих правил. Пусть A ={A1,...,Ak} - совокупность объектов, которые описываются m дискретными признаками Q1,…,Qm, имеющими качественные значения. Каждая группа признаков Qs={}, es=1,…,hs, s=1,…,m отражает содержательное качество объектов, например, может быть значением показателя, характеризующего какое-либо свойство объекта, или оценкой объекта по критерию, и тому подобное. Объекты Ai, i=1,…,k предварительно рассортированы по нескольким классам Xt, t=1,…,f путем прямой классификации. Принадлежность объекта Ai к некоторому классу Xt выражается правилом сортировки R, которое может считаться еще одним качественным признаком со шкалой значений R={rt}. Любой объект Ai может существовать в n экземплярах, которые отличаются наборами признаков, его характеризующих. Однако в описании каждого экземпляра объекта присутствует только одно какое-то значение признака из каждой группы Q1,…,Qm,R. Других дополнительных предположений об особенностях классов, признаков объектов и их значений (важности, предпочтительности, характерности, упорядоченности и прочее) не делается. Требуется построить одно или несколько решающих правил, составленных из небольшого числа значений признаков, которые относили бы объекты к заданным классам наилучшим (в смысле близости к предварительной сортировке) образом. Само понятие близости также должно быть определено.
Сопоставим каждый многопризнаковый объект с мультимножеством вида, аналогичного выражению (1)
Ai = {(kAi()*), (kAi(rt)*rt)} (11)
над доменом G={Q1,…,Qm,R}. Запись объекта Ai в таком виде может трактоваться как еще один способ выражения индивидуальных правил сортировки (10). А именно: терм условия ассоциируется тогда с различными комбинациями значений признаков , описывающими свойства объекта Ai, а терм решение - с принадлежностью объекта Ai к классу Xt. В терм решение входит также некоторое правило, позволяющее говорить о принадлежности объекта Ai к какому-то определенному классу Xt. Это может быть, например, правило простого большинства голосов, в соответствии с которым объект Ai будет считаться принадлежащим к классу Xt, если kAi(rt)kAi(rp) для всех pt, или правило квалифицированного большинства голосов, по которому должно выполняться условие kAi(rt)pt kAi(rp), или любое другое правило. При этом предполагается, что каждый объект оценивается всеми n экспертами.
Вся совокупность объектов A ={A1,...,Ak}, представленных мультимножествами (11), порождает семейство первичных решающих правил сортировки. Правила совпадают или являются похожими, когда различные объекты с идентичными или схожими (близкими) значениями признаков включаются в один класс. Противоречивые правила относят слабо различимые объекты в разные классы.
Для простоты будем считать, что результатом классификации должно быть разложение совокупности объектов A только на два класса Xa и Xb. Требование бинарной декомпозиции A ={Xa, Xb} не является принципиальным ограничением. Если необходимо рассортировать объекты на большее число классов, можно сначала разбить совокупность объектов на две группы, затем одну из них или обе группы - на подгруппы, и так далее. Например, заявки можно разделить на принятые и отклоненные, отклоненные заявки - на отложенные для дальнейшей доработки и окончательно не принятые, и так далее.
Рассмотрим наиболее простой и типичный случай, когда все группы объектов формируются как суммы соответствующих им мультимножеств. Тогда каждое из мультимножеств Xt, t=a,b, представляющее свой класс объектов, можно записать в виде следующего разложения на мультимножества по группам признаков:
Xt = (12)
где каждое слагаемое есть в свою очередь разложение
подмножества индексов =It и Irt=IrIt; It - подмножество индексов i для объектов Ai, имеющих функции кратности kAi(rt)ptkAi(rp) или kAi(rt)kAi(rp),pt; - подмножество индексов i для объектов Ai, имеющих kAi()0, kAi()=0, vs, kAi(rt)=0; Ir - подмножество индексов i для объектов Ai, имеющих kAi(rt)0, kAi()=0. Так как каждый экземпляр объекта Ai может обладать только единственными значениями kAi() и kAi(rt) из каждой группы признаков Qs и R, то выполняются следующие условия для мощностей мультимножеств:
|Qsa| + |Qsb| = k, |Ra| + |Rb| = k, |Xa| + |Xb| = k(m+1)
где, напомним, k равно числу объектов, а m - числу групп признаков.
Очевидно, что объекты Ai, которые попали в разложение {Ra, Rb}, сделанное только по правилам сортировки, образуют наилучшую из всех возможных декомпозиций рассматриваемой совокупности объектов A ={A1,...,Ak} на два класса для имеющегося набора первичных правил сортировки. Обозначим через d*=d(Ra, Rb) расстояние между мультимножествами Ra и Rb в метрическом пространстве мультимножеств (A, d) с метрикой d, определяемой одним из выражений (2) или (5). В каждой конкретной задаче классификации расстояние d* является предельно возможным расстоянием между объектами, входящими в разные классы. При идеальной предварительной сортировке объектов противоречия в индивидуальных правилах отсутствуют. В этом случае максимально возможное расстояние в метрическом пространстве мультимножеств (A , d), на котором могут находиться объекты, принадлежащие разным классам, будет равно соответственно d1*=kn, d2*=1/h, d3*=1. Здесь n есть число индивидуальных правил сортировки, приходящихся на один объект, совпадающее, в частности, с числом экспертов, h - общее число значений всех признаков, описывающих объекты, равное для задачи классификации h=h1+...+hm+f.
Сформулируем теперь основную идею нахождения обобщенного решающего правила, аппроксимирующего большое семейство противоречивых правил сортировки многопризнаковых объектов. Для каждой группы признаков Qs нужно сгенерировать пары новых мультимножеств таким образом, чтобы мультимножества внутри каждой пары были удалены друг от друга в метрическом пространстве (A , d) как можно больше и с достаточной точностью совпадали с первоначальной сортировкой объектов по классам Xa и Xb, заданной разложением {Ra, Rb}. Разные комбинации признаков, определяющих границы между сгенерированными мультимножествами внутри каждой пары, дадут желаемые обобщенные решающие правила для классификации объектов.
Решение задачи аппроксимации решающих правил для классификации многопризнаковых объектов сводится, таким образом, к решению m оптимизационных задач вида
d(Qsa, Qsb) max d(Qsa, Qsb) = d(Qsa*, Qsb*) (13)
где мультимножества Qsa* и Qsb* принадлежат к разным классам и находятся на максимально возможном расстоянии в метрическом пространстве мультимножеств (A , d). Решение каждой из задач (13) является наилучшей бинарной декомпозиций {Qsa*, Qsb*} имеющейся совокупности многопризнаковых объектов A ={A1,...,Ak} по s-ой группе признаков. Когда число hs значений каждого из признаков невелико (hs=25), решение задачи (13) не вызывает существенных трудностей и может быть получено даже путем простого перебора.
Каждое мультимножество Qst* (t=a,b), относящееся к одному и тому же классу, представляет собой сумму двух подмультимножеств Qst* = Qst*1 + Qst*2. Значение признака qs*, которое определяет границу между слагаемыми Qst*1 и Qst*2, назовем аппроксимирующим признаком. Комбинации аппроксимирующих признаков {qs*} для разных номеров s групп признаков Qs задают условия отнесения объекта Ai к соответствующему классу Xt и образуют в совокупности искомые обобщенные правила классификации объектов вида (11).
Аппроксимирующие признаки qs* для различных групп признаков можно упорядочить по величине расстояния d(Qsa*, Qsb*). Для построения обобщенных правил классификации следует использовать признаки qs*, занимающие первые места в такой ранжировке. Чем ближе значения расстояний d(Qsa*, Qsb*) к расстоянию d*=d(Ra, Rb), тем более точной будет аппроксимация первоначальной индивидуальной сортировки объектов. Оценить точность аппроксимации по s-ой группе признаков можно, например, выражением
s = d(Qsa*, Qsb*)d(Ra, Rb) (14)
В обобщенное решающее правило должны тогда включаться аппроксимирующие признаки qs*, имеющие показатель точности s, превышающей некоторый желаемый пороговый уровень 0. Заметим, что величина s показателя точности аппроксимации характеризует в определенном смысле относительную важность s-ой группы признаков Qs в обобщенном правиле классификации.
Конкурсный отбор проектов. Соотношения между совокупностью объектов A ={A1,...,Ak} и множеством их признаков G={x1,...,xh} удобно выражать с помощью матрицы C=||cij||kh, которая часто используется в анализе данных, теории принятия решений, распознавании образов, других приложениях и называется таблицей «объекты-признаки», информационной таблицей или таблицей решений [2], [18]. Строки этой матрицы соответствуют объектам, столбцы - признакам, а элементы матрицы являются значениями признаков. Таким образом, каждая строка матрицы C характеризует свойства рассматриваемого объекта, а каждый столбец дает информацию об объектах, обладающих данным свойством. Свойства совокупности A ={A1,...,Ak} многопризнаковых объектов Ai, представленных мультимножествами, и их принадлежность к некоторому классу решений Xt также можно описать с помощью таблиц решений. В исходной таблице решений C=||cij||kh, элементы которой задаются как cij =kAi(xj), xj=,rt, каждая строка является аргументом выражения (11). Разложению совокупности объектов A на два класса Xa и Xb, которые задаются формулой (12), соответствует преобразованная таблица решений C'=||kXt'(xj)||2h, состоящая из двух строк kXa'(xj) и kXb'(xj). Матрицы C и C' состоят из 2(m+1) блоков, которые соответствуют мультимножествам признаков Qsa, Qsb и решений Ra, Rb.
Процедура построения обобщенного решающего правила для классификации многопризнаковых объектов включает следующие основные этапы.
Шаг 1. Построить таблицу решений C=||kAi(xj)||kh для рассматриваемой совокупности многопризнаковых объектов A ={A1,...,Ak}, строки которой соответствуют мультимножествам Ai вида (11).
Шаг 2. Объединить объекты Ai, относящиеся к заданным классам Xa и Xb, воспользовавшись формулами (12). Получить преобразованную таблицу решений C'=||kXt'(xj)||2h, строки которой соответствуют мультимножествам Xa и Xb.
Шаг 3. Решить задачу оптимизации (13) для каждого бинарного разложения {Qsa*, Qsb*} по s-ой группе признаков Qs и найти аппроксимирующий признак qs* в каждом s-ом блоке преобразованной матрицы C'.
Шаг 4. Проранжировать аппроксимирующие признаки qs* по убыванию величины расстояния d*=d(Ra, Rb) или показателя точности s (14).
Шаг 5. Выбрать аппроксимирующие признаки qs*, которые обеспечивают необходимую точность аппроксимации s0, и сформировать из них обобщенное решающее правило для классификации многопризнаковых объектов. _
Проиллюстрируем предложенный подход к построению обобщенного решающего правила для классификации многопризнаковых объектов, которое аппроксимирует большое число противоречивых правил сортировки, на примере конкурсного отбора проектов для формирования государственной научно-технической программы по высокотемпературной сверхпроводимости [14]. Каждая представленная на конкурс заявка независимо оценивалась 3 экспертами по 6 качественным критериям, которые давали также свое заключение по принятию или отклонению заявки. Всего было подано более 250 заявок и около 170 из них было отобрано для включения в программу.
Приведем некоторые данные, иллюстрирующие рассматриваемый пример: часть решающей таблицы C=||kAi(xj)||kh, характеризующей поданные на конкурс проекты Ai; преобразованная решающая таблица C'=||kXt'(xj)||2h, соответствующая классам принятых Xa и отклоненных Xb проектов; значения расстояний между бинарными разложениями d1(Qsa*,Qsb*) и d1(Ra,Rb) в пространстве мультимножеств (A , d1) с метрикой (5) при ws=1; значения показателей точности s для аппроксимирующих признаков qs* по каждому s-ому блоку матрицы.
Объекты / Признаки
q11 q12 q13 |
q21 q22 q23 |
q31 q32 q33 |
q41 q42 q43 q44 |
q51 q52 q53 q54 |
q61 q62 q63 |
ra rb |
||
A1 … Ai |
1 2 0 1 1 1 |
2 1 0 0 2 1 |
3 0 0 1 2 0 |
2 1 0 0 0 2 1 0 |
0 2 1 0 0 1 2 0 |
2 1 0 0 0 3 |
3 0 2 1 |
|
Ai+1 … Ak |
1 1 1 0 2 1 |
0 2 1 0 1 2 |
1 2 0 0 3 0 |
0 2 1 0 0 1 1 1 |
0 1 2 0 0 0 2 1 |
0 0 3 0 3 0 |
1 2 0 3 |
Классы / Признаки
q11 q12 q13 |
q21 q22 q23 |
q31 q32 q33 |
q41 q42 q43 q44 |
q51 q52 q53 q54 |
q61 q62 q63 |
ra rb |
||
Xa Xb |
144 360 21 45 156 51 |
81 324 120 27 93 132 |
99 336 90 36 111 105 |
219 297 9 0 51 132 63 6 |
72 435 18 0 60 147 30 15 |
126 300 99 45 135 72 |
510 15 78 174 |
|
d1 s |
333 0,563 |
297 0,503 |
303 0,517 |
393 0,665 |
327 0,553 |
273 0,462 |
591 |
Принятые проекты A1-Ai входят в класс Xa, отклоненные проекты Ai+1-Ak относятся к классу Xb. Обратим внимание читателя, что хотя проекты Ai и Ai+1 имеют одинаковые значения оценок {qs} по всем признакам, но наборы их индивидуальных правил сортировки не совпадают, и поэтому AiXa, а Ai+1Xb. Множество аппроксимирующих признаков qs*, упорядоченное по величине расстояния d1(Qsa*,Qsb*), выглядит следующим образом:
{qs*} = {q41, q42; q11, q12; q51, q52; q31, q32; q21, q22} (15)
Заметим, что задача (13) не имеет оптимального решения по критерию Q6, то есть любое значение признака q6 является неаппроксимирующим. Выбрав некоторое желаемое значение точности аппроксимации 0, получим следующие обобщенные решающие правила для отбора проектов.
«Исполнители проекта должны быть одними из лучших или обладать опытом и квалификацией, достаточными для проведения работ» (оценки q41 или q42; точность аппроксимации s0,66).
«Проект должен быть крайне важным или важным для достижения одной из основных целей программы; исполнители проекта должны быть одними из лучших или обладать опытом, квалификацией и материально-техническими ресурсами, достаточными для проведения работ» (оценки q41 или q42; и q11 или q12; и q51 или q52; точность аппроксимации s0,55).
Отметим, что последнее правило полностью совпадает с решающим правилом для отбора проектов, приведенным ранее в работе [14]. Обобщенное решающее правило классификации объектов позволяет также выявить расхождения в индивидуальных правилах сортировки, применявшихся экспертами, и при необходимости скорректировать их. Ранжирование (15) аппроксимирующих признаков по величине расстояния d1 показывает, что наиболее важным для отбора проектов оказывается критерий Q4, характеризующий опыт и квалификацию исполнителей, а следующими по важности - критерии Q1, оценивающий важность проекта для достижения целей программы, и Q5, отражающий ресурсное обеспечение работ.
Заключение
Проблемы классификации и упорядочения объектов, которые описываются многими количественными и качественными признаками, причем каждый из объектов может существовать в нескольких различающихся, но равноправных «экземплярах», являются достаточно трудными. Эти трудности имеют и содержательные основания (например, некорректность применения процедур «усреднения» качественных признаков), и формальные причины (например, противоречивость данных, большая размерность задачи). Главные из перечисленных трудностей оказалось возможным преодолеть благодаря использованию нового теоретического инструментария, основанного на понятии мультимножества. Применение теории мультимножеств позволяет разрабатывать новые методы анализа данных и решения новых классов задач, которые не содержат необоснованных преобразований исходной информации и не приводят к потере или искажению данных.
Литература
[1]. О.И.Ларичев, Е.М.Мошкович. Качественные методы принятия решений. Вербальный анализ решений. - М.: Наука, Физматлит, 1996.
[2]. Б.Г.Миркин. Анализ качественных признаков и структур. - М.: Статистика, 1980.
[3] Л.Г.Евланов. Теория и практика принятия решений. - М.: Экономика, 1984.
[4]. В.Д.Ногин. Принятие решений в многокритериальной среде: количественный подход. - М.: Физматлит, 2002.
[5]. А.Б.Петровский. Метрические пространства мультимножеств.//Доклады Академии наук, 1995, Т.344, №2, 175-177.
[6]. А.Б.Петровский. Основные понятия теории мультимножеств. - М.: Едиториал УРСС, 2002.
[7]. Ю.И.Журавлев. Корректные алгебры над множествами некорректных (эвристических) алгоритмов.I,II,III.//Кибернетика, 1977, №4, 14-21; 1977, №6, 21-27; 1978, №2, 35-43.
[8]. Ю.Н.Тюрин. Экспертная классификация.//Экспертные методы в современных исследованиях. Сборник трудов. - М.: ВНИИСИ, 1979, 5-15.
[9]. J.G.Kemeni, J.L.Snell. Mathematical models in the social sciences. - Ginn, Boston, 1962. (Дж.Кемени, Дж.Снелл. Кибернетическое моделирование./Пер. с англ. - М.: Советское радио, 1972).
[10]. Б.Г.Литвак. Экспертная информация: методы получения и анализа. - М.: Радио и связь, 1982.
[11]. B.Roy. Multicriteria methodology for decision aiding. - Kluwer Academic Publishers, Dordrecht, 1996.
[12]. А.В.Литвинова. Упорядочивание многопризнаковых объектов на основе теории мультимножеств.//Дипломная работа на соискание степени магистра. Московский физико-технический институт (государственный университет), М., 2002.
[13]. Кто в России самый интеллектуальный? Рейтинг ведущих российских разработчиков высоких технологий.//Компания, 2000, №47(143), 38-39.
[14]. О.И.Ларичев, А.С.Прохоров, А.Б.Петровский, М.Ю.Стернин, Г.И.Шепелев. Опыт планирования фундаментальных исследований на конкурсной основе.//Вестник АН СССР, 1989, №7, 51-61.
[15]. А.А.Дорофеюк. Алгоритмы автоматической классификации.//Автоматика и телемеханика, 1971, №12, 78-113.
[16]. С.А.Орловский. Проблемы принятия решений при нечеткой исходной информации. - М.: Наука, 1981.
[17]. H.J.Zimmerman, L.A.Zadeh, B.R.Gaines. Fuzzy sets and decision analysis. - North-Holland, Amsterdam, 1984.
[18]. Z.Pawlak, R.Slowinsky. Rough set approach to multi-attribute decision analysis.//European Journal of Operational Research, 1994, №72, 443-459.
Размещено на Allbest.ru
Подобные документы
Понятие и цели метода фокальных объектов - поиска новых идей путем присоединения к исходному объекту свойств или признаков случайных объектов. Активизация ассоциативного мышления как один из способов эвристического исследования в теории принятия решений.
контрольная работа [19,5 K], добавлен 24.12.2012Основы математического моделирования детерминированных и стохастических объектов. Идентификация объектов управления по переходной характеристике. Получение модели методом множественной линейной регрессии и проверка ее адекватности по критерию Фишера.
курсовая работа [1,1 M], добавлен 14.10.2014Раскрытие содержания математического моделирования как метода исследования и прогнозирования развития объектов народного хозяйства. Алгоритмы, модели и функции процедуры Эйткена. Оценивание ковариационной матрицы вектора при оценке объектов недвижимости.
статья [56,4 K], добавлен 14.10.2012Понятие корреляционной связи. Связь между качественными признаками на основе таблиц сопряженности. Показатели тесноты связи между двумя количественными признаками. Определение коэффициентов уравнения линейной регрессии методом наименьших квадратов.
контрольная работа [418,7 K], добавлен 22.09.2010Методы построения имитационных моделей экономических объектов. Проведение анализа по результатам численных экспериментов на имитационной модели оптового магазина. Выявление закономерностей, которые помогут в проведении кадровой политики предприятия.
курсовая работа [389,0 K], добавлен 28.11.2010Понятие простой экспертизы. Экспертное оценивание важности объектов. Усреднение экспертных оценок. Попарное сравнение объектов. Сложные экспертизы, метод дерева целей. Общие требования при структурировании проблемы. Применение метода анализа иерархий.
контрольная работа [241,5 K], добавлен 14.02.2011Интервальная оценка показателей безотказности. Формулировка закона надёжности по полностью определённым и цензурированным выборкам. Планы наблюдения за эксплуатацией энергетических объектов. Планирование сроков и объемов технического обслуживания объекта.
презентация [1,2 M], добавлен 23.04.2014Потенциальная возможность математического моделирования любых экономических объектов и процессов. Методы минимизации, связанные с вычислением градиента. Суть метода градиентного спуска. Анализ симплекс-таблицы. Построение экономико-математической модели.
курсовая работа [998,7 K], добавлен 01.10.2011Разработка программной системы, моделирующей продажу автобусных билетов, ее структура, объектно-ориентированный анализ; построение UML-диаграммы: прецедентов, деятельности объектов. Создание классов: свойства, методы, состояние; интерфейс пользователя.
реферат [186,9 K], добавлен 04.02.2011Классификация систем по степени сложности и обусловленности действия, по происхождению и характеру поведения. Составление анкеты для получения экспертных оценок. Построение дерева целей и аттестация сотрудников. Метод экспортных оценок и задачи программ.
контрольная работа [85,4 K], добавлен 18.11.2011