Разработка и исследование гибридной схемы формирования нечеткого классификатора с использованием коэволюционного алгоритма

Изучение метода генерирования нечеткого классификатора на ряде практических задач классификации. Гибридизация Питтсбургского метода на основе применения Мичиганского метода как оператора мутации. Коэволюционный метод обучения алгоритмических композиций.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 19.01.2018
Размер файла 16,0 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

РАЗРАБОТКА И ИССЛЕДОВАНИЕ ГИБРИДНОЙ СХЕМЫ ФОРМИРОВАНИЯ НЕЧЕТКОГО КЛАССИФИКАТОРА С ИСПОЛЬЗОВАНИЕМ КОЭВОЛЮЦИОННОГО АЛГОРИТМА

Р.Б. Сергиенко

Сибирский государственный аэрокосмический университет им. ак. М.Ф. Решетнёва, Красноярск

Предлагается новый метод генерирования нечеткого классификатора, объединяющий два основных подхода к проектированию нечетких систем эволюционными алгоритмами - Питтсбургский и Мичиганский. Для автоматической настройки параметров эволюционного алгоритма предлагается коэволюционный подход. Проведены исследования метода генерирования нечеткого классификатора на ряде практических задач классификации.

Нечеткий классификатор [Ishibuchi, 1999] - алгоритм классификации, основанный на извлечении нечетких правил из массивов данных.

При использовании нечеткого классификатора как инструмента извлечения знаний предпочтительнее получать базы нечетких правил с небольшим числом правил и минимальным числом условий в предикатной части правил. В [Ishibuchi, 2001] задача генерации нечеткого классификатора формулируется как многокритериальная задача оптимизации с тремя критериями: максимизация надежности классификации, минимизация числа правил в базе, минимизация среднего числа условий в предикатной части нечетких правил.

Распространенным методом генерации нечетких баз правил является использование для этой цели эволюционных (в частности, генетических) алгоритмов. Существует два основных подхода в использовании генетических алгоритмов (ГА) в задачах конструирования нечетких систем: Питтсбургский и Мичиганский [Cordуn, 2001]. В Мичиганском методе индивиды генетического алгоритма представляют собой отдельные правила, в Питтсбургском - базу нечетких правил в целом. Недостаток Мичиганского метода - противоречие между целевой функции для индивидов и эффективностью базы правил в целом. Питтсбурсгкий метод лишен этого недостатка, однако требует значительных вычислительных ресурсов - размерность решаемой задачи оптимизации возрастает многократно. Поэтому гибридизация Питтсбургского и Мичиганского методов в задачах генерации нечетких систем является актуальной научно-технической задачей. Например, в [Ishibuchi, 2000] предлагается гибридизация Питтсбургского и Мичиганского методов на основе использования Мичиганского метода как оператора мутации в реализации Питтсбургского подхода.

В данной работе предлагается новый метод комбинирования Мичиганского и Питтсбургского подходов генерации нечеткого классификатора, состоящий из двух последовательных стадий. На первой стадии осуществляется поиск множества нечетких правил с высоким доверительным уровнем. На второй стадии из найденного на предыдущем этапе множества формируется база правил ограниченного объема с максимальной надежностью классификации.

На обоих стадиях генерирования нечеткого классификатора предлагается применять коэволюционный алгоритм для адаптации поисковой стратегии генетического алгоритма [Емельянова, 2004]. Данный подход позволяет решить трудоемкую задачу выбора оптимальных настроек ГА.

Разработанная гибридная схема генерирования нечеткого классификатора апробирована на решении ряда практических задач классификации из репозитория UCI MachineLearning. Приводятся результаты работы алгоритма. Кроме того, приводится сравнение нечеткого классификатора с другими алгоритмами классификации.

1. Новая схема гибридизации Мичиганского и Питтсбургского методов в формировании нечеткого классификатора

В [Ishibuchi, 2001] задача генерирования нечеткого классификатора эволюционными алгоритмами сформулирована в виде трехкритериальной задачи оптимизации (критерии - надежность классификации, число правил, суммарная длина правил). В работе предлагается использование Питтсбургского подхода с использованием Мичиганского метода в качестве оператора мутации [Ishibuchi, 2000]. Недостатками предлагаемой схемы являются: алгоритмическая и вычислительная сложность реализации многокритериальной оптимизации, отсутствие строго формализованного метода отбора правил для «стартовой» базы; (в [Ishibuchi, 2001] предлагается, например, отбор только правил с незначительной длиной предикатной части - их число существенно меньше общего числа всех возможных правил - однако, данный подход не является целесообразным для всех задач), отсутствие этапа строго направленного улучшения стартовых правил (за исключением оператора мутации).

В данной работе предлагается новая схема генерирования нечеткого классификатора, включающего три основных этапа: формализованная процедура отбора стартовых правил с использованием априорной информации из обучающей выборки, этап улучшения стартовых правил Мичиганским методом (задача однокритериальной безусловной оптимизации), этап сокращения найденного множества правил Питтсбургским методом (задача однокритериальной условной оптимизации). Рассмотрим этапы более подробно.

Формирование начальной популяции для Мичиганского этапа. Данная операция очень важна, т.к. случайное генерирование правил для начального заполнения популяции неприемлемо - при значительном числе информативных признаков в задаче классификации вероятность случайной генерации правила, которому соответствовал хотя бы один элемент из обучающей выборки, становится крайне малой. Эта проблема становится существенной уже при размерности четыре и выше. Поэтому необходимо использовать априорную информацию из обучающей выборки. Процедура формирования начальной популяции в таком случае выглядит следующим образом.

Пусть n - число нечетких правил, необходимое для заполнения популяции для Мичиганского этапа генерирования, k - число классов, l - число информативных признаков в задаче классификации. Последовательность шагов:

1) вычислить m = int (n/k);

2) отсортировать элементы обучающей выборки по номеру класса в порядке возрастания и определить границы для каждого класса в отсортированном массиве;

3) от i:=1 до k

от j:=1 до m

выполнить случайный выбор элемента класса iиз обучающей выборки;

от t:=1 до l

определить ближайший центр нечеткого числа по признаку t;

назначить соответствующее нечеткое число в нечеткое правило;

изменить нечеткое число на терм «игнорирование» с вероятностью 0,33;

4) заполнить популяцию сгенерированными нечеткими правилами.

Мичиганский этап генерирования нечеткого классификатора. Индивиды представляют собой отдельные нечеткие правила. Длина хромосомы равна числу информативных признаков, каждый ген - число от 1 до 6, соответствующее нечеткому числу. Функция пригодности индивидов - доверительный уровень правила, вычисляемая по обучающей выборке [Ishibuchi, 1999]. Используется генетический алгоритм безусловной оптимизации. Модифицирован метод формирования нового поколения. Среди родителей и потомков для каждого класса отбирается необходимое число неповторяющихся правил с наибольшим значением пригодности (отбор с вытеснением для каждого отдельного класса). Такой метод обеспечивает поддержание разнообразия правил для каждого отдельного класса и разнообразие классов в популяции. На каждом поколении вычисляется надежность классификации по обучающей выборке множества правил в целом. Популяция с наибольшей надежностью классификации используется на следующей стадии генерирования нечеткого классификатора.

Питтсбургский этап генерирования нечеткого классификатора. Индивиды представляют собой базу нечетких правил целиком. Длина хромосомы равна числу правил, найденных на Мичиганском этапе. Хромосомы бинарные, бит «1» означает использование соответствующего нечеткого правила, найденного на предыдущем этапе, бит «0» - исключение правила из базы. Пригодность - надежность классификации базы правил. Вводится ограничение на максимально допустимое число правил, используемых в базе. Используется генетический алгоритм условной оптимизации.

2. Коэволюционный алгоритм для автоматизации выбора настроек генетического алгоритма при формировании нечеткого классификатора

Одна из важнейших проблем в использовании эволюционных алгоритмов (в т.ч. для генерирования нечетких систем) - проблема выбора настроек параметров алгоритма. Существует большое число возможных комбинаций параметров генетического алгоритма (селекции, мутации, скрещивания и некоторых других). Эффективность одной и той же настройки на разных задачах и различных настроек на одной и той же задаче может изменяться в очень широком диапазоне. Поэтому выбор настроек наугад является неприемлемым, так как многие комбинации параметров алгоритма оказываются неработоспособными, а тщательная настройка под новую задачу является чрезмерно трудоемкой. Данная проблема становится особенно актуальной на вычислительно затратных задачах машинного обучения, к которым относится формирование нечеткого классификатора.

Для решения указанной проблемы предлагается использование так называемого коэволюционного алгоритма, представляющего собой группу стандартных генетических алгоритмов, конкурирующих и взаимодействующих между собой. Кооперация и конкуренция между алгоритмами обеспечивает эффективность, превосходящую эффективность алгоритма со средними настройками на задачах безусловной однокритериальной оптимизации [Емельянова, 2004] и превосходящую эффективность алгоритма с наилучшими настройками на задачах условной однокритериальной оптимизации [Сергиенко, 2009]. Таким образом, отпадает необходимость в ручном выборе настроек генетического алгоритма. На Мичиганском этапе формирования нечеткого классификатора используется коэволюционный алгоритм безусловной оптимизации, на Питтсбургском этапе - условной оптимизации.

3. Результаты исследований на практических задачах

Для апробации гибридной схемы генерирования нечеткого классификатора с использованием коэволюционного алгоритма были взяты следующие практические задачи классификации из репозиторияUCIMachineLearning (http://kdd.ics.uci.edu/):

Credit (Australia-1) (задача о выдаче банковского кредита, австралийский вариант, 14 признаков, 2 класса);

Credit (Germany) (задача о выдаче банковского кредита, немецкий вариант, 24 признака, 2 класса);

LiverDisorder (диагностирование заболевания печени, 6 признаков, 2 класса);

Iris (классификация видов ириса, 4 признака, 3 класса);

Yeast (классификация типов дрожжей, 8 признаков, 10 классов);

GlassIdentification (классификация сортов стекла по содержанию химических элементов, 9 признаков, 7 классов);

LandsatImages (распознавание типов земель по спутниковым изображениям, 36 признаков, 6 классов).

Для всех задач приводятся результаты применения алгоритма генерирования нечеткого классификатора (параметры, надежность классификации после каждого этапа) при варьировании уровня ограничения на число используемых правил. Для первых трёх задач классификации приведено сравнение надежности классификации, полученной при использовании сгенерированных баз нечетких правил с эффективностью других алгоритмов классификации (Байесовский подход, многослойный персептрон, бустинг, бэггинг, метод случайных подпространств (RandomSubspaceMethod, RSM), коэволюционный метод обучения алгоритмических композиций) по данным в [Воронцов, 2005].

Сравнение различных алгоритмов классификации на задачах из репозитория UCI по надежности классификации в таблице 1.

классификатор обучение алгоритмический генерирование

Табл. 1.

Алгоритм

Credit (Australia-1)

Credit (Germany)

LiverDisorder

Нечеткий классификатор

0,891

0,794

0,725

Байесовский подход

0,847

0,679

0,629

Многослойный персептрон

0,833

0,716

0,693

Бустинг

0,760

0,700

0,656

Бэггинг

0,847

0,684

0,630

Метод случайных подпространств

0,852

0,677

0,632

Коэволюционный метод обучения алгоритмических композиций

0,866

0,746

0,644

Табл.2.

Параметр

Задача

1

2

3

4

5

6

7

Начальное число правил

200

200

100

50

200

200

100

Средняя надежность классификации начальной базы правил

0,854

0,782

0,595

0,945

0,417

0,640

0,793

Средняя надежность классификации (Мичиганский этап)

0,870

0,791

0,653

0,979

0,495

0,687

0,812

Средняя надежность классификации (Питтсбургский этап, индекс - ограничение на число правил)

0,82710

0,86120

0,87330

0,76250

0,79080

0,66610

0,68215

0,69230

0,9083

0,9514

0,9715

0,9756

0,57320

0,58630

0,59360

0,73720

0,78130

0,83810

0,84715

0,84920

Макс. надежность классификации (Питтсбургский этап)

0,87010

0,89020

0,89130

0,76750

0,79480

0,68710

0,71015

0,72520

0,9473

0,9734

0,9875

0,9876

0,59820

0,60630

0,62660

0,75720

0,82730

0,84910

0,85715

0,85720

Из таблицы 1 видно, что нечеткий классификатор по надежности решения задач превосходит многие современные алгоритмы классификации, что доказывает целесообразность использования данного алгоритма.

По данным таблицы 2 можно сделать выводы об особенностях работы каждого этапа гибридной схемы генерирования нечеткого классификатора. Видно, что уже после формирования стартовых правил из обучающей выборки мы получаем вполне работоспособную базу. При этом число сгенерированных правил ничтожно по сравнению с общим количеством всех возможных правил. Далее, Мичиганский этап позволяет несколько увеличить надежность классификации по базе нечетких правил. Таким образом, Мичиганский этап необходим, в первую очередь, для сглаживания эффектов случайности при формировании начальной базы нечетких правил.

Питтсбургский этап позволяет сформировать из полученных на предыдущем этапе правил базу, состоящую из существенно меньшего числа правил. Компактные базы правил гораздо предпочтительнее с точки зрения задачи извлечения знаний. Кроме того, во многих случаях надежность классификации после Питтсбургского этапа превосходит надежность классификации, полученной на предыдущем этапе, несмотря на существенное сокращение числа правил. Это означает, что «плохие» правила оказывают негативное влияние на эффективность базы в целом, что подтверждает целесообразность сокращения числа используемых правил даже с точки зрения собственно задачи классификации.

В таблице 2 приведены значения надежности классификации при поэтапном увеличении количества используемых правил в случаях, когда такое увеличение приводит к соответствующему увеличению надежности классификации. Дальнейшее увеличение числа используемых правил будет приводить к падению надежности классификации.

Разработанный метод генерирования нечеткого классификатора обладает статистической устойчивостью - при проведении многократных запусков алгоритма наблюдается незначительный разброс в значениях надежности классификации полученных баз нечетких правил.

Таким образом, разработан и исследован на практических задачах классификации новый метод комбинирования Мичиганского и Питтсбургского подходов в задаче генерирования нечеткого классификатора. Используется формализованная процедура отбора стартовых правил, существенно повышающая эффективность метода. Постановка задачи в виде комбинирования безусловной и условной оптимизации без использования многокритериального подхода также повышает быстродействие предложенного метода.

Использование на двух основных этапах генерирования нечеткого классификатора коэволюционного алгоритма для адаптации поисковой стратегии генетического алгоритма позволяет решить проблему выбора оптимальных настроек генетического алгоритма.

Сравнение нечеткого классификатора с другими методами показывает, что нечеткий классификатор превосходит по эффективности современным алгоритмам классификации. Кроме того, нечеткий классификатор - это также инструмент извлечения знаний. В ходе апробации алгоритма на практических задачах классификации получены компактные базы лингвистических правил, представляющие интерес для специалистов в соответствующих проблемных областях.

Список литературы

1. Коэволюционный метод обучения алгоритмических композиций / К. В. Воронцов, Д. Ю. Каневский // Таврический вестник информатики и математики. 2005. №2.

2. Исследование эффективности коэволюционного алгоритма / М.Н. Емельянова, Е.С. Семенкин // Вестник Сибирского государственного аэрокосмического университета им. академика М.Ф. Решетнева. 2004. № 6.

3. Сергиенко Р.Б. Исследование эффективности коэволюционного генетического алгоритма условной оптимизации // Вестник Сибирского государственного аэрокосмического университета имени академика М.Ф. Решетнёва. 2009. №3 (24).

4. Cordуn O., Herrera F., Gomide F., Hoffmann F. and MagdalenaL.. Ten years of genetic-fuzzy systems: a current framework and new trends // Proc. of Joint 9th IFSA World Congress and 20th NAFIPS International Conference. - Vancouver, Canada, 2001.

5. H. Ishibuchi, T. Nakashima, and T. Murata. Performance evaluation of fuzzy classifier systems for multidimensional pattern classification problems // IEEE Trans. on Systems, Man, and Cybernetics. May 1999. Vol.29.

6. [Ishibuchi, 2001]Ishibuchi H., Nakashima T., and Murata T. Multiobjective optimization in linguistic rule extraction from numerical data // Evolutionary Multi-Criterion Optimization, Springler-VerlagBerlin, 2001.

7. Ishibuchi H., Nakashima T., and Kuroda T. A hybrid fuzzy GBML algorithm for designing compact fuzzy rule-based classification systems // Proc. of 9th IEEE International Conference on Fuzzy Systems, 2000.

Размещено на Allbest.ru


Подобные документы

  • Характеристика методов нечеткого моделирования и изучение системы кластеризации в пакетах прикладных программ. Разработка и реализация алгоритма для оптимизации базы правил нечеткого классификатора с помощью генетического алгоритма аппроксимации функции.

    дипломная работа [1,9 M], добавлен 21.06.2014

  • Исследование проблемы сравнения звуковых файлов и определение степени их схожести. Сравнение файлов с использованием метода нечеткого поиска, основанного на метрике (расстоянии) Левенштейна. Сравнение MIDI-файлов и реализация алгоритмов считывания.

    курсовая работа [2,0 M], добавлен 14.07.2012

  • Начальное представление систем нечеткого вывода: логический вывод, база знаний. Алгоритм Мамдани в системах нечеткого вывода: принцип работы, формирование базы правил и входных переменных, агрегирование подусловий, активизация подзаключений и заключений.

    курсовая работа [757,3 K], добавлен 24.06.2011

  • Методы, системы, типы и способы проводимых измерений в автоматизированных системах медицинского обеспечения безопасности на транспорте. Проектирования нечеткого алгоритма предрейсовых медицинских осмотров на основе адаптивной сети нейро-нечеткого вывода.

    дипломная работа [6,5 M], добавлен 06.05.2011

  • Сущность интеллектуальных систем. Запись математического выражения в виде ориентированного графа. Особенности разработки генетического алгоритма для решения задачи аппроксимации логического вывода экспертной системы на основе метода сетевого оператора.

    дипломная работа [1,0 M], добавлен 17.09.2013

  • Различные методы решения задачи классификации. Нейросетевые парадигмы, методы обучения нейронных сетей, возникающие при этом проблемы и пути их решения. Описание программной реализации классификатора, его функциональные возможности и результаты обучения.

    дипломная работа [1,0 M], добавлен 28.12.2015

  • Исследование методов автоматического проектирования нечетких систем управления (НСУ). Методы автоматической настройки семантики лингвистических переменных. Искусственные нейронные сети, генетические алгоритмы. Коэволюционный алгоритм для формирования НСУ.

    дипломная работа [2,3 M], добавлен 02.06.2011

  • Основные этапы систем нечеткого вывода. Правила нечетких продукций, используемые в них. Нечеткие лингвистические высказывания. Определение алгоритмов Цукамото, Ларсена, Сугено. Реализации нечеткого вывода Мамдани на примере работы уличного светофора.

    курсовая работа [479,6 K], добавлен 14.07.2012

  • Сущность и описание симплекс-метода и улучшенного симплекс-метода (метода обратной матрицы), преимущества и недостатки их применения в линейном прогаммировании. Листинг и блок-схема программы на языке Turbo Pascal для решения математической задачи.

    курсовая работа [45,0 K], добавлен 30.03.2009

  • Необходимые условия экстремума. Разработка машинного алгоритма и программы многомерной оптимизации для градиентного метода с использованием метода равномерного поиска. Проверка необходимых и достаточных условий экстремума для найденной точки минимума.

    курсовая работа [249,8 K], добавлен 25.09.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.