Разработка и исследование моделей адаптивного поведения искусственного объекта на базе нейронных сетей

Анализ моделей адаптивного поведения. Модель эволюционного возникновения коммуникаций в коллективе роботов. Бионическая модель поискового адаптивного поведения. Основные принципы построения модели адаптивного поведения системы на базе нейронных сетей.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 07.08.2018
Размер файла 2,3 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Федеральное агентство связи

Федеральное государственное образовательное бюджетное учреждение высшего образования

"Поволжский государственный университет телекоммуникаций и информатики"

Факультет Информационных систем и технологий

Направление (специальность) Информационные системы и технологии

Кафедра Информационных систем и технологий

ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА

(Бакалаврская РАБОТА)

Разработка и исследование моделей адаптивного поведения искусственного объекта на базе нейронных сетей

Руководитель зав. кафедрой д. т. н., доцент Н.И. Лиманова

Разработал ИСТ-31 Д.А. Морозов

Самара 2017

Содержание

  • Введение
  • 1. Анализ существующих моделей адаптивного поведения
  • 1.1 Основные понятия. Методы исследования
  • 1.2 Существующие модели адаптивного поведения
  • 1.2.1 Модели мозга и поведения в Институте Дж. Эдельмана
  • 1.2.2 Модель эволюционного возникновения коммуникаций в коллективе роботов
  • 1.2.3 Бионическая модель поискового адаптивного поведения
  • 1.2.4 Обучение с подкреплением
  • 1.2.5 Проект "Мозг анимата"
  • 1.3 Достоинства и недостатки известных моделей адаптивного поведения
  • 2. Принципы построения модели адаптивного поведения системы на базе нейронных сетей
  • 2.1 Теоретическая модель системы
  • 2.1.1 Построение нейронной сети
  • 2.1.2 Типы нейронных сетей
  • 2.1.3 Обучение нейронной сети
  • 2.2 Разработка алгоритма адаптивного поведения
  • 2.3 Реализация моделей адаптивного поведения
  • 3. Практическое применение и тестирование разработанных моделей адаптивного поведения искусственного объекта
  • 3.1 Практическое применение разработанных моделей
  • 3.2 Анализ результатов тестирования
  • Заключение

Введение

На современном этапе развития информационных технологий есть множество направлений исследований, которые так или иначе пересекаются с нашей повседневной жизнью. В наше время тема машинного обучения, интеллектуальных алгоритмов и, в особенности, искусственного интеллекта, чрезвычайно популярна. Множество порталов, посвящённых IT-технологиям, активно обсуждают данную тематику. Одним из перспективных направлений в развитии "искусственного интеллекта" является "моделирование адаптивного поведения".

Само направление "Моделирование адаптивного поведения" или просто "Адаптивное поведение" сложилось сравнительно недавно, в начале 1990-х годов, когда Жан-Аркадий Мейер и Стюарт Вильсон в Париже организовали первую международную конференцию Simulation of Adaptive Behavior ("Моделирование адаптивного поведения"). Данное направление включает в себя исследования в области архитектур и принципов функционирования систем управления биологических или модельных организмов (таких как роботы), которые обеспечивают приспособление организмов к внешней среде.

Актуальность выбранной темы обусловлена значимостью "моделирования адаптивного поведения" в направлении разработки "искусственного интеллекта", поскольку "адаптивное поведение" является одной из самых важнейших отличительных особенностей живого организма.

Целью выпускной квалификационной работы является исследование теоретических основ построения нейронных сетей и моделирования "адаптивного поведения" с дальнейшей разработкой "адаптивной" модели на базе нейронных сетей.

В соответствии с поставленной целью необходимо решить следующие задачи:

модель адаптивное поведение нейронная сеть

1. изучить теоретические основы построения нейронных сетей и моделирования "адаптивного поведения";

2. рассмотреть и провести анализ ряда известных моделей;

3. разработать новую модель;

4. провести ряд тестов новой модели и сравнить полученные результаты с результатами "глупого" объекта;

5. провести анализ результатов исследования, разработки и тестирования.

Объектом исследования являются нейронные сети.

Предметом исследования является разработанная модель "адаптивного поведения" на базе нейронных сетей.

Новизна исследования характеризуется тем, что в ходе выполнения дипломной работы была разработана новая модель адаптивного поведения на базе нейронных сетей, имеющая ряд преимуществ: меньшая инертность принятия решений, способность к восприятию всего окружающего пространства и к размножению.

Практическая значимость исследования заключается в разработке системы, способной моделировать адаптивное поведение агентов в многоагентных играх, основанной на нейронных сетях и обладающей преимуществами перед известными прототипами.

Работа состоит из введения, 3 глав, заключения и списка использованной литературы. В первой главе введены основные понятия и термины, проанализированы известные модели адаптивного поведения, приведены достоинства и недостатки применения нейронных сетей для моделирования адаптивного поведения агентов. Во второй главе приведены принципы построения модели адаптивного поведения на базе нейронных сетей, разработанный алгоритм адаптивного поведения и непосредственно сама процесс разработки модели. В третьей главе представлен процесс тестирования разработанной модели с последующим анализом результатов.

1. Анализ существующих моделей адаптивного поведения

1.1 Основные понятия. Методы исследования

Начало 1990-х годов является периодом активного развития направления "адаптивное поведение", который продолжается до сих пор. Основным подходом этого направления является конструирование и исследование искусственных "организмов", способных приспосабливаться к внешней среде. Для обозначения таких организмов введен термин аниматы (от англ. Animal + robot = animat) [1].

Поведение аниматов имитирует поведение живых организмов, к примеру, животных. Исследователи данного направления стараются строить именно такие модели, для которых применимо описание поведения как реального животного, так и искусственного анимата.

Для моделирования адаптивного поведения как минимум требуется исследовать архитектуры и принципы функционирования, которые позволяют животным или роботам жить и действовать в условиях переменной внешней среды.

Для максимального моделирования данного направления требуется - попытаться проанализировать эволюцию когнитивных способностей животных и эволюционное происхождение человеческого интеллекта.

Данное направление исследований рассматривается как бионический подход к разработке систем искусственного интеллекта.

Официально направление "адаптивное поведение" было провозглашено в 1990 г., но до этого уже существовали явные предвестники этого направления. К примеру, в нашей стране в 1960-70-х гг. подобными исследованиями занимались такие ученные, как Цетлин М.Л., Бонгард М.М., Поспелов Д.А. [3].

Данное направление исследований использует ряд нетривиальных компьютерных методов:

нейронные сети,

генетические алгоритмы и другие методы эволюционной оптимизации,

классифицирующие системы,

обучение с подкреплением.

Нейросетевые и эволюционные методы также известны и применяются в моделировании.

Классифицирующие системы представляют собой набор правил вида "Если…то…". Т.е., если имеет место ситуация S (t), то нужно выполнить действие A (t), результатом действия будет следующая ситуация S (t+1). Этот набор правил оптимизируется по ходу обучения объекта путём модификации правил и путём селекции правил и генерации новых.

В обучении с подкреплением рассматривается анимат, взаимодействующий с внешней средой. Здесь имеет место следующий принцип: в текущей ситуации, S (t) анимат выполняет действие a (t), получает подкрепление r (t) и попадает в следующую ситуацию S (t+1). Подкрепление r (t) может быть, как положительным (награда), так и отрицательным (наказание). Цель анимата - максимизировать суммарное подкрепление, которое можно будет получить в будущем в течение длительного периода времени.

Как отмечалось выше, "адаптивное поведение" - активно развивающееся направление. Основным исследователем в данной области является международное общество ISAB (International Society for Adaptive Behavior), которое регулярно проводит международные конференции Simulation of Adaptive Behavior.

В настоящее время исследования включают в себя работы по следующим направлениям:

сенсорные системы и управление,

обучение и адаптация,

выбор действий, навигация и внутренние модели мира,

нейроэволюция (настройка нейронных сетей, путём эволюции),

возникновение языка и коммуникаций при адаптивном поведении,

коллективное и социальное поведение,

адаптивное поведение роботов,

поведение и мышление как сложные адаптивные системы.

Для построения математической модели рассмотрим основные понятия.

Адаптивность - термин, пришедший из биологии живых организмов, способность системы управления некоторого автономного объекта добывать знания о свойствах системы, накапливать эти знания в своей памяти и использовать в дальнейшем для целесообразного управления объектом управления [2].

Т.е. нами рассмотрены объекты, имеющие у себя системы управления - специализированные подсистемы, работающие с информацией. Тем самым, мы отсеиваем "адаптивные системы" без систем управления, которые обеспечивают нас уже заведомо известными изменениями свойств в рассматриваемых ситуациях. Так же отсеиваем неавтономные системы управления, в которых база знаний заложена кем-то извне системы. И, наконец, мы отсеиваем системы с произвольно заданными целевыми функциями (самоуничтожение), так как мы моделируем живой объект, которым всем присуще стремление к выживанию.

Нейронная система живых организмов управляет не просто телом организма, а телом, погруженным в окружающую среду.

1.2 Существующие модели адаптивного поведения

1.2.1 Модели мозга и поведения в Институте Дж. Эдельмана

В институте нейронаук Дж. Эдельмана более 25 лет ведутся разработки поколений моделей работы мозга (Darwin I, Darwin II). Так же в последние годы ведутся исследования адаптивного поведения искусственного организма-устройства NOMAD (Neurally Organized Mobile Adaptive Device), построенного на базе моделей работы мозга.

Рис.1.1 - Искусственный организм - устройство NOMAD

Принцип моделирования NOMAD (в дальнейшем "Номад") - Brain-based device:

1. устройство помещается в реальную физическую среду;

2. имеется некоторая поведенческая задача, которую решает устройство;

3. поведение устройства контролируется модельной нервной системой, которая отражает архитектуру мозга и динамику процессов в мозге;

4. поведение устройства и процессы в модельной нервной системы должны допускать сравнение с экспериментальными биологическими данными.

В последних работах по "Номаду" было успешно смоделировано поведение мыши в лабиринте Морриса.

Рис.1.2 - Эксперимент Морриса

Данный эксперимент (исследование поведения мыши в лабиринте) - один из канонических биологических экспериментов: имеется бассейн с непрозрачной жидкостью, на бортах бассейна есть рисунки, которые мышь видит и использует для ориентации в пространстве, в определённом месте бассейна есть платформа, на которой мышь может спастись (не утонуть), мышь бросают в бассейн, и после ряда экспериментов мышь с помощью рисунков на бортах находит платформу за достаточно короткое время.

Поведение "Номада" в лабиринте Морриса моделировалась следующим образом. "Номад" представлял собой подвижное устройство на колёсах, управляемое нейронной сетью, состоящей из 90000 нейронов. В ней было выделено 50 различных нейронных областей. Программно нейронная сеть была реализована на основе компьютерного кластера.

"Номад" помещался в комнату, в которой была скрытая платформа (как в эксперименте с мышью); на стенах комнаты были разноцветные полосы - ориентиры. В начале каждого эксперимента "Номад" помещался в разные участки комнаты. Задача системы была найти платформу. Обучение осуществлялось по модифицированному правилу Хебба на основе подкреплений (объект нашёл платформу) и наказаний (объект приблизился к стенам комнаты).

В ходе эксперимента было выявлено, что:

1. "Номад" достаточно быстро обучается нахождению платформы (10-20 попыток);

2. в модельном гиппокампе (часть мозга, отвечающая за память) формируются нейроны места, активные только, когда "Номад" находится в определённых участках комнаты;

3. в модельном гиппокампе формируются связи между отдельными нейронными областями, отражающие причинно-следственные зависимости.

Данная модель представляет собой эмпирическое исследование, хорошо продуманное с биологической точки зрения. Поведение "Номада" нетривиально.

1.2.2 Модель эволюционного возникновения коммуникаций в коллективе роботов

Данная модель была разработана Д. Марокко и С. Нолфи из института когнитивных наук и технологий. В ней исследовались такие вопросы: Как могут эволюционно возникнуть коммуникации между модельными организмами? Как в эволюционном процессе может сформироваться сигнальная обработка информации?

Была рассмотрена следующая проблема. Есть четыре 2-х колёсных робота EPORO (компании Nissan), каждый управляется рекуррентной нейронной сетью, состоящей из 5-ти нейронов. На входы нейронов поступают сигналы от 8-ми инфракрасных датчиков, и от 4-х датчиков, воспринимающих звуковые сигналы с разных сторон. Нейронная сеть имеет 3 выходных нейрона: первый и второй отвечают за скорость движения двух колёс соответственно, а третий нейрон - интенсивность силы звука, издаваемого роботом. В ограниченной области пространства имелось две кормушки, и роботам нужно было, используя свои нейронные сети и звуковые сигналы разной интенсивности, как можно быстрее распределиться по кормушкам: по два робота на каждую из кормушек.

Рис.1.3 - Роботы EPORO

Нейронные сети роботов оптимизировались эволюционным путём. В результате в течение 2000 поколений у роботов сформировались сигналы 5 различных видов (разной интенсивности). Используя эти сигналы, роботы достаточно устойчиво находили требуемое распределение по кормушкам. Таким образом, у роботов сформировалась коммуникационная сеть.

В эволюционирующей популяции роботов, управляемых рекуррентными нейронными коммуникациями, может формироваться система коммуникаций, позволяющая решать достаточно нетривиальную задачу распределения роботов по кормушкам.

1.2.3 Бионическая модель поискового адаптивного поведения

Одно из актуальных направлений в исследовании адаптивного поведения - имитация поискового поведения животных. Одной из задач данного направления является задача личинок ручейников/

Личинки носят на себе "домик" - трубку из песка и других частиц. Строительство требует меньше усилий и времени, если "домик" строиться из крупных частиц. Задача осложняется тем, что личинке для поиска материалов для строительства не пользуются зрением и находят частицы только наощупь, что требует дополнительного времени.

Рис.1.4 - Ручейник с "домиком"

Для построения компьютерной модели поискового поведения было использовано понятие мотивация M (t) - к прикреплению частицы к домику. Модель характеризуется как своей спецификой, обусловленной памятью о размерах последних обработанных частиц, так и общими свойствами инерционного переключения, позволяющими животным влиять и использовать при адаптивном поведении наиболее общие закономерности взаимодействия с внешней средой.

Рассматривается анимат, который может двигаться в двумерном пространстве (X, Y). Задача анимата - поиск максимума функции f (x,y). Анимат может оценивать изменение текущего значения функции по сравнению с предыдущими тактами времени. Каждый так времени анимат совершает движение, при этом его координаты не изменяются. Анимат имеет две тактики поведения:

двигаться в выбранном направлении;

изменить движение направления случайным образом.

Переключение между тактиками регулируется величиной мотивации, которая зависит от времени, инерционности переключения между тактиками и интенсивности раздражителя. Данная модель адаптивного поведения довольна разнородна.

1.2.4 Обучение с подкреплением

Метод обучения с подкреплением был развит работами Саттона Р. и Барто Э. Данный метод рассматривает анимата, взаимодействующего с внешней средой. В текущей ситуации S (t) анимат выполняет действие a (t), получает подкрепление r (t) в виде наказаний и поощрений.

Цель анимата - максимизировать суммарную награду, которую он может получить в будущем, в течение длительного периода времени. Анимат имеет свою внутреннюю субъективную оценку суммарной награды, и в процессе обучения совершенствует её.

Рис.1.5 - Схема обучения с подкреплением

Данный метод обучения идейно связан с методом динамического программирования. Общая оптимизация многошагового процесса принятия решения происходит путём упорядоченной процедуры одношаговых оптимизирующих итераций, оценка эффективности решения, переоценивается с учётом знаний о возможных будущих шагах. Например, при решении задачи поиска оптимального маршрута в лабиринте, сначала находится конечный участок маршрута, непосредственно приводящий от входа к выходу лабиринта, затем ищутся пути, приводящие к конечному участку, и т.д. В результате постепенно прокладывается оптимальный маршрут от его конца к началу. Зачастую обучение с подкреплением называют приближенным динамическим программированием.

Наиболее важным достоинством данного метода обучения - простота. Анимат получает от учителя из внешней среды только сигналы подкрепления. Это радикально отличает этот метод (фактически самообучения) от традиционных таких, как метод обратного распространения ошибок, для которых учитель точно определяет финальный выход нейронной сети при заданном входе.

Данный метод используется в многочисленных областях, к примеру:

оптимизация игры в триктрак (достигнут уровень мирового чемпиона),

оптимизация системы управления работой лифтов,

формирование динамического распределения каналов мобильной связи,

оптимизация расписания работ на производстве.

Данный метод обучения может рассматриваться как развитие автоматной теории адаптивного поведения. Метод обучения с подкреплением получил своё развитие в работах по нейросетевым адаптивным критикам, в которых применяются апроксиматоры функций оценки качества функционирования анимата [4].

1.2.5 Проект "Мозг анимата"

В основе построения данной модели лежит предположение, что система управления аниматом имеет иерархическую структуру. Базой системы является функциональная система [5].

Верхний уровень - основные потребности организма: питание, размножение, безопасность, накопление знаний. На более низких уровнях системы управления соответствует тактическим целям поведения. Все уровни реализуются с помощью функциональной системы управления аниматом, которая функционирует дискретно, т.е. в каждый такт времени активна только одна система.

Примером моделирования функциональных система является система, состоящая из следующих пунктов: прогноз результата действия, сравнение прогноза и результата, коррекция прогноза и результата путём обучения нейронных сетей, формирование оценок качества ситуации, принятие решения.

1.3 Достоинства и недостатки известных моделей адаптивного поведения

Очевидно, что главным весомым аргументом нейронных сетей является распараллеливание обработки информации и способность к самообучению (созданию обобщений), что является важным при моделировании адаптивного поведения. Эти свойства позволяют нейронным сетям решать сложные (большого объёма) задачи, которые считаются трудно разрешаемыми. На практике при автономной работе нейронные сети не могут обеспечить готовые решения. Их требуется интегрировать в сложные системы [6].

Приведем ряд преимуществ нейронных сетей перед традиционными вычислительными системами при моделировании адаптивного поведения.

1. Решение задач при неизвестных закономерностях.

Возможность обучаться на множестве примеров позволяет нейронной сети решать задачи, в которых неизвестны закономерности развития ситуаций и зависимости между входными и выходными данными.

2. Устойчивость к шумам во входных данных.

Способность работы при наличии большого числа без информативных, входных сигналов с шумами. Пропадает необходимость предварительного отсева, так как нейронная сеть сама определит их мало пригодность для решения задачи и отбросить их.

3. Адаптирование к изменениям окружающей среды

Одной из главной особенностью нейронных сетей является способность адаптации к изменениям окружающей среды. В частности, системы способные действовать в определенных условиях и среде, могут быть легко переучены для моделирования и работы в условиях с незначительными колебаниями параметров среды.

4. Способность переучиваться в реальном времени

Является продолжением способности адаптироваться к изменениям окружающей среды. Нейронные сети могут переучиваться в реальном времени. С ростом адаптивности системы, растёт устойчивость работы этой системы в нестационарной среде. Для большего эффекта всё же желательны условия среды со стабильными параметрами.

5. Сверхвысокое быстродействие

Нейронные сети обладают потенциальным сверхвысоким быстродействием за счёт использования массового распараллеливания обработки входящей и выходящей информации.

6. Отказоустойчивость при аппаратной реализации

Так же очень важным преимуществом является отказоустойчивость. При неблагоприятных условиях производительность систем падает незначительно. К примеру, повреждение нейрона несёт потерю информации, но не влечёт её не понимание системой, за счёт распределения информации по всем нейронам.

Несмотря на широкий спектр возможностей нейронных сетей при моделировании адаптивного поведения, решению задач с их помощью сопутствует ряд недостатков:

большинство подходов (такие как модели мозга и поведения в Институте нейронаук Дж. Эдельмана) для проектирования являются эвристическими и часто приводят к однозначным решениям;

для построения модели объекта на основе нейронных сетей требуется много цикловая настройка внутренних элементов и связей между ними;

проблемы при подготовке обучающей выборки связанны с трудностями нахождения достаточного количества обучающих примеров;

обучение сети в ряде случаев - тупиковые ситуации;

продолжительность обучения нейронных сетей зачастую не позволяют использовать такие модели в системах реального времени;

поведение обученной нейронной сети не всегда может быть однозначно предсказуемо, тем самым увеличивая риск применения таких систем для управления дорогостоящими объектами;

Таким образом, поиск оптимального соотношения параметров нейросетевых моделей адаптивного поведения и их характеристик в конкретных ситуациях является одной и ключевых задач, для эффективного решения которой необходим широкий спектр методов, алгоритмов и программ.

Данные обстоятельства позволяют отметить актуальность разработки новых моделей и алгоритмов для подбора обучающих примеров, с ориентиром на минимизацию аппаратных затрат.

Выбор типа нейронных сетей для моделирования адаптивного поведения является достаточно трудоёмким процессом и порой может не принести удовлетворительных результатов.

Для достижения поставленной цели в работе решаются следующие задачи:

1. Разработка аппарата аналитического описания аппроксимирующих нейронных сетей, где количество нейронов стремиться к минимуму для заранее заданной величины погрешности.

2. Разработка методики определения параметров и методик обучения

3. Разработка алгоритмов формирования обучающих выборок для аппроксимирующих нейронных сетей и соответствующих математических обоснований.

4. Подготовка инструментальной программной системы для синтеза формального описания нейросетевых моделей.

Выработанные алгоритмы анализа моделируемых объектов, позволяют проводить оперативный контроль их нелинейностей непосредственно по ходу исследования.

На основе формального описания модели появляется возможность выбора одного из проанализированных вариантов реализации в аппаратном и программном видах.

Анализ современных моделей адаптивного поведения показывает, что хоть и проделана большая работа в области исследований, есть множество интересных моделей, требующих дополнительных исследований. Учёные ещё далеки от понимания возникновения и развития систем управления живыми организмами. Есть определенные подходы к исследованиям, но само исследование интеллектуального адаптивного поведения, или природы естественного интеллекта ещё не проведено. Вот примерный план будущих исследований:

1. Разработка схем и моделей адаптивного поведения анимата на базе проекта "Мозг анимата".

Реализация в моделях схем и конструкций "Мозг анимата" для анимата, обладающего естественными потребностям (питание, размножение и тд) могло бы стать очень важным шагом в дальнейших исследованиях.

2. Исследование перехода от физического уровня обработки информации в нервной системе животных к уровню обобщения образов.

Такой подход рассматривает появление в "сознании" животного свойства "понятие" Обобщенные образы можно представить, как мысленные аналоги наших слов. В основе этого подхода лежит исследование данного перехода в процессе эволюции.

3. Исследование процессов формирования причинных связей в памяти животных.

Запоминание причинно-следственных связей между событиями во внешней среде и адекватное использование этих связей в поведении - одно из ключевых свойств активного познания животным закономерностей внешнего мира. И следующим шагом является переход от отдельных причинных связей к логическим выводам на основе уже сформировавшихся знаний.

4. Исследование процессов формирования логических выводов в "сознании" животных.

На базе классического условного рефлекса животные способны делать логические выводы. Целесообразно будет разобраться в системах подобных выводов, понять адаптивную логику поведения животных и схожесть её с человеческой.

5. Исследование коммуникаций, возникновение языка.

Мышление человека тесно связано с языком и общением. Поэтому целесообразнее проанализировать, как в процессе биологической эволюции возникал язык общения животных, как развитие коммуникаций привело к современному человеку, как развитие коммуникаций и языка способствовало развитию логики, мышлению и интеллекта человека.

Перечисленные пункты формируют только контуры плана будущих исследований, задавая фронт исследований и направления работ [7-8].

2. Принципы построения модели адаптивного поведения системы на базе нейронных сетей

2.1 Теоретическая модель системы

В основе работы рассмотрена модель WTM (Waveform temporal memory) - модель нейронной сети для решения задачи адаптивного поведения. Относится к классу динамических нейронных сетей. Названа "волновой" из-за схожести распространения сигналов по сети с волнами [11].

Выделим минимальный набор принципов, которые необходимы системе управления для того, чтобы называться адаптивной.

Система управления должна непрерывно на большом промежутке времени адаптироваться к условиям изменяющейся внешней среды;

Система управления должна иметь минимальный набор врождённым поведенческих аспектов и рефлексов, чтобы система, отталкиваясь от данного набора, могла начать процесс адаптации;

Система управления должна иметь способность обобщать имеющийся опыт на другие ситуации окружающей среды.

В качестве рабочего примера будем рассматривать задачу адаптивного поведения.

Принцип непрерывной адаптации подразумевает, что с течением времени целесообразность принимаемых решений должна увеличиваться в положительную сторону. Тут существует разделение процесса "увеличения целесообразности" на активные и реактивные системы управления.

Активные системы управления - имеется элемент, ответственный за оценку функционирования системы в целом. Этот элемент содержит критерий целесообразности, по которому оценивается действия, совершаемые системой управления. На основании этих оценок производится принятие решений и изменение поведения системы для увеличения показателей данного критерия.

Реактивные системы управления - в данных системах блок оценки поведения отсутствует. Достижение увеличения целесообразности в этих системах имеют более сложную структуру. Рассмотрим два случая:

1. В процессе функционирования система управления непрерывно увеличивает покрытие множества событий среды целесообразными реакциями.

2. В процессе функционирования система управления непрерывно заменяет существующие реакции на другие, более целесообразные.

В первом случае применение активных и реактивных систем управления не имеет особых различий. В обоих случаях увеличение покрытия сводится к обобщению имеющегося опыта на новые ситуации окружающей среды.

Во втором случае имеется существенное различие. Дело в том, что реактивные системы данном случае не могут оценивать целесообразность действий, тем самым реактивные системы не способны на второй случай.

Для этого используются альтернативные пути достижения целесообразности:

1. Выбор начального набора поведений должен после обобщения даёт целесообразные реакции на основные ситуации среды.

2. Обучение системы управления целесообразному поведению через внешнюю среду или, проще говоря, воспитание. В этом случае агент - окружающая среда, которая воздействует на объект так, чтобы у него формировались требуемые модели поведения.

Хотя оба метода преследуют одну и ту же цель, они отличаются выполняемыми действиями, и трудозатратами на их выполнение.

Первый метод имеет место быть в случаях, когда необходимо создать наборы реакций. Имеет следующий алгоритм:

1. Проводим анализ будущей окружающей среды обитания объекта управления, с целью выявления основных ситуаций, требующих целесообразных реакций.

2. Подбираем для данных ситуаций подходящее поведения объекта.

3. Создаём экземпляр реактивной системы, у которого базовый набор реакций состоит из полученных в пункте 2 поведений.

Второй метод имеет место для создания одной реакции. Общий алгоритм:

1. Создаём комплексный стимул, реакцией на который будет искомое поведение.

2. В процессе функционирования, при наступлении необходимой ситуации воздействуем на объект управления созданным стимулом, чтобы осуществить требуемую реакцию.

3. Повторить пункт 2 до закрепления эффекта.

Достоинством второго метода является то, что он может быть использован в любой момент работы системы управления, а первый только на этапе создания экземпляра модели. Для того что второй метод работал необходимо знать набор реакций системы управления [9].

Обучение нашей модели WTM состоит из двух частей: выделение закономерностей среды и сохранение последовательности реакций системы управления на эти закономерности. Проще говоря, обучение подразумевает процесс накопления пар вида "условие - реакция".

Для сохранения последовательностей реакций систем управления, мы воспользуемся механизмами ассоциативных связей.

Ассоциативная связь - событие при котором активность одного объекта памяти способствует активации другого.

Элемент памяти (или паттерн) - нейрон активности сети. Активация происходить как реакция на сигналы окружающей среды на объект, а также при ассоциативных переходах. Всякая реакция нейронной сети являет элементом памяти, хотя не каждый элемент памяти - реакция сети.

Сила ассоциативной связи - численная величина, отображающая способность ассоциативной связи активировать конечный элемент памяти. Данная величина в реализации не используется, но понадобиться для ясного понимания модели.

Сам процесс сохранения последовательностей реакций систем управления состоит в непрерывном создании ассоциативных связей между последовательными реакциями сети на сигналы окружающей среды. При каждом повторном возникновении элемента памяти сила ассоциативной связи возрастает.

Выделение закономерностей основывается на взаимодействии функций и забывания. WTM же имеет особенность запоминать всю последовательность закономерностей. Более частые закономерности имеют большую силу. Одновременно с этим происходит забывание закономерностей. Более редкие закономерности теряют свою силу. В следствии соотношения этих двух значений (запоминания и забывания) выявляются ассоциации которые имеют место остаться в памяти, а какие забудутся [10].

Рассмотрим примеры соотношения запоминания и забывания.

Первый случай - запоминание> забывание:

получаем предельно детализированное запоминание закономерностей

получаем наивысшую скорость заполнения памяти

Второй случай - запоминание <забывание:

запоминаются только общие закономерности

скорость заполнения памяти стремиться к минимуму

Выбор подходящих значений функций запоминания и забывания является одним из важнейших этапов создания экземпляра WTM, в связи с тем, что в текущем состоянии WTM имеет ограничения на размер памяти.

Помимо набора реакций обеспечивающие целесообразность, в базовом наборе должны быть ещё и функциональные базис системы.

На уровне нейронных сетей функциональные базис системы - последовательность элементов памяти. Для базисов подбираются подходящие реакции внешней среды. Таким образом мы получаем множество правил "закономерность среды - реакция", соответствующих выбранному базису.

Углубимся в поведение систем, в частности рассмотрим поведение в реактивных моделях.

Основной принцип реактивных систем - детерминированность, и как можно предположить из этого реактивная система представляет из себя реализацию принципа "стимул-реакция", но в действительности все немного иначе.

Полная схема реактивных систем следующая: "стимул - внутренняя реакция - смена внутренних состояний - формирование общего внутреннего состояния - внешняя реакция". Как можно заметить, отличительной особенностью определения является наличие внутренних состояний. Стимул и внешняя реакция отделены друг от друга во времени на большое расстояние.

Рис.2.1 - Поведение в реактивных системах

Здесь, а) внутренняя реакция WTM - простая реакция нейронной сети на стимул; б.1,2) механизм ассоциаций, так как на каждом такте работы сеть имеет некоторое состояние; б.3) имеет место быть, если была внешняя активность.

Общая структура реализуемой системы следующая:

WTM - многослойная нейронная сеть

имеются прямые и обратные связи

характер связи между слоями локальный

слои именованы целочисленными именами

Рис.2.2 - Структура нейронной сети

Обобщение - это процесс переноса поведенческой реакции с одного события среды на другое событие, которое является частным случаем предыдущего.

Система последовательности реакций в модели "адаптивного поведения" сохраняется в виде цепочки последовательности действий, связанных с ассоциативными правилами. В случае абстракции - последовательность абстракций.

Абстракция элемента памяти - это элемент памяти, из множества нейронов которого была изъята часть нейронов. Абстракция ассоциативной связи - это ассоциативная связь между абстракциями элементами памяти. Сила абстракции ассоциативной связи может быть меньше или равна силе исходной связи. Получается, что согласно принципа построения нейронных сетей (один нейрон - одно свойство) абстракции элемента памяти и ассоциативной связи являются частью исходных элемента и связи. Потому, для того, чтобы произошло обобщение, необходимо чтобы элемент памяти в новой цепочке были достаточно близки к элементу в обобщаемой. Подробнее о “достаточной близости” будет рассказано далее.

Из-за интегрированности принципа обобщения в нейронные сети получается, что в WTM оно не присутствует в виде отдельного механизма, а лишь является частью процесса распространения сигналов по сети. Запомненные последовательности реакций имеют в своем составе ассоциативные связи с разными значениями силы связи. Крайний случай - закономерность, имеющая все силы, равные 1. Она будет идеально воспроизводиться всего от появления 1 её элемента. Однако это крайний случай. Для последовательностей “средней полосы” характерна другая ситуация. Они способны эффективно воспроизводиться, только если события среды будут точно им соответствовать.

Таким образом, для нормального использования запомненных последовательностей, текущие должны совпадать с ними такт в такт. В WTM имеется механизм ситуативного контекста. Описанная проблема - не единственная. Существует 3 основных вида деформации:

1. Когда изменяется порядок действий в последовательности,

2. Когда между соседними элементами появляется новое событие,

3. Когда пропускается элемент последовательности.

Ситуативный контекст - сжатая характеристика близлежащих событий. Какой интервал времени считается близлежащим, определяет разработчик. Можно представить его себе как временное хранилище, из которого на каждом такте WTM извлекается информация о самом старом событии и добавляется информация о новом. Контекст не сильно зависит от порядка событий (зависит от реализации). Таким образом, для успешного ассоциативного перехода (успешного распознавания) необходимо не повторение большего количества деталей в текущем ЭП, но повторении тех же предшествующих событий. Для последовательностей это значит, что чем дальше зашло воспроизведение последовательности, тем больше шансов, что воспроизведение продолжится.

Механизм ситуативного контекста увеличивает инертность распознавания WTM. Под инертностью распознавания понимается тенденция WTM продолжать распознавание закономерностей. В зависимости от отношения размеров контекста и исходного ЭП, свойства WTM сильно различаются. Если выбранный размер ситуативного контекста больше размера ЭП, то поведение WTM будет более инертным. Поведение WTM будет состоять по большей части из последовательностей реакций, имеющих в своем составе элементы текущего контекста (если интервал охвата контекста велик, то скорость его изменения мала, а отношение изменений к общему размеру незначительно). Таким образом, можем говорить, что последовательности реакций разделены на группы по общему ситуативному контексту. Разделение на группы поддерживается еще и тем фактом, что при воспроизведении последовательности реакций из некоторой группы мы добавляем эту закономерность в контекст, тем самым обновляя его, поддерживая в том же состоянии.

В итоге складывается следующая картина:

WTM - многослойная нейронная сеть с импульсными нейронами,

в сети имеются как прямые, так и обратные связи,

характер связей между слоями локальный (т.е. не полносвязный), как в прямом, так и в обратном направлении,

работа сети разделена на такты. За один такт принято распространение сигнала между соседними слоями сети,

слои имеют целочисленные номера начиная с 1,между нейронами задано расстояние равное расстоянию между слоями, содержащими эти нейроны,

сеть принимает входные сигналы через заданный период времени T (периода работы сети) Т измеряется в тактах,

сигналы подаются на сеть с заданной периодичностью Tinput тактов. Tinput кратно T.

В WTM используются модифицированные импульсные нейроны. Функция активации нейронов пороговая. При превышении порогового заряда нейрон переходит в активное состояние. Длительность активного состояния 1 такт. Из-за схожести процесса распространения сигналов по сети с волнами модель получила часть своего названия - волновая. Часть “временная память” была заимствована из HTM (временной иерархической памяти) Джеффа Хокинса из-за сходства между моделями.

В теоретической части элемента памяти представлен, как статичная объект. Для понимания WTM такой подход годиться. В реализации WFM элемент памяти является динамическим объектом. То ЭП протяжен во времени, и в любой момент его периода длительности активна только часть ЭП. Элемент памяти в процессе их распространения по сети будем называть волнами. “Фронт волны" (слой с нейронной активностью) и есть та самая, активная часть элемента. Запоминание элемента памяти осуществляется с помощью правила синаптической пластичности Хебба. Правило Хебба гласит, что если активность одного нейрона участвует в возбуждении другого нейрона, то сила синаптической связи между ними должна увеличиться.

Ассоциативная связь.

Ассоциативная связь (АС) между ЭП создаются с помощью обратных связей присутствующих в сети. АС связывает две последовательные волны активности. Для этого длина обратных связей выбирается равной Т/2 (периода работы сети). Синоптические связи, составляющие ассоциативной памяти, также подчиняются правилу Хебба. Процесс образования АС:

1. На входные нейроны поступил сигнал, вызвал распространение волны активности,

2. Через время Т поступил второй сигнал, вызвал распространение волны активности,

3. От первой волны сигнал по обратным связям движется в направлении второй волны,

4. Через время равное Т/2 от появления второй волны сигнал от первой волны и вторая волна будут находиться в слое с номером Т/2,Сигнал от первой волны участвует в активации нейронов слоя Т/2,Происходит настройка синоптических связей по правилу Хебба.

Данный процесс происходит на всем протяжении сети.

Если второй волны не будет, активность следом за первой волной будет создавать только она сама. В теоретической части это называлось ассоциативным переходом (а также распознаванием). Нейронная активность, которая появилась в результате ассоциативного перехода в теоретической части называлась ЭП созданным ассоциативной связью.

Сила ассоциативной связи. На уровне реализации - это численная величина, характеризующая способность одной волны активности посредствам своих обратных связей воссоздавать другую волну. Процесс сохранения последовательностей реакций состоит в непрерывном создании ассоциативных связей между последовательными волнами активности, а также сохранении самих волн.

Функция запоминания - функция, в соответствии с которой увеличиваются значения весовых коэффициентов в процессе их настройки. Зависит от текущего значения веса синапса. Функция забывания - функция, в соответствии с которой уменьшаются значения весовых коэффициентов с течением времени. Зависит от текущего значения веса синапса.

Обобщение - процесс переноса поведенческой реакции с одного события среды на другое событие, которое является абстракцией первого. На уровне нейронной сети это означает сохранение силы ассоциативных связей некоторой закономерности на достаточном уровне, при замене её элементов памяти на некоторые их абстракции.

Ситуативный контекст - сжатая характеристика близлежащих событий, которая добавляется к текущему ЭП для увеличения качества обобщения закономерностей. Для его реализации вводится дополнительный механизм работы нейронов - снижение порога активации.

Механизм снижения порога активации: после пребывания нейрона в активном состоянии порог активации нейрона должен быть уменьшен. С течением времени величина порога возвращается к начальному значению. Уменьшение происходит в соответствии с функцией уменьшения порога. Значение функции зависит от текущего значения порога.

Рассмотрим пример. Пусть на WTM с механизмом снижения порога подали последовательности сигналов. После каждой волны часть нейронов будет уменьшать порог активации. Это приведет к тому, что в следующих волнах будет активность, которой бы не было без уменьшения порога. Эта активность и будет нашей сжатой характеристикой ситуации. Главное - это то, что при повторении тех же сигналов добавочная активность также будет повторяться.

Данная реализация механизма контекста была выбрана из-за её простоты и одного побочного эффекта, который соответствует цели внедрения механизма контекста как такового.

Собственно, эффект: после распространения некоторой волны по WTM её повторное распространение упрощается. Более того упрощается распространение волн, имеющих в своем составе те же нейроны (читай из той же контекстной группы). Этот эффект можно назвать кратковременной памятью WTM. Он соответствует цели внедрения механизма контекста - увеличению инертности распознавания.

Исходя из поставленных перед WTM задач следует:

выделить события среды, требующие внешние реакции,

выделить функциональный базис WTM,

подобрать адекватные (целесообразные) реакции. Эти реакции будем называть базовыми,

создать WTM соответствующий выбранному набору базовых реакций,

провести дополнительное обучение WTM с помощью воздействий на ОУ через среду.

2.1.1 Построение нейронной сети

Для того чтобы реализовать нейронную сеть, нужно разобраться в том, что они из себя представляют.

Искусственные нейронные сети - совокупность искусственных нейронов, выполняющих роль сумматоров.

Нейронные сети используются для широкого круга сложных задач: прогнозирование, распознавание образов, так же применяются в области машинного обучения и построения ИИ ("искусственного интеллекта").

Сейчас наблюдается всплеск интереса к нейросетям, хотя это один из старейших алгоритмов машинного обучения. Первый формальный нейрон был предложен в 1943 году Уорреном Маккалоком и Уолтером Питтсом. И в 1958 году Френк Розенблат предложил первую самую простую нейронную сеть, которая уже могла разделять объекты в двухмерном пространстве. Интерес к нейронным сетям особенно был большой в 1950-60 годах, когда были получены первые впечатляющие результаты. В дальнейшем нейронные сети ушли на задний план, уступив место другим генетическим алгоритмам. Но в последние 5-7 лет, оказалось, что во многих задачах, связанных с анализом естественной информации, нейронные сети лучше, чем другие алгоритмы.

Что же этому поспособствовало? То, что нейронные сети как алгоритм машинного обучения способен обучаться. Хотя в отличие от большинства алгоритмов нейронные сети очень критичны к объему данных, к объёму обучающей выборки, которая должна их натренировать. Т.е. на маленьком объёме данных обучающей выборки, нейронные сети дают плохие результаты.

Второй причиной ренессанса нейронных сетей является - вычислительные ресурсы. Нейронные сети - один из самых тяжеловесных алгоритмов обучения, который требует значительных вычислительных ресурсов, которые в данное время у нас есть.

Как говорилось выше, одной из самых главных особенностей нейронных сетей является способность обучаться.

Рассмотрим единицу структуры нейронной сети - нейроном.

Рис.2.3 - Структура нейрона

Здесь, х1 и х2 - входы, на которые поступают данные в любом обрабатываемом системой виде, в нашем случае, данные с двигателей и сенсоров. Зачастую приходиться проводить нормализацию входных данных.

w1 и w2 - веса, главная суть нейронных сетей. С помощью редактирования весов проходит обучение.

Математическая модель нейрона:

(2.1)

Где, b - активационная функция

Перед началом обработки данных, входы умножаются на соответствующие им веса. Т.е. x1*w1 и тд. Получившиеся произведения поступают на сумматор и складываются.

Например: x1 = 3; x2 = 2; w1 = 0; w2 = - 1;

(3 * 0) + (2 * (-1)) = - 2

Полученная сумма поступает в блок нелинейного преобразования, где находится функция активации.

Функцию активации используют для нормализации входных данных. Т.е. если выходное значение, как в нашем примере, - 2, которое не несёт в себе необходимого нам смысла, мы преобразуем его к 1 или 0.

В таком случае используется функция единичного скачка. Когда значение заряда превышает какой-то порог, то нейрон выдает значение 1, иначе 0. Значение порога задаётся разработчиком, поскольку нейронная сеть под него подстраивается.

2.1.2 Типы нейронных сетей

Нейронные сети разделяются по своему строению (однослойные и многослойные) и связям (с прямыми связями и обратными).

Единственное сходство однослойных нейронных сетей и многослойных - это то, что входные нейроны не обрабатывают, а лишь принимают сигналы на обработку.

Рис.2.4 - Разновидность нейронных сетей

1. Однослойные нейронные сети - данные с входных слоёв поступают сразу на выходной слой, который и обрабатывает сигналы.

Рис.2.5 - Пример однослойной нейронной сети

2. Многослойные нейронные сети - по своему принципу работы гораздо сложнее, тем самым достигают больших возможностей. Главная особенность - скрытые (или обрабатывающие) слои. Мы не видим какие сигналы поступают к ним на входы. Используются для обработки входных данных и зачастую имеют пороговую функцию. Количество слоёв задаётся разработчиком.

Рис.2.6 - Пример многослойной нейронной сети

3. Сети с прямыми связями могут быть как многослойные, так и однослойные. Такие сети способны на прогнозирование, распознавание образов, на классификацию и многое другое.

4. Сети с обратными связями могут иметь разное количество слоёв. Главная особенность заключается в том, что они имеют ассоциативную (кратковременную) память. Используются в управлении, классификации и т.д.

Рис.2.7 - Пример нейронной сети с обратной связью

Персептрон

Одно из важнейших понятий при моделировании адаптивного поведения.

Персептрон - нейронная сеть рецептор. Состоит из слоёв 3 видов: входные (S), обрабатывающие (А) и выходные (R).

Входные нейроны могут быть в возбуждённом состоянии, либо в состоянии покоя.

2.1.3 Обучение нейронной сети

Перейдём к самой важной части, а именно обучение нейронной сети. Обучение нейронной сети представляет из себя изменение весовых коэффициентов.

Правило Хебба №1

Данное правило состоит из нескольких этапов и характеризует процесс обучения:

1. Если нейронная сеть выдаёт правильный результат, то весовые коэффициенты не изменяются;

2. Если нейронная сеть ошиблась и не дала правильный ответ, то система "наказывается", весовые коэффициенты уменьшаются;

3. Если нейронная сеть ошиблась и отвергла правильный результат, то весовые коэффициенты уменьшаются.

Входные сигналы принимают значения - 1,1,0. Действительно чаще всего с однослойными персептронами.

Правило Хебба №2

Данное правило имеет место быть со всеми типами и значениями входных и выходных данных. Данное правило позволяет получить новые весовые коэффициенты.

Сперва находится ошибка сети, чаще всего - разность правильного и не правильного ответов.

(2.2)

Теперь непосредственно сама формула:

(2.3)

Где,

w (t + 1) - новый весовой коэффициент.

w - старый весовой коэффициент

err - ошибка (разность правильного ответа и ответа сети)

n - скорость обучения (принимает значения от 0 до 1)

xi - значение которое пришло на i-ый вход

Метод обратного распространения ошибки

Самым лучшим методом обучения нейронных сетей, применяемых как для многослойных, так и для однослойных. Схожа с правилом Хебба №2, но в данном случае, мы заводим счётчик ошибок. Если этот счётчик равен 0, то нейронная сеть обучена. Следовательно, нам необходимо иметь обучающую выборку.

Алгоритм обучения методом обратного распространения ошибки:


Подобные документы

  • Понятие адаптивного управления как совокупности действий и методов, характеризующихся способностью управляющей системы реагировать на изменения внешней среды. Применение метода сетевого оператора для синтеза адаптивного управления мобильным роботом.

    дипломная работа [1,4 M], добавлен 17.09.2013

  • Разработка программы, моделирующей процессы обучения, работы и прогнозирования ИНС с использованием постоянного, а также адаптивного шага обучения. Исследование поведения системы в зависимости от количества входов при постоянном шаге самообучения.

    контрольная работа [92,5 K], добавлен 16.10.2011

  • Общие сведения о принципах построения нейронных сетей. Искусственные нейронные системы. Математическая модель нейрона. Классификация нейронных сетей. Правила обучения Хэбба, Розенблатта и Видроу-Хоффа. Алгоритм обратного распространения ошибки.

    дипломная работа [814,6 K], добавлен 29.09.2014

  • Понятие и свойства искусственных нейронных сетей, их функциональное сходство с человеческим мозгом, принцип их работы, области использования. Экспертная система и надежность нейронных сетей. Модель искусственного нейрона с активационной функцией.

    реферат [158,2 K], добавлен 16.03.2011

  • Описание технологического процесса напуска бумаги. Конструкция бумагоделательной машины. Обоснование применения нейронных сетей в управлении формованием бумажного полотна. Математическая модель нейрона. Моделирование двух структур нейронных сетей.

    курсовая работа [1,5 M], добавлен 15.10.2012

  • Анализ существующих стандартов образовательных сред в системах адаптивного компьютерного обучения. Краткая характеристика и оценка состояния рассматриваемой проблемы. Стандарты и спецификации ЭО. Обоснование выбранного метода направления исследования.

    научная работа [8,3 K], добавлен 29.01.2009

  • Диагностический анализ изучения алгоритмов обучения нейронных сетей "с учителем". Сбор входных и выходных переменных для наблюдений и понятие пре/пост процессирования. Подготовка и обобщение многослойного персептрона, модель обратного распространения.

    курсовая работа [249,3 K], добавлен 22.06.2011

  • Построение векторной модели нейронной сети. Проектирование и разработка поискового механизма, реализующего поиск в полнотекстовой базе данных средствами нейронных сетей Кохонена с применением модифицированного алгоритма расширяющегося нейронного газа.

    курсовая работа [949,0 K], добавлен 18.07.2014

  • Способы применения нейронных сетей для решения различных математических и логических задач. Принципы архитектуры их построения и цели работы программных комплексов. Основные достоинства и недостатки каждой из них. Пример рекуррентной сети Элмана.

    курсовая работа [377,4 K], добавлен 26.02.2015

  • Искусственные нейронные сети как одна из широко известных и используемых моделей машинного обучения. Знакомство с особенностями разработки системы распознавания изображений на основе аппарата искусственных нейронных сетей. Анализ типов машинного обучения.

    дипломная работа [1,8 M], добавлен 08.02.2017

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.