Адаптивный мобильный робот
Рассмотрение вопросов моделирования простейших форм адаптивного поведения на базе универсального мобильного миниробота "Адаптант-2005". Демонстрация процесса возникновения и угасания условных рефлексов. Решение "стандартных" робототехнических задач.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | реферат |
Язык | русский |
Дата добавления | 15.06.2018 |
Размер файла | 552,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Адаптивный мобильный робот
Добрынин Д.А., Карпов В.Э., Мещерякова Т.В., Степанов С.Н.
Творческая научно-техническая лаборатория Политехнического музея, Россия, Москва
Рассматриваются вопросы моделирования простейших форм адаптивного поведения на базе универсального мобильного миниробота. Предлагаемая в проекте архитектура робота позволяет не только демонстрировать процесс возникновения и угасания условных рефлексов, но и решать некоторые "стандартные" робототехнические задачи. Характерной особенностью робота является наличие базовых безусловных рефлексов.
Введение
"Адаптант-2005" является развитием проекта "Мобильные роботы в интеллектуальном жилище", который был представлен на международной выставке "Экспо-наука 2003". Именно 2003 год стал фактическим началом Творческой научно-технической лаборатории Политехнического музея, объединившей ученых, молодых специалистов и студентов для решения различных научно-технических задач, прежде всего - в области робототехники. миниробот условный рефлекс адаптивный
Целью проекта "Адаптант-2005" является демонстрация некоторых простейших форм адаптивного поведения, в частности - принципов моделирования условно-рефлекторного поведения, на базе универсального мобильного миниробота.
Миниробот представляет собой автономную тележку, имеющую на борту программируемый контроллер, набор различных датчиков, исполнительные механизмы (эффекторы), радиоканал или другие модули связи с управляющим компьютером. Робот построен по модульному принципу, что позволяет использовать его компоненты для других разработок.
Алгоритм адаптивного поведения
Управляющая программа робота основана на использовании вероятностного автомата. Краткое теоретическое описание принципов работы системы заключается в следующем.
Имеется устройство с N датчиками и M эффекторами (исполнительными механизмами). Таким образом, входной алфавит составляет X=2N сигналов, а выходной - Y=2M. При этом рассматривается автомат с детерминированной матрицей переходов по всем 2N сигналам. Действия автомат совершает в соответствии со стохастической матрицей P размером QЧXЧY, где Q - количество состояний. Т.е., находясь в некотором состоянии q(t) и приняв на входе сигнал x(t), автомат переходит в состояние q(t+1). При этом он совершает действие y, выбираемое из соответствующего вектора вероятностей - строки матрицы P:
y(t+1) = F(x(t), q(t), P(t)),
q(t+1) = Q(x(t),q(t)).
Реакция автомата на входное воздействие оценивается - автомат наказывается либо поощряется. Смысл реакции на сигнал наказания/поощрения заключается в изменении значений вероятностей выполняемых действий. Теоретически изменение вероятностей при поощрении (s=0) и наказании (s = 1) выглядит так:
pij(t+1,s(t)) = pij(t,s(t))+(-1)s(t+1)gpij(t,s(t))[1-pij(t,s(t))]
pik(t+1,s(t)) = pik(t,s(t))-(-1)s(t+1)gpik(t,s(t))pij(t,s(t)) для kj. 0g1
Здесь g - параметр, определяющий скорость обучения. Таким образом, с течением времени в ходе "дрессировки" автомат должен сформировать необходимые значения вероятностей действий. При этом открытым остается вопрос о выборе оптимальной структуры автомата.
При восьми исполнительных устройствах и десятке датчиков мы уже получаем достаточно внушительные входные и выходные алфавиты. Т.е. учиться автомату приходится довольно долго (к тому же нельзя забывать, что все это должно происходить в "реальном времени"). Поэтому увеличивать способности автомата к оценке ситуации за счет расширения памяти - добавления новых состояний - крайне невыгодно с точки зрения времени обучения. В теории (с точки зрения имитационного моделирования) неплохие результаты показывает полносвязный автомат из трех состояний:
Рис.1. Структура управляющего автомата
Однако на практике вполне можно обойтись автоматом "без памяти" - с одним состоянием. На самом деле память реализована матрицей P, но речь идет о том, что автомат не различает понятия "предыдущие моменты времени".
Реализация схемы наказания/поощрения
При дрессировке обычно используются как наказание, так и поощрение. Первое устраняет нежелательные реакции, второе подкрепляет нужные. Теоретически при выработке условных рефлексов можно обойтись исключительно наказаниями (отсутствие наказания может и должно рассматриваться как поощрение). Однако отсутствие сигнала поощрения значительно увеличивает время обучения автомата. Основная проблема заключается в том, когда и за что наказывать/поощрять. Между свершением действия и его оценкой проходит какое-то время. Предположим, что действие было оценено как неверное и объекту был послан сигнал наказания. За это время объект мог совершить еще много чего, потому, получив сигнал наказания, возникает закономерный вопрос: а за что, собственно, наказали? В модели все просто. Имеется дискретный такт времени, все синхронизировано и однозначно. Реально же и действия объекта могут иметь различную продолжительность, и скорость реакции оценивающей системы может варьироваться, да и сами сигналы имеют асинхронный характер.
Можно предложить 2 подхода к решению этой проблемы: синхронный и асинхронный способы подачи оценивающих воздействий.
Асинхронный вариант является наиболее естественным и в некотором смысле психологически обоснованным.
Суть его сводится к тому, что, во-первых, все действия объекта должны иметь примерно равную и наперед заданную продолжительность. Во-вторых, совершив очередное действие, объект встает на паузу, замирает, ожидая реакции системы. Все это очень похоже на поведение неуверенного в своих действиях человека, живущего с постоянной оглядкой и, совершая что-либо, ожидающего возмездия - не накажут ли. Условно этот режим "периодического" функционирования изображен на рис.2,а. Аналогичный режим "непрерывного" функционирования (рис.2,б), когда продолжительность действий также фиксирована, но пауза стремится к нулю, показывает худшие с точки зрения обучения результаты. Это связано с "промахами" наказания, т.к. время реакции оценивающей системы р должно быть жестко связано продолжительностью действия д: р<д.
Рис.2. Режимы периодического (а) и непрерывного (б) оценивания
Синхронный метод подачи оценочного воздействия сводится к тому, что после совершения действия автомат выдает сигнал готовности к приему оценки и ждет в течение некоторого времени. По окончании времени ожидания автомат выдает сигнал неготовности к приему. С точки зрения эффективности организации взаимодействия обучаемого с учителем, это - наиболее простой вариант. Именно он и был реализован в проекте.
Реализация и эксперименты
Созданный мобильный робот - Адаптивный Мобильный Универсальный Робот (АМУР-2) построен на основе однокристальной ЭВМ ATmega8515. Тактовой частоты в 7MHz и 8K памяти достаточно не только для реализации управляющего автомата (одно состояние и синхронный метод обучения), но и для хранения более сложных поведенческих подпрограмм - езды по инверсной линии с самопересечениями и поиска источника света.
Рис.3. Архитектура системы и внешний вид робота
Для поощрения/наказания может использоваться как пульт ручного управления (радиоканал на 4 команды: поощрение, наказание и эмуляция фотодатчиков-глаз), так и управляющая ЭВМ, использующая специальную программу полной эмуляции входных/выходных сигналов робота через интерфейс RS232. "Дрессировка" с помощью ЭВМ, естественно, значительно эффективнее, т.к. при "ручной дрессуре", несмотря на издаваемые роботом звуковые сигналы готовности, промахи совершаются оператором достаточно часто. Это тем более актуально, что для обучения какому-либо рефлексу (типичный пример - "при попадании света в правый глаз робот должен издать радостный возглас") требуется порядка 10-12 тактов обучения.
Характерным для поведения робота является наличие безусловных рефлексов. В любом состоянии, выполняя то или иное действие, робот прежде всего анализирует сигналы от датчиков наивысшего приоритета, таких, как контактные датчики или датчик заряда аккумулятора. Скажем, решая задачу поиска линии, робот отреагирует на внезапно появившееся препятствие и начнет маневр уклонения. После отработки безусловного рефлекса робот вернется к прерванному действию.
И последнее замечание. Упомянутая процедура езды по линии, являясь данью традициям и регламенту фестиваля, также основана на автоматной модели. Датчики полосы образованы 4 парами ИК-приемник/излучатель. Несмотря на предельную дискретность управления (специфика основной задачи), этого оказалось достаточно для устойчивого прохождения трассы.
Заключение
Созданное устройство продемонстрировало эффективность предложенной архитектуры миниробота, успешно решая не только основную задачу - реализацию модели условно-рефлекторного поведения, но и легко настраиваясь на решение иных, более узких и специализированных задач. Таким образом, этот робот может рассматриваться как универсальный полигон, на котором можно отрабатывать решение управленческих, интеллектуальных и прочих интересных задач.
Литература
Цетлин М.Л. Исследования по теории автоматов и моделированию биологических систем. -М.:Наука, 1969.
Adaptive mobile robot
Some questions of modeling of the elementary forms of adaptive behavior on the basis of universal mobile minirobot are considered. The architecture of the robot offered in the project allows not only to demonstrate the process of occurrence and fading of conditioned reflexes, but also to solve some "standard" robotics tests. Prominent feature of the robot is presence of base unconditioned reflexes.
Размещено на Allbest.ru
Подобные документы
Обзор существующих мобильных роботов и их виды: на гусеничном ходу, на колёсном ходу, стационарные. Разработка проекта совершенного мобильного робота для обезвреживания взрывоопасных объектов. Описание информационной системы для управления механизмом.
курсовая работа [2,6 M], добавлен 25.06.2013- Разработка и исследование метода сетевого оператора для адаптивного управления динамическим объектом
Понятие адаптивного управления как совокупности действий и методов, характеризующихся способностью управляющей системы реагировать на изменения внешней среды. Применение метода сетевого оператора для синтеза адаптивного управления мобильным роботом.
дипломная работа [1,4 M], добавлен 17.09.2013 Анализ робототехнических систем. Принципы компьютерного моделирования. Классификация компьютерных моделей по типу математической схемы. Моделирование пространства и объектов рабочей области с помощью визуальной среды Visual Simulation Environment.
дипломная работа [2,0 M], добавлен 08.06.2014Назначение и область применения набора MicroCamp, расположение элементов на его плате. Обобщенная структурная схема и технические характеристики мобильного робота. Обзор микроконтроллера Atmega 8. Разработка программного обеспечения для набора MicrоCamp.
курсовая работа [7,1 M], добавлен 15.07.2012Обзор схемы конструкции автоматизированного мобильного робота. Выбор компонентов конструкции. Общая классификация роботов; виды двигателей. Выбор типа микроконтроллера. Осуществление программирования на основе расчётов по математической модели робота.
курсовая работа [1,2 M], добавлен 20.05.2015Роль и возможности адаптивной модели в организации образовательного процесса. Структура и механизм навигации в адаптивной модели обучения АЯП Prolog. Программная реализация адаптивной модели обучения. Демонстрация созданного программного продукта.
курсовая работа [1,6 M], добавлен 19.06.2015История возникновения и развития современной робототехники, применение технологий искусственного интеллекта. Разработка структурной схемы системы навигации мобильного робота, коррекция траектории его движения, методы управления локальными перемещениями.
дипломная работа [1,1 M], добавлен 18.05.2011Изучение языков программирования PHP, SQL, C++, HTML. Рассмотрение правил запуска и использования локального сервера Denwer. Составление технического задания по разработке программного продукта. Описание создаваемого мобильного и веб-приложения.
курсовая работа [212,4 K], добавлен 07.04.2015Классификация мобильных роботов по сферам применения. Структура мобильного робототехнического комплекса. Беспилотный военный автомобиль Guardium. Датчики робототехнических систем. Интерфейс для датчика оптокоммутатора. Открытый интерфейс iRobot Create.
дипломная работа [4,2 M], добавлен 05.08.2010Порядок и назначение разработки подсистемы планирования действий интеллектуального робота. Задачи, решаемые данной подсистемой и функциональные требования к ней. Информационное моделирование функционирования интеллектуального робота и управление им.
дипломная работа [864,0 K], добавлен 10.06.2010