Алгебраїчні методи у теорії нейронної асоціативної пам’яті

Розробка проекту по удосконаленню математичних моделей в теорії нейронної асоціативної пам'яті і впровадженню нової архітектури і алгоритмів вчення асоціативних нейромереж. Опис представлення матриць за допомогою точок різноманіття спектрального аналізу.

Рубрика Математика
Вид автореферат
Язык украинский
Дата добавления 11.10.2011
Размер файла 47,9 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

26

Національна академія наук України

Інститут кібернетики імені В.М. Глушкова

УДК 519.8; 681.5

АВТОРЕФЕРАТ
дисертації на здобуття наукового ступеня кандидата фізико-математичних наук

АЛГЕБРАЇЧНІ МЕТОДИ В ТЕОРІЇ НЕЙРОННОЇ АСОЦІАТИВНОЇ ПАМ'ЯТІ

01.05.02 - Математичне моделювання

та обчислювальні методи

НОВИЦЬКИЙ Дмитро Вадимович

Київ-2005

Дисертацією є рукопис

Робота виконана в Інституті проблем математичних машин і систем НАН України

Науковий керівник: доктор технічних наук

Різник Олександр Михайлович,

Інститут проблем математичних машин і систем НАН України, завідувач відділу нейротехнологій

Офіційні опоненти: доктор фізико-математичних наук, професор

Норкін Володимир Іванович,

Інститут кібернетики імені В.М. Глушкова,

провідний науковий співробітник

доктор фізико-математичних наук, професор

Макаренко Олександр Сергійович,

Інститут прикладного системного аналізу НТУУ КПІ,

провідний науковий співробітник

Провідна установа: Київський національний університет ім. Т.Г. Шевченка, кафедра математичної інформатики факультету кібернетики.

Захист відбудеться “ 25 ” лютого 2005р. о (об) _11_ годині на засіданні спеціалізованої вченої ради Д 26.194.02 при Інституті кібернетики імені В.М. Глушкова НАН України за адресою:

03680, МСП, Київ-187, проспект академіка Глушкова 40.

З дисертацією можна ознайомитися в науково-технічному архіві інституту.

Автореферат розіслано 24 ” січня 2005 р.

Вчений секретар спеціалізованої вченої ради СИНЯВСЬКИЙ В.Ф.

ЗАГАЛЬНА ХАРАКТЕРИСТКА РОБОТИ

Актуальність теми. Асоціативна пам'ять (АП) посідає значне місце у світі сучасної інформатики та інформаційних технологій. Системи на базі АП широко використовуються для пошуку інформації, вирішення задач штучного інтелекту, виконання паралельних обчислень тощо. Крім того методи АП знаходять застосування при моделюванні роботи мозку та вивченні процесів психіки, оскільки пам'ять живих істот, зокрема людини, на відміну від звичайної комп'ютерної пам'яті є асоціативною.

Існує багато принципів та підходів до апаратної чи програмної реалізації АП - від порівняно простих, типу хеш-адресації, до досить складних методів пошуку в базах даних. На цьому тлі можна визначити методи асоціативної пам'яті, що базуються на застосуванні штучних нейронних мереж. Здатність нейронної мережі до навчання дозволяє їй виявляти приховані асоціативні зв'язки між вхідними даними та образами, збереженими в пам'яті. Нейронна асоціативна пам'ять (НАП) є придатною для обробки різноманітних даних, розпізнавання образів, побудови сучасних систем штучного інтелекту. В останні роки методи НАП застосовуються для комп'ютерного моделювання біологічних нейросистем, зокрема побудови моделі гіпокампу ссавців та людини.

Попри постійне зростання інтересу до НАП досі залишається багато невирішених проблем, що перешкоджають поширенню сфери її застосування. Характер цих проблем залежить від типу нейропарадигми, застосовуваної для створення асоціативної пам'яті. У випадку парадигм ітеративного навчання, таких як мережа прямого розповсюдження, або здатна до самоорганізації мапа Кохонена, невирішеною є проблема прискорення процесу навчання, який потребує багато часу та обчислювальних ресурсів. Для неітеративних парадигм (мережа Хопфілда, мережі на основі псевдоінверсного алгоритму навчання) проблематичним є подальше збільшення обсягу асоціативної пам'яті та надання такій НАП здатності до узагальнення даних.

За останні роки в Інституті математичних машин і систем НАН України за участю автора здійснено низку досліджень неітеративних нейромереж, які дозволили значно поліпшити характеристики НАП та запропонувати нові напрямки вирішення згаданих проблем. Реалізація деяких з цих пропозицій становить предмет даного дисертаційного дослідження. У дисертаційній роботі проведено теоретичний аналіз НАП за допомогою методів алгебри, який дозолив пояснити раніш спостережені явища, та побудувати узагальнені моделі асоціативної пам'яті із застосуванням геометричних методів та нелінійних перетворень. Розроблено нові типи НАП, які відрізняються збільшеним обсягом асоціативної пам'яті та здатністю до узагальнення даних.

Зв'язок роботи з науковими програмами, планами, темами. Основні дослідження за темою дисертації проводились в Інституті математичних машин і систем НАН України в межах виконання таких науково-дослідних робіт:

- “Дослідження та удосконалення засобів інтерфейсу нейрокомп'ютерів із застосуванням структурних методів кодування даних” (Інтерфейс) за програмою фундаментальних досліджень ІПММС НАН України № 040101.

- “Розробка серії нейрокомп'ютерів загального призначення” за програмою науково-технічних робіт МОН України № 4.1.3.А.

- “Smart sensors for field screening of air pollutants” за міжнародною програмою INTAS №01-257.

Мета і задачі дослідження. Метою дослідження в дисертаційній роботі є удосконалення математичних моделей нейронної асоціативної пам'яті та розробка нових, більш ефективних алгоритмів навчання асоціативних нейромереж.

В дисертаційній роботі поставлено та розв'язано такі задачі:

- застосування геометричних методів для дослідження різних типів НАП;

- створення теоретичної моделі та розробка алгоритмів НАП, здатної до самонавчання, узагальнення та кластеризації даних;

- теоретичне обґрунтування ефекту відновлення асоціативної пам'яті при заміні частини нейронів мережі;

- розробка нелінійних моделей НАП на базі ядерного підходу;

- експериментальне випробування розроблених методів на прикладах вирішення задач розпізнавання графічних зображень та хімічних образів.

Об'єкт дослідження. Об'єктом дослідження є нейронні мережі асоціативної пам'яті та їх математичні моделі.

Предмет дослідження. Предметом дослідження є математичні структури, що виникають при моделюванні нейромереж, такі, як матриці, ріманові многовиди тощо, а також алгоритми навчання нейронної асоціативної пам'яті.

Методи дослідження.

При розробці теоретичних моделей та алгоритмів нейронної асоціативної пам'яті застосовувалися методи алгебри, ріманової геометрії, математичної статистики, оптимізації, функціонального аналізу, імітаційного моделювання, програмування тощо.

Наукова новизна одержаних результатів. Основними науковими результатами є такі:

- запропоновано метод зображення вагових матриць НАП за допомогою точок на многовиді Грасмана та доведено можливість застосування цього методу для створення НАП, здатної до узагальнення даних;

- запропоновано та досліджено нову модель НАП, здатної до навчання без учителя та кластеризації даних;

- запропоновано метод застосування спектрального аналізу матриць для вивчення властивостей НАП;

- отримано теоретичне пояснення явища відновлення частково зруйнованої асоціативної пам'яті при повторному навчанні, досліджено природу інваріантних підпросторів ушкодженої та відновленої вагових матриць;

- вперше створено і досліджено НАП на основі ядерного підходу, яка має збільшену ємність пам'яті ті дозволяє вирішувати більш широке коло задач;

- одержано оцінку верхньої межі ємності асоціативної пам'яті з клітинною архітектурою;

- експериментально доведено можливість застосування НАП в задачах розпізнавання хімічних образів (система типу “електронний ніс”) та продемонстровано її переваги порівняно з використанням традиційних для цієї задачі нейропарадигм.

Практичне значення одержаних результатів. Практичне значення роботи полягає у розширенні сфери застосування НАП. Досліджено теоретичні моделі і розроблено алгоритми та архітектури НАП здатні працювати з новими типами даних, запам'ятовувати більшу кількість образів, навчатися без вчителя, узагальнювати та кластеризувати великі масиви даних. Все це робить можливим вирішення за допомогою НАП більш широкого кола прикладних задач, ніж було можливо раніше. Ефективність застосування створених нових моделей НАП продемонстровано на прикладах розв'язання задач розпізнавання зорових та хімічних образів.

Особистий внесок здобувача полягає в розробці нових методів теоретичного дослідження нейронної асоціативної пам'яті та створенні нових алгоритмів. Всі основні результати дисертаційної роботи одержані автором самостійно. В публікаціях, написаних у співавторстві, здобувачеві належить: у роботах [Ошибка! Источник ссылки не найден.,Ошибка! Источник ссылки не найден.] -дослідження розподілу елементів синаптичної матриці та отримання обмеження на ємність неповнозв'язних мереж, програмна реалізація належить співавторові, інші результати виконані на паритетних засадах; в роботі здобувачеві належить розробка алгоритму та теоретичні дослідження, програмна реалізація та експериментальні дослідження належать співавторові; в роботах - дослідження застосування асоціативної пам'яті у комбінації з методом головних компонент та мережею прямого розповсюдження. В роботі постановка задачі належить співавторові, а розв'язок - здобувачеві.

Апробація результатів роботи. Основні результати роботи доповідалися та обговорювалися на наукових семінарах та конференціях, зокрема на:

1. VIII Всеросійській конференції “Нейрокомпьютеры и их применение” НКП-2002, Москва, 21-22 марта 2002 г.

2. міжнародній конференції з індуктивного моделювання “МКІМ_2002”, Державний НДІ інформаційної інфраструктури, Львів, 20-25 травня 2002 р.

3. міжнародній конференції “International conference on Neural Information Processing, ICONIP'02 Singapore, November 18-22, 2002.

4. міжнародній конференції “10th International Symposium on Olfaction and Electronic Nose”, 26 - 28 June, 2003, Riga, Latvia.

5. Міжнародній конференції “International Joint Conference on Neural Networks” IJCNN'03, Portland , Oregon, USA, July 20-24, 2003.

6. Міжнародній конференції “International Joint Conference on Neural Networks” IJCNN'04, Budapest, Hungary, July 25-28, 2004.

Публікації. Основні результати роботи викладені в 13 друкованих роботах, з яких 3 - статті у наукових фахових журналах, рекомендованих ВАК України. З них - 2 виконано без співавторів.

Структура дисертації. Дисертація складається зі вступу, шести розділів, висновків, додатків, та списку використаних джерел з 106 найменувань. Обсяг дисертації - 114 сторінок основного тексту російською мовою, ілюстрованих 28 рисунками та 4 таблицями.

ЗМІСТ РОБОТИ

У вступі обґрунтовано вибір теми дисертаційної роботи та її актуальність, сформульовано задачі дослідження, відзначено наукову новизну та практичне значення одержаних результатів.

У першому розділі розглянуто сучасний стан теорії та практичного застосування асоціативної пам'яті. Поняття асоціативної (тобто такої, що адресується контекстно) пам'яті виникло в 1950-і роки, із зародженням computer science. Ранні роботи у цій галузі присвячені, переважно, апаратній реалізації асоціативної пам'яті, зокрема застосуванню методу хеш-адресації. Недоліком цього методу є необхідність точного збігу пошукового ключа з еталоном, який зберігається у пам'яті. Пізніше цей недолік було усунуто в методі надлишкової хеш-адресації, за яким асоціативний пошук даних здійснюється за метрично близьким ключем. Нейронна асоціативна пам'ять як поняття з'являється в 1970-і роки в роботах Т. Кохонена. Ним було вперше запропоновано застосування проекційних операторів і псевдоінверсії за Муром-Пенроузом для побудови гетероасоціативної пам'яті.

Найвідомішою є модель НАП, що базується на застосуванні симетричної нейронної мережі, запропонованої Дж. Хопфілдом в 1982 р. Ця мережа дістала широку популярність завдяки аналогії зі спіновим склом - об'єктом, широко відомим у фізиці конденсованого стану. Мережа Хопфілда є мультистабільною, здатною до конвергенції - переходу з довільного початкового стану в найближчий сталий стан (атрактор). Множина атракторів визначає зміст асоціативної пам'яті. Перша НАП - двонаправлена асоціативна пам'ять (ДАП) була створена Б. Коско в 1984р. Вона мала архітектуру двошарової нейромережі, а за функціонуванням та методом навчання нагадувала мережу Хопфілда. Відомо кілька модифікацій ДАП, але загальним їх недоліком є низька ємність пам'яті. Серед інших моделей НАП на основі мережі Хопфілда найбільш розвиненою можна вважати асоціативно-проективну нейромережу, створену в 1990р Е.М. Куссулем. В ній застосовано бінарне кодування вагових матриць та ансамблеве представлення даних в асоціативній пам'яті. Існують також менш відомі моделі, основані на застосуванні інших нейропарадигм, зокрема квантову асоціативну пам'ять, пам'ять на основі мереж прямого розповсюдження та НАП на основі здатної до самоорганізації мапи Кохонена.

Новим етапом в розвитку теорії НАП стала розробка в 1986 р. Персоназом та ін. псевдоінверсного (проекційного) алгоритму навчання мережі Хопфілда, основаного на використанні методів лінійної алгебри. В теорії псевдоінверсної НАП важливе місце посідає поняття атракторного радіусу (АР) , що визначає максимальну відстань H (за Хемінгом) між вектором початкового стану мережі як динамічної системи та її нерухомою точкою (атрактором), яка долається за один крок конвергенції. Важливі результати в розвитку псевдоінверсного алгоритму одержано українськими вченими: О.М. Різником, М. Ф. Кириченко, Д.О. Городничим, О.С. Сичовим. За кордоном найбільш відомими є роботи А.Н. Мішель, М. Бруколі, М. Охта, Д. Грассі. Одержані ними результати сприяли збільшенню ефективності та розширенню сфери практичного застосування НАП. Було також виявлено нові явища та властивості асоціативних нейромереж, які можуть бути використані для подальшого удосконалення НАП. Значна частина цих явищ не має задовільного пояснення в межах існуючої теорії асоціативних нейромереж, що зумовлює необхідність модернізації цієї теорії з більш широким застосуванням методів алгебри, ріманової геометрії, математичної статистики тощо.

На основі проведеного аналізу було виявлено три напрямки, у яких можливо подальше удосконалення неітеративних НАП. По-перше, це надання їм можливості узагальнювати данні. У дисертаційній роботі цю проблему вирішено шляхом застосування узагальненого усереднення на многовиді Грасмана. По-друге, це розробка аналітичних моделей для розріджених асоціативних нейромереж, щодо яких існує багато експериментального матеріалу. Останній напрямок - це збільшення обсягу та покращення ефективності НАП шляхом застосування ядерних методів.

У другому розділі розглянуто методи дослідження НАП за допомогою (інваріантних) лінійних підпросторів в Rn та многовидів Грасмана. Показано, що запам'ятовування образів в моделі псевдоінверсної асоціативної пам'яті здійснюється за допомогою інваріантних підпросторів лінійного проекційного оператора, причому це поширюється і на інші моделі НАП. Доведено, зокрема, тотожність інваріантних просторів матриці, одержуваної за правилом Хопфілда та за проекційним алгоритмом.

Відображення інваріантних підпросторів лінійного проекційного оператора за допомогою набору власних векторів є неоднозначним. Однак існує математична модель, що дозволяє описати множину всіх лінійних підпросторів розмірності m в Rn. Це ріманів многовид Грасмана. Ріманова структура цього многовиду дозволяє ввести дотичні простори, метрику, геодезичні, відстань. Застосовуючи цю модель можна знайти точні рішення для низки задач, які раніше вирішувалися лише приблизно.

Відображення на многовид Грасмана можна використовувати також для порівняння наборів власних векторів вагових матриць, одержуваних при різних відхиленнях від проекційного алгоритму.

Справді, майже будь-яке збурення початкової матриці усуває виродження: m-кратне власне значення 1 розпадається на m різних власних чисел. Може статися, що отримані при цьому власні вектори значно відрізняються від тих, що зберігалися в пам'яті.

Щоб коректно порівняти такі мережі, треба мати можливість визначити відстань між інваріантними підпросторами як такими. Мірою близькості може служити метрика на многовиді Грасмана. Порівняння пам'яті двох проекційних матриць описує

Теорема 2.1. Нехай X та Y - проекційні матриці розміром nn. Тоді, щоб відповідні АП мали однаковій набір атракторів, достатнім є виконання нерівності:

Важливу інформацію про зміст пам'яті НАП містить спектр, тобто власні числа (ВЧ) вагових матриць. Навіть якщо вагова матриця НАП відрізняється від проекційної, спектр її власних значень має дві частини: одна складається із близьких до одиниці ВЧ, інша - з менших одиниці за модулем, можливо, від'ємних. Під час конвергенції проекція на лінійну оболонку векторів із другої частини швидко спадає. Приклад спектрів матриць для псевдоінверсної НАП та мережі Хопфілда, які складалися зі 128 нейронів та мали 32 образи у пам'яті, наведено на рис. 1.

У випадку, коли різні симетричні матриці мають той самий інваріантний підпростір, що і проекційна матриця НАП, має місце

Теорема 2.2. Нехай C - проекційна рангу m, та X - самоспряжена матриці, що мають спільний власний базис. Хай - власні числа X, розташовані у порядку зменшення. Тоді мережі асоціативної пам'яті з такими матрицями зберігають однаковий набір образів, якщо:

.

Також у цьому розділі розглянуто методи оптимізації на ріманових многовидах, які можуть бути використані в алгоритмах навчання НАП. Запропоновано версії алгоритмів Ньютона, призначені для розв'язку задачі оптимізації на многовиді у вигляді:

При цьому метод Ньютона набуває вигляд:

,

де символ означає коваріантне диференціювання, а exp - це експоненційне відображення із дотичного простору на многовид. Збіжність модифікованого методу Ньютона на многовиді гарантує

Теорема. 2.3. Нехай двічі неперервно коваріантно диференційована на відкритій множині . Нехай множина рівня компактна. Тоді послідовність ітерацій модифікованого методу Ньютона на многовиді M , що починається з x0 , збігається до точки локального мінімуму.

Будь-які методи оптимізації на многовидах потребують реалізації, що включає у себе обчислення коваріантних похідних, експоненційних відображень тощо. У роботі реалізовано алгоритми геометричної оптимізації у випадку підмноговидів в евклідових просторах та доведено їх коректність.

Третій розділ присвячено модифікаціям псевдоінверсної НАП, на основі неповних нейронних мереж, в яких частина вагових коефіцієнтів має нульові значення. Такі мережі можуть утворюватись при усуненні (селекції) зв'язків, абсолютна величина яких не перевищує певного порогу, або при видаленні частини нейронів псевдоінверсної НАП. Звичайно видалення зв'язків, або нейронів мережі викликає погіршення атракторних властивостей та руйнування асоціативної пам'яті. Але, як показали експериментальні дослідження, проведені О.С. Сичовим, застосовуючи додаткове навчання, можна повністю відновити зміст асоціативної пам'яті при значному ( в 3-4 рази) скороченні кількості зв'язків мережі. В даному розділі виконано теоретичний аналіз, що пояснює результати цих експериментів.

Розглянуто статистичну модель псевдоінверсної мережі, яка дозволяє оцінити наслідки селекції ваг за модулем. Показано, що елементи cij синаптичної матриці мережі з n нейронами, в якій зберігається m образів, мають розподіл, близький до нормального, із математичним сподіванням та дисперсією . За допомогою цього розподілу визначено умови, за яких синаптична матриця після селекції зв'язків матиме у пам'яті ті самі образи, що і проекційна мережа, порівняно їхні інваріантні підпростори, проаналізовано спектри власних значень. Розглянуто також варіант НАП, в якій недіагональні елементи синаптичної матриці мають дискретні значення (0, +a , або -a). Показано, що при оптимальному виборі порогу обнуління зв'язків та числа a така мережа за атракторними властивостями не поступається проекційній.

Розглянуто також властивості мережі проекційної АП, в якій видалено частину нейронів, число яких дорівнює p. Синаптична матриця такої мережі утворюється з вихідної шляхом видалення відповідного числа рядків та стовпчиків. Початковий стан синаптичної матриці можна представити як

,

де матриця X відповідає нейронам, що залишилися, а Y та Z містять зв'язки видалених нейронів. Оскільки початкова матриця була проекційною, то виявляється можливим одержати співвідношення для ваг зв'язків відсутніх нейронів:

.

Ці співвідношення є неоднозначними, тому для відновлення значення втрачених зв'язків необхідна додаткова інформація. Таку інформацію можна одержати, обчислюючи значення постсинаптичного потенціалу нейронної мережі при надходженні в неї раніше запам'ятованих векторів. Для синаптичної проекційної матриці С мережі, з якої після запам'ятовування m образів видалено p<m нейронів виконується

Теорема 3.1. Якщо відомі матриця X, а також добуток вихідної матриці C на p векторів із первісної навчальної множини, матрицю C можна відновити однозначно.

Цей результат повністю відповідає даним експериментів з додаткового навчання таких мереж, описаних в роботах О.М. Різника та О.С. Сичова.

Також розглянуто теорію клітинних мереж АП. Розглянуто статистичну модель клітинної АП на основі псевдоінверсної нейронної мережі та виконано оцінку її аттракторного радіусу. Показано, що у випадку одновимірної структури із розміром клітини 2r, виконується нерівність:

Визначено фундаментальні обмеження на ємність клітинної асоціативної пам'яті, спільні для всіх алгоритмів мереж із жорстко заданою архітектурою. Показано, що якщо что симетрична матриця X такої мережі має 2K(n) ненульових недіагональних елементів, індекси яких входять до множини S:

,

то така мережа може запам'ятати не більше K(n)/n образів.

На рис. 2 наведено результати виконаних експериментів, що підтверджують наявність такого обмеження. Тут продемонстровано граничний обсяг пам'яті при сталому розмірі клітини для мережі, що навчається за алгоритмом Бруколі а також звичайної псевдоінверсної мережі, у якій видалено усі зв'язки за межами клітин. Видно, що при зростанні числа нейронів, ємність пам'яті не збільшується, якщо розмір клітини залишається сталим (у даному випадку він дорівнює 32). Така поведінка зберігається при різних алгоритмах навчання клітинної АП.

Рис. 1. Залежність ємності пам'яті від розміру клітинної мережі при розмірі клітини 32

У четвертому розділі техніку узагальненого усереднення на ріманових многовидах застосовано для створення проекційної асоціативної пам'яті, здатної до узагальнення даних. Така система ефективно вирішує задачу навчання без учителя та кластеризації великих масивів даних.

У таких задачах кількість навчальних образів значно перевищує обсяг пам'яті окремої мережі. Це обмеження можна спробувати подолати шляхом поділу масиву образів на частини, навчання на них окремих НАП та усереднення отриманих таким чином багатьох екземплярів проекційної матриці. На жаль, звичайне усереднення синаптичних матриць призводить до швидкої втрати такою мережею здатності до конвергенції .Щоб зберігти асоціативні властивості мережі, застосуємо узагальнене усереднення, результатом якого завжди буде проекційна матриця.

Для цього спочатку будується N матриць псевдоінверсної АП Ck, кожна з яких містить m елементів навчальної вибірки. Потім, відшукується матриця X, що є розв'язком задачі оптимізації:

Матриця X, що є узагальненим середнім матриць Ck на многовиді Грасмана, має m власних векторів, які відповідають узагальненим образам даних навчальної вибірки.

Експериментальне дослідження, проведене на модельних даних показало здатність запропонованого алгоритму відтворювати еталони із масиву зашумлених даних. На Рис. 2 зображено залежність атракторного радіусу мережі від розміру h кластерів (максимальної відстані за Хемінгом від центру кластеру до його елементів), що утворювалися навколо еталонів. Число кластерів дорівнює p. Значення h=0 відповідає псевдоінверсній пам'яті, яка містить ці еталони.

Рис. 2. Залежність атракторного радіусу від розмірів кластеру (модельні дані)

Також було досліджено кластерізацію зображень - рукописних цифр. Центри кластерізації, що узагальнюють навчальні зображення наведено на Ошибка! Источник ссылки не найден..

П'ятий розділ присвячено використанню ядерних методів для збільшення ємності асоціативної пам'яті. Обмеження на ємність НАП типу Хопфілда пов'язані з тим, що така мережа зберігає запам'ятовані образи у вигляді власних векторів синаптичної матриці. Кількість таких векторів не може перевищувати числа нейронів. Подолати це обмеження можна шляхом нелінійного перетворення даних у простір більшої розмірності. Але така операція веде до відповідного збільшення розмірів вагової матриці. Щоб уникнути такого збільшення пропонується здійснювати для перетворення даних симетричну нелінійну функцю двох аргументів - ядро. За означенням, ядро - позитивно визначена дійсна функція:

Робота ядерної гетероасоціативної пам'яті полягає в наступному. Нехай необхідно запам'ятати m пар векторів: xiEX, yiEY, i1…m. Розмірності простору входів EX та простору виходів EY становлять відповідно n і p. Протягом навчання ядерної мережі обчислюється матриця S розміру mm, елементи якої мають вигляд:

а також матриця Y , розміром pm, стовпчики якої - це вихідні вектори. На етапі асоціативного пошуку за вхідним вектором x0 утворюється m-вимірний вектор z: zi=K(xi, x0), а потім вихідний вектор .

Якщо ототожнити вхідні та вихідні вектори, пам'ять стає автоасоціативною. Матриця Y, відповідно, замінюється на X зі стовпчиками _ вхідними векторами. Схему ядерної автоасоціативної пам'яті наведено на Ошибка! Источник ссылки не найден.. Пунктиром означено елементи зворотнього зв'язку, що забезпечують процес конвергенції при асоціативному пошуку. Як видно з рисунку, нелінійні перетворення за допомогою ядра здійснюються над вхідними даними для отримання вектору z. Крім того, до постсинаптичного потенціалу yt застосовують функція активації.

Перевірка ефективності створених моделей ядерної АП включала проведення двох серій експериментів на даних різної природи. В першій серії НАП запам'ятовувала 264 64-мірних векторів, компонентами яких були незалежні випадкові величини, що приймали значення +1 або -1 з рівною імовірністю. При екзамені оцінювалась величина атракторного радіусу (АР) для різних типів ядра. При належному виборі ядра ця величина досягала 10 (у метриці Хеммінга). В цих експериментах обсяг фізичної пам'яті ядерної НАП становив 266х64 комірок. Звичайна псевдоінверсна НАП для досягнення близьких результатів потребує принаймні вчетверо більшого обсягу фізичної пам'яті - 265х265 комірок.

У другій серії експериментів запам'ятовувались фотозображення розміром 3030 пікселів (обличчя людей, всього 61 зображення). Атракторний радіус оцінювався через найбільшу величину дисперсії гаусового шуму (нормально розподіленого з незалежними компонентами і нульовим середнім), доданого до вхідних даних, при якій процес екзамену НАП збігався без помилок. Приклад залежності АР від параметру ядра, одержаної для гаусового ядра подано на рис. 6.

Було також виконано експерименти по розпізнаванню векторів малої розмірності (подвійна спіраль, задача Леонарда-Крамера), у яких ядерна НАП за якістю розпізнавання не поступалася мережам прямого розповсюдження.

У шостому розділі розглянуто використання розроблених моделей та алгоритмів для розв'язання практичних задач розпізнавання хімічних образів, тобто зафіксованих у цифровій формі реакцій хімічних сенсорів у системах типу “електронний ніс”.

В дослідженні використано дані реакції сенсорів на базі мікробалансу кварцових кристалів (Quartz Crystal Microbalance, QCM). Хімічний образ складається з сигналів 6 сенсорів (A-F), заміряних щосекунди протягом експерименту тривалістю близько 300 секунд. Типові реакції сенсорів на аналіт зображені на Ошибка! Источник ссылки не найден..

Дослідження включали аналіз методів препроцесінгу даних сенсорів при вводі в нейронні мережі, пошук типу та оптимальної архітектури мережі для даного класу задач. Застосовувалися такі методи препроцесінгу: відбір показань певних сенсорів у певні проміжки часу, застосування дискретного аналогу похідної за часом, відбір найбільших значень у часовому вікні (фільтр максимуму), а також метод головних компонент. В експериментах брали участь різні типи НАП: гетероасоціативна, модульна, та ядерна асоціативна пам'ять, а також нейромережі прямого розповсюдження з алгоритмом backpropagation, що звичайно використовують в системах типу “штучний ніс”.

Серед мереж прямого розповсюдження найліпші результати (близько 90% правильних відповідей) одержано для мережі з 5 прихованими нейронами, при використанні 50 перших часових відліків, пропущених через фільтр максимуму. Близькі результати одержано при препроцесінгу даних за методом головних компонент (40 компонент).

В експериментах з НАП встановлено, що для неї ефективними є та сама організація препроцесінгу, що і для мереж прямого розповсюдження. В експериментах з ядерною та модульною НАП досягнуто якість розпізнавання що не поступається мережі прямого розповсюдження, при значно більшій швидкості навчання. при незалежному тестуванні ядерна НАП продемонструвала найліпші результати - 92-94% вірних відповідей, що помітно перевищує кращі показники для мереж прямого розповсюдження.

ОСНОВНІ РЕЗУЛЬТАТИ ТА ВИСНОВКИ

Результатом дисертаційного дослідження є удосконалення математичних моделей нейронної асоціативної пам'яті із застосуванням методів алгебри та ріманової геометрії. Знайдено теоретичне пояснення ряду експериментальних фактів та створено нові більш досконалі алгоритми нейронної асоціативної пам'яті, ефективність яких продемонстровано на прикладах вирішення прикладних задач. При проведенні досліджень одержано такі основні результати:

1. Запропоновано представлення матриць асоціативної пам'яті за допомогою точок на многовиді Грасмана. Побудовано алгоритми оптимізації на ріманових многовидах та доведено можливість їх використання в асоціативній пам'яті при вирішенні задач кластеризації даних.

2. Запропоновано та досліджено метод застосування спектрального аналізу матриць для вивчення властивостей НАП;

3. Досліджено алгоритм відновлення проекційної матриці при частковому видаленні нейронів. Доведено, що повне відновлення пам'яті досягається при залученні раніш запам'ятованих векторів, число яких дорівнює числу видалених нейронів.

4. Досліджено ємність пам'яті і одержано оцінки атракторного радіусу клітинних НАП. Доведено теорему про обмеження зверху ємності пам'яті для неповнозв'язних мереж загального вигляду.

5. Запропоновано нову модель НАП на базі ядерного перетворення даних. Розроблено програмні моделі авто- і гетероасоціативної ядерної пам'яті і продемонстровано їх ефективність.

6. Експериментально досліджено застосування АП для розпізнавання хімічних образів (електронний ніс) і продемонстровано суттєві переваги НАП у швидкості запам'ятовування даних порівняльно з нейропарадигмами, що традиційно використовуються для вирішення цієї задачі.

СПИСОК ОПУБЛІКОВАНИХ ПРАЦЬ ЗА ТЕМОЮ ДИСЕРТАЦІЇ

1. Дехтяренко А.К., Новицкий Д.В. Нейронная ассоциативная память с клеточной структурой // Математические машины и системы. - 2002. - №3. - С. 37-44.

2. Новицкий Д.В. Нейронная ассоциативная память на основе ядерных сетей // Математические машины и системы. - 2003. - №3-4.

3. Новицкий Д.В. Геометрические методы в теории нейронной ассоциативной памяти: опыт разработки алгоритма кластеризации сетей // Математические машины и системы. - 2004-№4. - С. 29-37.

4. Dedieu J.-P., Nowicki D., Symplectic Methods for the Approximation of the Exponential Map and the Newton Iteration on Riemannian Submanifolds. //To appear in the Journal of Complexity (2004).

5. A.M. Reznik, A.A. Galinskaya, O.K. Dekhtyarenko, D.W. Nowicki, “Preprocessing of matrix QCM sensors data for the classification by means of neural network” //To appear in Sensors and Actuators B, available online (2004).

6. Д.В. Новицкий. Существенно распределенные нейронные сети. Модели для классификации и восстановления зависимостей.// Моделирование процессов управления и обработки информации , Москва, МФТИ, 1999 г.

7. Дехтяренко А.К., Новицкий Д.В. Ассоциативная память на базе неполносвязных нейронных сетей // Труды конференции “Нейрокомпьютеры и их применение” НКП-2002, Москва, 21-22 марта 2002 г., С. 934-941.

8. Reznik A.M., Shirshov Yu. M., Snopok B.A., Nowicki D.W., Dekhtyarenko A.K., Kruglenko I. V. Associative Memories for Chemical Sensing//Proc. of Int. Conf. on Neural Information Processing, Singapore 2002.

9. Резник А.М., Ширшов Ю.М., Новицкий Д.В., Дехтяренко А.К., Кругленко И.В. Ассоциативная память в задачах распознавания химических образов// Праці міжнародної конференції з індуктивного моднлювання, Львів, 20-25 травня 2002 р. т.1, секція 3, С. 246-252.

10. Резник А.М., Железняк М.Й., Новицький Д.В., Кужель К.М, Дончиць Г.В. Використання штучної нейронної мережі для короткотермінового прогнозування повеней// Праці міжнародної конференції з індуктивного моднлювання, Львів, 20-25 травня 2002 р. т.2, секція 3, С. 96-102 .

11. A.M. Reznik, A.A. Galinskaya, O.K. Dekhtyarenko, D.W. Nowicki, A comparison of preprocessing techniques for matrix QCM sensors data classified by neural network// Proc. of the 10th International Symposium on Olfaction and Electronic Nose, 26 - 28 June, 2003, Riga, Latvia, p. 189.

12. A.M. Reznik, A.S. Sitchov, O.K. Dekhtyarenko, and D.W. Nowicki, Associative Memories with "Killed" Neurons: the Methods of Recovery// Proc. IJCNN'03, Portland, Oregon, July 20-24, p. 2579-2582.

13. D.W.Nowicki, O.K. Dekhtyarenko, Kernel-Based Associative Memory // Proc. IJCNN'04, Budapest, Hungary, July 25-28, p. 741-744.

АННОТАЦІЯ

Новицький Д.В. Алгебраїчні методи у теорії нейронної асоціативної пам'яті. - Рукопис.

Дисертація на здобуття наукового ступеню кандидата фізико-математичних наук за спеціальністю 01.05.02 - математичне моделювання та обчислювальні методи. - Інститут Кібернетики імені В.М. Глушкова НАН України, Київ, 2005.

Дисертація присвячена удосконаленню математичних моделей у теорії нейронної асоціативної пам'яті, а також розробці нових архітектур і алгоритмів навчання асоціативних нейромереж. Запропоновано зображення синаптичних матриць за допомогою точок на многовиді Грасмана, та досліджено метод застосування спектрального аналізу матриць для вивчення властивостей НАП. Отримано умови при яких мережі з двома різними матрицями мають один набір образів у пам'яті. Досліджено статистичні властивості елементів синаптичної матриці НАП та їх зв'язок з алгоритмом селекції зв'язків. Теоретично обґрунтовано явище відновлення асоціативної мережі з видаленими нейронами. Досліджено клітинні мережі асоціативної пам'яті, їх атракторні властивості та межі ємності пам'яті. Застосовано ядерні методи до систем асоціативної пам'яті. Такі нейромережі виявилися ефективними для запам'ятовування великих масивів даних різних типів.

На основі узагальненого усереднення на многовиді Грасмана побудовано асоціативну пам'ять, здатну до самонавчання, узагальнення даних та кластеризаціі. Продемонстровано ефективність запропонованих алгоритмів для вирішення практичних задач розпізнавання оптичних та хімічних образів.

Ключові слова: нейронна мережа, нейронна асоціативна пам'ять, алгоритми навчання, кластеризація, оптимізація, ріманові многовиди, многовид Грасмана, ядерні методи.

ABSTRACT

Novytskyy D. V. Algebraic Methods for Theory of Neural Associative Memory. - Manuscript.

A thesis presented in partial fulfillment for the degree of Doctor of Philosophy in the subject of 01.05.02 - Mathematical Modeling and Numerical Methods.- V. M. Glushkov Institute of Cybernetics of National Academy of Sciences of Ukraine, Kyiv, 2005.

The thesis is dedicated to improvement of mathematical models of neural associative memory as well as to development of new models and architectures of neural associative networks.

We solve three basic tasks to solve in order to overcome limitations inherent to non-iterative algorithms of neural associative memory (NAM). At first, we construct an associative network capable of data generalization and unsupervised learning. This algorithm is based on Hopfield-type pseudoinverse associative memory. We propose to represent synaptic matrices of this type of neural network as points on the Grassmann manifold. Then we establish the procedure of generalized averaging on this manifold. For this purpose we need some optimization techniques over Riemannian manifolds. We developed modified Newton method for Riemannian manifolds and implemented it for the case of submanifolds in Euclidian space. We also provide some experimental evidence of efficiency of associative clustering using Riemannian optimization. We solve task of clustering simulated data and demonstrate network's generalization ability using optical images (handwritten digits from MNIST databese).

We also consider some issues of theory of sparse associative memory. We prove some statements on statistical distribution of neural network's weights. Using this distribution we explain a phenomenon of weight selection in associative networks, and build a model of a NAM with bipolar weights. We obtain some estimations of attraction radius for a NAM based cellular neural networks. In addition, we reveal some basic limitations for storage capacity of cellular associative networks.

In the present thesis we apply some kernel methods for associative memories. Kernel machines are efficient for tasks of pattern recognition due to implicit usage of the high-dimensional feature space. We show that basic operations in the pseudoinverse hetero-associative memory could be performed using only scalar product between memorized vectors. This enables us to use a symmetric positive-defined function - the kernel - instead of the scalar product. With help of this idea we developed a series of associative-memory algorithms with high storage capacity. We prove some theorems on these algorithms including a theorem on convergence of recall procedure for kernel associative memory. There are also experiments where kernel associative memories are used for associative recall of simulated patterns, and optical images (human faces).

Finally, we apply proposed methods for a real-world tasks like recognition of optical and chemical images (electronic nose), time series forecasting. For the purpose of the electronic nose our methods were investigated in combination with different preprocessing techniques. We have shown better performance of our NAM models in comparison with feed-forward networks commonly used for these tasks.

Keywords: neural network, neural associative memory, learning algorithms, clustering, optimization, Riemannian manifolds, Grassmann manifold, kernel machines.

алгебра метод теорія асоціація нейронна пам'ять

АННОТАЦИЯ

Новицкий Д. В. Алгебраические методы в теории нейронной ассоциативной памяти.

Диссертация на соискание ученой степени кандидата физико-математических наук по специальности 01.05.02 - математическое моделирование и вычислительные методы. Киев 2004.

Диссертация посвящена усовершенствованию математических моделей в теории нейронной ассоциативной памяти, а также разработке новых архитектур и алгоритмов обучения ассоциативных нейросетей. Предложено представление синаптических матриц с помощью точек на многообразии Грассмана, и метод применения спектрального анализа матриц для изучения свойств НАП. Получены условия, при которых сети с двумя разными матрицами имеют один набор образов в памяти. Исследованы статистические свойства элементов синаптической матрицы НАП и их связь с алгоритмом селекции связей. Теоретически обосновано явление восстановления ассоциативной сети с удаленными нейронами. Исследованы клеточные сети ассоциативной памяти, их аттракторные свойства и ограничения емкости памяти. К системам ассоциативной памяти применены ядерные методы. Такие нейросети оказались эффективными для запоминания больших массивов данных разных типов. На основе обобщенного усреднения на многообразии Грассмана построена ассоциативная память, способная к самообучению, обобщению данных и кластеризации. Продемонстрирована эффективность предложенных алгоритмов для решения практических задач распознавания оптических и химических образов.

Ключевые слова: нейронная сеть, нейронная ассоциативная память, алгоритмы обучения, кластеризация, оптимизация, римановы многообразия, многообразие Грассмана, ядерные методы.

Размещено на Allbest.ru


Подобные документы

  • Етапи розвитку теорії ймовірностей як науки. Ігри казино як предмет математичного аналізу. Біологічна мінливість і імовірність. Застосування розподілів ймовірностей як спосіб опису біологічної мінливості. Помилкова точність та правила округлення чисел.

    реферат [26,4 K], добавлен 27.02.2011

  • Введення поняття інтеграла Стільєса та його розробка. Визначення проблеми моментів. Загальні умови та класи випадків існування інтеграла Стільєса. Теорема про середній. Застосування інтеграла Стільєса в теорії ймовірностей та у квантовій механіці.

    дипломная работа [797,1 K], добавлен 25.02.2011

  • Означення теорії множин. Дії над множинами. Алгебра множин. Вектори і прямий добуток множин. Властивості відношень. Способи задання функції. Сукупність підстановок множини. Алгебраїчні операції та системи. Властивості рефлексивності та симетричності.

    конспект урока [263,1 K], добавлен 28.06.2012

  • Розгляд представлення і перетворення точок та прямих ліній. Правило здійснення обертання та відображення фігури на площині. Рівномірна і нерівномірна зміна масштабів. Двовимірний зсув і однорідні координати. Побудування матриці перетворення векторів.

    лабораторная работа [281,6 K], добавлен 19.03.2011

  • Передумови виникнення та основні етапи розвитку теорії ймовірностей і математичної статистики. Сутність, розробка та цінність роботи Стьюдента. Основні принципи, що лежать в основі клінічних досліджень. Застосування статистичних методів в даній сфері.

    контрольная работа [16,7 K], добавлен 27.11.2010

  • Вивчення теорії наближених обчислень і чисельних методів лінійної алгебри. Опис прямих і ітераційних методів вирішення систем лінійних рівнянь, алгоритмізація і точність наближених обчислень функції. Чисельна інтеграція звичайних диференціальних рівнянь.

    лекция [103,6 K], добавлен 06.02.2014

  • Простір швидкостей і геометрія Лобачевського. Фрідманська модель Всесвіту. Рівняння синус-Гордона. Вивчення гідродинаміки, аеродинаміки і теорії пружності. Топологія тривимірних многовидів. Розвиток теорії нелінійних хвиль і функцій комплексної змінної.

    курсовая работа [490,5 K], добавлен 02.04.2014

  • Предмет теорії ймовірностей. Означення та властивості імовірності та частості. Поняття та принципи комбінаторики. Формули повної імовірності та Байєса. Схема та формула Бернуллі. Проста течія подій. Послідовність випробувань з різними ймовірностями.

    курс лекций [328,9 K], добавлен 18.02.2012

  • Історія виникнення лабіринту. Лабіринт крітського царя Міноса - одне із семи чудес світу. Перші здогади "Правило руки". Лабіринти і замкнені криві, розв'язування різних лабіринтних задач, застосування елементів теорії графів і теорії ймовірностей.

    реферат [7,3 M], добавлен 29.09.2009

  • Застосування конгруенцій: ознаки подільності, перевірка арифметичних дій, перетворення десяткового дробу у звичайний та навпаки, індекси. Вчені, що займалися питанням застосування конгруенцій. Основні теореми в теорії конгруенцій - Ейлера і Ферма.

    курсовая работа [226,2 K], добавлен 04.06.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.