Обробка числової і символьної інформації на основі розподілених представлень в задачах штучного інтелекту

Існуючі підходи до моделювання інтелектуальної діяльності: символьний та нейромережевий. Дослідження методів формування бінарних розріджених розподілених представлень інформації та методів її обробки. Характеристика методу грубого кодування Prager.

Рубрика Программирование, компьютеры и кибернетика
Вид автореферат
Язык украинский
Дата добавления 29.08.2014
Размер файла 505,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

національна академія наук україни

інститут ПРОБЛЕМ математичних машин і систем

СЛІПЧЕНКО Сергій Віталійович

УДК 004.8: 004.838.3: 004.032.26

Обробка числової і символьної інформації на основі розподілених представлень в задачах штучного інтелекту

05.13.23 - Системи та засоби штучного інтелекту

Автореферат

дисертації на здобуття наукового ступеня кандидата технічних наук

Київ - 2006

Дисертацією є рукопис

Робота виконана в Міжнародному науково-навчальному центрі інформаційних технологій та систем НАН України.

Науковий керівник: кандидат технічних наук Рачковський Дмитро Андрійович, Міжнародний науково-навчальний центр інформаційних технологій та систем НАН України, старший науковий співробітник

Офіційні опоненти: доктор технічних наук, старший науковий співробітник Різник Олександр Михайлович, Інститут проблем математичних машин і систем НАН України, завідувач відділу кандидат технічних наук Величко Віталій Юрійович, університет “КРОК”, доцент.

Провідна установа: Інститут кібернетики ім. В.М. Глушкова НАН України, відділ теорії цифрових математичних машин і систем, м. Київ

Захист відбудеться “ 11 ” жовтня 2006 року о 1530 годині на засіданні спеціалізованої вченої ради Д 26.204.01 в Інституті проблем математичних машин і систем НАН України за адресою: 03187, м. Київ-187, проспект Академіка Глушкова, 42.

З дисертацією можна ознайомитись у бібліотеці Інституту проблем математичних машин і систем НАН України за адресою: 03187, м. Київ-187, проспект Академіка Глушкова, 42.

Автореферат розісланий “ 7 ” вересня 2006 року.

Вчений секретар спеціалізованої вченої ради, кандидат технічних наук Ходак В.І.

Загальна характеристика роботи

Актуальність теми. Інтелектуальний аналіз даних при розв'язанні задач прогнозування та керування поведінкою складних систем, наприклад, у політичній, економічній та фінансовій сферах, включає упорядкування та структурування існуючих фактів із зазначенням відношень між ними; структурування припущень та суджень відносно цих припущень; представлення обґрунтованих думок та прогнозів. Постійне зростання об'ємів інформації збільшує складність пошуку й аналізу, внаслідок чого на передній план виходять задачі автоматизації та інтелектуалізації цих процесів, а також підвищення ефективності обробки великих масивів інформації.

Використання для вирішення вищезгаданих задач правил на основі продукцій, виводу на фреймових структурах та формального логічного виводу мало певний успіх у вузькоспеціалізованих та чітко формалізованих областях. Обмеженість можливостей таких систем обумовлена необхідністю формулювання аксіом і правил для кожного нового класу задач, в той час, як самі експерти здебільшого не формулюють універсальні аксіоми та правила, а приймають рішення, орієнтуючись на приклади з минулого досвіду. Все це стимулює розвиток підходів до вирішення задач та аналізу даних, що базуються не на загальній моделі, а на конкретних прикладах, які ще називають прецедентами, аналогами, фактами, випадками, епізодами або ситуаціями.

Для багатьох задач і предметних галузей суттєвою є інформація щодо структури об'єктів, яка повинна бути адекватно відображена у внутрішніх представленнях. Урахування структурованої інформації є найважливішою складовою міркувань за аналогією, що відкриває нові перспективи підвищення складності задач, які розв'язуються, та інтелектуалізації технології їх розв'язку.

Завдяки роботам психологів та спеціалістів у галузі інформатики (В.П. Гладун, Н.Г. Загоруйко, Д.А. Рачковський, А.І. Уйомов, K. Forbus, D. Gentner, M. Hesse, K. Holyoak, J. Hummel, A. Markman, P. Thagard) в моделюванні міркувань за аналогією досягнуто значного прогресу. Методи та моделі міркувань за аналогією мають великий практичний потенціал. На їх основі розроблюються системи, що основані на знаннях і використовуються для управління складними об'єктами, планування, класифікації, прогнозування та ін. Дослідження проводяться у рамках цілої низки значних проектів, наприклад DARPA HPKB (High Performance Knowledge Bases), RKF (Rapid Knowledge Formation) та багатьох інших. Незважаючи на деякі успіхи у комп'ютерному моделюванні міркувань за аналогією, більшість моделей мають високу обчислювальну складність і погано масштабуються з ростом обсягів баз знань. Крім того, у більшості випадків існуючі моделі не дозволяють адекватно враховувати семантичну близькість об'єктів та відношень.

Необхідність роботи із базами знань, що включають не тільки якісну, але й кількісну інформацію (символьні описи ситуацій, сенсорну інформацію у вигляді звукових та відеофрагментів, числові дані), примушує шукати більш ефективні та уніфіковані методи для обробки різноманітної інформації. Перспективним із обчислювальної точки зору, а також стосовно можливостей врахування різнотипних знань, є нейромережевий підхід, і, зокрема, розподілені представлення, що розроблюються в межах цього підходу. Прогрес у цій галузі пов'язаний із іменами О. І. Галушкіна, О.М. Касаткіна, Л.М. Касаткіної, Е.М. Куссуля, О.М. Різника, О.О. Фролова, а за кордоном - S. Amari, J. Hopfield, S. Grossberg, T. Kohonen, D. Marr, B. Widrow, D. Willshaw та інших. У дослідження форм представлення інформації значний вклад внесли P. Kanerva, D. Hebb, G. Hinton, J. McClelland, G. Palm, T. Plate, J. Pollack, D. Rumelhart, P. Smolensky, D. Touretzky та інші.

Об'єднання переваг нейромережевих методів, які успішно працюють із числовою інформацією, але неефективні при обробці структур, та методів обробки структур, не орієнтованих на обробку числової інформації, є актуальним напрямом подальшого розвитку та підвищення ефективності інтелектуальних інформаційних технологій обробки даних і знань. Розвиток даного напрямку потребує вирішення наукової задачі розробки та дослідження методів розподіленого представлення й обробки числової та символьної структурованої інформації. Саме цьому й присвячена дисертаційна робота.

Зв'язок роботи з науковими програмами, планами, темами. Робота виконувалась в рамках таких основних наукових програм, тем та планів: НДР "Разработка и исследование нейросетевых методов моделирования когнитивных процессов", № ГР 0101U002685 (2001-2003); НДР "Дослідження та розроблення нових інтелектуальних інформаційних технологій на основі використання високоефективних нейромережевих методів та алгоритмів" № ГР 0102U002070 (2002-2006); НДР "Розробка та дослідження нейромережевих інформаційних технологій роботи з базами знань" № ГР 0104U003191 (2004-2006); НДР "Создать опытные образцы нейрокомпьютеров новых поколений" № ГР 0101U006718, НДР "Разработать методы и создать способы интеллектуализации информационных технологий широкого использования" № ГР 0101U007953; НДР Разработать интеллектуальные информационные технологии распознавания и идентификации аудио-видеоинформации на основе нейросетевых технологий", № ГР 0104U008324 (2004); НДР "Створити засоби автоматичної обробки інформації із застосуванням міркувань за аналогіями", № ГР 0103U008280 (2003-2006).

Мета і задачі дослідження. Метою роботи є підвищення ефективності пошуку та відображення аналогів у базах знань, виводу за аналогією, класифікації числових даних шляхом розвитку методів розподіленого представлення й обробки числової та символьної структурованої інформації.

Відповідно до мети вирішуються такі задачі:

· вдосконалення та дослідження бінарних розподілених представлень структурованої інформації для більш адекватного моделювання пошуку, відображення та виводу за аналогією;

· розробка та дослідження методів пошуку, відображення й виводу за аналогією за допомогою розподілених представлень;

· підвищення ефективності та дослідження методів формування і характеристик бінарних розподілених представлень числової інформації, а також методів відновлення числових величин за їх бінарними представленнями;

· розробка програмних систем для вирішення дослідницьких і практичних задач із використанням розроблених методів та алгоритмів;

· дослідження розроблених методів на тестових та реальних даних.

Об'єктом дослідження є представлення та обробка інформації в задачах інтелектуального аналізу даних.

Предметом дослідження є методи представлення даних за допомогою бінарних багатовимірних розріджених векторів, методи обробки числової й символьної інформації, задачі моделювання міркувань за аналогією та класифікації.

Методи дослідження. При розробці та дослідженні методів представлення й обробки структурованої та числової інформації використовувались методи математичного та імітаційного моделювання, теорії імовірностей та математичної статистики. Реалізація методів та алгоритмів здійснювалась з використанням методології об'єктно-орієнтованого аналізу, проектування та програмування, теорії синтаксичного аналізу й функціонального програмування. Для перевірки розроблених методів та програмних систем використовувались масові експериментальні дослідження.

Наукова новизна одержаних результатів. Вдосконалено методи формування бінарних розріджених розподілених представлень за ієрархічними описами структур шляхом перерозподілу представлень за рівнями ієрархії та керування ступенем їхньої розрідженості на різних рівнях.

Вдосконалено методи пошуку аналогів за рахунок використання розподілених представлень, що враховують вплив глибини ієрархій на схожість аналогів.

Розроблено і вдосконалено методи відображення базового та цільового аналогів шляхом об'єднання розподілених представлень компонентів аналогів та їх ролей на різних рівнях ієрархії.

Вперше розроблено методи виводу за аналогією, які базуються на розподілених представленнях та реалізують копіювання компонентів базового аналогу в цільовий з підстановкою аргументів із цільового аналогу та формуванням списку гіпотез, упорядкованих відповідно рангу.

Вперше систематично досліджені методи пошуку, відображення та виводу за аналогією на основі багатовимірних бінарних розріджених представлень, що дозволяють ефективну реалізацію. За результатами досліджень визначені найбільш ефективні параметри методів.

Запропоновано та систематично досліджено нові модифікації методів формування й декодування розподілених представлень числових векторів на основі зв'язування розподілених представлень ознак та їх значень.

Вперше отримано та експериментально перевірено аналітичні характеристики кодування числових величин методу Prager для рецептивних полів із випадковим положенням та випадковою підмножиною релевантних вимірів.

Вперше запропоновано концепцію мови Slang для описання методів комбінованого предикативного та розподіленого представлення й обробки інформації.

Розроблено нові програмні системи, які базуються на оригінальних методах розподіленого кодування числової інформації, представлення ієрархічно структурованої інформації, моделювання міркувань за аналогією.

Практичне значення одержаних результатів. На основі запропонованих методів розроблено програмні та інструментально-технологічні засоби для інформаційних технологій розпізнавання образів та обробки знань:

- інтерпретатор мови Slang - призначений для створення програмних засобів оперування складною ієрархічно структурованою інформацією в задачах обробки знань та моделювання когнітивних процесів;

- інструментальний засіб Sme2slang - для розподіленого представлення складно структурованої символьної інформації;

- Analogy Toolbox - програмні модули, що реалізують методи пошуку, відображення та виводу за аналогією для вирішення задач, які пов'язані із інтелектуальним аналізом даних у різних предметних галузях;

- Coding Toolbox - програмні модули, що реалізують методи формування та відновлення бінарних багатовимірних розріджених векторів скалярних, векторних та більш складних числових величин для вирішення задач обробки інформації, яка представлена набором ознак, у тому числі, складно структурованої;

- Classifier Toolbox і модулі класифікаторів для нейрокомп'ютера SNC - RSC, Perceptron, BackProp, SVM та ін., що реалізують різні методи класифікації.

Отримані аналітичні та експериментальні характеристики бінарних представлень числових величин можуть бути використані для вибору параметрів представлень при вирішенні практичних задач класифікації, а також для оцінки потрібних об'ємів пам'яті й обчислювальних ресурсів, що дозволяє оптимізувати експлуатаційні характеристики прикладних систем.

Результати дисертаційної роботи використовуються в наукових та практичних цілях, що підтверджується відповідними актами: Міністерства промислової політики України (від 26.10.2005); Інституту вищої нервової діяльності та нейрофізіології Російської АН (від 9.09.2005); СК “Форміка” (від 02.03.2006).

Особистий внесок здобувача. В роботах, написаних у співавторстві та опублікованих у профільних виданнях, вклад здобувача полягає в такому: [1, 2] - проведення порівняльного аналізу існуючих систем; реалізація візуального інтерфейсу графічної оболонки; розробка концепції серійних експериментів та реалізація механізмів їх підтримки в консольному режимі; проектування та реалізація підсистеми DataStorage; реалізація блоків обробки (класифікатори SVM, BackProp, блоки формату, попередньої обробки, кодування та перегляду). [3, 4] - розробка та реалізація методів і систем моделювання пошуку та відображення аналогів на основі розподілених представлень за допомогою мови Slang, експериментальне дослідження та обробка результатів. [5, 8, 10, 13] - розробка та реалізація моделей кодування гіперпрямокутними рецептивними полями RSC та Prager; отримання аналітичних характеристик для методу Prager; експериментальне дослідження та порівняльний аналіз методів і характеристик кодів. [6] - розробка бібліотек для ефективного оперування бінарними векторами, узагальнена функція CDT та її реалізація, дослідження характеристик процедур зв'язування. [7, 9, 11] - розробка та реалізація методів ефективного формування розподілених представлень для числових векторів; розробка та реалізація методів відновлення числових векторів за розподіленими представленнями; експериментальне дослідження методів та обробка результатів.

Апробація результатів роботи. Результати дисертаційного дослідження були повідомлені на XIV Міжнародній конференції з нейрокібернетики (Ростов-на-Дону, 2005); постійно діючому семінарі “Проблеми нейрокомп'ютерів та нейромереж” (Київ, IПММС та МННЦITC НАН України); у школі-семінарі "О проблемах образного мислення " (Жукін, 2005).

Публікації. Основні результати роботи викладено в 15 наукових працях, з яких 13 опубліковані в фахових виданнях, рекомендованих ВАК України для спеціальності 05.13.23. З них 2 одноосібні.

Структура дисертації. Дисертація складається з вступу, п'яти розділів, висновків, списку використаних джерел із 126 найменувань. Обсяг дисертації становить 146 сторінок основного тексту, ілюстрованих 42 рисунками та 10 таблицями.

кодування бінарний інтелектуальний нейромережевий

Основний зміст роботи

У вступі обґрунтовано актуальність теми дисертаційної роботи і наукової задачі, сформульовано мету та задачі дослідження, показано наукову новизну і практичну значимість отриманих результатів, зазначено особистий внесок здобувача, наведено список публікацій.

У першому розділі розглянуто існуючі підходи до моделювання інтелектуальної когнітивної діяльності і питання представлення числової і символьної структурованої інформації, методи розподіленого представлення інформації, моделі міркувань за аналогією.

В даний час склалися два підходи до моделювання інтелектуальної діяльності: символьний та нейромережевий. В першому інформація представлена у вигляді символьних виразів, а у другому - у вигляді розподілу активностей великої кількості елементів, що взаємодіють один з одним. Більшість існуючих моделей використовує символьний підхід, але, незважаючи на розвинену теоретичну базу, цей підхід має цілу низку недоліків: послідовна обробка та пошук, складність навчання на прикладах, слабкі механізми узагальнення, орієнтація на символьні операції та неможливість роботи з іншими типами даних, а також обмеженість предметних галузей, що розглядаються. Нейромережі забезпечують паралельну обробку та пошук, м'яке врахування обмежень, здатність навчання на прикладах, добру узагальнюючу спроможність, але у більшості випадків не враховують структуру.

Бінарні розподілені представлення мають усі переваги нейромережевих представлень, оскільки вони ґрунтуються на представленні інформації бінарними, багатовимірними (наприклад, N~103...106), розрідженими (наприклад, кількість одиниць M~102...103), псевдовипадковими векторами (одиничні елементи розташовані випадково, але однаково для представлення однієї і тієї ж інформації). Їх використання дозволяє оцінювати ступінь схожості або близькість об'єктів x і y за величиною скалярного добутку відповідних до них векторів (X, Y).

Для урахування структури використовується процедура контекстно-залежного проріджування

Z = k=1,K (Z Zk*)

де Zk* - k-а випадкова перестановка вектора Z = X Y, X і Y - компоненти деякої структури (два або більше), - побітова диз'юнкція векторів, - побітова кон'юнкція.

Моделювання міркувань за аналогією є однією із фундаментальних задач при побудові моделей інтелектуальних процесів. Найважливішу роль у цих процесах відіграє структурна складова. Зокрема, в міркуваннях за аналогією судження про схожість двох аналогів (епізодів або ситуацій) основане на спільності їхніх структур. Наявні моделі пошуку, відображення та виводу за аналогією як символьні SME (D. Gentner, K. Forbus, A. Markman та інші), FHM (S. Owen), так і нейромережеві ARCS/ACME (P. Thagard, K. Holyoak), LISA (K. Holyoak, J. Hummel), HRR (T. Plate), є або обчислювально складними, або здатні працювати лише з простими аналогами. Тому актуальною задачею є розробка методів формування бінарних розподілених представлень структурованих описів аналогів, які б могли адекватно урахувати закономірності міркувань за аналогією та обчислювально ефективно оперувати складними аналогами.

Недоліком символьних методів є також відсутність засобів гнучкого урахування схожості об'єктів та представлення числової інформації: скалярів, векторів та числових даних із більш складною структурою. Ці засоби потрібні для вирішення більш широкого класу задач із використанням міркувань за аналогією, а також у задачах класифікації. Для представлення числових даних можуть використовуватися методи порозрядно-векторного та грубого кодування, які дозволяють представляти їх у форматі розподілених бінарних представлень. Це відкриває можливості використання одноманітних методів обробки числової та символьної інформації, в тому числі для ефективного вирішення задач класифікації, пошуку, відображення і виводу за аналогією. Проте для використання переваг розподілених представлень необхідно розробити способи вибору параметрів методів і підвищити їх ефективність.

Таким чином, задачею дисертаційної роботи є розвиток методів розподіленого представлення символьної та числової структурованої інформації з метою підвищення ефективності вирішення задач класифікації, пошуку, відображення та виводу за аналогією.

У другому розділі розглянуто методи формування бінарних розподілених представлень аналогів і методи пошуку, відображення і виводу за аналогією на основі таких представлень. Теорія міркувань за аналогією оперує структурованими описами аналогів - епізодів, ситуацій і предметних галузей. Наприклад:

наслідок(та(притягує(Сонце, Планета), більше(маса(Сонце), маса(Планета))), обертається-навколо(Планета, Сонце));

наслідок(гравітація(Сонце, Планета), притягує(Сонце, Планета));

більше(температура(Сонце), температура(Планета)).

Аналоги зручно представляти як направлені впорядковані ациклічні графи

де - множина вершин, O - множина вершин об'єктів, A - множина вершин атрибутів, R - множина вершин відношень, E - множина дуг, що визначають зв'язки між об'єктами, атрибутами та відношеннями, < - відношення порядку, що визначає порядок аргументів відносин.

Для представлення таких структур та методів формування бінарних векторних розподілених представлень розроблено спеціалізовану мову Slang. Концепція мови полягає в поєднанні символьного та розподіленого представлення для опису структурованої реляційної інформації, а також методів оперування цими представленнями, що дозволяє формалізувати й суттєво спростити моделювання пошуку, відображення та виводу за аналогією.

При формуванні бінарних представлень аналогів кожній вершині-об'єкта ставиться у відповідність незалежний випадковий бінарний вектор, а представлення атрибутів та відношень формуються методом “роль-заповнювач” для бінарних векторів, запропонованим Д.А. Рачковським. Цей метод використовує для представлення відношення R(O1, O2) зв'язування на основі контекстно-залежного проріджування R1,2=R1 O1 R2 O2, де R1, R2 - випадкові незалежні бінарні вектори, що відповідають формальним аргументам відношення, а O1, O2 - бінарні вектори, що відповідають реальним аргументам відношення.

Використання цього методу дозволяє формувати бінарні вектори, що зберігають інформацію щодо структури. Досліджено надійність розрізнення векторів різних відношень для векторів структур відношень R1,2 = R(O1, O2) та R2,1 = R(O2, O1). Вибір таких відношень для дослідження обумовлений тим, що в них складніше усього забезпечити врахування порядку аргументів. Вирази для вектора перекриття (R1,2 R2,1 R1,2 R2,1) векторів R1,2 і R2,1 цих відношень мають вигляд

R1,2 R2,1 = (R1 O1 R2 O2) (R1 O2 R2 O1) = R1R1,k R2R2,k O1O1,k O2O2,k R1O1,k(R2 O2,k) R2O2,k(R1 O1,k) O1R1,k(R2,k O2) O2R2,k(R1,k O1), (1)

де Ri,k = k Rik, Oj,k = k Ojk, Rik - k-а перестановка i-го вектора ролі, Ojk - k-а перестановка j-го вектора об'єкта.

Елементи векторів Ri, Rik, Oj, Ojk - це бернулійові випадкові величини, для яких справедливе P(X = b) = (1 - pX)bpX1-b, P(X Y = b) = (pX + pY - pX pY)b(1 - (pX + pY - pX pY)) 1-b, P(X Y = b) = (pX pY)b(1 - pX pY) 1-b, де b=0,1 - значення випадкової величини. Із використанням цих імовірностей та нехтуючи залежністю окремих диз'юнктів у (1) математичне сподівання числа одиниць перекриття, тобто скалярного добутку векторів структур відношень, обчислюється алгоритмічно шляхом послідовного обчислення ймовірностей для кон'юнкції і диз'юнкції випадкових величин.

Позначимо ймовірність того, що i-й елемент вектора R1,2 дорівнює 1 як P(R1,2). P(R1,2, R2,1) буде відповідати ймовірності того, що i-ті елементи векторів R1,2 і R2,1 одночасно дорівнюють 1, тобто ймовірності перекриття. Відповідно до цього ймовірність збігу векторів R1,2 та R2,1 дорівнює pзбігу = i=0,NСNi P(R1,2)i(1- P(R1,2))N-i P(R2,1 | R1,2)i = (1 - P(R1,2) + P(R1,2, R2,1))N. Для p(Oi) = 0,01, p(Ri) = 0,02 та N=100000 pзбігу = 4,9610-248. Таким чином із великою ймовірністю зберігається інформація щодо структури.

Запропоновано методи формування векторних представлень для ефективного вирішення задач пошуку, відображення та виводу за аналогією, які мають за основу метод “роль-заповнювач” та враховують основні закономірності міркувань за аналогією, виявлені когнітивними психологами (D. Gentner, K. Holyoak, P. Thagard, A. Markman, M. Keane та інші). Введемо допоміжні означення для опису методів формування бінарних розподілених представлень аналогів:

Визначення 2.1: Визначимо рівень компонента (вершини) графа G, як

,

тобто у компонентів, що не входять в інші атрибути та відношення, рівень 0, а в решти - рівень на одиницю більше, ніж максимальний порядок атрибутів або відношень, у яких аргументом є компонент v. Рівень визначає глибину вкладеності компонента, який розглядається, в ієрархії компонентів аналогу (рис. 1а).

Визначення 2.2: Визначимо порядок компоненту (вершини) графу G, як

,

тобто об'єкти мають порядок нуль, а порядок атрибутів та відношень на одиницю більше максимального порядку їх аргументів. Порядок, на відміну від рівня, визначає глибину ієрархії структури компонента, який розглядається (рис. 1б).

а б

Рис. 1. Ілюстрація рівнів (а) та порядків (б) відношень аналога

Векторне представлення аналога G формується диз'юнкцією векторних представлень атрибутів та відношень, що мають рівень нуль

де Vv - вектор, що відповідає вершині v. Цим самим ураховується обмеження систематичності за рахунок включення відношень із великим порядком, тобто тих, що мають глибоку ієрархію. Більш адекватне урахування глибини ієрархії пропонується здійснювати шляхом збільшення кількості одиниць, що відповідають компонентові, зі збільшенням глибини його структури

Це регулюється за допомогою коефіцієнта проріджування CDT = ||Z||/||Z||.

Для щільності векторів об'єктів pO = p та векторів відношень pR=2p, які були обрані з міркувань надання переваги схожості відношень відносно схожості об'єктів, отримана нижня границя CDT, що забезпечує зростання кількості одиниць у бінарному представленні відношень із зростанням порядку відношення

.

На основі розроблених представлень запропоновано метод пошуку найбільш близьких аналогів шляхом порівняння скалярних добутків відповідних векторів. Скалярний добуток векторів інтерпретується як міра схожості структурованих описів аналогів. Показано, що запропонований метод дозволяє вирішувати задачу пошуку зі складністю від (M) до O(ML) в залежності від числа схожих аналогів, де M - кількість одиниць у векторі аналога, L - кількість аналогів у базі. Існуючі методи забезпечують урахування закономірностей міркувань за аналогією шляхом пошуку часткового ізоморфізму - складність за оцінкою B.Falkenhainer досягає O(n!L) (у середньому O(n2L)) в залежності від структури аналога або шляхом розв'язання задач оптимізації - складність O(n4L2), де n - число елементів аналогів. Для типових M ~ 104, L > 102...104, n ~ 102 запропонований метод потребує в 10 раз менше операцій.

Експериментальне дослідження методів пошуку аналогів за допомогою бінарних розріджених псевдовипадкових векторів виконано на розширеній базі ThinkNet, яка містить 170 описів аналогів. У середньому описи аналогів містять 90 висловлювань, із яких 50 описують атрибути об'єктів, а 40 - відношення між об'єктами. Для оцінки якості роботи використані стандартні критерії повноти та точності пошуку:

Порівняння проводилося із найкращою символьною системою пошуку аналогів MAC/FAC (K.Forbus, D.Gentner, etc). Крім підвищення обчислювальної ефективності пошуку, запропоновані методи формування векторних представлень аналогів дозволили підвищити якість пошуку. Залежно від типу аналогів поліпшення результатів повноти пошуку для одного типу експериментів складало від 11 до 22%, а для іншого - від 3 до 46%. Отримано точність пошуку вищу в 3-4 рази.

Рис. 2. Ролі об'єкту Сонце

Розроблено методи вирішення задачі відображення, яка полягає у знаходженні відповідностей між компонентами базового та цільового аналогів. Відображення може розглядатися як пошук аналогічних компонентів цільового аналога серед компонентів базового аналога. При відображенні суттєвою є не тільки схожість компонентів, але й схожість їхніх ролей у відношеннях більш високого рівня. Для урахування схожості запропоновано метод формування проміжних представлень компонентів аналогів. Проміжні представлення формуються об'єднанням бінарних представлень компонентів із відповідними їм ролями. В моделі, що має вигляд графа, ролі відповідають дугам. На рис. 2 жирними стрілками показані ролі, що відповідають вибраному компонентові Сонце.

Представлення V* для компонента v визначається як диз'юнкція представлень компоненту V та представлень усіх ролей для усіх можливих шляхів із вершини v (Vw - вектор, що відповідає ролі w):

- множина можливих дуг ролей вершини v, l(v) - рівень вершини v (визначення 2.1).

Найкраще відображення : x y об'єктів (x OT, y OS), атрибутів (x AT, y AS) та відношень (x RT, y RS) базового аналога S на цільовий аналог T визначається за максимумом скалярного добутку їхніх проміжних представлень

, ,

де Vx*, Vy* - проміжні представлення відповідних компонентів x і y цільового та базового аналогів.

Показано, що запропонований метод відображення дозволяє вирішувати задачу відображення зі складністю O(n2M), де n - середня кількість елементів аналогів, а M - середнє число одиниць у векторах представлень. Складність існуючих методів SME - O(n!), а ACME -O(n4).

Рис. 3. Відображення та вивід за аналогією

Розроблено методи виводу за аналогією за допомогою розподілених представлень, які ґрунтуються на копіюванні з підстановкою та доповненням (рис. 3): виконується копіювання відношень з базового аналога в цільовий з підстановкою відповідних (якщо є) або створенням нових компонентів аналогів (доповнення). Процедура виводу полягає в обчисленні скалярних добутків векторів компонентів цільового аналога V з вектором базового аналога S. Компоненти, для яких скалярний добуток вище порогу , вважаються потенційними кандидатами на перенесення та впорядковуються відповідно до зменшення перекриття із цільовим аналогом. Для вектора кожного кандидата H обчислюється скалярний добуток із векторами усіх компонентів цільового аналога і, якщо воно перевищує скалярний добуток із вектором усього аналога T, даний компонент вважається вже існуючим у цільовому аналогу, інакше виконується перенесення.

Експериментальну перевірку запропонованих методів відображення та виводу за аналогією здійснено на базі аналогів, яка використовувалася розробниками систем SME (K. Forbus, D.Gentner) та ACME (P.Thagard, K.Holyoak) для перевірки працездатності їхніх методів. Запропоновані методи дали результати, які відповідають результатам психологічних експериментів та результатам методів SME та ACME. На відміну від наявних методів запропоновані методи дозволяють працювати не лише з символьною, але й з числовою та аудіовізуальною інформацією, що робить їх більш універсальними.

У третьому розділі розглянуто порозрядно-векторні методи представлення скалярних величин, векторів та числових даних із більш складною структурою, які можуть бути використані як для представлення числових даних у задачі моделювання міркувань за аналогією, так і в задачах класифікації числових даних. У результаті аналізу недоліків існуючих методів формування бінарних розподілених представлень числових векторів запропоновано обчислювально-ефективний метод, оснований на зв'язуванні векторів значень із векторами елементів:

X = i=1,A Fi, Zq(i),

де Fi, Zq(i) - вектор i-го елемента Fi, зв'язаний із вектором його значення Zq(i).

Рис. 4. V(D1,D2) для зв'язування векторів значень із векторами компонент

Існуючий метод порозрядно-векторного формування векторів диз'юнкцією представлень значень потребує O(MQA) елементів пам'яті, де M - середнє число одиниць у векторі значення, Q - число градацій значень, A - число вимірів вхідного простору. Запропонований метод потребує усього O(M(Q+A)) елементів, а залежність нормованого скалярного добутку V(D1,D2)=(X1, X2)/|| X1 || векторів від координати точки вхідного простору D2 для D1 = (0,5; 0,5) наведена на рис. 4, показує збереження близькості векторів представлень для близьких вхідних векторів.

xi*=argmaxq=1,Q (X Fi, Zq)

xi*=argmaxq=1,Q (X Zi Xq)

xi*=argmaxq=1,Q X, Fi Yq

а б в

Рис. 5. Графіки залежності Манхеттенської відстані M(N104) між вхідним та відновленим векторами та кількості помилок відновлення (N104) від розмірності векторів N104

Необхідність взаємодії систем, що базуються на бінарних розподілених представленнях, з класичними системами, обумовила потребу розробки методів відновлення вхідних числових векторів за їх бінарними представленнями. Запропоновано методи відновлення числових векторів (див. вирази у верхній частині рис. 5).

Графіки кількості помилок відновлення (N104) показують, що для проріджування до 0,5p помилки першого методу достатньо швидко зменшуються до нуля із ростом розмірності N. Для другого і третього методів помилки зменшуються не так швидко, але вже при N=30000 Манхеттенська відстань M(N104) між вхідним та відновленим векторами незначна.

Деякі задачі потребують обробки числових даних із більш складною структурою, ніж скаляри або вектори. Прикладом такого типу задач є прогнозування властивостей хімічних сполук. Для цієї галузі характерна природна ієрархічна структура частина-ціле: сполуки складаються із хімічних елементів, стосовно яких відома деяка числова інформація - атомна маса, номер у періодичній таблиці Менделєєва, заряд ядра та інші. Для дослідження методів порозрядно-векторного представлення структурованої числової інформації була обрана задача прогнозування існування двох-, трьох- та чотирьохкомпонентних неорганічних сполук. При вирішенні цієї задачі використано методи порозрядно-векторного представлення числової інформації та процедура зв'язування для представлення ієрархічних структур i j Fi,j, Zi,j, де Fi,j - вектор j-ї ознаки i-го хімічного елемента, Zi,j - вектор значення j-ї ознаки i-го хімічного елемента.

Запропоновані методи формування векторних представлень ієрархічних числових структур дозволили сформулювати задачу передбачення існування хімічних сполук як задачу класифікації числових векторів. Для її вирішення був використаний класифікатор на основі методу опорних векторів. Перевірка проводилася на базі неорганічних хімічних сполук - навчальна вибірка складалася із 1342 зразків для 2-х, 4350 для 3-х та 4956 для 4 компонентних сполук, а тестова - відповідно із 675, 2182 та 2535 зразків. Отримані результати 94,8% для 2-х, 99,81% для 3-х і 99,91% для 4 компонентних сполук, які близькі до результатів системи АНАЛОГІЯ (В.Ю. Величко, В.П. Гладун та інші) (94,8%, 98,79% і 99,68%) і значно переважають результати відомої системи DISCOVERY (K. Branderburg, M. Berndt, P.Villars) (89,11%, 97,62% і 99,32%).

У четвертому розділі досліджено метод розподіленого кодування числових векторів за допомогою рецептивних полів. Таке кодування потребує виконання O(NA) порівнянь чисел, що робить його менш ефективним порівняно із порозрядно-векторним методом, де кількість операцій O(M(Q+A)), тому що M << N. Однак у методі кодування з використанням рецептивних полів є свої переваги, оскільки він не потребує попереднього формування представлень скалярів - елементів вектора, та більш точно відображає характер близькості точок вхідного простору, що важливо для ряду застосувань.

При кодуванні за допомогою рецептивних полів вхідний A-вимірний числовий вектор D ("вхідна точка") перетворюється в N-вимірний бінарний вектор X, елементи якого - індикатори належності точки багатовимірним рецептивним полям. R.W. Prager запропонував використовувати багатовимірні рецептивні поля в формі гіперкубів із довжиною сторони 2G > R, де R - розмір вхідного інтервалу (рис. 6). Багатовимірне рецептивне поле визначається сукупністю одномірних рецептивних полів у A вимірах. Для кожного з N у A вимірах випадково обирається центр одномірного рецептивного поля та обчислюються границі - верхня hi,j = xi,j + G і нижня li,j = xi,j - G. Цей метод дозволяє формувати багатовимірні бінарні розріджені псевдовипадкові вектори, які сумісні із запропонованими методами обробки структурованої інформації. Однак характеристики таких векторів раніш не були досліджені, що обмежувало можливість практичного застосування даного методу. В роботі отримано та експериментально перевірено аналітичні характеристики методу, такі, як розмірність багатовимірних рецептивних полів, щільність і перекриття кодів, роздільна здатність.

Рис. 6. Метод Prager

При кодуванні за методом Prager усі одновимірні поля мають однаковий розмір 2G > R і інтервал розташування їх центрів значно перевищує вхідний інтервал, тому одновимірні поля перетинають вхідний інтервал не більш ніж одним порогом. В реальності багато одновимірних полів накривають вхідний інтервал і не змінюють активності при зміні координат вхідної точки D. Назвемо кількість одновимірних полів, що перетинають вхідний інтервал, “реальною” розмірністю багатовимірного рецептивного поля. Ця характеристика відображає складність залежностей між елементами вхідного вектора D, які можуть бути враховані в результуючих бінарних векторах. Досліджено узагальнений метод Prager із вибором S < A вимірів, який дозволяє регулювати “реальну” розмірність багатовимірних рецептивних полів не лише вибором G, але й за допомогою S. Для нього отримано розподіл розмірності s багатовимірних рецептивних полів:

Pin(s;S,pin) = CSs pins (1 - pin)S-s, (2)

де pin = -GR-G1/(2R+G)dx+GR+G1/(2R+G)dx = 2R/(2G+R).

Щільність вектора p (доля одиничних елементів) незмінна для усіх точок вхідного простору і визначається як p = (pact)S, де pact = D-GD+G 1/(R+2G) dx = 2G/(R+2G). Розподіл розмірності активних багатовимірних рецептивних полів має вигляд

Pin(s;S,pin) = CSs pin|acts (1 - pin|act)S-s, (3)

де pin| act = 0,5pin / pact = pin / (2-pin) = (1-pact)/pact.

Визначено також характеристику перекриття кодів, тобто величину скалярного добутку бінарних векторів довільних точок вхідного простору D1 і D2:

p(D1, D2) = (1/CAS) i(1)=1,A pact(D1,i(1),D2,i(1)) i(2)=i(1)+1,A pact(D1,i(2),D2,i(2)) … i(S)=i(S-1)+1,A pact(D1,i(S), D2,i(S)), (4)

де pact(D1, D2) = (2G-(D2-D1))/ (R+2G).

Нормований скалярний добуток векторів V(D1, D2) = p(D1, D2)/p(D1) для D1 = (0,5; 0,5) та D2 [0,1] [0,1] приведено на рис. 7.

Роздільна здатність кодів визначається як розмір (середня довжина сторони c) елементарної клітинки - околиці точки D, в межах якої бінарні вектори співпадають з вектором точки D:

Рис. 7. V(D1, D2) векторів Prager

с = (2-(1-Dpc)N+1-(1-(1-D)pc)N+1)/[(N+1) pc], (5)

де pc = (pact)S-1 (S/A) pin.

З умови мінімуму (5) випливає, що найкраща роздільна здатність досягається при pact = min(0.5, (S-1)/S).

Дослідження ефективності нелінійного перетворення вхідного простору при кодуванні рецептивними полями за методом Prаger було перевірено в задачі класифікації. В табл. 1 наведений процент помилок класифікації для реальних та штучних даних з відомої тестової бази Elena. Як класифікатор використаний метод опорних векторів з лінійним ядром, на вхід якого подавалися вектори, що були отримані методом Prager із вхідних даних (векторів) (результати - див. "Prager SVM"). Отримана аналітична характеристика скалярного добутку (4) була використана для класифікації без явного переходу до простору бінарних багатовимірних векторів (результати - див. "Prager ядро"). Отримані результати знаходяться на рівні кращих результатів інших класифікаторів (kNN, MLP, IRVQ), що свідчить про адекватність даного методу для представлення числових даних у рамках єдиної концепції бінарних розподілених представлень.

Експериментальне дослідження цієї та інших задач показали, що якість класифікації визначається розмірністю багатовимірних рецептивних полів та роздільною здатністю. Отримані аналітичні вирази для цих характеристик дозволяють обирати оптимальні параметри векторів при вирішенні задачі класифікації, а також при вирішенні інших задач, які включають обробку числових даних.

У п'ятому розділі розглянуті програмні та інструментально-технологічні засоби, розроблені й використані в роботі.

Для дослідження методів представлення й обробки структурованої інформації був спроектований та реалізований інтерпретатор мови Slang, а також розроблені програмні засоби формування Slang описів за вхідними предикатними описами для вирішення задач пошуку, відображення й виводу за аналогією - Analogy Toolbox.

Запропоновані та досліджені методи порозрядно-векторного і грубого кодування числових величин, а також алгоритми класифікації, реалізовані у вигляді програмних бібліотек Coding та Classifier Toolbox, а також у вигляді модулів обробки програмного нейрокомп'ютера SNC.

Розроблені програмні засоби використовуються в ряді організацій, що підтверджується відповідними актами.

Висновки

Дисертаційна робота присвячена розробці та дослідженню нових методів розподіленого представлення й обробки числової та символьної структурованої інформації. Аналітично та експериментально досліджено характеристики розроблених бінарних розріджених розподілених представлень інформації й методів їх обробки. Розвинені представлення та методи підвищили ефективність пошуку і відображення аналогів у базах знань, виводу за аналогією, класифікації числових даних. Розроблені методи реалізовані у вигляді програмних та інструментально-технологічних засобів для систем штучного інтелекту, які пов'язані з обробкою знань та класифікацією, і перевірені на реальних і тестових даних.

За результатами проведеного дослідження зроблено такі висновки:

1. Розроблені мова Slang та її інтерпретатор за рахунок поєднання символьних і розподілених представлень інформації дозволили формалізувати та суттєво спростити моделювання пошуку, відображення й виводу за аналогією.

2. Розроблений та реалізований засобами Analogу Toolbox метод пошуку аналогів за рахунок вдосконалення методів їх представлення за допомогою бінарних розріджених розподілених представлень дозволив покращити повноту пошуку на 11-22% і точність в 3-4 рази в порівнянні з кращим відомим символьним методом MAC/FAC при перевірці на розширеній базі аналогів ThinkNet, а результати запропонованих методів відображення й виводу за аналогією співпадають з результатами кращих відомих символьних методів SME та ACME.

3. Відповідність результатів експериментальних досліджень розроблених моделей пошуку, відображення та виводу за аналогією результатам відомих психологічних експериментів підтвердила адекватність запропонованих моделей. Розроблені методи представлення, пошуку, відображення та виводу за аналогією за рахунок низької обчислювальної складності та паралельності обробки інформації дозволяють забезпечити їх обчислювально-ефективну реалізацію.

4. Розроблені методи формування бінарних багатовимірних розріджених представлень для числових векторів за рахунок зв'язування розподілених представлень ознак та їх значень дозволили зменшити обчислювальні потреби та об'єми пам'яті пропорційно до розмірності вхідного вектора. Запропоновані методи відновлення числових векторів за їх розподіленими представленнями відкривають можливості інтеграції систем, що мають за основу такі представлення, з класичними архітектурами. Отримані експериментальні залежності кількості помилок декодування й відстані між вхідним і декодованим векторами дозволяють оцінювати якість відновлення для широкого діапазону параметрів та обирати ефективні значення параметрів при вирішенні практичних задач.

5. Отримані аналітичні характеристики розподілу розмірності полів, щільності, перекриття, роздільної здатності бінарних представлень числових векторів для методів кодування Prager дозволяють створювати ефективну конфігурацію експлуатаційних характеристик прикладних систем, що підтверджено експериментами на тестових та реальних даних баз Elena, DGEN та інших.

6. Розроблені методи кодування, реалізовані у програмному засобі Coding Toolbox, при прогнозуванні існування хімічних сполук забезпечують результат на рівні кращих досягнень у цій області: 94,8% - 99,91% (залежно від кількості компонент у сполуці) порівняно із 94,8% - 99,68% системи АНАЛОГІЯ та 89,11% - 99,32% системи DISCOVERY, що підтверджує доцільність використання запропонованих методів кодування для вирішення задач зі складною структурою даних.

7. Розроблені методи реалізовані у вигляді інструментально-технологічних та програмних засобів, які є компонентами інформаційних технологій, пов'язаних з класифікацією, пошуком і виводом за аналогією, а також можуть бути використані для впровадження моделей когнітивних процесів у системи штучного інтелекту.

Список опублікованих ПРАЦЬ за темою дисертації

1. Гриценко В.И., Мисуно И.С., Рачковский Д.А., Ревунова Е.Г., Слипченко С.В., Соколов А.М. Концепция и архитектура программного нейрокомпьютера SNC // Управляющие системы и машины. - 2004. - № 3. - С. 3-14.

2. Мисуно И.С., Рачковский Д.А., Ревунова Е.Г., Слипченко С.В., Соколов А.М., Тетерюк А.Е. Модульный программный нейрокомпьютер SNC: реализация и применение // Управляющие системы и машины. - 2005. - № 2. - С. 74-85.

3. Рачковский Д.А., Мисуно И.С., Слипченко С.В., Соколов А.М. Поиск аналогов с помощью распределенных представлений // Проблемы программирования. - 2005. -- № 1. - С. 39-50.

4. Рачковский Д.А., Слипченко С.В. Подходы к отображению аналогов с помощью распределенных представлений // Компьютерная математика.- 2005. - № 1. - С. 55-69.

5. Рачковский Д.А., Слипченко С.В., Фролов А.А., Гусек Д. Разрешающая способность бинарного кодирования числовых векторов гиперпрямоугольными рецептивными полями // Кибернетика и системный анализ. - 2005. - № 5. - С. 3-16.

6. Рачковский Д.А., Слипченко С.В., Куссуль Э.М., Байдык Т.Н. Процедура связывания для бинарного распределенного представления данных // Кибернетика и системный анализ. - 2005. - № 3. - С. 3-18.

7. Рачковский Д.А., Слипченко С.В., Куссуль Э.М., Байдык Т.Н. Разреженное бинарное распределенное кодирование скалярных величин // Проблемы управления и информатики. - 2005. - № 3. - С. 89-102.

8. Рачковский Д.А., Слипченко С.В., Куссуль Э.М., Байдык Т.Н. Свойства кодов числовых величин для схемы случайных подпространств RSC // Кибернетика и системный анализ. - 2005. - № 4. - С. 39-52.

9. Рачковский Д.А., Слипченко С.В., Мисуно И.С., Куссуль Э.М., Байдык Т.Н. Разреженное бинарное распределенное кодирование числовых векторов // Проблемы управления и информатики. - 2005. - № 6. - С. 57-72.

10. Слипченко С.В., Мисуно И.С., Рачковский Д.А. Свойства кодирования числовых величин случайными гиперпрямоугольными рецептивными полями Математичні машини і системи. - 2005. -№ 4. - С. 15-29.

11. Слипченко С.В., Рачковский Д.А., Мисуно И.С. Декодирование разреженных бинарных распределенных кодов скалярных и векторных величин // Компьютерная математика. - 2005. -№ 3. - С. 108-120.

12. Слипченко С.В. Распределенные представления в задачах обработки иерархически структурированной числовой и символьной информации // Системные технологии. - 2005. - № 6. - C. 134-141.

13. Мисуно И.С., Рачковский Д.А., Слипченко С.В. Распределенное представление данных в задачах классификации // Системные технологии.- 2006. - №1. - C.109-118.

14. Рачковский Д.А., Мисуно И.С., Ревунова Е.Г., Слипченко С.В., Соколов А.М. Концепция и методы нейросетевого распределенного представления информации в задачах ИИ // 14-я Междунар. конф. "Проблемы нейрокибернетики", Ростов-на-Дону. - 2005. - Т. 2. - C. 30-33.

15. Slipchenko S.V. SLANG: a symbolic language for distributed representation // 14-th International Conference “Problems of Neurocybernetics”. -- Rostov-on-Don, Russia. - 2005. - V. 2. - P. 237-239.

АНОТАЦІЯ

Сліпченко С.В. Обробка числової і символьної інформації на основі розподілених представлень в задачах штучного інтелекту. - Рукопис.

Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.23 - Cистеми та засоби штучного інтелекту. - Інститут проблем математичних машин та систем НАН України, Київ, 2006.

Дисертація присвячена розробці й дослідженню методів розподіленого представлення та обробки числової й символьної структурованої інформації. Проведено теоретичне та експериментальне дослідження методів формування бінарних розріджених розподілених представлень інформації та методів її обробки.

Розроблено методи формування бінарних представлень для вирішення задач пошуку, відображення та виводу за аналогією. Запропоновані методи дозволили покращити повноту від 11 до 22% та точність пошуку в 3-4 рази. Методи відображення та виводу за аналогією дали результати, що відповідають результатам психологічних тестів та існуючих систем, але на відміну від останніх запропоновані методи спроможні обробляти не тільки символьну інформацію.

Розроблено методи представлення числових векторів і більш складних структур за допомогою бінарних розріджених розподілених представлень. В задачі прогнозування існування хімічних сполук запропоновані методи показали результат на рівні кращих систем - 94,8%-99,91%.

Отримано аналітичні характеристики методу грубого кодування Prager (щільність кодів, перекриття, роздільна здатність та інші), які дозволяють ефективно вибирати параметри методу при вирішенні практичних задач.

Алгоритми й методи реалізовані у вигляді програмних та інструментально-технологічних засобів штучного інтелекту, що пов'язані із обробкою знань та класифікацією.

Виконано експериментальне дослідження на реальних і тестових даних.

Ключові слова: аналогія, нейронні мережі, ієрархічні структури, векторні представлення, розподілені представлення, грубе кодування, класифікація, ядерні методи.

АННОТАЦИЯ

Слипченко С.В. Обработка числовой и символьной информации на основе распределенных представлений в задачах искусственного интеллекта. - Рукопись.

Диссертация на соискание ученой степени кандидата технических наук по специальности 05.13.23 - Системы и средства искусственного интеллекта. - Институт проблем математических машин и систем НАН Украины, Киев, 2006.

Диссертация посвящена разработке и исследованию методов распределенного представления и обработки числовой и символьной структурированной информации. Проведено теоретическое и экспериментальное исследование методов формирования бинарных разреженных распределенных представлений информации и методов их обработки. Предложенные методы повысили эффективность поиска и отображения аналогов в базах знаний, вывода по аналогии, классификации числовых данных. Алгоритмы и методы реализованы в виде программных и инструментально-технологических средств искусственного интеллекта, связанных с обработкой знаний и классификацией, и экспериментально исследованы на реальных и тестовых данных.

Предложена концепция и разработан интерпретатор языка Slang, позволяющего объединять символьные описания задач обработки структурированной информации с описаниями методов их обработки на основе распределенных представлений. Использование этого языка позволило формализовать методы поиска, отображения и вывода по аналогии и существенно упростить моделирование этих процессов.

Разработанные методы поиска аналогов улучшили полноту и точность поиска по сравнению с лучшим известным символьным методом MAC/FAC. Тестирование на расширенной базе аналогов ThinkNet показало улучшение полноты поиска от 11 до 22% и точности поиска в 3-4 раза. Предложенные методы отображения и вывода по аналогии представили результаты, соответствующие результатам лучших известных символьных методов SME и ACME. За счет использования бинарных распределенных представлений разработанные методы, в отличие от известных, имеют низкую вычислительную сложность, допускают параллельную реализацию и дают возможность обработки не только символьной, но и числовой, аудиовизуальной и другой информации.

Разработаны вычислительно эффективные поразрядно-векторные методы формирования бинарных распределенных представлений для представления числовых векторов на основе связывания представлений признаков и их значений. Эти методы использованы для представления числовых векторов при обработке структурированной информации и в задачах классификации. Разработаны и исследованы методы восстановления исходных числовых векторов по их бинарным распределенными представлениям, которые обеспечивают взаимодействие с традиционными представлениями, а также позволяют оценивать качество формируемых бинарных представлений. Разработанные методы поразрядно-векторного кодирования показали результат на уровне лучших достижений в задаче прогнозирования существования химических соединений - 94,8%-99,91% (в зависимости от числа компонент в соединении).


Подобные документы

  • Імовірнисний підхід у теорії ощадливого кодування. Оцінка інформативності ознак та їх оптимальна градація. Застосування імовірнісних методів для підвищення ефективності ощадливого кодування відеоінформації. Ефективні алгоритми кодування інформації.

    реферат [1,6 M], добавлен 29.06.2009

  • Методи інтерполяції: ітераційний та метод розподілених різниць. Інтерполяційна формула Лагранжа. Алгоритмізація та реалізація методів на ЕОМ в середовищі мови програмування Turbo Pascal 7.0. Аналіз результатів моделювання, інструкція користувачеві.

    курсовая работа [680,9 K], добавлен 11.02.2010

  • Значимість двійкової системи числення для кодування інформації. Способи кодування і декодування інформації в комп'ютері. Відповідність десятковій, двійковій, вісімковій і шістнадцятковій систем числення. Двійкове кодування інформації, алфавіт цифр.

    презентация [1,4 M], добавлен 30.09.2013

  • Загальна характеристика підприємства АТВТ "Суми-Авто", напрямки його діяльності та облікова політика. Опис автоматизованої системи обробки економічної інформації, яка використовується на підприємстві, процес обробки інформації конкретної задачі в ній.

    контрольная работа [20,4 K], добавлен 27.07.2009

  • Комп'ютерні інформаційні системи. Характеристика автоматизованої системи обробки економічної інформації на підприємстві. Технологічний процес обробки інформації конкретної задачі в системі. Впровадження в дію автоматизації бухгалтерського обліку.

    контрольная работа [25,1 K], добавлен 26.07.2009

  • Автоматизована системи обробки економічної інформації, яка використовується на підприємстві, її характеристика. Технологічний процес обробки інформації конкретної задачі в системі. Зауваження користувача щодо функціональних і ергономічних характеристик.

    контрольная работа [26,5 K], добавлен 27.07.2009

  • Нові інформаційні технології (НІТ) як сукупність нових засобів і методів обробки, зберігання і передачі інформації. Технологічна основа та основні принципи створення НІТ. Класифікатори техніко-економічної інформації в фінансовому контролі й аудиті.

    контрольная работа [21,5 K], добавлен 27.09.2010

  • Характеристика дослідження методу введення обмежених обсягів текстової інформації в ЕОМ. Аналіз механізму розробки програми, що передбачає можливість запису текстової інформації до файлу, а також завантаження тексту з файлу. Порядок роботи з програмою.

    курсовая работа [74,1 K], добавлен 05.02.2010

  • Практичне застосування систем кодування знакової та графічної інформації в електронних обчислювальних машинах. Позиційні системи числення. Представлення цілих і дійсних чисел. Машинні одиниці інформації. Основні системи кодування текстових даних.

    практическая работа [489,5 K], добавлен 21.03.2012

  • Концепція розподілених систем управління народним господарством та локальна обробка інформації. Принципи створення автоматизованих робочих місць. Технико-экономічне обґрунтовування вибору системного та прикладного програмного забезпечення і комп'ютерів.

    реферат [16,6 K], добавлен 15.06.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.