Інтелектуальна система менеджменту й інтеграції різнорідної інформації на основі стандартизованих моделей знань
Розгляд систем інтеграції інформації, що призначені для роботи в глобальних інформаційних просторах. Структура й організація мережі Інтернет. Дослідження методів подання логічних правил для формування інтелектуальних механізмів менеджменту інформації.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | автореферат |
Язык | украинский |
Дата добавления | 10.08.2014 |
Размер файла | 140,8 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Харківський національний університет радіоелектроніки
УДК 519.7:007.52
Автореферат
дисертації на здобуття наукового ступеня кандидата технічних наук
ІНТЕЛЕКТУАЛЬНА СИСТЕМА МЕНЕДЖМЕНТУ Й ІНТЕГРАЦІЇ РІЗНОРІДНОЇ ІНФОРМАЦІЇ НА ОСНОВІ СТАНДАРТИЗОВАНИХ МОДЕЛЕЙ ЗНАНЬ
05.13.23 - системи та засоби штучного інтелекту
Шевченко Олександр Юрійович
Харків - 2005
Дисертацією є рукопис.
Роботу виконано у Харківському національному університеті радіоелектроніки Міністерства освіти і науки України.
Науковий керівник доктор технічних наук, професор Терзіян Ваган Якович, Харківський національний університет радіоелектроніки, завідувач кафедри штучного інтелекту.
Офіційні опоненти:
доктор технічних наук, професор Шабанов-Кушнаренко Юрій Петрович, Харківський національний університет радіоелектроніки, професор кафедри ПЗЕОМ, м. Харків;
кандидат технічних наук, доцент Ситніков Дмитро Едуардович, Харківська державна академія культури, завідувач кафедри інформаційно-документних систем, м. Харків.
Провідна установа: Донецький державний інститут штучного інтелекту, кафедра програмного забезпечення інтелектуальних систем, Міністерство освіти і науки України, м. Донецьк.
Захист відбудеться 18.01. 2006 р. о 14 годині на засіданні Спеціалізованої вченої ради Д 64.052.01 у Харківському національному університеті радіоелектроніки за адресою: 61166, м. Харків, пр. Леніна, 14.
З дисертацією можна ознайомитися у бібліотеці Харківського національного університету радіоелектроніки за адресою: 61166, м. Харків, пр. Леніна, 14.
Автореферат розісланий 16.12 2005 р
Вчений секретар спеціалізованої вченої ради С.Ф. Чалий
ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ
Актуальність теми. У зв'язку з безперервним розвитком суспільства постійно зростає обсяг різнорідної інформації, яка потребує накопичення, інтеграції, створення можливостей її інтелектуальної обробки та забезпечення швидкого і релевантного пошуку. До теперішнього часу було розроблено багато різноманітних систем автоматизації документообігу, але в цих системах досі залишається невирішеним питання семантичної обробки інформації. Основним недоліком таких систем є те, що вони не в змозі провести тлумачення інформаційного вмісту гетерогенних джерел, і, як наслідок, використовують для такого аналізу статистичні методи, які не дозволяють проводити контекстуальний аналіз інформації. Цього може бути достатньо при вирішенні задач пошуку інформації за допомогою ключових слів, але за необхідності проведення цілісного аналізу інформації, пошуку за повнотекстовим або семантичним запитом, за необхідності створення системи інтеграції гетерогенної інформації чи при вирішенні задач автоматичного реферування, або при вирішенні задач набуття знань, які подані неявним чином, такої технології замало для забезпечення задовільної якості результату машинної обробки.
Вирішення цього питання можливе завдяки застосуванню стандартів подання даних, запропонованих провідними науковими організаціями та консорціумами, такими як консорціум W3C (World Wide Web Consortium). Використання цих стандартів пов'язане з розробкою нових інтелектуальних методів семантичної обробки та інтеграції інформації. Основою цих методів є використання онтологічного підходу подання інформації, який дозволяє виконувати експліцитне порівняння окремих інформаційних компонентів.
У зв'язку з цим актуальною є задача розробки інтелектуальної системи менеджменту й інтеграції різнорідної інформації на основі стандартизованих моделей знань (онтологій). Вагомий внесок у розвиток онтологічної теорії обробки інформації внесли такі вчені, як: Т.А. Гаврилова, В.Ф. Хорошевський, К.Р. Червинська, E. Miller, J. Hendler, M.K. Smith, C. Welty, D. L. McGuinness, S. Bechhofer, F. Harmelen, I. Horrocks, P. F. Patel-Schneider, L. A. Stein, P. Hayes, J. J. Carroll, J. Roo, J. Heflin, H. Masahiro, J. Euzenat.
Незважаючи на істотні досягнення в цій галузі, залишається ряд задач, які ще далекі від свого остаточного вирішення. До таких задач і відноситься задача обробки інформації з урахуванням її семантичної складової. Ця задача може бути вирішена за допомогою створення інтелектуальної системи менеджменту й інтеграції різнорідної інформації на основі стандартизованих моделей знань.
Зв'язок теми дисертації з планами наукових робіт. Роботу виконано на кафедрі штучного інтелекту Харківського національного університету радіоелектроніки відповідно до плану науково-дослідної роботи у рамках держбюджетних тем: № 105-4 “Розробка теоретичних основ, моделей та алгоритмів вилучення знань з текстових баз даних та побудови високоефективних багатозначних структур природно-мовних систем щодо реалізації інтелектуального інтерфейсу”, № ДР 0100U005436, в якій здобувач Шевченко О.Ю. взяв участь як виконавець (акт впровадження від 12.05.2004); № 164-2 “Розробка методів, моделей і алгоритмів видобування та подання знань у розподілених мережних інтелектуальних системах”, № ДР 0103U001548, в якій здобувач Шевченко О.Ю. взяв участь як виконавець (акт впровадження від 11.04.2004), у рамках роботи за госпдоговірною тематикою: № 03-40 “Розробка підсистеми обробки та аналізу текстової інформації”, № ДР 0104U004070, в якій здобувач Шевченко О.Ю. взяв участь як виконавець (акт впровадження від 18.12.2004).
Автором при виконанні цих тем запропоновано: методи підтримки семантичного анотування електронних документів і архітектура системи інтеграції електронних документів на засадах “онтоспрямованих” систем та реалізовано: систему підтримки створення онтологій; механізм подання метаданих, що заснований на використанні мови Rule ML; механізм обробки “прологоподібних” правил, що описують знання, на основі застосування принципів мови Rule ML; механізм автоматизованої інтеграції онтологій; механізм семантичних запитів користувача до масиву анотованих електронних документів.
Мета і задачі дослідження. Метою дисертаційної роботи є підвищення якості менеджменту документів та спрощення інтеграції різнорідної інформації, на основі використання стандартизованих моделей знань.
Поставлена мета роботи обґрунтовує такі задачі дослідження:
– розробити методи побудови систем інтеграції та менеджменту електронних документів на основі різних концептуальних моделей (онтологій);
– розробити методи трансформації онтологій для забезпечення автоматизованого розширення, модифікації й інтеграції онтологій;
– розробити методи отримання нової інформації завдяки застосуванню правил Rule ML до масиву онтологічних та анотаційних даних.
– розробити методи побудови семантичних запитів користувачів до масиву анотованих електронних документів і візуалізації результатів.
Об'єктом дослідження є автоматизований менеджмент інформаційних ресурсів в Інтернеті, зокрема, з використанням технологій Semantic Web.
Предметом дослідження є методи менеджменту, інтеграції та повторного використання інформації на основі технології Semantic Web на прикладах електронних документів, що відносяться до освітнього процесу.
Методи дослідження. Основними методами дослідження є методи моделювання текстових інформаційних систем, методи обробки і кодування інформації, рекомендовані в рамках ініціативи міжнародного консорціуму W3C з анотування інформаційних джерел.
Наукова новизна отриманих результатів. В процесі вирішення поставлених задач були отримані такі наукові результати:
1. Вперше розроблено метод побудови інтелектуальних систем менеджменту та інтеграції інформації, що заснована на використанні технології Semantic Web. Завдяки використанню таких систем забезпечується можливість семантичного аналізу різнорідної інформації, що надає істотної переваги над існуючими інформаційними системами.
2. Отримав подальший розвиток метод трансформації онтологій, які засновані на використанні стандартів Semantic Web, що дає можливість інтегрувати різнорідну інформацію, яка сформована на основі стандартизованих моделей знань та стандартів Semantic Web, та дозволяє виконувати менеджмент інформаційних ресурсів, описаних завдяки різним концептуальним моделям.
3. Отримав подальший розвиток метод подання “прологоподібних” правил, що описують знання, на основі застосування принципів мови “Rule ML” для написання сценаріїв обробки інформаційного наповнення анотаційної й онтологічної баз. Цей метод дозволяє використовувати набори “прологоподібних” правил до анотаційного масиву даних та отримувати результат логічного виводу інформації.
Практичне значення отриманих результатів полягає в тому, що розроблені методи побудови систем менеджменту й інтеграції інформації, розроблені методи інтеграції онтологій та методи подання “прологоподібних” правил можуть бути використані при створенні інформаційних систем менеджменту та інтеграції інформації нового рівня, здатних виконувати семантичний аналіз документів. Розроблені методи найбільш актуально й ефективно використовувати в таких областях:
– вирішення задач проектування інтелектуальних інформаційних систем документообігу;
– вирішення задач проектування інформаційних систем пошуку, менеджменту й обробки інформації в Інтернеті;
– вирішення задач проектування систем автоматичного реферування інформаційних джерел.
Використовуючи ці методи була створена інтелектуальна система менеджменту й інтеграції різнорідної інформації на основі стандартизованих моделей знань.
На основі розроблених методів вирішення практичних задач проектування систем автоматичного реферування інформаційних джерел і задач проектування інформаційних систем пошуку й обробки інформації в Інтернеті розроблена підсистема обробки й аналізу текстової інформації для підтримки інформаційного пошуку в глобальній і локальній інформаційній базах, яка впроваджена у ТОВ “КОДА” відповідно до договору на створення науково-технічної продукції № 03-40 - “Розробка підсистеми обробки й аналізу текстової інформації” від 01.12.03 р. номер держ. реєстрації 0104U004070 між ТОВ “КОДА” та Харківським національним університетом радіоелектроніки (акт впровадження від 18.12.2004).
Результати дисертаційної роботи впроваджено у навчальному процесі на кафедрі штучного інтелекту ХНУРЕ у дисципліну “Інформаційні технології в мобільному Інтернеті” (акт впровадження від 12.12.04).
Особистий внесок здобувача. Усі результати дисертації отримано автором особисто. У роботах, опублікованих зі співавторами, здобувачу належать: у [2] - модель менеджменту знань у комплексній системі організації технології підготовки фахівців, що дозволяє виконувати пошук інформації, пов'язаної з освітнім процесом; [3,4,5,6] - базові моделі інтеграції інформації на основі “онтобазованого” підходу до обробки текстової інформації, а також розглянуто основні механізми інтеграції онтологій; [7,8] - розробка математичних моделей інтеграції онтологій.
Апробація результатів дисертації. Результати дисертаційної роботи доповідалися і обговорювалися на 6-му і 8-му Міжнародному молодіжному форумах “Радіоелектроніка і молодь у XXI столітті” (м. Харків, 2002, 2004); на 5-й Міжнародній науково-практичній конференції “Інформаційні технології: наука, техніка, технологія, освіта та здоров'я” (м. Харків, 2002); на Міжнародній студентській конференції “Як нам упорядкувати нашу вищу школу” (м. Харків, 2002).
Публікації. За результатами досліджень опубліковано 10 робіт, з них 3 статті в наукових спеціалізованих виданнях, відповідно до переліку ВАК України, та 7 публікацій у збірниках праць міжнародних наукових конференцій.
Структура й обсяг дисертаційної роботи. Дисертація складається із вступу, чотирьох розділів, висновків, переліку використаних джерел та додатків. Загальний обсяг роботи складає 157 сторінок, у тому числі 126 сторінок основного тексту, 32 рисунки, 14 додатків, перелік використаних джерел, що включає 77 найменувань та займає 9 сторінок.
ОСНОВНИЙ ЗМІСТ РОБОТИ
У вступі обґрунтовано актуальність дисертаційної роботи, сформульовано основну мету і задачі дослідження, наведено відомості щодо наукової новизни отриманих у дисертації результатів, визначено їх практичну цінність, наведено відомості про апробацію та впровадження результатів.
Перший розділ містить огляд предметної галузі і постановку задач дисертаційного дослідження. Проведено огляд існуючих систем менеджменту, накопичення, пошуку і аналізу інформації, а також методів аналізу інформаційних джерел. Розглянуто недоліки таких систем. Детально розглянуто параметри оцінки якості роботи таких систем, сформовано набір параметрів для оцінки ефективності інтеграції, пошуку, аналізу та наглядного подання інформації: можливість інтеграції інформації - ця характеристика показує можливість та рівень інтеграції різнорідної інформації, та відображає на скільки отримана після інтеграції інформація подана у термінах системи, яка інтегрувала цю інформацію, та наскільки ця інформація придатна для інтелектуального аналізу; повнота пошуку - це одна з основних характеристик систем пошуку й аналізу інформації. Вона показує співвідношення кількості оброблених документів до загальної кількості документів в інформаційному середовищі, що відповідають даному запиту; точність пошуку - це ступінь співвідношення знайдених документів запиту користувача; актуальність - це відносна характеристика, яка показує час, що пройшов з моменту появи документа в інформаційному середовищі до занесення його в індексну базу; швидкість пошуку - час, за який інформаційна система проводить аналіз запиту й повертає результат пошуку; наочність подання інформації - параметр, що характеризує зручність користування системою.
Розглянуто системи інтеграції інформації, що призначені для роботи в глобальних інформаційних просторах, розглянуто структуру й організацію Інтернет.
Розглянуто сучасні методи опису і подання природно-мовної інформації й ініціативи консорціуму W3C щодо формування стандартів явного подання семантичної інформації. Розглянуто стандарти семантичного опису інформації: RDF, RDF schema, OWL. Розглянуто можливості використання таких методів при формуванні інформаційних систем нового покоління, здатних використовувати інтелектуальні механізми аналізу інформації.
Розглянуто методи подання логічних правил для формування інтелектуальних механізмів менеджменту інформації. Сформовано основну схему класифікації технологій для рівня логічних правил відповідно до технології Semantic Web (рис. 1). Обґрунтовано доцільність використання цієї технології для інтелектуального аналізу інформації. Проведено аналіз можливостей практичного застосування інтелектуальної технології обробки текстової інформації і поставлено задачу дисертаційного дослідження.
Размещено на http://www.allbest.ru/
Рис. 1. Основна схема класифікації технологій для рівня логічних правил.
У другому розділі розроблено ряд методів, які поширюють технологію Semantic Web, доповнюючи її необхідними інструментами для створення інтелектуальної системи менеджменту та інтеграції інформації.
Розроблено методи оцінки якості подання інформації у стандарті Semantic Web для такої системи, розроблено параметри оцінки якості подання інформації згідно з технологією Semantic Web: коефіцієнт повноти анотування інформаційного джерела показує наскільки повно виконано перенесення інформації з файлу ресурсу в його семантичну анотацію. Коефіцієнт “машинообробності” анотації інформаційного джерела показує, наскільки описи компонентів, що входять в анотацію, є розпізнаваними для інформаційної системи. Параметр дозволяє виявити необхідність трансформації онтологічної бази для повної інтерпретації інформаційного ресурсу. Завдяки цьому параметру можна встановити, що анотація може бути повністю інтерпретована за допомогою інтелектуальної системи без зміни змісту онтологічної бази. Коефіцієнт несуперечності анотаційного змісту вказує на ступінь несуперечності нової інформації відносно змісту анотаційної бази. Параметр дозволяє виявити появу суперечливості у випадку внесення анотації в анотаційну базу.
Докладно розглянуто онтологічний підхід до подання інформаційних джерел, розроблено механізм інтеграції онтологій, базований на використанні формальних описів класів об'єктів, специфікованих мовою OWL для забезпечення ефективної інтеграції та менеджменту інформації.
Отримав подальший розвиток метод трансформації онтологій, які засновані на використанні стандартів Semantic Web. Відповідно до стандартів W3C консорціуму й специфікації OWL, онтологія () у роботі описується як сукупність 5-ти множин: класів (), властивостей (), виразів (), множини екземплярів об'єктів () і множини зв'язків між чотирма попередніми множинами ().
Кожний елемент множини- це кортеж: , де, =, значення залежать від значення (таблиця 1):
Таблиця 1 Значення елементів кортежу множини
Значення |
||||
вказує на належність властивості до класу |
||||
вказує на те, що є суперкласом відносно до |
||||
вказує на належність виразудо класу |
Для інтеграції онтологій введені такі операції:
(+) об'єднання - бінарна операція, що поєднує дві онтології та в (). При цьому множина класів та об'єднуються в множину за спеціальними правилами.
, (1)
де - множина класів, що мають аналоги в та; - множина класів з онтології, які не мають аналогів в онтології; - множина класів з онтології, які не мають аналогів в онтології;
,
де- це критерій збігу класів, якщо він дорівнює 0, тоді класи по всіх параметрах повністю збігаються;
,
де - функція, яка обчислює кількість елементів множини; - множина властивостей, пов'язаних тільки з одним із двох класів () онтологій, які інтегруються, а - множина виразів, які не підходять хоча б одній з онтологій, що інтегруються;
(2)
де - ім'я властивості j класу;- тип властивості j класу;
(3)
де - функція, яка перевіряє відповідність виразу стосовно класу та онтології. Множина властивостей формується в такий спосіб:
. (4)
Критерієм однотипності властивостей є така ознака:
де- ім'я властивості j класу;- тип властивості j класу.
Для формування множини виразів, які належать до загальної онтології, застосовується така формула:
, (5)
де- множина функціональних виразів онтології;- множина функціональних виразів онтології; - множина функціональних виразів онтології, яку отримано в результаті інтеграції й; множину екземплярів об'єктів також обчислюємо за формулою
, (6)
критерій збігу екземплярів об'єктів:
де - ім'я властивості m екземпляра об'єкта, - тип властивості m екземпляра об'єкта, - значення властивості m екземпляра об'єкта, - тип екземпляра об'єкта (клас-прототип для даного екземпляра).
Множина зв'язків також формується відповідно до формул:
,
(7)
.
Функція виконує заміну компонентів та кожного кортежу множини таким чином: якщо як чи виступає об'єкт з множини та існує клас для якого, то в кортежі виконується заміна на.
(-) різниця - бінарна операція, що виділяє різницю між двома онтологіями O1 та O2. Результатом цієї операції є онтологія O3, що містить множину концептів, отриману відповідно до формули:
.
інформаційний інтелектуальний менеджмент логічний
де - множина класів з онтології, які не мають аналогів в онтології; - множина класів з онтології, які не мають аналогів в онтології. При цьому множина властивостей формується відповідно до формули: , а множина виразів за формулою: , де- множина властивостей, пов'язаних тільки з одним із двох класів () онтологій з формули (2), що інтегруються, а - множина виразів, які підходять тільки до однієї з онтології, що інтегруються, з формули (3). Завдяки використанню операції об'єднання з'являється можливість виконувати інтеграцію різних онтологій. При інтеграції множина класів формується завдяки (1), множина властивостей завдяки (4), множина виразів завдяки (5), множина екземплярів завдяки (6), а множина зв'язків завдяки (7).
Також було розроблено додаткові операції для маніпуляції з онтологіями з метою оптимізації онтологічної бази:
() виділення - операція, що виконує виділення частини онтології O1. Виділення виконується від концепту, зазначеного в операнді операції, зі збереженням всіх зв'язків, властивих концептам більш низьких рівнів у рамках тієї частини онтології, що виділяється (відсікання зверху);
() стискання - операція скорочення кількості концептів зі збереженням зв'язків між концептами (відсікання знизу зі стисканням).
Набір операцій для маніпуляції над окремими концептами:
(А) Add - об'єднання 2-х концептів за допомогою додавання відсутніх зв'язків з однієї онтологічної гілки в іншу;
(E) Expansion - розширення зв'язку між концептами. Якщо одна з онтологій містить більший опис частини предметної галузі, ніж інша, то результуюча онтологія міститиме більш докладну частину;
(R) Restore - установлює зв'язки узагальнення між концептами в онтологіях за умови відсутності явного зазначення цих зв'язків;
(U) Up - перенесення всіх додаткових зв'язків на більш загальні концепти, якщо це можливо;
(D) Down - перенесення зв'язків від більш загальної до більш окремої вершини.
Операції відсікання і звуження онтології виконуються за допомогою використання таких операцій над концептами:
(Div) Division - виконує відсікання більш загальних концептів (обмеження зверху);
(Dim) Diminution - виконує відсікання більш окремих концептів (обмеження знизу); (T) Taper - дає зменшення кількості концептів у ланцюжку за рахунок вилучення малоінформативних об'єктів.
Завдяки використанню отриманого методу, стає можливим об'єднання різнорідних концептуальних моделей.
Для забезпечення можливості створення програм-сценаріїв, за допомогою яких можна було б аналізувати та модифікувати онтологічну й анотаційну бази, було розроблено 2 типи мов: базована на принципах мови SDQL, яка відноситься до мов, що формують правила цілісності та мови для формування правил висновку за типом прологоподібних мов. Перша мова призначена для формування запитів на отримання інформації з анотаційної та онтологічної баз (загальна схема запиту цієї мови відображена на рис. 2). Другий тип мови дозволяє формувати прологоподібні правила виведення. Ця мова базувалася на використанні спеціальної моделі, розробленої на засадах RuleML.
Основним елементом є аксіоматичні правила, кожне з таких правил вірне.
Завдяки наборам таких правил можна формувати складні сценарії для аналізу інформаційних баз. Кожне з аксіоматичних правил в свою чергу складається з антецеденту і консеквенту. Антецедент виражає набори логічних правил, а консеквент - результуючий вираз, який буде отримано, тоді, коли всі логічні умови вірні. Кожен антецедент і консеквент складаються з наборів атомів:
Атом - головна складова частина при формуванні виразів:
Рис. 2. Загальна структура SDQL запиту
Атом може складатися з , , чи , де - OWL-клас, а - OWL-властивість, та - це інші вільні змінні, OWL-екземпляри об'єктів чи OWL-значення змінних. Як об'єкти можуть виступати змінні або посилання на об'єкти двох типів: конкретні екземпляри об'єктів класів (individual) та інформаційні константи (literal): кожна змінна має своє ім'я, виражене за допомогою URI .
Така модель формування правил повністю забезпечує усі необхідні механізми для опису знань, метазнань та дозволяє створити систему менеджменту інформації.
На підставі вищевикладеної моделі й мови xml отримав подальший розвиток метод подання “прологоподібних” правил, що описують знання, на основі застосування принципів мови “Rule ML” для написання сценаріїв обробки інформаційного наповнення анотаційної й онтологічної баз. Завдяки цим сценаріям з'явилася можливість отримувати нову інформацію, як результат аналізу цих баз. Крім цього можна формувати сценарії як результат виконання інших сценаріїв, такий механізм забезпечує генерацію метаданих. Основними компонентами цієї мови є: Ontology, що дозволяє описати фрагмент онтології та включити інформацію в онтологічну базу явним чином, може містити в собі усі компоненти, характерні для мови OWL. Фрагмент онтології описується завдяки такій конструкції мови XML:
<ontology name = xsd:AnyURI> content </ontology>,
де значення атрибута name задає унікальний ідентифікатор для однозначної ідентифікації фрагмента онтології, а вміст онтології складається з наборів анотацій, класів, підкласів, списків властивостей, значень властивостей, правил і т.д.
У рамках можна описати два типи аксіом:
- елемент variable [аксіома]: дозволяє описати змінні, які можуть бути необхідні при формуванні правил. Xml запис змінної виглядає таким чином:
<variable name = xsd:AnyURI> content </variable>
де значення атрибута name задає унікальний ідентифікатор для змінної, а content містить анотацію змінної.
- елемент rule [аксіома]: дозволяє сформувати правила логічного рівня для модифікації онтологічної й анотаційної баз.
<rule> content(antecedent,consequent) </rule>
як наповнення цього елемента використовуються зв'язки антецедент та консеквент. Антецедент виражає набори тверджень, при виконанні яких справедлива частина висловлення, включена в консеквент. Кожний з цих компонентів можна подати у такий спосіб:
<antecedent> content(atom) </ antecedent>
<consequent> content(atom) </ consequent >
Компонентами антецедента й консеквента є атоми, які у свою чергу можуть складатися з унарних предикатів (класів) з бінарних предикатів (властивостей), рівностей або нерівностей.
Атомарний клас призначений для того, щоб містити описи різних об'єктів.
<ClassAtom> content(description, iObject) </ClassAtom >
Компонентом, що містить атомарний клас, є атом. Атоми можуть містити елементи IndividualPropertyAtom й DatavaluedPropertyAtom. За допомогою цих компонентів можна виразити назву екземпляра класу, назву змінних, значення змінних. За допомогою IndividualPropertyAtom можна додавати нові властивості для різних класів, DatavaluedlPropertyAtom дозволяє задавати значення для цих властивостей. Елемент SameIndividualAtom вказує на ідентичність об'єктів, елемент DifferentIndividualsAtom вказує на різницю між об'єктами. Основна група об'єктів містить об'єкти 2-х типів: i-object та d-object, що відрізняються тим, що i-object містить посилання на конкретний об'єкт, його реалізацію або клас, а об'єкт d-object містить конкретні інформаційні значення.
i-object ::=(individual[id]|variable[id]) d-object ::=(datavalue|variable[id])
Елемент variable[id] дозволяє задати посилання на змінну.
<variable name = xsd:anyURI> content | empty </variable>
Вище наведений набір тегів дозволяє закодувати правила в рамках розробленої інформаційної моделі та дозволяє розробити модуль мови сценаріїв. Такий підхід надає універсальний метод для вираження й опису знань та метазнань для наступної інтелектуальної обробки інформації.
Розроблено методи створення шаблонів, для візуалізації результатів роботи системи. Для забезпечення можливості отримання результуючої інформації у вигляді зрозумілому для людини, розроблено спеціальні методи створення шаблонів, для формування запитів до анотаційної бази. Для подання інформації в шаблоні, обраний універсальний формат RTF. Цей формат дозволяє подати статичну інформацію і її повне форматування. Але для подання динамічної компоненти шаблонів необхідно мати можливість виконувати трансформацію RTF подання. З цією метою було розроблено додатковий формат, що заснований на використанні мови запитів, базованої на принципах мови SDQL та мови XML. Весь документ міститься у XML виразі:
<patern name = xsd:AnyURL> content </ patern >
Шаблон розділяється на 2 секції. У першій секції виконується опис та ініціалізація змінних значеннями з анотаційної та онтологічної баз, на основі спеціальних запитів, побудованих з використанням мови SDQL.
<SDQL_section ><variable name= xsd:AnyURL > SDQLQuery
</variable> </SDQL_section>
Друга секція - це документ, що містить статичні елементи й елементи форматування, написані за стандартом rtf. Для зв'язку з інформаційними базами застосовується спеціальна вставка, що дозволяє додавати значення ініціалізованої змінної в будь-якому місці форматованого тексту.
<document > <rtf_section>…… <value_of_variable name= xsd:AnyURL/>…… </rtf_section> </document >
Таким чином, у другому розділі розроблено теоретичні засади для створення інтелектуальної системи інтеграції і менеджменту інформації на основі стандартизованих моделей знань.
У третьому розділі проведено розробку методу побудови інтелектуальних систем менеджменту та інтеграції інформації, що заснована на використанні технології Semantic Web. При використані цього методу та рекомендацій по створенню систем менеджменту документів розроблено систему, яка містить інформаційні бази для накопичення документів та інформаційних ресурсів в незмінному вигляді, операційні бази, де знаходиться інформація в оптимізованому вигляді для машинної обробки та систему менеджменту інформації, яка виконує функції керування. Система менеджменту надає необхідні інтерфейси для роботи користувача та для виконання сценаріїв для обробки даних (рис. 3).
Размещено на http://www.allbest.ru/
Рис. 3. Архітектура системи інтеграції різнорідної інформації на основі стандартизованих моделей знань
На рисунку 3 зображена архітектура інтелектуальної системи. Система функціонує у 3-х різних режимах, які детально описані у третьому розділі: завантаження інформації, формування нової інформації та менеджменту, формування результуючих документів.
Під час завантаження інформації, проходить попередня обробка інформаційних ресурсів. Проводиться нормалізація інформації анотаційних баз, спрямована на полегшення процесу подальшої обробки анотацій. Головна ідея нормалізації - це заміна синонімічних даних в новій анотації на такі синоніми, які вже є в операційній анотаційній базі. Також на етапі завантаження проводиться інтеграція онтологій у єдину глобальну онтологію системи, завдяки методу описаному у попередньому розділі. А також проводиться пошук та відокремлення управляючих ресурсів серед ресурсної бази, на основі аналізу анотації кожного ресурсу. Процес завантаження інформації виконується щоразу, коли з'являється нова інформація в інформаційних базах. Для обробки інформаційного наповнення операційних баз використовується режим формування нової інформації та менеджменту. У цьому режимі проводиться аналіз управляючих ресурсів системи, які підрозділяються на дві групи: це plug-in, що діють на нижньому рівні, забезпечуючи базову функцію системи та сценарії, що написані мовою, розробленою у попередньому розділі. Потім динамічно формується інтерфейс користувача, в залежності від доступних plug-in та сценаріїв (детальний опис залежностей plug-in та сценаріїв один від одного дається у їх анотаціях). Користувач має змогу задіяти будь-який з доступних сценаріїв. Результатом виконання сценаріїв є додаткова інформація, яка поступає в операційні бази і потім може бути використана в подальших циклах обробки інформації. Результатом виконання сценаріїв може бути як інформація для анотаційної чи онтологічної бази так і управляючі ресурси (сценарії), які потім можна буде виконати. Завдяки такій гнучкій системі з'являється можливість реалізовувати не тільки прості сценарії, які містять формалізовані знання, а також і сценарії, які містять і метадані для створення нових сценаріїв у залежності від наповнення операційної бази.
Для забезпечення можливості візуалізації отриманої інформації та використання її у документах розроблено ще один режим роботи системи. У цьому режимі проходить формування документів на основі обробки шаблонів, технологія створення яких розроблена у попередньому розділі.
Таким чином, у третьому розділі розроблено архітектуру інтелектуальної системи інтеграції інформації та набір додаткових методів для забезпечення роботи такої системи.
У четвертому розділі проведено реалізацію та тестування системи інтеграції інформації на основі стандартизованих моделей знань. Також було додатково розроблено системи для забезпечення можливості підготовки інформації для включення в систему інтеграції інформації.
Проведено розробку програмного комплексу для підтримки процесу створення онтологій. Завдяки використанню комплексу підтримки створення онтологій була розроблена онтологія освітнього процесу. Використання цієї онтології в системі інтеграції й менеджменту інформації дозволяє спрямувати систему на обробку документів освітнього процесу.
Розроблено систему підтримки семантичного анотування інформації, завдяки цій системі значно легше підготовити анотацію інформаційного ресурсу. Особливістю цього компоненту є те, що формування анотації проводиться за допомогою електронного довідника, заснованого на динамічній інформації з операційної онтологічної бази системи інтеграції. Проведено модифікацію системи інтелектуальної інтеграції інформації для підтримки задач пошуку інформації у великих інформаційних просторах.
Розроблено набір plug-in та сценаріїв забезпечення інтелектуального пошуку інформації в інформаційній базі системи.
Також у розділі наведено результати тестування системи інтеграції, пошуку й обробки інформації на підставі стандартизованих моделей знань і її компонентів, проведено модифікацію розробленої системи з метою її впровадження у виробничий та навчальний процес.
У висновках сформульовані теоретичні та практичні результати роботи.
У додатках наведені приклади використання розроблених методів, результати тестування розробленої системи менеджменту та інтеграції інформації та акти впровадження результатів роботи.
ВИСНОВКИ
У дисертації наведено теоретичне узагальнення і нове вирішення наукової задачі розробки методів створення систем інтеграції та менеджменту інформації, заснованої на використанні принципів Semantic Web.
В ході виконаних досліджень отримано нові наукові результати:
1. У результаті аналізу сучасного стану проблеми семантичної обробки інформації визначено ряд недоліків відомих систем, пов'язаних зі складністю аналізу інформації, поданої в електронному, неформалізованому, природно-мовному вигляді. Шляхом вирішення цієї проблеми є створення інтелектуальних інформаційних систем, заснованих на технології подання інформації Semantic Web. Технологія Semantic Web надає стандарти формалізованого подання інформації та забезпечує можливості для семантичної машинної обробки інформації, але не надає алгоритмів і методів такої обробки. Таким чином, доцільною є розробка методів підтримки семантичної обробки інформації, заснованих на технології Semantic Web, та розробка на базі цих методів інтелектуальної системи обробки й менеджменту інформації. Це й обумовило вибір напрямку досліджень, формулювання мети та задач дисертаційної роботи.
2. Вперше розроблено метод побудови інтелектуальних систем менеджменту та інтеграції інформації, що заснована на використанні технології Semantic Web. Використання цього методу дає можливість для створення систем семантичного аналізу різнорідної інформації, що мають істотні переваги над існуючими інформаційними системами.
3. Отримав подальший розвиток метод трансформації онтологій, які засновані на використанні стандартів Semantic Web. Завдяки використанню цього методу можливо інтегрувати різнорідну інформації, яка сформована на основі стандартизованих моделей знань.
4. Розроблено новий метод формування запитів до анотаційної бази знань на основі технології Semantic Web. Цей метод забезпечує можливість отримання різноманітної інформації з інтегрованої інформаційної бази, сформованої завдяки використанню інтеграції різноманітних інформаційних джерел.
5. Отримав подальший розвиток метод подання “прологоподібних” правил, що описують знання, на основі застосування принципів мови “Rule ML”, для опису знань, які дозволяють отримувати нову інформацію завдяки застосуванню цих правил до інформаційного масиву даних, отриманих завдяки інтеграції інформаційних джерел.
6. Апробовано розроблені методи: метод створення інтелектуальних систем менеджменту та інтеграції інформації на базі технології Semantic Web, метод трансформації онтологій та метод подання і виконання “прологоподібних” правил у підсистемі обробки та аналізу текстової інформації, впровадженому на ТОВ “КОДА”.
Отримані результати мають важливе наукове значення для розвитку теорії інтелектуальних інформаційних систем, розвитку технології Semantic Web і велике практичне значення для створення ефективних систем документообігу, здатних проводити автоматичний семантичний пошук, та інтелектуальну обробку інформації.
СПИСОК ОПУБЛІКОВАНИХ ПРАЦЬ ЗА ТЕМОЮ ДИСЕРТАЦІЇ
1. Шевченко А.Ю. Построение систем интеграции и обработки информации на основе “онтобазируемого” подхода // Східно-Європейський журнал передових технологій. - 2004. № 4. - С. 149-153.
2. Левыкин В.М., Терзиян В.Я., Шевченко А.Ю. Менеджмент знаний в системе организации и технологии подготовки специалистов на профилирующей кафедре // Східно-Європейський журнал передових технологій. - 2004. № 2. - С. 15-19.
3. Шевченко А.Ю., Рябова Н.В. Математические модели интеграции онтологий в современных информационных системах // Вестник Харьковского государственного политехнического университета.- 2002. - Вып. № 20. - С. 26-31.
4. Шевченко А.Ю., Белоиваненко М.В., Бачевский А.А. Перспективы развития систем накопления и обработки информации // Сборник научных трудов по материалам 8-го Международного молодежного форума “Радиоэлектроника и молодежь в XXI веке”. - 2004.- Харьков: ХТУРЭ.- С. 64-65.
5. Шевченко А.Ю., Белоиваненко М.В., Сокол В.В. Комплексная система разработки онтонаправленных приложений “OntoGraph // Сборник научных трудов по материалам 8-го Международного молодежного форума “Радиоэлектроника и молодежь в XXI веке”. - 2004.- Харьков: ХТУРЭ.- С. 65-66.
6. Шевченко А.Ю., Щетинина М.В., Захарова Е.В. Использование новых информационных технологий для поддержки образовательного процесса // Сборник научных трудов по материалам 7-го Международного молодежного форума “Радиоэлектроника и молодежь в XXI веке”. - 2003.- Харьков: ХТУРЭ.- С. 96-97.
7. Шевченко А.Ю., Климова М.В., Стукаленко М.Г. Применение новых подходов к построению информационных систем // Сборник научных трудов по материалам 7-го Международного молодежного форума “Радиоэлектроника и молодежь в XXI веке”. - 2003.- Харьков: ХТУРЭ.- С. 76-77.
8. Шевченко А.Ю., Рябова Н.В. Модели интеграции онтологий // Сборник научных трудов по материалам 5-й Международной научно-практической конференции “Информационные технологии: наука, техника, технология, образование, здоровье”- 2002.- С. 5.
9. Шевченко О.Ю. XML - підхід до подання знань на базі онтологій щодо інформаційного забезпечення освіти // Матеріали 4-ї Міжнародної студентської конференції “Як нам упорядкувати нашу вищу школу” - Харків, Народна Українська Академія - 2002.- С. 115.
10. Шевченко А.Ю. Разработка моделей представления онтологий в системах электронной коммерции // Сборник научных трудов по материалам 6-го Международного молодежного форума “Радиоэлектроника и молодежь в XXI веке”. - 2002.- Харьков: ХТУРЭ.- С. 275-276.
АНОТАЦІЇ
Шевченко О.Ю. “Інтелектуальна система менеджменту й інтеграції різнорідної інформації на основі стандартизованих моделей знань” - Рукопис.
Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.23 - Системи та засоби штучного інтелекту. Харківський національний університет радіоелектроніки, Харків, 2004.
Дисертаційна робота Шевченка О.Ю. присвячена розробці інтелектуального механізму менеджменту й інтеграції різнорідної інформації на основі стандартизованих моделей знань. У сучасних інформаційних системах документообігу важливими стають питання, пов'язані з менеджментом інформаційних ресурсів, та задачами накопичення знань. Оскільки статистичні методи не забезпечують можливості контекстуального тлумачення інформації, пошук та аналіз в інформаційних джерелах значно ускладнений. Вирішення цих питань повною мірою залежить від можливості семантичного аналізу і розбору інформації. Потреба враховувати контекст викликала проблему побудови нових засобів інтелектуальної обробки даних, зокрема побудови нового механізму аналізу інформаційних ресурсів, заснованого на онтологічних засадах. Необхідність створення такого апарату обґрунтовує актуальність досліджень у цій галузі.
Ключові слова: інтелектуальна система обробки інформації, інтеграція інформації, онтологія, Semantic Web, інтелектуальний пошук інформації, метод нормалізації rdf-описів, інтеграція онтологій, сценарії для технології Semantic Web, прологоподібні правила для технології Semantic Web, архітектура інтелектуальної системи інтеграції інформації.
Шевченко А.Ю. Интеллектуальная система менеджмента и интеграции разнородной информации на основе стандартизированных моделей знаний. - Рукопись. Диссертация на соискание ученой степени кандидата технических наук по специальности 05.13.23 - системы и средства искусственного интеллекта, Харьковский национальный университет радиоэлектроники. Харьков, 2004. Диссертационная работа Шевченко А.Ю. посвящена разработке интеллектуального механизма менеджмента и интеграции разнородной информации на основе стандартизированных моделей знаний. В современных информационных системах документооборота главными становятся вопросы, связанные с менеджментом информационных ресурсов и задачами накопления знаний. Так как статистические методы не обеспечивают возможности контекстуальной обработки информации, поиск и анализ в информационных источниках значительно осложнён. Решение этих вопросов в полной мере зависит от возможности семантического анализа и разбора информации. Необходимость учитывать контекст вызвала проблему создания новых способов интеллектуальной обработки данных, в частности создания нового механизма анализа информационных ресурсов, основанных на онтологических принципах. Необходимость создания этого механизма объясняет актуальность исследований в этой области.
В работе применен механизм повторного использования информации с поддержкой технологии Semantic Web, который позволяет многократно и в различных документах использовать данные, внесённые в систему. Основой для данного механизма является явное семантическое описание, содержимого документов, формирование которого предусматривают принципы технологии Semantic Web.
Разработан механизм интеллектуальной интеграции информации, хранимой в системе. Для обеспечения такой возможности применяються иерархические методы построения формальных семантических описаний, основанные на технологиях Semantic Web. Применение таких методов достаточно в том случае, если интегрируемые описания построены на основе общей концептуальной модели, но в случае, если при описании применялись различные концептуальные модели, необходим набор методов для предварительной интеграции этих моделей.
В диссертационной работе разработан оригинальный формальный аппарат интеграции концептуальных моделей, основанный на использовании формальных описаний классов объектов, специфицированных с применением стандартов OWL, RDF, RDFS.
Предложено решение проблемы, связанной с высокими требованиями к вычислительной мощности системы, проводящей обработку семантических описаний, построенных на основе языков RDF и OWL. Разработанный механизм нормирования семантических аннотаций, сформированных на основе технологии Semantic Web, позволяет сократить количество онтологических классов, используемых при построении семантических аннотаций информационных источников, и, как следствие, упростить процедуру обработки этих аннотаций.
Для обеспечения возможности извлечения информации из общей аннотационной и онтологической базы в работе разработан специальный механизм постарения семантических запросов, основанный на применении принципов языков SDQL и Squish. Этот механизм обеспечивает поиск необходимых данных в общем массиве интегрированной семантической информации и получение результата в RDF формате.
В диссертационной работе разработан механизм, базирующийся на стандартах Semantic Web и Rule ML, позволяющий проводить генерацию новой семантической информации на основе метаинформации, правил и знаний, выраженных в явном виде.
Для решения задачи визуализации результирующей информации и формирования документов в интеллектуальной системе интеграции информации, разработан специальный механизм, базирующийся на механизме семантических запросов к онтологической и аннотационным информационным базам.
Весь комплекс разработанных, модифицированных и усовершенствованных механизмов обеспечил все необходимые компоненты для создания интеллектуальной системы менеджмента и интеграции разнородной информации на основе стандартизированных моделей знаний. Ключевые слова: интеллектуальная система менеджмента информации, интеграция информации, онтология, Semantic Web, интеллектуальный поиск информации, метод нормализации rdf-описаний, интеграция онтологий, сценарии для технологии Semantic Web.
Shevchenko O. Intellectual system of management and integration of diverse information on the basis of standardized k nowledge models of - Manuscript.
Thesis for a Candidate's of technical sciences degree on specialty 05.13.23 - Systems and Means of Artificial Intelligence, Kharkiv National University of Radioelectronics, Kharkiv, 2004.
Dissertational work by Shevchenko А. is devoted to development of the intellectual mechanism of management and integration of the diverse information on the basis of standardized models of knowledge. In modern information systems of document circulation there are essential questions related to management of information resources, and tasks of accumulation of knowledge. As statistical methods do not provide the possibility of contextual information processing search and analysis in information sources are considerably complicated. The solution to these questions completely depends on the possibility to carry out semantic analysis and information analysis. Necessity to take a context into account has caused a problem of creation of new ways of intellectual data processing, in particular creation of new mechanism of the information resources analysis based on ontological principles. Necessity of creation of this mechanism explains the urgency of research in this area.
Keywords: Intellectual system of processing of the information, integration of the information, ontology, Semantic Web, intellectual information search, a method of normalization of rdf-descriptions, ontology integration, scripts for technology Semantic Web, rules for technology Semantic Web.
Размещено на Allbest.ru
Подобные документы
Визначення й опис компонентів інформаційних систем, індустрії інформаційних систем і індустрії інтелектуальних систем. Об'єднання вхідної мови, інформаційної бази, керуючих програмних модулів. Технологічна інфраструктура торгових Інтернет-майданчиків.
реферат [61,9 K], добавлен 25.11.2010Структура економічної інформації підприємства, її основні елементи та їх взаємозв’язок. Структуризація економічної інформації. Класифікація та різновиди інформаційних систем. Особливості СУБД Approach, Paradox, Access, перспективи їх подальшого розвитку.
контрольная работа [28,9 K], добавлен 27.07.2009Місце мікропроцесора в структурі мікропроцесорних приладів, його функції. Інтегральні мікросхеми із великою ступінню інтеграції. Розробка структурної схеми мікропроцесорної системи обробки інформації на основі мікроконтролера ATmega128 та інших мікросхем.
курсовая работа [2,1 M], добавлен 18.09.2010Захист електронних платежів у мережі Іntегnеt. Побудова захисту електронних банківських документів. Криптографічний захист інформації. Захист інформації та вирішення питань безпеки у СЕП. Роботи програмно-технічних комплексів в інформаційній мережі.
контрольная работа [293,9 K], добавлен 26.07.2009Інформаційна технологія як система методів і способів збору, передачі, нагромадження, збереження, подання й використання інформації на основі застосування технічних засобів, етапи їх розвитку. Розповсюдження та використання інформаційних технологій.
презентация [3,5 M], добавлен 12.06.2014Функції систем захисту інформації, основні терміни та визначення. Введення в криптологію, нормативно-правова база захисту інформації. Впровадження новітніх інформаційних телекомунікаційних системи. Використання та здійснення електронного документообігу.
реферат [24,0 K], добавлен 03.10.2010Задачі інформаційних систем криптографічного захисту інформації. Принципи шифрування даних на основі використання хеш-функцій. Розробка програмних компонентів інформаційних систем криптографічного захисту інформації. Види криптографічних алгоритмів.
курсовая работа [2,7 M], добавлен 23.01.2012Технологія пошуку інформації в мережі Інтернет. Можливості спеціальних служб, індексів. Інформаційні ресурси у каталогах. Системи мета-пошуку, пошуку в конференціях Usenet, пошуку людей. Знаходження інформації із застосуванням серверів глобального пошуку.
реферат [38,8 K], добавлен 20.05.2011Характеристика дослідження методу введення обмежених обсягів текстової інформації в ЕОМ. Аналіз механізму розробки програми, що передбачає можливість запису текстової інформації до файлу, а також завантаження тексту з файлу. Порядок роботи з програмою.
курсовая работа [74,1 K], добавлен 05.02.2010Значимість двійкової системи числення для кодування інформації. Способи кодування і декодування інформації в комп'ютері. Відповідність десятковій, двійковій, вісімковій і шістнадцятковій систем числення. Двійкове кодування інформації, алфавіт цифр.
презентация [1,4 M], добавлен 30.09.2013