Інтерпретація текстової інформації на основі нечітких концептуальних моделей

Розробка гібридної моделі представлення знань, які містить у собі текстова інформація. Методика інтерпретації фрагменту тексту на базі даної автоматизованої моделі, аналіз і обґрунтування її ефективності, напрямки та перспективи практичного застосування.

Рубрика Программирование, компьютеры и кибернетика
Вид автореферат
Язык украинский
Дата добавления 29.08.2015
Размер файла 94,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Інтерпретація текстової інформації на основі нечітких концептуальних моделей

Автореферат

дисертації на здобуття наукового ступеня кандидата технічних наук

Загальна характеристика роботи

Актуальність теми. На сучасному етапі розвитку суспільства одним з додатків інформаційних технологій у бізнесі є системи здобування, накопичення та застосування корпоративних знань. Ці системи дозволяють автоматизувати окремі ділянки і якісно поліпшити бізнес-процеси. Однією з основних рис сучасного бізнесу є його децентралізація, яка забезпечується розподіленими інформаційними системами. Особливість сучасних розподілених систем полягає в обміні великими обсягами природно-мовної (ПМ) текстової інформації. У середньому по мережах однієї компанії проходить декілька мегабайт даних за добу, за місяць цей показник може доходити до гігабайта, а сумарний банк даних може містити терабайти інформації. Один з ресурсів, який найінтенсивніше росте в мережі, зокрема в мережі Інтернет, - це динамічний контент (новини, обговорення, конференції). Таким чином, потреба у використанні розподілених інформаційних ресурсів у сучасних бізнес-процесах різко зросла, але доступ до потрібної інформації стає все більш трудомістким завданням. У зв'язку з цим для успішного впровадження систем автоматизації бізнес-процесів ставиться і вирішується ряд завдань: пошук, збір, зберігання і обробка даних.

Ефективність існуючих систем пошуку й обробки вже не задовольняє сучасних вимог. Виникає потреба в нових механізмах зіставлення, пошуку, перевірки та інших додаткових сервісах для зручної і коректної роботи з даними. А це означає, що залишається необхідним та актуальним завдання інтелектуального пошуку інформації, в основі якого - автоматична обробка текстів і «розуміння» природної мови. Створення систем, що забезпечують якісний пошук і задовольняють запити користувачів, припускає дослідження в області обробки ПМ текстів і пошуку за смислом.

Незважаючи на те, що над вирішенням цієї проблеми працює ряд наукових шкіл, наприклад, ІСА РАН (Осіпов Г.С.), Інститут кібернетики НАН України (Гладун В.П.), питання вдосконалення інформаційно-пошукових систем (ІПС) шляхом розробки нових методів та інформаційних технологій інтерпретації текстової інформації залишається актуальним.

Зв'язок роботи з науковими програмами, планами, темами. Тема дисертаційної роботи та отримані результати відповідають проблематиці держбюджетних тем, які виконуються у Донецькому національному університеті. Дисертаційну роботу виконано згідно з планом держбюджетних науково-дослідних тем №0101U005380 «Технології ситуаційних динамічних процесів для створення систем штучного інтелекту» та №0104U002161 «Інтелектуальні машини, основані на інтегрованих знаннях». Автор є одним з виконавців робіт за цими темами.

Мета і задачі дослідження. Метою дисертаційної роботи є підвищення ефективності систем автоматизації бізнес-процесів, за рахунок удосконалення автоматизованої системи інтерпретації текстової інформації. Для досягнення мети в роботі поставлені наступні завдання:

– дослідити сучасний стан проблеми інтерпретації текстових даних;

– розробити гібридну модель представлення знань, які містить у собі текстова інформація;

– розробити метод інтерпретації фрагменту тексту на базі гібридної моделі представлення знань;

– розробити автоматизовану систему інтерпретації текстової інформації;

– перевірити ефективність запропонованого методу і моделі за допомогою комп'ютерного експерименту.

Об'єктом дослідження є природно-мовна текстова інформація.

Предметом дослідження є моделі представлення і обробки знань у завданнях інтерпретації тексту.

Методи дослідження. У роботі використані такі методи: здобування знань, експертних оцінок, представлення знань, обробки і аналізу текстів на природній мові, теорії нечітких множин, нечіткого ситуативного висновку, побудови розподілених інформаційних систем, аналізу фінансових даних, моделювання і програмування.

Наукова новизна результатів дисертаційної роботи. Вирішення поставлених завданнь дозволило отримати авторові наступні результати:

1. Вперше розроблено гібридну модель представлення знань, що містяться в текстовій інформації, в якій формалізовано та інтегровано на базі апарату нечітких множин концептуальні моделі когнітивної психології: семантичні мережі, пропозиційні мережі, схеми, скрипти.

2. Набула подальшого розвитку методика інтерпретації тексту на основі використання гібридної моделі представлення знань, як формалізована процедура нечітких міркувань на основі досвіду.

3. Вдосконалено підхід до побудови ІПС на основі методу і моделі інтерпретації тексту.

Практичне значення результатів дисертаційної роботи. Запропоновані моделі й підходи підвищують ефективність ІПС за рахунок:

– комплексного представлення знань, що містяться в текстових фрагментах;

– релевантного результату роботи ІПС, забезпеченого автоматизацією процедури інтерпретації;

– використання знань експерта у процессі аналізу фрагментів тексту.

Запропонована нечітка гібридна модель представлення й інтерпретації текстової інформації у складі системи категоризації та інтерпретації текстової інформації «Text-Term-Concept» може бути інтегрована до автоматизованої системи аналізу фінансових ринків, що дозволить:

– збільшити обсяг та якість обробки фінансової інформації;

– мінімізувати дію людського чинника у вигляді неуважності й неоднозначності сприйняття;

– збільшити швидкість обробки даних, а відповідно і їх актуальність у процессі аналізу;

– враховувати неявні знання, що містяться в даних, які обробляються.

Результати дисертації упроваджені на ТОВ «УФС», що дозволило поліпшити швидкість і якість роботи трейдерів. Результати дисертації пройшли дослідну експлуатацію на сайті Донецького національного університету у вигляді системи категоризації й інтерпретації текстової інформації «Text-Term-Concept» для побудови інтелектуальної ІПС. Матеріали дисертації використані в НДР й упроваджені у навчальний процес на кафедрі «Комп'ютерні технології» Донецького національного університету з курсу «Системи штучного інтелекту».

Особистий внесок здобувача. Всі основні результати, що виносяться на захист, отримано автором самостійно. У роботах, виконаних у співавторстві та опублікованих у спеціалізованих виданнях переліку ВАК України, авторові належать: [3] - розробка модуля «Term-to-Concept» у системі «Text-Term-Concept».

Апробація результатів дисертації. Основні положення та результати дисертаційної роботи доповідалися й обговорювалися на:

– четвертій, п'ятій, шостій міжнародних науково-практичних конференціях «Сучасні інформаційні і електронні технології» (Одеса, 2003-2005);

– сьомій всеукраїнській (другій міжнародній) студентській науковій конференції по прикладної математики та інформатики «СНКПМІ» (Львів, 2004);

– другому міжнародному молодіжному форумі «Інформаційні технології в XXI столітті» (Дніпропетровськ, 2004);

– міжнародній науково-практичній конференції «Єдиний інформаційний простір» (Дніпропетровськ, 2004);

– пятій та сьомій міжнародних конференціях «Інтелектуальний аналіз інформації» (Київ, 2005, 2007);

– науковій конференції Донецького національного університету за підсумками науково-дослідницьких робіт (Донецьк, 2005);

– третьому міжнародному симпозіумі IEEE «IDAACS-2005» (Софія (Болгарія), 2005);

– міжнародній науково-практичній конференції «Інтелектуальні системи прийняття рішень і прикладні аспекти інформаційних технологій» (Євпаторія, 2006, 2008);

– міжнародній науково-практичнії конференції «Штучний інтелект. Інтелектуальні і багатопроцесорні системи» (Кацивелі, 2006, 2008);

– дев`ятій міжнародній конференції «Інтелектуальні системи і комп'ютерні науки» (Москва, 2006);

– науковій конференції Донецького національного технічного університету за підсумками науково-дослідницьких робіт (Донецьк, 2007);

– міжнародній науково-технічній конференції «Інтелектуальні технології лінгвістичного аналізу» (Київ, 2008);

– регіональному семінарі «Актуальні питання комп'ютерних наук», який функціонує при кафедрах комп'ютерних технологій та прикладної математики і теорії систем управління (Донецьк, 2006-2008).

Публікації. За темою дисертаційної роботи опубліковано 19 науково-технічних публікацій, з них: 5 статей у виданнях, включених у перелік видань ВАК України, у яких можуть публікуватися результати дисертаційних робіт на здобуття наукового ступеня доктора і кандидата технічних наук; 14 публікацій у збірниках праць і тез міжнародних і регіональних науково-технічних конференцій, семінарів, форумів.

Структура та обсяг дисертаційної роботи. Дисертація складається із вступу, чотирьох розділів, висновків, списку використаних літературних джерел з 197 найменувань на 10 сторінках, 6 додатків на 22 сторінках. Робота містить 41 рисунок, 3 таблиці. Загальний обсяг роботи складає 185 сторінок, з них 148 - основного тексту.

Основний зміст роботи

автоматизований гібридний текстовий знання

У вступі описано сучасний стан інформаційних систем у бізнес-процесах, існуючі проблеми і основні напрями їх вирішення, сформульовано мету і завдання дисертаційної роботи, зазначено її актуальність, а також охарактеризовано особистий внесок здобувача, практичне значення та наукову новизну отриманих результатів.

У першому розділі виконано аналіз існуючого стану досліджуваної проблеми - питання організації і пошуку текстової інформації в бізнес-процесах. Проблема має декілька аспектів, кожен з яких розглядається як окреме завдання. У дисертації досліджено інтелектуальний пошук, який вирішується в штучному інтелекті, а саме, як інтерпретація текстової інформації.

Особливістю організації інформації в бізнесі є використання розподілених інформаційних систем і мережі Інтернет. У процесі розгляду інформаційних потоків у мережах, усі дані ділять на два класи: статичний і динамічний контент. До динамічного контенту належить інформація, актуальність і період доступності якої обмежено часом. У мережі Інтернет така інформація представлена стрічками новин, форумами, конференціями та іншими видами документів. Обробка динамічного контенту і пошук у ньому необхідної інформації є однією з важливих складових сучасних бізнес-процесів. Пошук інформації в необмеженому неоднорідному динамічному інформаційному середовищі вимагає спеціальних сервісів і служб.

Для оцінки ефективності роботи пошукових машин обрані наступні характеристики: релевантність (формальна відповідність інформації, видаваною системою, запиту), пертинентність (співвідношення обсягу корисної інформації із загальним обсягом отриманої інформації) і повнота (співвідношення обсягу отриманої релевантної інформації з максимально можливим). Існуючі системи пошуку за ключем не відповідають повною мірою цим критеріям. Для задоволення інформаційних потреб користувачів до ІПС вносяться елементи інтелекту. У роботі наведено огляд сучасних ІПС, і на їх прикладі продемонстровано існуючі проблеми, дві з яких проаналізовано детально.

Перша пов'язана з недосконалими і розрізненими форматами електронних документів у мережі. На сьогоднішній день міжнародним консорціумом W3C group прийнято єдиний стандарт представлення динамічних даних в Інтернет - RSS, що може бути використанй в інтелектуальному пошуку. Для оперативності і зручності роботи з динамічним контентом у вказаному форматі з'явилися спеціальні сервіси і служби. У роботі здійснено огляд служб, що існують на сьогодні, і їх можливостей. Для поліпшення якості роботи інтелектуальної ІПС, в дисертаційній роботі ставиться завдання розширити функціональні можливості служби синдикації.

Друга проблема пов'язана з тим, що більшість підходів до побудови інтелектуальних ІПС не спираються на модель ПМ тексту. Інформаційні потоки, що циркулюють в інформаційно-аналітичних центрах, переважно, є неструктурованою ПМ текстовою інформацією. Особливістю завдань аналізу текстової інформації є те, що предметом аналізу виступають у першу чергу знання, що містяться в ній, про предметну область. Таким чином, ядром системи підтримки інформаційно-аналітичної діяльності повинна бути система автоматизації здобування і формалізації знань, що містяться в текстах. Особливості представлення знань у вигляді тексту знайшли віддзеркалення в моделях когнітивної психології, формалізація яких, а також розробка на їх основі концептуальної моделі представлення знань, є завданням дисертаційної роботи.

У другому розділі описана гібридна модель представлення знань, формалізовану на основі апарату нечітких множин.

Моделі представлення знань, що розглядаються у дисертації, складаються з двох компонент: інтенсіонального та екстенсіонального представлень. Екстенсіональні представлення відносяться до даних, а інтенсиональна компонента є концептуальною моделлю, що містить знання про предметну область.

На основі аналізу робіт в області розуміння ПМ, в дисертаційній роботі запропоновано гібридну модель (ГМ) представлення знань. Структура ГМ комплексно об'єднує у вигляді складових компонент моделі знань, що відображають різні погляди на представлення знань. Аналіз когнітивних моделей дозволив виділити базові компоненти: об'єкти (O), дії (D) і події (S). Елементи моделі об'єднуються в класифікаційні структури: семантичні (N1) і пропозиційні (N2) мережі. У моделі враховані особливості індивідуального сприйняття навколишнього світу, представлені набором індивідуальних знань про світ у вигляді прототипів. Прототипи формуються відповідно до класифікаційних структур і поділяються на схеми та скрипти. Таким чином, множина елементів моделі і зв'язки між ними становлять формальну систему знань вигляду:

. (1)

Під об'єктом розуміється модель суті деякого реального світу, яка має деякий набір властивостей. Виділено елементарні об'єкти (базові одиниці), з яких складаються інші об'єкти. Вони визначені на концептуальному рівні. Таким чином, об'єкт (O) в концептуальній моделі є іменованою сутністю () і відповідна множина її ознак (pi):

;; . (2)

Відношення між об'єктами на концептуальному рівні є дії. За аналогією з об'єктами дії можуть бути описані через інші дії - більш елементарні, названі в теорії концептуальної залежності АКТами. Отже, дія (D) якої-небудь концептуалізації є, по суті, ім'ям (), під яким об'єднується множина послідовних дій, що розглядаються як його частина (pi) (2). Об'єкти і дії позначені як робочі елементи ГМ (РЕГМ). Подія є деяка дія, що описує конкретні відношення конкретних об'єктів. У термінах запропонованої моделі подія (S) є множиною, що складається з дії (D) і двох об'єктів (,, i?j), а також ряду допоміжних аргументів (), які можуть виступати об'єктами або суб'єктами дії в елементарних АКТах (2).

Порядок об'єкту і суб'єкту дії встановлюється однозначно. Внаслідок того, що існують зворотні дієслова, в яких реципієнтом виступає сам суб'єкт дії, введено допоміжний об'єкт «is».

РЕГМ об'єднані в семантичні мережі. Семантичні мережі дозволяють виділити всі поняття, представлені РЕГМ, в рамках предметної області і відношення між цими поняттями, а також структурувати їх. У дисертаційній роботі мережі представлені підграфами вигляду N (V, A), де V - множина РЕГМ (вузли мережі), A - множина дуг (зв'язки між РЕГМ). У запропонованій ГМ на семантичних мережах використано два типи зв'язків: «part_of» (відношення типу «частина») і «is_a» (відношення типу «це»).

У дисертації вважається, що динамічні властивості «світу» описано складними поняттями і відношеннями між ними. Для представлення знань, що містяться в кожній окремій пропозиції, використовується пропозиційна репрезентація. Пропозиційна мережа є множина подій із заданими пропозиційними зв'язками між його елементами. Розрізняються пропозиційні зв'язки трьох видів: відношення «потім», що веде до нової події, відношення «водночас» (або «тоді як»), що дозволяє сполучати поточну подію з новою подією, і відношення «час», що дозволяє сполучати події з невизначеним часовим порядком. Одна з важливих особливостей пропозицій полягає в тому, що вони можуть вступати в ієрархічні відношення, в яких одна пропозиція виступає одиницею в межах іншої пропозиції (формування макроподій). Уведення макроподій дає можливість використовувати пропозиційні мережі для категоризації інформації.

Пропозиційну мережу описано в гібридній моделі підграфом наведеного вигляду, де множина вузлів є множина подій ГМ (S), а дуги, відповідно, є пропозиційні зв'язки:

, , . (3)

Можливість враховувати індивідуальні знання про оточення є особливістю ГМ. Ця властивість моделі реалізована прототипами. Прототипом у ГМ прийнято називати будь-який елемент моделі (об'єкт, дія, подія), який має набір власних атрибутів, що настроюються на кожне оточення. Виділяється два види прототипів: схеми і скрипти. Схема - абстракція об'єктів, або репрезентація семантичної мережі об'єктів у термінах конкретного навколишнього світу. Скриптом названа репрезентація пропозиційної мережі.

Оскільки людське мислення є нечіткий механізм, то повна модель знань представлена нечіткою ГМ (НГМ), яка задана системою виду НГМ = <ГМ, {CF}>. Концептуальна НГМ представлення знань формалізована на основі апарату нечітких множин.

На підставі введених раніше визначень, РЕГМ є набір ознак pi, що формується з множини всіх можливих ознак P при побудові інтенсіональної частини моделі. Для кожного інтенсіонального представлення задається різний ступінь приналежності визначеної ознаки конкретному поняттю , що дає можливість визначити кожен РЕГМ як підмножину ознак, яка володіє нечіткою характеристикою:

(4)

де , , M - множина можливих значень функції приналежностей (), - мале ().

Чинник упевненості для елементів множини подій задається упевненістю в складових цієї події. Таким чином, подія визначається як множина нечітких підмножин .

Чинник упевненості класифікаційних структур НГМ є множина нечітких характеристик зв'язків у класифікаційних структурах. Відповідно, семантичні мережі представлені у вигляді нечіткої підмножини зв'язків:

; ;

; , (5)

де - вузли семантичної мережі, - дуга в мережі з вузла у вузол , - функція приналежності дуги даної мережі, або сила зв'язку вузлів і , М - множина приналежностей елементів множини .

Аналогічним чином, нечітка підмножина задає нечіткий граф пропозиційної мережі, якщо виконується:

. (6)

Побудована з урахуванням конкретних значень чинників упевненості НГМ описує індивідуальні знання про предметну область і формує нові інтенсіональні відношення. Концептуальна НГМ дозволяє враховувати неявні знання, що містяться в текстових фрагментах, і може бути використана як складова частина багатьох інтелектуальних систем, що працюють з текстами на ПМ.

У третьому розділі подано опис методу інтерпретації тексту. Завдання інтерпретації тексту на ПМ розбите на рішення ряду підзадач, відповідно до рівня конкретизації смислового навантаження.

Перша підсистема термінологічної розмітки тексту перетворює первинний текст у нечіткі терміни, що описують вхідний документ. На етапі подієвої розмітки (фразеологічний аналіз) будується ланцюжок вхідних подій, що складаються з нечітких термінів, і формуються структури вхідних фраз. Саме послідовність фраз із нечітких термінів є предметом концептуального аналізу тексту.

Концептуальний аналіз і висновки є процес обробки знань. Процес обробки знань на основі НГМ використовує модель активізації мереж, розроблену на базі моделі логогену Мортона. У дисертації формалізована і розглядається як апарат обробки даних когнітивна модель логогену. Кожному вузлу мережі поставлено у відповідність модель логогену. Входи вузла пов'язані з виходами інших вузлів мережі. Під активністю мережі розуміється множина нечітких активностей вузлів. Нечітка активність вузла i є нечітка множина, представлена L-R функціями:

. (7)

Нечітка множина задається на базовій універсальній множині , що характеризує рівень активності. Нечітка характеристика активності задається значеннями абсцис та відповідними функціями приналежностей. У початковий момент часу активність мережі характеризується пасивним станом усіх вузлів, який задається наступними функціями приналежностей (значення абсцис і ординат): , .

У процесі інтерпретації вхідних даних у визначених вузлів мережі значення активності змінюються. При цьому перерахунок відбувається під час обробки кожної події фрагменту тексту. Значення активності вузла під час обробки m-ї події фрагменту тексту розраховується з урахуванням трьох чинників: m-ї події фрагменту тексту; активності вузла, розрахованої під час обробки m-1, m-2, …, m-k подій фрагменту тексту (k<m); контекстних знань. Таким чином, нечітка множина характеристик активності у момент часу t визначається як:

, (8)

де - складова активності, що формується під час обробки m-ї події, - складова активності вузла i, що формується під час обробки попередніх подій тексту (складова активності від пам'яті),

- складова активності, що формується контекстом (від суміжних вузлів мережі). Обробка вхідного фрагменту тексту є дискретним у часі процесом. Кожен крок пов'язаний з обробкою чергової події фрагменту тексту. Складова активності від події розраховується як:

, (9)

де - нечітка характеристика упевненості вхідної m-ї події, G - функція відображення нечіткої характеристики вхідної події (нечіткої фрази) в активність вузла.

З кожним вузлом пов'язана пам'ять глибиною k, де зберігаються k значень активності, отриманих на попередніх m-l () етапах обробки тексту. Активністю вузла i в пам'яті є нечітка множина , отримана як опукла комбінація нечітких множин :

(10)

де ; ; ,

- коефіцієнт пам'яті (), знак «+» означає арифметичне підсумовування, k - глибина пам'яті, що вказує на те, скільки оброблених подій буде враховано під час розрахунку.

Введення глибини пам'яті під час обчислення активності вузла дає можливість виділити найбільш важливі моменти інформації, що інтерпретується, і видалити з контексту незначущі вузли.

Зміна рівня активності вузла активізує його дуги, які передають активність і, відповідно, активізують усі суміжні з ним вузли. Активність дуги від вузла j у вузол i характеризується нечіткою множиною , представленою L-R функціями:

; ;

(11)

де , - центри тяжіння значення нечіткої активності вузла j до дії на нього всіх складових активності і, відповідно, після.

Перехід дуги в активний стан відбувається при зміні активності вузла, з якого вона виходить. Значення активності , що надійшло по дузі від вузла j, розраховується за формулою:

, (12)

де - активність суміжного вузла j, - сила зв'язку по дузі , знак «» означає множення нечіткої підмножини на число, - активність дуги (11).

Складова активності вузла від контексту розраховується як загальна накопичена активність, що надійшла від усіх суміжних вузлів. Як операція накопичення активності використовується , де X - накопичена раніше активність вузла, а у - апріорне значення активності, яка надійшла. Формула розрахунку активності контексту записується у вигляді:

; , (13)

де - накопичена раніше активність вузла (активність вузла i до надходження активності від l-го вузла), - значення активності, яке поступило від l-го вузла (12), - функція обмеження розповсюдження активності, n - кількість суміжних вузлів з вузлом i, « - операція накопичення активності, реалізована у вигляді перерахунку значень абсцис і ординат L-R функції приналежності для активованих вузлів:

;

(14)

де ().

Введення функції дозволяє контролювати процес розповсюдження активності і запобігти потраплянню випадкових і малозначних вузлів в активний підграф моделі.

Розглянуті складові активності в кожен момент часу t діють одночасно. Загальна активність вузла, з урахуванням усіх складових (8), обчислюється таким чином:

, (15)

де знак «» означає диз'юнктивну суму нечітких підмножин.

Рішенням задачі інтерпретації фрагменту тексту є активний підграф ГМ. У термінах ГМ контекст є звичайною множиною - рівня:

, (16)

де - нечітка множина активності -рівня: ; , - граничне значення ().

Модель інтерпретації тексту може бути описана як відомий в літературі зі штучного інтелекту, але не формалізований метод міркувань на основі досвіду. Таким чином, міркування на основі досвіду формалізовано і представлено у вигляді моделі активності мережі. Результати висновку на основі прихованих знань (висновок на основі досвіду в ГМ), представлені у вигляді контексту, можуть бути використані для подальших міркувань на основі поверхових знань (висновок на основі правил). Створення симбіозу у вигляді гібридної архітектури, що поєднує в собі міркування на основі правил і досвіду, дозволяє розширити перелік завдань, що піддаються автоматизації. Слід зазначити, що використання в міркуваннях на основі правил знань, отриманих з міркувань на основі досвіду, дозволить розширити область інтерпретації тексту, а як наслідок, приймати рішення з більшим ступенем упевненості при використанні в системах категоризації, анотації, а також в інтелектуальних ІПС.

У четвертому розділі виконано опис технології побудови автоматизованих систем інтерпретації тексту (АСІТ), включаючи методику побудови бази знань (БЗ). Запропоновано організацію АСІТ і, зокрема, реалізацію алгоритму інтерпретації тексту на основі НГМ. На прикладі предметної області фінансових даних виконано опис реалізації та оцінки технології побудови АСІТ.

Запропонована в дисертаційній роботі технологія побудови АСІТ включає процеси здобування і обробки знань. За базову методику здобування знань вибрано опитування експертів. АСІТ ґрунтується на методах термінологічної розмітки й інтерпретації текстової інформації. У основі процесу інтерпретації використовується НГМ, описана в другому розділі роботи і представлена в системі БЗ предметної області.

Основу АСІТ складає інтелектуальна система категоризації та інтерпретації текстової інформації «Text-Term-Concept». До неї входять дві підсистеми: виділення множини термінів тексту «Text-to-Term» та інтерпретації текстового фрагменту «Term-to-Concept» («TC»). У процесі побудови підсистеми «TC» використані матеріали дисертаційної роботи. У основу алгоритму інтерпретації тексту покладено моделі, формалізовані в третьому розділі дисертації - модель активності мереж. Обробка інформації побудована у вигляді ітераційного процесу, який виконується за кроками. БЗ підсистеми «TC» є фізичною реалізацією НГМ і організована у вигляді реляційної СУБД.

Теоретичні аспекти дисертаційної роботи пройшли перевірку на прикладі предметної області - аналіз фінансових даних у завданнях з фундаментального аналізу ринку.

З метою автоматизації процесу підтримки прийняття рішень трейдера на основі фінансових даних з мережі Інтернет була розроблена АСІТ у вигляді інтелектуальної ІПС «ENewsAnalyzer», яка включає окремі програмні модулі: «Intelligent Mail Agent», «SemanticExpert» і «TC». Загальна структура модулів системи «ENewsAnalyzer» наведена на рис. 3.

Підсистема збору стрічок новин «Intelligent Mail Agent» надає розширені можливості служб роботи з динамічним контентом в мережі Інтернет і виконує завдання автоматизованого інтелектуального збору фінансових даних.

Під час створення АСІТ використовується модуль «SemanticExpert», який на основі знань експертів формує робочу БЗ (НГМ) предметної області.

Підсистема «ТС» здійснює обробку фрагментів фінансових даних, отриманих після передобробки зібраних стрічок новин.

АСІТ була апробована у дії на підприємстві ТОВ «УФС».

Над налаштуванням системи на інтерпретацію фінансових даних з модулем «SemanticExpert» працювало троє експертів. У результаті словник містить близько двох тисяч предметних термінів, на якіх формуюється множина об'єктів ГМ. Множина дій представлена 23 елементами, на основі яких побудована множина подій. Класифікаційна структура РЕГМ містить 1030 зв'язків елементів мереж (вузлів семантичних мереж об'єктів і дій), які характеризуються відношеннями типу «це». Подієва модель посилена великою кількістю «чинників дії», які відображають часову і рольову прив'язку подій та використовуються для обліку достовірності подій. У даній предметній області специфіка така, що елементи не мають явно виражених ознак, тому вузли мережі - це просто іменовані елементи. Так, наприклад, множину об'єктів V = {«ВВП», «Інвестиції», «Економіка країни», «Індекс промисловості»} представлено в БД у вигляді записів таблиці OBJECTS (рис. 2). Тоді таблиця семантичної мережі для описаних елементів містить записи вигляду: пара номерів записів з таблиці OBJECTS (node1 і node2), сила зв'язку між об'єктами під вказаними номерами і кількість експертів, що вказали на цей зв'язок.

Модуль «Intelligent Mail Agent» був налаштований на збір RSS-стрічок новин з двох джерел: видання «FINANCE.UA» (http://news.finance.ua/ru/rss) і ТОВ «Інтерактивний Маркетинг» (http://www.podrobnosti.ua/rss/economy.rss/). Модуль формує базу даних фрагментів фінансових текстів, звертаючись кожну годину за оновленнями. З такими налаштуваннями модуль працював протягом трьох місяців. За цей період було зібрано більше ніж 10000 новинних блоків, серед яких більше 40% визначено такими, що дублюються.

Модуль підтримки прийняття рішення оператора-трейдера як вхідні дані використовує отримані після роботи підсистеми «ТС» дані у вигляді вузлів мереж і значень їх актівностей. Результати експлуатації дозволили визначити корисність розробленої системи в даній предметній області. Критеріями оцінки встановлено пертинентність і повноту, оскільки збільшення цих показників збільшує точність прийняття рішення. Порівняння значень повноти і пертинентністі (рис. 4), отриманих в процесі аналізу ринку трейдером-людиною і автоматизованою системою показало, що обсяг отриманих даних при використанні системи «ENewsAnalyzer» зростає від 20% до 65%, збільшуючи достовірність прийнятого на їх основі рішення.

У висновках сформульовано основні наукові результати і практичну значущість виконаної роботи.

У додатках наведено дані аналізу мережевих сервісів, загальну структурну схему і повну технічну документацію систем «Text-Term-Concept» і «ENewsAnalyzer», докладні результати проведених комп'ютерних експериментів, екранні форми і фрагменти лістингу.

Висновки

У дисертаційній роботі запропоновано нове рішення актуальної проблеми пошуку в інформаційних системах і набули подальший розвиток автоматизовані системи інтерпретації тексту. Основні результати роботи сформульовано таким чином.

1. Проведений огляд форматів представлення інформації в мережі Інтернет і додатків, які працюють з мережевими ресурсами, показав неузгодженість цих форматів, що значно ускладнює процес автоматичної обробки текстової інформації. Для вирішення цього питання запропоновано використовувати єдиний формат RSS, побудований на основі XML, що став фактично стандартом для зберігання, передачі і обробки динамічної інформації.

2. Проведений аналіз сучасних систем пошуку виявив наступні недоліки:

- індексний пошук, по-перше, не забезпечує достатнього рівня показників релевантності і пертинентності, по-друге, не дозволяє ефективно працювати з динамічним контентом, що ускладнює використання його для автоматизації бізнес-процесів, по-третє, велика роль в отриманні результатів покладається на користувача;

- існуючі інтелектуальні системи, по-перше, інтегруються з пошуковими системами за ключем, що в результаті знижує показник релевантності;

по-друге, механізми самонавчання систем слабо автоматизуються, по-третє, підходи до інтелектуального пошуку не дозволяють інтегрувати різні аспекти проблеми розуміння ПМ текстів у єдину модель.

Одним із шляхів подолання вказаних недоліків є розробка інтелектуальної пошукової системи, яка інтегрує різні моделі когнітивної психології в єдину концептуальну модель представлення знань і комплексно використовує її під час інтерпретації.

3. Показано можливість формалізації концептуальної нечіткої гібридної моделі представлення знань на основі апарату нечітких множин. Це дозволяє автоматизувати інформаційні процеси, що моделюють людське мислення, а також врахувати індивідуальні знання про оточення і неявні знання, що містяться в текстових фрагментах.

4. Запропоновано інтерпретацію тексту розбити на етапи, які включають термінологічний, фразеологічний і концептуальний аналізи, що дозволяє автономно та незалежно формалізувати перебування тексту на різних етапах обробки

5. Етап концептуального аналізу побудований на основі моделі активності мереж, згідно з якою смисл тексту формується з урахуванням аналізованого фрагменту тексту, пам'яті і контексту. Це дозволило враховувати смислову зв'язність тексту і локалізацію знань у ньому під час побудови контексту. В основу моделі активності мережі покладена формалізована когнітивна модель логогену Мортона, адаптована для обробки тексту, на підставі НГМ.

6. Показано, що інтерпретацію тексту на основі нечіткої гібридної моделі представлення знань та моделі активності мереж можливо розглядати як формалізований механізм міркування на основі досвіду.

7. Приховані знання (неявні знання або смисл), здобуті шляхом висновку на основі досвіду, можуть бути використані як факти в нечітких продукційних системах. Це дозволяє, по-перше, інтегрувати на загальній математичній платформі два механізми висновку (висновок на основі прихованих і висновок на основі поверхових знань), а, по-друге, розширити область інтерпретації тексту, і, як наслідок, приймати рішення з більшим ступенем упевненості при використанні в автоматизованих системах категоризації, анотації, а також в ІПС.

8. Метод й моделі представлення та інтерпретації інформації реалізовані у вигляді бібліотеки процедур, яка дозволяє компонувати на її основі ядро АСІТ - автоматизовану систему категоризації та інтерпретації текстової інформації «Text-Term-Concept» - і налаштовувати на конкретний додаток шляхом формування інтенсіональної частини ГМ. Система використана для розробки інтелектуальної ІПС, яка пройшла дослідну експлуатацію на сайті Донецького національного університету.

9. АСІТ у вигляді інтелектуальної ІПС «ENewsAnalyzer» упроваджена на підприємстві ТОВ «УФС». За наслідками дослідної експлуатації системи «ENewsAnalyzer», до складу якої входить модуль отримання знань «SemanticExpert», модуль автоматизованого збору і передобробки фінансових даних «Intelligent Mail Agent», модуль інтерпретації текстової інформації та формування даних для продукційних правил «TC», отримана оцінка ефективності розробленого методу й моделей: обсяг актуальної (необхідної) для прийняття рішення інформації зростає від 20% до 65%.

Список опублікованих праць за темою дисертації

1. Парамонов А.И. Представление знаний гибридной моделью для систем интеллектуального поиска // Вісник Донецького національного університету - 2005. - Серія А, №1. - С. 404-409.

2. Парамонов А.И. Интеллектуальная поисковая система «ENewsAnalyzer» // Штучний Інтелект. - ІПШІ МОН і НАН України «Наука і освіта», 2006. - №3/2006. - С. 203-213.

3. Парамонов А.И., Каргин А.А., Ломонос Я.Г. Интеллектуальная система категоризации и интерпретации текстовой информации «Text-Term-Concept» // Збірка наукових праць «Моделювання та керування станом еколого-економічних систем регіону», Випуск №3 - Національна Академія Наук України, МННЦ ІТС, 2006. - С. 122-131.

4. Парамонов А.И. Об одном подходе к формированию базы знаний // Наукові праці Донецького національного технічного університету, Серія: «Обчислювальна техніка та автоматизація», Випуск 13 (121) - Донецьк: ДонНТУ, 2007. - С. 153-160.

5. Парамонов А.И. Интенсиональные представления в виде нечеткой гибридной модели знаний // Штучний Інтелект. - ІПШІ МОН і НАН України «Наука і освіта», 2008. - №3/2008. - С. 605-611.

6. Paramonov A.I., Kargin A.A. Intellectual Search Systems Based on the Model of Natural Language Understanding // Proceedings of the Third IEEE Workshop on «IDAACS`2005» - Sofia, Bulgaria, 2005. - P. 150-154.

7. Парамонов А.И., Каргин А.А. Гибридная нечеткая модель обработки концептуальной информации // Збірка наукових праць V міжнародної конференції «Інтелектуальний аналіз інформації» - Київ, 2005. - С. 234-241.

8. Каргин А.А., Ломонос Я.Г., Парамонов А.И. Интеллектуальная система категоризации и интерпретации текстовой информации «Text-Term-Concept» // Збірка наукових праць VII міжнародної наукової конференції «Інтелектуальний аналіз інформації» - Київ, 2007. - С. 140-149.

9. Парамонов А.И. Об одном подходе к построению модели контекста // Материалы IX Международной конференции «Интеллектуальные системы и компьютерные науки», Том 2, Часть 2. - М.: Изд-во механико-математического факультета МГУ, 2006. - С. 224-225.

10. Парамонов А.И. Автоматизированная система сбора новостных лент «Intelligent Mail Agent» // Материалы международной научной конференции «Интеллектуальные системы принятия решений и проблемы вычислительного интеллекта», ISDMCI`2008 (19-23 мая 2008 г.) - Евпатория: Видавництво Херсонського національного технічного університету, 2008. - С. 54-57.

11. Парамонов А.И., Каргин А.А., Ломонос Я.Г. Интеллектуальная система категоризации и интерпретации текстовой информации «Text-Term-Concept» // Збірка наукових праць міжнародної наукової конференції «Інтелектуальні системи прийняття рішень та прикладні аспекти інформаційних технологій», Том 1 - Євпаторія: Видавництво Херсонського морського інституту, 2006. - С. 92-99.

12. Парамонов А.И. Hybrid model of representation of knowledge for intellectual search systems on the Internet // Сборник докладов и тезисов II-го Международного молодежного форума «Информационные технологии в XXI веке» (27-28 апреля 2004 г.) - Днепропетровск, 2004. - С. 135-136.

13. Парамонов А.И. Модель обработки текстовой информации // Сборник трудов четвертой международной научно-практической конференции «Современные информационные и электронные технологии» (23-27 мая 2005 г.) - Одесса, 2005. - С. 178.

14. Каргин А.А., Парамонов А.И. Гибридная модель представления знаний // Сборник трудов четвертой международной научно-практической конференции «Современные информационные и электронные технологии» (17-21 мая 2004 г.) - Одесса, 2004. - С. 72.

15. Каргин А.А., Парамонов А.И., Жозе П.Р. Интеллектуальная система принятия решений на рынке финансовых инструментов в среде интернет // Сборник трудов четвертой международной научно-практической конференции «Современные информационные и электронные технологии» (19-23 мая 2003 г.) - Одесса, 2003. - С. 100.

16. Каргин А.А., Петренко Т.Г., Парамонов А.И. Нечеткие модели в задачах интерпретации финансовых данных // Збірник «Інформаційно-керуючи системи на залізничному транспорті» - Харьків: ХарДАЗТ, Додаток до журналу №4,5, 2002. - С. 35.

17. Парамонов А.І. Про один підхід до моделювання процессу розуміння тексту // Тези доповідей сьомої всеукраїнської (другої міжнародної) студентської наукової конференції з прикладної математики та інформатики «СНКПМІ-2004» (22-23 квітня 2004 р.) - Львів, 2004. - С. 29-30.

18. Каргин А.А., Петренко Т.Г., Парамонов А.И. Гибридная модель представления и извлечения знаний // Збірник «Інформаційно-керуючи системи на залізничному транспорті» - Харьків: ХарДАЗТ, Додаток до журналу №4,5, 2004. - С. 103-104.

19. Каргин А.А., Ломонос Я.Г., Парамонов А.И. Интеллектуальные поисковые системы в администрировании информационных ресурсов корпоративной сети ДонНУ // Сборник докладов международной научно-практической конференции «Единое информационное пространство-2004» - Днепропетровск: УГХТУ, 2004. - С. 9-12.

Размещено на Allbest.ru


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.