Методи та засоби адаптивного інформаційного пошуку на основі моделі користувача
Розроблення методу адаптивного інформаційного пошуку на основі контекстної моделі користувача, який складається з методів автоматичного формування моделі користувача і стереотипів, методів автоматичного розширення запиту інформацією з його моделі.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | автореферат |
Язык | украинский |
Дата добавления | 02.08.2014 |
Размер файла | 51,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
ЧЕРКАСЬКИЙ ДЕРЖАВНИЙ ТЕХНОЛОГІЧНИЙ УНІВЕРСИТЕТ
УДК 004.738.5+004.78:025.4.036
МЕТОДИ ТА ЗАСОБИ АДАПТИВНОГО ІНФОРМАЦІЙНОГО
ПОШУКУ НА ОСНОВІ МОДЕЛІ КОРИСТУВАЧА
05.13.06 - автоматизовані системи управління
та прогресивні інформаційні технології
АВТОРЕФЕРАТ
дисертації на здобуття наукового ступеня
кандидата технічних наук
Ночевнов Дмитро Павлович
Черкаси - 2005
Дисертацією є рукопис.
Робота виконана в Черкаському державному технологічному університеті Міністерства освіти і науки України.
Науковий керівник: кандидат технічних наук, доцент САУХ ВАЛЕРІЙ МИХАЙЛОВИЧ, Черкаський державний технологічний університет, доцент кафедри комп'ютерних технологій.
Офіційні опоненти: доктор технічних наук, професор, заслужений працівник народної освіти України СИДОРЕНКО ВОЛОДИМИР ВОЛОДИМИРОВИЧ, Кіровоградський національний технічний університет, завідувач кафедри програмного забезпечення; кандидат технічних наук, доцент ПІСКУН ОЛЕКСАНДР ВАРФОЛОМІЙОВИЧ, Черкаський національний університет імені Богдана Хмельницького, доцент кафедри економічної теорії та міжнародної економіки.
Провідна установа: Міжнародний науково-навчальний центр інформаційних технологій та систем Національної академії наук України і Міністерства освіти і науки України, відділ розподілених інтелектуальних систем, м. Київ.
Захист відбудеться 19.05.2005 р. о 14 годині на засіданні спеціалізованої вченої ради К73.052.01 Черкаського державного технологічного університету за адресою 18006, м. Черкаси, бул. Шевченка, 460.
З дисертацією можна ознайомитися у бібліотеці Черкаського державного технологічного університету за адресою 18006, м. Черкаси, бул. Шевченка, 460.
Автореферат розісланий 14.04.2005 р.
Вчений секретар
спеціалізованої вченої ради В.В. Палагін
АНОТАЦІЯ
Ночевнов Д. П. Методи та засоби адаптивного інформаційного пошуку на основі моделі користувача. - Рукопис.
Дисертація подана на здобуття наукового ступеня кандидата технічних наук зі спеціальності 05.13.06 - автоматизовані системи управління і прогресивні інформаційні технології. - Черкаський державний технологічний університет. - Черкаси, 2005. автоматичний користувач інформаційний
Дисертацію присвячено вирішенню важливого наукового завдання - опрацюванню наукових засад моделювання користувачів інформаційно-пошукових систем із метою підвищення ефективності пошуку в Інтернеті. Для зменшення втрат інформації і пошукового шуму розроблено контекстну модель користувача у вигляді семантичної мережі, кожен шар якої відповідає певному контекстові пошуку, а вузли, що є зваженими посиланнями на ключові слова, поєднані зваженими асоціативними і синонімічними зв'язками. Розроблено метод адаптивного інформаційного пошуку на основі контекстної моделі користувача, який складається з методів автоматичного формування моделі користувача і стереотипів користувачів, методів автоматичного розширення запиту користувача інформацією з його моделі. Розроблено архітектуру і модель роботи інформаційно-пошукової мультиагентної системи з контекстною моделлю користувача, яка реалізована у вигляді інформаційно-пошукового модуля автоматизованої бібліотечної системи.
Ключові слова: адаптивний інформаційний пошук, Інтернет, програмний агент, контекстна модель користувача.
АННОТАЦИЯ
Ночевнов Д. П. Методы и средства адаптивного информационного поиска на основе модели пользователя. - Рукопись.
Диссертация представлена на соискание научной степени кандидата технических наук по специальности 05.13.06 - автоматизированные системы управления и прогрессивные информационные технологии. - Черкасский государственный технологический университет. - Черкассы, 2005.
Диссертация посвящена решению важной научной задачи - разработке научных основ моделирования пользователей адаптивных информационно-поисковых систем. Решение этой задачи позволяет повысить эффективность информационного поиска в Интернете путём создания методов и средств его адаптации к информационным потребностям пользователей с помощью модели пользователя.
Проведён системный анализ существующих средств поиска в Интернете, методов и средств адаптивного информационного поиска и моделирования пользователей информационных систем. Показано, что повышение эффективности классического информационного поиска можно достичь путём выполнения адаптивного информационного поиска на основе модели пользователя с помощью поисковых машин благодаря повышению пертинентности найденных информационных ресурсов, уменьшению общего времени поиска и расширению его области. Разработана теоретико-множественная модель адаптивного информационного поиска на основе модели пользователя, которая описывает ключевые элементы этого вида поиска, их функциональные взаимосвязи и взаимодействие.
Определены требования к универсальной модели пользователя и её структура, состоящая из трёх частей - когнитивных и некогнитивных характеристик пользователей, составляющих контекст взаимодействия, и хронологии сеансов поиска.
Для уменьшения потерь информации и поискового шума предложено разнородные долгосрочные информационные потребности пользователей упорядочить в соответствии с контекстами поиска и в виде взаимосвязанных ключевых слов хранить в контекстной модели пользователя (КМП) на стороне средства поиска. Это даёт возможность адаптировать информационный поиск к конкретному пользователю путём уточнения его запроса с помощью хранящихся в модели пользователя данных о его информационных потребностях. Предложенная КМП представляет собой многослойную семантическую сеть, каждый слой которой соответствует некоторому контексту поиска, а узлы являются взвешенными ссылками на ключевые слова и связаны между собою взвешенными дугами двух типов - ассоциативные и синонимические.
Предложена концепция адаптивного информационного поиска на основе КМП, согласно которой информационный поиск должен определяться не поведением и характеристиками пользователя поисковой системы, а сущностью и закономерностью изменения его информационной потребности.
Разработаны методы автоматического формирования КМП, основу которых составили методы машинного обучения. Во время обучения КМП должна дополняться ключевыми словами и связями из запроса пользователя и метаописаний выбранных пользователем информационных ресурсов с учётом степени изменения информационной потребности пользователя в контексте поиска. Если контекст поиска не указан пользователем, то он может быть определён автоматически с помощью модели пользователя.
Для устранения избыточности модели пользователя и повышения её адекватности разработан метод автоматической перестройки КМП, который базируется на иерархической кластеризации множества слоёв модели.
Предложено автоматически расширять запрос пользователя релевантными ключевыми словами и связывающими их булевыми операторами, которые определяются из соответствующей КМП с учётом контекста поиска.
Рассмотрен вопрос использования в процессе поиска данных об информационных потребностях других пользователей со сходными характеристиками, хранящихся в стереотипах пользователей. Для этого разработан метод автоматического формирования стереотипов пользователей, в ходе которого сначала для заданного набора характеристик пользователей выполняется поиск множества пользователей, а затем из слоёв контекстных моделей найденных пользователей составляется обучающая выборка, из которой путём кластеризации формируется новый стереотип пользователей.
Предложена архитектура и модель работы информационно-поисковой мультиагентной системы с КМП, состоящей из программных агентов 3-х видов: интерфейсных, информационных и агентов-брокеров. Разработано программное обеспечение информационно-поискового модуля автоматизированной библиотечной информационной системы "Славутич", в основу которого положены архитектура и модель работы информационно-поисковой мультиагентной системы с КМП. Изложены результаты экспериментальной проверки, которые подтверждают эффективность предложенного метода информационного поиска.
Ключевые слова: адаптивный информационный поиск, Интернет, программный агент, контекстная модель пользователя.
SUMMARY
Nochevnov D. P. Methods and facilities of adaptive information retrieval on the basis of a user model. - Manuscript.
Candidate thesis for acquiring scientific degree of Candidate of Engineering Sciences, speciality 05.13.06 - automated control systems and progressive information technologies. - Cherkasy State Technological University. - Cherkasy, 2005.
The dissertation is devoted to the solution of the important scientific task to develop scientific bases for user modelling of information retrieval systems in order to increase efficiency of Internet search. To reduce losses of the information and search noise the contextual user model as a semantic net, which each layer responds to some context of search, is developed. Its nodes have weighted links to keywords and connected between themselves with weighted associative and synonymic links. The method of adaptive information search on the basis of contextual user model is developed. It consists of automatic formation of user model and user's stereotype methods and method of automatic user's query expansion with the information from his model. The architecture and model of work information retrieval multiagent system with contextual user model, realised as the information retrieval module of the automated library system is developed.
Keywords: adaptive information retrieval, Internet, agent, context user model.
ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ
Актуальність теми дослідження. Нині спостерігається експонентне зростання кількості джерел інформації у світі, що зумовлено збільшенням чисельності її споживачів, обсягу створеної і доступної інформації. Це викликає все більші складнощі в ефективному пошуку інформації, що є наслідком, з одного боку, особливостей людино-машинної взаємодії, а з іншого - семантичної неоднорідності джерел інформації. Розв'язання цієї проблеми полягає в індивідуалізації засобів інформаційного пошуку, тобто в адаптації процесу пошуку до індивідуальних особливостей користувачів, що дозволить швидко знаходити релевантну інформацію час за допомогою прийнятних засобів і з мінімальними зусиллями користувачів.
Значний внесок у розробку теоретичних і прикладних питань підвищення ефективності інформаційного пошуку здійснили Г. Селтон, Дж. Солтон, Е. Ф. Скороходько, Л. Е. Пшенична, В. В. Сидоренко, В. М. Дріянський, О. Г. Дубінський, Ю. В. Рогушина та ін. Однак розроблені методи адаптивного інформаційного пошуку, такі як зворотній зв'язок за релевантністю, різні методи модифікації запитів користувачів, недостатньою мірою враховують специфіку інформаційного пошуку в Інтернеті. Такому пошукові притаманна висока вартість зв'язку, децентралізованість, неоднорідність і різноманітність інформаційних ресурсів, а також небажання користувачів витрачати час та зусилля на використання методів покращення інформаційного пошуку. З погляду мінімізації часу і вартості пошуку найбільш перспективним є використання моделей користувачів для розширення запиту під час проведення адаптивного інформаційного пошуку, що дозволяє суттєво скоротити час інтерактивної взаємодії і витрати користувачів, оскільки уточнення запиту виконується на боці пошукового засобу без залучення посередника-людини.
Визначальну роль у вирішенні питань моделювання користувачів інформаційних систем відіграли праці В. М. Глушкова, А. М. Довгялло, Т. А. Гаврилової, О. В. Піскуна, В. І. Дракіна, А. П. Беня та ін. Однак інформаційний пошук в Інтернеті має свої обмеження і висуває певні вимоги до моделювання користувачів, що потребує додаткових теоретичних і практичних досліджень у цій галузі. Актуальність теми дисертації зумовлена необхідністю розробки теоретичної бази для створення інформаційно-пошукових систем (ІПС) із моделями користувачів.
Зв'язок роботи з науковими програмами, планами, темами. Дисертацію виконано на кафедрі комп'ютерних технологій Черкаського державного технологічного університету (ЧДТУ) відповідно до плану науково-дослідної роботи за темою "Еволюційні моделі, методи та засоби підтримки прийняття рішень при створенні віртуальних підприємств" №141-03, державна реєстрація №0103U003686. Репрезентовані в дисертації методи та моделі було використано в процесі розробки автоматизованої бібліотечної інформаційної системи (АБІС) "Славутич", згідно з договором № 1/06 від 1.06.2002 "Розробка першої черги інформаційно-пошукової системи "Віртуальна бібліотека ЧДТУ" із ПП “Центр інформаційних технологій МаксСофт”.
Мета і завдання дослідження. Метою роботи є підвищення ефективності інформаційного пошуку в Інтернеті шляхом створення методів і засобів його адаптації до інформаційних потреб користувачів за допомогою моделі користувача.
Реалізація поставленої мети передбачає вирішення таких завдань:
- аналіз існуючих методів і засобів адаптивного інформаційного пошуку;
- аналіз існуючих методів і засобів моделювання користувачів в інформаційних системах;
- розробка моделі адаптивного інформаційного пошуку на основі моделі користувача;
- розробка моделі користувача інформаційно-пошукової системи, що враховує контекст інформаційного пошуку;
- розробка методів автоматичного формування моделі користувача і модифікації запитів на її основі з чіткою репрезентацією контексту пошуку;
- розробка методів автоматичного формування стереотипів користувачів шляхом динамічного об'єднання інформації про сеанси пошуку в категорії;
- розробка засобу адаптивного інформаційного пошуку на основі запропонованої моделі користувача.
Об'єкт дослідження становить процес інформаційного пошуку в Інтернеті.
Предметом дослідження є методи та засоби адаптивного інформаційного пошуку на основі моделі користувача.
Методи дослідження ґрунтуються на використанні теорії інформаційного пошуку, теорії моделювання і методів системного аналізу - для вивчення та виявлення закономірностей розвитку адаптивних інформаційно-пошукових систем і для побудови моделі адаптивного інформаційного пошуку на основі моделі користувача; теорії графів і штучного інтелекту - для побудови формальної контекстної моделі користувача; теорії машинного навчання - для розробки методів автоматичного формування контекстної моделі користувача і стереотипів користувачів; методів дедуктивного виведення - для автоматичного розширення запиту користувача; теорії агентних систем - для розробки архітектури і моделі роботи інформаційно-пошукової мультиагентної системи з контекстною моделлю користувача.
Наукова новизна отриманих результатів полягає в тому, що:
1) уперше розроблено теоретико-множинну модель адаптивного інформаційного пошуку на основі моделі користувача, яка, на відміну від інших моделей інформаційного пошуку, враховує системне представлення інформаційних потреб користувачів у вигляді запиту і моделі користувача;
2) вперше запропоновано формальну контекстну модель користувача, яка являє собою багатошарову семантичну мережу, кожен шар якої відповідає певному контексту пошуку, а вузли, що є посиланнями на ключові слова, пов'язані зваженими дугами двох типів - асоціативними і синонімічними, що дозволило чітко врахувати контекст пошуку в процесі розширення запиту користувача;
3) вперше запропоновано концепцію адаптивного інформаційного пошуку на основі контекстної моделі користувача, що акцентує увагу на врахуванні в процесі пошуку сутності і динаміки інформаційної потреби користувача;
4) удосконалено метод адаптивного інформаційного пошуку на основі моделі користувача, роль якої відіграє контекстна модель користувача і який складають: новий метод автоматичного визначення контексту інформаційного пошуку за допомогою контекстної моделі користувача; метод розширення запиту користувача, що набув подальшого розвитку в роботі; новий метод навчання контекстної моделі користувача поточних інформаційних потреб користувачів; метод ієрархічної кластеризації для автоматичної перебудови контекстної моделі користувача і стереотипів користувачів, який також було поглиблено в процесі дослідження;
5) вперше розроблено архітектуру і модель роботи інформаційно-пошукової мультиагентної системи з контекстною моделлю користувача, яка складається з агентів трьох типів - інтерфейсних, інформаційних, агентів-брокерів - і призначена для виконання адаптивного інформаційного пошуку в Інтернеті на основі контекстної моделі користувача, втіленої у профіль користувача, і моделі пошукової машини, що реалізована в профілі пошукової машини.
Практичне значення отриманих результатів полягає в тому, що:
1) розроблено алгоритми автоматичного створення і перебудови контекстної моделі користувача та стереотипів користувачів, запропоновано алгоритм автоматичної модифікації контекстної моделі користувача на основі принципу навчання, алгоритм автоматичного розширення запиту користувача контекстною інформацією з контекстної моделі користувача;
2) результати дисертації використано в процесі створення інформаційно-пошукового модуля АБІС "Славутич" - інтегрованої бібліотечної системи з онлайновим Internet-доступом до інформаційних ресурсів із підтримкою корпоративної каталогізації і зведеного електронного каталогу, яка впроваджується в технічній бібліотеці ЧДТУ, Державній науково-педагогічній бібліотеці України ім. В. О. Сухомлинського і може бути використаний в інших університетських та публічних бібліотеках України;
3) науково-практичні результати впроваджено в навчальний процес ЧДТУ при підготовці курсів "Теоретичні основи інформатики", "Інформаційні мережеві технології" для студентів спеціальності 7.080401 "Інформаційні управляючі системи і технології".
Особистий внесок здобувача. Усі результати дисертаційного дослідження, які подаються до захисту, отримані автором особисто.
Апробація результатів дисертації. Основні результати роботи доповідались і отримали позитивну оцінку на таких науково-технічних конференціях і семінарах: на Міжнародній науково-практичній конференції "Наука і освіта '2000" (Дніпропетровськ - Черкаси, 2000); на VI Міжнародній науково-практичній конференції "Наука і освіта '2003" (Дніпропетровськ - Черкаси, 2003); на Міжнародній науково-практичній конференції "Комп'ютери. Програми. Інтернет. 2003" (Київ, 2003); на V Міжнародній науково-практичній конференції "Системний аналіз та інформаційні технології" (Київ, 2003); на V Міждержавній науково-методичній конференції "Проблеми математичного моделювання" (Дніпродзержинськ, 2003); на Всеукраїнській науково-технічній конференції "Інформаційні технології та моделювання" (Кременчук, 2003); на II Міжнародній науково-практичній конференції "Динаміка наукових досліджень '2003" (Дніпропетровськ, 2003); на IV Всеукраїнській конференції молодих учених "Інформаційні технології в освіті, науці і техніці - ІТОНТ-2004" (Черкаси, 2004); на "9-ой Национальной конференции по Искусственному Интеллекту - КИИ_2004" (Тверь, 2004); на наукових семінарах на факультеті інформаційних технологій і систем Черкаського державного технологічного університету.
Публікації. За темою дисертації опубліковано 12 друкованих праць: статей у наукових журналах, що входять до переліку ВАК України, - 6, матеріалів конференцій - 6.
Структура дисертації. Дисертація складається зі вступу, п'яти розділів, загальних висновків, списку використаних джерел (158 найменувань) і 3 додатків. Містить 29 малюнків, 10 таблиць. Загальний обсяг роботи становить 166 сторінок, в тому числі 140 сторінок основного тексту.
ОСНОВНИЙ ЗМІСТ РОБОТИ
У вступі обґрунтовано актуальність дисертації, сформульовано основну мету і завдання дослідження, представлено перелік отриманих у дисертації результатів, розкрито їхню новизну та практичне значення. Подано відомості про апробацію і впровадження результатів дисертації, окреслено її структуру.
У першому розділі проаналізовано наявні методи і засоби адаптивного інформаційного пошуку та моделювання користувачів в інформаційних системах. Шляхом аналізу сучасного стану галузі традиційного інформаційного пошуку і пошуку в мережі Інтернет виокремлено характеристики інформаційних ресурсів, види інформаційного пошуку, методи й алгоритми його виконання, характеристики учасників інформаційного пошуку і проблеми визначення інформаційних потреб користувачів. Запропоновано узагальнений алгоритм інформаційного пошуку. Зроблено висновок, що традиційне дослідження інформаційного пошуку було зосереджено на розвитку стратегій пошуку для порівняно малого, статичного і гомогенного корпусу тексту. Інтернет містить величезну кількість динамічного і гетерогенного гіпертексту, а шукачі у Web мають тенденцію використовувати дуже короткі запити з малою точністю і витрачати мінімальні зусилля для вдосконалення пошуку. Отже, не зважаючи на те, що фундаментальні підходи традиційного інформаційного пошуку (зважування термінів, розширення запиту тощо) доречні і для пошуку у Web, все ж необхідно мінімізувати формулювання інформаційної потреби користувачем і подальшу взаємодію з ним для задоволення цієї потреби.
Проаналізовано сучасні пошукові засоби в Інтернеті: пошукові машини, предметні каталоги, гібридні пошукові машини, метапошукові машини, спеціалізовані бази даних - їхні характеристики, переваги й недоліки. Визначено характеристики і запропоновано класифікацію програмних агентів - інструментальних засобів пошукових машин в Інтернеті. Встановлено, що проблеми інформаційного пошуку, зокрема пошуковий шум і втрати інформації, звичайно розв'язують двома способами - удосконаленням засобів пошуку або поліпшенням семантики Web. Перший спосіб є більш доцільним з огляду на нескладність і прийнятні витрати на реалізацію.
Досліджено методи та засоби адаптивного інформаційного пошуку, визначено їхні недоліки і переваги. Зроблено висновок, що такі методи, зокрема зворотній зв'язок за релевантністю, різні методи модифікації запитів користувачів, недостатньо відповідають специфіці інформаційного пошуку в Інтернеті.
У роботі охарактеризовано методи моделювання користувачів в інформаційних системах, склад і характеристики моделей користувачів та стереотипів користувачів, які являють собою сукупність знань про особливості роботи користувача з інтелектуальною системою, його наміри, цілі та вимоги, що зберігаються в пам'яті системи та допомагають їй організувати ефективний діалог із користувачем. Адаптивні системи повинні вміти автоматично змінювати свої функціональні можливості і/чи інтерфейс для пристосування до різноманітних динамічних потреб користувачів або груп користувачів, що згодом змінюються.
Шляхом аналізу показників ефективності, які зображено на рис. 1, обґрунтовано підвищення ефективності класичного інформаційного пошуку через виконання адаптивного інформаційного пошуку на основі моделі користувача за допомогою кількох пошукових машин одночасно завдяки підвищенню пертинентності знайдених інформаційних ресурсів, зменшенню загального часу пошуку і розширенню його сфери.
Здійснений аналіз підтвердив актуальність розробки методів і засобів адаптивного інформаційного пошуку на основі моделі користувача.
У другому розділі визначено загальну методику, основні методи дослідження і побудови моделі користувача інформаційно-пошукової системи. Шляхом аналізу інформаційного пошуку як діалогу між людиною і пошуковим засобом окреслено вимоги до діалогових засобів, які повинні: бути абстрактними, щоб мати можливість шляхом комбінування характеризувати різноманітні інформаційні ситуації; здатними налаштовуватися на різних користувачів і сфери роботи; враховувати контекст акту взаємодії з користувачем; адаптуватися до нових завдань і особливостей конкретних користувачів. У зв'язку з тим, що традиційні моделі інформаційного пошуку не враховують діалогових особливостей пошуку, було запропоновано теоретико-множинну модель адаптивного інформаційного пошуку на основі моделі користувача (АІПМП). Модель пошуку враховує зазначені вимоги і має вигляд:
АІПМП = <ІПКu, Sys(ІПКu), ФSys(ІПК), fІПК , ІР, R(ІР), Фr(ІР), fІР, fрел>,
де 1) ІПКu - множина інформаційних потреб користувача u;
2) Sys(ІПКu) = <qu, МКu> - системне представлення ІПКu, де qu - запит користувача, МКu - модель користувача u;
3) ФSys(ІПК) - формалізм представлення системою інформаційної потреби користувача (ІПК);
4) fІПК - функція складання Sys(ІПКu) на основі запитів користувача, діалогу з ним і стереотипів користувачів: fІПК : ІПКu Sys(ІПКu);
5) ІР - множина інформаційних ресурсів;
6) R(ІР) - множина метаописів R множини інформаційних ресурсів ІР:
;
7) Фr(ІР) - формалізм метаопису ІР;
8) fІР - функція складання шляхом обробки інформаційного ресурсу ірi:
;
9) fрел - функція пошуку множини ІР шляхом оцінки релевантності метаописів R(ІР) системному представленню Sys(ІПКu):
fрел : (Sys(ІПКu), R(ІР)) ЗІР
де ЗІР - знайдені інформаційні ресурси, ЗІРІР.
Сформульовано вимоги до універсальної моделі користувача і визначено її універсальну схему, що складається з трьох частин - когнітивних і некогнітивних характеристик користувача, які разом утворюють контекст взаємодії, і хронології сеансів пошуку.
У дисертації висвітлено психолінгвістичні і технічні аспекти репрезентації знань людиною, з'ясовано роль контексту в інформаційному пошуку. Зроблено висновок, що поняття контексту науковцями точно не визначено, хоча в літературі наявне розмаїття концепцій і підходів до його опису, до визначення меж поняття контексту та інших термінолексем на зразок "ситуації" тощо. Тому необхідно формалізувати контекст пошуку в адаптивному інформаційному пошуку на основі моделі користувача з метою його виразного врахування.
Визначено суттєві характеристики контекстної моделі користувача, а також вимоги до формального підходу для її представлення, зокрема зв'язки між лексичними одиницями (ключовими словами) відповідно до мети її створення - зменшення пошукового шуму і втрат інформації шляхом урахування контексту пошуку. Для розв'язання цих проблем достатньо в тезаурусі зазначати два види парадигматичних відношень між ключовими словами: асоціація і подібність (синонімія). Роль тезауруса повинна відігравати контекстна модель користувача.
Запропоновано усувати помилкові значення в дескрипторних інформаційно-пошукових мовах (полісемію) для збільшення точності пошуку двома способами:
у запит через булевий оператор "І" додавати поняття, асоціативно пов'язані з поняттям із запиту в межах поточного контексту пошуку, для точного визначення контексту пошуку;
у запит через булевий оператор "І НЕ" додавати слова, асоціативно пов'язані з поняттям із запиту в межах непоточних (побічних) контекстів пошуку, для розмежування контекстів пошуку.
З метою збільшення повноти пошуку для врахування синонімічних понять достатньо в запит додавати до поняття із запиту через булевий оператор "АБО" напівсиноніми в межах поточного контексту пошуку.
Ймовірність належності певного змісту, позначеного ключовим словом, до контексту доцільно визначити в контекстній моделі користувача за допомогою ймовірнісної ознаки. Для мінімізації кількості зв'язків у контекстній моделі користувача замість зв'язку, який уособлює булеву функцію "І НЕ", ключові слова позначаються асоціативним зв'язком і ймовірнісною ознакою з від'ємним значенням.
Представленню інформаційних потреб користувача найбільше відповідає багатошарова семантична мережа. Побудовано формальну контекстну модель користувача, що є багатошаровим графом, складеним так: C - множина контекстів пошуку <c1..ci>; G - множина шарів (графів) <g1..gi>, що представляють контексти <c1..ci>; V - множина вершин шарів із множини G; D - множина ключових слів <d1..dn>; кожній вершині vi шару gk відповідає певне ключове слово d(vi,k) й узагальнена ймовірнісна ознака pi,k [-1,1]; A - множина асоціативних зв'язків між ключовими словами в шарі k з вагою aijk(vi,k,vj,k) [0,1]; S - множина синонімічних зв'язків між ключовими словами в шарі k з вагою sijk(vi,k,vj.k) [0,1].
Стереотипом користувачів можна вважати контекстну модель множини користувачів із заданим набором характеристик (професія, вік, сфера інтересів тощо).
Для моделювання інформаційних потреб користувачів на боці Web-клієнта у форматі Semantic Web побудовано модель онтології користувача, у якій інформаційні потреби користувачів представлені за допомогою розподілених відповідно до контексту взаємопов'язаних ключових слів:
O = <D, R, C> ,
де D - множина ключових слів {t1,t2,…,tn},
R - множина зв'язків {r1=синонім, r2=асоціація} між ключовими словами в просторі контекстів <D, C>,
C - множина контекстів {c1,c2,…,cn}.
Кожне ключове слово ti характеризується двійкою <p,cj>, де p - ймовірнісна ознака приналежності слова ti до контексту cj. Кожен зв'язок rk характеризується четвіркою <ti,tj,ck,w>, де w - вага зв'язку між ключовими словами ti і tj.
Розроблено схему Resource Description Framework, що дозволяє описати онтологію користувача O мовою Resource Description Framework.
Визначено методи отримання даних про інформаційні потреби користувачів і методи автоматичного розширення запиту користувача. Формування моделі користувача - це фактично навчання за допомогою комп'ютера поточних характеристик користувача (зокрема його інформаційних потреб), і тому основу цієї операції повинні становити методи машинного навчання. Через відсутність зразкових даних найбільш прийнятним методом навчання для автоматичної перебудови контекстної моделі користувача і формування стереотипів користувачів є метод ієрархічної кластеризації.
Запропоновано концепцію адаптивного інформаційного пошуку на основі контекстної моделі користувача, відповідно до якої інформаційний пошук повинен визначатися не поведінкою і характеристиками користувача ІПС, а закономірностями зміни і сутністю його інформаційної потреби. Модель користувача повинна, з одного боку, якомога повніше і точніше відображати інформаційні потреби користувача в термінах інформаційних ресурсів, а з іншого - гнучко змінюватися зі швидкістю зміни інформаційних потреб користувача і відповідно до їхнього напрямку. Навчання моделі користувача (вигляд і значення функції навчання ) визначається за характером зміни інформаційної потреби користувача в контексті C.
Визначено структуру моделі пошукової машини, яку складають алгоритм (процедура) взаємодії з пошуковою машиною (ПМi), мова формулювання запиту, формат результатів пошуку (формалізм метаопису знайдених інформаційних ресурсів) і алгоритм інтерпретації результатів пошуку.
У третьому розділі запропоновано принцип навчання контекстної моделі користувача, відповідно до якого ваги тих ключових слів і зв'язків, що повторюються в поточному контексті, повинні збільшуватися, а тих, що не повторюються, - зменшуватися. Граничні випадки навчання розкриті за допомогою двох постулатів:
Постулат 1. Якщо інформаційна потреба користувача не змінилася, то зміна (навчання) його контекстної моделі не виконується.
Постулат 2. Максимальна зміна інформаційної потреби користувача повинна призвести до максимальної швидкості зміни (навчання) його контекстної моделі.
Динаміка зміни інформаційних потреб користувачів визначається на підставі значення функції відстані h між поточним і попередніми запитами користувача.
Визначаючи відстань h між шарами контекстної моделі користувача, враховують збіг ключових слів, тип і вагу зв'язку між ними та значення узагальнених ймовірнісних ознак:
, де
z(gi,gj) - функція близькості
,
[0,1] - коефіцієнти впливу,
zp(gi,gj) - міра близькості за узагальненою ймовірнісною ознакою,
za(gi,gj) - міра асоціативної близькості,
zs(gi,gj) - міра синонімічної близькості.
Розроблено функціональну схему адаптивного інформаційного пошуку на основі контекстної моделі користувача, у якій позначено послідовність виконання операцій, їхні взаємозв'язки, початкові дані і результати. Пошук здійснюється в такій послідовності:
1) обробка запиту користувача q і створення шару gq;
2) автоматичне розширення запиту на основі контекстної моделі користувача;
3) передача запиту множині пошукових машин (виконання метапошуку), узагальнення й оцінювання результатів пошуку; у разі незадовільних результатів операції 2 - 3 повторюються з новими параметрами розширення запиту;
4) вибір користувачем пертинентних метаописів інформаційних ресурсів із результатів пошуку (зворотний зв'язок);
5) обробка обраних користувачем метаописів інформаційних ресурсів r і створення шару gr;
6) створення сумарного шару gq+r;
7) модифікація контекстної моделі користувача на основі шару gq+r.
Складаючи шар gq, виконують синтаксичний аналіз запиту з метою виділення ключових слів d і булевих операцій. Тип зв'язку визначається за формулою:
.
Ключовим словам із запереченням у запиті надається від'ємне значення узагальненої ймовірнісної ознаки.
Під час створення сумарного шару шар gq доповнюється (без навчання) відсутніми ключовими словами і зв'язками з
gr: gq+r = gq + (gr \ gq).
При автоматичному розширенні запиту користувача він доповнюється синонімами й асоціативно пов'язаними словами з шару поточного контексту пошуку контекстної моделі користувача. Після цього виконується пошук додаткових ключових слів, пов'язаних із зазначеними в запиті користувача, і розширення запиту знайденими ключовими словами.
Контекст ci може бути вказаний безпосередньо користувачем чи заздалегідь обчислений автоматично шляхом аналізу відстані між шаром запиту gq і шарами контекстної моделі користувача:
,
де NC - загальна кількість контекстів, КМК - контекстна модель користувача.
Модифікація контекстної моделі користувача за результатами останнього сеансу пошуку виконується шляхом її навчання поточних характеристик користувача (зокрема його інформаційних потреб). Обраний вид функції навчання (x) задовольняє умові виконання постулатів 1 і 2 принципу навчання:
(x) = · h(gi, gc) · x,
де - коефіцієнт швидкості навчання.
Під час навчання послідовно здійснюється:
1) модифікація значень узагальненої ймовірнісної ознаки p:
, ,
;
2) модифікація значень ваг асоціативних зв'язків a:
, i j,
.
3) модифікація значень ваг синонімічних зв'язків s:
, i j,
.
4) доповнення контекстної моделі користувача відсутніми ключовими словами і зв'язками із шару gq+r:
.
5) очищення контекстної моделі користувача від застарілих ключових слів:
.
Якщо контекст пошуку новий, тоді шар gq+r додається до контекстної моделі як новий.
При автоматичній перебудові контекстної моделі користувача множина шарів Gq+r розбивається на кластери двох рівнів: кластери з відстанню між кластерами h = 1 і підкластери з відстанню між кластерами h < 1. За результатами кластеризації виконується групування шарів кластерів Сi у сумарні шари навколо центрального шару , для якого виконується умова , . Групуючи, застосовують операцію навчання з урахуванням міри близькості шару , який додається, до центрального шару, а також часу отримання запитів. Кожен шар відповідає окремому контекстові ci.
Процес формування стереотипу користувачів СПi позначено за допомогою множин <X, Ui, i, Gi, C, >, де X - множина характеристик користувачів, для яких створюється стереотип СПi, Ui - множина користувачів, характеристики яких збігаються з множиною X, i - навчальна вибірка, , Gi - множина шарів КМК, , С - множина кластерів C1, … , Cn, що формується з множини Gi, - матриця відстаней між шарами множини Gi.
При формуванні СПi задається набір характеристик X користувачів, для яких створюється стереотип. Потім здійснюється пошук множини користувачів Ui, контекстні моделі яких формують навчальну вибірку i. Після цього утворюється множина Gi і розбивається на кластери C двох рівнів: кластери Ci з відстанню між кластерами h = 1 і підкластери Cij з відстанню між кластерами h < 1. За результатами кластеризації виконується групування шарів кластерів Сi у сумарні шари навколо центрального шару .
Четвертий розділ присвячено експериментальному дослідженню адаптивного інформаційного пошуку на основі КМК. У цьому розділі розроблено методику дослідження ефективності запропонованого методу порівняно з інформаційним пошуком, що виконується пошуковими засобами в Інтернеті, і наведено результати здійсненого експерименту. Критерієм ефективності роботи системи визначено задоволення користувача якістю розширення запиту і результатами пошуку. За одиницю ефективності вибрано дві міри: 1) чотиризначну оцінку користувачем правильності розширення запиту і 2) кількість посилань на релевантні документи серед перших десяти посилань у результатах пошуку. Сам експеримент, реєстрацію вимірювань і їхню обробку виконано за допомогою інформаційно-пошукового модуля АБІС "Славутич".
Отримано такі результати експериментів: середня оцінка користувачем відповідності запиту після розширення інформаційній потребі - добре (43,5 %). Середні значення різниці між кількістю пертинентних посилань у результатах, отриманих у відповідь на запит з розширенням (N') і без розширення (N) запиту: (N' - N) < 0 - 13,0 %; (N' - N) = 0 - 17,4 %; 0 < (N' - N) 3 - 47,8 %; (N' - - N) > 3 - 21,7 %. Кількість пертинентних посилань серед перших десяти, одержаних унаслідок пошуку, збільшилася в середньому на 2. Методами дисперсійного аналізу проведено статистичну перевірку отриманих значень N и N', що дозволило довести їхню статистичну значущість. Використання контекстної моделі користувача сприяє скороченню часу пошуку в середньому на 30 %. Ці результати підтверджують успішність дослідження.
У п'ятому розділі подано опис технічної реалізації наукових результатів. Сформульовано характеристики і вимоги до інформаційно-пошукової мультиагентної системи (ІПМАС) з контекстною моделлю користувача та розроблено її архітектуру. Для виконання адаптивного інформаційного пошуку ця система повинна мати такі елементи:
1) профілі користувачів (ПК), у яких втілена КМК, і профілі пошукових машин (ППМ), у яких реалізовано модель пошукової машини;
2) інтерфейсні агенти (ІА), що забезпечують взаємодію користувачів з ІПМАС і формують профіль користувача; ІА динамічно створюються агентами-брокерами як окремий системний процес на час діалогу з користувачем;
3) інформаційні агенти (ІнфА), які створюються агентами-брокерами для кожної пошукової машини (ПМ) і виконують пошук на основі ключових слів запитів клієнтів, їхніх профілів шляхом передачі розширеного пошукового запиту до пошукових машин (процедура передачі визначається даними з ППМ);
4) агенти-брокери (АБ), що керують створенням, видаленням інтерфейсних і інформаційних агентів, а також обміном інформацією між ними.
Запропоновано модель роботи ІПМАС із КМК у вигляді однорівневої графової моделі. Пошук здійснюється, з одного боку, між користувачами і системою, а з іншого - між системою і машинами пошуку (на основі даних із профілів пошукових машин). Розширення запиту повторюється доти, поки точність і повнота будуть задовільними, або кількість повторень стане більшою, ніж допустимо.
Розроблено інформаційно-пошуковий модуль АБІС "Славутич", який є прототипом інформаційно-пошукової мультиагентної системи з контекстною моделлю користувача. Функції агента-брокера в інформаційно-пошуковому модулі виконує IIS 5.0 (Internet Information Services). Інтерфейсний агент реалізовано у вигляді ISAPI-додатка, а інформаційний - у вигляді динамічної бібліотеки.
ВИСНОВКИ
В дисертації вирішено наукове завдання - розроблено наукові основи моделювання користувачів адаптивних інформаційно-пошукових систем. Основні результати дисертаційної роботи є такими:
1. Огляд наукової літератури засвідчив недостатній рівень опрацювання теоретичних засад створення методів і засобів адаптивного інформаційного пошуку на основі моделі користувача. Так, моделі користувача розробляють для конкретної інформаційної системи без теоретичного обґрунтування та без урахування контексту інформаційного пошуку. Аналіз досліджень засвідчив брак розроблених методів автоматичного формування моделей користувачів інформаційно-пошукових систем і їхньої перебудови з метою усунення надмірності моделей користувачів, а також відсутність засобів адаптивного інформаційного пошуку з моделями користувачів, що виразно враховують контекст пошуку.
2. Запропоновано теоретико-множинну модель інформаційного пошуку на основі моделі користувача, що дозволило визначити ключові елементи цього виду пошуку, їхні функціональні взаємозв'язки і взаємодію. На відміну від опрацьованих моделей інформаційного пошуку, презентована модель ураховує системне представлення інформаційних потреб користувачів у вигляді запиту і моделі користувача.
3. Розроблено контекстну модель користувача, що містить відомості про інформаційні потреби користувачів у вигляді багатошарової семантичної мережі, кожен шар якої відповідає певному контекстові пошуку, а вузли, що є посиланнями на ключові слова, зв'язані зваженими дугами двох типів - асоціативними і синонімічними. Використання контекстної інформації із запропонованої моделі для модифікації запиту користувача сприяє зменшенню пошукового шуму і втрат інформації. Адекватність контекстної моделі користувача підтверджено шляхом опитування користувачів.
4. У роботі опрацьовано методи автоматичного формування контекстної моделі користувача. Сформульовано принцип навчання контекстної моделі. Запропоновано під час навчання доповнювати контекстну модель користувача ключовими словами, зв'язками із запиту користувача і метаописів вибраних користувачем інформаційних ресурсів з урахуванням міри змін інформаційної потреби користувача в контексті пошуку. Прогнозовані результати навчання обґрунтовані теоретично та експериментально. Запропоновано метод автоматичної перебудови контекстної моделі користувача, який базується на ієрархічній кластеризації множини шарів моделі. Унаслідок перебудови за рахунок об'єднання схожих контекстів в один усувається надмірність моделі користувача і підвищується її адекватність динамічним інформаційним потребам, що доведено теоретично. Розроблено метод автоматичного розширення запиту ключовими словами, який відрізняється від наявних методів тим, що додаткові ключові слова, релевантні до запиту, і булеві оператори, які їх пов'язують, визначаються в контекстній моделі користувача з урахуванням контексту пошуку. Правильність розширення запитів підтверджена експериментально.
5. Запропоновано метод автоматичного формування стереотипів користувачів, завдяки якому користувачі мають можливість використовувати для підвищення ефективності пошуку дані про інформаційні потреби інших користувачів зі схожими характеристиками.
6. Розроблено архітектуру і модель роботи інформаційно-пошукової мультиагентної системи з контекстною моделлю користувача, в якій для виконання адаптивного інформаційного пошуку в Інтернет запропоновано використовувати програмні агенти 3-х видів: інтерфейсні, інформаційні та агенти-брокери. Створено програмне забезпечення інформаційно-пошукового модуля АБІС "Славутич", в основу якого покладено архітектуру і модель роботи інформаційно-пошукової мультиагентної системи з контекстною моделлю користувача.
7. Здійснено експериментальну перевірку ефективності адаптивного інформаційного пошуку на основі моделі користувача порівняно з інформаційним пошуком, що виконується пошуковими засобами в Інтернеті. Результати експериментальної верифікації такі: середня оцінка користувачем відповідності запиту після розширення інформаційній потребі - добре (43,5 %), кількість пертинентних посилань серед перших десяти, одержаних унаслідок пошуку, збільшилась в середньому на 2. Використання контекстної моделі користувача сприяє скороченню часу пошуку в середньому на 30 %. Ці результати підтверджують успішність дослідження.
Таким чином, використання розроблених дисертантом методів і засобів адаптивного інформаційного пошуку на основі контекстної моделі користувача як елементів інформаційно-пошукових систем становить методологічні засади підвищення ефективності інформаційного пошуку в Інтернеті.
СПИСОК ОПУБЛІКОВАНИХ ПРАЦЬ
1. Ночевнов Д. П. Системный анализ методов адаптации информационного поиска в информационно-поисковых системах // Вісник Черкаського державного технологічного університету. - 2002. - № 4. - С. 36 - 40.
2. Ночевнов Д. П. Об одном подходе к формализации контекста поиска в адаптивном информационном поиске // Вісник Черкаського державного технологічного університету. - 2003. - № 1. - С. 47 - 50.
3. Ночевнов Д. П. Методи моделювання інформаційних потреб користувачів в Semantic Web // Вісник Кременчуцького державного політехнічного університету. - 2003. - Вип. 3 (20). - С. 50 - 52.
4. Ночевнов Д. П. Информационно-поисковая мультиагентная система с моделью пользователя // Вісник Черкаського державного технологічного університету. - 2003. - № 2. - С.96 - 101.
5. Ночевнов Д. П. Метод адаптивного информационного поиска на основе контекстной модели пользователя // Вісник Черкаського державного технологічного університету. - 2003. - № 3. - С. 17 - 23.
6. Ночевнов Д. П. Об одном подходе к формализации адаптивного информационного поиска на основе модели пользователя // Вісник Черкаського державного технологічного університету. - 2003. - № 4. - С. 14 - 16.
7. Ночевнов Д. П. Роль контекста в информационном поиске // Матеріали Міжнародної науково-практичної конференції "Наука і освіта '2000". -Дніпропетровськ: Наука і освіта, 2000. - Том 31. - С. 23.
8. Ночевнов Д. П. Системний аналіз методів адаптації інформаційного пошуку в пошукових системах // Матеріали Міжнародної науково-практичної конференції "Наука і освіта '2003". - Дніпропетровськ: Наука і освіта, 2003. -Том 28. - С. 17 - 18.
9. Ночевнов Д. П. Моделирование пользователей в информационно-поисковых системах // Збірка тез доповідей учасників Міжнародної науково-практичної конференції студентів, аспірантів та молодих вчених "Комп'ютери. Програми. Інтернет. 2003". - К.: ІВЦ "Видавництво "Політехніка", 2003. - С. 107.
10. Ночевнов Д. П. Архитектура информационно-поисковой мультиагентной системы на основе модели пользователя // Системний аналіз та інформаційні технології: тези доповідей учасників V Міжнародної науково-практичної конференції студентів, аспірантів та молодих вчених -К.: НТУУ "КПІ", 2003. - С. 185 - 186.
11. Ночевнов Д. П. Моделювання адаптивного пошуку в інформаційно-пошукових мультиагентних системах // Проблеми математичного моделювання: тези доповідей учасників V Міжнародної науково-методичної конференції. - Дніпродзержинськ, 2003. - С. 127 - 128.
12. Ночевнов Д. П. Методы автоматического формирования контекстной модели пользователя информационно-поисковой системы // Матеріали II Міжнародної науково-практичної конференції "Динаміка наукових досліджень '2003". -Дніпропетровськ: Наука і освіта, 2003. - Том 29. Сучасні інформаційні технології. - С. 31 - 32.
Размещено на Allbest.ru
Подобные документы
Розробка методів та моделей формування єдиного інформаційного простору (ЄІП) для підтримки процесів розроблення виробів авіаційної техніки. Удосконалення методу оцінювання якості засобів інформаційної підтримки. Аналіз складу програмного забезпечення ЄІП.
автореферат [506,3 K], добавлен 24.02.2015Створення інформаційної системи для магазинів, які займаються реалізацією музичної продукції. Проектування моделі "сутність-зв'язок" (ER-модель) та на її основі розробка реляційної моделі бази даних. Інструкція для користувача програмним продуктом.
курсовая работа [2,4 M], добавлен 08.09.2012Використання автоматичних систем інформаційного пошуку для зменшення "інформаційного перевантаження". Методи організації пошуку: атрибутивний, повнотекстовий і вибірка видань. Тематичні каталоги та пошукові машини. Системи Yandex, Rambler та Google.
реферат [333,0 K], добавлен 18.05.2011Проектування бази даних. Типи зв’язків між сутностями. Атрибути сутностей, їх типи. Вигляд інформаційної моделі. Програмна реалізації, з'єднання з базою даних, огляд основних методів. Інструкція користувача, контрольний приклад. Прийоми звернення до баз.
дипломная работа [4,0 M], добавлен 14.12.2010Ознайомлення із загальною структурою системи автоматичного розпізнавання мовлення. Визначення особливостей нейронних мереж. Дослідження та характеристика процесу побудови системи розпізнавання мовлення. Вивчення специфіки прихованої моделі Маркова.
дипломная работа [1,1 M], добавлен 25.07.2022Планування цілеспрямованих дій і прийняття рішень. Характеристика методу повного перебору - універсального методу вирішення оптимізаційних задач, якщо множина допустимих рішень обмежена. Експоненційна складність евристичного пошуку. Складність алгоритмів.
реферат [62,2 K], добавлен 13.06.2010Проектування та реалізація бази даних на фізичному рівні. Формування сутності з їх атрибутами. Вибір засобів розробки даного програмного забезпечення. Створення інтерфейсу для роботи з базою даних. Інструкція користувача, головне функціональне вікно.
курсовая работа [1,7 M], добавлен 26.09.2013Аналіз сучасних та класичних технологій розробки настільних тестових програм, методів каріотипування людини. Підхід до побудови настільних додатків на основі веб-технологій. Розроблення інструкції користувача для швидкого опанування тестової програми.
дипломная работа [1,4 M], добавлен 07.09.2016Основні відомості з лінійної алгебри. Власні значення і вектори матриці. Метод обертання Якобі. Засоби формування інтерфейсу користувача. Текст програми алгоритму методу обертання Якобі. Вимоги до програмно-технічного забезпечення. Інструкція користувача.
курсовая работа [306,0 K], добавлен 18.11.2015Структура захищених систем і їх характеристики. Моделі елементів захищених систем. Оцінка стійкості криптографічних протоколів на основі імовірнісних моделей. Нормативно-правова база розробки, впровадження захищених систем.
дипломная работа [332,1 K], добавлен 28.06.2007