Информационный поиск в семантическом проектном репозитории

Онтологическая модель поисковой системы. Алгоритм нахождения набора документов, который удовлетворяет запросу пользователя, на основе грубых множеств Павлака. Определение точности аппроксимации. Структура онтологии семантического проектного репозитория.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 18.01.2018
Размер файла 39,9 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Ульяновский государственный технический университет

Информационный поиск в семантическом проектном репозитории

Наместников А.М.

Введение

В основе процесса поиска релевантных запросу информационных ресурсов часто лежит понятие частотного распределения терминов (ключевых слов), с помощью которого ресурс представляется в поисковой системе. Запрос пользователя в виде набора ключевых слов позволяет найти подмножество ресурсов, которые по своим частотным распределениям в какой-то степени соответствуют запросу. При таком подходе в конечную выборку попадают так называемые лишние документы, которые с точки зрения пользователя, абсолютно не релевантны запросу. Другая проблема состоит в том, что, как правило, пользователь не владеет полной информацией о предметной области, в которой производится информационный поиск. По этой причине он не может сформировать правильный набор ключевых слов для поиска нужных ему ресурсов.

Указанные проблемы могут быть решены, если задача информационного поиска решается в ограниченной предметной области. В этом случае поиск информационных ресурсов может основываться на модели такой предметной области, представляемой в виде онтологии. Дополнительно предполагается, что информационный поиск производится целенаправленно, т.е. существует задача, для решения которой и делается попытка нахождения информационных ресурсов.

Включение задачи дополнительно к ключевым словам в запрос позволяет спроецировать такой запрос в виде набора ключевых слов на ту часть модели предметной области, которая соответствует решаемой задаче. При этом с каждой задачей ассоциируется подмножество понятий онтологии. В свою очередь, каждое понятие семантического репозитория связывается с набором ключевых слов, которые составляют описание данного понятия

Подходящей предметной областью может служить проектирование сложных технических или информационных систем, где актуальной задачей является поиск проектных документов на основе их частотных портретов. Включение в модель поиска онтологии позволит решить проблему возникновения так называемых семантических разрывов между запросом пользователя и состоянием предметной области, а в итоге - между запросом и ответом поисковой системы. Для рассматриваемой предметной области набором задач могут служить стадии жизненного цикла проектируемого изделия: от формирования концепции до утилизации.

1. Онтологическая модель поисковой системы

Будем рассматривать модель поисковой системы на основе онтологии, учитывая, что имеется следующая архитектура (рис.1).

Рис. 1. Архитектура поисковой системы

Пусть C={c1,c2,…,cn} ? множество понятий, которые входят в онтологию семантического проектного репозитория, Kc={k1,k2,…,km} ? множество ключевых слов, которые служат для описания понятий онтологии. Каждое понятие представляется некоторым набором ключевых слов. Между ключевыми словами и понятиями предметной области допускаются множественные отношения: одно ключевое слово онтологии может входить в несколько описаний понятий и одно понятие представляется с помощью нескольких ключевых слов. В качестве компонента онтологии будем считать набор решаемых задач T={t1,t2,…,tl}. Каждая решаемая задача связывается с одним или большим количеством понятий предметной области.

Таким образом, формально онтологию можно представить в виде кортежа:

, (1)

где Oc ? отношение понятий и ключевых слов в онтологии, а OT ? отношение понятий и решаемых задач T,

,(2)

где rij = 1, если i-е ключевое слово входит в описание, иначе rij=0, , . Каждая строка отношения (2) соответствует ключевому слову из онтологии, а столбец - понятию онтологии.

Отношение понятий и решаемых задач запишем так:

, (3)

где = 1, если для описания -й задачи используется -е понятие. В противном случае = 0.

Для описания набора документов используется терм-множество, включающее в себя все термы, которые удалось выделить в исследуемом корпусе текстов документов за исключением стоп-слов. Для данного терм-множества, обозначаемого здесь как , выполняется следующее соотношение:

.

Другими словами, ключевые слова для описания понятий онтологии предметной области выбираются из терм-множества корпуса документов.

Набор документов запишем в виде следующего отношения:

, (4)

где dij ? вес терма j для i-го документа, i=[1,k], k? количество документов в проектном репозитории, j=[1,s].

Расчет весов термов может осуществляться по различным формулам, например, таким как формулы абсолютных и частотных мер, формула «сигнал-шум», формула распределения частоты терма и другие [1].

Запрос пользователя запишем в виде кортежа Z=KZKC,tiT, т.е. запрос включает в себя ключевые слова и указание того, для решения какой задачи необходимо получить результат.

2. Алгоритм информационного поиска

Алгоритм нахождения набора документов, который удовлетворяет запросу пользователя, основывается на применении грубых множеств Павлака (Rough Sets) [2].

Шаг 1. Определение классов эквивалентности понятий

Компонент запроса KZ формирует на отношении OC классы эквивалентности K(c), которые состоят из тех понятий онтологии, которые неразличимы относительно элементов множества KZ.

Шаг 2. Определение точности аппроксимации

Зная ti на основе отношения (3) определяем подмножество , которое состоит из тех cj, для которых в (3) tij=1. Каждому подмножеству понятий ставится в соответствие два множества и :

,

,

которые будем называть K-нижняя и K-верхняя аппроксимации множества соответственно. Множество:

будет определять -граничную область множества .

Если , тогда множество понимается как грубое множество относительно компонента запроса .

Точность аппроксимации определяется следующим образом:

и понимается как мера соответствия запроса понятийной системе предметной области, выражаемой в виде набора понятий (концептов) и связанных с ними ключевых слов.

Шаг 3. Вычисление значений грубой функции принадлежности понятий онтологии запросу

Грубая функция принадлежности определяется следующим образом:

,

и понимается как мера соответствия описания понятия в онтологии пользовательскому запросу.

Шаг 4. Определение подмножества понятий, соответствующих запросу

Зная значения грубой функции принадлежности для каждого понятия из онтологии есть возможность определить тот набор понятий, который будет принимать участие в нахождении релевантных документов. Такое множество понятий будем определять согласно выражению:

,

где =[0,1] - константа, соответствующая пороговому значению, с которым сравнивается значение грубой функции принадлежности для каждого концепта.

Шаг 5. Нахождение множества документов, удовлетворяющих запросу

Для нахождения искомых документов необходимо использовать только те ключевые слова, которые входят в определения понятий из найденного на предыдущем шаге множества :

.

Далее, для каждого документа в репозитории вычисляется степень возможности включения его в выборку найденных документов:

.

В качестве агрегирующей функции может выступать функция вычисления среднего арифметического.

Наконец, во множество документов, которые удовлетворяют пользовательскому запросу, включаются те документы, которые имеют значение , большее нуля:

.

3. Практический пример

Пусть онтология семантического проектного репозитория имеет следующий вид (рис.2):

Рис. 2. Структура онтологии проектного репозитория

Исходные данные включают в себя:

1. Набор понятий в онтологии семантического репозитория: .

2. Набор ключевых слов, описывающих понятия онтологии: .

3. Понятия соотносятся с ключевыми словами согласно выражению (2) следующим образом:

4. Набор решаемых задач: .

5. Понятия онтологии соотносятся с решаемыми задачами так (3): .

6. Терм-множество набора документов: , причем выполняется соотношение .

7. Набор документов согласно выражению (4):

8. Запрос пользователя:

Классы эквивалентности, вычисленные на первом шаге алгоритма, будут следующими: , и .

На втором шаге определяется множество , зная и значение из запроса пользователя Z:

.

K-нижняя и K-верхняя аппроксимации множества будут равны соответственно:

,

.

-граничная область множества : .

Найдем точность аппроксимации:

.

Вычислим значения грубой функции принадлежности понятий онтологии предметной области запросу пользователя (шаг 3):

, , , , .

Множество понятий на шаге 4, которое соответствует значению порога =0,6 (задаем экспертно) будет следующим: . Теперь определим набор ключевых слов, соответствующих множеству :

Далее вычислим степень включения документа в результирующую выборку, зная и предполагая в качестве агрегирующей функции функцию вычисления среднего арифметического:

, , , .

В результирующую выборку документов для выше приведенных исходных данных попадают все документы {d1,d2,d3,d4}, имея различные числовые оценки включения их в данное множество.

Следует отметить тот факт, что если не принимать во внимание наличие онтологии, то согласно запросу пользователя в выборку не попадают документы d2 и d4.

Заключение

Задачу информационного поиска можно представить как частный случай задачи кластеризации информационных ресурсов, где в качестве кластеров рассматриваются два множества: множество ресурсов, которые релевантны запросу и остальные информационные ресурсы. Алгоритм на основе грубых множеств Павлака позволяет рассматривать границы между указанными кластерами как неопределенно выраженные. Это позволяет сформировать граничное множество документов, которые не совсем соответствуют запросу, но могут быть интересны для дальнейшего принятия решений.

документ онтология репозиторий

Литература

1. Наместников А.М., Чекина А.В., Корунова Н.В. Интеллектуальный сетевой архив электронных информационных ресурсов/ Программные продукты и системы. - 2007. - №4. - С.10-13.

2. Pawlak Z. Rough Sets: Present State and Future Prospects//Intelligent Automation and Soft Computing. - 1996. - Vol.2.

Размещено на Allbest.ru


Подобные документы

  • Информационный поиск: векторная модель (vector-space model). Ранжирование документов по мере их соответствия запросу. Традиционные методы оценки эффективности поиска. Концептуальное индексирование. Разрешение многозначности. Board: значения и иерархия.

    презентация [95,2 K], добавлен 01.09.2013

  • Анализ существующих поисковых систем и используемых ими алгоритмов поиска документов. Разработка информационно-поисковой системы словарного типа, способной осуществлять релевантный поиск документов, особенности ее структуры и информационно-поисковой базы.

    дипломная работа [942,1 K], добавлен 19.05.2011

  • Создание и развитие университетской информационной системы как тематической электронной библиотеки и базы для исследований и учебных курсов. Общее описание системы. Пользовательский графический интерфейс. Программное обеспечение, руководство пользователя.

    дипломная работа [1,0 M], добавлен 24.01.2016

  • Существующие методы нахождения графических примитивов и программных реализаций. Базовое преобразование Хафа: поиск прямых, выделение окружностей на изображении, нахождение кривых высшего порядка. Составление руководства программиста и пользователя.

    курсовая работа [2,7 M], добавлен 20.03.2012

  • Состав DЕLPHI проекта. Алгоритм сортировки вектора. Метод сортировки файла. Сценарий интерфейсного диалога пользователя с программой. Поиск и вычисление времени, затраченного на поиск и сортировку. Исходный текст модуля Project.dpr, MainForm.pas.

    курсовая работа [827,4 K], добавлен 07.11.2010

  • Создание сайта-каталога программного обеспечения с поиском на основе булевой модели. Достоинства и недостатки булевой модели. Алгоритм поиска по слову в базе данных системы. Разработка руководства пользователя и администратора по работе с системой.

    курсовая работа [1,0 M], добавлен 28.04.2014

  • Анализ существующих музыкальных сетей, профиля музыкального файла. Технологии и возможности Web 2.0. Анализ алгоритмов в Data Mining. Структура социальной сети. Набор графических элементов, описывающий человека в зависимости от прослушиваемой музыки.

    дипломная работа [3,7 M], добавлен 20.04.2012

  • Создание автоматизированной системы “Учет кулинарных рецептов” в кафе “Астория”. Цель - автоматизация работы в бухгалтерии и кабинете директора, формирование отчетов, выходной информации. Добавление, редактирование записей, поиск по запросу пользователя.

    курсовая работа [381,7 K], добавлен 26.02.2009

  • Алгоритм реализации векторного пространства, метод фильтрации шумов на изображении. Формально-логическая модель разработки программного обеспечения, выбор инструментальных средств его реализации. Анализ точности совпадения распознанного изображения.

    дипломная работа [2,7 M], добавлен 13.02.2013

  • Разработка web-сервиса как услуги, предоставляемой пользователю. Продажа товара (автомобилей) в Интернете, проблема выбора. Онтологии как часть концепции Semantic Web. Применение онтологий, их основные типы и свойства. Особенности реализации онтологии.

    курсовая работа [57,4 K], добавлен 17.04.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.