Система интеллектуального вертикального поиска
Анализ вопросов формирования коллекций электронных документов из различных источников с автоматическим выделением метаданных. Требования к организации доступа к информации в электронных коллекциях. Структура системы интеллектуального вертикального поиска.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 19.01.2018 |
Размер файла | 136,9 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Учреждение Российской академии наук Институт системного анализа РАН, Москва
Российский университет дружбы народов / Учреждение Российской академии наук Институт системного анализа РАН, Москва
Система интеллектуального вертикального поиска
А.А. Киселёв (diver.ru@gmail.com)
Г.С. Осипов (gos@isa.ru)
И.В. Смирнов (ivs@isa.ru)
И.А. Тихомиров (tih@isa.ru)
И.В. Соченков (sochenkov@isa.ru)
Аннотация
электронный документ интеллектуальный поиск
В статье представлена система интеллектуального вертикального поиска. Рассмотрены вопросы формирования коллекций электронных документов из различных источников с автоматическим выделением метаданных. Сформулированы требования к организации доступа к информации в электронных коллекциях. Описана структура системы интеллектуального вертикального поиска и её общая архитектура.
Ключевые слова и выражения: вертикальный поиск, тематический поиск, электронные коллекции, семантический поиск.
Введение
На современном уровне развития областей научных знаний информация становится важным стратегическим ресурсом. Специалисты в областях знаний должны иметь доступ к актуальной достоверной информации для решения научных и практических задач. Исторически источником тематической информации по областям знаний являлись библиотеки и периодические журналы. Развитие информационных технологий способствовало к переводу накопленной человечеством информации в электронную форму. Значительная часть результатов научных исследований публикуется в электронном виде и размещается в сети Интернет в свободном или ограниченно свободном доступе. Электронные информационные ресурсы дают возможность быстро ознакомиться с современным уровнем развития предметной области и получить актуальную информацию в области знаний из надёжных источников.
В таких условиях фонды обычных библиотек уже не обеспечивают необходимой полноты и актуальности требуемой информации, и в качестве их альтернативы выступают электронные информационные ресурсы. Число доступных информационных ресурсов, содержащих актуальные тематические материалы, зависит от предметной области, и как правило, исчисляется десятками, сотнями и тысячами. При этом способы доступа к размещённым материалам и возможности поиска и выборки информации часто различаются в зависимости от ресурса. По этой причине поиск и выборка требуемой информации в каждом из источников становится сложной трудоемкой задачей.
В силу вышесказанного важной задачей информационного обслуживания науки и образования является организация эффективного доступа к электронным тематическим ресурсам.
Поиск необходимой информации по разнородным источникам весьма трудоёмок. Использование поисковых машин Интернет, таких как Яндекс (http://yandex.ru) и Google (http://google.ru) не решает задачу в полной мере: в выдаче поисковых машин зачастую присутствуют материалы рекламного характера, а также слаборелевантные «промежуточные» web-страницы, содержащие отсылку к искомой публикации, а не её полный текст.
Другой подход к решению задачи заключается в создании электронных библиотек и организации точного и полного информационного поиска в них. Примерами электронных библиотек, созданных и актуализируемых вручную, являются Научная электронная библиотека eLIBRARY.RU (http://elibrary.ru), Библиотека по естественным наукам РАН (http://www.benran.ru/), Научная библиотека МГУ имени М.В. Ломоносова (http://www.nbmgu.ru/). Они снабжены сервисами поиска по библиографической информации, а также предоставляют возможность полнотекстового поиска для некоторой части размещённых материалов. Однако ручное наполнение библиотек не позволяет охватить все доступные электронные публикации.
Подход, предлагаемый авторами в статье, близок к концепции вертикального поиска, описанной в [Drake, 2009], [Zaiqing et al., 2007] и заключается в автоматическом построении предметно-ориентированных коллекций электронных документов из достоверных источников с извлечением метаданных. Пользователю предоставляется возможность полнотекстового поиска и выборки документов на основе значений метаданных. Предлагаемый подход реализован в системе интеллектуального вертикального поиска и сочетает сильные стороны библиотечных систем, заключающиеся в структурированности коллекций документов по метаданным и достоверности источников информации, с автоматическим наполнением коллекций и широкими возможностями полнотекстового поиска классических поисковых машин Интернет.
1. Доступ к информации в системе интеллектуального вертикального поиска
В традиционных библиотеках для организации эффективного поиска требуемой информации применяются систематические и авторские каталоги, различные рубрикаторы. Сам поиск и выборка необходимой литературы осуществляется на основе библиографических сведений и сопутствующей метаинформации.
При работе с электронными коллекциями информационная потребность пользователя зачастую выражается в виде запросов по некоторой тематике, формализуемых в виде списка ключевых слов, фраз и вопросов на естественном языке. В ответ на запросы пользователь ожидает получить документы, содержащие достоверную релевантную информацию. Поиск по полным библиографическим сведениям становится вторичным и служит для уточнения, сужения области поиска. Поэтому сервис полнотекстового поиска в коллекции электронных документов является неотъемлемой частью системы вертикального поиска и сочетается с поиском по метаданным документов. В случае научных текстов в число метаданных входят:
сведения об авторах;
заглавие;
источник информации (информационный ресурс, web-сайт);
дата публикации / дата загрузки документа в коллекцию.
Список метаданных документов может быть расширен в зависимости от конкретной предметной области и принятых в ней классификаций. Например, в качестве метаданных документа может рассматриваться индекс УДК, приписываемый публикациям в сборнике трудов Конференции по искусственному интеллекту.
Информационная потребность пользователя может затрагивать документы, характеризующиеся значениями вышеуказанных метаданных. Например, выборка документов за некоторый период времени позволяет проанализировать новые документы, появившиеся за последнее время, что представляется важным для выявления тенденций и актуальных направлений развития в предметной области.
Другим важным аспектом организации эффективного доступа к электронным коллекциям является информационно-справочная поддержка пользователя при формировании поискового запроса. Задача точной формулировки запроса, выражающего информационную потребность пользователя, может вызывать серьёзные затруднения у специалистов некоторых предметных областей. Причинами этого служат, как правило, обширная терминологическая база предметной области и сложная таксономия составляющих её объектов. В качестве примера может быть приведена область медицинской практики, содержащая понятия на нескольких языках (на русском, на английском, на латыни). Перевод этих понятий бывает неоднозначным. Кроме того, в этой области существует несколько возможных классификаторов терминов: МКБ-10, тезаурус MeSH.
В силу сложной организации предметной области возникает потребность в справочных материалах, облегчающих формализацию запроса, и их интеграции с сервисами поиска. Использование вспомогательных инструментов в поисковом интерфейсе обеспечивает более точное выражение информационной потребности пользователя в общепринятых терминах, что способствует сокращению времени, затрачиваемого на поиск. К числу таких инструментов относятся, например:
интерактивная терминологическая подсказка на основе ввода пользователя с применением тезауруса предметной области;
автоматическая коррекция опечаток.
В системе интеллектуального вертикального поиска реализован комплексный подход, который состоит в следующем:
коллекция электронных документов структурируется по метаданным,
в коллекции реализуется полнотекстовый поиск с возможностью выборки документов по метаданным,
пользователь формирует запросы с применением информационно-справочных ресурсов (тезаурусов).
2. Архитектура системы интеллектуального вертикального поиска
Для успешной реализации системы интеллектуального вертикального поиска потребовалось разработать методы решения следующих задач:
наполнения электронной коллекции на основе различных информационных источников, содержащих документы в популярных текстовых форматах;
выделения метаданных документов из различных источников;
организации поискового индекса с учётом значений метаданных документов, поддержки реляционно-ситуационной модели поиска [Осипов и др., 2008], а также поиска по ключевым словам;
интеграции тезаурусов предметных областей и сервисов интерактивной формулировки запроса в пользовательском интерфейсе электронной библиотеки.
Рис.1. Схема функционирования системы вертикального поиска научных текстов
Подробное освещение решений каждой из перечисленных задач может являться темой отдельной статьи и не может быть подробно раскрыто в формате настоящей публикации. Поэтому в следующих разделах приведены основополагающие идеи решения перечисленных задач и выделены ключевые аспекты их реализации в системе интеллектуального вертикального поиска научных текстов.
На рисунке 1 приведена общая схема функционирования системы вертикального поиска, поясняющая принципы взаимодействия компонентов системы с пользователем и внешними информационными ресурсами.
Система состоит из следующих функциональных подсистем:
наполнения и актуализации коллекций электронных документов;
индексации электронных документов;
информационного поиска;
интерфейса пользователя.
Система является многопользовательской. Все подсистемы имеют распределённую многокомпонентную внутреннюю структуру. Распределённая архитектура системы интеллектуального вертикального поиска позволяет масштабировать её для создания обширных тематических коллекций (до десятков миллионов электронных документов) путём введения в её состав дополнительных серверов.
2.1 Подсистема наполнения и актуализации коллекций электронных документов
Функции подсистемы наполнения и актуализации коллекций электронных документов схожи с аналогичными функциями web-краулеров поисковых систем Интернет. Подсистема производит:
обход внешних информационных ресурсов (web-сайтов, хранилищ документов),
получение электронных документов,
помещение полученных документов в коллекцию,
преобразование документов к внутреннему представлению (поддерживаются все распространённые форматы текстовых документов, имеется возможность добавления поддержки новых форматов).
В подсистеме реализована функция фильтрации целевых электронных документов, содержащих тематическую информацию, от промежуточных документов. Эта функция востребована при наполнении коллекций на основе ресурсов сети Интернет, поскольку целевые статьи на web-сайтах перемешаны с содержаниями выпусков журналов, картами сайтов, контактной информацией, которые не должны помещаться в тематическую коллекцию. Реализация этой функции использует шаблоны на основе регулярных выражений, которые применяются к URL электронных документов - web-страниц. Шаблоны формируются вручную на основе анализа структуры сайта и выделения подразделов, содержащих целевые документы.
Выделение значений метаданных документов производится 2 путями:
непосредственно из целевого документа,
из промежуточных документов в формате HTML, содержащих ссылки и описания целевых документов, т.к. целевые документы зачастую не содержат в себе всех необходимых метаданных.
Для выделения метаданных используется метод, основанный на применении XPath-выражений к DOM деревьям HTML-документов.
2.2 Подсистема индексации электронных документов
В подсистеме индексации электронных документов реализован комплексный лингвистический анализ, содержащий этапы морфологической, синтаксической и семантической обработки. В результате текст преобразуется во внутреннее представление в соответствии с реляционно-ситуационной моделью представления текста [Осипов и др., 2008]. Результат преобразования сохраняется в хранилище индексатора. Использована структура данных, известная как «обратный индекс», которая модифицирована для эффективной выборки документов с учётом метаданных и семантической информации слов.
2.3 Подсистема информационного поиска
На этапе поиска производится лингвистический анализ текста запроса пользователя по схеме, аналогичной анализу текста документа. При обработке запроса рассчитывается релевантность документов запросу на основе статистической и семантической информации [Osipov et al., 2008] с учётом выборки документов, соответствующих заданным значениям метаданных. Реализованный в системе семантико-статистический подход доказал свою эффективность в рамках семинара РОМИП-2008 [Смирнов и др., 2008]. В системе имеется возможность поиска ситуаций, описываемых фразами и предложениями на естественном языке, включая вопросно-ответный режим поиска. Классический поиск по ключевым словам также доступен, если пользователь считает, что этот вариант лучше всего подходит для выражения информационной потребности в конкретном случае.
2.4 Подсистема интерфейса пользователя
Пользовательский интерфейс системы интеллектуального вертикального поиска представляет собой web-форму и программный модуль обработки web-запроса. Интерфейс пользователя содержит элементы, необходимые для ввода текста запроса и выбора значений метаданных. Для текстовых полей предусмотрена интерактивная терминологическая подсказка на основе тезаурусов предметной области (с учётом таксономии терминов, переводом на другие языки).
Результаты поиска предоставляются пользователю в виде списка ссылок на найденные документы с краткими аннотациями. Сохранённые полнотекстовые копии доступны пользователю на этапе просмотра результатов поиска (если это не противоречит лицензионному соглашению об использовании материалов информационного ресурса - источника электронных документов).
3. Развёртывание системы интеллектуального вертикального поиска
Развёртывание системы интеллектуального вертикального поиска включает следующие шаги:
1. Установка программных модулей СИВП на серверы, конфигурирование их взаимодействия.
2. Определение тематики коллекций, в которых будет производиться поиск, выбор информационных ресурсов (web-сайтов, хранилищ электронных документов) - доверенных источников информации.
3. Анализ структуры информационных источников, определение множества выделяемых метаданных электронных документов и настройка подсистемы наполнения и актуализации коллекций электронных документов.
4. Настройка подсистемы интерфейса пользователя с учётом выбранных метаданных, по которым будет выполняться поиск, подготовка информационно-справочных ресурсов - тезаурусов предметных областей - и их интеграция в подсистему интерфейса пользователя.
Впоследствии в систему могут быть добавлены как новые информационные ресурсы в уже существующие коллекции, так и новые тематические коллекции. Актуализация коллекций производится в фоновом режиме параллельно с обработкой поисковых запросов пользователей.
Заключение
Представленная в статье система интеллектуального вертикального поиска ориентирована на автоматическое наполнение тематических коллекций электронных документов из различных источников и предоставление сервисов точного полнотекстового поиска с учётом метаданных документов.
Демонстрационная версия системы интеллектуального вертикального поиска доступна в Интернете по адресу http://elib.isa.ru. Система содержит тематические коллекции по генетике и нанотехнологиям. При формировании поискового запроса к каждой из коллекций доступна интерактивная терминологическая подсказка на основе двуязычного тезауруса.
К перспективным направлениям дальнейших исследований и развития системы интеллектуального вертикального поиска относятся:
применение методов автоматической категоризации с целью построения тематических каталогов и классификаторов;
применение методов машинного обучения для распознавания целевых и нецелевых документов с целью автоматизации процедуры наполнения коллекции;
применение методов машинного обучения для автоматизации процедуры настройки на информационные ресурсы при наполнении коллекции.
Список литературы
[Осипов и др., 2008] Осипов Г.С., Смирнов И.В., Тихомиров И.А. Реляционно-ситуационный метод поиска и анализа текстов и его приложения. // Журнал "Искусственный интеллект и принятие решений". 2008. N 2.
[Смирнов и др., 2008] Смирнов И.В., Соченков И.В., Муравьев В.В., Тихомиров И. А. Результаты и перспективы поискового алгоритма Exactus. // Труды российского семинара по оценке методов информационного поиска РОМИП' 2007-2008. С.-Пб.: НУ ЦСИ, 2008.
[Drake, 2009] Drake T. The Future of Vertical Search Engines. / (Электронный ресурс) http://developer.yahoo.net/blog/archives/2009/05/future_vertical_search. html Проверено 01.06.2010.
[Osipov et al., 2008] Osipov G., Smirnov I., Tikhomirov I. Application of Linguistic Knowledge to Search Precision Improvement. // Proceedings of 4th International IEEE conference on Intelligent Systems 2008. Volume 2.
[Zaiqing et al., 2007] Zaiqing Nie, Ji-Rong Wen and Wei-Ying Ma. Object-level Vertical Search / The Third Biennial Conference on Innovative Data Systems Research (CIDR 2007), Asilomar, CA, USA, January 7-10, 2007 / [Электронный ресурс] http://research.microsoft.com/en-us/um/people/jrwen/jrwen_files /publications/cidr2007.pdf Проверено 01.06.2010.
Размещено на Allbest.ru
Подобные документы
Технология программных агентов. Форматы метаданных, использующиеся для описания электронных ресурсов. Разработка интеллектуальных агентов. Среда разработки Jadex для построения интеллектуальных агентов. BDI модель интеллектуального агента ресурсов.
курсовая работа [279,8 K], добавлен 20.02.2011Средства поиска информации в сети Интернет. Основные требования и методика поиска информации. Структура и характеристика поисковых сервисов. Глобальные поисковые машины WWW (World Wide Web). Планирование поиска и сбора информации в сети Интернет.
реферат [32,2 K], добавлен 02.11.2010Основные особенности нормативного и методического обеспечения архивного хранения электронных документов. Общие требования к организации и проведению учета электронных архивных документов. Рассмотрение инновационных методов учета в делопроизводстве.
курсовая работа [255,8 K], добавлен 31.08.2015Обзор существующих систем атоматизированного поиска. Мир электронных денег. Разработка структуры системы автоматизированного поиска отделений и терминалов банков. Обоснование выбора технологии разработки, программной среды и языка программирования.
курсовая работа [1,2 M], добавлен 17.01.2011Характеристика общих вопросов организации электронных ресурсов. Принципы взаимодействия Интернет-ресурсов и процесса формирования каталогов электронных изданий. Анализ концепции построения электронных библиотек и организации информационных ресурсов в них.
дипломная работа [111,4 K], добавлен 24.11.2012Создание и развитие университетской информационной системы как тематической электронной библиотеки и базы для исследований и учебных курсов. Общее описание системы. Пользовательский графический интерфейс. Программное обеспечение, руководство пользователя.
дипломная работа [1,0 M], добавлен 24.01.2016Обоснование выбора метода извлечения ключевых слов. Анализ предметной области, проектирование информационной системы поиска релевантных документов. Реализация запросов к электронным библиотекам. Реализация интерфейса системы поиска релевантных документов.
дипломная работа [1,1 M], добавлен 21.09.2016Становление системы электронных библиотек и соответствующих информационных инфраструктур в современной России. Проблемы создания электронных каталогов. Организация массива данных и разработка программного кода поисковой машины на языке JavaScript.
курсовая работа [43,7 K], добавлен 03.09.2012Понятие и принципы работы, внутренняя структура и элементы, история формирования и развития поисковой системы "Rambler". Исследование и анализ, а также оценка эффективности данной поисковой системы для поиска экономической информации в интернете.
курсовая работа [4,0 M], добавлен 10.05.2015Описание функциональной схемы интеллектуального контроллера. Сравнительная характеристика выбранных устройств. Параметры электронных элементов микроконтроллера. Схема подключения к управляющей системе. Общий алгоритм функционирования системы управления.
курсовая работа [757,2 K], добавлен 26.12.2012