Адаптивная метапоисковая система формирования оперативной пертинентной информации в заданной предметной области CAD-CAM-CAE-технологии
Задачи интеллектуализации поиска и хранения информации. Повышение эффективности поиска и релевантности найденных WEB-ресурсов в адаптивной метапоисковой системе формирования оперативной пертинентной информации. Типы предметно-ориентированных порталов.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 25.08.2020 |
Размер файла | 191,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Адаптивная метапоисковая система формирования оперативной пертинентной информации в заданной предметной области CAD-CAM-CAE-технологии
Аверченков В.B., Казаков Ю.М., Рощин С.М., Леонов Е.А.
Existing modern approaches to search and storage of the information are described in article. Also the description of the developed metasearch system realized with use multiagents technologies at which each of agents searches for the information on the Internet only on the subject domain is resulted.
Увеличение объема WEB-ресурсов и роли Internet в информационном обеспечении потребностей общества выдвигает на первый план задачи интеллектуализации поиска и хранения информации. Используемые подходы в современных информационных поисковых системах уже не могут удовлетворять пользователей в получении оперативной пертинентной информации. Возросшие объемы информации приводят к ее значительному «зашумлению». Так, использование мультиагентных метапоисковых систем повышает (увеличивает) охват обрабатываемых ресурсов (Internet-пространства). При этом все большее применение находят системы и модули, основанные на принципах искусственного интеллекта. Такие системы обеспечивают повышение эффективности поиска и релевантности найденных WEB-ресурсов (документов).
Другой чертой современных подходов по информационному обеспечению является формирование предметно-ориентированных порталов, объединяющих систематизированные информационные ресурсы конкретной предметной области, механизмы их обработки и набор сервисов, обеспечивающих необходимое представление информации и интерфейс пользователей. Основой таких порталов является разработанная онтология предметной области и динамически пополняемое хранилище данных (ХД). Формирование порталов позволяет обеспечить эффективный сетевой доступ к структурированным предметно-ориентированным информационным ресурсам для специалистов в предметной области.
При этом достаточно актуальной проблемой становится обеспечение эффективного сетевого доступа к структурированным предметно-ориентированным информационным ресурсам. В настоящее время это реализуется с использованием ИПС, обеспечивающих мониторинг значительной части Internet-пространства[1]. Задачи мониторинга решаются практически во всех областях деятельности. Однако сформированная информация, в результате выполнения мониторинга перед использованием должна быть проанализирована: классифицирована по разделам, подобраны соответствующие документы. Необходимо объединить сходную информацию, найти новую информацию (по отношению к уже известной), отсеять недостоверную информацию, установить связи в массиве информации.
При такой организации поиска на этапе формирования образа релевантного документа из пользовательского запроса выделяются смысловые структуры: значимые слова и термины предметной области. Эти смысловые структуры затем используются для формирования поискового образа с применением эвристических правил и вывода на онтологии [2,3]. Образ релевантного документа представляет собой описание желаемого результата работы поисковой системы, которое включает в себя:
· набор терминов, которые должны включаться в документ;
· набор характеристик документа;
· набор требований к результату поисковой системы.
На этапе построения запроса к поисковой системе осуществляется вывод на онтологии. При этом выполняется преобразование пользовательского запроса в соединенный логическими связками набор терминов и понятий, которые будут использоваться поисковой системой.
После преобразования исходного запроса с использованием онтологии пользователю в режиме диалога предлагается уточнить поисковое предписание. Затем расширенный и уточненный таким образом запрос автоматически модифицируется в запрос к поисковой системе. При этом задаются параметры поиска, специфичные для каждой системы.
После проведенного анализа документов результаты поиска отображаются в удобном пользователю виде.
При построении онтологии предметной области, в первую очередь, формируется список терминов, на основе которого будет создана модель системы. Так, в число терминов, связанных с предметной областью CAD-CAM-CAE-технологии, будут входить такие понятия, как САПР, система, CALS - технология, модель, проектирование геометрическое ядро и т.п. Предварительно формируется полный список терминов, без оценки пересечения понятий, которые они представляют, и отношений между терминами.
После составления глоссария разрабатывается иерархия понятий (классов) и определяются свойства понятий (слотов).
Для разработки иерархии классов могут быть использованы нисходящий, восходящий и комбинированный подходы.
§ Процесс нисходящей разработки начинается с определения самых общих понятий предметной области с последующей конкретизацией понятий.
§ Процесс восходящей разработки начинается с определения самых конкретных классов, листьев иерархии, с последующей группировкой этих классов в более общие понятия.
§ Процесс комбинированной разработки - это сочетание нисходящего и восходящего подходов: Предварительно определяются более заметные понятия, а затем соответствующим образом проводят их обобщение и ограничение.
Следуя принципам разработки онтологий, для заданной предметной области были определены следующие классы для наиболее общих понятий: «CALS - технология», «Этапы жизненного цикла промышленного изделия», «Автоматизированные системы». Далее каждый из классов был уточнен множеством подклассов, например, «Этапы жизненного цикла промышленного изделия», «Маркетинг», «Проектирование», «Технологическая подготовка производства», «Производство» и др.
Классы сами по себе не предоставляют достаточно информации для ответа на запросы пользователей. После определения некоторого количества классов была описана внутренняя структура понятий. Для каждого свойства из списка определялся описываемый им класс. Эти свойства являются слотами, привязанными к классам. Таким образом, у класса «Интегрированные САПР в машиностроении» будут следующие слоты: название, производитель, геометрическое ядро, модули. А у класса «Разработчик» - название, производитель.
В онтологии слотами могут стать несколько типов свойств объектов:
· «внешние» свойства, такие, как название САПР;
· части, если объект имеет структуру; они могут быть как физическими, так и абстрактными «частями» (например, тип модуля для модуля конкретной системы);
· отношения с другими индивидными концептами; это отношения между отдельными членами класса и другими элементами (например, производитель САПР, представляющий отношение между конкретной САПР и фирмой).
Все подклассы класса наследуют слоты родительского класса. Например, все слоты класса «Интегрированные САПР» будут унаследованы всеми подклассами этого класса, включая «Тяжелый класс», «Средний класс», «Легкий класс».
Слот должен быть привязан к самому общему классу, у которого может быть данное свойство.
После этого создается база знаний, определяются отдельные экземпляры этих классов, вводятся в определенный слот значение и дополнительные ограничения для слота.
Для проекта была сформирована онтология предметной области «CALS- CAD- CAM- CAE - технологии», отражающая взаимосвязь классов «Интегрированные САПР в машиностроении», «Разработчики», «Геометрические ядра», «Этапы жизненного цикла промышленного изделия» («Проектирование», «Технологическая подготовка производства») и т.д. (рис.1).
Рисунок 1 - Классы и связь классов в онтологии предметной бласти CAD-CAM- CAE технологии
адаптивный метапоисковый пертинентная информация
Использование созданной онтологии, классифицирующей документы конкретной предметной области, конечными пользователями осуществляется через модуль аналитики. С применением данного модуля пользователь формулирует запрос, откликом системы на который являются фрагменты построенной онтологии. Эти фрагменты можно рассматривать в качестве информационной модели изучаемой пользователем темы. Система позволяет осуществлять навигацию по выданным фрагментам сети и просматривать документы, которые им соответствуют.
Одним из важных процессов системы является мониторинг информации. Структурно модуль мониторинга представляет собой многофункциональный программный продукт [4]. При этом можно выделить функции обеспечивающие сканирование WEB-ресурсов Internet и занесение найденной информации в хранилище данных. При запуске модуля эти функции реализуют автоматическое определение операционной системы, формируют многоагентный поиск, используя различные ИПС, а также обеспечивают информационное наполнение ХД и ее администрирование.
Процедура сканирования реализует алгоритмы, осуществляющие формирование запросов внешним средствам поиска (рис. 2), автоматический анализ списка результатов внешних средств поиска, проход по ссылкам Web-страниц и проход по структуре каталогов.
Настройка на конкретную ИПС выполняется в конфигурационном файле. Обработка файла описания поисковых систем производится на этапе составления запросов к ПС и загрузки ПС. При этом на этапе создания запросов к ПС используется параметр описания каждой из ПС, а на этапе обработки запросов используются регулярные выражения, предназначенные для выявления информации о найденных страницах. Также процедура модуля мониторинга обеспечивает возможность редактирования входного файла запросов. Изменение (добавление информации) данного файла может производиться динамически во время работы модуля.
Рисунок 2 - Формирование запроса в модуле мониторинга
Пользователю доступно редактирование вспомогательных файлов, используемых при работе модуля. Для повышения эффективности получения релевантной информации в модуле формируется в полуавтоматическом режиме «черный» список нежелательных документов и сайтов. Также модуль позволяет отслеживать и некоторые статистические данные, необходимые для определения как текущего рабочего состояния модуля, так и для получения информации об эффективности заданных параметров.
Оперативное управление отобранными в результате сканирования по поисковым запросам и «скаченными» в ХД документами осуществляется с использованием модуля предварительного администрирования WEB-ресурсов. Модуль включает ряд процедур - это просмотр всего содержимого ХД, удаление, корректировка, пометка на удаление, занесение в черный список документов и сайтов, поиск документов по различным критериям, локальное занесение документа в ХД, статистические данные по типам документов.
Для просмотра ХД разработаны процедуры динамического иерархического формирования каталога документов. Каталог документов представляет собой 4-х уровневый индексированный список. На каждом уровне предусматривает введение поискового запроса для документа - по типу поисковой системы, по релевантности, тематическому блоку, поисковой фразе, расширению, дате, размеру, заголовку документа. Для просмотра ХД могут быть использованы от одного до 4-х уровней. Это дает возможность расширять либо сужать объем рассматриваемых документов (рис.2.). Индексированный список представлен в виде дерева, что обеспечивает возможность перемещаться по различным отсортированным рубрикам. Окно просмотра представляет собой перечень названий документов с рядом дополнительных параметров - пометкой уже просмотренных документов, пометкой документов на удаление, пиктограммами для просмотра документа из Internet, занесения сайта в черный список и т.д.. Процедуры динамического формирования каталога позволяют оперативно добавлять и менять поисковые запросы для каждого уровня.
Просмотр информации, содержащейся в документе может осуществляться непосредственно для документа, занесенного в ХД, а также при «закачивания» его из Internet.
Модуль администрирования также позволяет осуществлять поиск конкретных документов по ряду параметров: заголовку, размеру, дате создания, поисковой системе, адресу, расширению, описанию, тематическому блоку, релевантности. Причем часть параметров выбирается из списка - тематический блок, поисковая система, часть заносится пользователем на естественном языке - название, описание.
В модуле предусмотрены процедуры формирования статистической информации по характеристикам документов. Так динамически формируется диаграмма по количеству документов с различным расширением, временем создания, объемом и т.д.
Таким образом, модули мониторинга и администрирования WEB-ресурсов реализует алгоритмы, осуществляющие формирование запросов внешним средствам поиска, автоматический анализ списка результатов внешних средств поиска, проход по ссылкам Web-страниц, проход по структуре каталогов, проверку соответствия найденных документов тематике предметной области, а также предварительное заполнение семантической сети системы по предметной области, поиска и редактирования документов ХД.
Метапоисковая система реализована с использованием мультиагентных технологий. В этом случае каждый из агентов ищет информацию в Интернете только по своей предметной области. Это позволяет настроить систему для поиска информации одновременно по нескольким предметным областям.
Литература
1. Аверченков, В.И. Информационный поиск в сети Интернет [Текст]: учеб. пособие. / В.И. Аверченков, В.В. Мирошников, С.М. Рощин - Брянск: БГТУ, 2001. - 204 с.
2. Аверченков, В.И., Мониторинг и системный анализ информации в сети Интернет [Текст]: монография / В.И. Аверченков, С.М. Рощин - Брянск: БГТУ, 2006. - 160 с.
3. Аверченков, В.И. Применение онтологий для предметно-ориентированных электронных ресурсов [Текст] / В.И. Аверченков, П.В. Казаков / Материалы конференции: - Информационные технологии в науке, образовании и производстве (ИТНОП - 20006). ОрелГТУ, 2006, с.3-8.
4. Аверченков, В.И. Разработка отраслевой системы доступа к информационным ресурсам научного и образовательного назначения по приоритетным направлениям развития науки и техники в области искусственного интеллекта и CALS-, CAD-, CAM-, CAE-технологий [Текст] // В.И. Аверченков, Ю.М. Казаков / Труды всероссийской научно-методической конференции «Телематика 2006», Санкт-Петербург. 2006, с. 27-28.
Размещено на Allbest.ru
Подобные документы
Средства поиска информации в сети Интернет. Основные требования и методика поиска информации. Структура и характеристика поисковых сервисов. Глобальные поисковые машины WWW (World Wide Web). Планирование поиска и сбора информации в сети Интернет.
реферат [32,2 K], добавлен 02.11.2010Причины возникновения остаточной информации. Уничтожение информации как часть процесса обеспечения информационной безопасности. Метод воздействия магнитным полем и анализ устройств ликвидации информации. Ликвидация информации в оперативной памяти.
реферат [124,3 K], добавлен 05.12.2012Простота поиска информации в системе "Google.ru", его технологии и функции. История термина и его применение. Выбор условий поиска, автоматическое исключение общих слов. Калькулятор и конвертирование валют. Похожие страницы и проверка правописания.
реферат [19,2 K], добавлен 21.02.2011Автоматизированная обработка информации: понятия и технология. Организация размещения, обработки, поиска, хранения и передачи информации. Защита информации от несанкционированного доступа. Антивирусные средства защиты информации. Сетевые технологии.
методичка [28,8 K], добавлен 14.01.2009Понятие экономической информации, ее классификаторы. Системы классификации и кодирования информации. Документация и технологии её формирования. Применение технологий Workflow, их функции. Виды носителей информации, современные технологии ее хранения.
курсовая работа [2,0 M], добавлен 27.09.2013Организационно-административное обеспечение информационной безопасности. Процедура санкционирования в отношении средств информации. Классификация ресурсов и контроль за ними. Неформальные методы поиска оптимальных решений. Управление защитой информации.
учебное пособие [969,6 K], добавлен 18.01.2011Рассмотрение и анализ моделей и алгоритмов семантического поиска в мультиагентной системе поддержки пользователей. Ознакомление с интерфейсом чата с ботом. Изучение и характеристика экспериментальных оценок релевантности и пертинентности запросов.
дипломная работа [3,0 M], добавлен 13.10.2017Организация поиска информации по заданной теме в сети Интернет. Поиск с помощью поисковых машин. Преимущества и недостатки метода поиска по ключевому слову (фразе). Поиск в каталогах информационных ресурсов. Преимущества и недостатки предметных каталогов.
курсовая работа [47,5 K], добавлен 03.11.2010Понятие и принципы работы, внутренняя структура и элементы, история формирования и развития поисковой системы "Rambler". Исследование и анализ, а также оценка эффективности данной поисковой системы для поиска экономической информации в интернете.
курсовая работа [4,0 M], добавлен 10.05.2015Анализ автоматизированных информационных технологий, применяемых в экономике. Особенности экономической информационной системы, предназначенной для поиска, хранения и выдачи информации по запросам пользователей. Поиск информации с помощью баз данных.
курс лекций [1,4 M], добавлен 27.01.2010