Документальные информационные системы

Характеристика и виды документальных информационных систем, каталоги и тезаурусы, классификационные системы поиска, координация понятий, автоматизация индексирования, полнотекстовые ИПС, механизмы поиска, релевантность, гипертекст, формирование связей.

Рубрика Программирование, компьютеры и кибернетика
Вид реферат
Язык русский
Дата добавления 21.10.2009
Размер файла 3,6 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Формирование связей документов в гипертекстовых ИПС

Еще одним важным элементом в структуре гипертекстовых ИПС является подсистема формирования связей документов (см. рис. 12). Как и в случае систем на основе индексирования документов, существует два подхода к формированию связей документов в гипертекстовых ИПС -- ручной и автоматизированный.

В первом подходе смысловые связи содержания документа с другими документами системы определяются самим пользователем (автором документа, администратором и т. п.). Такой подход имеет свои преимущества, так как пользователь устанавливает смысловые ассоциации нового документа с другими документами базы на основе многоаспектного многокритериального анализа содержания документа, что не может быть в полной мере воспроизведено никакими автоматизированными формальными или эвристическими алгоритмами.

Вместе с тем у ручного подхода имеется и ряд существенных недостатков. Человеческие возможности по скорости и объему смыслового анализа текстовых документов ограничены и не могут во многих случаях обеспечить приемлемые временные или организационные расходы на обработку и установление связей при больших потоках поступления документов в систему. В качестве примера можно привести гипертекстовую систему, агрегирующую в реальном масштабе времени поток новостных сообщений информационных агентств и другие тому подобные ситуации.

Однако даже если временных или иных ограничений на ввод документов в гипертекстовую ИПС нет, то другой проблемой является ограниченность человеческой памяти пользователя (администратора) по содержанию введенных ранее в систему документов. Иначе говоря, пользователь, устанавливая гипертекстовые ассоциации нового документа, помимо смыслового содержания вводимого документа, одновременно должен представлять и помнить смысловое содержание всех других ранее введенных в систему документов, что, конечно же, без дополнительных классификационных или иных приемов в большинстве случаев нереально.

Кроме того, ручной подход, как и в случае индексирования документов, требует определенной квалификации пользователя-анализатора в соответствующей предметной области ИПС, что приводит к дополнительным проблемам.

Тем не менее в некоторых областях ручной способ установления гиперссылок сохраняет свое значение или является единственно возможным. Это, прежде всего, касается среды WWW в сети Интернет. Гипертекстовые ссылки публикуемых на Web-узлах документов на другие документы Сети пользователи определяют сами,* исходя из собственных представлений об ассоциации своей страницы с другими публикациями и узлами WWW. Вместе с тем такой подход не может по-настоящему полно и адекватно ассоциировать содержание публикуемой страницы с ресурсами Сети, так как ни один пользователь или Web-мастер, конечно же, не может знать и представлять всех ресурсов Сети. Отчасти эта проблема решается через так называемые поисковые машины, размещающиеся на известных всем пользователям узлах WWW и представляющие собой, как правило, сочетание информационно-поисковых классификационных каталогов и полнотекстовых ИПС, индексирующих все публикации в WWW. В этом случае гипертекстовые ассоциативные цепочки образуются через отсылку на узел поисковой машины, а от него к релевантным документам, располагающимся на других узлах сети.

Автоматизированный подход к формированию и установлению гипертекстовых связей применяется в развитых замкнутых гипертекстовых ИПС. В основе автоматизации формирования гиперссылок лежит использование принципов поиска релевантных по смыслу документов, применяемых в системах на основе индексирования.

На практике применяются две основные технологии автоматизированного установления ассоциативных гипертекстовых связей:

* технология поисковых образов документов на основе техники ключевых слов (терминов);

* технология полнотекстового индексирования и поиска.

Использование технологии ключевых слов имеет несколько разновидностей. Один из вариантов предусматривает предварительное создание для предметной области гипертекстовой ИПС взвешенного словаря ключевых терминов. При вводе нового документа в системе производится его индексирование по словарю ключевых терминов и формируется ПОД. В простейшем случае в качестве ПОД используется суммарный вес терминов, присутствующих в тексте документа. Далее поисковый образ нового документа сравнивается с поисковыми образами ранее введенных документов и при превышении определенного порога «сходства» устанавливаются гипертекстовые связи с соответствующими документами.

В другом варианте используется предварительно созданная классификационная рубрикация предметной области. С каждой рубрикой связывается опять-таки предварительно созданный набор ключевых терминов или их сочетаний. На основе входного индексирования производится соотнесение вводимого документа с той или иной рубрикой и на этой основе устанавливаются гипертекстовые связи с соответствующей группой документов.

Полнотекстовые технологии по сути аналогичны технике ключевых слов с учетом только более широкого текстового базиса индексирования и использования тех или иных критериев установления близости поисковых образов документов. В некоторых системах практикуются полуавтоматизированные технологии на основе полнотекстового поиска. В таких системах пользователь-анализатор выделяет из текста документа наиболее характерные по его содержанию фрагменты, которые используются в качестве запроса-образца для сформирования ПОЗ и полнотекстового поиска релевантных документов, с которыми и устанавливаются гипертекстовые связи.

Иногда применяются и более тонкие полуавтоматизированные подходы. Пользователь, анализируя содержание вводимого документа, может через технику ключевых терминов, или через классификационную рубрикацию, или через возможности полнотекстового поиска выбрать группу предварительно сходных (ассоциированных) по смыслу документов. Далее просматривая документы этой группы, он отмечает действительно релевантные из них, определяя и устанавливая тем самым соответствующие связи (гиперссылки) вводимого документа.

Таким образом, в технологиях автоматизированного формирования гипертекстовых связей документов сливаются все подходы, наработанные в сфере документальных информационных систем для формализации смыслового содержания текстовых документов.

Используемая литература:

Н.А. Гайдамакин. Автоматизированные информационные системы, базы и банки данных.


Подобные документы

  • Виды документальных информационных систем. Системы на основе индексирования и семантически-навигационные системы документационного обеспечения управленческой деятельности. Элементы информационно-поискового языка. Координатное индексирование текста.

    презентация [56,5 K], добавлен 14.10.2013

  • Виды обрабатываемой социально-правовой информации. Формализация процесса принятия решения для моделирования его в компьютерной системе. Полнотекстовые и фактографические автоматизированные информационные системы. Автоматизация экспертного исследования.

    реферат [23,7 K], добавлен 17.09.2009

  • Понятие, виды и характеристика информационных ресурсов, инструменты поиска. Правила обращения с on-line ресурсами и вычислительной техникой. Автоматизация системы расчетов хозяйственной деятельности организации с помощью пакета программы MS Office Excel.

    курсовая работа [1,7 M], добавлен 18.07.2014

  • Понятие информационной системы как системы сбора, хранения, накопления, поиска и передачи информации, применяемая в процессе управления или принятия решений. Классификация и структура информационных систем. Разнообразие задач, решаемых с помощью ИС.

    контрольная работа [160,6 K], добавлен 18.01.2010

  • Особенности поиска информации в Интернет: стратегия и методика. Поисковые машины, каталоги и порталы информационных ресурсов. Подбор и введение ключевых слов. Использование режима "расширенный поиск", который имеет каждая из поисковых систем в Интернете.

    реферат [27,3 K], добавлен 06.08.2014

  • Компоненты документальной информационно-поисковой системы. Результаты индексирования документов и запросов. Иерархическая, фасетная и эмпирическая классификационные схемы. Дескрипторные информационно-поисковые языки. Примеры дескрипторной статьи.

    презентация [59,2 K], добавлен 14.10.2013

  • Основные протоколы, используемые в Интернет. Инструменты поиска в Интернете. Популярные поисковые системы. Как работают механизмы поиска. Средства поиска и структурирования. Автоматизированная навигация по Сети. Критерии качества работы поисковой машины.

    реферат [19,7 K], добавлен 14.02.2012

  • Критерии эффективности информационно-поисковых систем: требования потребителя, полнота поиска, затраты труда, факторы, влияющие на характеристики. Ошибки при поиске, обусловленные несовершенством языка, процесса индексирования, поиска, другими причинами.

    курсовая работа [77,2 K], добавлен 06.02.2014

  • Автоматизированное рабочие место экономиста-пользователя, его назначение и характеристика. Организация информационных систем. Особенности документальных форм ввода и вывода информации при компьютерной обработке. Роль системы управления базы данных.

    шпаргалка [79,5 K], добавлен 29.11.2013

  • Удовлетворение информационной потребности как цель поиска информации. Виды информационных ресурсов. Понятие документа в информационном поиске. Схема информационного поиска, этапы его представления. Характеристика качества поиска, его базовые положения.

    презентация [1,2 M], добавлен 06.01.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.