Документальные информационные системы

Характеристика и виды документальных информационных систем, каталоги и тезаурусы, классификационные системы поиска, координация понятий, автоматизация индексирования, полнотекстовые ИПС, механизмы поиска, релевантность, гипертекст, формирование связей.

Рубрика Программирование, компьютеры и кибернетика
Вид реферат
Язык русский
Дата добавления 21.10.2009
Размер файла 3,6 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Принцип и механизм поиска документов по индексу системы очевидны. Пользователь должен указать путем перечисления и ввода в систему тех словоформ, набор которых выражает его информационные потребности. К примеру, если пользователю необходимо найти документы, содержание которых касается экспорта редкоземельных элементов, то запрос к системе может выглядеть следующим образом «экспорт редкоземельные элементы». В ответ система по индексу определит номера (группу) документов, где присутствует слово «экспорт», группу документов, где присутствует слово «редкоземельные», и группу документов, где присутствует слово «элементы». Ясно, что полнота и точность такого поиска будут оставлять желать много лучшего, так как в первой группе документов могут присутствовать в том числе и документы, в которых речь идет об экспорте чего-то другого, например леса, или об экспорте вообще. Во второй группе документов могут присутствовать документы, в которых речь идет, в том числе, о добыче или производстве редкоземельных элементов, но не об их экспорте. В третьей группе документов могут присутствовать и документы, в которых речь идет, скажем, о преступных элементах, что, конечно же, совершенно может не соответствовать благим информационным потребностям пользователя.

Слабая эффективность подобного способа выражения информационных потребностей преодолевается некоторыми реляиионными дополнениями такого чисто дескрипторного языка запросов на основе посткоординации, только не понятий, а словоформ. В язык запросов вводятся логические операции отношений дескрипторов запроса -- операция логического «И», операция логического «ИЛИ», операция логического отрицания «НЕ».

Если словоформы запроса из приведенного выше примера объединить операцией логического «И», то система отберет только те документы, в которых одновременно присутствуют словоформы «Экспорт», «Редкоземельные», «Элементы». Несмотря на возможность ложной координации словоформ, такое усовершенствование чисто дескрипторного характера языка запросов приводит к существенному повышению эффективности поиска и предоставляет пользователю более развитые возможности по выражению своих информационных потребностей.

Следует также добавить, что подобные принципы построения языка запросов повышают требования к квалификации пользователя, в частности по пониманию и оперированию логическими операциями. Вместе с тем, как показывает практика, большинство так называемых «неподготовленных» пользователей способно самостоятельно осваивать и применять подобные, в общем-то, интуитивно понятные языковые конструкции.

На практике язык запросов полнотекстовой ИПС дополняется также операциями работы с датами и в ряде систем возможностями координатного анализа текста документов. Ранее неявно предполагалось, что единичным объектом поиска словоформ и соответственно областью действия логических операторов является документ, а не более мелкие его составляющие -- абзацы, предложения. В системах с координатным анализом область действия логических операторов можно сужать вплоть до предложения. Примером таких возможностей является запрос на отыскание таких документов, где словоформы «экспорт», «редкоземельные», «элементы» присутствуют одновременно (операция «И») внутри одного предложения. Координатный анализ позволяет еще более повысить эффективность поиска релевантных документов, но требует более детального индексирования. Для словоформ словаря системы в индексе должны при осуществлении координатного анализа фиксироваться не только номера документов, но номера абзацев, номера предложений и номера соответствующих словоформ в порядке следования слов в соответствующих предложениях.

Отличительной особенностью поиска документов по индексу является практическая независимость времени (скорости) поиски от объема базы документов, особенно если используется статический словарь. Для любого запроса, независимо от текущего объема базы документов, выполняется приблизительно одинаковое количество операций, связанных с просмотром строк индексного массива и определением совокупности номеров релевантных документов. Следующей стадией выполнения запроса является собственно извлечение из базы (файла документов) самих документов. Для этого обычно в полнотекстовой ИПС создается специальный массив (см. рис. 9) адресов начала расположения документов.

В системах с динамически поддерживаемыми словарями время поиска при увеличении объема базы документов сначала также увеличивается (т. к. пропорционально увеличивается объем словаря и, соответственно, объем индекса), а затем так же, как в системах со статическими словарями, перестает зависеть от объема базы документов. Это объясняется тем, что с некоторой границы объема базы документов словарь системы уже набирает практически полный набор словоформ, присущих конкретной предметной области, и вероятность появления в новом документе слова, которого еще не было в словаре системы, резко падает.

Как уже отмечалось, повышению эффективности поиска способствует морфологический разбор документов и запросов. Помимо существенного уменьшения объема словаря и, соответственно, индекса системы, морфологический разбор повышает и эффективность поиска, так как не реагирует на несущественные с точки зрения смыслового содержания грамматические различия искомого текста документов и запросов. Если вернуться опять-таки к примеру с запросом «экспорт редкоземельные элементы», то система с морфологическим разбором отберет не только те документы, в которых встречается буквальное сочетание словоформ «экспорт», «редкоземельные», «элементы», но и такие фразы, как «К вопросу об экспорте редкоземельных элементов», «Проблемы экспорта редкоземельные элементов» и т.п.

Морфологический разбор в принципе дает возможность пользователю формировать запросы на естественном языке. Система при обработке запроса удаляет из него все «стоп-слова», остальные словоформы нормализует и, оставляя пользователя в полной иллюзии о том, что она действительно его «понимает», выполняет таким образом выхолощенный запрос. Некоторое время тому назад наблюдалось сильное увлечение таким подходом, от которого, к счастью, вскоре разработчики полнотекстовых ИПС отошли. Использование якобы естественного языка запросов на самом деле не позволяет применять логические операторы и другие развитые возможности, связанные с координатным анализом местонахождения и контекстного окружения искомых слов, терминов, сочетаний и т. д.

Еще одной важной характеристикой поиска документов по индексу, в том числе с учетом логических операций посткоординации и морфологического разбора, является то, что такой поиск основывается на упрощенном детерминированном подходе. Иначе говоря, критерием поиска является вхождение или невхождение того или иного дескриптора-словоформы запроса в поисковый образ документа без учета общей «похожести» ПОД и ПОЗ. Масса остальных дескрипторов поискового образа документа не рассматривается. Поэтому в развитых полнотекстовых ИПС реализуются более тонкие и сложные алгоритмы поиска, основанные на сравнении ПОД и ПОЗ в целом по тем или иным критериям похожести, близости.

Такой подход позволяет предоставлять пользователям более эффективные возможности выражения своих информационных потребностей без их явной формализации и структуризации по словоформам. В частности, пользователь может поставить ИПС задачу поиска документов, «похожих» по содержанию на какой-либо другой (известный ему релевантный, точнее пертинентный) документ или фрагмент документа. В этом случае не только ПОД, но и ПОЗ представляют собой полномасштабные двоичные векторы, часть дескрипторов которых будет совпадать, а часть не совпадать, и возникнет необходимость в использовании более тонких критериев определения близости документов и запроса. Кроме того, становится возможным определение количественных мер (показателей) близости, т.е. релевантности документов и запросов.

Методы количественной оценки релевантности документов

Количественные показатели релевантности -- процент соответствия содержимого документа запросу, ранжирование (самый релевантный документ, менее релевантный, еще менее релевантный) и т. п., позволяют существенно увеличить конечную эффективность использования документальной системы, предоставляя пользователю возможность после отбора документов сразу сосредоточиваться на наиболее важных из них.

Определение количественных показателей релевантности документов в полнотекстовых ИПС основывается на тех или иных подходах по вычислению мер близости двоичных векторов документов и запросов.

Документ Dk представляется в системе двоичным вектором:

где dk,i =1, если словоформа под номером i присутствует в k-м документе, и 0, если отсутствует.

Аналогичным образом представляются поисковые образы запроса Z пользователя:

где zk = 1, если словоформа под номером k присутствует в запросе, и zk = 0, если отсутствует.

Критерии релевантности подразделяются по моделям представления и сопоставления документов и запросов, к которым относятся:

* булева модель;

* модель нечетких множеств;

* пространственно-векторная модель;

* вероятностно-статистическая модель.

В качестве показателя (меры) релевантности документов используется так называемое значение статуса выборки (retrieval status value -- RSV). В булевой модели критерием релевантности является полное совпадение векторов ПОД и ПОЗ. Соответственно RSV в булевой модели определяется как логическая сумма операций попарного логического произведения соответствующих элементов векторов ПОД и ПОЗ:

где k = 1,..., N, N -- количество документов в базе, L -- количество словоформ в словаре, & -- логическая операция «И».

Значением RSV в булевой модели может быть единица (релевантный документ) или ноль (нерелевантный документ). По сути, булева модель не дает количественной меры релевантности и ничем не отличается от простого поиска по индексу системы с логической операцией «И» словоформ-дескрипторов.

В системах на основе модели нечетких множеств значения компонент векторов ПОД и ПОЗ могут принимать не только два альтернативных значения -- 1 и 0 (термин принадлежит документу или не принадлежит), но и такое значение, как «неполная, частичная принадлежность». Соответственно в модели нечетких множеств переопределены и логические операции, чтобы учитывать возможность неполной принадлежности подобных логических элементов анализируемым множествам (поисковым образам запросов). Вычисление значений статуса выборки RSV производится аналогичным булевой модели образом с учетом переопределения операции & («И»).

Несмотря на некоторое расширение выразительных возможностей представления и сопоставления документов и запросов, модель нечетких множеств, как и булева модель, не дает по-настоящему количественной меры релевантности, хотя достоинством обеих моделей является их простота и невысокие вычислительные затраты на реализацию.

В системах на основе пространственно-векторных моделей поисковое пространство представлено многомерным пространством, каждое измерение которого соответствует словоформе (термину) из словаря системы. Например, если в словаре всего три словоформы, то поисковое пространство является трехмерным, и т. д. В исходном варианте пространство имеет евклидову метрику, т. е. представляется ортогональным базисом нормированных векторов, отражающих соответствующие словоформы словаря системы. Поисковый образ документа и запроса в поисковом пространстве представляется многомерным вектором единичной длины, координаты которого отражают наличие или отсутствие в документе соответствующих словоформ. В случае трехмерной размерности пространственно-векторная модель иллюстрируется на рис. 10.

Показатель релевантности (по аналогии с булевой моделью будем обозначать его RSV) для пространственно-векторной модели в простейшем случае определяется скалярным произведением векторов ПОД и ПОЗ:

Рис. 10 Иллюстрация пространственно-векторной модели представления и сопоставления документов и запросов

Таким образом, определяемый показатель релевантности RSV может изменяться в диапазоне от 0 до N(N -- число словоформ или терминов в словаре системы) и действительно количественно отражает степень релевантности документов. Так, в приведенном на рис. 10 примере значение RSV1 = 2, а значение RSV2 = 1. Для выдачи пользователю конкретного набора релевантных документов информационно-поисковые системы ограничиваются выдачей документов, показатель релевантности которых запросу RSV превышает некоторый заранее установленный порог.

Следует также заметить, что при таком подходе абсолютные значения показателя релевантности зависят не только собственно от самой степени релевантности, но и от количества N словоформ в словаре системы. Поэтому на практике применяют нормализованный вариант RSV, определяя его с учетом ортогональности и ортонормированности поискового пространства как косинус угла между вектором ПОД и вектором ПОЗ:

В этом случае RSV принимает значения от 0 до 1 и не зависит от объема словаря системы.

Определенным недостатком такого подхода к расчету количественной меры релевантности является нечувствительность к степени соответствия отсутствующих словоформ (терминов) в ПОД и ПОЗ. Интуитивно понятно, что чем ближе содержание документа и запроса, тем меньше в документе должно быть словоформ (терминов), которых нет в запросе. Если, к примеру, в словаре системы всего 6 элементов и имеется два документа и , то для запроса значение RSV для обоих документов будет равно 2 (33%), хотя интуитивно понятно, что более близким по содержанию является первый документ, а второй документ, скорее всего, затрагивает более широкую тематику, не обязательно интересующую пользователя.

Такой чувствительностью обладает показатель релевантности, определяемый следующим образом:

где и -- дополнение к элементам и , т. е. , если и наоборот.

Если вернуться к предыдущему примеру с документами , и запросом , то RSV для первого документа будет равным 5 (83%), а для второго документа 2 (33%), что выглядит, конечно же, «справедливее».

Более развитым, но и более сложным подходом к определению мер близости ПОД и ПОЗ является учет разной значимости словоформ (терминов) и их зависимости друг от друга. В пространственно-векторной модели это означает отход от ортогональности и ортонормированности базисных векторов поискового пространства. В этом случае скалярное произведение векторов ПОД и ПОЗ более гибко и осмысленно отражает близость соответствующих векторов и, тем самым, смысловое содержание документов и запросов.

В простейшем варианте подобного расширения пространственно-векторной модели различные словоформы в глобальном словаре системы дополняются специальными весовыми коэффициентами, отражающими важность соответствующей словоформы (термина) для конкретной предметной обласmu. Соответственно поисковые векторы документов и запросов в этом случае превращаются из двоичных векторов в обычные, т. е. с любыми значениями (а не только 0 или 1) своих компонент. Иногда такой подход называют «окрашиванием»* глобального словаря системы. Следует также заметить, что в случае перехода от глобального словаря (отражающего все слова и словоформы) к словарю терминов происходит вырождение полнотекстового характера ИПС и она переходит в категорию систем на основе тезаурусов.

На практике применяются также и другие подходы, расширяющие возможности двоичной (ортогональной и ортонормированной) пространственно-векторной модели. Такие подходы базируются на вероятностно-статистической модели. При этом можно выделить две разновидности вероятностно-статистического подхода:

* придание весовых коэффициентов словоформам (терминам) глобального словаря вне контекста конкретного документа;

* придание весовых коэффициентов компонентам векторов ПОД по итогам индексирования конкретного документа (с учетом контекста конкретного документа).

Первый подход основан на анализе итогов индексирования совокупности документов, уже вошедших в базу (хранилище) ИПС. Совокупность словоформ (терминов), обязательно присутствующих в любом документе базы, считается наиболее адекватно отражающей тематику предметной области ИПС, и соответствующие словоформы (термины предметной области) получают наибольший вес, наибольшую значимость в словаре системы, по которому производится индексирование документов. В качестве числовых характеристик весов значимости терминов используются те или иные статистические параметры, такие, например, как относительная или абсолютная частота вхождения термина в документы базы системы. Разновидностью такого подхода является учет количества вхождений в совокупность документов базы тех или иных словоформ или терминов.

Более сложные варианты развития первого подхода основываются на технологиях «обучения» и настраивания ИПС на конкретные предметные области. Традиционный способ обучения основывается на использовании обучающей выборки документов. Такая выборка формируется либо на основе отбора текстов экспертами в конкретной предметной области, либо путем использования документов по соответствующим рубрикам каталогов библиотек и т. п. Далее осуществляется исследование обучающей выборки на предмет статистических показателей вхождений в документы выборки тех или иных словоформ или терминов. Результатом обучения является «окрашенность» (различные весовые коэффициенты словоформ) словаря системы.

Другой подход основывается на апостериорном выделении в поисковом пространстве «сгущений» векторов ПОД и последующем анализе совокупности и количественных данных вхождения в такие группы документов тех или иных словоформ (терминов). Предполагается, что такие группы соответствуют особенностям тематики конкретной предметной области, и словоформы, в них входящие, получают наибольшие весовые коэффициенты на основе тех или иных статистических параметров. Еще одним вариантом является учет дискриминируемости (различимости) термина. Если при внесении в текст одного из двух близких по векторам ПОД документов какого-либо термина происходит резкое «расщепление» этих векторов, то такой термин считается более информативным и значимым, и его коэффициент важности, соответственно, должен быть выше.

При втором подходе к реализации вероятностно-статистической модели различия в весах значимости словоформ или терминов проявляются по результатам индексирования конкретного документа. В простейшем варианте анализируется, сколько раз тот или иной термин входит в данный документ. Словоформам или терминам, имеющим наибольшее количество вхождений, присваиваются более высокие веса в векторе ПОД. В векторах запросов (ПОЗ) все словоформы или термины считаются равнозначными, но их различные веса в векторах ПОД обеспечивают большую релевантность тех документов, где соответствующие словоформы или термины встречаются наиболее часто.

Отдельной ветвью развития второго подхода является использование обратной, интерактивной связи с пользователем. В этом случае информационно-поисковая система стремится настроиться не столько на определенную предметную область, сколько на специфические особенности тематики информационных потребностей конкретного пользователя. В общем виде для каждого пользователя ИПС создает свое поисковое пространство с индивидуальным окрашиванием компонентов векторов ПОД. Такое индивидуальное окрашивание производится путем запрашивания системой у пользователя его оценки релевантности выданных на каждый текущий запрос документов. Уточнив у пользователя, какие на его взгляд документы наиболее релевантны, система анализирует особенности и статистические параметры вхождения тех или иных словоформ (терминов) в эти наиболее релевантные документы, переопределяет и уточняет их весовые коэффициенты. Тем самым в последующих запросах более адекватно и глубже учитываются информационные потребности конкретного пользователя.

Существуют и другие разновидности вероятностно-статистических подходов к расширению пространственно-векторной модели поиска документов, но, к сожалению, из-за отсутствия в документации на коммерческие ИПС соответствующей информации по деталям механизмов поиска и релевантности документов оценить и проанализировать их эффективность довольно затруднительно.

В целом же информационно-поисковые полнотекстовые системы являются одним из наиболее интенсивно развивающихся направлений документальных информационных систем, существенно продвигая теорию и практику информационного поиска документов и развивая методы анализа и автоматизированной обработки текстовой неструктурированной информации.

Гипертекстовые информационно-поисковые системы

Анализ организации работы различных аналитических служб и отдельно взятого аналитика показывает, что основой их информационного обеспечения в традиционных «бумажных» технологиях являются различные тематические подборки, папки с текстовыми документами (служебные документы, копии статей из специальной периодики, выписки из книг, газетные вырезки и т. п.), систематизированные по расположению на основе какого-либо критерия (в алфавитном порядке по названиям, хронологически по дате документов, ранжированием по важности или по иным критериям). Причем документы в таких папках-подборках, как правило, снабжаются еще специальными пометками и взаимными отсылками по каким-либо смысловым ассоциациям. Отталкиваясь от какого-либо одного, релевантного документа, аналитик по отсылкам отбирает из подборки и все, ассоциированные по данному смысловому содержанию, документы. Процесс отбора документов по ссылкам в определенной степени напоминает навигацию по географическим картам, чем и определяется название соответствующего подхода к организации документального поиска.

В отличие от информационно-поисковых систем на основе индексирования документов, семантически-навигационные системы изначально возникли и развивались как чисто компьютерные системы и прошли пока еще короткий, но уже достаточно богатый период развития.

Считается, что первым идеи ассоциативно-навигационного подхода к анализу текстовой информации выдвинул в 1945 году советник президента Рузвельта по науке Ванневар Буш. В своей статье «Как мы могли бы мыслить», где он излагал проект создания технической (точнее, (фотомеханической) системы, обеспечивающей «ассоциативное» связывание текстов, В. Буш писал: «Работа человеческой мысли построена на принципе ассоциаций. Анализируя какое-либо понятие или элемент, она непременно стремится поставить ему в соответствие какой-нибудь другой знакомый образ, подсказываемый ассоциацией мыслей, и это соответствие устанавливается благодаря трудноуловимой паутине связей, формируемых клетками человеческого мозга».* Идеи В. Буша, как это иногда бывает, намного опередили свое время, и потребовался более чем 20-летний период накопления опыта работы с компьютерной информацией, пока в 70-х годах не были предприняты первые попытки практической реализации систем с ассоциативным связыванием текстов, выразившиеся в технике так называемого гипертекста.

Гипертекст

Рис. 11 Принцип гипертекста

Гипертекст в узком смысле представляет собой обычный текст, содержащий ссылки на другие связанные по смыслу фрагменты того же текста (документа) или на другие тексты (на внешние документы). При этом ссылки для пользователя-читателя в тексте имеют вид выделенных слов или словосочетаний, обладающих какой-либо смысловой связью с текстом того фрагмента или другого текста, куда «направляет» ссылка (так называемая гиперссылка).

Программное средство, отображающее гипертекст, например текстовый редактор или броузер сети Интернет, обеспечивает отображение гипертекста и навигацию пользователя-читателя по гиперссылкам. «Щелкнув» мышью по выделенному слову (т. е. по гиперссылке), пользователь-читатель открывает связанный по ссылке текст (другой фрагмент этого же текста или другой текст).

Привычным «бумажным» аналогом гипертекста являются оглавления и предметные указатели книг, содержащие ссылки на главы, разделы или фрагменты книги с соответствующей информацией. При этом ссылка выглядит как номер страницы, с которой начинается соответствующая глава или раздел, где находится соответствующий фрагмент текста. Отобрав в оглавлении или предметном указателе нужное название или термин и считав номер соответствующей страницы, читатель открывает книгу в искомом месте, т. е. переходит, или, выражаясь по-другому, осуществляет «навигацию» в нужное место книги.

В 70-е и 80-е годы, в особенности в период «персонализации» вычислительной техники, были предприняты многочисленные попытки создания специальных гипертекстовых оболочек, на основе которых либо совершенствовался примитивный текстово-командный интерфейс ранних операционных систем (знаменитая оболочка «Norton Commander» для ОС MS DOS), либо для прикладных программных средств создавались гипертекстовые справочные (help-овые) системы и руководства.

В конце 80-х -- начале 90-х годов были предприняты первые попытки стандартизации гипертекста. Таким стандартом являлся стандарт American Cybernetics Hypertext System (ACI Hypertext), реализованный в среде встроенной системы макрокоманд широко известного в «узких» программистских кругах текстового редактора MultiEdit.

Впоследствии гипертекст стал широко использоваться в справочных системах программ-приложений операционной системы Windows и фирмой MicroSoft был разработан специальный пакет WinHelp для создания гипертекстовых справочных «систем помощи». В настоящее время техника гипертекста является фактическим стандартом создания разнообразных компьютерных справочных и учебных систем, руководств пользователя и энциклопедий.

Период взрывной интенсификации применения технологий гипертекста связан с бурным развитием и распространением в конце 80-х -- начале 90-х годов глобальных информационных систем, и, в частности, сети Интернет. Идеи гипертекста как принципа ассоциативного связывания в распределенную информационную среду документов на территориально удаленных компьютерах были использованы группой специалистов под руководством Теодора Нельсона, который в 1988 г. представил проект гипертекстовой системы Хаnаdu, финансировавшийся впоследствии основателем известной компании Autodesk Джоном Уокером, который в то время пророчески предвещал всеобъемлющее развитие и распространение гипертекстовых технологий. В 1989 г. в Лаборатории физики элементарных частиц европейского центра ядерных исследований (ЦЕРН) под руководством Тима Бернерса-Ли стартовал проект создания гипертекстовой системы обмена научными данными в сети Интернет, получивший впоследствии название «Всемирной паутины» -- World-Wide Web (WWW). В 90-х годах паутина WWW стала одним из наиболее бурно развивающихся сегментов сети Интернет, создав немыслимую ранее глобальную гипертекстовую информационную инфраструктуру.

Структура, принципы построения и использования гипертекстовых ИПС

В структуре гипертекстовой ИПС можно выделить несколько функциональных подсистем (см. рис. 12). Основными из них являются:

* подсистема отображения документов и гиперссылок;

* подсистема навигации по связям (гиперссылкам);

* подсистема формирования связей (гиперссылок);

* и собственно сама гипертекстовая база (хранилище) документов.

Рис. 12 Структура гипертекстовой ИПС

Подсистема отображения документов и гиперссылок (гипертекста) базируется на принципах отображения документов в текстовых редакторах (страницы, поля, абзацы, шрифт, скроллинг и т. д.) с дополнительными приемами внешнего отображения в тексте гиперссылок. Как уже отмечалось, стандартным способом отображения гиперссылок является выделение в тексте специальным фоном, цветом или шрифтом ключевых слов, имеющих определенную смысловую связь с тем фрагментом или документом, на который указывает ссылка. В развитых гипертекстовых системах, как, например, в системе WWW, в гипертексте могут отображаться также графика (рисунки, диаграммы), звуковые и даже видеоанимационные элементы, что в совокупности создает мультимедииную технологию работы с информацией. В этом случае в качестве гиперссылок могут также выступать и специальные изображения, значки, иконки, что дает возможность использования для отображения связей различных графических ассоциаций. В остальном подсистема отображения гипертекста напоминает обычный текстовый редактор, допуская стандартные операции просмотра (скроллинг, масштаб) и обработки текста (копирование, контекстный поиск и т. д.).

Подсистема навигации по связям реализует специальный интерфейс перехода по гиперссылкам. Если гиперссылка указывает на другой фрагмент того же документа, то подсистема навигации обеспечивает скроллинг (прокрутку) отображения текста к соответствующему фрагменту. Если гиперссылка указывает на внешний документ, то стандартным приемом для систем, реализованных в оконно-графических операционных средах (MS Windows), является открытие в новом окне соответствующего документа. Приемом инициализации перехода по гиперссылке обычно является «щелчок мышью» по ключевому слову или графическому значку, обозначающему соответствующую гиперссылку, либо перевод текстового курсора на соответствующую гиперссылку и нажатие клавиши «Enter».

Для осуществления навигации в гипертекстовом документе для каждой гиперссылки хранится адрес расположения соответствующего документа или фрагмента. В современных гипертекстовых средах для удобства ориентирования пользователя применяется специальный прием «подсказки» адреса гиперссылки при осуществлении подготовительных операций перед ее активизацией (т. е. при переводе курсора мыши или текстового курсора на гиперссылку непосредственно перед щелчком или нажатием клавиши «Enter»).

Навигация по гиперссылкам формирует для пользователя определенный сюжетно-тематический поток по цепочке ассоциаций. Нетривиальной проблемой, как и при навигации в банках фактографических систем с сетевой моделью организации данных, является способ отображения и визуализации цепочек «пройденных» документов. Так как такие цепочки документов могут быть неопределенно длинными, то открытие и отображение каждого следующего по проходу документа в дополнительном окне приводят к быстрому заполнению, а потом и наслоению окон с документами на экране компьютера. При этом документ, на который указывает гиперссылка из другого документа, может помимо непосредственной ассоциации включать и совершенно иной содержательный контекст, что быстро «уводит» пользователя от основной темы и дезориентирует его. Поэтому в большинстве систем используется только одно окно для отображения документов, а при переходе по гиперссылке к связанному документу происходит «выталкивание» предыдущего документа в специальный неотображаемый стек для пройденных документов. Дополнительно обеспечивается свободная навигация по сформированной таким образом цепочке документов (по пройденному пути) по принципу «Вперед-Назад», что позволяет пользователю путем возвращений назад или перемещений вперед лучше анализировать сюжетно-тематическии поток ассоциаций.

Способ формирования и отображения цепочки пройденных документов по линейному принципу «Вперед-Назад» не всегда адекватно позволяет представить схему сюжетно-тематического потока документов из-за наличия возможных ветвлений в таких цепочках.

Если из какого-либо документа (узла цепочки) имеется несколько гиперссылок на различные документы, то сценарием «разговора» пользователя с гипертекстовой базой может быть «спуск» от такого документа по имеющимся ветвям на определенную глубину, с последующим возвратом (подъемом) и спуском по другим ветвям.

Линейно-списочный способ отображения цепочек пройденных документов в этом случае из-за многочисленных возвратов не дает общего представления и взгляда на ассоциативную окрестность связанных документов (см. рис. 13).

При наличии только иерархических связей между пройденными документами отработанным приемом отображения структуры ассоциативной цепочки пройденных документов может быть способ отображения файловой структуры информационных ресурсов компьютера, используемый в программах типа «Проводник» операционной системы MS Windows 95.

Рис. 13 Навигация по гипертекстовой базе документов и отображение цепочек пройденных документов

Однако гипертекстовые сети документов, как будет рассмотрено ниже, являются не иерархическими, а гетерогенными. В гетерогенных сетях могут существовать как одноуровневые и межуровневые связи, так и обратные связи (отсылки), что вырождает само понятие иерархии в таких сетях. Наглядно такие структуры можно представить в виде неограниченной совокупности объемно переплетенной паутины узлов, хотя в отдельных сегментах таких структур могут в определенной степени сохраняться иерархические отношения. Отсюда, видимо, и родилось соответствующее название для распределенной гипертекстовой среды сети Интернет. «Блуждание» по подобным «лабиринтам» может образовывать столь запутанные «следы», что их визуально-наглядное отображение весьма затруднительно.

Вместе с тем визуализация информационного поиска документов является чрезвычайно актуальной задачей, так как может предоставлять пользователям дополнительные аспекты анализа информации при аналитических исследованиях. Определенные методологические подходы к решению таких задач могут быть найдены на основе анализа семантической природы гетерогенных сетей гипертекстовых документов.

Модель организации данных в гипертекстовых ИПС

К сожалению, несмотря на интенсивное развитие и всеобщее распространение в последнее десятилетие гипертекстовых технологий, к настоящему времени еще не проработана полностью формализованная модель организации гипертекстовых данных, которая бы обеспечивала формализованные процедуры синтеза (разработки, проектирования) и анализа (использования) гипертекстовых ИПС. Причина этого заключается, как и в целом для всех типов документальных систем, в пока непреодолимых сложностях в формализованном описании смысла текстов на естественном языке.

Тем не менее в научной литературе имеется ряд работ, посвященных формальным моделям гипертекстовых структур.* Среди них можно выделить теорию паттернов, разработанную американским математиком У. Гренандером и развитую впоследствии для гипертекста Л. В. Шуткиным, тензорную модель А.В. Нестерова и подход логико-смыслового моделирования, представленный в работах М. М. Субботина, а также ряд других подходов.

Первые два подхода основываются на формализации отдельных текстов специальными математическими конструкциями. В теории паттернов текст рассматривается как сложноор-ганизованная совокупность отдельных тем, каждая из которых может выражаться фрагментом текста с минимальным размером в виде одной строки. Для описания гипертекста в теории паттернов вводятся также специальные объекты -- кнопки (аналог гиперссылки) и связи с идентификаторами и дополнительными параметрами (тип, направленность и т. д.). В результате размеченный гипертекст можно описывать теми или иными паттерновыми конфигурациями. Вместе с тем теория паттернов не содержит средств синтеза обычного текста в гипертекст.

Тензорный подход основывается на идеологии ранее рассматривающейся фасетной классификации, которая позволяет формализовано описать смысловую структуру текста в виде тензора,* а гипертекстовую структуру в виде ансамбля тензоров. Таким образом, сильной стороной тензорного подхода является возможность создания формализованных процедур анализа исходных текстов для создания гипертекстовых структур.

Наиболее развитым в практическом плане является подход, основанный на логико-смысловом моделировании человеческого мышления, позволяющий на основе семантической близости текстовых фрагментов связывать их в цельный осмысленный текст -- семантическую сеть. Математическим аппаратом для описания структуры гипертекста выступает теория графов. Критерием для связывания текстов или их фрагментов в семантическую сеть является возможность установления между ними логических связок типа «есть», «является условием», «является причиной» и т. д. Построение на основе анализа текста таких связываний образует формализованные «высказывания», комбинируя которые можно получать определенные выводы или, как говорят, новые знания, или подтверждать истинность (доказывать) составных высказываний. В наиболее развитом виде такой подход реализуется в так называемых базах знаний, составляющих основу особой ветви информационных систем, называемых экспертными системами.

Таким образом, при логико-смысловом моделировании структура гипертекста представляет (точнее, должна представлять) систему семантических связей между когнитивными элементами (понятиями, высказываниями) определенной предметной области. В результате сильной стороной такого подхода является возможность автоматизации создания (разметки) гипертекстовых структур на основе распознавания и соотнесения документов или их фрагментов к тем или иным узлам семантической сети.

Если вернуться к структуре гипертекстовой ИПС (рис. 12), то ее центральным элементом является гипертекстовая база документов. По принципу формирования и управления гипертекстовыми базами их можно разделить на открытые (физически распределенные, или децентрализованные) и замкнутые (локально сосредоточенные).

В замкнутых базах гипертекстовые документы находятся в едином локально-сосредоточенном и централизованно управляемом хранилище (файле или группе файлов со специальным (форматом). Такое хранилище образует замкнутую семантическую сеть документов, гипертекстовые связи которых не выходят за пределы хранилища. Соответственно внесение в базу новых документов или удаление документов производится непосредственно в месте расположения такой локальной базы.

В открытых базах гипертекстовые документы не образуют единое локально размещенное хранилище, а располагаются автономно в любых элементах (узлах) информационной среды. При этом информационная среда может ограничиваться файловой структурой одного компьютера (диски, каталоги, подкаталоги), локальной или глобальной информационной сетью. В открытых базах семантическая гипертекстовая сеть документов не управляется из одного центра (узла), а совместно строится и поддерживается всеми пользователями, работающими в узлах информационной среды (сети). Несмотря на полную децентрализацию создания и функционирования, при определенных соглашениях (протоколах) об установлении и поддержании связей-гиперссылок, такие открытые семантические структуры тем не менее представляют единый развивающийся по определенным закономерностям организм.

В настоящее время техника гиперссылок, применяемая в гипертекстовых системах, предполагает лишь однонаправленные связи, позволяющие осуществлять навигацию только в прямом направлении. «Вернуться» обратно в исходный документ можно только по запомненной цепочке пройденных документов, т. е. по схеме «Вперед-Назад». При этом прямой переход по гиперссылке осуществляется из определенного места, точнее контекста исходного документа, а возврат осуществляется обратно в документ в целом, т. е. фактически в его начало, что может разрывать контекст (сюжетно-тематический поток) анализа информации. В ранних гипертекстовых системах (проект Xanadu) предполагался двунаправленный характер гиперссылок, но практическая реализация такого подхода существенно усложняет протоколы навигации, так как требует более детального координатного адресования объектов и субъектов гиперссылок, идентифицирования пользователей и поддержания устойчивости документов (в смысле координатной структуры).

В результате модель организации дачных в гипертекстовых базах описывается ориентированными невзвешенными графами с петлями и циклами. По определению граф G представляет структуру, состоящую из множества вершин и множества ребер , их соединяющих. По ребрам осуществляется движение, переход от одной вершины к другой. Ориентированные ребра, по которым переход возможен только в одном направлении, называются дугами.

Применительно к структуре гипертекстовой базы вершины графа соответствуют документам, а дуги гиперссылкам. Невзвешенность означает равнозначность любых дуг по переходу, или, иначе говоря, одинаковую «стоимость» перехода по любой гиперссылке.

Петлей называется дуга, начальная и конечная вершины которой совпадают, т. е. применительно к гипертексту внутренняя гипер-ссылка на другой фрагмент того же документа.

Путем (или ориентированным маршрутом) называется последовательность дуг, в которой конечная вершина любой дуги, кроме последней, является начальной вершиной следующей дуги. В невзвешенном графе, когда стоимость (вес) всех дуг одинакова, длиной пути является число дуг, входящих в путь. Путь называется замкнутым, если в нем начальная вершина первой дуги совпадает с конечной вершиной последней дуги . Если в замкнутом пути любая вершина графа используется не более одного раза (за исключением начальной и конечной, которые совпадают), то такой замкнутый путь называется циклом. Пример графа приведен на рис. 14.

Рис. 14. Пример невзвешенного графа с петлями и циклами

Для алгебраического задания графов, позволяющего эффективно алгоритмизировать машинное представление и оперирование графами, используются матрицы смежности и инциденций. Элементы матрицы смежности графа G определяются следующим образом:

если в G существует дуга ;

если в G не существует дуга .

Матрица смежности полностью определяет структуру графа. В частности, для графа, приведенного на рис. 14, матрица смежности выглядит следующим образом:

Матрица инциденций графа G с n вершинами и m дугами представляет собой матрицу размерности nxm и ее элементы определяются следующим образом:

если вершина является начальной вершиной дуги ;

если вершина является конечной вершиной дуги ;

если вершина не является концевой вершиной дуги или если дуга является петлей.

Графовая модель организации гипертекстовых данных является мощным инструментом, так как предоставляет ряд отработанных в теории графов алгоритмов для решения задач анализа и синтеза структур гипертекстовых баз данных, навигации и документального поиска в такого рода структурах.

Вместе с тем, как показала практика развития гипертекстовых структур, модель ориентированных невзвешенных графов с петлями и циклами является лишь приближенным средством отражения реального процесса восприятия и анализа человеком документальной текстовой информации, не учитывая ряда гносеологических и семантических аспектов.

Анализ работы человека с документальными источниками информации показывает, что ассоциативный ряд восприятия фрагментов и документов не однороден. Ассоциативные отношения выражаются в нескольких формах, в качестве основных из которых можно отметить:

(a) сноски (переходы к ним используются с целью пояснения какого-либо термина, факта и т. д. с обязательным и скорым возвратом, т. е. без прерывания контекста восприятия основного повествования, мысли, идеи);

(b) примеры (переходы по ним используются для иллюстрации частных проявлений объектов, процессов, явлений, и также с обязательным и скорым возвратом без прерывания основного контекста);

(c) отступления, параллельные темы (переходы к ним используются для обогащения основной темы с необязательным или нескорым возвратом, что может приводить к прерыванию контекста изложения основной темы);

(d) подобие по форме и содержанию (переходы используются для более глубокого уяснения основной темы через анализ других подобных по форме, содержанию, структуре или другим критериям тем, фрагментов, объектов, в том числе для рассмотрения других точек зрения и подходов, с необязательным возвратом, что приводит к длительному прерыванию исходного контекста с возможным формированием нового контекста);

(e) особенности (переходы используются для рассмотрения отличий конкретной темы или объекта изложения от подобных по форме или содержанию объектов с обязательным возвратом без прерывания основного контекста);

(f) подобие по сущности (переходы используются для построения ассоциативного ряда подобных или однородных объектов, являющихся частными проявлениями одного общего явления процесса, объекта, возврат не обязателен, что приводит к прерыванию исходного контекста, в том числе и для формирования более общего или более широкого контекста).

Перечисленные формы ассоциативных отношений определяют необходимость дифференциации типов связей-гиперссылок в гипертекстовых базах документов. По признаку прерывания контекста материала можно выделить два типа гиперссылок:

* с прерыванием контекста, назовем их навигационными гиперссылками;

* без прерывания контекста, т. е. с обязательным возвратом, назовем их листовыми гиперссылками.

Навигационные гиперссылки формируют ассоциативные связи-отношения (с), (d) и (f) типа. Переходы по навигационным связям не имеют каких-либо пространственных и иных ограничений и призваны формировать многоплановый сюжетно-тематический поток.

Листовые гиперссылки формируют ассоциативные связи-отношения (а), (b) и (е) типа. Переходы по листовым гиперссылкам ограничиваются единичной длиной к вершинам (узлам), из которых нет другого выхода. Направленность дуг-связей по листовым гиперссылкам является обратной по отношению к навигационным гиперссылкам. Это означает, что прямой переход по ним осуществляется не в конкретное место отсылаемого документа, а в целом на документ (в начало) листовой вершины, и наоборот, возврат в документ исходной вершины происходит адресно, т. е. в место расположения листовой гиперссылки.

Кроме ассоциативных отношений при восприятии документальных источников важную роль имеют и классификационные отношения фрагментов и документов в следующих основных формах:

i) «родо-видовая» иерархия (переходы используются для углубления, детализации рассмотрения или выбора темы, (фрагмента, сюжета);

ii) иерархически-логические соотношения в форме «вводный материал -- основной материал -- заключительный материал» (переходы используются для построения или изменения логико-тематического повествования);

iii) ролевые отношения, например такие, как «Объект-субъект-средство-место-время-участники действия» и др. (переходы используются для формирования или расчленения целостного представления сложных разноплановых явлений, процессов, событий).

Реализация дифференцированного подхода к образованию и использованию гиперссылок в открытых децентрализованно развивающихся системах является непростой проблемой, так как требует переработки и усложнения протоколов передачи и использования гипертекста, т. е. массового принятия в сети новых и более сложных правил всеми пользователями и разработчиками информационных узлов распределенной гипертекстовой информационной инфраструктуры.

Поэтому подходы, связанные с дифференциацией характера гиперссылок, нашли свое воплощение в первую очередь в закрытых (локальных) гипертекстовых ИПС. В качестве примера развитых в этом смысле гипертекстовых систем можно привести информационно-справочные системы помощи в среде ОС MS Windows.

Модель организации данных в гипертекстовых справочных системах Microsoft Windows основана на сочетании дифференциации ассоциативных гиперссылок и иерархического принципа организации фрагментов и документов. Схематично модель организации данных можно отобразить схемой, представленной на рис. 15.

Рис. 15. Модель организации данных в гипертекстовых справочных системах Microsoft Windows

Как видно из представленной схемы, данная модель сочетает апробированные и интуитивно понятные большинству пользователей по аналогии работы с книгой иерархическую навигационную структуру (гипертекстовые оглавление и предметный указатель) с дифференцированными ассоциативными гиперссылками, выражающими рассмотренные выше различные типы ассоциаций при изучении и восприятии текстовой информации.

Вместе с тем использование справочных гипертекстовых систем все же не может полноценно заменить традиционные книги и учебники, так как большинство таких систем не обеспечивает привычный пользователю по обычным книгам последовательный повествовательный поток, разрывая его по пространственной или предметной иерархии, и, кроме того, требуют от пользователя новых навыков работы с текстовой информацией и более точного осознания в любой момент своих информационных потребностей.

Как и в моделях организации фактографических данных, в модели организации гипертекстовых данных важное значение имеет целостная составляющая. Применительно к гипертекстовым данным целостность и согласованность данных означает, прежде всего, целостность ссылок и выражается следующим принципом -- «для каждой гиперссылки должен существовать адресат». Иначе говоря, целостность гипертекстовых данных выражается в отсутствии оборванных, ведущих в «никуда» связей.

Контроль целостности ссылок возможен на основе создания и ведения единого централизованного реестра гиперссылок, как это и осуществляется в замкнутых гипертекстовых базах. Специальный компонент программного обеспечения гипертекстовой СУБД при удалениях документов (страниц) по реестру гиперссылок находит имеющиеся в других документах ссылки на удаляемый документ и аннулирует их.

В открытых распределенных гипертекстовых системах реализация принципа целостности ссылок встречает существенные трудности, так как децентрализованный принцип функционирования таких систем затрудняет создание и ведение единого реестра гиперссылок. В случае распределенной гипертекстовой среды за информацию на любом узле отвечает отдельный независимый пользователь, вольный по своему усмотрению добавлять или удалять гипертекстовые страницы (документы). Ввиду отсутствия централизованного реестра и однонаправленного* характера гиперссылок, при удалении какой-либо гипертекстовой страницы пользователь не может знать, имеются ли в других документах гиперссылки на удаляемую страницу. В таких ситуациях гиперссылки из других страниц, отсылающие на удаляемые страницы, оказываются оборванными.

Еще более сложной проблемой является обеспечение согласованности данных. Применительно к гипертекстовым системам согласованность данных заключается в поддержании адекватности семантики гиперссылок. Говоря иначе, должна обеспечиваться устойчивость смысловых ассоциаций по гиперссылкам. Однако если изменить содержание того документа, на который отсылает гиперссылка из другого документа, то смысловая ассоциация, закладываемая в гиперссылку, может нарушиться, и в отсылаемом документе речь может пойти на совершенно другую тему.

Тривиальное решение проблемы согласованности гипертекстовых данных заключается в запрете изменения содержания документов, после внесения их в гипертекстовую базу. Такой подход применяется в некоторых системах на основе замкнутых гипертекстовых баз документов.

В открытых системах с децентрализованным характером функционирования такой подход неприемлем. Вместе с тем одним из возможных направлений решения этой проблемы является практикуемая в среде WWW идеология «публикаций». Среда WWW в этом смысле трактуется как гигантское электронное апериодическое издание, на страницах которого каждый желающий может «опубликовать» свои документы. Проблема согласованности данных по гиперссылкам может решаться в такой идеологии через введение в гиперссылки темпоральных параметров существования и соответствующих временных ограничений на содержательную изменчивость гипертекстовых публикаций. Иначе говоря, могут быть определены «времена жизни» гиперссылок, в течение которых гипертекстовые публикации не могут быть изменены. Однако, как и в случае введения двунаправленного характера гиперссылок, такой подход потребует перестройки протоколов и других соглашений в гигантской распределенной информационной инфраструктуре.


Подобные документы

  • Виды документальных информационных систем. Системы на основе индексирования и семантически-навигационные системы документационного обеспечения управленческой деятельности. Элементы информационно-поискового языка. Координатное индексирование текста.

    презентация [56,5 K], добавлен 14.10.2013

  • Виды обрабатываемой социально-правовой информации. Формализация процесса принятия решения для моделирования его в компьютерной системе. Полнотекстовые и фактографические автоматизированные информационные системы. Автоматизация экспертного исследования.

    реферат [23,7 K], добавлен 17.09.2009

  • Понятие, виды и характеристика информационных ресурсов, инструменты поиска. Правила обращения с on-line ресурсами и вычислительной техникой. Автоматизация системы расчетов хозяйственной деятельности организации с помощью пакета программы MS Office Excel.

    курсовая работа [1,7 M], добавлен 18.07.2014

  • Понятие информационной системы как системы сбора, хранения, накопления, поиска и передачи информации, применяемая в процессе управления или принятия решений. Классификация и структура информационных систем. Разнообразие задач, решаемых с помощью ИС.

    контрольная работа [160,6 K], добавлен 18.01.2010

  • Особенности поиска информации в Интернет: стратегия и методика. Поисковые машины, каталоги и порталы информационных ресурсов. Подбор и введение ключевых слов. Использование режима "расширенный поиск", который имеет каждая из поисковых систем в Интернете.

    реферат [27,3 K], добавлен 06.08.2014

  • Компоненты документальной информационно-поисковой системы. Результаты индексирования документов и запросов. Иерархическая, фасетная и эмпирическая классификационные схемы. Дескрипторные информационно-поисковые языки. Примеры дескрипторной статьи.

    презентация [59,2 K], добавлен 14.10.2013

  • Основные протоколы, используемые в Интернет. Инструменты поиска в Интернете. Популярные поисковые системы. Как работают механизмы поиска. Средства поиска и структурирования. Автоматизированная навигация по Сети. Критерии качества работы поисковой машины.

    реферат [19,7 K], добавлен 14.02.2012

  • Критерии эффективности информационно-поисковых систем: требования потребителя, полнота поиска, затраты труда, факторы, влияющие на характеристики. Ошибки при поиске, обусловленные несовершенством языка, процесса индексирования, поиска, другими причинами.

    курсовая работа [77,2 K], добавлен 06.02.2014

  • Автоматизированное рабочие место экономиста-пользователя, его назначение и характеристика. Организация информационных систем. Особенности документальных форм ввода и вывода информации при компьютерной обработке. Роль системы управления базы данных.

    шпаргалка [79,5 K], добавлен 29.11.2013

  • Удовлетворение информационной потребности как цель поиска информации. Виды информационных ресурсов. Понятие документа в информационном поиске. Схема информационного поиска, этапы его представления. Характеристика качества поиска, его базовые положения.

    презентация [1,2 M], добавлен 06.01.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.