Особенность понятия информационной системы

Характеристика основных процессов преобразования информации. Жизненный цикл информационных теорий. Технология обработки данных в документальных информационно-поисковых системах. Главные методы автоматического рубрицирования, основанные на знаниях.

Рубрика Программирование, компьютеры и кибернетика
Вид курс лекций
Язык русский
Дата добавления 12.03.2015
Размер файла 1,5 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Лекция 7. Виды информационного обслуживания

В процессе развития автоматизированных информационно-поисковых систем сформировались три вида информационного обслуживания документальное, фактографическое и концептографическое. Каждому из этих видов соответствует своя информационная система.

Документальная система, в течение уже многих веков обеспечивала информационное обслуживание общества в целом и различных его институтов, в том числе науки и техники.

Сущность документального обслуживания заключается в том, что информационные потребности членов общества удовлетворяются путем предоставления им первичных документов, необходимые сведения из которых потребители извлекают сами. Обычно грамотное документальное обслуживание осуществляется в два этапа: сначала потребителю предоставляется некоторая совокупность релевантных (релевантность - смысловое соответствие содержания документа информационному запросу {смысловое соответствие между двумя текстами}) его запросу вторичных документов (этот этап называется библиографическим), а затем, после отбора потребителем из этой совокупности определенного числа уже пертинентных (пертинентность - соответствие содержания документа информационной потребности конкретного специалиста) документов, ему предоставляют сами документы (этот этап называется библиотечным обслуживанием). Таким образом, потребность в информации при документальном обслуживании удовлетворяется опосредовано, через первичный документ.

В отличие от документального обслуживания фактографическое предполагает удовлетворение информационных потребностей непосредственно, т.е. путем представления потребителям самих сведений (отдельных данных, фактов, концепций). Эти сведения, также релевантные запросам потребителей, предварительно извлекаются информационными работниками из первичных документов и после определенной их обработки (оформления) представляются потребителям. Следует уточнить само понятие "фактографическая информация". Под ним следует понимать сведения не только фактического характера, но и теоретического, предположительного, оценочного характера, т.е. включать и факты, и концепции, все то, что может быть объектом извлечения из текста, описания на определенном информационном языке, хранения и поиска в той или иной информационной системе.

Если в случае документального и фактографического обслуживания потребителю информации предоставляются документы или сведения, извлеченные из информационного потока, так сказать, в "натуральном" виде, то при концептографическом обслуживании все это

(документы и сведения) подвергаются интерпретации, оценке, обобщению со стороны информационного работника. В результате такой интерпретации формулируется так называемая ситуативная информация, содержащая в себе оценку рассматриваемых сведений, тенденций и перспективы развития отдельных научных и технических направлений, рекомендаций и пр. По этой причине под концептографическим обслуживанием можно также понимать формулирование и доведения до потребителей ситуативной информации, в явном виде не содержащейся в анализируемых источниках, а полученной в результате информационно-логического и концептографического анализа некоторой совокупности сообщений. Другими словами, в случае концептографического обслуживания потребителю представляются не только сведения о документе или сами сведения из документа, но и некоторая дополнительная информация, привнесенная информационным работником в процессе их интерпретации.

Все виды информационного обслуживания функционируют на основе своих специфичных рядов вторичных документов. По сути дела каждая из разновидностей обслуживания сводиться к созданию своего ряда вторичных документов и доведению их до потребителя различными средствами и в различных режимах информационного обслуживания.

Существенное повышение эффективности информационных систем в настоящих условиях, когда открыты возможности внедрения в информационный процесс высокопроизводительных технических средств, может быть достигнута за счет их автоматизации. Появление автоматизированных информационных систем - результат объективного процесса, обусловленного научно-технической революцией. Эти системы, интегрируя информацию, обеспечивают комплексное решение задач управления.

Документальные информационные системы обслуживают принципиально иной класс задач, которые не предполагают однозначного ответа на поставленный вопрос. Базу данных таких систем образует совокупность неструктурированных текстовых документов (статьи, книги, рефераты, тексты законов и т. п.) и графических объектов, снабженная тем или иным формализованным аппаратом поиска.

Цель системы, как правило, -- выдать в ответ на запрос пользователя список документов, в какой-то мере удовлетворяющих сформулированным в запросе условиям. Например, выдать список всех статей, в которых встречается слово "энтропия". Принципиальной особенностью документальной системы является ее способность, с одной стороны, выдавать ненужные пользователю документы (например, где "энтропия" употреблена в ином смысле, чем предполагалось), а с другой -- не выдавать нужные (например, если автор употребил какой-то синоним или ошибся в написании).

В фактографических ИС регистрируются факты - конкретные значения данных (атрибутов) об объектах реального мира. Основная идея таких систем заключается в том, что все сведения об объектах (фамилии людей и названия предметов, числа, даты) сообщаются компьютеру в каком-то заранее обусловленном формате. Информация, с которой работает фактографическая ИС, имеет четкую структуру, позволяющую машине отличать одно данное от другого, например фамилию от должности человека, дату рождения от роста и т.п.

Фактографические системы, в отличие от документальных, способны однозначно решать поставленные задачи и давать однозначные ответы на запросы. Эти ИС иногда условно делят на информационно-справочные системы, информационно-поисковые системы и системы оперативной обработки данных.

По масштабу и принципам доступа к данным мы различаем:

* настольные (автономные) или "персональные" ИС;

* простые сетевые ИС, построенные по технологии "файл-сервер";

* мощные информационные системы в архитектуре "клиент-сервер".

Фактографические ИС можно классифицировать по признаку: универсальные и специализированные.

Универсальные системы могут работать с любой предметной областью, с любой "начинкой", если данные организованы в соответствии с рассмотренными нами принципами и формализованы согласно дополнительным требованиям конкретной ИС. Кроме того, она может сортировать тексты, составлять словари, выполнять ряд других операций по формальной обработке данных. Для такой системы, скажем, нет понятия "Болезнь" ("Диагноз"), -- есть некий код экземпляра, который сопровождается набором произвольных символов определенной длины (названием) и который в равной степени может быть и кодом болезни, и кодом завода, и табельным номером человека. Область применения таких систем широка -- от личных ("персональных") баз данных всевозможного назначения до профессиональных систем (гуманитарные БД, медицина, небольшие офисы).

Специализированные ИС широко применяются в материальном производстве, банковском деле, криминалистике, научных исследованиях.

Лекция 8. Документальные информационные системы. Назначения и основные понятия. Информационно-поисковые языки

Классические модели и методы в теории БД изначально ориентировались на организацию хранения и обработки детально структурированных данных. Чаще всего эти данные представляли собой числовые значения, описывающие те или иные характеристики информационных объектов. Однако на практике оказалось, что чаще информация представлена не в виде структурированных массивов данных, а в виде простых текстовых документов. Вследствие этого документальные БД (иногда их еще называют полнотекстовыми) сразу выделялись в особый тип баз данных.

Исторически сложилось так, что за системами, ориентированными на работу с текстовыми документами, укоренился термин информационно-поисковые системы (ИПС). Хотя, если быть точнее, их следует называть документальными ИПС (ДИПС), поскольку традиционные СУБД также являются ИПС, только фактографическими (ФИПС). В отличие от традиционных БД, ориентированных на полное и точное представление данных достаточно простой смысловой структуры, документальные БД ориентированы на частичное, приближенное представление данных, имеющих значительно более сложную смысловую структуру, представленных на входе в форме текста.

Основной функцией любой ДИПС является информационное обеспечение потребителей на основе выдачи ответов на их запросы. Осуществление выдачи системой требуемых данных реализуется с помощь главной операции ДИПС-проведения информационного поиска. Информационный поиск является процедурой отыскания документов, содержащих ответ на заданные потребителем вопросы.

Заметим, что в отличие от ФИПС, которые в ответ на запрос потребителя осуществляют выдачу конкретных сведений (фактов), ДИПС в результате проведения информационного поиска предоставляют потребителю совокупность документов, смысловое содержание которых соответствует его запросу.

Информационный поиск в системе проводится на основе поступившего от потребителя запроса на отыскание необходимой ему информации. Потребность человека в определенной информации в процессе его практической деятельности носит название информационной потребности. Под действием получаемой информации информационная потребность людей постоянно изменяется и трансформируется. Вследствие этого ее невозможно однозначно выразить и описать. Однако информационная потребность может быть представлена в виде некоторой последовательности ее частных значений в фиксированные моменты времени. Такое частное значение информационной потребности потребителя в определенные моменты времени, выраженное на естественном языке (ЕЯ), и представляет собой информационный запрос, с которым пользователь обращается к системе.

Однако запрос может быть неправильно сформулирован потребителем и не отражать его истинной информационной потребности в момент обращения к системе. Таким образом, при проведении информационного поиска в системе фактически рассматривается не информационная потребность пользователя, а только информационный запрос, в ответ на который и выдаются те или иные документы системы. Следовательно, реакцию системы необходимо рассматривать не только по отношению к информационной потребности, но по отношению к информационному запросу.

Для выражения данных отношений в теории ДИПС введены два фундаментальных понятия: пертинентность и релевантность. Под пертинентностъю понимается соответствие смыслового содержания документа информационной потребности потребителя. Документы, содержание которых удовлетворяет информационной потребности, называют пертинентными.

Релевантность представляет собой соответствие содержания документа информационному запросу в том виде, в каком он сформулирован, а документы, содержание которых отвечает запросу потребителя, носят название релевантных.

Автоматизация процесса информационного поиска потребовала формализации представления основного смыслового содержания информационного запроса и документов в виде соответственно поискового предписания (ПП) и поисковых образов документов (ПОД). Для записи ПП и ПОД применяются специальные языки, называемые информационно-поисковыми (или просто информационными).

В процессе проведения информационного поиска в ДИПС определяется степень соответствия содержания документов и запроса пользователя путем сопоставления ПОД с ПП. А на основе такого сопоставления принимается решение о выдаче документа (он признается релевантным) или его невыдаче (он считается нерелевантным).

Решение о выдаче или невыдаче документа в ответ на запрос принимается на основе некоторого набора правил, по которому данной ДИПС определяется степень смысловой близости между ПОД и ПП. Такой набор правил получил название критерия смыслового соответствия (КСС). Критерий может задаваться явно или неявно. На самом деле КСС базируется не на ранее введенном понятии релевантности, а на понятии формальной релевантности - соответствии содержания ПОД и ПП.

Фактическая релевантность, понимаемая как смысловое соответствие содержания документа информационному запросу, может быть установлена только человеком в процессе осмысления содержания документа и запроса.

Общая функциональная структура документальных информационно-поисковых систем

В состав типичной ДИПС входят, как правило, четыре основные подсистемы (рис. 5):

1. Подсистема ввода и регистрации.

2. Подсистема обработки.

3. Подсистема хранения.

4. Подсистема поиска.

Рис. 5. Общая функциональная структура ДИПС

Текстовые документы, поступающие на вход системы, могут быть представлены как в бумажном, так и в электронном виде (в одном из многочисленных форматов). Поэтому подсистема ввода и регистрации решает следующие основные задачи:

1. создание электронных копий бумажных документов (например, сканирование с последующим распознаванием текста или ввод с клавиатуры);

2. обеспечение подключения к каналам доставки электронных документов;

3. распознавание, а при необходимости и преобразование формата электронных документов;

4. присвоение электронным документам уникальных идентификаторов (регистрация), а также ведение таблицы синхронизации имен (при необходимости сохранения прежних имен).

Все поступающие документы без внесения в них каких-либо изменений направляются в подсистему хранения для сохранения в базе документов. База документов может представлять собой простую совокупность файлов, распределенную по каталогам жесткого диска. Однако такой тип представления базы документов характеризуется двумя недостатками:

1. неэффективным использованием дискового пространства;

2. низкой скоростью доступа при большом количестве файлов.

Поэтому для хранения документов применяют средства сжатия и быстрого поиска информации. В этом случае подсистема хранения представляет собой совокупность стандартных или специализированных средств архивации, СУБД и т.п., обеспечивающих возможность доступа к данным по предъявляемому идентификатору.

Далее документы поступают на вход подсистемы обработки, задачей которой является формирование для каждого документа ПОД, в который заносится информация, необходимая для последующего поиска документа. ПОД сохраняются в индексе. Логически индекс представляет собой таблицу, строки которой соответствуют документам, а столбцы - информационным признакам, на основе которых строится ПОД.

В ячейках таблицы могут храниться либо 1, либо О-в зависимости от наличия или отсутствия данного признака в данном документе. Очевидно, что такая таблица будет сильно разреженной, и хранить все значения не имеет смысла. Поэтому на практике используют свертку таблицы по строкам или столбцам. Такую форму хранения называют прямой или инверсной соответственно. Поскольку при свертке таблицы структура индекса усложняется, для его поддержания могут использоваться средства СУБД.

При поступлении на вход системы запроса пользователя он преобразуется в ПП и передается в подсистему поиска, задачей которой является отыскание в индексе ПОД, удовлетворяющих ПП с точки зрения КСС. Идентификаторы релевантных документов подаются с выхода подсистемы поиска на вход подсистемы хранения, которая осуществляет выдачу пользователю самих релевантных документов.

Информационно-поисковые языки

Недостатки естественного языка

Как известно, естественный язык (ЕЯ) является универсальной знаковой системой, служащей для обмена информацией между людьми. Поскольку документы, поступающие на вход ДИПС, записаны на ЕЯ, справедливо было бы задаться вопросом, а нельзя ли использовать ЕЯ в качестве основного средства представления информации во время всего цикла функционирования ДИПС? Ответ будет положительным, если речь идет о тех ИПС, в которых соответствие между запросом и документом устанавливает человек. Однако в современных ДИПС эта операция выполняется компьютером, что практически исключает применение ЕЯ в качестве основного средства представления информации. Это объясняется существенными недостатками ЕЯ с точки зрения машинной технологии обработки информации, основные из которых рассмотрены ниже.

Многообразие средств передачи смысла. Несмотря на то, что основным средством передачи смысла сообщения является лексика естественного языка, в сообщениях на ЕЯ функцию передачи смысла выполняет и ряд других элементов:

1. контекст;

2. парадигматические отношения между словами;

3. текстуальные отношения между словами;

4. ссылки на слова (словосочетания, фразы и т.д.), ранее упоминавшиеся в тексте сообщения.

Семантическая неоднозначность. Сообщения, записанные на естественном языке, могут быть семантически неоднозначными. Семантическая неоднозначность возникает в основном из-за синонимии и многозначности слов естественного языка.

Синонимия представляет собой тождественность или близость по значению слов, выражающих одно и то же понятие, которые отличаются одно от другого или оттенками значений, или стилистической окраской, или одновременно обоими названными признаками. Синонимами естественного языка являются как отдельные слова, так и словосочетания.

Многозначность характеризует возможность неоднозначного понимания смысла отдельных слов естественного языка. Многозначность слов представлена двумя разновидностями - полисемией и омонимией. Полисемия - это совпадение названий различных предметов, имеющих между собой какие- либо общие свойства или признаки. К типичным общим свойствам, служащим базой полисемии, следует отнести сходство предметов, их смежность (пространственную, временную и т.д.), а также одинаковое функциональное назначение. Примерами полисемии являются: "команда" (воинское подразделение) - "команда" (экипаж судна) - "команда" (спортивная). Омонимия - это совпадение названий различных предметов, не имеющих между собой каких-либо общих свойств. Например: "лук" (оружие) - "лук" (растение); "ключ" (родник) - "ключ" (дверной).

Омонимичные слова, совпадающие между собой как по написанию, так и по звучанию, следует отличать от омографов - слов, обозначающих различные предметы, одинаковые по написанию, но разные по звучанию, например: "замок" (дверной) - "замок" (дворец). Однако, поскольку ДИПС оперируют с сообщениями на естественном языке, представленными в письменной форме, вследствие чего фонетика языка не оказывает решающего влияния на смысл таких сообщений, омографы могут быть приравнены к омонимичным словам.

Эллипсность. Во многих сообщениях на ЕЯ встречаются эллипсы или пропуски подразумеваемых слов. Эллипсность сообщения зачастую играет отрицательную роль при непосредственной работе с ним человека. Очевидно, что она тем более отрицательно скажется в том случае, если сообщения на ЕЯ будут обрабатываться компьютером.

Информационно-поисковые языки. Их классификация

Невозможность использования ЕЯ в качестве основного средства представления информации в ДИПС приводит к необходимости применения искусственных языковых средств. Информационно-поисковым языком (ИПЯ) называется специализированный искусственный язык, предназначенный для описания основного смыслового содержания поступающих в систему сообщений, с целью обеспечения возможности последующего их поиска. ИПЯ создается на базе ЕЯ, однако отличается от него компактностью, наличием четких грамматических правил и отсутствием семантической неоднозначности.

ИПЯ принято разбивать на два основных типа: классификационные языки, дескрипторные языки.

Принципиальная разница между данными типами языков заключена в процедуре построения предложений (фраз) языка. В ряде языков в их лексический состав наряду со словами, выражающими простые понятия, заранее включены также словосочетания и фразы, выражающие сложные понятия. Для записи смыслового содержания сообщений в таких ИПЯ используются только отдельные элементы из этого набора, в том числе и готовые сложные понятия. Фактически построение сложных синтаксических конструкций заменяется выбором соответствующего сложного понятия (в виде словосочетания или фразы) из готового набора. Например:

Политика. Внутренняя. Федеральная

Политика. Внутренняя. Региональная

Политика. Внешняя...

Таким образом, с помощью таких языков производится классификация сообщений, т.е. отнесение их к классам, обозначенным лексическими единицами (ЛЕ) ИПЯ. Поэтому такие языки получили название классификационных.

Частным случаем классификационного ИПЯ является рубрикатор, лексическими единицами которого являются названия тематических рубрик. В целом под рубрикатором некоторой предметной области понимается ориентированный граф, состоящий из независимых деревьев. Листья деревьев будем называть рубриками - объектами, инкапсулирующие знания о конкретных фрагментах данной предметной области. Все нелистовые вершины являются классификационными родово-видовыми обобщениями листовых вершин и используются лишь при ведении информационного поиска.

Обычно рубрикатор формируется группой экспертов, на основании их знаний о предметной области с учетом информационных потребностей пользователей. На рис. 6 приведен пример рубрикатора некоторой предметной области.

Следует подчеркнуть одну особенность классификационных языков. Поскольку сложные понятия задаются заранее, до начала процедуры записи сообщений с помощью ИПЯ, образующие их слова также заранее связаны (скоординированы) определенными связями. Поэтому такие языки носят название предкоординируемых.

Другой тип языков составляют дескрипторные ИПЯ, в которых ЛЕ заранее не связаны никакими текстуальными отношениями. Сложные синтаксические конструкции - предложения или фразы - создаются в этих языках путем объединения (координации) ЛЕ во время процедуры представления смыслового содержания документов системы. Готовых предложений или фраз в таких языках нет,поэтому отсутствуют ограничения на составление сложных понятий. Фактически из небольшого числа ЛЕ данные языки позволяют строить предложения, выражающие практически любой смысл. Такие ИПЯ носят также название посткоординируемых, поскольку координация между словами предложения возникает во время его записи.

Различают дескрипторные ИПЯ с грамматикой и без грамматики. Первые характеризуются наличием ряда жестких правил формирования синтаксических конструкций. Например, при использовании дескрипторного ИПЯ с позиционной грамматикой, в котором при описании действий принято на первом месте записывать наименование действия, далее субъекта, а затем объекта этого действия, фраза: "Иванов владеет автомобилем" может выглядеть так: "владеть Иванов автомобиль". В дескрипторных ИПЯ без грамматики такие правила отсутствуют, и порядок следования ЛЕ в ПОД или ПП не играет роли. Т.е. приведенный выше пример может быть одинаково представлен последовательностями "владеть Иванов автомобиль", "Иванов владеть автомобиль" и т.п.

Рис. 6 Пример рубрикатора

Кроме того, различают дескрипторные ИПЯ с контролируемой и со свободной лексикой. Лексический состав первых строго ограничен и зафиксирован в словаре ИПЯ, в то время как на лексический состав вторых не налагается никаких ограничений, и он может постоянно пополняться за счет включения новых ЛЕ.

Лекция 9. Технология обработки данных в ДИПС. Автоматическое индексирование

Обработка входящей текстовой информации

Т.к. документы, поступающие на вход ДИПС, записаны на ЕЯ, в ней обязательно должна проводиться операция перевода текстов входных документов с ЕЯ на ИПЯ. Тип используемого ИПЯ оказывает сильное влияние на суть процессов обработки информации в конкретных ДИПС. В случае применения ИПЯ дескрипторного типа такая операция перевода называется индексированием, при использовании рубрикатора - рубрицированием.

На сегодняшний день среди дескрипторных ИПЯ наибольшее распространение в автоматизированных ДИПС получили языки без грамматики и без контроля по словарю. При их использовании говорят о полнотекстовом индексировании.

В операции перевода можно выделить два этапа:

1.Анализ смыслового содержания текста с целью выделения из него сведений об известных системе объектах, их свойствах, а также отношениях между ними.

2.Выражение этих сведений на ИПЯ, т.е. принятие решения о приписывании данному сообщению выражений на ИПЯ (о включении соответствующих выражений на ИПЯ в ПОД).

Этап анализа смыслового содержания текста связан с необходимостью использования лингвистических и экстралингвистических знаний. Лингвистические знания являются общими для одного языка и на сегодняшний день являются достаточно хорошо формализованными, в то время как экстралингвистические сильно зависят от конкретной предметной области, а задача их формализации является одной из самых сложных. В этой связи в современных ДИПС этап анализа текста чаще всего сводится к лингвистическому анализу, проводимому с целью нормализации слов и словосочетаний.

Под нормализацией слов понимается их приведение к канонической форме (например, для существительных - именительному падежу, единственному числу и т.п.), под нормализацией словосочетаний - нормализация составляющих и запись их в определенной последовательности (например, сначала записывается основное слово, а затем - зависимые слова). Нормализованные слова и словосочетания часто называют терминами.

Лингвистический анализ текста

Лингвистический анализ текста может состоять из двух этапов:

1.морфологического анализа;

2.синтаксического анализа.

Цель морфологического анализа состоит в получении основ (под основой понимается словоформа с отсеченным окончанием) со значениями грамматических категорий (например, часть речи, род, число, падеж) для каждой из словоформ.

Различают точные и приближенные методы морфологического анализа. Точных методы базируются на использовании словаря основ слов или словоформ, приближенные - на экспериментально установленной связи между конечными буквосочетаниями словоформ и их грамматической информацией.

Использование словаря словоформ в точных методах позволяет легко преодолеть трудности морфологического анализа, связанные с такими явлениями в русском языке, как, например, чередование гласных и согласных. При таком подходе задача получения основ слов и грамматических признаков сводится в основном к поиску в словаре и выбору соответствующей информации (собственно же морфологический анализ требуется лишь в том случае, если словоформа не найдена в словаре). При достаточно полном словаре скорость обработки материала достаточно высока, но объем необходимой памяти в 2-3 раза больше, чем при использовании словаря основ.

Морфологический анализ с использованием словаря основ базируется на флективном анализе, цель которого - правильное выделение основы слова. Основная трудность при использовании данного подхода связана с явлением омонимии основ слов. Для ее устранения проверяется совместимость выделенной основы слова и его окончания.

В основе приближенных методов морфологического анализа лежит гипотеза, согласно которой по конечным буквам и буквосочетаниям можно практически однозначно определить грамматический класс слова. Основа слова выделяется следующим образом - от конца слова последовательно отсоединяется по 1-й букве и полученные буквосочетания сравниваются со списком окончаний, соответствующих данному грамматическому классу. Как только появится совпадение, делается вывод о том, что оставшаяся часть слова - его основа. Для анализа обычно хватает биграмм, триграммы и четырехграммы используются редко.

Автоматическое индексирование

Автоматическое индексирование документов может основываться на простых, однословных или многословных составных терминах (фразах). Простые, однословные термины далеко не идеальны для индексирования, поскольку смысл слов вне контекста нередко бывает неоднозначным. Термины-фразы более осмысленны, обладают большей дискриминирующей мощью. Для генерации фраз может использоваться как синтаксический анализ, так и ряд эвристических алгоритмов. Ниже приведено описание одного из них.

Предположим, что термин-фраза состоит из основы фразы (обычно это ее главная часть) и остальных компонентов. Термин с частотой вхождения в документы, превышающей установленный порог, например df >2 , отмечается как основа фразы. Другими компонентами фразы должны быть термины со средней или низкой частотой вхождения. При этом учитывается их связь с основой фразы, например, размещение их в одном предложении или на некотором заданном расстоянии друг от друга.

Для генерации групп взаимосвязанных слов по замеченным закономерностям совместного их вхождения в документы применяются методы группирования или кластеризации терминов. Если представить матрицу терминов-документов в виде двухмерного массива, то вышеупомянутый метод сравнивает друг с другом столбцы матрицы и делает заключение о том, входит ли та или иная группа терминов в несколько документов совокупности. Если такое неоднократное вхождение имеет место, то термины считаются связанными и группируются в один класс.

Простые и составные термины, выполняющие чисто грамматическую функцию, заносятся в так называемые списки исключения и удаляются.

Основу современных методов автоматического индексирования составляет присваивание весовых коэффициентов терминам на основе статистических характеристик. Предположим, что в исследуемой совокупности имеется N документов. Пусть tfij - частота вхождения термина Tj в документ Di . Индексирование на основе частоты термина позволяет достичь лишь одной из целей индексирования - полноты поиска. Между тем термины, сконцентрированные в отдельных документах совокупности, можно использовать для повышения точности поиска. Это позволит отделить документы, где такие термины встречаются, от тех, где их нет.

Пусть dfj - число документов, в которых встречается термин Tj . Тогда величина log(N/dfj ) может служить хорошим индикатором того, является ли термин Tj . дискриминатором документов. Частоту термина и полученную выше величину можно объединить в рамках единой модели индексирования по частоте (здесь wij обозначает вес термина Tj в документе Di ).

wij= tf ij *log(N/df j)

Еще один статистический метод индексирования основывается на дискриминации по термину. Здесь каждый документ рассматривается как точка в пространстве документов. Чем больше сходства у множеств терминов двух документов, тем ближе расположены соответствующие точки в пространстве документов (иными словами, повышается плотность точек в пространстве документов), и наоборот. В рамках данной схемы можно оценивать качество термина как дискриминатора документа, основываясь на том, какие изменения произойдут в пространстве документов после введения термина в индекс. Для количественной оценки такого изменения удобно использовать увеличение или уменьшение расстояния между документами. Термин является хорошим дискриминатором, если его введение увеличивает среднее расстояние между документами. Другими словами, термин с хорошими дискриминирующими качествами снижает плотность в пространстве документов. Дискриминирующая характеристика термина Tj , обозначаемая dvj , вычисляется как разность между плотностями пространства документов до и после введения термина Tj . Оказалось, что часто встречающиеся термины имеют отрицательные значения дискриминирующих характеристик, термины со средней частотой - положительные, а для редко встречающихся терминов эти значения близки к нулю. Для совместного учета частоты термина и его дискриминирующей характеристики применяют схему взвешивания, основанную на выражении

Полученные значения весов терминов могут использоваться в процессе принятия решения о включении каждого из терминов в ПОД. Однако чаще решение не принимается, а в ПОД заносятся все термины, встретившиеся в документе, и их веса. информационный данные поисковый рубрицирование

Лекция 10. Автоматическое рубрицирование

В современных исследованиях по данной проблеме выделяют два основных подхода: рубрицирование, основанное на знаниях, и рубрицирование, основанное на обучении по примерам.

Методы автоматического рубрицирования, основанные на знаниях

В системах, реализующих данный подход, используются заранее сформированные базы знаний, в которых описываются языковые выражения, соответствующие той или иной рубрике, правила выбора между рубриками. Процесс создания подобных систем часто сравнивают с созданием экспертных систем для диагностики и классификации. Наибольшее распространение среди данных методов получили две модели представления знаний: модель семантической сети и продукционная модель.

В первом случае знания о предметной области описываются независимо от рубрикатора в специального вида тезаурусе, который связывается с одним или более рубрикаторами гибкой системой отношений.

Под тезаурусом понимается иерархическая сеть понятий и отношений между ними. Тезаурус может быть разработан независимо от какой-либо системы рубрицирования. В нем могут быть накоплены разнообразные варианты представления в тексте понятий предметной области (дескрипторов). В качестве вариантов (синонимов или эквивалентов) дескрипторов в тезаурусе встречаются именные и глагольные группы, отдельные существительные, прилагательные или глаголы. Тезаурус может быть разработан в полуавтоматическом режиме. Например, сначала обрабатывается совокупность документов большого объема при помощи программ морфологического и синтаксического анализа с целью выделения терминоподобных групп слов. Затем выбранные группы слов исследуются экспертами, и принимается решение относительно того:

1. может ли данная группа слов быть включена в тезаурус (в этом случае она становится термином);

2. является ли данный термин дескриптором или синонимом другого дескриптора;

3. как должны быть описаны отношения данного термина.

Кроме того, в комплекс знаний могут также быть включены дополнительные базы данных, например: географическая база данных, содержащая описания географических объектов, база данных организаций, персоналий и т.д.

Тезаурус и базы данных имеют одну структуру и состоят из следующих частей:

1.Дескрипторов, которые соответствуют понятиям или конкретным объектам. Обычно дескриптором является существительное или именная группа.

2. Каждый дескриптор имеет совокупность текстовых входов или синонимов. Текстовый вход может быть существительным, прилагательным или группой существительного. Одно слово может быть синонимом различных дескрипторов. Устранение смысловой неоднозначности производится во время автоматического обработки документа.

3. Отношения между дескрипторами внутри каждой базы данных, например:

- более широкий термин (выше);

- более узкий термин (ниже);

- связанный термин (ассоциация);

- целое для термина (часть);

- часть для термина (целое).

4.Отношения между дескрипторами различных баз данных. В данном случае добавляется отношение - "равенство термина", которое появляется, когда базы данных содержат дескрипторы, соответствующие одному понятию или объекту.

Дескриптор D1 находится в дескрипторной среде дескриптора D, если между D1 и D существует дескрипторное отношение или существует транзитивная зависимость. Дескриптор D называют главным дескриптором среды.

Иерархическая организованность тезауруса и наличие тезаурусных связей позволяет использовать понятия среды дескрипторов и главных дескрипторов (опорных дескрипторов) среды для формирования дескрипторных кустов, используемых при автоматическом рубрицировании текстов в данной технологии. В целом же комплекс знаний представляет собой иерархическую сеть, полнота и целостность которой поддерживается и отслеживается экспертами.

Существует два типа представления рубрик последовательностью опорных дескрипторов в виде булевских нормальных форм:

1. дизъюнкция опорных дескрипторов 1 2 n D D D Ъ Ъ Ъ K ;

2. конъюнкция дизъюнкций опорных дескрипторов

????????11 12 1 1 2 & & n n n nn D D D D D D Ъ Ъ Ъ Ъ Ъ Ъ K K K После того как для всех рубрик рубрикатора установлены связи с соответствующими опорными дескрипторами, автоматически определяются рубрики для всех дескрипторов тезауруса. Таким образом, для каждого дескриптора создается список соответствующих рубрик с указанием того, в какую из дизъюнкций рубрики входит данный дескриптор.

Каждая рубрика в данной технологии фиксирует запрос пользователя, который описывается посредством дескрипторов тезауруса. При этом в тезаурусе находится куст дескрипторов, соответствующий данной рубрике, и устанавливается связь между рубрикой и наивысшим дескриптором (опорный дескриптор рубрики) в иерархии дескрипторного куста. Одной рубрике может соответствовать несколько опорных дескрипторов.

Дальнейшее развитие данной технологии состоит в предоставлении пользователю возможности описывать рубрику на ЕЯ. Суть процесса рубрицирования в рамках данного подхода состоит в выделении из текста опорных дескрипторов и отношений между ними с последующим сопоставлением их с описаниями рубрик. Представленная технология автоматического рубрицирования текстов позволяет классифицировать различные типы текстовой информации, быстро настраиваться на различные рубрикаторы и типы документов. Но и имеет существенные ограничения в своем использовании, так как трудоемкость разработки тезауруса достаточно высока и требует больших временных затрат (от нескольких месяцев до нескольких лет), кроме того, формирование тезауруса производится в соответствии с той или иной предметной областью, что делает невозможным использование одного тезауруса при классификации текстов из различных предметных областей.

Основу методов, использующих продукционную модель представления знаний, составляет выделение из текста концепций (или понятий), заранее описанных экспертом.

Каждое понятие предметной области описываются экспертом при помощи особой конструкции - определения понятия, объединяющего в себе набор характерных для данного понятия слов и фраз. Определение понятия представляет собой выражение, записанное на специальном языке, позволяющем объединять эти слова и фразы при помощи стандартных булевых функций. В определении понятия при записи слов и фраз допускается использование символов-шаблонов (&, * и т.д.), что позволяет отказаться от процедуры морфологического анализа, используемой для нормализации лексики документа. Поскольку описание понятий производится экспертом вручную, то это не доставляет особых неудобств, зато позволяет значительно повысить производительность. В дополнение к этим функциям в языке определения понятий может быть предусмотрена возможность введения контекстуальных ограничений, заключающаяся в указании порядка следования слов в тексте, расстояния между словами и т.д. Кроме того, фразам в определении понятия могут быть назначены экспертные веса, показывающие, насколько каждая из фраз характерна для данного понятия. Ниже приведен пример определения понятия золото:

(gold (&n (reserve! medal! jewelry)))

Процесс рубрицирования разбивается на два этапа. Первым из них является выделение понятий из текста, которое можно представить как процесс распознавания, основывающийся на использовании данных из базы определений. Решение о наличии понятия в тексте принимается путем вычисления справедливости выражения, определяющего понятие, относительно данного текста. Если выражение справедливо, то считается, что понятие присутствует в тексте. Кроме того, если в определении понятия присутствуют экспертные веса, то вычисляется вес или вероятность появления данного понятия в обрабатываемом тексте с учетом частоты встречаемости фраз в тексте сообщения.

На втором этапе принимается решение о принадлежности текста к конкретной рубрике. На его вход поступают выделенные на первом этапе из текста понятия, с возможными весами. Решение принимается на основе правил рубрицирования, которые, так же как и определения понятий, формулируются экспертом заранее с использованием языка правил

Язык правил позволяет основывать решения на комбинации понятий, появившихся в тексте. Кроме того, он позволяет учесть вероятность появления, а также положение каждого понятия в тексте. Существует также возможность учета длины сообщения. Совокупность определений понятий и правил рубрицирования составляет базу правил, (см. рис. 7)

Разработка базы правил представляет собой очень трудоемкий процесс, требующий привлечения высококвалифицированных специалистов, как в предметной области, так и в области инженерии знаний. Суть этого процесса заключается в обработке большего массива отрубрицированных документов, в ходе которого для каждой из рубрик выявляются статистические закономерности, основанные на частоте встречаемости слов и фраз, а также совместной частоте встречаемости отдельных из них. Полученные данные затем используются экспертами при выявлении характерных слов и фраз для описания понятий и формирования правил рубрицирования.

Рис. 7. База правил

Преимуществами данного подхода являются высокое качество рубрицирования и высокое быстродействие на тех текстовых потоках, для которых они проектировались. Основными недостатками подобных систем являются, как и в предыдущем случае:

1. высокая трудоемкость и значительные затраты, необходимые для разработки системы;

2. жесткая привязка баз знаний и алгоритмов к предметной области, конкретному рубрикатору, а также размеру и формату рубрицируемых текстов.

Большинство же систем автоматического рубрицирования текстов требуют более быстрого и дешевого построения.

Лекция 11. Автоматическое обучение, основанное на обучении по примерам

Системы автоматического рубрицирования, основанные на обучении по примерам, рассматривают в качестве понятий, которым нужно обучиться, рубрики. Машинное обучение производится на основе примеров текстов, которые были заранее отрубрицированы экспертом вручную.

Можно выделить статистические и нейросетевые методы рубрицирования.

Идея статистического рубрицирования состоит в определении степени соответствия терминологического портрета документа и терминологического портрета рубрик на основе статистических характеристик субъектов сравнения. Под терминологическим портретом документа понимают совокупность наиболее важных терминов, содержащихся в тексте документа. В качестве показателя важности термина в документе чаще всего используется частота его встречаемости. Под терминологическим портретом рубрики понимается набор наиболее характерных для этой рубрики терминов с их весами (в работах 'по статистическим моделям рубрицирования под терминологическим портретом рубрики часто понимается множество ее характеристических терминов и частоты их встречаемости в рубрике). Таким образом, семантика рубрики задается однозначно только ее терминологическим портретом.

Отметим, что терминологический портрет можно рассматривать как частный случай тезауруса, имеющего более простую модель и допускающего его автоматическое построение и корректировку. Формирование терминологических портретов каждой рубрики производится экспертом не вручную, а с помощью одной из технологий обучения рубрикатора. При этом роль эксперта сводится к формированию для каждой рубрики обучающей выборки - совокупности максимально коротких фрагментов текстов, содержащих полное и минимально избыточное лингвистическое наполнение одной обучаемой рубрики.

Выделение характеристических терминов для рубрики производится автоматически, на основе их

весов, которые могут быть получены в процессе анализа обучающей выборки. Например, log rtrtrN wdf?

где r N - количество документов в обучающей выборке, принадлежащих рубрике r , tr df количество документов в обучающей выборке, принадлежащих рубрике r и содержащих термин t . Список характеристических терминов рубрики упорядочен по убыванию весов терминов в ней. Таким образом, единую модель для всех рубрик одного рубрикатора можно представить в виде двухмерной матрицы весов ????tk w . Рубрицирование выполняется по некоторому решающему правилу, учитывающему как важность терминов в документе, так и их веса для рубрик. Например, можно считать, что документ принадлежит рубрике r , если t tr r t tf w k ??е

где t tf - частота встречаемости термина t в документе, r k - пороговое значение для рубрики r . Значение левой части указанного выражения может использоваться в качестве количественной оценки релевантности документов рубрикам.

Пороговые значения для каждой из рубрик определяются таким образом, чтобы при применении решающего правила ко всей обучающей выборке к данной рубрике было отнесено максимальное количество релевантных и минимальное количество не релевантных ей текстов. Вычисление может производиться как при помощи различных математических методов, так и эмпирическим путем. К достоинствам такого подхода относятся:

1. простота определения семантики рубрики, что дает возможность организовать автоматическое обучение рубрик;

2. универсальность подхода, заключающаяся в том, что таким способом может быть определена семантика очень широкого класса рубрик из любой предметной области;

3. наличие аппарата количественной оценки релевантности документов рубрикам;

4. высокое быстродействие.

Главным недостатком данной группы методов является более низкое по сравнению с методами, основанными на знаниях, качество рубрицирования.

Основой нейросетевых методов рубрицирования текстов является использование нейронной сети (НС) в качестве обучаемого классификатора. Считается, что в наличии имеется подборка примеров текстов, каждый из которых помечен как релевантный или нерелевантный определенной рубрике. Задача НС, обученной на этих примерах, состоит в определении степени релевантности любого нового текста данной рубрике. Данный подход предполагает, что семантика рубрики однозначно задается примерами принадлежащих ей текстов.

Поскольку НС оперирует векторами, для представления текста используется одна из векторных моделей, например: ????1, , : 1 0 , 1, , a iD iiv d Tt t td T i D vNЫ О мп??н ????Ы П поK ,

где D - мощность словаря;

i d -- лексическая единица из словаря;

T - текст, рассматриваемый как неупорядоченное множество лексических единиц;

N - количество i d T О .

Поскольку обучающая выборка состоит из примеров с заранее известной принадлежностью текстов рубрикам, то имеет смысл использовать НС, в которых реализована парадигма обучения с учителем. Так, предлагается использовать вероятностную нейросеть (ВНС). НС имеет D входов и 2 выхода, один из которых отражает вероятность принадлежности предъявляемого текста к классу релевантных запросу текстов (Ррел), другой - к классу нерелевантных. На практике имеет смысл использовать лишь первый, поскольку сумма значений на выходах равна 1. Схематично описываемый процесс представлен на рис. 8 и рис. 9.

Рис. 8. Обучение

Рис. 9. Определение вероятности релевантности текста рубрике

Словарь рубрики могут составлять как простые, так и составные термины. Его формирование производится так же, как и в статистических методах, с той лишь разницей, что веса терминов в дальнейшем не используются.

По качеству рубрицирования нейросетевые методы рубрицирования занимают среднее положение между статистическими методами и методами, основанными на знаниях.

К основным недостаткам нейронных сетей чаще всего относят два факта:

1.Экспертам непонятно, как нейронная сеть работает.

2.На обучение сети требуется очень много времени.

Однако ВНС выгодно отличается тем, что имеет:

1.строгое математическое обоснование (по сути ВНС представляет собой оптимальный по Байесу классификатор);

2.огромное (в тысячи раз большее) по сравнению с другими нейросетевыми парадигмами быстродействие.

Кроме того, характер решаемой задачи позволяет существенно оптимизировать ВНС, а также устранить зависимость объема вычислений от мощности словаря. Этот факт позволяет полностью отказаться от усечения словаря, опасного тем, что в ходе его могут быть отброшены существенные для классификации термины. В целом, выбор данной нейросетевой парадигмы позволяет свести к минимуму указанные недостатки

Лекция 12. Поиск текстовой информации. Механизм обратной связи

Модель поиска текстовой информации характеризуется четырьмя параметрами:

1. представлением документов и запросов;

2. критерием смыслового соответствия;

3. методами ранжирования результатов запроса;

4. механизмами обратной связи, обеспечивающими оценку релевантности пользователем.

Рассмотрим наиболее распространенные модели поиска с позиции первых трех параметров.

Булева модель представляет документы с помощью набора терминов, присутствующих в индексе, каждый из которых рассматривается как булева переменная. При наличии термина в документе соответствующая переменная принимает значение True. Присваивание терминам весовых коэффициентов не допускается. Запросы формулируются как произвольные булевы выражения, связывающие термины с помощью стандартных логических операций: AND, OR или NOT. Мерой соответствия запроса документу служит значение статуса выборки (RSV, retrieval status value). В булевой модели RSV равно либо 1, если для данного документа вычисление выражения запроса дает True, либо 0 в противном случае. Все документы с RSV = 1 считаются релевантными запросу.

Такая модель проста в реализации и применяется во многих коммерческих системах. Она позволяет пользователям вводить в свои запросы произвольные сложные выражения. Однако эффективность поиска обычно невысока. К тому же, ранжировать результаты невозможно, так как все найденные документы имеют одинаковые RSV, а терминам нельзя присвоить весовые коэффициенты.

Нередко результаты выглядят противоестественно. Например, если пользователь указал в запросе десять терминов, связанных логической операцией AND, документ, содержащий девять таких терминов, в выборку не попадет. Для повышения эффективности поиска в ИПС часто применяется обратная связь с пользователем. Как правило, система просит пользователя указать релевантность или нерелевантность нескольких документов, включенных в начало списка вывода. Поскольку результаты не ранжируются, выбор документов для подобной экспертной оценки релевантности затруднен.


Подобные документы

  • Технология разработки информационных систем (ИС). Жизненный цикл информационной системы. Состав и содержание работ на стадиях проектирования ИС. Проектирование унифицированной системы документации. Автоматизированное проектирование корпоративных ИС.

    реферат [176,9 K], добавлен 15.04.2012

  • Исследование основных стадий жизненного цикла информационной системы. Планирование, анализ требований и проектирование информационной системы. Стандарты и типы моделей жизненного цикла. Верификация и модернизация системы, полное изъятие из эксплуатации.

    презентация [1,6 M], добавлен 12.02.2017

  • Классификация информационных систем. Использование баз данных в информационных системах. Проектирование и реализация информационной системы средствами MS Access. Анализ входной информации предметной области и выделение основных информационных объектов.

    курсовая работа [2,5 M], добавлен 09.08.2012

  • Жизненный цикл информационных систем. Создание системы обработки заказов ресторана. Описание деятельности ресторана с целью выявления автоматизируемых процессов. Диаграмма вариантов, классов и последовательности для информационной системы "Ресторан".

    курсовая работа [541,7 K], добавлен 07.01.2015

  • Периоды применения средств вычислительной техники. Переход к новому поколению электронно-вычислительных машин. Системы, основанные на знаниях. Экспертные системы и искусственный интеллект. Этапы обработки данных на ЭВМ. Иерархическая структура знания.

    презентация [170,6 K], добавлен 14.08.2013

  • Методология проектирования и особенности организации технического обслуживания информационных систем. Понятие, сущность, стадии, стандарты, структура и процессы жизненного цикла информационной системы, а также анализ достоинств и недостатков его моделей.

    реферат [66,1 K], добавлен 07.05.2010

  • Организация хранения данных. Система управления базами данных. Поиск информации, обзор существующих поисковых систем. Особенности работы поискового движка. Использование индексов в поисковых системах. Особенности поиска различных видов информации.

    курсовая работа [4,6 M], добавлен 14.05.2014

  • Права граждан на защиту конфиденциальной информации и интеллектуальной собственности. Комплекс физических, аппаратных, программных и документальных средств, предназначенных для сбора и хранения информации. Массивы документов в информационных системах.

    презентация [57,3 K], добавлен 24.06.2017

  • Понятие, структура и классификация информационных систем. Информационно поисковые системы. Исторические предпосылки развития поисковых систем. Понятие поисковых систем. Особенности поисковых систем: структура сети, структура работы поисковых систем.

    курсовая работа [81,9 K], добавлен 28.03.2005

  • Описание и классификация современных информационно–поисковых систем. Гипертекстовые документы. Обзор и рейтинги основных мировых поисковых систем. Разработка информационно–поисковой системы, демонстрирующей механизм поиска информации в сети Интернет.

    дипломная работа [1,3 M], добавлен 16.06.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.