Информационно-поисковый язык информационных систем
Требования к информационно-поисковому языку (ИПЯ). Необходимость его создания и использования для обработки информации. Обобщенная структура тезауруса. Типы, виды и свойства ИПЯ. Классификационные и дескрипторные языки индексирования, их применение.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 08.11.2013 |
Размер файла | 41,3 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Курсовая работа
по дисциплине: "Автоматизированные информационные системы"
на тему: "Информационно-поисковый язык информационных систем"
2013
Содержание
Введение
1. Информационно-поисковые языки
1.1 Структура и требования
1.2 Свойства инфомационно-поисковых языков
1.3 Основные информационно-поисковые языки
1.4 Типы и виды информационно-поисковых языков
1.5 Классификационные информационно-поисковые языки
1.6 Дескрипторные информационно-поисковые языки
2. Применение ИПЯ в различных поисковых системах
Заключение
Список литературы
Введение
В современном мире огромную роль в жизни людей играет информация. Постоянная, регулярная работа с информацией в наше время стала неотъемлемой частью жизни каждого цивилизованного современного человека. Человеку, в силу своей профессии или увлечений часто сталкивающемуся с подбором и поиском какой-либо тематической информации, рано или поздно (с возрастанием ее объема) приходится применять некоторые принципы систематизации и классификации имеющихся данных, обеспечивающие более удобный и эффективный поиск. Так, в библиотеках составляют картотеку: сведения о книге по определенной схеме записываются на карточку, туда же помещается шифр - несколько букв и цифр, по которым можно определить местоположение книги (хранилище, стеллаж, полку); карточки расставляются в алфавитном или тематическом порядке. Применение ЭВМ дает более широкие возможности для работы с большими массивами информации. На данном этапе развития информационных систем весьма актуальны проблемы оптимизации информационно-поисковых механизмов, поисковых аппаратов, систем индексирования и обработки данных для увеличения эффективности работы пользователей и получения максимально релевантных результатов при работе с поисковыми системами.
Для общения человека с компьютером разрабатываются специальные искусственные языки, естественный язык (ЕЯ) в этом качестве пока не может быть использован без специального предварительного преобразования. В естественном языке присутствуют: синонимия, омонимия и полисемия, избыточность, субъективность и другие свойства, препятствующие его автоматизированной обработке.
Синонимы - слова, различающиеся по написанию, но совпадающие по смыслу (Казахстан, РК, Республика Казахстан). Омонимы - слова, совпадающие по звуковому и графическому составу, но имеющие разные значения (ключ может быть - телеграфный, поисковый, к замку, к шкафу и т.д.). Полисемия - наличие у одного и того же слова нескольких разных, но связанных между собой значений (например: фамилия - как имя и фамилия как семья; индекс - как средство более быстрого поиска в БД и как код документа в ИПС). Избыточность естественного языка - наличие лишней информации, без которой можно точно и однозначно установить смысл или значение сообщения. Таким образом, в естественном языке часто нет однозначного соответствия между словом и его значением. Искусственный язык, как правило, разрабатывается на основе естественного языка. При этом устраняется многозначность слов естественного языка. В ИПС для однозначного описания основного смысла содержания документа и информационного запроса используются специализированные языки, которые называются информационно-поисковыми языками.
1. Информационно-поисковые языки
1.1 Структура и требования
Информационно-поисковые языки: структура и требования. Наряду с многочисленными естественными языками в человеческом обществе получили большое распространение и различные искусственные языки. Они создаются людьми для решения каких-либо задач в области науки и техники (машинные языки), для общения между людьми (эсперанто, профессиональные диалекты). Среди искусственных языков особое значение занимают информационные языки.
Необходимость создания и использования информационных языков для обработки информации возникла и продолжает углубляться по мере совершенствования информационной технологии в обществе. Машинный язык - это искусственный, формальный язык, предназначенный для записи информации, хранящейся в запоминающем устройстве вычислительных машин, для описания программ (алгоритмов), указывающих очередность и последовательность выполнения команд по вводу данных из запоминающего устройства, переработке и преобразованию поступающей в машину информации.
Для поиска информации разрабатываются и широко применяются такие искусственные языки, как информационно-поисковые. Информационно-поисковый язык (ИПЯ) - искусственная знаковая система, предназначенная для описания (путём индексирования) основного смыслового содержания текстов (документов) или их частей, а также для выражения смыслового содержания информационных запросов с целью реализации.
Структура ИПЯ однотипна с формальной структурой информации и предполагает выделение следующих уровней:
Ш фонетического;
Ш лексического;
Ш синтаксического;
Ш текстового.
Элементы каждого уровня объединяются в синтагмы и парадигмы.
Фонетический уровень - это алфавит (списка элементарных символов). В ИПЯ для этого применяют символы естественного языка: кириллица, латинский алфавит, арабские и римские цифры, знаки пунктуации.
Лексический уровень или словарный запас - совокупность всех употребляемых в ИПЯ лексических единиц. Лексическая единица - наименьшая осмысленная последовательность знаков, задаваемая при конструировании отдельных слов языка. Лексические единицы и образуют лексику языка.
Упорядочение лексических единиц ИПЯ. Для упорядочения лексических единиц ИПЯ служат парадигматические отношения, которые фактически определяют и задают структуру языка.
Автоматизированные информационные системы - системы для сбора, накопления, хранения, поиска, передачи, обработки информации с использованием вычислительной техники, компьютерных информационных сетей, средств и каналов связи.
Автоматизированный документальный поиск может быть организован на основе различных технологий: поиска по поисковому образу документа, поиска по полному тексту документа, поиска документов по гипертекстовым ссылкам.
Технология полнотекстового поиска является неотъемлемой составляющей таких современных и перспективных информационных технологий, как: системы управления документами (Document management system, DMS), технологии групповой работы над документами (groupware), технологии поиска в Internet/intranet. На технологии гипертекста базируется самый известный сервис Internet World Wide Web (WWW).
Первоначальным направлением развития СУБД стала разработка и использование фактографических информационных систем, которые ориентированы на обработку структурированных данных. Были разработаны модели организации фактографических данных, отработаны программно-технические решения по накоплению и физическому хранению таких данных, реализованы языки запросов к БД.
Однако создание фактографических информационных систем требует предварительной структуризации данных, например, на основе таблиц. Она зачастую требует больших накладных расходов. Вместе с тем накапливаются большие объемы неструктурированной информации: в организационно-распорядительных документах или других текстовых источниках. Представление такой информации в фактографических системах зачастую экономически не оправдано. Теоретические исследования вопросов автоматизации обработки неструктурированной информации, начавшись еще в 50-х годах, пока не привели к созданию такой строгой, полной и технически реализуемой модели представления и обработки данных, как реляционная модель. Пока не разработаны стандартные информационно-поисковые языки (подобные SQL), которые можно было бы использовать для формализованного описания содержания документов и построения запросов.
Элементом данных в документальных Информационных Системах является документ (в фактографических информационных системах элементом является запись). Обычно под документом понимается текстовый файл. информационный поисковый язык дескрипторный
Основной задачей документальных информационных систем является хранение и предоставление пользователю документов, содержание которых соответствуют его информационным потребностям.
Документальная информационная система (ДИС) - единое хранилище документов с инструментарием поиска и выдачи, необходимых пользователю документов.
Поисковый характер документальных информационных систем (определил еще одно их название - информационно - поисковые системы (ИПС)).
Соответствие найденных документов информационным потребностям пользователя называется пертинентностью.
В зависимости от особенностей реализации хранилища документов и механизмов поиска, Документальную информационную систему можно разделить на две группы:
Ш системы на основе индексирования;
Ш семантически-навигационные системы.
Семантика (от греч. semantikos - обозначающий) - значения единиц языка.
В семантически-навигационных (гипертекстовых) системах документы, помещаемые в хранилище документов, оснащаются специальными навигационными конструкциями (гиперссылками), соответствующими смысловым связям между различными документами или отдельными фрагментами одного документа.
В системах на основе индексирования исходные документы помещаются в базу без какого-либо дополнительного преобразования, но при этом смысловое содержание каждого документа отображается в некоторое поисковое пространство. Процесс отображения документа в поисковое пространство называется индексированием и заключается в присвоении каждому документу некоторого индекса - координаты в поисковом пространстве. Формализованное представление индекса документа называется поисковым образом документа (ПОД). Пользователь выражает свои информационные потребности, посредством специального языка, формируя поисковый образ запроса (ПОЗ) к базе документов.
На основе определенных критериев Документальной информационной системы осуществляет поиск и выдачу документов, поисковые образы которых соответствуют поисковым образам запроса пользователя.
Соответствие найденных документов запросу пользователя называется релевантностью.
Информационно-поисковая система для управленческих документов, как правило, требует разработки собственного информационно-поискового языка.
Информационно-поисковый язык (ИПЯ) представляет собой некоторую формализованную семантическую систему, предназначенную для выражения содержания документа и поискового запроса.
1.2 Свойства инфомационно-поисковых языков
Искусственный язык, как правило, разрабатывается на основе естественного языка. При этом устраняется многозначность слов естественного языка.
Информационно-поисковый язык состоит из алфавита, лексики и грамматики. Алфавит - система знаков, используемая для записи слов. В информационно-поисковых языках могут быть использованы: буквы латинского алфавита; кириллица; цифры; пунктуационные знаки. Лексика (словарный состав) - совокупность слов, входящих в состав языка, называемых также лексическими единицами. Лексическая единица - слово или семантически неделимое словосочетание, выражающее какое-либо понятие. Грамматика - набор правил, по которым из конечного числа элементов определенного типа (например, букв или слов) можно получить язык для выражения содержания документов или запросов или описания фактов с целью последующего поиска. Грамматика подразделяется на морфологию и синтаксис. Морфология - правила построения и изменения слов. Синтаксис - правила построения и изменения соединения слов (построение фраз). Слова любого языка в процессе отображения предметов реального мира вступают между собой в определенные отношения.
Эти отношения можно разделить на парадигматические и синтагматические.
Парадигматические отношения - логические отношения, существующие между лексическими единицами информационно-поискового языка независимо от контекста, в котором эти лексические единицы употребляются. Эти отношения обусловлены предметно-логическими, а не языковыми факторами, т.е. относятся к категории внеязыковых связей. Примеры парадигматических отношений: часть - целое (отдел - организация); род - вид (ценная бумага - акция); причина-следствие; функциональное сходство; ассоциации. Учет парадигматических отношений необходим для правильного выбора и точного употребления слов. Поэтому в семантически развитом информационно-поисковом языке должны быть в явном виде выражены важнейшие отношения между терминами, иначе при отображении текста документа может произойти потеря или искажение смысла документа. Например, при поиске нормативных документов, касающихся термина "акция", для увеличения полноты поиска возможно указание термина "ценная бумага".
Синтагматические отношения - отношения слов при соединении их в словосочетания и фразы. Линейные логические отношения, которые устанавливаются между словами непосредственно при их использовании в тексте, объединяют эти слова в сочетания и предложения. Для уточнения смысла документа или запроса, помимо ключевых слов, часто необходимо указывать в каких синтагматических отношениях эти слова находятся. Так, фраза "защита окружающей среды от человека" и фраза "защита человека от окружающей среды" имеют совершенно разный смысл, хотя и состоят из одних и тех же ключевых слов. Таким образом, развитый информационно-поисковый язык должен обладать средствами отображения парадигматических и синтагматических отношений.
Для оценки сравнительной эффективности различных языков используется понятие семантическая сила языка.
Семантическая сила Информационного Поискового Языка характеризует смысловыразительные возможности ИПЯ и показывает, насколько информационно-поисковый язык уступает естественному языку. Семантическая сила тем больше, тем богаче словарный состав информационно-поискового языка и шире его словообразовательные возможности (создание новых слов, соответствующих новым понятиям); шире используются средства отображения парадигматических и синтагматических отношений между словами.
Можно указать следующие требования, которым должен удовлетворять семантически развитый информационно-поисковый язык:
Ш располагать лексико-грамматическими средствами для точного отображения центральной темы документа и запроса;
Ш не содержать полисемии, синонимии и омонимии, т.е. каждая запись на ИПЯ должна допускать только одно толкование;
Ш отображать только объективные характеристики предметов и отношений между ними;
Ш быть удобным для алгоритмического сопоставления (отождествления) поискового образа документа (ПОД) и поискового предписания (ПП).
Как правило, чем больше семантическая сила информационно-поискового языка, тем труднее с ним работать. Наиболее часто в качестве основания деления при классификации информационно-поисковые языки используют способ организации понятий.
По способу организации понятий различают:
Ш предкоординируемые (классификационные) информационные поисковые языки;
Ш посткоординируемые (дескрипторные) информационные поисковые языки.
Предкоординация - предварительное (до использования при индексировании) построение сложных классов путем логического умножения (координации) простых классов. Словарный состав задается в виде фиксированного списка слов, словосочетаний и фраз. При индексировании документов или запросов можно пользоваться только словами, словосочетаниями и фразами, содержащимися в фиксированном списке. Введение в язык новых лексических единиц строго ограничено и возможно лишь до индексирования документов, т.е. при создании языка. Словарный состав предкоординируемых языков напоминает двуязычный разговорник, в котором заранее зафиксированы наиболее употребительные фразы. При помощи предкоординируемого языка происходит отнесение документа к классу, обозначенному лексическими единицами этого языка, т.е. классификация документа.
Посткоординируемые (дескрипторные языки) основаны на методе координатного индексирования. В посткоординируемых информационно-поисковых языках лексические единицы объединяются в поисковом образе лишь во время индексирования документа. Словарь дескрипторного информационно-поискового языка состоит из специальным образом, выбранных отдельных слов или словосочетаний естественного языка - ключевых слов и дескрипторов.
Координатное индексирование - индексирование, при котором основное смысловое содержание текста (документа) или информационного запроса представляется в виде сочетания ключевых слов или дескрипторов.
Ключевые слова - это наиболее существенные для отображения содержания документа слова и словосочетания, обладающие назывной функцией.
Назывные слова - слова, обозначающие вещи, явления, процессы, имена собственные (т.е. в качестве ключевого слова не может выступать предлог, союз и др.).
1.3 Основные информационно-поисковые языки
Информационно-поисковые каталоги, основанные на классификации сведений по определенной предметной области, были первыми системами информационного поиска документов.
Классификация - это группировка объектов по признакам.
По области или по сфере применения информационно-поисковых языков можно выделить:
Ш коммуникативные (общесистемные) информационно-поисковые языки - предназначенные для обеспечения взаимодействия между различными (информационными, библиотечными и др.) системами (в том числе распределенными по государственной, ведомственной или территориальной принадлежности);
Ш локальные (внутренние) информационно-поисковые языки - предназначенные для использования в рамках отдельной системы;
Ш внешние информационно-поисковые языки - используемые в других системах и предназначенные для взаимодействия только с ними.
Различают языки описания (декларативные языки), которые в свою очередь подразделяются на языки предкоординатные (классификационные) и посткоординатные (дескрипторные), а также процедурные языки - языки запросов и манипулирования данными.
1.4 Типы и виды информационно-поисковых языков
В настоящее время существует множество типов и видов ИПЯ. Наиболее распространенными подходами к классификации ИПЯ являются: классификация Ф. Ланкастера, классификация ВИНИТИ, классификация ЛГИК им. Н.К. Крупской. Последняя классификация представляется наиболее логичной. В ее основу положены три видообразующих признака, учитывающих основные структурные элементы языка: лексику, парадигматику и синтагматику. К этим признакам относятся способ задания лексических единиц, способ кодирования (сочетания) лексических единиц и способ учета парадигматических отношений. Принимается во внимание и возможность автоматизированного поиска.
Ш По способу задания лексических единиц: контролируемые и неконтролируемые. Контролируемые ИПЯ - языки, лексика которых задается заранее с помощью словарей и таблиц (УДК, ББК). Неконтролируемые ИПЯ - языки, лексика которых не задается словарем, а строится на основе выбора неограниченного множества терминов естественного языка из индексируемых сообщений.
Ш По координации лексических единиц (способу записи): некоординируемые и координируемые. Некоординируемые ИПЯ - языки, не допускающие координации своих лексических единиц ни в процессе индексирования, ни в процессе поиска. Координируемые ИПЯ - языки, в которых лексические единицы координируются между собой или в процессе индексирования, или в процессе поиска. Различают Предкоординируемые и посткоординируемые ИПЯ. Предкоординируемые языки устанавливают порядок записи лексических единиц в процессе индексирования по заранее определенным правилам, и предусматривается их жесткая последовательность. Как правило, используются в ручном поиске. Посткоординируемые ИПЯ - языки, в которых лексические единицы задаются в процессе индексирования и сочетаются между собой только в процессе поиска.
Ш С учетом и без учета парадигматических отношений: иерархические, фасетные и неиерархические. Языки иерархической структуры представляют собой иерархическую классификацию - систему классов, по которым распределяются понятия на основании наиболее существенных признаков, присущих этим понятиям и отличающих их друг от друга. Класс - совокупность объектов, имеющих один или несколько общих содержательных признаков. Недостаток - невозможность организации в неиерархических связей (иерархическая модель данных - невозможность перекрестных запросов). Языки фасетной структуры представляют собой фасетную классификацию - совокупность фасетов, следующих друг за другом в определенной последовательности. В основе построения такой классификации лежит индуктивный метод, который предполагает исследование отдельных предметов множества, нахождение в них общих существенных признаков и группировку на основе последних терминов, обозначающих эти понятия.
1.5 Классификационные информационно-поисковые языки
К классификационным языкам относят:
Ш информационно-поисковый язык иерархического типа;
Ш информационно-поисковый язык фасетного типа;
Ш алфавитно-предметную классификацию.
Иерархическая классификация - это перечислительная классификация (т.е. все возможные классы заранее перечислены), в которой каждый класс делится на подклассы. Термины в иерархической классификации расположены в порядке их перехода от общих понятий к частному. Классификация осуществляется в зависимости от выбранных оснований деления и порядка их следования. В иерархической классификации необходимо иметь отдельные исчерпывающие классы для всех возможных предметов, т.е. все возможные классы должны быть заранее перечислены, поэтому иерархическую классификацию и называют перечислительной.
Процедура построения информационно-поискового языка иерархического типа включает следующие этапы:
Ш Анализ предметной области, определение оснований деления (признаков классификации). В качестве признаков классификации выбирают такие, по которым имеет смысл производить поиск документов в данной предметной области.
Ш Установление, соподчиненное признаков. Соподчиненность может быть естественной или установленной.
Ш Формирование классов документов на основе выбранных признаков классификации. Получение иерархического дерева классов.
Ш Формирование индексов каждого класса.
Ш Составление классификационных таблиц и алфавитного указателя. В классификационной таблице классы упорядочены по индексу, а в алфавитном указателе - по алфавиту.
Индексирование с использованием информационно-поискового языка иерархического типа заключается в определении того, к какому классу относится описываемый объект, и в определении по классификационной таблице и алфавитному указателю индекса этого класса. Преимущество языков иерархического типа состоит в простоте индексирования и поиска.
Классификация наиболее эффективна в том случае, когда классы в иерархической системе располагаются в естественном порядке и набор классов в течение времени не изменяется (т.е. предметы естественно находятся в жесткой иерархической соподчиненности). Например, классификация документов в организации, имеющей стабильную структуру.
Информационно-поисковый язык фасетного типа основаны на принципах многоаспектной классификации, в которой каждый конкретный класс строится при индексировании по определенным правилам из предварительно заданных категориальных классов - фасетов. В системах фасетной классификации не ставится задача перечислить все сложные классы. Такие системы предлагают составные элементы, из которых по фасетной формуле составляется индекс.
Процедура разработки информационно-поискового языка фасетного типа состоит из следующих этапов:
Ш Анализ предметной области, для которой составляется классификация. Выделение основных признаков классификации. Эти категории называются фасетами, которые при необходимости более детальной классификации могут делиться на субфасеты и т.д.
Ш Все возможные простые классы группируются по фасетам. Каждый простой класс фасета называется фокусом.
Ш Обозначение соответствующими шифрами фасетов и фокусов.
Ш Установление фиксированной последовательности фасетов в поисковом образе (фасетная формула).
Ш Составление алфавитного указателя фасет и фокусов.
Преимущество информационно-поискового языка фасетного типа по сравнению с ИПЯ иерархического типа состоит в том, что допускается многоаспектное индексирование, так как существует возможность строить классы из разных сочетаний фокусов и получать любые сочетания заранее выбранных характеристик объектов классификации. На практике иерархическая и фасетная классификация часто используются в сочетании. Например, УДК - универсальная десятичная классификация. Алфавитно-предметная классификация - система классов, каждый из которых соответствует определенной теме или одному виду предметов, причем классы расположены в алфавитном порядке имен этих классов. Основной словарный состав (лексика) информационно-поискового языка состоит из упорядоченных по алфавиту множества слов, словосочетаний и фраз естественного языка.
Алфавитно-предметная классификация - это система классов, соответствующих определенной теме и расположенных в алфавитном порядке имен этих классов.
Алфавитно-предметная классификация содержит:
Ш предметный заголовок - слово, словосочетание или фраза ЕЯ, используемое для обозначения предмета или темы, заголовок может подразделяться на подзаголовки;
Ш предметный словник (лексический состав языка) - упорядоченное по алфавиту множество предметных заголовков, используемых для построения алфавитно-предметной классификации;
Ш предметную рубрику - совокупность предметного заголовка с описанием адреса хранения документов, основная тема которых обозначается этим предметным заголовком.
Алфавитно-предметная классификация предназначена для построения каталогов для узко предметного поиска. В таких каталогах под предметными заголовками даются сведения (шифр или библиографическое описание) документов, предмет которых обозначен данным заголовком.
Порядок составления алфавитно-предметной классификации:
Ш Анализ предметной области и выбор тем классификации.
Ш Устранение синонимии слов, словосочетаний и фраз, используемых в качестве предметного заголовка. В случае синонимии можно использовать систему ссылок.
Ш Выделение основных, ведущих слов в словосочетаниях и фразах, используемых в качестве предметных заголовков. Обозначение парадигматических связей между названиями предметов и тем. Эти связи обозначаются с помощью ссылок.
Алфавитно-предметная классификация используется главным образом для информационного поиска по отдельным предметам и темам. И применяется в качестве предметных указателей к каталогам документов.
Основной недостаток классификационных языков состоит в том, что они не обеспечивают возможности поиска документов по любому, заранее не заданному сочетанию признаков.
1.6 Дескрипторные информационно-поисковые языки
Дескрипторные ИПЯ - искусственные информационные языки, появившиеся 1950-ых годах. Возможность и необходимость их создания были вызваны рядом объективных причин. В эти годы были разработаны первые механизированные системы поиска информации и предпринята попытка использования ЭВМ для решения разнообразных информационно-поисковых задач. Традиционные языки предкоординатного типа не соответствовали требованиям механизированного, а в дальнейшем автоматизированного поиска информации. Интенсивный поиск новых семантических средств привел к созданию принципиально новых ИПЯ посткоординатного типа. Основы индексирования данных языков были заложены в работах М. Тауба и К. Муерса за рубежом и В.П. Черенина в СССР.
М. Тауб в 1951 году разработал информационно-поисковый язык унитермов, т.е. неформализованных единичных терминов, перечнем которых можно достаточно полно и точно передать содержание документа и запроса. Координация унитермов происходит в момент поиска сообщения после получения запроса. Однако этот язык не отвечал требованию однозначности. И нуждался в совершенствовании. В своем первоначальном виде ИПЯ унитермов не применяются. Зато широко распространился информационно- поисковый язык унитермов с искусственной грамматикой, который принято называть дескрипторным.
Понятие о дескрипторе ввел в информатику К. Муерс. (Дескриптор - позднелат. descriptor, от лат. describо - описываю). Он предложил учитывать синонимию в языке унитермов и применять лексикографический контроль за используемыми ключевыми словами, который заключался в их нормализации и полном устранении неоднозначности и многозначности. К. Муерс считал, что для контроля лексики должен составляться специальный дескрипторный словарь.
В основе построения дескрипторных информационно-поисковых языков лежит принцип координатного индексирования, который предполагает, что основное смысловое содержание документа может быть выражено списком ключевых слов. К ключевым словам относятся так называемые полнозначные слова - существительные, прилагательные, глаголы, наречия, числительные, местоимения. Ключевыми словами не могут быть предлоги, союзы, связки, частицы.
Основными элементами дескрипторных информационно-поисковых языков являются:
Ш словарь лексических единиц;
Ш правила применения информационно-поискового языка (грамматика), определяющие процедуру перевода текстов документов и запросов с естественного языка на ИПЯ;
Ш правила построения ИПЯ.
Ш Словари лексических единиц делятся на две группы:
Ш основные лексические словари, составляющие лексику информационно-поискового языка;
Ш морфологические словари, обеспечивающие морфологический анализ и нормализацию слов.
В качестве лексических единиц основных словарей используются ключевые слова, словосочетания и дескрипторы.
Дескриптор - понятие, обозначающее группу эквивалентных или близких по смыслу ключевых слов. Дескриптор - это имя класса синонимов. В качестве дескрипторов могут быть использованы: код, слово или словосочетание.
Разработка дескрипторного языка фактически сводится к разработке информационно-поискового тезауруса (ИПТ).
Тезаурус (от греч. "хранилище", "сокровищница") в узком смысле представляет собой специальный словарь-справочник, в котором перечислены ключевые слова - дескрипторы определенной предметной области, указаны их синонимы, установлены способы устранения синонимии, омонимии, полисемии, определены родовидовые и ассоциативные связи дескрипторов.
Наиболее важными парадигматическими отношениями информационно-поискового тезауруса являются:
Ш соподчинение;
Ш род-вид;
Ш часть-целое;
Ш причина-следствие;
Ш функциональное сходство.
Обобщенная структура информационно-поискового тезауруса включает как минимум три составляющих: словарную часть, семантическую карту, руководство по использованию.
Словарная часть - алфавитный список дескрипторов с их словарными статьями.
Семантическая карта - система тематических классов дескрипторов, представленная в виде графической схемы или таблицы.
Руководство по использованию информационно-поискового тезауруса содержит правила перевода ключевых слов и словосочетаний на информационно-поисковом языке, правила лексикографического контроля и редактирования поискового образа документа и поискового образа запроса, а также правила ведения информационно-поискового тезауруса.
Отличием информационно-поисковых тезаурусов от информационно-поисковых каталогов на основе предметной иерархической рубрикации является то, что в тезаурусах, помимо классификационной схемы, присутствуют сами ключевые слова и дескрипторы, объединяемые под названием классов, рубрик и т. д. В каталогах же присутствуют только лишь обозначения (названия) классов.
Главная идея информационно-поисковых тезаурусов заключается в повышении эффективности индексирования документов в рамках дескриптивного подхода. Однако в процессе индексирования учитываются семантические отношения между дескрипторами, что, в конечном счете, обеспечивает более адекватный содержанию документа поисковый образ и повышает эффективность поиска документов.
В настоящее время происходит расширение сфер применения автоматических тезаурусов. При этом тезаурусы выступают составной частью современных систем подготовки текстов, осуществляя лингвистическую поддержку процесса подготовки и обработки текстов на естественном языке.
Среди наиболее перспективных направлений развития автоматических тезаурусов можно указать следующие:
Получение справки по используемому слову. Указав слово, в качестве ключа для запроса, пользователь в ответ получает соответствующий фрагмент словаря, содержащий лингвистическую информацию о данном слове. Например, автоматический тезаурус получает от пользователя некоторое существительное и в ответ выдает совокупность устойчиво сочетающихся с ним глаголов или все наиболее часто сопровождающие его определения. При этом автоматически выполняется процедура нормализации входного слова (т.е. приведение существительного к именительному падежу).
Контекстные замены по требованию пользователей. В данном случае тезаурус не только подбирает вместо одного словосочетания другое, которое пользователь счел более соответствующим контексту по смысловым или стилистическим соображениям, но и автоматически переоформляет параметры слов (например, род прилагательного) в соответствии с контекстом. Это означает, что синтаксические операции, производимые тезаурусом, существенно усложняются.
Автоматическая оценка стиля. Если слова и словосочетания в тезаурусе снабдить стилистическими пометками, то он может использоваться для стилистической оценки текста с выделением слов и словосочетаний, выпадающих, из общего стиля документа.
Методика построения и грамматика ИПЯ дескрипторного типа. Разработка ИПТ осуществляется на основе следующих этапов:
Ш Определение тематического профиля ИПТ. Тематический профиль определяется путем анализа информационных потребностей специалистов отрасли.
Ш Сбор лексики и формирование словника ключевых слов. Словник - исходный массив терминов, который потом подвергается семантической обработке в процессе дескрипторизации. Массив формируется путем извлечения первичных, а чаще вторичных документов и ключевых слов. Иногда используются справочная литература, опрос специалистов. Основная проблема на этом этапе формулировка ключевых слов. Служебные слова (предлоги, союзы, частицы) следует считать неключевыми; общие термины (метод, способ и т.п.) необходимо употреблять только в сочетании с другими словами, конкретизирующими их значение. Ключевыми словами могут быть словосочетания.
Ш Построение словарных статей и формирование лексико-семантического указателя. Осуществляется дескрипторизация ключевых слов (для составления дескрипторного словаря) и установление прадигматических отношений между дескрипторами (для увеличения семантической силы языка). Устраняется неоднозначность ключевых слов путем снабжения соответствующими пояснениями - реляторами (Запись - процесс, запись - предмет) Все слова группируются в классы эквивалентности: Безусловно-эквивалентные (опубликованные документы - печатная продукция) и условно-эквивалентные (технические средства - аппаратура).
После этого производится выбор одного из слов в качестве дескриптора. Таким образом, дескриптор - лексическая единица ИПТ, под которой принято понимать нормализованное слово или словосочетание, выбранное из множества условно-эквивалентных ключевых слов для его обозначения.
Свойства дескриптора:
Ш полнота выражения смыслового значения данного класса;
Ш краткость и понятность;
Ш частота встречаемости термина в текстах документов и запросов.
2. Применение ИПЯ в различных поисковых системах
При описании и классификации информационно-поисковых систем ставилась задача проанализировать наиболее популярные и наиболее типичные системы, которыми пользуются в Сети.
Lycos. Как и большинство систем, Lycos дает возможность использовать простой запрос и более изощренный метод поиска. В простом запросе в качестве поискового критерия вводится предложение на естественном языке. Lycos производит нормализацию запроса, удаляя из него так называемые stop-слова, и только после этого приступает к его выполнению. Почти сразу выдается информация о числе документов на каждое слово, а уже позже и список ссылок на формально релевантные документы. В списке напротив каждого документа указывается его мера близости запросу, число слов из запроса, которые попали в документ и оценочная мера близости, которая может быть больше или меньше формально вычисленной. На апрель 1996 года в Lycos не был реализован булевый поиск, такие планы были анонсированы. Последнее предложение подразумевает только то, что нельзя вводить эти операторы в строке вместе с терминами, но использовать логику через систему меню Lycos позволяет. Последнее относится к расширенной форме запроса, который предназначен для использования искушенными пользователями системы, которые уже научились пользоваться этим механизмом.
Таким образом, мы видим, что Lycos относится к системе с языком запросов типа "Like this", но предполагается его расширения и на другие способы организации поисковых предписаний.
AltaVista. Наиболее интересным с точки зрения информационно-поискового языка в AltaVista является возможность расширенного поиска. Здесь стоит сразу выделить, что в отличии от многих систем AltaVista поддерживает одноместный оператор NOT. Кроме этого есть еще и оператор NEAR, который реализует возможность контекстного поиска, когда термины должны располагаться рядом в тексте документа. AltaVista разрешает поиск по ключевым фразам, при этом она имеет довольно большой словарь этих фраз. Кроме всего прочего, при поиске в АltaVista можно задать имя поля где должно встретиться слово. Это может быть гипертекстовая ссылка, applet, название образа, заголовок и ряд других полей. К сожалению, подробно процедура ранжирования в документации по системе не описана, но сказано, что ранжирование применяется как при простом поиске, так и при расширенном запросе. Реально эту систему можно отнести к системе с расширенным булевым поиском.
Yahoo. Данная система появилась в сети одной из первых, и поэтому говорить будем о сегодняшнем состоянии Yahoo, а не о состоянии годовой давности. В настоящее время Yahoo сотрудничает со многими производителями средств информационного поиска и на различных ее серверах используется различное программное обеспечение. На наш взгляд, это самая незатейливая информационная служба, которая сосредоточилась на информации о Web как таковой. ИПЯ Yahoo достаточно прост: все слова следует вводить через пробел и они соединяются либо AND, либо OR. При выдаче не выдается степени соответствия документа запросу, а только подчеркиваются слова из запроса, которые встретились в документе. При этом не производится нормализация лексики и не проводится анализ на "общие" слова. Хорошие результаты поиска получаются только тогда, когда пользователь знает, что информация в базе данных Yahoo точно есть. Ранжирование производится по числу терминов запроса в документе. Yahoo относится к классу простых традиционных систем с ограниченными возможностями поиска.
OpenText. Информационная система OpenText представляет из себя самый коммерциализированный информационный продукт в сети. Все описания больше напоминают рекламу, чем реальное руководство по работе. Система позволяет провести поиск с использованием логических коннекторов, размер запроса ограничен тремя терминами или фразами. В данном случае речь идет о расширенном поиске. При выдаче результатов поиска сообщается степень соответствия документа запросу и размер документа. Система позволяет также улучшить результаты поиска в стиле традиционного булевого поиска. OpenText можно было бы отнести без сомнения к разряду традиционных информационно-поисковых систем, если бы не механизм ранжирования.
InfoSeek. Система InfoSeek обладает довольно развитым информационно-поисковым языком, который позволяет не просто указывать какие термины должны встречаться в документах, но и своеобразно взвешивать их. Достигается это при помощи специальных знаков "+" - термин обязан быть в документе, "-" - термин обязан отсутствовать в документе. Кроме этого InfoSeek позволяет проводит то, что называется контекстным поиском. Это значит, что используя специальную форму запроса можно потребовать последовательной совместной встречаемости слов. Кроме этого можно указать, что некоторые слова должны совместно встречаться не только в одном документе, а даже в отдельном параграфе или заголовке. Есть возможность и указания ключевых фраз. Ключевая фраза от последовательной встречаемости отличается тем, что фраза всегда ищется как единое целое, а при последовательной встречаемости слова могут стоять рядом, но в произвольном порядке. Ранжирование при выдаче осуществляется по числу терминов запроса в документе, по числу фраз запроса в документе, за вычетом общих слов. Все эти факторы используются как вложенные процедуры. Подводя краткое резюме можно сказать, что InfoSeek относится к традиционным системам с элементом взвешивания терминов при поиске.
WAIS. WAIS является одной из наиболее изощренных поисковых систем Интернет. В отличии от многих поисковых машин, ИПЯ системы позволяет строить не только вложенные булевые запросы, считать формальную релевантность по различным мерам близости, взвешивать термины запроса и документа, но и осуществлять коррекцию запроса по релевантности. Система также позволяет использовать усечение терминов, разбиение документов на поля и ведение распределенных индексов. Не случайно именно эта система была выбрана в качестве основной поисковой машины для реализации энциклопедии "Британика" на Интернет.
Применение языков на практике. Рассмотрим теперь небольшой сравнительный пример использования описанных выше поисковых машин. В качестве запроса использовалась фраза:
"Best on the Web". Подразумевалось, что следует найти документ, связанный с конкурсами "Лучший на Сети". Эта фраза задавалась в качестве набора слов и при этом получались следующие результаты.
AltaVista - после нормализации лексики от запроса осталось только Best. Естественно, что при этом качество поиска было неудовлетворительным. Однако, использование поиска по фразе как по единому целому, поставило требуемый документ на первое место в списке найденных.
Lycos - здесь отсеялись "on the" и документ был указан только в конце списка. Поиск по фразе улучшения результатов не дал.
InfoSeek - при расширенном поиске нужный документ был найден третьим в списке из десяти документов. Уточнение поиска привело только к миграции документа вглубь списка.
OpenText - документ занимает пятую строчку в списке из десяти документов. Как и в случае с InfoSeek уточнение запроса результатов не дало.
Yahoo - документ попал в список найденных и занял третье место (ошибка в запросе: вместо "on the" следовало указывать "of the"). Но здесь следует заметить, что основное место хранения этого документа база данных Yahoo, т.е. запрос точно совпадает с тематикой базы данных.
В завершении хотелось бы обратить внимание еще на один аспект выбора информационно-поисковой системы. Это профиль ее баз данных. Можно возразить, что все системы индексируют одно и тоже - массив документов Интернет. Однако делают они это по-разному. Очень важен профиль системы, который задается разбиением документов по темам и словарем индексирования, а также способом его поддержания. Определенным ориентиром здесь могут служить виртуальные библиотеки.
Заключение
Итоги теоретического исследования позволили нам выявить достоинства и недостатки различных ИПС, базирующихся на том или ином информационно-поисковым языке.
Так как каждая поисковая система предоставляет различные возможности поиска, из различных баз данных, поэтому информационный поиск на базе ИПС представляет собой достаточно сложный процесс познавательно-практической деятельности, требующий от поисковых субъектов априорной подготовки.
Анализ ИПЯ сети интернет поможет провести свой собственный выбор наиболее подходящего средства поиска, которое обеспечивало актуальность, быстроту и точность результатов.
Список литературы
1. ГОСТ 7.25-2001 СИБИД. Информационно-поисковые языки. Термины и определения - М.: Изд-во стандартов, 2001. - 38 с.
2. Егоров А.Б. Поиск в Интернете - Санкт - Петербург.: НиТ, 2007 г.
3. Захаров В.П. Информационно-поисковые системы: Учебно-методическое пособие. - Спб., 2005 г, 48 с.
4. Кузьмин А.В. Золотарева Н.Н. Поиск в Интернете - СПб.: Изд-во НиТ, 2006 г.
5. Лозовский Л.Ш., Ратновский Л.А. Интернет - это интересно. - М.: ИНФРА-М, 2007. - 128 с.
6. Н.А. Гайдамакин. Автоматизированные информационные системы, базы и банки данных, М.: "Гелиос", 2006.
7. Симонович С.В., Мураховский В.И. Интернет у вас дома: Полное руководство для начинающего пользователя. - М.: АСТ-ПРЕСС, 2008. - 432 с.
8. Храмцов П.И. Информационно-поисковые языки, М.: "Гелиос", 2008.
9. http://www.bestreferat.ru.
10. http://www.coolreferat.com.
11. http://ru.wikipedia.org.
Размещено на Allbest.ru
Подобные документы
Компоненты документальной информационно-поисковой системы. Результаты индексирования документов и запросов. Иерархическая, фасетная и эмпирическая классификационные схемы. Дескрипторные информационно-поисковые языки. Примеры дескрипторной статьи.
презентация [59,2 K], добавлен 14.10.2013Информационно-поисковый тезаурус, его определение и цель разработки. Организация быстрого и эффективного поиска документальной информации. Использование, структура, построение, сфера применения и перспективы развития информационно-поисковых тезаурусов.
контрольная работа [17,6 K], добавлен 01.08.2009Критерии эффективности информационно-поисковых систем: требования потребителя, полнота поиска, затраты труда, факторы, влияющие на характеристики. Ошибки при поиске, обусловленные несовершенством языка, процесса индексирования, поиска, другими причинами.
курсовая работа [77,2 K], добавлен 06.02.2014Отличительные особенности тезауруса для автоматического концептуального индексирования. Методы, используемые при формировании состава Общественно-политического тезауруса. Описание идеи алгоритма, основанного на учете структуры связного текста.
презентация [38,0 K], добавлен 01.09.2013Информационно-поисковый язык и словарь. Последовательность процедуры поиска. Фактографические, документальные и геоинформационные системы. Справочно-правовая система "Консультант Плюс", "Гарант". Структура и состав информационных продуктов "Кодекс".
контрольная работа [250,6 K], добавлен 07.10.2013Тезаурус для автоматического концептуального индексирования как особый вид тезауруса. Подходы к описанию отношений при разработке онтологий. Родовидовое отношение выше-ниже. Семантическое смещение. Формальная онтология. Сравнение поисковых механизмов.
презентация [721,9 K], добавлен 19.10.2013Основные принципы построения информационно-поисковых систем. Архитектура современных информационно-поисковых систем WWW. Принцип работы поисковых систем. Процесс поиска, информационный язык, перевод, дескриптор, критерий соответствия, индексирование.
курсовая работа [70,2 K], добавлен 10.06.2014Тезаурусы как инструмент для облегчения поиска языковых средств выражающих данное понятие. Виды, состав и структура тезауруса. Сущность информационно-поискового тезауруса по сохранности документов. Тезаурус терминов по морскому делу и парусному туризму.
контрольная работа [22,1 K], добавлен 01.07.2009Основные компоненты информационно-поисковых систем: предметная рубрика и информационно-поисковый язык. Виды синонимии в языке предметных рубрик. Формирование предметной рубрики и ее структура. Правила составления предметной рубрики, область применения.
контрольная работа [28,0 K], добавлен 25.06.2010Система "человек-машина" для автоматизированного сбора и обработки информации. Два вида информационных систем: информационно-справочные (пассивные) и информационно-советующие (активные). Критерии и подходы к классификации для управляющих сложных систем.
реферат [21,3 K], добавлен 27.02.2009