Проблемы разработки лингвистического обеспечения информационных сетей

Традиционные способы сбора и хранения языковых данных. Структура и оформление лингвистического обеспечения в автоматизированных информационных системах. Словарные базы данных, используемые в процессах лексикографического и терминологического контроля.

Рубрика Программирование, компьютеры и кибернетика
Вид контрольная работа
Язык русский
Дата добавления 12.03.2012
Размер файла 35,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Содержание

Введение

1. лингвистическоЕ обеспечениЕ

1.1 Лингвистические процессоры

1.2 Средства ведения словарей

2. Современные подходы к проблеме лингвистического обеспечения

2.1 Языковые средства ИПС

2.2 Классификация, типология ИПС

2.3 Основные недостатки ИПС

Заключение

Библиография

Введение

Любое лингвистическое исследование в той или иной мере опирается на анализ языкового материала, языковых данных. Чем больше материал, тем выше достоверность выводов, тем шире сфера действия наблюденных закономерностей. В традиционном языкознании сбору материала всегда придавалось особое значение. Более того, во многих областях лингвистики сбор новых языковых фактов может считаться основной задачей лингвистического описания - исследование неописанных и плохо описанных языков, выявление фонетических и морфологических различий в диалектах, изучение функционирования жаргонов.

Каковы традиционные способы сбора и хранения языковых данных? При традиционной технологии сбора и обработки языковых данных обновление собранного материала представляет собой отнюдь не тривиальную задачу. Текущая обработка картотеки, поиск нужных единиц и пр. - все эти абсолютно необходимые операции отнимают значительное время. Кроме того, традиционная технология делает практически невозможным доступ к языковым данным на расстоянии. Некоторые типы данных - корпусы текстов существовали в весьма ограниченном по объему виде (например, в виде хрестоматий, сборников текстов). Новые информационные технологии и технические средства (компьютерные системы, системы связи, системы мультимедиа) значительно облегчили сбор языковых данных. Так, поскольку компьютерные технологии широко используются в печатном деле и в средствах массовой информации, то существенно упростился процесс получения материала: большинство крупных газет имеют электронные версии, функционирующие в информационных сетях, в частности, в Интернете. Имеются довольно продуктивные устройства сканирования текста (сканеры) и эффективные программы расшифровки графической информации (<<картинки» текста) собственно текстовый формат (текст как совокупность графем).

Единица хранения корпуса данных. Поскольку корпус данных - это некоторая выборка из проблемной области, сформированная по определенным принципам, то единица хранения непосредственно зависит от того, по каким основаниям осуществляется выборка. Единица хранения - это не которая совокупность естественно, языковых выражений проблемной области, которой сопоставляется одно описание на некотором метаязыке, определяемом процедурой формирования корпуса.

Корпус текстов. Корпус текстов - это вид корпуса данных, единицами которого являются тексты или их достаточно значительные фрагменты, включающие, например, какие-то полные фрагменты макроструктуры тексов данной проблемной области.

1. ЛИНГВИСТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ

В автоматизированных информационных системах (АИС) выделение лингвистического обеспечения из состава информационного обеспечения и оформление его в качестве самостоятельной подсистемы было фактически завершено к 1976 году и получило юридическое закрепление

Действующие стандарты АИС

1. Структура, правила использования и ведения.

2. Индексирование документов. Общие требования к систематизации и предметизации.

3. Коммуникативный формат для обмена библиографическими данными на магнитной ленте. Содержание записи.

4. Коммуникативный формат для обмена библиографическими данными на магнитной ленте. Поисковый образ документа.

5. Информационная технология. Виды, комплектность и обозначения документов при создании автоматизированных систем.

6. Информационная технология. Термины и определения.

7. Методические указания. Информационная технология. Требования к содержанию документов.

8. Методические указания. Основные положения.

Полный перечень нормативных документов, определяющих состав информационного и лингвистического обеспечения.

С учетом указанных документов лингвистическое обеспечение АИС (ЛО) определяется как совокупность применяемых в технологии АИС информационных языков (ИЯ), лингвистических процессоров и средств поддержки лингвопроцессорных и информационно-языковых словарей на актуальном уровне, обеспечивающая выполнение системных функций:

- поиска в документальных БД АИС по тематическим запросам;

- выпуска информационных изданий (только в части формирования систематических рядов в выпусках изданий);

- межсистемного информационного взаимодействия (в части прямого и обратного конвертирования записей информационно-языковых словарей, а также в части прямой и обратной трансляции ПОДов с ЯИ АИС на ИЯ-посредники).

Этим определением оформляется существенно целесообразное в условиях АИС полное отделение ЛО от информационного обеспечения.

ИЯ АИС являются формальными языками и в функциональном аспекте подразделяются на:

a) языки индексирования (ЯИ), т.е. языки, на которых непосредственно строятся исходные поисковые образы документов и/или тематических запросов;

b) информационно-поисковые языки (ИПЯ), т.е. языки, на которых представляются ПОДы и тематические поисковые предписания для их непосредственной информационно-поисковой идентификации, реализующей критерий тематического соответствия документов запросам (КТС), заложенный в данный ИПЯ (неотделимость КТС от ИПЯ аналогична неотделимости ЕЯ от мышления);

c) информационные языки-посредники (ЯП), т.е. языки, на которых представляются ПОДы в записях документов в коммуникативных форматах.

В документальных БД АИС необходимо обеспечить поиск как по широкотематическим запросам, так и по запросам, сформулированным с точностью до детальных понятий. Эффективными для поиска по широкотематическим запросам являются только классификационные ИПЯ, для поиска по детальным запросам - только вербальные ИПЯ. Тексты на вербальных и классификационных ИЯ не представляются взаимотранслируемыми.

Следовательно, в составе ЛО требуется наличие хотя бы одного вербального и одного классификационного ИЯ.

Минимум дополнительных классификационных ИЯ, обеспечивающий достаточно большое покрытие потребностей внешнего информационного взаимодействия, - это ИЯ ДДК и УДК. Для общебиблиотечной сети России необходимым также является язык ББК.

Наиболее эффективным среда вербальных ИПЯ является язык ключевых терминов. Наиболее распространенным вербальным ЯИ в библиотеках является язык предметных рубрик.

Однако ПОДы могут транслироваться с ЯИ предметных рубрик на ЯИ и далее на ИПЯ ключевых терминов. Использование в АИС языка предметных рубрик в качестве ИПЯ представляется проблематичным (сложности с ведением и использованием словаря предметных рубрик, а также синтаксические трудности). Поэтому в состав ЛО РЦКК язык предметных рубрик включен только как один из допустимых языков индексирования, а как вербальный ИПЯ - язык ключевых терминов. Наличие языка ключевых терминов в составе ЯИ объясняется тем, что в некоторых АИС в качестве вербальных ЯИ непосредственно используются языки ключевых терминов.

Таким образом, принятый информационнщ-языковый состав ЛО РЦКК представляется наиболее эффективным относительно других возможных составов, как в функциональном отношении, так и с точки зрения его экономичности. Лингвопроцессорный состав ЛО РЦКК, исключая МП-процессоры, представляется логическим следствием его информационно-языкового состава.

1.1 Лингвистические процессоры

Обоснованием включения в состав ЛО РЦКК МП-процессоров служит наличие потребности в увеличении пропускной способности таких служб, как служба индексирования, служба переводов и словарнотерминологическая служба.

К числу лингвистических процессоров (ЛП) относятся:

Ш внутренние трансляторы (ВТ), в том числе трансляторы ПОДов с одних ЯИ на другие ЯИ или на ИПЯ;

Ш поисковые лингвистические процессоры (ПЛП), т.е. процессоры сопоставления ПОДов и поисковых предписаний, представленных на ИПЯ, и принятия решения об их тематическом соответствии;

Ш коммуникативные трансляторы, в том числе прямые коммуникативные трансляторы (ПКТ), т.е. трансляторы ПОДов с ЯИ на ЯП, и обратные коммуникативные трансляторы (ОКТ), т.е. трансляторы ПОДов с ЯП на ЯИ;

Ш процессоры актуализации лингвопроцессорных и информационно-языковых словарей; МП-процессоры.

Данный перечень может при необходимости пополняться.

Под лингвистическим обеспечением системы корпоративной каталогизации понимается применяемая в ее технологии совокупность информационных языков, словарных баз данных, лингвистических процессоров и средств актуализации словарей.

ЛО предназначено обеспечить :

- индексирование документов и запросов,

- эффективный поиск в документальных базах данных по содержательным запросам,

- внутрисистемную лингвистическую совместимость электронных каталогов библиотек России и лингвистическую совместимость системы с наиболее развитыми библиотечно-информационными центрами западных стран, в первую очередь - с OCLC

Словарные базы данных, используемые в процессах лексикографического и терминологического контроля входных записей документов, трансляции ПОДов с одних языков индексирования на другие, автоматического перевода элементов записей документов,индексирования запросов пользователей.

- База данных ГРНТИ.

- База данных УДК.

- База данных ДДК.

- База данных ББК.

- Базы данных тезаурусов.

- Базы данных грамматических словарей.

Лингвистические процессоры

- Процессоры трансляции ПОДов с одних языков индексирования на другие.

- Процессоры машинного перевода.

- Процессоры транслитерации.

- Процессоры трансляции ПОДов с ЯИ на соответствующие ЯП и обратные трансляторы.

- Процессор трансляции ПОДов с ЯИ на соответствующие ИПЯ.

- Процессор тематический идентификации текстов на ИПЯ.

Первые два вида процессоров являются самостоятельными, вторые два реализуются при конвертировании документов, а последние два - действуют в рамках системного программного обеспечения.

1.2 Средства ведения словарей

- Процессор словарно-грамматической фильтрации новых слов в ПОДах.

- Процессор тезаурусной фильтрации новых терминов в ПОДах.

- Процессоры актуализации словарей.

Применение элементов ЛО в технологии Центра корпоративной каталогизации реализуется в выполнении следующих функций, которые берет на себя подсистема автоматизированного словарного и лингвопроцессорного обеспечения (АСЛО):

1. Лексикографический и терминологический контроль входных записей документов;

2. Трансляция ПОДов с одних языков индексирования на другие;

3. Автоматический перевод элементов записей документов (элементов библиографической записи, аннотаций, ПОДов) с одних естественных языков на другие;

4. Словарное обеспечение индексирования запросов пользователей;

5. Автоматизированное ведение словарных баз данных;

5.1. Фильтрационная обработка ПОДов (выявление в ПОДах новых словарных единиц);

5.2. Актуализация словарных баз данных:

- Актуализация баз данных информационных классификаций в соответствии с официальными дополнениями и изменениями,

- Составление и ввод новых словарных статей в базы данных тезаурусов и грамматических словарей,

- Корректура словарных статей баз данных тезаурусов и грамматических словарей (устранение ошибок, ввод дополнительных элементов данных),

- Исключение устаревших словарных статей из баз данных тезаурусов и грамматических словарей (на основе анализа статистики употребления словарных единиц в ПОДах);

Словарно-информационное взаимодействие с организациями-поставщиками информации и другими организациями. Организационными единицами подсистемы АСЛО являются следующие группы:

- Группа управления,

- Группа ведения баз данных информационных классификаций,

- Группа ведения баз данных тезаурусов,

- Группа ведения баз данных грамматических словарей.

2. Современные подходы к проблеме лингвистического обеспечения

языковый автоматизированный лингвистический

Генеральная совокупность языковых средств, когда-либо использованная или использующаяся при разработке или эксплуатации различных автоматических, автоматизированных и даже механических информационных (в т.ч. информационно-поисковых) систем, обычно поименована в сообществе специалистов в этой области как лингвистическое обеспечение (ЛО). По общепринятому в профессиональной среде определению, лингвистическое обеспечение информационно-поисковых систем (ИПС) в целом - это набор логических и лингвистических средств и методов по обеспечению основной задачи информационного поиска.

С самого начала появления информационно-поисковых систем их главной частью считался информационно-поисковый язык (ИПЯ), что наиболее полно обосновано таким авторитетнейшим теоретиком в данной области, как А.И. Черный. Повышенное внимание к проблемам разработки ИПЯ, как в теории, так на практике, особенно характерно для начального периода 1960 -- 1970-х годов. По данным Н.И. Гендиной :

Пик публикаций по теме ИПЯ пришелся на 1974-1978 гг. В целом для работ этого периода развития ИПС и ИПЯ характерно выявление природы ИПЯ через его сопоставление с естественные языком. Большое внимание уделялось разработке конкретных языков, разработке и использованию методик индексирования.

Наряду с термином ИПЯ широко стал использоваться термин «лингвистическое обеспечение». Наиболее общеупотребимы следующие два определения:

«Лингвистическое обеспечение - это комплекс средств представления информации в виде данных и интерпретации данных в процессе функционирования информационных систем».

«Лингвистическое обеспечение - комплекс мероприятий, направленных на разработку языковых средств автоматизированной системы, а также сами средства». Данный термин стал применяться для обозначения всего комплекса языковых средств, используемых в ИПС собственно ИПЯ, методики индексирования, методики составления тезаурусов, различных правил, вспомогательных средств создания и ведения ИПЯ и т.п. [216].

К лингвистическому обеспечению ИПС стали относить и специальные языковые средства поиска в режиме диалога, и языковые средства мультибазового поиска, и средства автоматизации вспомогательных процессов в ИПС, предназначенные для ведения машинных словарей.

Развитие языковых средств систем управления базами данных языков описания данных, языков манипулирования данными, а также различных языков программирования еще более расширили сферу применения понятия лингвистического обеспечения .

2.1 Языковые средства ИПС

Кроме термина «лингвистическое обеспечение ИПС» также широко используется термин «языковые средства ИПС». Чаще всего они используются как синонимы. Рассмотрим составляющие значений этих двух терминов, обратившись к словарям русского языки: Лингвистический:

а) языковедческий - относящийся к лингвистике;

б) языковой - относящийся к языку.

Обеспечение - то, что обеспечивает исполнение, реализацию. Средство -- а) прием, способ действия для достижения чего-либо; б) орудие для осуществления какой-либо деятельности.

Таким образом, с точки зрения внутренней формы мы не видим принципиальной разницы в значении этих терминов. Также, как правило, не делают различий и специальные терминологические словари.

Нередко в понятие «лингвистическое обеспечение (языковые средства) ИПС» включают всю совокупность языков, которые применяются как для составления программ, так и в процессе функционирования ИПС. В этом случае данный термин становится синонимом для термина «средства общения человека с машиной». «Под языковыми средствами информационной системы мы будем <...> понимать весь комплекс языков и систем знаков (включая и естественный язык), используемых при проектировании автоматизированных информационных систем (АИС), составлении программ и в ходе информационных процессов, реализуемых на ЭВМ как программными средствами, так и пользователями АИС». В состав языковых средств авторы указанной работы включают языки программирования, информационные языки, языки представления служебной или вспомогательной информации, используемой алгоритмами обработки сообщений, языки описания структур информации, в том числе структур массивов и сообщений, используемых программами обработки, служебные языки сервисных программ. «С точки зрения использования указанных языковых средств в процессах функционирования АИС их можно разделить на средства представления информации и средства доступа к ней. Для человека средствами доступа являются не только информационные языки, но и языки программирования».

С таким расширительным толкованием ЛО никак нельзя согласиться. У языков программирования и информационных языков совершенно разное назначение. Поэтому вряд ли правомерно говорить о стирании грани между языками этих двух типов . Лингвистические средства информационного поиска определяют «стратегию», а программные, к которым относят языки программирования, языки описания структур данных и т.п., реализуют эту «стратегию» в той или иной вычислительной среде.

Построение классификационной схемы языковых средств представляется нам важным как с теоретической, так и с практической точки зрения.

Классификация -- это один из способов логического анализа сложных систем. Расположение явлений по какой-то определенной схеме, выбранной исследователем для решения стоящих перед ним познавательных задач, -- это взгляд на систему в некотором специальном ракурсе, позволяющем отчетливо увидеть то, что ранее оставалось незаметным.

Вопросы типологии языковых средств на современном уровне рассматриваются во многих работах. Однако объем и содержание понятия ЛО в его современном понимании наиболее адекватно представляет нижеследующая трактовка, отраженная впервые также в работе:

1. Информационно-поисковый язык, служащий для описания содержания

документов в виде, пригодном для поиска.

Алфавит и микросинтаксис ИПЯ.

Средства представления плана содержания:

* словари, тезаурусы;

* вспомогательные словари (единиц измерений, сокращений и т.п.);

* рубрикаторы, классификаторы;

* грамматические средства;

* форматы.

Уровень представления естественно языковой информации (правила представления текстов на ЕЯ).

2. Процедурные средства информационного поиска:

а. Средства поиска:

* язык запросов;

* средства автоматической адресации запросов к базам данных;

* единые командные языки;

* критерий смыслового соответствия;

б. Средства обеспечения совместимости различных языков:

* таблицы соответствия;

* таблицы конвертирования;

* протоколы.

с. Средства семантической обработки данных:

* процедуры автоматической индексации документов и запросов;

* процедуры автоматической классификации документов;

* процедуры автоматизированного построения поисковых предписаний;

* процедуры автоматизированного обнаружения ошибок. (2.4). Средства обработки текстов на ЕЯ и поддержки ЛО:

* программно-алгоритмические средства морфологического и синтаксического анализа;

* машинные словари лексических (слов, словосочетаний) и морфологических единиц ЕЯ (основ, флексий, префиксов, префиксоидов);

* процедуры автоматизированного составления и ведения машинных словарей;

* грамматические таблицы ЕЯ;

* документация по ЛО.

2.2 Классификация, типология информационно-поисковых языков

В рассматриваемой схеме очевидна репрезентация ядерного компонента проблемной области ЛО, которым является концептуальная структура инструментария ИПЯ. По этой причине типологическая классификация основных системообразующих факторов представляется наиболее значимой отправной точкой рассмотрения настоящего методологического аспекта.

Общепризнаны соответствующие виды и типы ИПЯ. В качестве примеров информационных языков, применяемых в информационном поиске и информационно-библиотечной деятельности приводят иерархические классификации, дескрипторные языки, фасетные классификации, язык библиографического описания, язык предметных рубрик и многое другое.

Искусственные языки зачастую описываются по аналогии с естественными. С одной стороны, часто эта аналогия чисто внешняя, с другой стороны, общепринятый и понятный метаязык лингвистики создает общую языковую среду для разных авторов и читателей. Постепенно в теории информационного поиска сформировалась и своя терминология.

Информационные языки делятся на разные типы в зависимости от их целевого назначения и устройства. Вопросы типологии информационных языков подробно рассмотрены во многих работах, в числе которых -- одна из первых отечественных монографий на эту тему. Для этой работы, как и для всех работ периода становления теории информационного поиска в целом, характерно соотнесение искусственных информационных языков с естественными языками.

Любой письменный язык, в том числе и искусственный, состоит, по крайней мере, из трех компонентов: алфавит, словарь, грамматика. Исходя из такого понимания ИЯ и базируясь на инструментарии традиционного лингвистического описания, В.Л. Москович выделяет внешние и внутренние по отношению к языку признаки, на основании которых строится классификация. «Внешние признаки ИЯ характеризуют ИЯ с точки зрения условий ее применения. При этом нас может интересовать тип документов, обрабатываемых ИПС, характер тематики обрабатываемого фонда документов и т.п.» .

«Внутренние по отношению к ИЯ признаки характеризуют способы организации понятий и формы их выражения». Классификация ИЯ по внутренним признакам позволяет обнаружить основные структурные типы ИЯ, сходства и различия всех типов.

В работе рассматриваются способы организации понятий и способы их выражения, степень выраженности синтагматических и парадигматических отношений. По способам выражения понятий автор делит языки на классификационные, дескрипторные, пиктографические, фонетические.

Увеличение количества ИПЯ, расширение сферы их использования вызвали к жизни и многие другие классификации . Характерная особенность большинства из них -- многоаспектность, что является следствием желания в рамках одной классификации отразить разные стороны структуры и функционирования ИПЯ. Появилось много работ, посвященных языкам фактографических ИПС в сопоставлении с документальными.

Наиболее известной и распространенной классификацией, вошедшей в учебные пособия является классификация А.И.Черного, впервые предложенная в работе и в переработанном виде изложенная в работе. Эта классификация основывается на понятии координации, которое представляет собой операцию пересечения (логического умножения) понятий. Авторы исходят из того, что основное содержание документов можно задавать в виде набора лексических единиц (ЛЕ) ИПЯ -- «индексов», на множестве которых во время поиска выполняются различные логические операции. В качестве ЛЕ ИПЯ выступают имена понятий или классов понятий. Операция построения новых сложных (более узких) классов из имеющихся может строиться по-разному: путем дробления понятий или путем пересечения более простых классов; в разных «местах» системы: при построении ИПЯ или при его использовании.

Если ИПЯ имеет такую структуру и правила индексирования, при которых индексирование документов производится приписыванием им предварительно построенных сложных классов, а имена этих классов становятся поисковыми образами, то такой ИПЯ называется предкоординированным. Если же поисковый образ документа состоит из простых классов, а операция координации (построение сложных классов путем пересечения простых) реально происходит только при поиске (после индексирования), то такой ИПЯ называется посткоординируемым. С учетом высказанных положений общая классификация ИПЯ, предложенная А.И. Черным, имеет следующий вид:

1. Предкоординированные ИПЯ.

1.1. Иерархические классификации.

1.2. Алфавитно-предметные классификации.

1.З. Фасетные классификации.

2. Посткоординируемые ИПЯ.

2. 1. Дескрипторные языки.

2.2. Семантические языки.

2.З. Синтагматические языки.

3. Язык библиографических ссылок.

В ряде работ справедливо отмечались недостатки данной классификации. И это естественно по упомянутой выше причине: желание отразить все многообразие языков и их особенности не укладывается в простую древовидную схему. Нам здесь важна не схема сама по себе, а задача показать место дескрипторных ИПЯ в противопоставлении их иерархическим классификациям. Рассмотрим указанные типы языков.

1. Предкоординированные ИПЯ.

Предкоординированные ИПЯ объединяет то, что в них заранее перечислены имена всех основных классов и подклассов. К этим языкам относятся классификации понятий. В основе построения классификаций лежит деление понятий, а сами классификации имеют структуру «дерева знаний» с поименованными узлами. Для каждого узла дерева дается идентификатор (имя) -- обозначение понятия. Наиболее известны и распространены иерархические классификации, в числе которых в качестве примера можно привести Универсальную десятичную классификацию (УДК), Рубрикатор ГАСНТИ, Международную классификацию изобретений (МКИ), Общесоюзный классификатор продукции (ОЮТ) и др. В иерархических классификациях обычно каждый класс обозначается цифровым или буквенно-цифровым кодом, который сопровождается названием понятия на естественном языке и имеет постоянное определенное место относительно других классов.

Пример предкоординированного языка -- Универсальная десятичная классификация (УДК).

Алфавитно-предметные и фасетные классификации также основываются на предварительном составлении перечня основных категорий и классов предметов, встречающихся в конкретной предметной области. В алфавитно-предметных классификациях классы понятий называются словами естественного языка и располагаются в алфавитном порядке.

Алфавитно-предметные классификации предназначены для узкопредметного поиска документов, главная тема которых обозначается соответствующим предметным заголовком, и применяются в основном для составления указателей к систематическим каталогам.

Учитывая неизбежную многоаспектность в типологии ИПЯ, нам представляется, что более существенным основанием для противопоставления предкоординированных и посткоординируемых языков является фактическое наличие (во втором случае) и отсутствие (в первом) операции координации. И с этой точки зрения правильнее относить язык предметных рубрик (ПР), ЛЕ которого способны участвовать в операции координации, к ограниченным дескрипторным языкам, основа которых -- «предкоординированный» словарь индексирования. Это подтверждается опытом использования в некоторых библиотеках языков ПР для тематического поиска.

Например, для классификации кинофильмов можно выделить четыре фасета: жанр, метраж, цвет и формат. В каждом из фасетов перечисляются термины, характеризующие фильмы с точки зрения данного аспекта. Тогда поисковый образ любого фильма будет состоять из набора четырех терминов-признаков, выбранных из четырех фасетов.

Выскажем здесь одно замечание, а именно: фасетные классификации фактически являются языками объектно-признакового типа, используемыми в фактографических системах. В связи с большой трудоемкостью разработки фасетных классификаций для документального поиска они могут быть созданы только для узких предметных областей. Методика индексирования с применением фасетных классификаций также сложна. Поэтому на практике в автоматизированных документальных ИПС эти классификации широкого применения не нашли.

2.3 Основные недостатки ИПС

Основные недостатки всех классификаций как информационно-поисковых языков заключаются в следующем:

1) невозможность обеспечить многоаспектное индексирование;

2) недостаточная глубина деления;

3) постоянное отставание от развития науки и техники.

2. Посткоординируемые ИПЯ.

В отличие от предкоординированных ИПЯ, предназначенных в основном для систематизации литературы, эти языки несравненно лучше позволяют описать содержание отдельных документов. Развитие автоматизированньк ИПС в основном оказалось связано с ИПЯ дескрипторного типа. Поэтому все основные положения теории ИПЯ и проблемы их применения в дальнейшем будут обсуждаться применительно к этим языкам.

В основу построения дескрипторных языков положен принцип координатного индексирования, заключающийся в том, что главная тема документа описывается перечнем дескрипторов (от англ. describe .-. описывать)-- слов, являющихся именами простых понятий. Такие слова выступают в качестве как бы координат документов в некотором умозрительном п-мерном предметно-тематическом пространстве.

Принцип координатного индексирования был разработан в 1950-х годах в процессе создания механизированных ИПС. Однако сам принцип описания содержания документов через перечисление «ключевых слов» существует издавна. Одной из первых дескрипторных ИПС была система УНИТЕРМ, разработанная в США М. Таубе. В ней в качестве индексов, описывающих содержание документов и запросов, использовались ключевые слова, выбранные из текста. Все такие слова (унитермы) имели одинаковый иерархический ранг. Словарный состав унитермных языков не разрабатывался предварительно, а формировался непосредственно в процессе индексирования. Координация, или логическое умножение понятий, в результате которой из простых лексических единиц строятся более сложные, выражающие более узкие понятия, осуществлялась как бы дважды: потенциально -- при индексировании документа и реально - в процессе поиска: при сопоставлении поискового образа документа с терминами запроса (поискового предписания). Например, пересечением понятий БИБЛИОТЕКИ и АВТОМАТИЗАЦИЯ, заданных в поисковом предписании, порождается новое более узкое понятие АВТОМАТИЗАЦИЯ БИБЛИОТЕК. Логическое умножение понятий хорошо иллюстрируется на кругах Эйлера.

Отдельная проблема -- действительно ли образованное таким образом сочетание терминов является именем понятия и всегда ли. Известно явление ложной координации понятий. И именно исходя из этого принципа описания документов, когда содержание представляется как набор «ключевых» понятий, мы предлагаем относить алфавитно-предметные классификации к языкам дескрипторного типа. В библиотечном деле этот принцип называется предметным индексированием. Понятие предмета при этом фактически не имеет точного определения, хотя и является интуитивно понятным. В англоязычной литературе по информационному поиску для принципа предметного индексирования иногда используется термин «aboutness».

Заметим, что именно такое определение предмета является основным в руководствах по предметизации. Во многих современных источниках, в частности в работах В.П. Леонова , показано, что понятие «предмет документа» связано с процессом свертывания и развертывания информации. В зарубежных работах по библиотековедению и информатике для определения сущности понятия «предмет документа» используется теория Т. Ван Дейка. По Ван Дейку восприятие текста -- это акт когнитивной редукции (компрессии). Этот акт состоит в опускании информации, менее значимой для читающего, которое продолжается до тех пор, пока важная информация не будет приведена в такое состояние, что ее можно сохранить в памяти. Результатом этого процесса и будет тема, предмет, содержание документа.

В документальных ИПС содержание документа складывается из смыслового содержания и формальных характеристик. Среди формальных характеристик для нас наибольший интерес представляет библиографическое описание документа. Библиографический поиск по существу являясь документальным, в то же время по форме смыкается с фактографическим. Дело в том, что существуют два основных способа идентификации сущностей в информационных языках -- прямой и атрибутный. При прямом, когда сущностям соответствуют их имена, являющиеся элементами языка, в основе лежит семантика естественного языка. Фактически имена заменяют сами сущности. При атрибутном способе идентификации каждая сущность представляется в объектно-актантной форме, в виде имени функции (имени сущности) и значений, т.е. атрибутов. Дескрипторные языки характеризуются прямым способом идентификации, библиографические -- атрибутным.

Для библиографического описания и поиска существуют специальные языки. Это язык библиографического описания (ЯБО) для традиционных систем, который А.И. Черный выделил и отдельный класс, и машинный библиографический формат для автоматизированных систем. Эти языки будут рассмотрены нами ниже.

Представление смысла документов является главным назначением искусственных информационных языков. В дескрипторных ИПЯ семантическая задача решается, по сути дела, приблизительным формальным способом. Гораздо ближе к этой проблеме подошли создатели семантических и синтагматических языков, среди которых наиболее известны семантический код Перри -- Копта, язык RX-кодов и язык СИНТОЛ. Их разработчики основную задачу видели в обеспечении однозначного перевода с естественного языка на ИПЯ с учетом семантических и синтаксических факторов. Долгое время существовала идея о наличии некоторых «информационных» универсалий, которые необходимо заложить в информационно-поисковый язык в качестве его семантической основы. По общепризнанному мнению, эта идея в значительной степени зародилась на «дрожжах» теории грамматик Н. Хомского, оказавшей мощное влияние на все сферы языковой деятельности, в том числе и на информационный поиск. Характерная особенность этих языков -- наличие средств, явно описывающих семантическую и семантико-синтаксическую структуру понятий и выражений (семантические множители, термы, реляторы, предикаты, сущности и т.п.).

Заключение

Если под ИПС мы понимаем «совокупность информационно-поисковых массивов, их носителей, информационно-поискового языка, правил его использования, критерия выдачи, программных и технических средств», то традиционные ИПС, как правило, представлены системой карточных каталогов и картотек: алфавитных, предметных, систематических и т.п. в качестве информационно-поисковых массивов, причем носителем сведений о документе являются бумажные карточки, а информационно-поисковыми языками являются элементы библиографического описания (автор индивидуальный или коллективный, тип документа, язык документа и т.д.), классификации отраслей знания (УДК, ББК, десятичная классификация Дьюи и т.п.), схемы предметных рубрик и т.п. «Информационно-поисковый язык (ИПЯ) - это формализованный искусственный язык, предназначенный для индексирования документов, информационных запросов и описания фактов с целью последующего хранения и поиска».
Информационно-поисковые языки (ИПЯ) и дополняющие их методики систематизации документов, инструкции по ведению ИПЯ и каталогов и т.п. составляют лингвистическое обеспечение традиционных ИПС. Карточная система каталогов и картотек, созданная на основе классификационных ИПЯ, обеспечивала эффективный поиск информации в ИПС. В современных автоматизированных ИПС используются как традиционные,. так и специально разработанные ИПЯ (рубрикаторы, словари ключевых слов, тезаурусы и т.д.). Информационными массивами являются электронные каталоги и БД на машиночитаемых носителях; организация и использование информационных массивов определяются соответствующими стандартами и обеспечиваются программными и техническими средствами. Эффективность информационного поиска в автоматизированных ИПС в значительной степени зависит от ее лингвистического обеспечения: ИПЯ и средств их ведения и поддержки. От лексического богатства ИПЯ зависит полнота раскрытия тематического содержания документа, а значит полнота и релевантность выявленной в процессе поиска информации. Чем богаче терминологическая база ИПЯ, чем совершеннее его структура, тем шире его поисковые возможности и эффективнее информационный поиск его средствами. От выбора лингвистического обеспечения зависит совместимость языковых средств данной ИПС с другими, а значит и возможности информационного поиска в них, поскольку совместимость лингвистического обеспечения - это возможность использования в ИПС поисковых образов документов на одном ИПЯ, а поисковых предписаний на другом ИПЯ, а также возможность автоматического или ручного перевода поискового образа документа с одного ИПЯ на другой.

Библиография

1. http://habrahabr.ru/blog/yandex/34614.html

2. http://marketshare.hitslink.com

3. http://www.comscore.com/press/release.asp?press=2018

4. http://www.user-agents.org/index.shtml

5. А.Б. Антопольский, «Языковые средства ИПС»

6. А.Б. Антопольского, ГТ. Артамонова «Проблемы разработки лингвистического обеспечения информационных сетей» (1986 г.)

7. Ашманов И.С., Поисковые системы

8. В.М. Экстрем, «Важность лингвистического обеспечения»

9. Г.Г. Белоногов, «Средства ведения словарей»

10. Дворкиной М.Я., Проблемы лингвистических средств для библиотечных технологий

11. Е.М.Зайцевой., «Информационные - поисковые системы»

12. Иванов А.А. Продвижение сайта в поисковых системах

13. Колисниченко Д.Н. Поисковые системы и продвижение сайтов в Интернете.

14. Ландэ Д.В. Поиск знаний в Internet.

15. М.: Вильямс, 2007. -- 304 с. -- ISBN 978-5-8459-1155-1

16. М.: Диалектика, 2007. -- 272 с. -- ISBN 978-5-8459-1269-5

17. О.А. Лавреновой, «Коллективный разум»

18. О.А. Фуралева, «Основные недостатки ИПЯ»

19. Ю.М. Арский, «Проблемы ЛО»

Размещено на Allbest.ru


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.