Использование информационно-поисковых языков в процессе научной обработки документов и создания электронных каталогов

Поисковый образ документа - текст, состоящий из лексических единиц, предназначенный для реализации информационного поиска. Библиографическое описание - технологический процесс, используемый при создании лингвистических средств к электронным каталогам.

Рубрика Педагогика
Вид статья
Язык русский
Дата добавления 01.02.2019
Размер файла 21,6 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru

Размещено на http://www.allbest.ru

В последние годы в библиотечной практике, в результате внедрения автоматизированных технологий, появляются проблемы, решение которых приводит к значительным изменениям привычных процессов. В первую очередь это касается процессов научной обработки литературы, ведь недаром активное продвижение компьютеризации в подавляющем большинстве библиотек началось с электронных каталогов (ЭК).

Преимущество ЭК перед традиционным - значительно более широкий набор параметров, по которым возможен поиск информации, что влечет за собой усложнение процессов каталогизации. Прежде всего это касается лингвистического обеспечения (ЛО), а именно использования различных информационно-поисковых языков (ИПЯ), применение которых формирует поисковый образ документа (ПОД).

ПОД - текст, состоящий из лексических единиц ИПЯ, выражающий содержание документа или информационного запроса и предназначенный для реализации информационного поиска.

ИПЯ - это формализованный искусственный язык, предназначенный для индексирования документов, информационных запросов и описания фактов с целью последующего хранения и поиска.

Библиотеки России и стран СНГ используют в своей работе межгосударственный ГОСТ «Информационно-поисковые языки. Термины и определения», где перечислены все существующие ИПЯ, дана их характеристика, приводятся их основные элементы. В Украине этот ГОСТ еще не принят, поэтому наши библиотеки не могут использовать его в работе и оперировать его положениями.

От лексического богатства ИПЯ зависит полнота раскрытия тематического содержания документа, а значит полнота и релевантность выявленной в процессе поиска информации. Чем богаче терминологическая база ИПЯ, детальнее индексирование, совершеннее структура, тем шире его поисковые возможности и эффективнее информационный поиск его средствами.

ИПЯ составляют основу ЛО информационно-поисковых систем (ИПС), как традиционных (карточные каталоги), так и электронных (АИБС).

В зависимости от разновидности лексических единиц ИПЯ делятся на виды:

1. Классификационные ИПЯ:

Иерархические классификации (ББК, УДК, МКИ, рубрикаторы)

Неиерархические классификации или линейные (предметные рубрики, АПК)

2. Дескрипторный ИПЯ (предназначен для координатного индексирования документов и информационных запросов посредством дескрипторов - понятий или ключевых слов).

3. Язык библиографического описания (ЯБО)

4. ИПЯ объектно-признакового вида (инвентарный номер, номер акта, штрих-код, место хранения издания в фонде и т.д.).

Данный перечень не является исчерпывающим, т.к. для развития локального ЛО характерна тенденция к расширению спектра языковых средств. Так, в качестве ЛО в вузовских библиотеках создается язык изучаемых дисциплин, кафедр, специальностей и т. д.

Эффективность информационного поиска в ЭК в значительной степени зависит от качества индексирования документов.

Индексирование - это процесс перевода содержания документов и запросов с естественного на информационно-поисковый язык, в результате чего создаются поисковые образы документов. Наряду с составлением библиографического описания, реферированием, аннотированием, составлением обзоров, индексирование является разновидностью аналитико-синтетической обработки или свертывания информации.

Независимо от того, какой конкретно ИПЯ используется, в процессе индексирования принято выделять два этапа:
1. Анализ содержания и формы индексируемого источника (документа или запроса).
2. Перевод результатов анализа с естественного языка на ИПЯ, составление ПОД.
Результаты индексирования самым существенным образом связаны с качеством поиска в любой ИПС. Поэтому повышение эффективности индексирования было и остается первостепенной задачей каждой библиотеки. Важнейшими показателями, позволяющими оценить качество индексирования, являются глубина и полнота перевода характеристик документа на ИПЯ.
Глубина индексирования отражает степень детальности ПОД. В случаях использования классификационных ИПЯ глубина индексирования будет тем больше, чем большим количеством знаков будет располагать присвоенный документу классификационный индекс. Глубина индексирования неразрывно связана с таким показателем как точность информационного поиска. Глубина индексирования, удлинение индекса открывает возможности для повышения точности информационного поиска, позволяет и систематическому каталогу и ЭК давать ответы на «узкие» информационные запросы. Индексирование усиливает избирательность информационного поиска, повышает условия комфортности для пользователя при работе с каталогами, увеличивает оперативность поиска, уменьшает число отказов.
Полнота индексирования отражает широту тематического содержания документа, она связана с количеством характеристик, содержащихся в ПОД. Чем больше ИПЯ участвует при создании ПОД, тем полнее индексирование. Если при создании ПОД используются все виды ИПЯ (помимо элементов библиографического описания - индексы классификации, предметные рубрики, ключевые слова), такому документу обеспечена полнота информационного поиска.
Только через повышение полноты и точности индексирования документов и запросов АИБС могут достичь ощутимых результатов в расширении сервисных возможностей и информационного комфорта для потребителей информации.
Как правило, запись в ЭК содержит несколько ИПЯ или их элементов: библиографическое описание, международный стандартный номер, номер учета (инвентарный, регистрационный), штрих-код, классификационный индекс, авторский знак, предметные рубрики, ключевые слова, место хранения издания в фонде, для учебной литературы - название дисциплины и контингент студентов. У нас в библиотеке это еще и содержание книг, сборников, частично - периодических изданий.
Все эти сведения составляют набор лингвистических средств к ЭК, которые обеспечивают быстрый и многосторонний доступ потребителя к документу, обеспечивают поиск в рамках внутрибиблиотечной технологии.
Повышение эффективности раскрытия содержания документов и запросов с помощью лингвистических средств - серьезная задача. Процедура индексирования входит в комплекс сложнейших интеллектуальных операций аналитико-синтетической обработки документов, а результаты выполнения этих процедур существенным образом определяют эффективность функционирования каталогов, в т.ч. ЭК.
В создании лингвистических средств к ЭК, как правило, задействованы следующие технологические процессы:
- комплектование и учет,
- техническая обработка,
- библиографическое описание,
- систематизация, предметизация,
- работа с фондом.
Вопросам ЛО библиотекой УИПА всегда уделялось большое внимание. С первых шагов по созданию ЭК («Liber-Media») были приняты решения:
- о вводе полного библиографического описания не только на новые поступления, но и на документы ретроввода;
- о создании предметных рубрик, хотя опыта работы с предметными рубриками библиотека к тому времени не имела;
- о вводе данных факультет - кафедра - дисциплина в поля предметных рубрик для учебных изданий;
- о вводе содержания книг, которое участвовало в поиске.

Большая работа была проведена в свое время с БД ЭК по редактированию отдельных элементов ЛО после конвертации из программы «Liber-Media» в программу «ИРБИС-32». Редактировались следующие элементы ЛО:

- ИПЯ библиографического описания:

- индивидуальный автор и инициалы,

- коллективный автор,

- названия журналов и кумуляция по годам издания,

- восстановлены названия серий (1143 серии),

- для законодательных материалов заполнены необходимые поля для вывода данных в соответствии с ГОСТом.

Классификационный ИПЯ:

- шифры систематизации УДК и ББК,

- предметные рубрики,

ИПЯ объектно-признакового вида:

- количество и место хранения многоэкземплярной литературы.

Переход на АБИС «ИРБИС-32» повлек изменения в ЛО ЭК, что способствовало совершенствованию качества ЭК, изучению и использованию оптимальных лингвистических средств.

Современные АИБС предлагают технологию создания автоматизированного ЛО, в частности, формирование словарей на основе данных электронной записи. Именно словари обеспечивают быстрый (не связанный с последовательным перебором) поиск информации в БД ЭК.

В библиотечных системах разработано и широко внедряется в практику автоматизированное рабочее место систематизатора на базе классификационной системы. Такая система обеспечивает навигацию в классификационной схеме по вертикали и по горизонтали на основе ссылочного аппарата, поиск по индексам и по ключевым словам.

Обязательным элементом ЛО современных программных продуктов являются файлы авторитетных данных, которые учитывают расхождения в библиографических записях: имен авторов, наименований коллективов, названий сериальных изданий, унифицированных названий классических анонимных сочинений, предметных рубрик и т.д.

Из автоматизированных лингвистических систем другого рода наиболее распространены системы, обеспечивающие поиск в электронном каталоге с использованием тезауруса.

Тезаурус применяется как терминологический словарь, в котором обозначены структурные связи. Если в обычном толковом словаре по слову находится его значение, то в тезаурусе по значению, которое записывается определенным способом, находят слово или несколько слов, выражающих искомое значение. Информационно-поисковые тезаурусы, возникшие, в первую очередь, как дополнительный аппарат информационно-поисковых систем, строятся в виде списков терминов, их определений и связей. С помощью тезаурусов специалисты, связанные с аналитико-синтетической обработкой информации, стремятся к унификации, стандартизации, упрощению формы выражения.

Все вышеназванные возможности современных АИБС заложены и в программе ИРБИС.

В ИРБИСе автоматически по мере ввода данных создается многообразие словарей, в т.ч. словарь ключевых слов, для которого слова извлекаются из всего текстового материала документов, словарь авторов, заглавий и т.д.

Встроенные словари, формально-логический контроль вводимых данных, а также автоматическая сверка на дублетность во многом определяют качество ЭК. Все эти средства, предложенные разработчиками, можно настраивать пользователям самостоятельно. Так, нами создано несколько новых словарей, разработан новый сценарий поиска по БД «Книгообеспеченность» при помощи рубрикатора «Кафедра-дисциплина».

ИРБИС предлагает средства автоматизированного индексирования по УДК или ББК на основе базы данных Алфавитно-предметного указателя. Полная версия БД АПУ для УДК - объемом порядка 130000 записей - предлагается ГПНТБ как отдельный продукт. Соответствующие режимы в АРМе "Каталогизатор" обеспечивают работу с полным АПУ или его фрагментом, и в том и в другом случае обеспечивается "навигация" по ссылкам типа "смотри также". Аналогичные средства предлагаются для поиска по АПУ в АРМе "Читатель".

ИРБИС располагает возможностью встраивания тезауруса.

В типовой библиотечной системе, не ориентированной ни на какую конкретную тематику, разумеется, не может быть никакого встроенного, готового, тезауруса, но имеются две адаптации ИРБИС, связанные с встраиванием конкретных тематических тезаурусов. Это версии ИРБИС с встроенным тезаурусом по сельскому хозяйству, выполненная ЦНСХБ, версия для медицинской библиотеки с тезаурусом MeSH, с тезаурусом по педагогике ГНПБ им. К.Д. Ушинского. В качестве основной задачи по ЛО на ближайшее время мы предполагаем ознакомление с тезаурусом по педагогике ГНПБ им. К.Д. Ушинского. Разработанный на основе Тезауруса ЮНЕСКО, он ведется в НПБ им. К.Д. Ушинского с 1993 года и применяется в качестве ИПЯ дескрипторного типа.

С целью обеспечения единообразия в заполнении полей ввода, расширения поисковых возможностей программы ведутся Авторитетные файлы. Авторитетный файл является мощным инструментом каталогизаторов не только при описании соответствующих документов, но и, что более важно, при организации поиска. Библиотекой УИПА создается АФ «Индивидуальный автор» для изданий и публикаций сотрудников академии.

Создание и последующее использование словарей, тезаурусов, авторитетных файлов помогают при составлении электронной записи на документ и участвуют в создании ПОД.

При разработке ЛО ЭК необходимо решить несколько проблем:

1. проблема поиска в ЭК;

2. совместимости лингвистических средств;

3. обмена данными.

Проблема поиска в ЭК.

ЛО ЭК самым существенным образом влияет на качество поиска. Обеспечение релевантного поиска, пожалуй, основная цель разработки системы ЛО ЭК.

Как показывает зарубежный и отечественный опыт, читатели больше предпочитают поиск по языкам вербального типа, чем по языкам классификационного типа.

В качестве одного из основных видов поиска ИРБИС предлагает поиск по ключевым словам. Но на запрос по ключевому слову формируется информационный массив, содержащий большое количество информационного шума (ИШ), в котором пользователю бывает сложно ориентироваться. Установленного определения ИШ нет, но можно согласиться с определением датчанина Ларсона фон Триера: «Любая излишняя, ненужная и несвоевременная информация может квалифицироваться как информационный шум».

Сукиасян Э.Р. предлагает в качестве основного поиска для вузовской библиотеки классификационный, мотивируя это тем, что в вузе, как и в структуре хозяйства и в экономике применяется отраслевой принцип. Система поиска по таблицам классификации моделирует процесс поиска по систематическому каталогу. Но для этого читатель должен иметь возможность видеть в ЭК таблицу классификации и выбрать адекватное запросу деление. Такая возможность предусмотрена в ИРБИСЕ, если имеется встроенный АПУ для таблиц классификации.

Работая с АИБС ИРБИС с 2006 г., мы можем сделать выводы о достоинствах и недостатках ее поисковых сервисов, которые достаточно полно сформированы и представлены пользователям в АРМах «Каталогизатор» и «Читатель». Здесь поиск реализован с максимальным учетом всех словарей, которые формирует программа в процессе ввода данных о документе, всех лингвистических средств. Поисковые же возможности Web-модуля ограничены:

- неудобен поиск по автору, т.к. инициалы автора не участвуют в формулировке запроса, в результате чего на экран «высыпается» информационный массив, который содержит информацию об изданиях всех однофамильцев автора (ИШ),

- не принимают участия в поиске через Web-модуль и данные Авторитетного файла «Индивидуальный автор», где работы одного автора на разных языках связаны между собой ссылками. В АРМе Web-ИРБИС-32 эти связи не работают,

- предметные рубрики участвуют в поиске через ключевые слова, причем ввести в поисковое поле можно не более 3-х слов, иначе поиск не сработает. Читатель об этом знать не может. Хотелось бы, чтобы пользователь имел возможность посмотреть словарь предметных рубрик и выбрать нужную. Пока такой возможности нет,

- неподготовленному пользователю сложно найти в ЭК зарегистрированные номера журналов, если они расписываются аналитически. В стандартном виде поиска Web-модуля ЭК в понятие заголовка входят данные, стоящие за 2-мя косыми чертами, поэтому в информационный массив по запросу попадает вся аналитика. Номера журналов можно просмотреть, зайдя в «расширенный поиск», заполнив все необходимые поля.

Пользователь, для которого предназначен ЭК, как правило, не владеет технологией поиска:

- испытывает затруднения в формулировке информационных потребностей;

- не знает свойств ИПЯ;

- не осведомлен о необходимости проведения навигации по словарю;

- использует при поиске терминологию, не совпадающую с лексикой нормативных словарей ИПЯ и т.д.

- не знает и не может знать особенностей программного обеспечения, влияющих на выполнение информационного запроса.

ЭК должен быть ориентирован на помощь пользователям в решении всех вышеперечисленных проблем, снабжен необходимыми подсказками и инструкциями. Кроме того, в современных библиотечных системах, в т. ч. в программе «ИРБИС», ЛО ЭК широко используется библиотекарями в служебных целях для получения разнообразных выходных форм. Правильно организованное, тщательно продуманное ЛО оказывает большую помощь при составлении различного рода списков и указателей.

Совместимость лингвистических средств.

Совместимость - это возможность использования в различных БД поисковых образов документов на одном ИПЯ, а поисковых предписаний на другом, иначе говоря, на запросы, сформулированные на одном ИПЯ, должны быть даны ответы в различных БД.

Совместимость лингвистических средств - одна из важнейших проблем разработки ЛО. Многообразие используемых ИПЯ объясняется различиями в тематике, характере информационных массивов и запросов, требованиях к полноте и точности поиска. Тем не менее, актуальность проблемы совместимости лингвистических средств возрастает с каждым годом, что связано с развитием автоматизированных технологий, корпоративных методов работы библиотек.

Стремление библиотек обеспечить своим читателям максимально полный доступ к наибольшему количеству информационных ресурсов при сокращении затрат на их библиотечную обработку породило идею создания корпоративных систем и сетей. Совместимость предполагает разработку и внедрение ЛО для библиотек, входящих в какое-либо объединение, корпорацию. Наиболее известной в международном масштабе является OCLC, обслуживающая 45 тыс. библиотек в 84 странах и регионах мира.

Одним из мощных российских центров, объединяющим информационные ресурсы библиотек, стала созданная в 2002 г. на основе Российской книжной палаты Ассоциация региональных библиотечных консорциумов (АРБИКОН). В 2005 г к нему присоединился Проект МАРС, который существует с 2001 года и в настоящее время объединяет 184 библиотеки различных систем и ведомств, которые общими усилиями создают сводную базу данных, содержащую полную аналитическую роспись 1609 журналов. В настоящее время АРБИКОН объединяет более 200 библиотек из 54 регионов РФ, Белоруссии, Казахстана, Украины.

На Украине одним из наиболее известных корпоративных проектов является Центральный Украинский Кооперативный Каталог (ЦУКК), действующий на базе Кировоградской областной научной библиотеки им. Д.И. Чижевского.

Обеспечить лингвистическую совместимость позволяют рубрикаторы, классификаторы, унифицированные коммуникативные форматы представления информации в БД, тезаурусы и др. Совместимость средств ЛО различных БД существенно облегчит поиск и обмен необходимой информации.

Обмен данными.

Для обеспечения возможности обмена данными между ЭК разных организаций используется обменный или коммуникативный формат. Коммуникативный формат позволяет согласовать структуру и характер записей в БД. Требования коммуникативных форматов накладывают определенные ограничения по составу, структуре и правилам заполнения обязательных для каждого из них составов полей данных.

Сегодня существенно возросла роль библиотек и значение труда библиотечно-информационных специалистов, что обусловлено выполнением новых функций, связанных с интеллектуальным преобразованием исходной информации.

Задача многоаспектного раскрытия фондов, многие годы решавшаяся системой традиционных карточных каталогов, в ЭК решается системой доступа. При этом в силах создателей электронной библиографической записи сделать поисковые возможности ЭК значительно богаче. Кроме того, наши усилия окажутся вполне оправданными, если ЭК будет доступен пользователям в реальном времени, и они не будут испытывать трудностей в подборе литературы по теме.

Подводя итоги, следует подчеркнуть актуальность рассматриваемых проблем, от решения которых в конечном счете зависит социальный статус современной библиотеки. Хотелось бы надеяться, что информация и выводы, полученные в результате обсуждения, послужат оптимизации лингвистического обеспечения в каждой библиотеке-участнице «круглого стола».

Литература

каталог лексический поисковый библиографический

1. Гендина Н.И. Лингвистическое обеспечение автоматизированных библиотечных систем [Текст] / Н.И. Гендина. - Алма-Ата: Гылым, 1991. - 224 с.

2. Индексирование документов. Общие требования к систематизации и предметизации: Инсттукт.- метод. указания [Текст] / Гос. Б-ка им. В.И. Ленина; Сост.: Э.Р. Сукиасян. - М., 1991. - 61 с.

3. Смагина Н.Н. Лингвистическое обеспечение электронного каталога [Электронный ресурс] /Н.Н. Смагина. - Режим доступа: http://astu.lib.secna.ru/izdan/Nashi_izdan/vip3/kons.htm

Размещено на Allbest.ru


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.