Засоби підтримки лінгвістичного забезпечення електронних каталогів бібліотек

Дослідження сучасних вимог до засобів підтримки лінгвістичного забезпечення бібліотек. Опис структури та засобів організації авторитетних файлів лінгвістичних даних. Аналіз досвіду розробки лінгвістичної бази даних електронних каталогів у бібліотеці.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык украинский
Дата добавления 29.01.2019
Размер файла 27,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Засоби підтримки лінгвістичного забезпечення електронних каталогів бібліотек

К.В. Бардієр

Національна бібліотека України

імені В.І. Вернадського

Розглянуто сучасні вимоги до засобів підтримки лінгвістичного забезпечення бібліотек. Описано структуру та засоби організації авторитетних файлів лінгвістичних даних. Представлено досвід розробки лінгвістичної бази даних у Національній бібліотеці імені В.І. Вернадського.

Ключові слова: лінгвістичне забезпечення, авторитетні файли лінгвістичних даних, семантична мережа, рубрикатор, лінгвістична база даних.

Вступ

За сучасних умов, коли під час пошуку критичною стає кількість документів, що відповідають окремому запиту, традиційні бібліотечні класифікаційні системи відіграють суттєву роль у розкритті та представленні знань, накопичених в електронних бібліотеках та інформаційних ресурсах Інтернету.

Для організації доступу через класифікаційну систему необхідно реалізувати в електронному каталозі функції робочих таблиць і допоміжного апарата систематичного каталогу -- посилання, довідки, алфавітно-предметний покажчик. Для реалізації подібної системи пошуку необхідні сучасні інформаційні технології, помножені на інтелект фахівців, що працюють у галузі систематизації і розробки таблиць класифікації. Вирішальне значення для повноцінного використання цих лінгвістичних засобів в електронному середовищі і подальшого розвитку систем доступу до електронних інформаційних ресурсів мають проблеми створення машиночитаних робочих таблиць класифікації (тобто еталонних контрольованих словників для тематичного доступу до інформації), підтримка їх в актуальному стані та організація відповідних програмних інструментів організації пошуку [4].

Крім того, слід звернути увагу на те, що отримало у літературі назву «Парадокса Ахіллеса і черепахи» [9], а саме той факт, що лінгвістичне забезпечення (ЛЗ) завжди орієнтовано на опис природної мови, який співпадає з моментом початку розробки. За час розробки спеціальна термінологія встигає зазнати суттєвих змін, і лінгвістичне забезпечення відповідно виявляється архаїчним (так термінологія з обчислювальної техніки оновлюється кожні 8-10 років). Вирішити цю проблему здатні тільки сучасні комп'ютерні засоби, які можуть надати умови для повноцінної та своєчасної актуалізації лінгвістичного забезпечення.

Як відомо [16], система підтримки лінгвістичного забезпечення повинна складатися з двох основних компонентів: спеціалізованого лінгвістичного програмного забезпечення та лінгвістичних баз даних. Розглянемо нижче більш детально ці основні компоненти та сучасні вимоги до них.

Основні вимоги до програмних засобів підтримки ЛЗ

Загальні вимоги до мовних засобів інформаційних систем найбільш послідовно сформульовані Г.Г. Бєлоноговим [1].

Мовні засоби банків даних повинні мати достатню функціональну повноту, для забезпечення виконання всієї різноманітності завдань, що на них накладаються.

2. З іншого боку вони повинні бути адаптовані для непідготовлених користувачів.

3. Велику роль відіграє відображення парадигматичних відносин між поняттями тезауруса і класифікатора та розробка програмних засобів, що дозволяють використовувати такі зв'язки під час пошуку.

4. Словники повинні будуватися з урахуванням таких основних вимог:

-- швидкий і зручний пошук за будь-яким елементом;

-- простота процедур поповнення словників та виключення окремих елементів.

За означенням, будь який класифікатор -- це термінографічний твір, у якому систематизовані найменування об'єктів класифікації, класифікаційних груп та їх кодові позначення з яскраво вираженими ієрархічними відносинами. Отже, підтримка класифікаційної системи відноситься до лексикографічної роботи (роботи з словниками) [3]. Тому можна стверджувати, що основні вимоги, які висуваються до систем ведення та підтримки словників (лексикографічних процесорів) справедливі й для класифікаторів.

Очевидно, що для ведення словників можна використовувати будь-які засоби, призначені для введення, оновлення і пошуку інформації. У загальному випадку система автоматичного ведення словника повинна виконувати такі функції [1]:

введення (накопичення) та ідентифікацію словникової інформації, автоматичне укладання словників за текстом;

оновлення словників (доповнення, виключення зайвих елементів, коректування ознак);

теоретико-множинні операції над словниковою інформацією та операції реляційної алгебри: об'єднання словників, перетин словників, віднімання словників, проекцію, об'єднання, вибирання словникової інформації;

пошук словникової інформації за запитами, видачу у різному форматі будь якої словникової інформації;

статистичну обробку словників та виконання над ними операцій логічного виведення;

автоматичне редагування (документування) словникової інформації.

Структури представлення лінгвістичних даних у базах знань

Авторитетні файли лінгвістичних даних у бібліотечній практиці використовуються як основний семантичний засіб, вони надають можливість реалізації інтелектуального тематичного пошуку, перетворюють бібліотечні бібліографічні та повнотекстові бази даних у справжні бази знань [8]. Для організації такої семантичної навігації у бібліотечних інформаційних ресурсах необхідно використовувати відповідні структури для представлення лінгвістичних даних у електронному вигляді. Як відомо найбільш просту і зрозумілу для користувача-непрограміста реалізацію представлення знань забезпечує семантична мережа (СМ) [6, 7].

Семантична мережа, якою можна представити систему класифікації, відноситься до типу однорідних дискретних ієрархічних СМ.

Дискретна ієрархічна СМ (ДІСМ) представляється в інтелектуальній інформаційній системі (ІІС) четвіркою:

ДІСМ = <G, U, A, P>, (1)

де G -- граф зв'язку вершин і дуг мережі; U -- правила віднесення вершин СМ до ієрархічних рівнів; A -- алгоритми пошуку на мережі; P -- правила встановлення відповідності вершин і дуг СМ об'єктам і відношенням світу системи, тобто правила інтерпретації.

Структурування знань в ІІС (точніше, у базі знань системи) може здійснюватись на різних рівнях [6, 11]:

-- лексики вхідної мови;

-- понять про світ системи;

-- семантичних структур (структурування семантичних мереж);

-- конкретних даних.

Для структурування на рівні понять (що є найбільш важливим для інтелектуальної поведінки системи) спочатку необхідно визначити множину понять, необхідних для побудови моделі світу ІІС. Потім цю множину поділяють на підмножини, що не перетинаються, та охоплюють поняття близькі одне до одного за змістом. Такі підмножини називають семантичними групами (СГ) [5, 15].

В ієрархічній семантичній мережі СГ можна визначити як множини понять, що відповідають вершинам СМ одного рівня. СГ визначається четвіркою:

СГ = {W, I, D, T}, (2)

де W -- назва СГ; I -- ідентифікатор групи; D -- кількість елементів у групі; T --тіло групи (множина понять, які входять у СГ).

Для класифікаційної системи семантичними групами є тематичні рубрики з множиною відповідних термінологічних одиниць, що їх оточують.

Зв'язки, що відносяться до груп у цілому, називають груповими залежностями (ГЗ).

I = ГЗ(J), (3)

де I, J -- ідентифікатори груп; ГЗ -- групова залежність (бути родом (видом), бути спільною загальною властивістю та ін.).

Для класифікації групові залежності практично виражені відношеннями ієрархії між тематичними рубриками та системою посилань до асоціативно пов'язаних понять, які охоплюють всю класифікаційну схему.

Важливим аспектом ефективного функціонування СМ для збереження часу та зменшення зусиль користувача (особливо віддаленого) є принцип віртуальної семантичної мережі: для необхідної відповіді на користувацький запит у пам'яті комп'ютера збирається локальна семантична мережа, релевантна даному запиту, тобто для виведення відповіді виявляється достатньою тільки невелика структурна частина елементів СМ. А саме, під час пошуку за класифікаційною схемою достатньо знайти тематичні рубрики, які відповідають термінам запиту та включити до відповіді рубрики посилань («Див.», «Див. також»). Потім користувач вже може працювати з отриманою множиною рубрик, коректувати її або уточнювати запит [18, 19].

Саме за принципом СМ сьогодні реалізуються структури для представлення лінгвістичних даних у авторитетних файлах автоматизованих бібліотечних інформаційно-пошукових систем.

Авторитетні файли лінгвістичних даних

У процесі формування електронних каталогів і баз даних у бібліотек виникає потреба в обміні накопиченою інформацією з різноманітними цілями: поширення своїх баз знань та використання інформації, накопиченої іншими бібліотеками; підтримка зведених каталогів на регіональному, національному або міжнародному рівні; видання спільних бібліографічних покажчиків і т.д. На жаль, у різних бібліотеках використовуються не тільки різні АБІС для ведення електронних каталогів (Бібліотека 4, ІРБІС і т.д.), але й різні формати представлення баз знань, необхідним елементом яких є різні мови індексування (класифікаційні системи, тезауруси, мови предметних рубрик, мови класифікаційного типу), а також і різні методики змістовного опрацювання документів. Така розмаїтість значно знижує ефективність обміну інформацією і підвищує витрати на конвертування записів з однієї бібліографічної бази даних в іншу, ускладнює доступ до них віддалених користувачів. Так, для уніфікації представлення лінгвістичних баз даних, ще у 1986 р. було введено міжнародні стандарти для укладання, структури та форми представлення тезаурусів (одномовних і багатомовних) [13, 14].

На сьогоднішній день основними шляхами вирішення вищезгаданих проблем згідно з [12] є:

-- створення комунікативного машиночитаного формату з метою обміну базами знань;

-- створення національного авторитетного файлу предметних рубрик та класифікаційних даних (зокрема національної системи тезаурусів);

-- розробка національних посібників і правил предметизації (індексування).

Розробку проекту щодо створення національного авторитетного файлу Предметних Рубрик (ПР) було започатковано в Росії (1996 р.) [12]. Оскільки, авторитетний файл ПР передбачалось вести у машиночитаній формі, то, у першу чергу, необхідно було розробити формат запису ПР. В якості базового формату було обрано UNIMARC/Authorities [20], зважаючи на цілий ряд причин [17]:

-- даний формат -- єдиний формат, який розроблено спеціально для авторитетної інформації;

-- сумісність з форматом UNIMARC для бібліографічних записів на логічному рівні;

-- забезпеченість документацією;

-- міжнародна підтримка формату;

-- умови для міжнародного обміну інформацією;

-- відкритість формату для змін і доповнень.

Нещодавно (1998 р.) Керівною групою ІФЛА (створеною у 1979 р. Секціями каталогізації та інформаційних технологій) з розробки формату авторитетних/нормативних записів, було започатковано проект формату UNIMARC авторитетних записів для класифікаційних даних, який повинен бути пов'язаний із форматом UNIMARC для обміну бібліографічними даними. Формат UNIMARC для класифікаційних даних буде побудовано у відповідності до структури формату USMARC для класифікаційних даних [21], розробленому Бібліотекою Конгресу США у 1991 році. Така розробка надасть можливість представляти класифікаційні таблиці різних класифікаційних систем в уніфікованому машиночитаному вигляді, автоматично інтегрувати їх як пошуковий інструмент у бібліотечні бази даних, представлені у форматі UNIMARC.

Досвід створення лінгвістичної бази даних у Національній бібліотеці імені В.І. Вернадського

Систематизація документів у сучасних умовах швидкого розвитку обсягу знань, постійної зміни і розширення наукової термінології ускладнена багатьма проблемами. Це, в першу чергу, необхідність виявлення і фіксування нової термінології, її аналізу, приймання відповідних методичних рішень. Крім того, прийняті систематизатором методичні рішення, повинні знаходити своє відображення в систематичній частині електронного каталогу (ЕК) бібліотеки, ставати органічною частиною його лінгвістичного забезпечення, поповнювати новими тематичними одиницями (ТО) пошуковий апарат ЕК бібліотеки.

Для вирішення перерахованих проблем та у відповідності з вимогами до створення авторитетних файлів лінгвістичних даних у середовищі автоматизованої бібліотечної інформаційно-пошукової системи Allegro була створена Лінгвістична База Даних (ЛБД) на прикладі розділів рубрикатора Національної бібліотеки України ім. В.І. Вернадського (НБУВ) «Кібернетика», «Інформаційна та обчислювальна техніка», які потребували суттєвого упорядкування.

В основу представлення інформації в ЛБД було покладено таку структуру подання даних [5, 15].

Тематична рубрика (систематичний індекс, словесне формулювання рубрики).

Синоніми (українські, англійські, російські терміни-еквіваленти формулювання рубрики).

Ключові слова (терміни, що розкривають і уточнюють зміст рубрики, прийняті методичні рішення для закріплення відповідних понять за даним індексом).

Галузь вживання терміна (коментар для термінів, що мають широке значення і рівноправно вживаються у різних розділах рубрикатора, носять універсальний характер).

Власні назви (у нашому випадку переважно назви програмних продуктів, окремих обчислювальних систем і мереж, марок комп'ютерів та їх елементів і вузлів).

Методична вказівка (службова інформація для спеціаліста-систематизатора, що уточнює, дає рекомендації для приймання правильного рішення під час індексації документів).

Коментар (довідкова інформація про визначення змісту нових термінів тощо).

Посилання див., Посилання див. також (інформаційні примітки: індекси посилань, які фіксують асоціативні і семантичні зв'язки відповідних понять).

Запропонована структура дозволила нам зв'язати всю необхідну інформацію (ТО, методичні вказівки і рішення) з певним систематичним індексом і одержувати в електронному вигляді необхідні довідки і матеріали.

Використання ЛБД дало можливість прив'язати термінологічні одиниці до відповідних індексів та організувати систему перехресних посилань у рубрикаторі. Система посилань створила семантичну мережу [5], пересуваючись якою, читач, завдяки закріпленим асоціативним зв'язкам певних понять, може задовольнити комплексні політематичні запити у випадках, коли тематика літератури, яка його цікавить, відбита у різних розділах рубрикатора наукової бібліотеки (див. рисунок). Під час перегляду ЛБД разом з рубриками можна переглянути і відповідні посилання (працює принцип віртуальної семантичної мережі), а під час експорту інформації у текстовому форматі автоматично виводити посилання до АПП. Тобто маємо можливість отримати розширений алфавітний покажчик термінів з усіма асоціативними і суміжними поняттями для даної галузі знання з вказівкою на систематичний індекс пошуку. Таким же чином посилання автоматично виводяться і при вилученні рубрик у текстовому форматі.

Наведемо деякі приклади представлення інформації в ЛБД на матеріалі розділів «Кібернетика» й «Інформаційна та обчислювальна техніка» (див. таблицю).

Представлення Рубрикатора в електронному вигляді.

Записи

Пошуковий реєстр

З81 Кібернетика

Англ. синоніми: cybernetics

Рос. синоніми: кибернетика

Дивись: Е0*718 *; З965.93 *

Див. також: А6 **; З96 **; З97 **

З81 Кібернетика

З81 *

Е0*718 Біофізичні процеси керування. Біокібернетика

З965.93 Кібернетичні системи автоматики

З81 **

А6 Інформатика та обчислювальна техніка, кі-бернетика, інформатизація і кібернетизація сус-пільства

З96 Автоматика і телемеханіка

З97 Інформаційна та обчислювальна техніка

З970 Основи інформатики та обчислювальної техніки

З97 Інформаційна та обчислювальна техніка

Синоніми: комп'ютерні науки

Див. також: З81 **

Англ. синоніми: computer sciences

Рос. синоніми: информационная техника; вы-числительная техника; компьютерные науки

З97 Інформаційна та обчислювальна техніка

З97 **

З81 Кібернетика

З97-018.1 Програмні засоби (ПЗ)

Синоніми: програмне забезпечення (ПЗ)

Англ. синоніми: application software; application software package; software

Рос. синоніми: пакеты прикладных программ (ППП); прикладные программные средства; программное обеспечение (ПО); программные средства

Ключові слова: пакети прикладних програм (ППП); прикладні програмні засоби

З97-018.1 Програмні заcоби (ПЗ)

Умовні позначення: * -- Див.; ** -- Див. також.

Використання сервісних засобів ЛБД дало можливість отримати різні «проекції» підготовленої впорядкованої інформації (рубрикатор з системою посилань, покажчик власних назв, покажчик основних скорочень, у тому числі, «обернений» варіант рубрикатора -- алфавітно-предметний покажчик пермутаційного типу) [2, 10]. ЛБД створила умови для швидкого оновлення за необхідністю довідкових матеріалів, внесення необхідних змін, інформування читачів -- за яким індексом можна відшукати нові поняття науки та інших галузей знання. Автоматична інверсія тематичних словосполучень, після сортування ТО за алфавітом, дає декілька точок доступу до інформації в АПП. Кожне словосполучення прив'язується до відповідної групи термінів АПП за кожним значимим словом, що його складають.

Розроблена ЛБД є зручним інтелектуальним середовищем для роботи систематизатора, вирішує цілу низку проблем, пов'язаних з аналітико-синтетичним опрацюванням документів та організацією тематичного пошуку в ЕК. Вона дозволяє:

фіксувати прийняті методичні рішення, які можуть бути перспективними для подальшого розвитку ЛЗ;

фіксувати семантичні та асоціативні зв'язки ТО певної предметної галузі;

здійснювати швидке і зручне редагування електронної картотеки, вносити доповнення і зміни без зайвих труднощів;

здійснювати зручну навігацію в політематичному ЛЗ;

швидко оновлювати довідкові матеріали для аналітико-синтетичного опрацювання документів і обслуговування читачів;

отримувати в текстовому вигляді рубрикатор (з відповідними посиланнями, методичними вказівками і рішеннями), розширений АПП до рубрикатора (з усіма значимими ТО, інверсованими формулюваннями, термінами посилань, власними назвами);

швидко інформувати читачів про зміни, що відбулись у ЛЗ;

створити основу для подальшого поповнення ТО лінгвістичного забезпечення ЕК НБУВ.

експортувати записи ЛБД (завдяки існуванню в електронному вигляді) у необхідному форматі для подальшого використання ЛЗ для онлайнового тематичного пошуку.

лінгвістичний електронний каталог бібліотека

Література

1. Белоногов Г. Г., Кузнецов Б. А. Языковые средства автоматизированных информацион-ных систем. -- М.: Наука, 1983. -- 287 с. -- (Б-чка программиста).

2. Воройский Ф.С. Индексирование документов в автоматизированных библиотечно-инфор-мационных системах // Библиотека. -- 1996. -- № 9. -- С. 42-44.

3. Дубчинский В. В. Теоретическая и практическая лексикография. -- Вена-Харьков, 1998. -- 160 с.

4. Загорская Е. И. Возможности и перспективы использования ББК в качестве ИПЯ и средства организации системы доступа в электронной среде // Библиотеки и ассоциации в меняю-щемся мире: новые технологии и новые формы сотрудничества: 8-я Междунар. конф. «Крым -2001» / Материалы конф. -- 2001. -- Т. 1. -- С. 509-511.

5. Любарский Ю. Я. Интеллектуальные информационные системы. -- М.: Наука, 1990. -- 232 с.

6. Мальковский М. Г. Диалог с системой искусственного интеллекта. -- М.: МГУ, 1985. --216 с.

7. Объектно-ориентированный подход к разработке лингвистического обеспечения глобаль-ных информационно-поисковых систем / А. Ю. Евсюков, Ю. В. Ландграф, А. С. Калиновский и др. // Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотруд-ничества: 5-я Юбил. междунар. конф. «Крым-98»: Материалы конф. -- 1998. -- Т. 2. -- С. 485-486.

8. Организация знаний: лингвистические аспекты: Прогр. и тез. докл. конф. [ИСКО], Москва, 16-18 мая 1995 г. // Междунар. о-во по орг. знаний, Рос. секция, Рос. гос. б-ка. -- М.: Рос. секция ИСКО, 1995. -- 31 с.

9. Пиотровский Р. Г. Инженерная лингвистика и теория языка. -- Л.: Наука, 1979. -- 112 с.

10. Призмент Э. Л., Динерштейн Е. А. Вспомогательные указатели к книжным изданиям. --М: Книга, 1988. -- 208 с.

11. Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных информационных системах. -- М.: Наука, 1989. -- 192 с.

12. Селиванова Ю. Г., Войскунский В. Г. Проблемы создания национального авторитетного файла предметных рубрик в России // Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества: 3-я Междунар. конф. «Крым-96»: Материалы конф. -- 1996. -- Т. 2. -- С. 146-148.

13. СТ СЭВ 6574-85. Тезаурус информационно-поисковый одноязычный. Состав, структура и форма представления. -- Введ. 01.01.86. -- НТД МЦНТИ. -- 1990. -- № 10. -- С. 16-23.

14. СТ СЭВ 6574-89. Тезаурус информационно-поисковый многоязычный. Состав, структу-ра и форма представления. -- Введ. 01.01.86. -- НТД МЦНТИ. -- 1990. -- № 13. -- С. 15-22.

15. Тиори Т., Фрей Дж. Проектирование структур баз данных. -- М.: Мир, 1985. -- 230 с.

16. Чижаковский В. А., Беляева Л. Н. Тезаурус в системах автоматической переработки текста. -- Кишинев: Штиница, 1983. -- 163 с.

17. Экстрем М. В., Селиванова Ю. Г. Особенности использования формата UNIMARC / Authorities для формирования системы авторитетных файлов электронного каталога в РНБ // Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества: II Междунар. конф. «Крым-95»: Материалы конф. -- 1995. -- Т. 2. -- С. 165-169.

18. Doszkocs T. E. AID, An associative Interactive Dictionary for Online Bibliographic Searching. -- College Park, MD: University of Maryland, 1979. -- 124 p.

19. Stiles H. E. The association factor in information retrieval // Journal of the Association for Computing Machinery. -- 1961. -- Vol. 2. -- № 8. -- Р. 271_279.

20. UNIMARC/Authorities. Международный коммуникативный формат UNIMARC для авторитетных/нормативных записей. -- М.: ГПНТБ, РГБ, РКП, 1994. -- 100 с.

21. USMARC format for classification data; including guidelines for content designation. -- Washington, D.C.: Library of Congress Cataloging Distribution Service, 1991.

Размещено на Allbest.ru


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.