Віртуалізовані лексикографічні системи та їх застосування у прикладній лінгвістиці

Принципи функціонування віртуалізованих лексикографічних систем та лінгвістичних корпусів із використанням хмаринних, суперкомп’ютерних та Grid-технологій. Створення віртуалізованих мовно-інформаційних систем лінгвістичних корпусів нового покоління.

Рубрика Программирование, компьютеры и кибернетика
Вид автореферат
Язык украинский
Дата добавления 20.10.2018
Размер файла 567,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Висвітлено питання віртуалізації лексикографічних та термінографічних лабораторій. Термін «віртуальний» у застосуванні до лексикографічних лабораторій означає частковий випадок їх віртуалізації у нелокальних Л-середовищах. Опишемо це у формальний спосіб.

Віртуальну лексикографічну лабораторію можна представити як набір {MLV , Fv}, де Fv - багатокомпонентний функтор віртуалізації, який мінімально містить FvNET - елемент функтора віртуалізації на рівні мережі (тобто Fv ={FvNET}), а MLV - віртуалізоване Л-середовище, яке у граничному випадку може складатися й з однієї віртуалізованої Л-системи LSv = FvNET(LS0), що була утворена методом віртуалізації на рівні мережі, внутрішня модель EXM = {IFv , SC, FUNC, PRОС, APR}, архітектура якої, як мінімум, містить IFv - інтерфейси взаємодії на рівні віртуалізованої мережі.

Оскільки, Л-система на кожному рівні рекурсивної редукції включає певний набір Л-агентів, зв'язаних певними функційними відношеннями, що забезпечують їх взаємодію в умовах віртуалізації, то для ВЛЛ така архітектура повинна містити мінімум два віртуалізованих Л-агенти. Ними можуть бути, наприклад, клієнтський Л-агент, що забезпечує роботу терміномграфа відповідним функціоналом для укладання термінологічного словника та віртуальну мережеву взаємодію цього терміномграфа із іншим терміномграфом, у якого встановлено інший екземпляр такого ж Л-агента. При цьому ролі AMS, VEMS, MDMS у рамках моделі віртуалізації забезпечує серверна частина розподіленої архітектурної реалізації лексикографічної лабораторії.

Викладені принципи, на нашу думку, є загальними і їх покладено в основу системотехніки всіх віртуалізованих об'єктів зі структурою Л-систем.

Третій розділ «Віртуалізація термінографічної системи «Зварювання» присвячено застосуванню теорії Л-систем до побудови мовно-інформаційних об'єктів термінологічної спрямованості. Термінологією предметної галузі ми вважаємо відображення її концептосфери до структур природної мови. Необхідним етапом формування національної терміносистеми «Зварювання» є створення і впровадження сучасної, мобільної багатомовної інструментальної системи галузевої термінографії, яка б поряд з українською частиною містила, як мінімум, російський та англійський компоненти й була адаптована до процесів інтеграції у світові терміносистеми. Очевидно, що такі вимоги диктують й певне інформаційно-технологічне оформлення лексикографічної роботи, яку ми бачимо як спеціальну реалізацію віртуальної термінографічної лабораторії (ВТЛ).

Термінологічна ділянка зварювання й суміжних галузей, основи розроблення, побудови та упорядкування науково-технічної терміносистеми зі зварювання, завдання і методичні питання її стандартизації були опрацьовані протягом попереднього періоду розвитку в численних працях авторитетних учених-зварювальників. У процесі створення ВТЛ «Зварювання» спочатку було побудовано концептуальну модель відповідної Л-системи. Внутрішню структуру представлення термінів спроектовано з урахуванням дотримання таких умов: можливість довільного порядку перекладу в статті; незалежність будови статті від мови вихідного слова; можливість збільшення кількості мов перекладу.

Експериментальне моделювання проведено на корпусі тексту українсько-російсько-англійського словника зі зварювання, обсяг реєстру якого становить близько 12 тисяч термінів. Позначимо усю множину термінів через T , а окремо взятий термін - через . Основним структурним елементом словникової статті визначено термінологічний блок - структурну частину словникової статті, що містить: термін або термінологічне словосполучення (tLi); його граматичні параметри ({tLGi}: можливі синоніми: ({tLSYNi} - множина синонімів до терміна заданою мовою); фонетичні або морфологічні варіанти, що відповідають певному термінологічному поняттю на одній з мов {tLVARi}. Таким чином:

RTі - термінологічний блок i-го поняття російською мовою;

UTі - термінологічний блок i-го поняття українською мовою ;

ETі - термінологічний блок i-го поняття англійською мовою;

Сі - семантичний коментар i-го термінологічного поняття;

Si - структурна частина словникової статті, відповідає i-му термінологічному поняттю (позначимо tConi). У тексті словникової статті Si подається множиною семантичних коментарів і термінологічних блоків, що відповідають певному термінологічному поняттю на всіх мовах словника. Багатозначний термін Si додатково містить семантичну або галузеву ремарку. Кожне термінологічне поняття, у свою чергу, також має множину онтологічних класів {}, значення якої є элементами - множини онтологічних класів, заданих для даної предметної галузі.

У процесі розроблення системи було побудовано різні лексикографічні структури ВТЛ «Зварювання», які відповідають різним варіантам словникових статей. Зокрема, коли словникова стаття містить, наприклад, три термінологічних поняття: S1 = {C1U, RT1,2,3, UT1, ET1}S2 = {C2U, RT1,2,3, UT2, ET2}S3 = {C3U, RT1,2,3, UT3, ET3}, її структура набуває вигляду, представленому на рис 1.

Рис. 1 - Структура словникової статті, яка містить три термінологічних поняття і має багатозначний російський та український терміни

Архітектурно модель віртуалізації ВТЛ «Зварювання» згідно моделі (23) набуває вигляду, поданого на рис. 2. При цьому, відповідно до моделі, основна Л-система ВТЛ «Зварювання» розкладається на певне число Л-агентів LAvi, що забезпечують термінографічний інтерфейс та операції над розглянутими раніше термінологічними поняттями tConi, термінологічними блоками RTі, UTі, ETі , відповідними їм термінами tLi , їх граматичними tLGi та варіативними компонентами tLVARi , коментарями Сі , а також структурами Si перелічених компонентів. Кількість таких агентів LAvi залежить від коефіцієнта масштабування k віртуальних робочих середовищ, якими у випадку ВТЛ «Зварювання» є операційні системи кінцевих користувачів-експертів. Віртуалізації підлягає мережева взаємодія відповідних агентів LAvi кожного з кінцевих користувачів у процесі їх спільної термінографічної роботи. Здійснюється це наступним чином. Програмна бібліотека Windows Communication Foundation (WCF) забезпечує віртуалізацію процесу мережевої взаємодії в рамках Service-Oriented Architecture та стандартні інтерфейси для передачі інформації від одних Л-агентів до інших (SOAP), WSDL для опису сервісів і UDDІ для збереження й надання WSDL-описів за запитами.

При цьому ролі AMS, VEMS, MDMS у рамках моделі віртуалізації забезпечує серверна частина розподіленої архітектурної реалізації лексикографічної лабораторії. Вона містить: термінологічні модель, базу та шаблони контейнерів даних агента LADBi, що реалізують MDMS; протоколи WCF сервіс-орієнтованої віртуальної мережевої взаємодії та VIEW-шаблони віртуального робочого середовища на базі інтернет-браузера або вікна клієнтської програми, що реалізують VEMS; а також логіку поведінки Л-агента - спеціальний програмний комплекс, який у рамках патерну MVC реалізує AMS.

За структурами словникових статей було розроблено внутрішню форму подання даних для LADB.

Рис. 2 - Схематичне подання моделі віртуалізації ВТЛ «Зварювання»

Виходячи з міркувань безпеки, а також необхідності максимально спростити системні вимоги до комп'ютерів користувача та необхідність широкого тиражування доступу до даних, виявилося доцільним створення двох інтерфейсів:

1) Інтерфейс редактора ЛБД, призначений для роботи експертів. До функцій цього інтерфейсу належать не тільки введення і редагування даних, а й визначення системи онтологічних класів, типів відношень в онтології та ін.

2) Інтерфейс кінцевого користувача. Це інформаційно-довідковий ресурс - словник зі зварювання, що містить інформацію про елементи онтології предметної галузі «зварювання» - класи термінів, їхні дефініції та дані мультимедіа.

Завдяки застосуванню ВТЛ було створено користувацький варіант «Термінологічного українсько-російсько-англійського словника-довідника зі зварювання». Це самостійний електронний продукт, який відповідно до визначення зовнішньої моделі Л-системи має розвинені інтерфейси, що реалізують необхідні користувачеві сценарії та функції. Він є результатом роботи програмного модуля для публікації ЛБД, запуск якого здійснює адміністратор ВТЛ з окремого інтерфейсу. В результаті вміст бази даних перетворюється у компактний бінарний формат, розроблений спеціально для швидкого доступу та пошуку, який має інтерфейс відповідно до розробленої структури словникової статті. Крім того, за відповідними шаблонами генеруються сторінки інтерфейсу користувача: головна сторінка, алфавітні покажчики (трьома мовами), класи термінів, дані мультимедіа тощо. Також генеруються певні службові дані для функціонування програми та організації пошуку.

Призначену для користувача версію словника випущено на лазерних дисках (накладом 1000 прим.) та розміщено на сайті Українського лінгвістичного порталу.

Четвертий розділ «Віртуалізація корпусних лексикографічних середовищ та систем». Обсяги мовного матеріалу, який залучається до мовознавчого дослідження, комплексність, оперативність опрацювання зазначеного матеріалу та можливість прямого доступу до великої кількості лінгвістичних фактів - це ті переваги, які надає лінгвістичний корпус досліднику. Для забезпечення цих переваг лінгвістичний корпус повинен мати відповідну будову, спрямовану на представлення, маркування та експлікацію необхідної інформації у системі, а також значні обсяги, що повинні постійно зростати, слідуючи за розвитком інформаційно-комунікаційної сфери та зростанням відповідних інформаційних масивів. Таким чином, виникає об'єктивна необхідність, по-перше, радикально збільшити інформаційний обсяг Українського національного лінгвістичного корпусу (УНЛК), а, по-друге, забезпечити статистично-лінгвістичну обробку великих текстових масивів, екстракцію знань з них, їх аналіз, автоматизовану побудову класифікацій, тезаурусів, онтологій, що зумовлює необхідність значного збільшення обчислювальних потужностей.

Адекватну обчислювальну потужність не в змозі забезпечити жоден окремо взятий сервер - потрібен перехід до розподілених та паралельних обчислень, необхідне створення розподіленого та апаратно- і платформонезалежного віртуалізованого текстоаналітичного Л-середовища, відповідно до концептуальних модельних уявлень. На сьогодні одним з найбільш перспективних підходів для вирішення проблем у цій галузі є хмаринні та Grid-технології, які завдяки своїй властивості еластичності можуть забезпечити надання обчислювальних ресурсів більшим чи меншим обсягом в будь-який момент часу в автоматичному режимі.

Необхідне перепроектування поточної реалізації лінгвістичного корпусу із застосуванням методів віртуалізації та хмаринних і Grid-технологій та розширенням функціоналу для забезпечення можливостей онтологокерованості здійснено відповідно до концептуальних уявлень про відображення природномовного тексту на структуру мовно-онтологічної картини світу, розробленої в роботах О.В. Палагіна та представників його школи, й викладено в додатках до дисертаційної роботи.

Концептуальна модель системи відповідає загальній концептуальній моделі лінгвістичного корпусу, як Л-системи. Віртуалізацію, відповідно до архітектури ANSI/SPARK АRСН_LS={СM, EXM, INM; Ц,Ш, О}, застосовано на внутрішньому рівні представлення.

На основі аналізу характеристик найбільш відомих відкритих систем керування хмаринними середовищами (ПЗХ), оскільки підтримка стандартного інтерфейсу OCCI, підтримка можливості міграції хмаринної інфраструктури між ЦОД та підтримка відмовостійкості є вкрай важливою для реалізації проекту з розміщення віртуалізованого текстоаналітичного Л-середовища як на потужностях локальних серверів Українського мовно-інформаційного Фонду НАН України (УМІФ), так і, паралельно, на потужностях суперкомп'ютера СКІТ-3, обрано для впровадження ПЗХ OpenStack (обрано гібридну категорію хмаринної системи).

Операторами публічної частини хмаринної системи виступають адміністратори Інституту кібернетики НАН України; апаратна інфраструктура представлена потужностями суперкомп'ютера СКІТ-3.

У цьому ж розділі експериментально визначено коефіцієнт масштабування віртуальних робочих середовищ, призначених для віртуалізації на основі визначення продуктивності УНЛК на поточному обсязі індексу (більше 170 млн. слововживань). Цей коефіцієнт дорівнює трьом.

Зазначене віртуалізоване текстоаналітичне лексикографічне середовище складається з віртуалізованих бібліографічної й повнотекстової корпусних підсистем (у формі віртуалізованих Л-агентів LAvi, (i =1…k) k - коефіцієнт масштабування робочих середовищ) та системи, що забезпечує онтологічне керування [8] OntologyMS: (СИСТЕМА КОНСПЕКТ, СИСТЕМА КОНФОР, СИСТЕМА ЕДІТОР, СИСТЕМА АЛЬТЕРНАТИВА [8]), систем AMS, VEMS, MDMS, а також зі спеціалізованої системи керування CloudMS, що функціонує на основі ПЗХ OpenStack. При цьому система AMS містить шаблони та програмну реалізацію бізнес-логіки лексикографічних агентів; VEMS здійснює керування віртуальними робочими середовищами, віртуальними машинами (вузлами), на яких методом віртуалізації операційних систем здійснюється запуск окремих компонентів лексикографічної системи - лексикографічних агентів; MDMS здійснює керування даними для AMS, VEMS на основі уніфікованого абстрактного інтерфейсу та містить шаблони контейнерів даних для LAvi; CloudMS здійснює загальне керування хмаринною інфраструктурою, забезпечує адміністративний інтерфейс та реалізовує можливість автоматизованої міграції віртуальних машин та налаштувань програмних середовищ з приватної частини хмарини CloudMS0, що знаходиться в УМІФ до публічної її частини CloudMS1, що знаходиться на суперкомп?ютері СКІТ-3 та на відповідних Grid-вузлах.

Рис. 3 - Модель віртуалізації корпусних лексикографічних систем із застосуванням хмаринних та Grid-технологій

Приклади програмних кодів та шаблонів систем AMS, VEMS, MDMS та системи автоматизації керування хмаринними сервісами для ПЗХ OpenStack наведено у додатках до дисертації. Функціонування вказаних підсистем та агентів відбувається відповідно до архітектури, описаної в другому розділі цієї роботи.

На основі реалізації спеціального формату даних, в основі якого лежить XML, та віртуалізції мережевої взаємодії та відповідних інтерфейсів з використанням Service-Oriented Architecture здійснено інтеграцію розглянутих віртуалізованих корпусів до системи онтографічного й концептографічного аналізу текстів ТОДОС (Трансдисциплінарні Онтологічні Діалоги Об'єктно-орієнтовних Систем). Зазначена система розроблена спільно з Національним центром «Мала академія наук України». Вона реалізує технології онтологічного керування. На основі описаного Л-середовища та вказаних засобів інтеграції зараз виконується проект зі створення Репозиторію навчально-інформаційних ресурсів з навчальних дисциплін, що викладаються загальноосвітніх навчальних закладах України. Здійснюється наповнення системи матеріалами, передбаченими навчальними програмами з відповідних предметів. Підходи до автоматизації створення онтологій у рамках зазначеного проекту також описано у цьому розділі. Приклади онтологій наведено у додатках до роботи та працях [9, 10]. Застосування віртуалізованих систем у навчальному процесі розкривається у працях [1-7].

Аналіз результатів експериментального впровадження віртуалізованого текстоаналітичного Л-середовища на суперкомп'ютерному комплексі Інституту кібернетики НАН України з використанням хмаринних та Grid-технологій на мінімально необхідній кількості віртуальних робочих середовищ (відповідає коефіцієнту масштабування k=3) показав, що за такої їх кількості приріст швидкодії на операціях повнотекстового пошуку по лексикографічній базі УНЛК складає приблизно 2,5 рази. Крім того, за рахунок легкої розширюваності та апаратно- і платформонезалежності зазначеного віртуалізованого текстоаналітичного Л-середовища у подальшому можна значно збільшити кількість споживачів УНЛК.

ВИСНОВКИ

У процесі виконання дисертаційного дослідження розроблено необхідні концептуальні та системотехнічні засади побудови віртуалізованих Л-систем, орієнтованих на забезпечення низки завдань сучасної прикладної лінгвістики. Основні результати роботи є такі:

1. Проаналізовано системотехнічні аспекти сучасної хмаринної та Grid-інфраструктури, на основі чого розроблено варіант теорії Л-систем, адаптований до завдань віртуалізації та специфіки мережевих середовищ;

2. Розроблено архітектурно-програмні моделі віртуалізації Л-систем на основі застосування модифікованої теорії Л-середовищ та Л-агентів. Зазначені результати проілюстровано на прикладі систем корпусної лінгвістики та інструментальних лексикографічних систем;

3. Досліджено системотехнічні принципи створення та функціонування віртуалізованих інструментальних лексикографічних систем та лексикографічних лабораторій з використанням хмаринних та Grid-технологій;

4. Розроблено і введено в експлуатацію Віртуальну термінографічну лабораторію «Зварювання» як приклад віртуалізації інструментальної термінологічної Л-системи;

5. Розроблено програмне забезпечення та реалізована користувацька версія Термінологічного українсько-російсько-англійського словника-довідника зі зварювання на лазерному диску та на сайті Українського лінгвістичного порталу;

6. Створено реалізацію Українського національного лінгвістичного корпусу на суперкомп'ютері СКІТ-3 Інституту кібернетики ім. В. М. Глушкова НАН України, включено до структур Українського національного Grid;

7. Здійснено інтеграцію віртуалізованих лінгвістичних корпусних технологій до системи онтографічного й концептографічного аналізу текстів (система ТОДОС);

8. Здійснено інтеграцію віртуалізованих лінгвістичних корпусних технологій до Репозиторію навчально-інформаційних ресурсів з навчальних дисциплін, викладання яких відбувається в загальноосвітніх навчальних закладах України;

9. Методи, моделі та результати дисертації, на нашу думку, мають перспективи розвитку. Так, концептуальна модель та системотехніка ВТЛ «Зварювання» може слугувати прообразом формування сучасної системи національної термінології України. Віртуалізація Л-середовищ та корпусних технологій може скласти системотехнічну основу для побудови національної системи лінгвістичних ресурсів, зокрема для формування системи «Всеукраїнського лінгвістичного діалогу».

СПИСОК ОПУБЛІКОВАНИХ ПРАЦЬ ЗА ТЕМОЮ ДИСЕРТАЦІЇ

1. Надутенко М. В. Формування професійно значущих якостей операторів ОССУ в курсі фізики льотного вузу // Наукові праці академії : вип. VII, ч. II. - Кіровоград : Видав-во ДЛАУ, 2003. - С. 235-244.

2. Надутенко М. В. Формування суспільно значущих якостей мислення у процесі фізичної освіти // Наукові записки. - Вип. 55. - Серія : Педагогічні науки. - Кіровоград : РВГ ІЦ КДПУ ім. В. Винниченка, 2004. - С. 297-304.

3. Надутенко М. В. Інноваційний підхід до формування якостей мислення студентів у процесі навчання фізики // Наукові записки. - Вип. 60. - Ч. 2. - Серія: Педагогічні науки. - Кіровоград : РВГ ІЦ КДПУ ім. В. Винниченка, 2005. - С. 301-309.

4. Надутенко М. В., Борота В. Г. Використання комп'ютерної програми для організації різних видів контролю в системі модульного навчання // Наукові праці академії : вип. II, ч. I. - Кіровоград : Вид-во ДЛАУ, 2007. - С. 147-156.

5. Білобрицький В. Й., Надутенко М. В. Ймовірнісна структура еталонного тесту досягнень // Стратегия качества в промышленности и образовании : Матер. 5-й Международной конф., Варна, 6-13.06.2009 г.,ч. II. - Варна, 2009. - С. 42-51.

6. Білобрицький В. Й., Білобрицька В. В., Надутенко М. В. Фрейм - матрична форма підведення підсумків тестової діагностики суб'єктів учіння на їх здатність до накопичення та відтворення знань// Сучасні інформаційні технології в управлінні та професійній підготовці операторів складних систем : Матер. Міжнар. конф. - Кіровоград. - 28-29.10. 2009. - Кіровоград, 2009. - С. 50-65.

7. Білобрицький В. Й., Надутенко М. В., Білобрицька В. В. Метод об'єктивації досягнень суб'єктів учіння // Сучасні інформаційні технології в управлінні та професійній підготовці операторів складних систем : Матер. Міжнар. конф. - Кіровоград. - 28-29.10. 2009. - Кіровоград, 2009. - С. 53-64.

8. Величко В. Ю., Надутенко М. В. Разработка технологий Knowledge Grid и их применение в процессе обработки естественноязыковой информации // Прикладная лингвистика в науке и образовании : Сборник трудов VI международной науч. конф. (5-7.04. 2012 г., Санкт-Петербург). - СПб. : ООО Книжный дом, 2012. - ISBN 978-5-94777-273-9. - С. 33-36.

9. Довгий С. О., Климова К. Я., Комова О. Б., Лісовий О. В., Надутенко М. В., Сидорчук Н. М., Стрижак О. Є., Широков В. А., Шкурко В. В., Якименко К. М. : Методичні рекомендації щодо організації навчально-дослідницької роботи школярів із використанням українського національного лінгвістичного корпусу (на матеріалах вивчення функціональних можливостей сполучника та дослідження концептів «праця», «робота» у текстах творів Тараса Шевченка). - К. : ТОВ «Праймдрук», 2012. - 76 с.

10. Збірник завдань з української мови з використанням електронних ресурсів Корпусу МАН України : Навчальний посібник / Упоряд. М. С. Гальченко, С. А. Гальченко, Е. Я. Клімова, О. Б. Комова, О. В. Лісовий, М. В. Надутенко, О. О. Рафальський, О. О. Слюсаренко, О. Є. Стрижак, Д. В. Стус, В. А. Широков. - K. : ТОВ «СІТІПРІНТ», 2013. - 120 с.

11. Петрук В. С., Надутенко М. В., Пустовойт С. В. Формування національної термінологічної системи у галузі зварювання на основі віртуальних лексикографічних лабораторій // Прикладна лінгвістика 2013: Проблеми і рішення : Матеріали Всеукраїнської науково-метод. конф. студентів та молодих науковців (Миколаїв, 23-24.05.2013 р.). - Миколаїв : НУК, 2013. - 172 с. - С. 97-100.

12. Мазур А. А., Надутенко М. В., Остапова І. В., Петрук В. С., Пустовойт С. В. Широков В. А. Формування національної термінологічної системи в галузі зварювання на основі віртуальних лексикографічних лабораторій // Вісник Національної Академії наук України: Щомісяч. загальнонаук. та громад.-політ. журн. - К. , 2014. - С. 75-83.

13. Tymoshuk R., Vilchynska K., Shyrokov V., Nadutenko M. Semantic interpretation of phraseological units in Ukrainian-Polish electronic phraseological dictionary // Cognitive Studies | Etudes cognitives. - Warsaw, 2014. - С. 125-136.

14. Вербиненко Ю. І., Надутенко М. В., Остапова І. В., Широков В. А. Віртуальні лексикографічні лабораторії в сучасній термінографії // Українська термінологія і сучасність : Зб. матер. міжнар. наук. конф (22-24.04. 2015 р.). - К. , 2015. - С. 113-126.

15. Авторське свідоцтво на твір «Довідкова база даних адміністративних одиниць «NAMES» (за № 40455 від 13.10.2011р.).

16. Авторське свідоцтво на твір «Електронна навчально-тестувальна система «TESTMX» (за № 40297 від 07.10.2011р.).

17. Термінологічний українсько-російсько-англійський словник-довідник зі зварювання: Науково-технічна термінологія / Укладачі : Широков В. А., Мазур О. А., Маковецька О. К., Вакуленко М. О., Симоненко Л. О., Чумак В. В., Шевченко І. В., Шевченко Л. Л., Сидорчук Н. М., Петрук В. С., Старова Ю. О., Вербиненко Ю. І., Яблочков М. М. ; ред. : Надутенко М. В., Остапова І. В. ; Інститут електрозварювання ім. Є. О. Патона; Український мовно-інформаційний фонд ; НАН України. - [Електронний ресурс. CD] - К., 2013. - (Словники України). - ISBN 978-966-02-7068-8.

18. Словник металургійних термінів : У 2 т. : Українсько-грузинсько-російсько-англійсько-німецько-французький / Гол. наук. ред. Патон Б. Є.; гол. ред. Кашакашвілі Г. В. ; НАН України, РАН, НАН Грузії, РАПН, Грузинський технічний університет. - 1 електрон. опт. диск (DVD-ROM) - К. : Фенікс, 2014. - ISBN 978-966-136-208-5.

АНОТАЦІЯ

Надутенко М.В. Віртуалізовані лексикографічні системи та їх застосування в прикладній лінгвістиці. - На правах рукопису.

Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 10.02.21 - структурна, прикладна та математична лінгвістика. - Національна бібліотека України імені В. І. Вернадського, Київ, 2016.

Дисертація присвячена створенню науково-технічних засад сучасної національної лінгвістичної інфраструктури, а саме: дослідженню та розробленню моделей, методів та засобів віртуалізації лексикографічних систем, як універсальних мовно-інформаційних конструкцій, призначених для розв'язання широкого кола завдань прикладної лінгвістики. Серед них слід відзначити забезпечення творчої взаємодії територіально розподілених колективів фахівців, які працюють над виконанням спільних проектів, забезпечення функціонування лінгвістичних корпусів у високоефективних інформаційно-обчислювальних суперкомп'ютерних системах, застосування хмаринних та Grid-технологій у розподілених системах опрацювання природної мови тощо.

В дисертації розроблено формальну модель віртуалізації лексикографічних середовищ. На цій основі побудовано моделі віртуалізації інструментальних лексикографічних лабораторій та корпусних лінгвістичних технологій. Це дозволило створити й довести до практичного впровадження ряд конкретних систем, які мають велике прикладне значення, серед яких відзначається Віртуальна термінографічна лабораторія «Зварювання» та Український національний лінгвістичний корпус. На їхній основі створено низку мовно-інформаційних продуктів, які застосовуються у практичній діяльності фахівцями-предметниками (зварювання, металургія та ін.), а також при автоматизованій побудові онтологій предметних галузей, інформатизації навчального процесу тощо.

Ключові слова: лексикографічні системи, віртуалізація, віртуальні лексикографічні лабораторії, лінгвістичні корпуси, хмаринні технології, Grid-технології.

АННОТАЦИЯ

Надутенко М.В. Виртуализированные лексикографические системы и их применение в прикладной лингвистике. - На правах рукописи.

Диссертация на соискание ученой степени кандидата технических наук по специальности 10.02.21 - структурная, прикладная и математическая лингвистика. - Национальная библиотека Украины имени В. И. Вернадского, Киев, 2016.

Проблема виртуализации считается одной из основных проблем современной информационной инфраструктуры. Особую роль в ней играют лингвистические средства, которые сейчас признаются главным фактором интеллектуализации интернета. Диссертация посвящена созданию научно-технических основ национальной лингвистической инфраструктуры, а именно: исследованию и разработке моделей, методов и средств виртуализации лексикографических систем, как универсальных языково-информационных конструкций, предназначенных для решения широкого круга задач прикладной лингвистики. С этой целью в ходе выполнения диссертационного исследования разработаны концептуальные и системотехнические основы построения виртуализированных Л-систем, ориентированных на обеспечение ряда задач современной прикладной лингвистики. Проанализированы системотехнические аспекты современной облачной и Grid-инфраструктуры, на основе чего разработан вариант теории Л-систем, адаптированный к задачам виртуализации и специфики сетевых сред. Разработаны архитектурно-программные модели виртуализации Л-систем на основе применения модифицированной теории Л-сред и Л-агентов. Указанные результаты проиллюстрированы на примере систем корпусной лингвистики и инструментальных лексикографических систем.

Исследованы системотехнические принципы создания и функционирования виртуализированных инструментальных лексикографических систем и лексикографических лабораторий с использованием облачных и Grid-технологий.

Разработана и введена в эксплуатацию Виртуальная терминографическая лаборатория «Сварка» как пример виртуализации инструментальной терминологической Л-системы. Концептуальная модель и системотехника ВТС «Сварка» может служить прообразом формирования современной системы национальной терминологии Украины.

Разработано программное обеспечение и реализована пользовательская версия Терминологического украинско-русско-английского словаря-справочника по сварке на лазерном диске и на сайте Украинского лингвистического портала.

Создана реализация Украинского национального лингвистического корпуса на суперкомпьютере СКИТ-3 Института кибернетики им. В. М. Глушкова НАН Украины, интегрированная в структуры Украинского национального Grid.

Совместно с Национальным центром «Малая академия наук Украины» на основе разработанных в диссертации методов виртуализации Л-систем выполнены следующие разработки. Осуществлена интеграция виртуализированных лингвистических корпусных технологий в систему онтографического и концептографического анализа текстов (система ТОДОС). Осуществлена интеграция виртуализированных лингвистических корпусных технологий в Репозиторий учебно-информационных ресурсов по учебным дисциплинам, преподавание которых ведется в общеобразовательных учебных заведениях Украины.

Ключевые слова: лексикографические системы, виртуализация, виртуальные лексикографические лаборатории, облачные технологии, Grid-технологии.

SUMMARY

Nadutenko M.V. Virtualized lexicographical systems and their application in applied linguistics. - Мanuscript.

Thesis for Candidate Degree of Technical Science on specialty 10.02.21 - Structural, applied and mathematical linguistics. - Vernadsky National Library of Ukraine, Kyiv, 2016.

This thesis concentrates on the development of the scientific and technological basis of a modern national linguistic infrastructure, such as: researching and development of the models, methods and tools for the virtualization of the lexicographical systems as universal lingua-information structures, designed for the solving a wide variety of applied linguistics' problems. Namely: providing a creative interaction between geographically distributed specialists' teams, working on the joint projects; ensuring of linguistic corpora functioning in highly efficient data-processing supercomputer systems; application of cloud- and Grid-technologies in distributed natural language processing systems etc.

In this thesis a formal model of lexicographical medium virtualization was developed. Models of virtualization of instrumental lexicographical laboratories and corpus linguistic technologies were developed on this basis. It made it possible to create and apply a number of specific systems that are of great practical importance, such as Virtual Terminographic Laboratory "Welding" and Ukrainian National Linguistic Corpus. Based on these developments a number of lingua-information products were developed, and specialists (on welding, metallurgy etc.) use them in practice, also this developments are used for automatic generation of ontologies of different subject fields, educational process etc.

Keywords: lexicographical systems, virtualization, virtual lexicographical laboratories, linguistic corpora, cloud technologies, Grid-technologies.

Размещено на Allbest.ru


Подобные документы

  • Особливості створення і призначення сучасних економічних інформаційних систем. Характеристика корпоративних інформаційних систем: системи R/3, системи управління бізнесом і фінансами SCALA 5та системи управління ресурсами підприємства ORACLE APPLICATION.

    курсовая работа [42,1 K], добавлен 19.05.2010

  • Склад і зміст робіт на стадії впровадження інформаційних систем. Технологія проектування систем за CASE-методом. Порівняльні характеристики інформаційних систем в менеджменті та СППР. Створення бази моделей. Визначення інформаційних систем управління.

    реферат [44,5 K], добавлен 09.03.2009

  • Класифікація інформаційних систем. Дослідження особливостей мови UML як засобу моделювання інформаційних систем. Розробка концептуальної моделі інформаційної системи поліклініки з використанням середи редактора програмування IBM Rational Rose 2003.

    дипломная работа [930,4 K], добавлен 26.10.2012

  • Визначення інформаційних систем. Загальна характеристика складових частин внутрішньої інформаційної основи систем. Пристрої перетворення графічної інформації в цифрову. Системи управління базами даних. Технологія створення карт засобами MapInfo.

    реферат [39,4 K], добавлен 05.12.2013

  • Стан і перспективи розвитку інформаційних систем керування бізнесом. Архітектура корпоративних інформаційний систем (КІС). Інструментальні засоби їх розробки і підтримки. Методи створення автоматизованих інформаційних систем. Система управління ЕRP.

    лекция [1,5 M], добавлен 23.03.2010

  • Особливості архітектури комп'ютерних мереж. Апаратні та програмні засоби комп'ютерних мереж, їх класифікація та характеристика. Структура та основні складові комунікаційних технологій мереж. Концепції побудови та типи функціонування комп'ютерних мереж.

    отчет по практике [1,2 M], добавлен 12.06.2015

  • Стадії життєвого циклу економічної інформаційної системи. Поняття, розвиток економічних інформаційних систем. Класифікація, принципи побудови, функції та інформаційні потоки. Формування вимог до автоматизованої системи. Автоматизація процесів управління.

    реферат [23,9 K], добавлен 03.07.2011

  • Історія створення и основні характеристики системи SWIFT, напрямки її діяльності та ефективність. Структура SWIFT, основні відділи та їх функції. Принципи створення автоматичних інформаційних систем. Призначення і можливості системи "клієнт-банк".

    контрольная работа [30,5 K], добавлен 26.07.2009

  • Області застосування і реалізації інформаційних систем, вимоги до них. Призначення та класифікація систем управління базами даних. Основні достоїнства мови SQL. Програмний код додатку. Створення база даних "Мебельний магазин". Лістинг даної програми.

    курсовая работа [747,0 K], добавлен 19.04.2015

  • Тенденції розвитку інформаційних технологій, зростання складності інформаційних систем, створюваних у різних галузях. Засоби, що реалізують CASE-технологію створення і супроводу інформаційних систем. Автоматизація розробки програмного забезпечення.

    реферат [21,5 K], добавлен 21.03.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.