Віртуалізовані лексикографічні системи та їх застосування у прикладній лінгвістиці

Принципи функціонування віртуалізованих лексикографічних систем та лінгвістичних корпусів із використанням хмаринних, суперкомп’ютерних та Grid-технологій. Створення віртуалізованих мовно-інформаційних систем лінгвістичних корпусів нового покоління.

Рубрика Программирование, компьютеры и кибернетика
Вид автореферат
Язык украинский
Дата добавления 20.10.2018
Размер файла 567,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Національна академія наук України

Національна бібліотека України імені В.І. Вернадського

УДК 81'33

Віртуалізовані лексикографічні системи та їх застосування у прикладній лінгвістиці

Спеціальність 10.02.21 - структурна, прикладна та математична лінгвістика

Автореферат

дисертації на здобуття наукового ступеня

кандидата технічних наук

Надутенко Максим Вікторович

Київ 2016

Дисертацією є рукопис.

Робота виконана в Українському мовно-інформаційному фонді НАН України.

Науковий керівник: академік НАН України, доктор технічних наук Широков Володимир Анатолійович, директор Українського мовно-інформаційного фонду НАН України.

Офіційні опоненти:

доктор технічних наук Ланде Дмитро Володимирович, завідувач відділу спеціалізованих засобів моделювання Інституту проблем реєстрації інформації НАН України;

кандидат технічних наук Кульчицький Ігор Маркіянович, доцент кафедри прикладної лінгвістики Національного університету «Львівська політехніка».

Захист відбудеться “11” квітня 2016 р. об 11 год. на засіданні спеціалізованої вченої ради Д 26.165.02 за адресою: 03039, м. Київ, просп. Голосіївський, 3.

Із дисертацією та авторефератом можна ознайомитись у читальному залі бібліотекознавчої літератури Національної бібліотеки України імені В.І. Вернадського (НБУВ) за адресою: 03039, м. Київ, просп. Голосіївський 3 та на порталі НБУВ у розділі «Аспірантура, докторантура» (URL: www.nbuv.gov.ua).

Автореферат розіслано “10” березня 2016 р.

Учений секретар спеціалізованої вченої ради, кандидат технічних наук Н.Ф. Самохіна

віртуалізований лексикографічний хмаринний

ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ

Актуальність роботи. Світ уступив у мережецентричну фазу еволюції. Всесвітня Мережа стала саме тим середовищем, де розгортається когнітивно-комунікативний сценарій розвитку цивілізації. За даними відомої фірми IDC, у 2011 році загальний світовий обсяг створених і реплікованих людством даних склав більше 1,8 зеттабайт (18 трильйонів Гб). За прогнозами цієї ж фірми, обсяг даних на планеті буде як мінімум подвоюватися кожні два роки аж до 2020 року. Якщо цей тренд вважати справедливим - а на разі немає жодних підстав сумніватися в ньому, то вже зараз обсяг світових даних перевищив величину 1014, а то й 1015 Гб. Проте виникають цілком обґрунтовані сумніви, що такі обсяги інформації можуть бути ефективно опрацьовані, а головне - адекватно сприйняті й належним чином усвідомлені їхніми реципієнтами. Адже психо-ментально-фізіологічна природа людини, у тому числі її здатність до сприйняття та опрацювання інформації, навряд чи суттєво змінилася за останні тисячоліття. Основний когнітивний тракт людини Palagin A.V., Shyrokov V.A. Principles of cognitive lexicography // Informational theories & application. - 2000. - Vol.9. - № 2. - P. 43 - 51. , а саме: «сприйняття > відчуття > переживання > усвідомлення > розуміння > рефлексія > реакція» продовжує так само діяти, як і десятки тисяч років тому, хоча інформаційна картина цивілізації змінилася докорінно. Експоненційне зростання інформації не супроводжується адекватним зростанням людських можливостей щодо її засвоєння, а тим більше ефективного використання. Нагальна потреба відповіді на цей глобальний виклик стимулювала нові підходи до оперування надвеликими масивами інформації і привела до концепції «Big Data» Clifford A. Lynch, “Big data: How do your data grow?” // Nature, vol. 455, no. 7209 (September 3, 2008). або «Великих Даних». Зараз двома основними трендами в інформаційно-технологічній інфраструктурі вважають-ся віртуалізація та «Великі Дані», причому віртуалізація стоїть на першому місці. Зазначені особливості сучасного етапу розвитку Мережі поставили проблему створення інтелектуальних інструментів, які б були спроможні «перебрати» на себе бодай частину функцій з основного когнітивного тракту людини.

Серед багатьох аспектів інтелектуалізації ми виділяємо мову. Лінгвістичне забезпечення Мережі зараз відіграє роль провідного чинника та основного інтерфейсу, що забезпечує взаємодію Людини з Мережею і Людини з Людиною через Мережу. Отже, набуває все більшої актуальності проблема поєднання («інтеграції») ідей і технологій віртуалізації, Великих Даних, когніції та інтелектуалізації - передусім, через механізми природної мови. Але особливість лінгвістичних засобів полягає в тому, що мови існують лише у формі окремих національних мов, носії яких, власне, і спроможні розробляти лінгвістичні компоненти програмного забезпечення на належному рівні й прийнятної якості. Основою таких розроблень є добре кодифіковані, анотовані та репрезентативні моделі та масиви лінгвістичних даних, що подають усі (в ідеалі) аспекти функціонування тієї чи тієї мови -в когнітивному та комунікативному плані. Такими засобами слугують лексикографічні системи, що надають далекосяжне узагальнення поняття словника, та лінгвістичні корпуси Широков В. А. та ін. Корпусна лінгвістика: Моногр. / Широков В. А., Бугаков О. В., Грязнухіна Т. О. , Костишин О. М., Кригін М. Ю.; НАН України, Укр. мов.-інформ. фонд. - К. : Довіра, 2005. - 472 с. . Таким чином, зараз в Україні на перший план актуальності виступає проблема створення сучасної національної системи лінгвістичних ресурсів. Розв'язання такої складної проблеми потребує наявності ефективних інструментів, спроможних забезпечити ефективну автоматизацію процесів створення лінгвістичних ресурсів, тобто розроблення відповідних інформаційно-лінгвістичних технологій. Різними аспектами створення та застосування складних лінгвістичних та знання-орієнтованих систем займались такі науковці, як: В. М. Глушков, А. Н. Хомський, А. Тарський, В. П. Гладун, О. В. Палагін, В. А. Широков, Д. А. Поспєлов, Д. В. Ланде, Н. В. Шаронова, І. В. Замаруєва, І. М. Кульчицький, Ю. Р. Валькман, А. В. Анісімов, А. М. Вавиленкова, О. Є. Литвиненко, В. Ш. Рубашкін, О. Є. Стрижак, Д. Ш. Сулейманов, О. А. Невзорова, Н. В. Лукашевич, О. В. Потапова, Н. М. Леонтьєва, Г. Г. Четвериков, Gruber T., Guarino N., Noy N., Corcho O., Gomez-Perez A., Gruninger M., Tarski A., Fernandez-Lopez M., Happel H., McGuinness D., Lee J., Minsky Lee M. та ін. Зараз чимало із завдань створення сучасних лінгвістичних ресурсів та лінгвістичної інфраструктури розв'язано, принаймні на принциповому рівні.

Вимальовується комплекс основних вимог до сучасних лінгвістичних інструментів та лінгвістичної інфраструктури: 1. Мережецентричність (спроможність функціонувати в різних мережевих середовищах). 2. Віртуальність (здатність до забезпечення ефективної професійної взаємодії висококваліфікованих фахівців, які працюють над спільними проектами). 3. Кросплатформеність (здатність функціонувати в різних операційних середовищах та платформах). 4. Інтелектуальність (здатність до виконання певних інтелектуальних операцій з природномовними об'єктами (зокрема, операції граматичної та семантичної ідентифікації) та орієнтованість на адаптацію когнітивних механізмів). 5. Спроможність до опрацювання великих обсягів лінгвістичних даних.

Зазначені завдання зумовлюють необхідність значного збільшення інформаційно-обчислювальних потужностей. На сьогодні одними з найбільш перспективних напрямів у галузі інформаційної інфраструктури є підходи, засновані на застосуванні хмаринних технологій, суперкомп'ютерів, розподілених систем на кшталт Grid тощо.

З викладеного випливає актуальність досліджень і розроблень у галузі створення сучасної лінгвістичної інфраструктури у формі розподілених платформонезалежних віртуалізованих лексикографічних систем, спроможних до інтелектуального опрацювання великих лінгвістичних даних.

Зв'язок роботи з науковими програмами, темами, планами. Дисертацію виконано в межах наукових тем Українського мовно-інформаційного фонду НАН України: «Розроблення лексикографічної структури та програмного забезпечення Віртуальної термінографічної лабораторії «Зварювання» (№ державної реєстрації 0112U004819) та «Формування сучасної національної термінологічної системи в галузі зварювання на основі впровадження новітніх інформаційних технологій - віртуальних лексикографічних лабораторій» (№ державної реєстрації 0113U007126), «Лінгвістичні принципи побудови спеціалізованих лексико-, терміно- та онтографічних систем» (2012 р. - 2016 р.р.) (№ державної реєстрації 0112U004484).

Об'єкт дослідження - віртуалізовані лексикографічні системи опрацювання природномовної інформації.

Предмет дослідження - системотехнічні та програмно-технологічні аспекти функціонування віртуалізованих лексикографічних систем у нелокальних інформаційно-комунікаційних середовищах.

Метою дослідження є розроблення теоретичних засад віртуалізації лексикографічних систем та лінгвістичних корпусів, загальних принципів функціонування віртуалізованих лексикографічних систем та лінгвістичних корпусів із використанням хмаринних, суперкомп'ютерних та Grid-технологій та створення на цій основі віртуалізованих мовно-інформаційних систем - віртуальних лексикографічних лабораторій, лінгвістичних корпусів нового покоління тощо. Для досягнення поставленої мети було визначено такі завдання:

1. Розробити варіант теорії лексикографічних систем, адаптований до завдань віртуалізації та специфіки сучасних мережевих середовищ.

2. Розробити концептуальні моделі віртуалізованих лексикографічних систем на прикладі систем корпусної лінгвістики та інструментальних лексикографічних систем.

3. Дослідити системотехнічні принципи створення та функціонування віртуалізованих лексикографічних систем та лексикографічних лабораторій з використанням хмаринних та Grid-технологій.

4. Розробити і ввести в експлуатацію Віртуальну термінографічну лабораторію «Зварювання» як приклад віртуалізації інструментальної термінологічної системи та прообраз системи національної термінографії.

5. Створити програмне забезпечення та реалізувати користувацьку версію Термінологічного українсько-російсько-англійського словника-довідника зі зварювання на лазерному диску та на сайті Українського лінгвістичного порталу.

6. Створити реалізацію Українського національного лінгвістичного корпусу на суперкомп'ютері СКІТ-3.

7. Здійснити інтеграцію віртуалізованих лінгвістичних корпусних технологій до системи онтографічного й концептографічного аналізу текстів.

8. Здійснити інтеграцію віртуалізованих лінгвістичних корпусних технологій до Репозиторію навчально-інформаційних ресурсів з навчальних дисциплін, що викладаються у загальноосвітніх навчальних закладах України.

Методи та теоретичні засади дослідження - теорія лексикографічних систем, теорія семантичних станів, моделі даних і знань, теорія архітектурно-структурної організації знання-орієнтованих інформаційних систем, методи онтологокерованих систем. Для вирішення завдань дисертаційного дослідження було використано комплексну методику дослідження, обумовлену специфікою досліджуваного матеріалу. Основним методом дослідження обрано метод побудови структурної моделі лексикографічних систем на основі теорії лексикографічного ефекту. Для формального подання матеріалу застосовано теорія архітектурно-структурної організації знання-орієнтованих інформаційних систем, методи онтологокерованих систем, об'єктно-орієнтованого проектування та програмування, системотехніка проектування розподілених віртуальних інформаційних систем.

Наукова новизна одержаних результатів.

Вперше:

- здійснено суперкомп'ютерну реалізацію українськомовного лінгвістичного корпусу із застосуванням Grid- та хмаринних технологій;

- розроблено Віртуальну термінографічну лабораторію «Зварювання» як приклад віртуалізації інструментальної термінологічної Л-системи;

- здійснено інтеграцію віртуалізованих корпусних лінгвістичних технологій із онтологокерованими текстоаналітичними системами.

Удосконалено: лінгвістичні та системотехнічні підходи до створення віртуальних лексикографічних лабораторій із забезпеченям їхнього функціонування в хмаринних, Grid-середовищах та суперкомп'ютері СКІТ-3.

Набули подальшого розвитку:

- теорія лексикографічних систем, де враховано завдання побудови сучасної мовно-інформаційної інфраструктури та процеси адаптації до сучасних нелокальних віртуалізованих мережевих середовищ;

- лексикографічні механізми та корпусні технології, які можуть бути використані для інтеграції онтологій різних предметних галузей та побудови лінгвістично-орієнтованих моделей та систем знання.

Практичне значення.

Розроблено, впроваджено і практично апробовано віртуальну термінографічну лабораторію «Зварювання» з розширеними онтологічними функціями (тлумачення терміноконцептів трьома мовами, лінійна концептуалізація, забезпечення відеоряду в ілюстративній зоні). Для термінів розроблено тлумачення і сформовано тримовну базу даних. Створено користувацьку версію системи на лазерному диску: «Українсько-російсько-англійський тлумачний словник-довідник зі зварювання».

Зазначені результати становлять основу для формування сучасної термінологічної системи у галузі зварювання.

Впровадження. Віртуальна термінографічна лабораторія «Зварювання» та Лазерний диск «Українсько-російсько-англійський тлумачний словник-довідник зі зварювання» впроваджені в Інституті електрозварювання (ІЕЗ) ім. Є.О. Патона НАН України. За допомогою Віртуальної термінографічної лабораторії «Зварювання» відділом економічних досліджень ІЕЗ ім. Є.О. Патона НАН України організовано виконання етапу наукової роботи №1.6.1.1.16.8 (16/8) «Дослідження стану і перспектив розвитку світової зварювальної науки, техніки та виробництва, світових та регіональних ринків зварювальної техніки і конструкційних матеріалів».

Із використанням розроблених автором системних модифікацій Українського національного лінгвістичного корпусу розроблено методичні рекомендації щодо організації навчально-дослідницької роботи школярів «Створення лінгвістичних ресурсів електронних майданчиків доступу до експериментальної версії віртуальної лексикографічної лабораторії "Навчальний лінгвістичний корпус" (ВЛЛ "НЛК")» Національного центру «Мала академія наук України».

Апробація результатів. Результати наукової роботи представлені на таких конференціях, семінарах та інших науково-практичних форумах:

1. Міжнародна наукова конференція «МегаЛінг-2011» (26-30.09.2011 р., м. Київ).

2. «Прикладная лингвистика в науке и образовании», Санкт-Петербург, 5 - 7.04.2012 р.

3. Всеукраїнська науково-методична конференція студентів та молодих науковців (Миколаїв, 23-24.05.2013 р.).

4. Міжнародна наукова конференція «МегаЛінг-2013» (24.11.2013 р., м. Київ).

5. Міжнародна наукова конференція “Corpusy rownolegly: co daley” («Польська, українська, болгарська лексикографія: традиційні та електронні словники», 13-14.11.2014 р. у Варшаві (Польща).

6. Міжнародна наукова конференція «Українська термінологія і сучасність» (22-24.04.2015 р., м. Київ).

7. У 2012-2014 рр. було проведено серію семінарів-практикумів для наукових керівників та учасників Всеукраїнського конкурсу-захисту науково-дослідницьких робіт учнів-членів Малої академії наук України за темами: «Лінгвістичні корпуси та їх застосування», «Комп'ютерні онтології та їх застосування», «Методика семантичного контент-аналізу мовних конструкцій у літературних творах».

8. Організовано постійно діючі науково-методичні семінари «Використання середовища комплексу віртуальних лабораторій в організації навчально-дослідницької діяльності учнів-членів МАН» (спільний проект Українського мовно-інформаційного фонду НАН України, Національного центру «Мала академія наук України» та КПНЗ «Київська Мала академія наук учнівської молоді»).

9. Віртуальну термінографічну лабораторію «Зварювання» та Терміноло-гічний українсько-російсько-англійський словник-довідник зі зварювання (Київ. 2013. ISBN 978-966-02-7068-8) було презентовано на семінарі в ІЕЗ ім. Є. О. Патона НАН України за участю Президента НАН України академіка НАН України Б. Є. Патона.

Публікації. Основні положення дисертаційного дослідження висвітлено у 14 друкованих публікаціях, з них 5 статей у виданнях, рекомендованих ДАК, 3 - у зарубіжних наукових виданнях; а також двох Авторських свідоцтвах на програмні продукти та двох електронних виданнях.

Особистий внесок здобувача.

Всі результати, які становлять основний зміст дисертації, автор отримав самостійно. В наукових працях, опублікованих у співавторстві [4-14], автору дисертації належать моделі віртуалізації та всі програмні реалізації. У праці [17] автору належать внутрішня та зовнішня моделі, а також онлайнова реалізація. У праці [18] автору належить розробка концептуальної, внутрішньої та зовнішньої моделі шестимовного словника з металургії, його локальна та онлайнова версії.

Структура роботи. Дисертація складається з переліку умовних скорочень, вступу, чотирьох розділів із висновками до кожного з них, загальних висновків, списку використаних джерел (261 позиція на 36 стор.), 8 додатків. Обсяг основного тексту - 193 стор., обсяг додатків - 60 стор.

ОСНОВНИЙ ЗМІСТ ДИСЕРТАЦІЇ

У Вступі обґрунтовано актуальність теми, визначено об'єкт і предмет дослідження, мету та завдання роботи, окреслено методи дослідження та теоретичне підґрунтя запропонованого підходу, розкрито наукову новизну, теоретичне та практичне значення, зазначено форми апробації результатів дисертації.

У першому розділі «Семантичні стани та лексикографічні системи в сучасній прикладній лінгвістиці» викладено основні поняття, структури та моделі, які використовують при розв'язанні різноманітних завдань прикладної лінгвістики: створенні електронних і паперових словників, систем опрацювання мови, цифровій концептографії, розробленні онтологій предметних галузей, електронних навчальних систем тощо.

З цією метою тут подано теорію семантичних станів В. А. Широкова, яка використовується для опису широкого кола лінгвістичних неоднозначностей (як граматичних, так і семантичних), викладено теорію лексикографічних систем, яка надає уніфіковану основу для опису різноманітних моделей даних і знань, побудові онтологій предметних галузей, елементів логіко-лінгвістичних числень тощо, описано основні уявлення про лінгвістичні корпуси.

Будь-яка одиниця мови за теорією В. А. Широкова у контексті або в мовному потоці перебуває в певному семантичному стані. Таким чином, при розгляді формальних аспектів опису мовної системи ми виходимо з існування відповідності між мовною одиницею та її станом:

s : Х s(Х), (1)

де Х - певна одиниця мови; s - відповідність між Х и s(Х) - формальним об'єктом, що представляє семантичний стан одиниці Х, який має своїми детермінантами елементи засобів матеріального вираження семантики. Припустимо, що існує оператор F, дія якого визначена на множині семантичних станів S і який будемо інтерпретувати як оператор значення певної семантичної категорії. Дію оператора F можна виразити в такий спосіб:

F s i (Х) = f i s i (Х), (2)

де fi - деяке значення семантичної категорії; функції si(Х), і =1, 2,…, представляють семантичні стани одиниці Х, що маркують її належність до значення fi категорії F. Значення fi , і =1, 2,…, будемо називати власними значеннями оператора F, що відповідають семантичним станам si(Х), і =1, 2,…, Множину всіх семантичних станів, що відповідають власному значенню fi , називатимемо множиною часткових семантичних станів і позначимо символом S(fi):

S(fi):= {s: Fs = fi si} . (3)

За визначенням множина S(fi) складається тільки з тих семантичних станів, які характеризуються певним значенням семантичної категорії F, а саме - значенням fi. Рівняння (2) у тих випадках, коли множина, що пробігає індекс і, складається більше ніж із одного елемента, представляє формальне вираження явища семантичної багатозначності. Можливі випадки, коли в рівнянні (2) певному значенню fi відповідає не один семантичний стан si(Х), а кілька: si j(Х), j =1, 2, … . Такі стани будемо називати виродженими; про виродженість сигналізує наявність верхнього індексу біля символу семантичного стану si j(Х). Семантичні стани, де оператор F має певне значення, будемо називати чистими. Формально ситуацію, коли оператор F не набуває одного певного значення, але може характеризуватися, наприклад, двома, можна зобразити так:

F (Х) = f11(s1) s1(Х) + f22(s2) s2(Х), (4)

де семантичний стан s мовної одиниці Х при дії на нього оператора F розщеплюється на два, а саме: s1(Х) і s2(Х), де s1(Х) відповідає значенню семантичної категорії f1, а s2(Х) - значенню семантичної категорії f2. Коли будь-який семантичний стан у процесі мовного оброблення можна редукувати до чистого, множину S можна представити об'єднанням множин S(fi), які між собою не перетинаються, тобто справедлива формула:

S = f S (fi) ; S (fi) S (fj)= при ij (5)

Врахуємо можливість існування одиниць, що одночасно характеризуються декількома значеннями певної семантичної категорії. Семантичний стан s(Х) такої одиниці Х уже не буде належати лише одній із підмножин S(fj), але одночасно двом чи більше. Формальний механізм опису подібних явищ здійснюється визначенням на множині S =f S (fi) структури нечіткої в смислі Заде множини. Для цього на кожній з підмножин S (fi) визначимо функцію належності i(s), що для кожного s S(fi) набуває певного числового значення з інтервалу [0, 1]:

i(s) [0,1] . (6)

Тоді кожна з S(fi) перетворюється на нечітку множину із функцією належності i(s):

S (fi) { S (fi), i(s), s S (fi)} . (7)

За допомогою цього формалізму конструюється повний семантичний стан лексеми, формула якого набуває наступного вигляду:

sі(х) = ? ? і r(х) s і r(х) (8)

де індекс r маркує різні граматичні значення лексеми х, а ваги ? і r(х) вибрано так, що ?? ? і r(х) =1; ? і r(х) ? 0. Із врахуванням взаємодії граматичної та лексичної семантики диференціальний стан лексеми факторизується в такий спосіб:

s і r(х) = g і r(х) І (g; l; х) (х) , (9)

де член І (g; l; х) відповідає за взаємодію між граматичною та лексичною семантикою лексеми х у стані s і r(х). Своєю чергою, врахування граматичної варіативності здійснюється через уведення спеціального параметра t, за допомогою якого маркуються різні типи варіативності лексеми х, що зберігають комплекс її лексичних значень:

і r t (х t)gі r t (х t). (10)

У результаті формула для представлення семантичного стану лексеми з урахуванням описаної варіативності, що не веде до зміни повного лексичного значення, набуває вигляду:

s (х) = ??i [? ? ? і r t (х t)gі r t (х t) І (g; l; х t)](х) , (11)

де коефіцієнти ?i інтерпретуються як відносні ваги (середні частоти), з якими різні лексичні значення (х), і = 1, 2, …, зустрічаються у множині К(х).

У структурі формули (11) можна простежити основні контури будови лексикографічної системи. Зокрема, тут цілком чітко простежується відношення «форма-зміст», яке є одним із системотвірних для лексикографічної системи. Друге її системотвірне відношення, а саме - «суб'єкт-об'єкт» також має бути врахованим, що демонструє подальший виклад.

Отже, базовим конструктивом інформаційно-лінгвістичних побудов визначаються лексикографічні системи (Л-системи). Л-систему розглядатимемо як спеціальне інформаційне (семіотичне і семантичне) середовище, в якому реалізується певний лексикографічний ефект (або певна сукупність лексикографічних ефектів). Відповідно до інформаційної інтерпретації процесів сприйняття визначимо результат рецепції суб'єктом S об'єкта D, що веде до генерації класу елементарних інформаційних одиниць (ЕІО) IQ(D). Зазначена рецепція реалізується певною множиною V(IQ(D)) - множини описів одиниць, що належать до класу IQ(D); ця множина є результатом процесу:

S : IQ(D) V(IQ(D)), (12)

тому для кожного елемента х ??IQ(D) однозначно визначено його опис V(х) як елемент множини V(IQ(D): V(х)???V(IQ(D)); ??V(х). Отже, логічно припустити, що V(IQ(D)) має вигляд об'єднання:

V(IQ(D)) ? ??V(х). (13)

Згідно з інформаційною концепцією представлення опису системи ЕІО, кожний V(х) зображується словом (тексту) в певному скінченному алфавіті А ? {a1, a2, ..., an}, тобто скінченної послідовності символів з А (надалі слова в алфавіті А називатимемо А-словами). Позначимо множину всіх А-підслів А-слова V(х) через B[V(х)].

Структура на множині описів {V(х)} вводиться у такий спосіб. Припустимо, що для всіх описів V(х) існує єдине правило, за яким з будь-якого А-слова V(х) можна виділити множину А-підслів (х) = {i(х)} з такими властивостями: елемент х належить до множини (х); весь опис V(х) є елементом множини (х); правило виділення елементів множини (х) є єдиним для всіх V(х) з V(IQ(D)). Структура (х) є першою структурою Л-системи. Покладемо за визначенням: [V(IQ(D))] = [V(х)].

x IQ(D)

що V(IQ(D)) [V(IQ(D))]. Позначимо:

q

i = i(х), i = 1, 2, ..., q, а також = i .

x IQ(D) i

Через [] позначимо певну структуру, визначену вже на . Надалі називатимемо [] макроструктурою V(IQ(D)); обмеження [] на V(х): []V(х) (х) породжує мікроструктуру V(х). Таким чином, з елементів конструюємо структуру .

Дев'ятка об'єктів: {S, D, IQ(D), V(IQ(D)), , [], F, С, H} визначає елементарну лексикографічну модель даних, а її конкретна реалізація - елементарну лексикографічну систему. Інколи для скорочення, коли не виникатиме різночитань, будемо позначати через V(IQ(D)) цілу елементарну лексикографічну систему.

Викладена конструкція становить зміст загального визначення лексикографічної моделі даних та лексикографічної системи за В. А. Широковим: {S, D, IQ(D), V(IQ(D)), , [], F, С, H, }, де символом позначено її архітектуру як інформаційної системи. Архітектура , зазвичай, обирається трирівневою, такою що відповідає ANSI/Х3/SPARK (або просто ANSI/SPARK). В ANSI/SPARK визначається три рівні представлення даних: концептуальний, внутрішній і зовнішній, які ми використовуватимемо в такій інтерпретації:

АRСН_LS ? {СM, EXM, INM; Ц,Ш, О}, (14)

де символом СM позначено концептуальну модель лексикографічної системи LS. Символом EXM ? {exМ} - множину її зовнiшнiх моделей, які відповідають СM, а INM = {inМ} - множина її внутрiшнiх моделей. Через Ц ? {ц} позначено множину вiдображень СM в EXM: ц :

СM ? exМ, де exМ ? EXM; (15)

відповідно Ш = {ш} - множина вiдображень СM в INM:

ш : СM ? inМ, де inМ ??INM; (16)

О ? {о} - множина вiдображень INM в EXM: о (inМ) = exМ. (17)

Однiй концептуальнiй моделi може вiдповiдати декiлька внутрiшнiх та зовнiшнiх моделей. Визначимо множину О відображень INM в EXM:

для inМ INM та exМ EXM оО таке, що: о (in М) = exМ. (18)

При цьому вiдображення ц, ш, о будуються в такий спосіб, що дiаграма:

CM inМ ц о (19)

є комутативною: о ш = ц. Вимога комутативності цієї діаграми є суттєвою, оскільки гарантує узгодженiсть мiж усiма рiвнями архiтектури системи.

У цьому ж розділі викладено узагальнення поняття лексикографічної системи - лексикографічні середовища та продемонстровано техніку їхньої інтеграції.

Вважатимемо, що задано лексикографічне середовище (Л-середовище) МL, якщо:

1. Задано клас Ob МL елементів, кожен з яких є діаграмою вигляду (19) і представляє певну Л-систему (не обов'язково елементарну). Елементи з Ob МL називаються об'єктами Л-середовища МL - позначатимемо їх великими латинськими літерами А, В, С, ... .

2. Для кожної пари об'єктів А, В з МL задано множину HomМL (А, В), яка називається множиною морфізмів А в В ; замість fHomМL (А, В) також пишуть:

f

f: А В або А В. При цьому f: СMA СMB; f: INMAINMB; (20)

f:EXMAEXMB; f( цA) = цB; f(шA) =шB; f(оA) = оB та f(оA) f(шA) = f(цA).

3. Для кожної трійки об'єктів (А, В, С) з МL задано відображення

: HomМL (А, В) HomМL (В, С)HomМL (А, С)

(образ (f, g) пари (f, g), де f HomМL (А, В), g HomМL (В, С)), буде позначатися f g або f g і називатися композицією морфізмів f і g).

4. Множини HomМL (А, В) і композиція морфізмів задовольняють таким аксіомам: (а) Асоціативність: для кожної трійки морфізмів f, g, h:

f g h

А В C D f ( g h ) = ( f g ) h. (21)

(б) Існування одиниці: для кожного A Ob МL існує морфізм

1А: А А, (1А HomМL (A, A)), такий що 1Аf = f і g 1А = g для довільних морфізмів fHomМL (В, А) і gHomМL (А, В).

(с) Якщо пари (А, В) і (А, В ) різні, перетин HomМL (А, В) і HomМL (А, В) порожній.

Нехай дано два лексикографічних середовища МL1 і МL2. Коваріантний (відповідно контраваріантний) функтор F з МL1 в МL2 складається з:

(а) відображення А ??F(А), яке зіставляє кожен об'єкт A ??Ob?МL1 з об'єктом F(А) ??Ob?МL2;

(б) відображень F(А, В)? HomМL1(А, В) ??HomМL2(F(А), F(В)) - для коваріантного й F(А,В)? HomМL1(А, В)? HomМL2(F(В),F(А)) - для контраваріантного функторів, визначених для всіх пар (А, В) об'єктів з МL1 і таких, що (якщо замість F(А, В)(u) писати F(u)) F(1А) ??1F(А) і F(vu) ? F(v)F(u) (відповідно F(vu) ? F(u)F(v)).

В останньому підрозділі першого розділу викладено основні засади теорії лінгвістичних корпусів. У загальному розумінні лінгвістичний корпус (надалі паралельно вживатимемо абревіатуру ЛК) - це представлений в електронній формі, великий за обсягом, уніфікований, структурований, розмічений і філологічно компетентний масив текстів природною мовою, доповнений системою керування - універсальними (тією чи іншою мірою) програмними засобами для пошуку та опрацювання різноманітної лінгвістичної інформації.

У системному сенсі лінгвістичний корпус має структуру лексикографічної системи. Загальна структура будь-якого лінгвістичного корпусу передбачає наявність як мінімум трьох взаємодіючих між собою підсистем: а) репрезентації (представлення) даних; б) маркування («тегування», «анотування»; розмітки) і в) експлікації даних.

Особливу увагу приділено визначенню поняття лінгвістичного корпусу та архітектурним принципам його побудови. У структурі лінгвістичного корпусу (ЛК) виділяється дві основні підсистеми: бібліографічна та повнотекстова. Подано повну структуру ЛК як Л-системи спеціального типу та описано склад його компонентів і взаємодію між ними.

Другий розділ «Архітектурні принципи побудови віртуалізованих систем прикладної лінгвістики» присвячено дослідженню поняття «віртуального» в інформаційно-комунікаційних системах, аналізу архітектурних, системотехнічних та програмних принципів побудови віртуалізованих Л-систем. Проаналізовано поняття віртуальних лексикографічних лабораторій.

Історія застосування термінопоняття «віртуальний» сягає XIII століття. Але особливого поширення термін «віртуальний» набув уже в новий час, коли було створено Інтернет, який забезпечив технічне середовище для забезпечення глобальних інформаційних комунікацій. Найбільшої уваги науковців здобули різні аспекти віртуальної реальності. Зокрема її онтологічний статус досліджується Л. Компанцевою, Д. Ланде, Л. Усановою, А. Усановим, Н. Лукашевич, антропологічні аспекти - Г. Горячковським, історія формування та вивчення в європейській філософії цього феномену - Д. Свириденком, віртуальні прояви інформаційної цивілізації - Л. Компанцевою, Е. Смерічевським, Т. Каменською тощо. Дослідження віртуальних аспектів професійної взаємодії та створення онтологізованих мовно-інформаційних систем здійснено О. Палагіним, В. Широковим та представниками їхніх шкіл.

У межах інформаційного підходу під терміном «віртуалізація» зазвичай розуміють абстракцію інформаційно-обчислювальних ресурсів, представлену користувачам системи, яка приховує в собі власну реалізацію. Технологічна реалізація такої абстракції надає багато зручностей користувачам, створюючи своєрідний «ефект присутності» і забезпечуючи ефективну комунікацію в реальному часі. Особливо зручним такий підхід є у застосуванні до реалізації проектів, які виконуються із застосуванням ІКТ розподіленими у просторі великими колективами фахівців.

У цьому розділі введено дефініції понять із семантичного термінополя «віртуальний» і «віртуалізація» та здійснено систематизацію відповідного понятійного апарату. Насамперед, вводяться поняття віртуальної платформи, віртуальної машини та віртуального робочого середовища. Потім здійснюється класифікація віртуалізації за ступенем повноти (повна віртуалізація, часткова віртуалізація), за видами (програмна віртуалізація, апаратна віртуалізація) та за рівнями (віртуалізація на рівні обладнання, віртуалізація на рівні операційної системи (гіпервізора), віртуалізація засобами операційної системи, віртуалізація на рівні прикладного програмного забезпечення, віртуалізація на рівні сховища даних, віртуалізація на рівні мережі), вводяться відповідні дефініції та позначення (відповідно HD, HYP, OS, SOFT, NET) та наводяться приклади конкретних технічних реалізацій. Розглянуто також поняття методу віртуалізації. На основі розглянутої базової системи понять вводиться поняття «Віртуалізація лексикографічної системи» - метод віртуалізації Л-системи, що передбачає її реалізацію шляхом повної або часткової віртуалізації на внутрішньому рівні її архітектури та, за необхідності, на зовнішньому. При цьому формується повна інфраструктура та віртуалізована платформа, призначені для роботи Л-системи методами віртуалізації на рівні обладнання, або на рівні операційної системи (чи її засобами), або на рівні прикладного програмного забезпечення, а також на рівні сховища даних та на рівні мережі.

Розглянемо лексикографічне середовище ML0, що складається зі звичайної (тобто невіртуалізованої) Л-системи LS0. Зазначена Л-система, відповідно до архітектури ANSI/Х3/SPARK, складається із концептуальної моделі CM0, внутрішньої InM0 , та зовнішньої ЕxM0 моделей. При цьому для Л-системи LS0 існує морфізм цієї системи в себе: HOM (LS0, LS0)=(fc00, fi00, fe00) (де fc00 : CM0 CM0, fi00 : InM0 InM0 , fe00 : ЕxM0 ЕxM0 ) та справедливі всі інші умови та аксіоми Л-середовища.

Під віртуалізацією Л-системи розумітимемо метод її побудови шляхом повної або часткової віртуалізації на внутрішньому рівні її структури (моделі) та (можливо, за необхідності) на зовнішньому. Тобто існує такий функтор F з Л-середовища ML0 , де існує тільки одна задана невіртуалізована Л-система LS0 , у Л-середовище ML0V , яке містить k Л-систем LSv1 … LSvk (k - залежить від кількості об'єктів інфраструктури, необхідних для віртуалізації), кожна з яких має відповідно віртуалізовані внутрішні моделі InMvi (містять множину даних, що зберігаються у віртуальному сховищі даних, множину алгоритмiв (процесів) оброблення та маніпулювання даними, множину віртуальних операційних платформ та мов програмування тощо) та зовнішні ExMvj моделі (містять множину віртуальних інтерфейсів, множину функцій, множину прикладних програм, що теж можуть бути віртуалізованими Л-системами), що складається з відображень F1 … Fk, які зіставляють LS0 із кожною з LSvi (i =1…k) та відображень F01K…F0kk , що для кожного F0ij : HOMMLo(LS0, LS0) HOMML0v (Fi(LS0), Fj(LS0))= HOMML0v(LSvі, LSvj). Позначимо такий функтор Fv: ML0 ML0V , Fv = (F1, … ,Fk , F011 , F01K,…,F0kk ). При цьому концептуальний рівень CM0 усіх Л-систем, про які йшлося, залишається без змін. Таким чином, для кожної Л-системи LSвизначається багатокомпонентний функтор Fv, який відображає локальну архітектуру Л-системи ??? LS0 у віртуальну архітектуру ??v LSvi . Сформульоване твердження подається в наступному вигляді:

LSvi=[[FvHD(LS0)FvHYP(LS0)FvOS(LS0)]?FvSOFT(LS0)]?FvSTOR(LS0)?FvNET(LS0), (22)

де LSvi - архітектура ?? віртуалізованої лексикографічної системи, заданої вісімкою {S, D, IQ(D), V(IQ(D)), ?, ?[?], RR?[V(IQ(D))], ?}; LS0 - локальна архітектура??? Л- системи, заданої вісімкою { S, D, IQ(D), V(IQ(D)), ?, ? [?], RR?[V(IQ(D))], ?}; FvHD - елемент функтора віртуалізації на рівні обладнання; FvHYP - елемент функтора віртуалізації на рівні гіпервізора операційної системи; FvOS - елемент функтора віртуалізації засобами операційної системи; FvSOFT - елемент функтора віртуалізації на рівні прикладного програмного забезпечення; FvSTOR - елемент функтора віртуалізації на рівні сховища даних; FvNET - елемент функтора віртуалізації на рівні мережі; - строга диз?юнкція; ? - нестрога диз?юнкція.

У цьому розділі викладено історичну трансформацію змісту наведених вище понять. Також розглянуто поняття про Grid та Knowledge Grid, окреслено сучасний стан Grid-середовищ, хмаринних технологій та розкривається питання їхнього застосування для віртуалізації лексикографічних систем. Застосування хмаринних та Grid-технологій для створення ефективної інтелектуальної мережевої інфраструктури передбачає віртуалізацію відповідних ресурсів.

На основі викладеного введено поняття коефіцієнта масштабування віртуальних робочих середовищ, який тісно пов?язаний із забезпеченням еластичності та масштабування хмаринних та Grid-ресурсів.

Розглянуто питання побудови моделі віртуалізації Л-системи на основі хмариннних та Grid-технологій. На основі аналізу конкретних реалізацій відомих хмаринних систем вивчено та проаналізовано програмне забезпечення керування хмаринними середовищами (надалі ПЗХ), на основі чого визначено основні його компоненти та принципи функціонування (відкритість, сумісність, швидкодія, відмовостійкість легкість керування, еластичність, підтримка стандартного інтерфейсу OCCI (Open Cloud Computing Interface), підтримка можливості міграції хмаринної інфраструктури між ЦОД). Зроблено висновок про обов?язковість запровадження системи керування віртуалізованими Л-системами для роботи в хмаринному та GRID-середовищі та розроблено її модель, для чого застосовано поняття лексикографічного агента (ЛА, Л-агент).

Концепція Л-агентів дозволяє проектувати системи, функціонування яких не передбачає постійно діючої підсистеми взаємодії з розробником або користувачем і є цілком автономною. Такі риси є характерними для інтелектуального агента, який визначається в рамках теорії штучного інтелекту як сутність, що знаходиться всередині певного зовнішнього середовища та є його частиною, функціонує в ньому, сприймаючи оточення та впливаючи на нього для виконання власної програми діяльності. Зовнішнє середовище може бути описане за допомогою множини S станів середовища. Припускаємо, що вона є скінченною S = {s1,s2,….,sk}. Можливі дії Л-агента описуються за допомогою множини A дій агента A = {a1,a2,….,an}- алфавіт дій. Отже, Л-агент може бути представлений як функція: action:SA. Архітектура Л-агента складається з трьох рівнів: концептуального - бізнес-логіки; користувацького програмного забезпечення, програмного середовища та відповідних інтерфейсів взаємодії агента, що є зовнішніми по відношенню до агента - зовнішньої моделі, та внутрішньої моделі - лексикографічної бази даних. За умови віртуалізації зовнішня модель Л-агента набуває рис віртуального робочого середовища (тобто для роботи кожного окремого екземпляра агента запускається або окрема віртуальна машина, або окремий контейнер операційної системи, або окремий пакет завдань для oкремо взятого робочого вузла Grid). При цьому встановлюється взаємнооднозначна відповідність між Л-агентом та віртуальним робочим середовищем, така, що один LAv-агент може бути запущений лише в одному віртуальному робочому середовищі VWE (Virtual Working Environment).

Отже, для деякого Л-агента LAi (де i =1,…, k, k - коефіцієнт масштабування віртуальних робочих середовищ, який залежить від продуктивності апаратно-програмної реалізації окремого робочого середовища й типу даних, що обробляються та визначається, зазвичай, експериментально) існує такий функтор FLAv, що відображає LAi до віртуалізованого Л-агента LAvi, що складається з: відображення Fci , яке зіставляє концептуальну модель бізнес-логіки AConceptBI LAi із концептуальною моделлю бізнес-логіки віртуалізованого LAvi, що тотожньо дорівнює AConceptBI; відображення FIni , яке зіставляє внутрішню модель (лексикографічну базу даних LADBi) агента LAi із внутрішньою моделлю LADBvi віртуалізованого агента LAvi (яка, у свою чергу, є частиною загальної метасистеми керування базами даних віртуалізованого середовища); відображення FExi , яке зіставляє зовнішню модель (інтерфейси взаємодії агента) LAi із зовнішньою моделлю віртуалізованого робочого середовища VWEi віртуалізованого агента LAvi (яка, у свою чергу є частиною загальної системи керування віртуалізованими робочими середовища) та відображень F0vi, що: HOMLAi(LAi, LAi) HOMLAvi(Fvi(LAi), Fvi(LAi))= HOMLAvi(LS, LSvi). Таким чином, оскільки Л-агенти пов?язані з відповідними Л-системами та їх опрацюванням, то будь-яку Л-систему можна подати композицією відповідних їй Л-агентів: ?i?LAvi, де ?i - операція композиції лексикографічних об?єктів, (i =1,…, k; k - коефіцієнт масштабуванння робочих середовищ платформи віртуалізації). При цьому набір
Л-агентів віртуалізованої Л-системи, який можна реалізувати в цій системотехніці, визначається глибиною рекурсивної редукції Л-системи RR?[LSv]. У такий спосіб визначається набір можливих типів Л-агентів, множина яких залежить від конкретної системотехнічної реалізації віртуалізованої Л-системи. Отже, для кожного типу LAv може бути визначена модель віртуалізації Л-системи:

LSv = {?i?LAvi [RR?[LSv]], FLAv , AMS, VEMS, MDMS}, (23)

де AMS (Agent Management System) - система керування Л-агентами, яка містить об?єкти, категорії, зв?язки, можливі операції над агентами, та обмеження, які стосуються їхнього віртуального масштабування і цілісності, що відноситься до перетворення віртуалізації на відповідних її рівнях (HD, HYP, OS, SOFT, STOR, NET); VEMS (Virtual Environment Management System) - система керування віртуальними робочими середовищами, в яких здійснюється запуск Л-агентів, яка містить інтерфейси, функції, сценарії, процеси та програмне забезпечення, що відноситься до перетворення віртуалізації на відповідних її рівнях (HD, HYP, OS, SOFT, STOR, NET); MDMS (Meta Data Management System) - система керування даними та базами даних, на яких здійснюється запуск Л-агентів, яка містить специфікації цих даних за типами, структурами та форматами, алгоритми манiпулювання даними та відповідні засоби програмування, що відноситься до перетворення віртуалізації на відповідних рівнях (HD, HYP, OS, SOFT, STOR, NET); HD - віртуалізація на рівні обладнання; HYP - віртуалізація на рівні гіпервізора операційної системи; OS - віртуалізація засобами операційної системи; SOFT - віртуалізація на рівні прикладного програмного забезпечення; STOR - віртуалізація на рівні сховища даних; NET - віртуалізація на рівні мережі.


Подобные документы

  • Особливості створення і призначення сучасних економічних інформаційних систем. Характеристика корпоративних інформаційних систем: системи R/3, системи управління бізнесом і фінансами SCALA 5та системи управління ресурсами підприємства ORACLE APPLICATION.

    курсовая работа [42,1 K], добавлен 19.05.2010

  • Склад і зміст робіт на стадії впровадження інформаційних систем. Технологія проектування систем за CASE-методом. Порівняльні характеристики інформаційних систем в менеджменті та СППР. Створення бази моделей. Визначення інформаційних систем управління.

    реферат [44,5 K], добавлен 09.03.2009

  • Класифікація інформаційних систем. Дослідження особливостей мови UML як засобу моделювання інформаційних систем. Розробка концептуальної моделі інформаційної системи поліклініки з використанням середи редактора програмування IBM Rational Rose 2003.

    дипломная работа [930,4 K], добавлен 26.10.2012

  • Визначення інформаційних систем. Загальна характеристика складових частин внутрішньої інформаційної основи систем. Пристрої перетворення графічної інформації в цифрову. Системи управління базами даних. Технологія створення карт засобами MapInfo.

    реферат [39,4 K], добавлен 05.12.2013

  • Стан і перспективи розвитку інформаційних систем керування бізнесом. Архітектура корпоративних інформаційний систем (КІС). Інструментальні засоби їх розробки і підтримки. Методи створення автоматизованих інформаційних систем. Система управління ЕRP.

    лекция [1,5 M], добавлен 23.03.2010

  • Особливості архітектури комп'ютерних мереж. Апаратні та програмні засоби комп'ютерних мереж, їх класифікація та характеристика. Структура та основні складові комунікаційних технологій мереж. Концепції побудови та типи функціонування комп'ютерних мереж.

    отчет по практике [1,2 M], добавлен 12.06.2015

  • Стадії життєвого циклу економічної інформаційної системи. Поняття, розвиток економічних інформаційних систем. Класифікація, принципи побудови, функції та інформаційні потоки. Формування вимог до автоматизованої системи. Автоматизація процесів управління.

    реферат [23,9 K], добавлен 03.07.2011

  • Історія створення и основні характеристики системи SWIFT, напрямки її діяльності та ефективність. Структура SWIFT, основні відділи та їх функції. Принципи створення автоматичних інформаційних систем. Призначення і можливості системи "клієнт-банк".

    контрольная работа [30,5 K], добавлен 26.07.2009

  • Області застосування і реалізації інформаційних систем, вимоги до них. Призначення та класифікація систем управління базами даних. Основні достоїнства мови SQL. Програмний код додатку. Створення база даних "Мебельний магазин". Лістинг даної програми.

    курсовая работа [747,0 K], добавлен 19.04.2015

  • Тенденції розвитку інформаційних технологій, зростання складності інформаційних систем, створюваних у різних галузях. Засоби, що реалізують CASE-технологію створення і супроводу інформаційних систем. Автоматизація розробки програмного забезпечення.

    реферат [21,5 K], добавлен 21.03.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.