Стандартизация лексико-семантических ресурсов в терминах стандарта "Metaobject facility"
Сопоставление исходному неозначенному предложению означивание путем ряда трансформаций - цель автоматической семантической разметки. Онтология - технология, которая определяет понятия, отношения между ними в рамках задачи описания предметной области.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 09.11.2018 |
Размер файла | 121,2 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru
Размещено на http://www.allbest.ru
Лексико-семантические ресурсы используются в большинстве задач, связанных с обработкой естественного языка, таких как: разрешение лексической многозначности, извлечение информации, а также определение семантических ролей и типов. В последние годы аспекты переиспользования и объединения лексико-семантических ресурсов становятся более актуальными. Во многом это связано с трудозатратностью построения таких ресурсов с нуля. Стандартизация ресурсов играет важную роль в данном контексте, поскольку облегчает их интеграцию и делает переиспользование более простым. Системы обработки естественных языков, построенные согласно стандартам, могут легко подключать стандартизованные лексико-семантические ресурсы, и, таким образом, для них будет возможно легкое переключение между различными стандартизованными ресурсами. Другими словами, стандартизация лексико-семантических ресурсов делает их совместимыми.
В этой работе речь пойдет об описании метода автоматической семантической разметки (или АСР) [2], включающего в себя интеграцию лексико-семантических ресурсов WordNet [18], FrameNet [7], VerbNet [17] и реализованного для предложений английского языка. Предлагается рассмотреть метод в терминах стандарта MetaObject Facility [14], подобное изменение представления позволит видоизменить алгоритм так, что он станет независим от конкретики языка и степени наполнения ресурсов. Также будет предложена модификация метода через добавление онтологий, направленная на повышение точности семантической разметки.
Разработки по описанной тематике популярны и востребованы. С точки зрения похожести подхода к объединению ресурсов (выделения моделей и метамоделей) интересна разработка Ubiquitous Knowledge Processing Lab (Германия), описанная в статье [5].
MetaObject Facility.
MetaObject Facility (MOF, переводится как метаобъектное средство) - один из стандартов OMG для разработки, управляемой моделями. Это - закрытая архитектура метамоделирования; в ней определяется M3-модель, конформная самой себе. MOF задает строгую архитектуру метамоделирования, где элементы модели нижележащих слоев строго соответствуют элементам модели вышележащих слоев. MOF ограничивается обеспечением средств для определения структуры или абстрактного синтаксиса языка или данных. В качестве примера можно сравнить MOF c расширенной формой Бэкуса - Наура (РБНФ), а именно: MOF играет ту же роль для определения метамодели, которую РБНФ играет для определения грамматики языка программирования.
Рисунок 1. Текст как модель в архитектуре MOF
MOF реализовано как четырехслойная архитектура, где M0 - самый нижний слой, представляющий объекты реального мира, M1 - модель объектов реального мира, M2 - язык описания моделей слоя M1, или метамодель и M3 - язык описания моделей слоя 2, или мета-метамодель. Для текста, как описания реального мира, MOF-представление изображено на Рисунке 1. MOF задумывалось как переход между разными метамоделями, поскольку представляет собой мощную основу для их описания. Если две отличные друг от друга метамодели конформны MOF (другими словами, они могут быть описаны посредством M3), то все конкретные модели слоя M1, базирующиеся на них, могут располагаться в общем хранилище и совместно обрабатываться с использованием модельных трансформаций.
MOF является частью концепции Model Driven Architecture (MDA) [12]. Это - модельно-ориентированный подход к разработке программного обеспечения. Суть MDA состоит в построении абстрактной метамодели управления и обмена метаданными (или моделями) и определении способов трансформации метамодели в поддерживаемые технологии программирования, где MOF определяет создание метамодели.
Метод автоматической семантической разметки.
Лексико-семантические ресурсы, предлагаемые для рассмотрения в данной статье - WordNet, FrameNet, VerbNet, а также семантический парсер были подробно описаны в работе [2], и с их помощью был реализован одноименный метод разметки.
Цель метода автоматической семантической разметки - сопоставить исходному неозначенному предложению семантическое означивание путем ряда трансформаций. Первая трансформация - получение синтаксической структуры текста. В практической реализации метода достигается с помощью Stanford Syntax Parser [16], который определяет ключевое слово, части речи и начальные формы всех слов в предложении и зависимости между ними.
Затем, c использованием полученной информации, всем словам предложения приписываются синсеты WordNet, по ключевому слову определяются подходящие семантические фреймы FrameNet и классы глаголов VerbNet. Это - вторая трансформация. Также она включает в себя отсеивание лишних смыслов. Существующая на данный момент реализация метода производит разметку предложений английского языка. В качестве третьей трансформации предлагается произвести переход к аннотации текста, опирающейся на термины подходящей онтологии. Эта трансформация - часть будущих работ по расширению метода автоматической семантической разметки. Трансформации представлены на Рисунке 2.
Рисунок 2. Трансформации в методе АСР
Применение стандарта MOF к методу автоматической семантической разметки. Добавление онтологий.
Интеграция лексико-семантических ресурсов WordNet, FrameNet и VerbNet достигнута в методе семантической разметки за счет отображений между ресурсами.
В данном разделе предлагается описать элементы обобщенного метода семантической разметки в терминах стандарта MetaObject Facility. Для этого будут выделены объекты слоя M0 - “реального мира” - и определены их модели и метамодели.
Метод автоматической семантической разметки задает означивание предложения, таким образом, первый элемент слоя M0 - «предложение». Предложение - частный случай обобщенного понятия «текст», методы обработки построения и анализа текстов распространяются на предложения. Рассмотрим их.
Информация заключена в тексте, но текст строится и анализируется с использованием естественного языка (или сокращенно ЕЯ). Общая схема обработки текстов инвариантна по отношению к выбору ЕЯ: независимо от того, на каком языке написан исходный текст, его анализ проходит одни и те же стадии: разбиение текста на предложения и слова, определение характеристик отдельных слов и синтаксический анализ, семантический анализ. Причем, наиболее зависима от языка стадия характеристики отдельных слов и синтаксического анализа. Ввиду вышесказанного, на уровень M1, модели текста, помещаем модель языка. Модель языка описывает его основные характеристики (здесь мы не будем углубляться в лингвистику, скажем лишь, что на данном уровне английский и арабский языки будут отличаться как минимум направлением чтения символьной последовательности и кодировкой в случае автоматизированной обработки текста). Таким образом, для элемента слоя M0 “Текст” на слое M1 будет располагаться модель конкретного ЕЯ, а на М2 - способ описания моделей языка, или метамодель естественного языка. Про метамодель стоит сказать, что это - сложный элемент, который включает в себя синтаксическую и семантическую метамодели среди прочих.
Синтаксически аннотированное предложение - следующий элемент слоя M0. Это - синтаксическая структура предложения, составляется на базе глубинной структуры текста [1] и теории формальных грамматик [3], в нее заложенной. По этой причине глубинная структура текста - модель синтаксической структуры текста - зависит от языка. В качестве метамодели выступает теория, лежащая в основе генеративной лингвистики, - формальная грамматика. Формальная грамматика, или просто грамматика в теории формальных языков, - способ описания формального языка, то есть выделения некоторого подмножества из множества всех слов некоторого конечного алфавита. Это - часть метамодели языка, описанной на слое M2.
Третий элемент слоя M0 - семантическая разметка текста, полученная в результате трансформации. В ней содержится информация о фреймах FrameNet, подходящих данному предложению, словам и словосочетаниям приписаны синсеты WordNet, определен соответствующий класс глаголов VerbNet, как результат - модель управления предложения. Над этим элементом слоя M0 стоит модель, представляющая собой объединение англоязычных ресурсов WordNet, FrameNet и VerbNet. Объединения удалось достигнуть путем добавления отображений между ресурсами, подробно описанных в работе [2].
Метамодель объединенной модели лексическо-семантических ресурсов WordNet, FrameNet и VerbNet - объединенное представление теорий, лежащих в основе данных ресурсов. Описание этой метамодели - тема отдельной статьи, но краткое описание теорий, лежащих в ее основе, приведено в следующих предложениях. Для англоязычного WordNet метамоделью является лексическая онтология WordNet [13]. Она активно используется для создания WordNet для различных языков, в том числе русского [4; 9]. Метамодель FrameNet - лексикон, основанный на семантике фреймов Чарльза Филмора [6]. На базе этой метамодели создано множество FrameNet-style лексических баз для различных языков, таких как: английский, японский, испанский, немецкий, польский и другие [8]. Для VerbNet также создаются адаптации для ряда языков помимо английского [11]. В их основе лежит классификация глаголов [10], которую можно считать метамоделью VerbNet.
Как и исходный метод АСР, реализованный для предложения английского языка, подход, представленный на Рисунке 3, содержит еще один уровень разметки предложения - онтологический. Добавление трансформации, порождающей онтологическую разметку, позволяет определить концептуальные связи между объектами предложения, что расширяет область применения метода.
Рисунок 3. Метод АСР в MOF-представлении
Онтологическая разметка предложения.
Онтология определяет понятия, их значения, а также отношения между ними в рамках задачи описания некоторой предметной области. Онтология включает:
- понятия из исследуемой предметной области;
- отношения между этими понятиями;
- свойства, или атрибуты, этих понятий;
- функции и процессы, в которые вовлечены понятия;
- ограничения и правила, накладываемые на понятия в рамках предметной области.
Использование онтологий при разметке предложения позволяет дополнить информацию, содержащуюся в нем непосредственно, информацией из онтологии. Наличие в онтологии связей, ограничений и правил, накладываемых на понятия, позволяет строить запросы для выборки информации из онтологии, делать логические выводы, если они не заданы в явном виде, производить оценки и заключения.
По своей сути онтологическая разметка уровня М0 - ограниченная часть онтологии, включающая в себя объекты, описанные в исходном предложении. Модель данного элемента - непосредственно подходящая по контексту онтология. Метамодель - еще одна спецификация OMG, Ontology Definition Model (ODM) [15]. Данная спецификация позволяет применять концепты MDA при разработке онтологий. В представленной схеме успешно вписывается в MOF-представление метода.
Было показано, как можно дополнить существующий метод автоматической семантической трансформацией, создающей онтологическую аннотацию. Также метод был описан в терминах спецификации.
MetaObject Facility.
Обобщенное до уровня моделей и метамоделей представление метода автоматической семантической разметки дает новые возможности его развития. Такая архитектура позволяет уйти от конкретики языка. А также наличие MOF-представления позволит уйти от ручной разработки к полуавтоматической, согласно методологии MDA (Model Driven Architecture) [12].
Добавление онтологий повышает качество семантической разметки и расширяет список возможностей при работе с текстом. Содержащиеся в онтологиях связи между понятиями, их ограничения, а также список правил позволяют строить запросы для выборки информации из онтологий, производить логические выводы, оценки и заключения.
Список литературы
семантический разметка онтология предметный
1. Глубинная структура [Электронный ресурс] // Лингвистический энциклопедический словарь. URL: http://tapemark.narod.ru/les/110a.html (дата обращения: 13.01.2015).
2. Маркова М.В. Автоматическая семантическая разметка предложений английского языка: магистерская диссертация. Новосибирск: НГУ, 2013.
3. Математическая лингвистика [Электронный ресурс] // Лингвистический энциклопедический словарь. URL: http://www.tapemark.narod.ru/les/287c.html (дата обращения: 13.01.2015).
4. Русский WordNet [Электронный ресурс]. URL: http://wordnet.ru/ (дата обращения: 13.01.2015).
5. Eckle-Kohler J., Gurevych I. Standardizing Lexical-Semantic Resources - Fleshing out the Abstract Standard LMF. Darmstadt, 2012. 10 p.
6. Fillmore Ch.J. Frame Semantics and the Nature of Language // Annals of the New York Academy of Sciences: Conference on the Origin and Development of Language and Speech. Berkley, California, 1976. P. 21-23.
7. FrameNet [Электронный ресурс]. URL: https://framenet.icsi.berkeley.edu (дата обращения: 13.01.2015).
8. FrameNets in Other Languages [Электронный ресурс]. URL: https://framenet.icsi.berkeley.edu/ fndrupal/framenets_in_other_languages (дата обращения: 13.01.2015).
9. Global WordNet Association [Электронный ресурс]. URL: http://globalwordnet.org/ (дата обращения: 13.01.2015).
10. Levin B. English Verb Classes and Alternations: A Preliminary Investigation. Chicago, USA: University of Chicago Press, 1993. 348 p.
11. Lin Sun, Korhonen A., Poibeau T., Messiant C. Investigating the Cross-Linguistic Potential of VerbNet-Style Classification [Электронный ресурс]. URL: http://www.google.co.uk/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved= 0CCIQFjAA&url=http%3A%2F%2Fwww.cl.cam.ac.uk%2F~alk23%2Fcoling-2010-french.pdf&ei=8L60VPO9K-ndywPR_ YCYCw&usg=AFQjCNF4KHldXm-azHjLwl0he2D56R1tcg&bvm=bv.83339334,d.bGQ (дата обращения: 13.01.2015).
12. MDA - The Architecture of Choice for a Changing World [Электронный ресурс]. URL: http://www.omg.org/mda/ (дата обращения: 13.01.2015).
13. Miller G.A., Beckwith R., Fellbaum C. D., Gross D., Miller K. Introduction to WordNet: An Online Lexical Database // International Journal of Lexicography. 1990. Vol. 3. № 4. P. 235-244.
14. OMG's MetaObject Facility [Электронный ресурс]. URL: http://www.omg.org/mof/ (дата обращения: 13.01.2015).
15. Ontology Definition Metamodel (ODM) [Электронный ресурс]. URL: http://www.omg.org/spec/ODM/ (дата обращения: 13.01.2015).
16. The Stanford Parser: A Statistical Parser [Электронный ресурс]. URL: http://nlp.stanford.edu/software/lex-parser.shtml (дата обращения: 13.01.2015).
17. VerbNet. A Class-Based Verb Lexicon [Электронный ресурс]. URL: http://verbs.colorado.edu/~mpalmer/ projects/verbnet.html (дата обращения: 13.01.2015). 18. WordNet. A Lexical Database for English [Электронный ресурс]. URL: http://wordnet.princeton.edu (дата обращения: 13.01.2015).
Размещено на Allbest.ru
Подобные документы
Семантическая сеть - совокупность объектов предметной области, отношений между ними. Причинно-следственные связи между двумя объектами в семантической сети. Представление знаний путем использования фреймов, при помощи логики предикатов. Правила продукций.
реферат [46,1 K], добавлен 01.12.2010Моделирование - последовательность переходов от неформального словесного описания информационной структуры предметной области к формализованному описанию объектов в терминах модели. Применение инфологической модели. Состав и структура предметной области.
курсовая работа [602,0 K], добавлен 27.02.2009Создание концептуальной (инфологической) модели системы, которая позволила описать сущности предметной области и отношения между ними. Диаграммы функциональных зависимостей атрибутов сущностей базы данных. Разработка программного обеспечения для ЭВМ.
курсовая работа [877,8 K], добавлен 28.05.2012Системный анализ предметной области. Выявление сущностей инфологической модели, моделирование связей между ними. Описание внешних моделей в терминах выбранной СУБД. Реализация базы данных и организация запросов. Основные таблицы с приведением типов полей.
курсовая работа [1,9 M], добавлен 22.03.2015Понятие и разновидности, подходы к формированию инфологических моделей. Модель информационной системы Захмана, направления ее развития и анализ результатов. Компоненты инфологического уровня описания предметной области. Сбор требований пользователей.
презентация [136,3 K], добавлен 19.08.2013Создание множества религиозных понятий и их определение. Преимущества использование платформы Protеgе. Разработка онтологии по предметной области "Буддизм" посредством компьютерной программы Protеgе 4.2.0. Представление онтологии в графическом виде.
курсовая работа [768,0 K], добавлен 18.08.2013Определение понятия гипертекста. Основные части документа SGML. История создания стандартного языка разметки документов HTML. Отличия синтаксиса XHTML от HTML. RSS - семейство XML-форматов для описания лент новостей. Применение языка разметки KML.
презентация [4,3 M], добавлен 15.02.2014Общие и отличительные черты объектов, связь между ними. Принципы организации иерархии и понятия объектно-ориентированной парадигмы программирования. Анализ предметной области, определение абстрактных типов данных, проектирование классов и коллекций.
курсовая работа [2,1 M], добавлен 11.03.2016Оценка предметной области: концептуальные требования; выявление информационных объектов и связей между ними; построение базы данных. Описание входных и выходных данных информационной системы "Магазин компьютерной техники". Анализ диаграммы прецедентов.
курсовая работа [294,8 K], добавлен 13.04.2014Разработка клиентского приложения для работы с базой данных (БД) санатория. Классификации БД и приложений для работы с ними. Алгоритмическое и программное конструирование БД. Описание объектов предметной области, их атрибутов и связей между ними.
курсовая работа [1,9 M], добавлен 08.01.2014