Анализ многозначностей в естественно-языковых текстах

Подход к задаче разрешения семантических противоречий и сокращения смысловой вариативности в процессе семантического анализа и построения модели естественно-языкового текста. Поисковая логика как стратегия поиска сущностей с помощью предметной онтологии.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 16.01.2018
Размер файла 159,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

12

Размещено на http://www.allbest.ru/

Анализ многозначностей в естественно-языковых текстах

В.Н. Кучуганов

Аннотация

В работе предлагается подход к задаче разрешения семантических противоречий и сокращения смысловой вариативности в процессе семантического анализа и построения модели естественно-языкового текста, основанный на поисковой логике - стратегиях поиска сущностей с помощью предметной онтологии и аппарата логических поисковых функций. Подход апробируется на автоматизированных системах обучения иностранному языку.

Введение

Семантическая многозначность (валентность) слов и выражений естественного языка (ЕЯ) обычно разрешается путем моделирования логических рассуждений в процессе анализа контекста. Для этого требуется достаточно обширная база правил, создание которой само по себе является проблемой. Большую помощь в этом оказывает онтология предметной области по тематике текста - иерархия формализованных описаний терминов и отношений между ними [Gruber, 93].

Предлагаемый подход возник сам собой при устранении противоречий, возникающих в процессе разработки предметных онтологий, а также фактов, извлекаемых из естественно-языковых определений терминов предметной области (ПО). Мы попытались автоматизировать этот процесс путем графического моделирования текстов [Кучуганов, 2005]. В качестве инструмента для разработки онтологий использовалась система KG (Knowledge Guide-book), разработанная на кафедре "Автоматизированные системы обработки информации и управления" Ижевского государственного технического университета [Кучуганов и др., 2001]. Как оказалось, принцип типовых запросов к базам данных во многом облегчает эту задачу.

Следует оговориться, что в работе не ставится задача извлечения смысла из таких высказываний, которые и человек понимает с большим трудом.

семантическое противоречие естественный языковой текст

1. Модель знаний о предметной области

В системе KG управления базами знаний имеется три базовых физических конструкции для хранения информации [Кучуганов, 2002]: дерево - концепт - экземпляр и четыре семантические категории для наполнения концептов и экземпляров: предмет; процесс; свойство; отношение.

Дерево задает иерархию концептов. Концепт базы знаний (понятие) определяет подмножество экземпляров, у которых значения параметров удовлетворяют данному понятию, т.е. экземпляры являются листьями деревьев (данными).

База знаний представляет собой семейство деревьев:

<Дерево концептов>:: =<Номер уровня>, <Концепт>,

<Список подконцептов>,

где подконцепт концепта уровня u - это концепт уровня u 1.

Свойства. Обычно в системах для разработки онтологий для каждого понятия задают слоты - свойства, которыми оно обладает. В системе KG свойства описываются в разделе знаний о свойствах материалов, предметов, процессов, который представляет собой классификационное дерево свойств (атрибутов), сгруппированных по назначению, физическим, физиологическим, психофизическим, социологическим и прочим критериям. Это позволяет унифицировать понятия свойств, использовать их многократно и, самое важное, сопоставлять объекты из разных классификационных деревьев и предметных областей.

Концепт-свойство имеет вид:

<Свойство>:: = <Имя>, [<Комментарий>], <Тип значения>,

[<Метод>],

где Метод - способ вычисления свойства: формула для непосредственного вычисления в зависимости от известных атрибутов этого же экземпляра предмета; ссылка на сложный метод в разделе процессов.

Предметами здесь считаются материальные и виртуальные объекты: стол, автомобиль, робот, человек (когда он является предметом исследования), документ и т.п. Сюда же входят все виды отчетов от простых до самых сложных. Предметы имеют состав (детали) и схему соединения, т.е. описываются геометрическими моделями: кинематическая схема, чертеж, карта, изображение, 3D геометрическая модель, экранная форма:

<Предмет>:: = <Имя>, <Комментарий>, <Список атрибутов>, [<Список компонентов>, [<Список отношений между компонентами>]], [<Геометрическая модель>].

<Атрибут>:: = [<Имя>, <Экземпляр-свойство>, <Диапазон изменения значений>, <Ожидаемое значение>], [<Единица измерения>], [<Экземпляр-метод>].

При конструировании концепта-предмета список его атрибутов набирается из ранее созданных концептов-свойств.

Список компонентов - это дерево входимости деталей в изделие. Во время конструирования концепта-предмета задается типовой состав, которому будут удовлетворять все его экземпляры (хотя там тоже допускаются исключения). Для определения состава продукта достаточно перечислить все входящие в него подсборки (концепты или экземпляры) уровня u - 1, где u - текущий уровень сборки. Соответственно, в продуктах уровня u - 1 перечисляются подсборки или детали уровня u - 2.

Список отношений между компонентами определяет относительное положение, типы соединений, степени свободы и т.п.

Для удобства конструирования концептов в СУБЗ KG выделены два механизма:

"предок-потомок"; "сборка-деталь".

Механизм наследования свойств применяется к концептам как средство экономии хранения описаний тех свойств, для которых тип, диапазон, метод вычисления не меняются на младших уровнях иерархии в дереве классов (концептов).

Механизм заимствования компонентов состава применяется к конкретным образцам продукта для заимствования тех или иных деталей или подсборок из ранее сконструированных изделий. Они находятся в других деревьях классов и в новой сборке для них пишутся только отличающиеся параметры. Принципиальным отличием заимствования компонентов является наличие инструмента параметрического конструирования новых деталей из старых, когда в допустимых пределах меняются те или иные технические характеристики (например, при комплектации персонального компьютера по индивидуальным потребностям клиента) или геометрические (например, размеры), но топология и структура остаются прежними.

Процесс отображает в базе знаний деятельность коллектива исполнителей в некотором отрезке времени и пространства. В общем случае, процессы имеют состав и алгоритм, т.е. их описание содержит вычислительные модели, которые подразделяются на три вида: поиск фактов и вычисление свойств; анализ ситуаций и исчисление (выявление) отношений; действия и работы. Концепт процесса в общем случае имеет вид:

<Процесс>:: = <Имя>, <Комментарий>, <Список атрибутов>, [<Вычислительная модель>], <Список входных концептов>, <Список выходных концептов>, [<Состав подпроцессов>, <Список отношений подпроцессов>].

Именно деятельностный процесс порождает множество связей между объектами, поэтому характерной особенностью списка атрибутов процесса является то, что он, помимо общих характеристик содержит атрибуты, описывающие роли участников действия: агент (исполнитель); бенефициант - заказчик, в чьих интересах выполняется действие; реципиент - приемник действия; предмет воздействия (исходный/результирующий); сцена действия; инструмент; коагент (соисполнитель) и т.д.

Вычислительные модели задаются с помощью встроенных функций и процедур, внешних программ, а также схем, в тех случаях, когда процессы структурированы. При комплексировании процессов, также как и предметов, применяется механизм заимствования и параметризации компонентов состава из разных классов. Процессы анализа ситуаций и выявления отношений устанавливают факты взаимоотношений между двумя или несколькими объектами. В частности, процессы логического вывода, основанные на правилах ЕСЛИ - ТО, в качестве предусловий могут содержать достаточно сложные встроенные процедуры и функции анализа фактов. Действия и работы представляются планами, схемами, графиками.

Списки имен входных и выходных структур данных ссылаются на соответствующие концепт-предметы и их экземпляры, в том числе это могут быть сцены действия или их описания, например, план производственного участка, цеха, схема микрорайона, план квартиры и т.п.

Отношения устанавливают факты наличия разнообразных взаимосвязей между объектами. Отношения - это наиболее динамичный раздел базы знаний в том смысле, что они постоянно меняются в ходе осуществления какой-либо деятельности. Поскольку в любой системе поддержки принятия решений факты наличия тех или иных отношений между объектами необходимы, как правило, лишь на этапах анализа и планирования, поэтому при описании предметной области и ее бизнес-процессов имеет смысл определить необходимые виды отношений и способы их исчисления (выявления), а не хранить постоянно сами эти факты. Тогда методы исчисления отношений можно включать в состав процессов (предикатов) анализа ситуаций и принятия решений.

В системе KG предопределены четыре семантически не пересекающиеся категории отношений:

сравнение/сопоставление - это результат сравнения свойств (предметов, процессов, отношений) или сопоставления графов (предметов/процессов);

вхождение (в множество, класс, экземпляр);

деятельностные (ролевые, причинно-следственные, вычислительные) отношения, извлекаемые из экземпляров процессов/задач на основе их концептов;

коммуникации (толерантности) - личное отношение к другому субъекту или, в общем случае, к объекту, входящему в другую категорию (предмет, процесс, отношение).

<Концепт-отношение>:: = <Имя>, [<Комментарий>], <Список атрибутов>], <Имя с уточнителями объекта 1>, < Имя с уточнителями объекта 2>, <Тип значения>, <Ожидаемое значение>, [<Единица измерения>], <Экземпляр-метод>.

Таким образом, модель знаний ПО cодержит описание понятий в статике - как семейство деревьев фреймов (рис.1) и в динамике (кто?, что делает?, кому?, как?, когда? и т.д.) - в виде атрибутивного графа деятельностных отношений, например, алгоритма. Описанная модель знаний позволяет анализировать достаточно широкий спектр отношений между объектами предметной области и бизнес-процессов и, тем самым, уменьшить влияние субъективизма при разработке онтологий.

2. Стратегии поиска сущностей

Для решения поставленной задачи необходимы онтология грамматики ЕЯ (например, [Юминов, 2006]) и онтология предметной области анализируемого текста. Главное требование к предметной онтологии - непротиворечивость понятий семантическим категориям модели знаний и наоборот.

Ситуация, поступающая на вход решателя задач, в данном случае - блока семантического анализа ЕЯ-текста, представляет собой множество взаимосвязанных фактов, представляющих собой значения слов и выражений, полученных в ходе морфологического и семантического анализа. Поскольку некоторые из них неоднозначны, возникает множество вариантов смысла ситуации, описанной ЕЯ-высказыванием.

Виды фактов: существование атрибута, предмета, процесса, отношения; равенство/неравенство значений атрибутов.

Области поиска: поддерево концептов соответствующего вида; свойства концепта/экземпляра; участники процесса; множество экземпляров; состав предмета/процесса; граф сюжета.

Поисковая логика - это стратегия (программа) поиска сущности (средств и путей) разрешения проблемной ситуации с помощью логических поисковых функций и логических рассуждений (выводов).

Стратегия поиска фактов и противоречий включает: выбор области поиска, циклы и спирали поиска, ресурсы; операции над образами для извлечения фактов; логический вывод фактов; логический вывод противоречий.

Логическая поисковая функция выдает истинность или ложность факта существования субъекта поиска и его (субъекта) адрес с некоторой степенью конкретизации.

Пусть имеется предметная онтология по тематике текста и онтологический тезаурус (ОТ) - такой словарь, в котором все ключевые слова каждого определения имеют ссылки (определены) на концепты предметной онтологии, т.е. в ОТ каждое понятие (значение) имеет определяющую систему отношений - граф ситуации, в которой оно актуально и имеет смысл.

Слова, обозначающие предметы, процессы, состояния, ситуации, отношения имеют в базе знаний, в общем случае, несколько значений, каждое из которых определяется типовой системой отношений (связей) с другими понятиями. Сокращение многозначности фразы, словосочетания заключается в выборке таких значений слов, определения которых содержат "встречные" ссылки. Если этого не достаточно, то включается механизм моделирования рассуждений на основе аксиом и правил предметной области текста.

Тогда, после морфологического и синтаксического анализа устранение/сокращение семантической многозначности решается путем исключения противоречивых фактов.

Рассмотрим несколько типичных функций поиска.

1. Утверждение роли субъекта Sub2 в процессе Р1:

(memberi MEMBER (P1)) (area (memberi) AREA (Sub2))

SearchRole (P1,Sub2) = 'True'; role (Sub2) = name (memberi); entity (Sub2) = memberi (P1) -

если среди участников процесса Р1 имеется такой, что область существования (значение) участника принадлежит одной из областей существования субъекта Sub2, то роль и сущность Sub2 найдены.

2. Взаимная конкретизация сущностей субъектов Sub1 и Sub2:

(areai AREA (Sub1), areaj AREA (Sub2)) (areai (Sub1) areaj (Sub2) )

SearchEntity (Sub1,Sub2) = 'True'; entity (Sub1) = areai; entity (Sub2) = areaj -

если одна из областей существования субъекта 1 совпадает с какой-либо областью существования субъекта 2, то сущности субъектов Sub1, Sub2 в данном контексте найдены.

3. Утверждение субъекта Sub1 в качестве свойства/атрибута субъекта Sub2:

areai AREA (Sub1), propertyj PROPERTY (Sub2) (areai (Sub1) =

= area. propertyj (Sub2) SearchProperty (Sub1,Sub2) = 'True'; entity (Sub1) = areai -

если одна из областей существования субъекта 1 совпадает с областью существования какого-либо свойства субъекта 2, то субъект 1 является характеристикой субъекта 2. Например, в предложении "The time flies like an arrow" [Рафаэл, 1979] время (time) не может быть свойством мух (flies).

Таким образом, поисковая логика упрощает запись стратегии вывода сущностей ЕЯ-высказываний, за счет замены n-го количества аксиом и правил унифицированным набором логических поисковых функций, встроенных в блок логического вывода и, тем самым, сращивания образного и логического механизмов.

Пример 1. "Я выхожу на следующей остановке".

Выходить [из]: процесс\ходьба; актор: предмет (одушевленный - 'Я'); направление (откуда? куда?): вариант 1 - сцена (дом, комната, лес, транспорт); вариант 2 - состав участников процесса (игра, бизнес); вариант 3 - ситуация.

Остановка (следующая):

1. Сцена - специально оборудованное место для временной приостановки движения транспорта с целью входа/выхода пассажиров и (или) груза.

2. Процесс (фаза) движения.

Остановка как фаза движения имеет систему отношений: кто/что; где; когда; для чего/почему; каким образом. Отсюда видим, что "остановка" как место вызывает ассоциацию с "транспортом" и "выходить" как всякий другой процесс должен быть привязан к шкале времени. В данном случае он связывается с движением транспорта, фазой приостановки. Таким образом, здесь "остановка" - это одновременно и фаза движения и место в пространстве, а атрибут "следующая" говорит о том, что действие произойдет в будущем. На рис.2 показан граф сюжета, а на рис.3 - временная диаграмма его процессов.

12

Размещено на http://www.allbest.ru/

Рис.2. Граф сюжета

Рис.3. Временная диаграмма сюжета

В предложении "Остановка автобуса находится за углом" слово "остановка" однозначно указывает на место расположения.

В следующем отрывке известной песни "Пока еще не поздно мне сделать остановку, кондуктор, нажми на тормоза" слово "остановка", очевидно, фаза процесса, хотя и не сказано, какого именно (здесь рефлексия - ассоциирование движения поезда с образом жизни).

Пример 2. "I must fly now. She hates waiting around. "

"Fly":

1. Имя существительное - летающее насекомое.

2. Глагол:

1) летать каким-либо воздушным видом транспорта;

2) пилотировать, управлять каким-либо летательным аппаратом;

3) летать, разлетаться под воздействием какой-то силы или по инерции;

4) переносное - двигаться быстро.

Как имя существительное "fly" противоречит структуре простого предложения, так как следует за "must". В значении глагола можно отбросить 3-й вариант, потому что имеется атрибут долженствования, но можно и сохранить для уточнения по расширенному контексту. "Wait around" (устойчивое словосочетание) - слоняться в ожидании чего-либо.

Тогда, с учетом второго предложения "она очень не любит ждать", для глагола "fly" остается единственный вариант - двигаться быстро (торопиться).

Заключение

Хотя в приведенных примерах показаны далеко не все тонкости полисемии, следует заметить, что сокращение ее не всегда возможно - как говорят врачи, точную причину покажет вскрытие. И не всегда нужно. Поэзия, например, ценится своей ассоциативностью.

Мы видим, что сокращение вариативности смысла ЕЯ-текста может быть достигнуто путем ужесточения требований к качеству предметных онтологий и их тезаурусов, а также благоприятному сочетанию механизмов логического и образного мышления, т.е. логического вывода и функций поиска/распознавания.

Список литературы

1. [Gruber, 1993] Gruber T. R. A Translation Approach to Portable Ontology Specification. Knowledge Acquisition 5: 1993. P. 199-200.

2. [Зализняк, 2004] Зализняк А.А. Феномен многозначности и способы его описания. - Вопросы языкознания, №2, 2004.С. 20-45.

3. [Кучуганов и др., 2001] Кучуганов В.Н., Габдрахманов И.Н. Система визуального проектирования баз знаний. - Информ. технологии в инновационных проектах: Труды III междунар. науч. - техн. конф. - Ижевск, 2001. С.140-143.

4. [Кучуганов, 2002] Кучуганов В.Н. Семантика графической информации. Известия ТРТУ. Тематич. вып. "Интеллектуальные САПР". Материалы междунар. научн. - техн. конф. "Интеллектуальные САПР". Таганрог: Изд-во ТРТУ, 2002, №3 (26). С.157-166.

5. [Кучуганов, 2005] Кучуганов В.Н. Визуальное моделирование текстов // Труды Междунар. научно-технич. конференций "Интеллектуальные системы" (AIS'05)" и "Интеллектуальные САПР" (CAD-2005). - М.: Физматлит, 2005. - Т.4. С.104-114.

6. [Рафаэл, 1979] Рафаэл Б. Думающий компьютер: М., Мир, 1979.

7. [Юминов, 2006] Методы морфологического и синтаксического анализа применительно к автоматизированным обучающим системам. - Молодежь и современные информационные технологии: сборник трудов IV Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых. Томск, 28 февраля - 2 марта 2006 г. - Томск: Изд-во ТПУ, 2006. - С.78-79.

Размещено на Allbest.ru


Подобные документы

  • Понятие текста в современной лингвистике. Переход от рассмотрения текста в формальном аспекте к анализу в функциональном аспекте. Понятие смысловой структуры. Анализ смысловой структуры развлекательных изданий. Статья "Как понравиться мужчине-раку".

    контрольная работа [25,4 K], добавлен 24.04.2014

  • Поле в языкознании как совокупность языковых единиц, объединенных общностью содержания и отражающих понятийное, предметное или функциональное сходство обозначаемых явлений. Общие признаки языкового поля, классификация и разновидности его образований.

    статья [24,5 K], добавлен 23.07.2013

  • Исследование семантических группировок в рамках классической и когнитивной лингвистики. Принципы построения лексико-семантического поля. Построение и сравнительный анализ лексико-семантических полей "свобода" и "freedom" в русском и английском языках.

    дипломная работа [978,4 K], добавлен 25.03.2011

  • Определение смысловой организации предложения. Модус как сложная структура языкового сознания. Характеристика и особенности модуса. Особенности жанровых разновидностей письменных коммуникаций в связях с общественностью. Использование модуса в PR-текстах.

    курсовая работа [52,9 K], добавлен 23.10.2010

  • Порядок логического построения текста – синтаксической единицы с последовательностью предложений. Анализ классификации текста, отличающейся по форме материала (устный, письменный), по социальному предназначению (учебные, научные, художественные, деловые).

    творческая работа [15,9 K], добавлен 27.03.2010

  • Характеристика трех типов анализа текста: языкового, смыслового и речеведческого. Функциональные стили речи: разговорный, научный, официально-деловой, художественный, газетно-публицистический. Образцы написания заявления, резюме, доверенности, расписки.

    презентация [267,9 K], добавлен 27.11.2011

  • Семантическое поле в лингвистике и принципы его построения. Эволюция семантического поля "одежда" в русском языке и исторические изменения его микрополей. Структурно-семантические особенности семантического поля "одежда" в русском и древнерусском языках.

    дипломная работа [349,3 K], добавлен 15.10.2010

  • Целевое назначение адаптации текста в процессе перевода книги The Wonderful Wizard of Oz на русский язык. Сокращения содержания текста, лексические и стилистические его адаптации как необходимое средство восприятия сюжета для начинающих читателей.

    курсовая работа [39,3 K], добавлен 17.11.2012

  • Ознакомление с эмотивным понятием библиемы как семантической инварианты и смысловой доминанты текста Библии. Рассмотрение лингвокультурных особенностей библейский фразеологизмов, определение их роли в формировании эмоционально-смысловой доминанты текста.

    реферат [52,3 K], добавлен 14.08.2010

  • Основные направления лингвистической гендерологии: история формирования, особенности отражения в зарубежной и отечественной лингвистике, стереотипы в речи. Анализ особенностей мужской/женской речи на разных языковых уровнях художественного текста.

    дипломная работа [82,5 K], добавлен 18.07.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.