Модели лингвистического транслятора

Деление лингвистической модели на грамматическую и интерпретационную модели и модель предметной области, представленных в виде концептуального гиперграфа и продукционной системы. Трансляция на простых полных ЕЯ-предложениях и элементах связного текста.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 09.01.2016
Размер файла 26,6 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Модели лингвистического транслятора

Введение

При разработке метода контекстного фрагментирования, реализованного в лингвистическом трансляторе [1-2], c самого начала предполагалось следующее. Возможность отделимости задачи лингвистической трансляции от других задач общения на естественном языке (ЕЯ) и от задач вычислительной системы, которая использует результаты трансляции; наличие достаточно мощных средств описания и фрагментации лингвистических знаний; наличие механизмов трансляции различных типов ЕЯ-предложений. Схема трансляции должна быть инвариантна относительно разных ЕЯ, подмножеств одного ЕЯ и проблемных областей; позволять динамически изменять стратегию обработки в зависимости от глубины трансляции и сложности самих ЕЯ-предложений; давать возможность (без разрушения структуры модели и алгоритма трансляции) расширять модель при включении новых конструкций ЕЯ и редуцировать ее для упрощенных подмножеств ЕЯ, проблемных областей и решаемых задач. При этом учитывается, что используемые подмножества ЕЯ составляют язык деловой прозы, обязательно включающий сложные, эллиптические и анафорические предложения с возможными искажениями и ошибками, присущими реальному ЕЯ. текст лингвистический грамматический трансляция

Прежде чем рассмотреть модели лингвистического транслятора, определим задачу лингвистической трансляции следующим образом. Пусть заданы некоторое проблемно-ориентированное подмножество ЕЯ и М-язык, на котором описывается модель проблемной среды. Задача трансляции - преобразование некоторого текста (Т множество всех текстов подмножества ЕЯ) в некоторое описание ("текст") (М множество всех "текстов" модели проблемной среды), или на множестве текстов Т определяется отображение , позволяющее по заданному тексту построить адекватный ему текст . Под адекватностью понимается следующее. Пусть существует отображение и некоторое множество эквивалентных лингвистических преобразований . Отображение позволяет для некоторых текстов строить тексты (т.е. синтезировать тексты по описаниям ситуаций в модели проблемной среды). Тогда для по можно построить адекватный ему текст т.т.т., когда по этому тексту с помощью можно получить такое множество различных , что каждый и эквивалентен с точностью до множества .

При этом нет необходимости при постановке задачи формально определять {Пi}, а достаточно возложить задачу проверки эквивалентности текстов на эксперта. Примерами такого рода преобразований могут быть: синтезируемое предложение с другим порядком слов, с синонимическими заменами; на входное сложное предложение синтезируется несколько простых; на входное предложение с эллипсисом синтезируется полное и т.п.

Отображение (прямая трансляция) реализует лингвистический анализ, а отображение (обратная трансляция) - лингвистический синтез. В совокупности и то, и другое отображение характеризуют полную лингвистическую трансляцию. В работе рассматривается прямая трансляция.

В такой постановке транслятор "понимает" ЕЯ-текст, если он может его множественно перефразировать и в перифразах не встречаются тексты, которые не адекватны первоначально заданному (с точки зрения эксперта). Процесс перефразирования важен как с точки зрения тестирования системы, так и с позиций повышения уверенности пользователя в том, что заданный им текст понят лингвистическим транслятором правильно.

2. Лингвистическая модель

Для реализации отображения используется лингвистический транслятор, состоящий из лингвистического процессора (ЛП) и лингвистической модели (ЛМ). ЛП осуществляет трансляцию ЕЯ М_язык. ЛМ играет роль базы знаний ЛП о входном ЕЯ, М_языке и о соотнесении элементов и конструкций ЕЯ с элементами и конструкциями М_языка. В ЛП отображение представляется как реализация (не обязательно последовательная и полная) трех отображений: - грамматический разбор, - семантическая интерпретация, - проблемный анализ. И для данной структуры лингвистического транслятора используются три модели: грамматическая модель ЕЯ (словарь транслятора и синтаксическая модель), модель проблемной области и модель интерпретации слов, словосочетаний и составляющих ЕЯ-текста в понятия, отношения, структуры и фрагменты модели проблемной среды. Поскольку ЛТ не имеет возможности непосредственно интерпретировать элементы ЕЯ-текста объектами реального мира, то эта интерпретация реализуется элементами модели предметной области (т.е. элементами "модели мира"), что и определяет семантику ЕЯ.

Исходя из постановки задачи и требований, предъявляемых к ЛТ, структура компонентов лингвистической модели (ЛМ) определяется выбором языков представления знаний, а ее наполнение - используемым подмножеством ЕЯ, моделью проблемной среды и процессом интерпретации.

3. Грамматическая модель

Грамматическая модель состоит из морфологического словаря и синтаксической модели.

Словарь транслятора в зависимости от словарного объема может задаваться декларативно (словарь словоформ) или процедурно (словарь основ). В первом случае все грамматические признаки словоформ задаются явно, а сам процесс морфологического анализа заключается только в поиске в словаре соответствующей словоформы. В случае задания словаря основ морфологический анализ усложняется, но результат аналогичен первому варианту. Отличием от стандартных средств задания морфологического словаря является только наличие возможных связей от словоформы или лексемы к структурам синтаксических правил. Эти связи имеют тип "входит в структуру" и служат для поиска устойчивых словосочетаний и обобщенных синтаксических правил.

Синтаксическая модель задается декларативно в виде структур синтаксических правил, погруженных в иерархию синтаксических классов.

Элементы структур синтаксических правил могут задаваться на разном уровне обобщения: от уровня словоформ до классов (частей речи). В качестве элементов этих структур могут выступать и другие структуры синтаксических правил, а также грамматические признаки типа рода, числа, лица, времени и т.д. Между элементами синтаксической модели задаются необходимые отношения различного типа: морфологические, геометрические, структурные, видовые и синтаксические. К первому типу относятся: “имеет род”, “имеет число”, “имеет падеж”, “имеет время” и т.д. Второй тип включает: “ближайший справа”, “находится слева”, “следует за” и т.п. Структурные отношения включают: “имеет структуру”, “входит в структуру”, “является частью”, “имеет часть” и т.п. Родовидовые отношения включают: “является родом”, “является видом”, “является элементом” и др. Синтаксическими отношениями являются отношения различного типа согласования, управления, примыкания и т.д.

Синтаксическая модель носит открытый характер, и поэтому нет никаких ограничений, как по созданию соответствующих структур правил, так и по вводу новых характеристик, необходимых для проведения синтаксического анализа. Если это необходимо, то в качестве элементов могут добавляться семантические характеристики со своим перечнем отношений.

Часть используемых отношений представляется в модели явно, и проверка заключается только в их наличии или отсутствии (например, для отношений “является видом”). Другая же часть отношений носит процедурный характер, т.е. чтобы установить существует ли заданное в синтаксическом правиле отношение между словами в предложении, необходимо выполнить некоторую процедуру. Примерами таких отношений являются геометрические и синтаксические отношения. С каждым именем такого отношения связана соответствующая присоединенная процедура. Например, если проверяется отношение "согласовано в роде" на фрагменте ЕЯ-предложения, то вызывается присоединенная процедура, которая проверяет признак "рода" у каждого слова этого фрагмента и при совпадении признака "рода" выдает положительный результат, иначе - отрицательный.

Список отношений также является открытым, и добавление нового отношения заключается только во введении нового имени в перечень отношений и/или возможно соответствующей процедуры проверки данного отношения.

Синтаксическая модель записывается на гиперграфовом языке представления знаний [3] и может быть представлена графически в виде некоторого раскрашенного ориентированного гиперграфа, фрагмент которого показан на рис. 1.

При переходе от одного ЕЯ к другому ЕЯ необходимо заменить словарь (и естественно морфологический анализатор), задать свод синтаксических правил для другого ЕЯ с соответствующим их заполнением и использовать свою систему классификации.

Для синтаксического анализа разноязычного текста (в русских текстах довольно часто можно встретить английские вкрапления) достаточно объединить модели в соответствующей пропорции: русский словарь с английским словарем, а русский синтаксис с английским.

Такие переходы возможны за счет отделимости декларативного описания синтагматики от механизмов синтаксического анализа. Эта же отделимость позволяет свободно редактировать и пополнять используемую грамматику без изменений в механизме анализатора.

4. Интерпретационная модель

Интерпретационная модель (ИМ) задает интерпретацию слов, словосочетаний и фрагментов ЕЯ-предложения в понятия и фрагменты модели проблемной среды. Для задания ИМ используется "расширенная" система продукций Поспелова [4].

Под продукцией понимается выражение вида

(i); Q; P; A B; N

Здесь i -- имя продукции, с помощью которого данная продукция выделяется из множества продукций. В качестве имени могут выступать слова ЕЯ (словоформа, основа, лексема), знаки препинания, спецсимволы и спеццепочки, которые “вкрапливаются” в ЕЯ-тексты. Например, именами продукций могут быть "высота", "кочене", "аварийного", "?", "+", "." и т.д.

Элемент Q характеризует сферу применения продукции. Выделение таких сфер вполне соответствует разделению знаний в представлениях человека о реальной среде. Например, сферами могут быть области науки и техники или темы текстов: геометрия, тригонометрия, теория функций, космонавтика, вычислительная техника, ядерная физика, геология, медицина, семиотика и т.д.

Элемент P есть условие применимости ядра продукции. Обычно P представляет собой логическое выражение. Когда P принимает значение “истина”, ядро продукции активизируется. Если P ложно, то ядро продукции не может быть использовано. Используется для “автоактивизации” некоторых продукций, если имя продукции (т.е. слово ЕЯ) принадлежит к определенной части речи.

Основным элементом продукции является ее ядро: A B. Интерпретация ядра продукции может быть различной и зависит от того, что стоит слева и справа от знака секвенции . Обычное прочтение ядра продукции выглядит так: ЕСЛИ А, ТО В. Более сложные конструкции ядра допускают продукции "множественного" типа ЕСЛИ А1, ТО В1; ЕСЛИ А2, ТОВ2; ...;ЕСЛИ Аn, ТО Вn, ИНАЧЕ Вn+1. Могут существовать и другие интерпретации ядра продукции. В частном случае при n = 1 ядро продукции имеет вид: ЕСЛИ А1, ТО В1, ИНАЧЕ В2. Для каждого имени продукции i могут быть заданы свои “гнезда” продукций (т.е. несколько продукций под одним и тем же именем). Множество А1, А2, …, Аn, представляет собой имена структур синтаксической модели. Эти структуры проверяются на предложении с привязкой к слову i. Каждый элемент множества В1, В2, ..., Вn, Вn+1 представляет собой понятие или взаимосвязанную группу понятий (фрагмент) модели проблемной среды, соответствующих слову или словосочетанию ЕЯ-предложения, которые связаны с именем этой продукции i.

Элемент N описывает постусловия продукции. Постусловия актуализируются только в том случае, если ядро продукции реализовалось. Постусловия продукции описывают действия и процедуры, которые необходимо выполнить после реализации В. При "множественном" типе ядра ему может соответствовать упорядоченное множество постусловий.

Все части продукции, кроме ее ядра, являются факультативными.

Управление этой системой продукций осуществляется словами предложения (выбор очередной продукции определяется еще не проинтерпретированным словом предложения).

Сфера применения (тема) записывается на основе данных, представленных в словаре, а в процессе разбора предложения тема "вычисляется" по тематике всего документа (например, по ключевым словам, заданным в начале текста документа) или по предыдущим предложениям.

Условия применимости также черпаются из словаря, а при анализе слов предложения - по результатам процедуры лемматизации.

Фрагмент общей структуры интерпретационной модели представлен в таблице 1. Здесь СПJ - сфера применения (тема), <класс L> - грамматический класс слова, {Ai} - упорядоченное множество проверяемых синтаксических правил, где i - мощность множества, {Bi+1} - соответствующее множеству {Ai} множество понятий (или фрагментов) МПС.

В частном случае, если i = 0, то это ядро можно рассматривать как интерпретацию слова в определенное понятие (или связанную группу понятий) независимо ни от каких синтаксических проверок. Если же продукция представлена в виде A , то данное слово интерпретируется в пустое понятие. Последний случай относится к структурным словам ЕЯ-текста (во многом совпадающим со служебными словами).

В продукциях ИМ задаются только имена структур (синтаксических правил), а сами они декларативно заданы в синтаксической модели.

Процесс интерпретации ЕЯ-предложения заключается в том, чтобы по анализируемым словам предложения выбрать и выполнить соответствующие продукционные правила, получив в результате фрагменты описания предложения в терминах понятий и отношений модели проблемной области.

Для простых задач (простые тексты и модели проблемных сред) ИМ упрощается. В этом случае ключевые слова переводятся в ключевые понятия, а все "пустые" слова никак не интерпретируются.

Интерпретационая модель совмещается с морфологическим словарем лингвистического анализатора исходя из общего лексикона системы. Если словарь задан в виде словаря основ, то достаточно к словарным статьям (имена у которых есть основы) "приплюсовать" соответствующие продукционные правила. Для декларативно заданного морфологического словаря такое совмещение просто и достаточно естественно.

5. Модель проблемной среды

Модель проблемной среды задается аналогично грамматической модели, где словарь понятий задан декларативно, а микро или макро ситуации описываются соответствующими семантическими структурами. Также используется иерархическая структура понятий и общие для синтаксиса и семантики базовые отношения типа "входит в структуру", "является видом" и т.п.

Семантические структуры определяют связную "сочетаемость" фрагментов, полученных после интерпретации. Проблемный анализ по схеме подобен синтаксическому анализу. И на этом этапе проверяется семантическая корректность проинтерпретированного ЕЯ-предложения. На этапе проблемного анализа также можно осуществлять выбор из альтернатив результата синтаксического анализа. Например, для предложения Если многоугольник является квадратом, то он является прямоугольником на этапе синтаксического анализа существует неопределенность для референциальной ссылки, выраженной местоимением "он" (многоугольник или квадрат). А на этапе проблемного анализа выбор достаточно очевиден.

Модель проблемной среды записывается также на гиперграфовом языке представления знаний и может быть представлена графически в виде некоторого раскрашенного ориентированного гиперграфа, фрагмент которого показан на рис. 2 (дополнительно пример МПО см. в [5]).

Выбранная структура транслятора, языки представления лингвистических знаний, фрагментация моделей транслятора позволяет варьировать стратегиями для различных задач обработки ЕЯ.

Стандартная стратегия заключается в проведении полного синтаксического анализа, затем интерпретации и полного проблемного анализа.

Более эффективная стратегия может быть реализована следующей схемой. Слова и фрагменты ЕЯ-предложения сразу интерпретируются с помощью системы продукций. Исходя из сложности предложения, синтаксический разбор привлекается в той мере, в которой он необходим для разрешения различных синтаксических неопределенностей естественного языка. Если удачно закончен процесс интерпретации, то осуществляется переход к проблемному анализу, который выполняется всегда по полной программе. Если процесс интерпретации дает отрицательный результат, то в этом случае может быть несколько вариантов. Либо предложение неправильно, либо какая-то из моделей неполна или некорректна, либо предложение является сложным, эллиптичным и т.п., и в этом случае необходимо привлекать дополнительные средства анализа. Для сложных, эллиптических, анафорических и других типов предложений и текстов существует расширение лингвистического процессора и компонентов лингвистической модели без разрушения самой структуры транслятора.

Другая схема трансляции может реализовать так называемый “анализ через синтез”, когда "зацепившись" за некоторое минимальное описание в модели предметной области, транслятор начинает "раскручивать" это описание, используя структурные связи в МПО. По расширениям данного описания, реализуя этап синтеза ЕЯ-текста, транслятор пытается найти в самом тексте "аналоги" синтезируемых предложений. Конечно, для реализации такой схемы необходимо преобразование . В этом случае не является обязательным последовательный поиск (предложение за предложением, как при анализе) аналогов синтезируемых предложений в тексте. Про такую схему можно сказать, что она "хаотично покрывает" входной текст, иногда даже дополняя его тем, что в нем было опущено.

Данный транслятор можно использовать (не нарушая схему), для упрощенных задач, редуцируя только модели. И более того, данную схему можно свести к методу ключевых слов (если это позволяет задача) только за счет сильной редукции моделей, что служит критерием правильности выбранного подхода (на основе известного принципа дополнительности).

Список литературы

Интеллектуализация ЭВМ / Под ред. Ю. М. Смирнова. М.: Высшая Школа, 1989. 160 С.

Хахалин Г.К. Лингвистический транслятор в семействе систем с обработкой ЕЯ-текстов (ретроспекция) // Труды VI национальной конференции по Искусственному Интеллекту РАН - КИИ-98. Пущино, 1998. Т. 1. С. 238-246.

Хахалин Г.К. Использование гиперграфов в лингвистической трансляции // Труды Международного семинара "Диалог'99" по компьютерной лингвистике и ее приложениям. М., 1999. Т. 2. С. 315-320.

Поспелов Д.А. Продукционные модели // Искусственный интеллект. Справочник в 3 кн. Кн. 2. Модели и методы. М.: Радио и связь, 1990. С. 49-56.

Хахалин Г.К. О модели предметной области для лингвистического транслятора // Труды Международного семинара "Диалог'2002" по компьютерной лингвистике и ее приложениям. М., 2002. (печатается в данном сборнике).

Размещено на Allbest.ru


Подобные документы

  • Структура текста, морфологический уровень. Исследование текста с лингвистической точки зрения. Прямонаправленная и непрямонаправленная связность текста. Важность морфологического уровня текста в понимании структуры текста и для понимания интенции автора.

    реферат [30,4 K], добавлен 05.01.2013

  • Основные проблемы неологии. Продуктивное словообразование в современном английском языке. Основные модели словообразования. Классификация Луи Гилберта. Преимущественно используются транспозиции, суффиксацию, словосложение, сложнопроизводные модели.

    курсовая работа [25,8 K], добавлен 21.02.2004

  • Культурологический контекст в языкознании. Проблема построения лингвокультурологической модели. Исследование явления или процесса путем построения и изучения модели этого явления или процесса. Фоновые знания как лингвокультурологическая модель.

    реферат [37,2 K], добавлен 28.08.2010

  • Роль мифологической модели мира в языковом сознании. Миф и мифологема как структурная составляющая и единица мифологической модели мира. Источники мифологем, содержание и значение. Языческий характер кельтских мифологем в устных и письменных памятниках.

    контрольная работа [31,5 K], добавлен 26.09.2011

  • Исследование семантики и феномена рифмованного сленга в системе английского языка. Метафорические модели переноса и их роль в формировании языковой картины мира. Многообразие метафор как способ отражения концептуальной системы англоязычного сообщества.

    дипломная работа [147,3 K], добавлен 01.02.2014

  • Проблематика квантитативной лингвистики с теоретической и прикладной точек зрения. Основные области приложения структурно-вероятностной модели языка. Специфические языковые особенности, отличающие стиль произведений. Авторизация текста: пример экспертизы.

    реферат [32,6 K], добавлен 06.08.2010

  • Понятие лингвистического исследования и его основные методы. Типичные недостатки в применении лингвистических методов. Правильный подбор метода лингвистического исследования на примере использования сравнительно-исторического метода в области грамматики.

    курсовая работа [44,0 K], добавлен 05.11.2013

  • Словообразовательные модели современного немецкого языка: корневые слова, имплицитное (безаффиксное) словопроизводство, префиксальная и суффиксальная модели, словосложение. Эксплицитная деривация: немецкие и заимствованные суффиксы. Усеченные слова.

    курсовая работа [60,6 K], добавлен 03.01.2011

  • Изучение вопросов об определении поэтической функции языка, понятие лингвистической поэтики. Сцены как вариативное начало в составе рамки содержательной конструкции текста. Понятие содержания текста. Цельный versus комплексный анализ интенции текста.

    реферат [38,4 K], добавлен 14.08.2010

  • Сущностная характеристика современных наиболее распространенных моделей перевода: ситуативно-денотативная, трансформационная, семантическая, интерпретативная. Теория уровней эквивалентности и трехвазная модель перевода о. Каде. Способы и приемы перевода.

    курсовая работа [78,9 K], добавлен 21.02.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.