Использование гиперграфов в лингвистической трансляции
Анализ ЕЯ-предложений и преобразование их в семантические описания, которыми могут воспользоваться другие программные системы. Разбор семантического описания и преобразование его в ЕЯ-текст для обратной трансляции. Выход лингвистического транслятора.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | русский |
Дата добавления | 09.01.2016 |
Размер файла | 19,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Использование гиперграфов в лингвистической трансляции
Г.К.Хахалин
Введение
Если упрощенно представить процесс лингвистической трансляции как анализ входа и его преобразование в выход, то для прямой трансляции это означает произвести анализ ЕЯ-предложений и преобразовать их в семантические описания, которыми могут воспользоваться другие программные системы, а для обратной трансляции -- выполнить разбор семантического описания и преобразовать его в ЕЯ-текст, который будет понятен пользователю.
Вход и выход лингвистического транслятора (ЛТ) имеют разные характеристики. Свойства ЕЯ, с одной стороны, и требования к семантическим описаниям, с другой стороны. Они различны по своей сути. ЕЯ обладает в большом количестве т.н. “неопределенностями”, например, избыточностью, омонимичностью, некомплетивностью, референциальностью, идеоматичностью, вариабельностью конструкций ЕЯ-предложений, всевозможными искажениями (ошибки) и т.д. Требования же к семантическому представлению ситуаций почти противоположны: описания должны обладать однозначностью, определенностью, полнотой, точностью и т.п. лингвистический транслятор семантический текст
Существенным при разработке ЛТ является язык представления лингвистических знаний. Проблематика искусственного интеллекта предлагает целый ряд таких языков: логические системы, формальные грамматики, система синтаксических групп, расширенные сети переходов, семантические сети, продукционные системы, фреймы, мультиагентные системы, нейронные сети и др. Некоторые из них охарактеризованы в [1].
В общем случае для представления лингвистических знаний не обязательно ограничиваться одним языком; на разных этапах трансляции могут использоваться различные языки. В данном докладе речь пойдет о гирерграфовом представлении, где гиперграфы используются для хранения синтаксической и семантической информации и для осуществления процедуры сопоставления.
1. Гиперграфы для представления лингвистических знаний.
Дадим определение гиперграфа [2]. Гиперграф H (V, ). задается множеством V, элементы которого называются вершинами, и семейством подмножеств V, называемых ребрами гиперграфа. Гиперграф можно отобразить на плоскости, сопоставляя вершинам точки плоскости (или “кружочки”), а ребрам -- связные области, охватывающие вершины, инцидентные этим ребрам. Например, гиперграф H с множеством вершин V = {v1, v2,..., v6} и семейством ребер = {E1={v1}, E2={v1, v3}, E3={v1, v2, v3}, E4=E5={v2, v4}, E6={v3, v4, v5}, E7=} можно изобразить на плоскости.
Если каждое ребро гиперграфа имеет степень, равную двум, то гиперграф является просто графом. Ориентированный гиперграф с множественными ребрами (ормультигиперграф) с раскрашенными вершинами и ребрами определяется аналогично ормультиграфу с раскрашенными вершинами и ребрами. Множественность ребер представлена ребрами E4, E5; “петля” отображается ребром E1; v6 представляет собой изолированную вершину, а ориентированность ребра задается упорядоченностью множества вершин, инцидентных этому ребру.
Если синтаксическую модель представить иерархической структурой синтаксических понятий и набором синтаксических правил, то иерархическая структура будет отображаться одним гиперграфом, а правила -- множеством гиперграфов. При этом омография и синтаксическая омонимия будет представляться иерархическим гиперграфом более “естественным” образом нежели множеством деревьев с использованием специальных механизмов для описания этих неопределенностей. На рис. 2 и 3 представлены два гиперграфа, один из которых предназначен для выделения фрагмента в вопросительном предложении, а второй -- для разбивки сложного предложения на фразы. Вершины имеют раскраски, соответствующие именам синтаксических понятий, а ребра -- используемым отношениям. “Внешняя кривая”, охватывающая все вершины гиперграфа, определяется как ребро с окраской типа “входит в структуру”.
Какова площадь равностороннего треугольника, катет которого равен 15 см, а высота 12.
Аналогично можно представлять описания ситуаций в семантической модели, только окраскам вершин и ребер гиперграфов будут соответствовать семантические понятия и отношения. В виде гиперграфа дано семантическое описание некоторой целостной графической “сцены”, состоящей из трех объектов, один из которых находится “между” двумя остальными (что трудно представить обычным графом). Такое описание может быть результатом трансляции предложения типа: Треугольник находится между кругом и ромбом. В этом гиперграфе Объекту1 соответствует “Треугольник”, Объекту 2 и 3 -- “круг” и “ромб”. Внешнее ребро имеет смысл “входит в структуру” сцены, а внутреннее ребро -- “находится между”. Стрелочки на внутреннем ребре означают соответствующую его ориентированность.
В терминах гиперграфов можно также описывать вложенные и пересекающиеся структуры.
Исходя из мощности этого языка с помощью гиперграфов можно представлять основные декларативные компоненты лингвистической модели. Но для реализации процесса трансляциии важна задача сопоставления описаний: при разборе простых предложений, при разбивке осложненных и сложных предложений на фразы, при декомпозиции описания ситуации на подситуации, при восстановлении эллипсисов, при разрешении анафор и т.д.
2. Процедура сопоставления или изоморфизм гиперграфов.
В отличие от порождающих механизмов при использовании описаний типа гиперграфов необходим формальный аппарат нахождения соответствий между гиперграфами, выделения подгиперграфов и т.п. Основой этого аппарата является процедура сопоставления, которую можно рассматривать как поиск изоморфизма гиперграфов.
Изоморфизм графов.
Изоморфизм для простоты изложения рассмотрим применительно к графам [3]. Пусть заданы два графа G1(Y) и G2(Z), где Y (соответственно Z) - множество вершин первого (второго) графа. Положим |Y| = n, |Z| = m, где |T| - количество элементов в множестве T. Предположим, что графы неориентированные с раскрашенными вершинами и ребрами. Цвет вершины yi из графа G1 обозначим V(yi) (i = 1,...,n), аналогично для графа G2 обозначим V(zj) (j = 1,...,m). Окраску ребра, соединяющего yi и yj, обозначим r(yi,yj), соответственно r(zl,zm).
Задача поиска изоморфизма сводится к следующему: найти множество вершин Y1 и Z1 такое, что: лингвистический транслятор семантический текст
|Y1| = |Z1|,
Y1 Y и Z1 Z,
G1(Y) G2(Z).
Здесь G1(Y) G2(Z) означает, что эти подграфы изоморфны с учетом окраски вершин и ребер, причем порядок вершин во множествах Y1 и Z1 определяет этот изоморфизм.
Задача отыскания изоморфизмов имеет обычно множество решений. Например: решение 1: Y1 = {y1, y2}, Z1 = {z3, z4}. Решение 2: Y1 = { y1, y2, y3}, Z1 = {z3, z1, z2}.
Изоморфизм |Y1| = |Z1| = t min {|Y1| = |Z1|} называется t-изоморфизмом. Задача нахождения максимального изоморфизма (с максимальным t) является конечной задачей и поэтому, естественно, может быть решена методом полного перебора; однако можно найти изоморфизм графов через поиск внутренне устойчивого множества графа, построенного по определенным правилам из исходных графов.
Определение изоморфизма по внутренне устойчивому множеству.
Пусть дан граф G(P,M), где P - множество вершин этого графа, а M - матрица смежности. Подмножество вершин этого графа называется внутренне устойчивым, если эти вершины являются попарно несмежными [4].
Задача определения изоморфизма графов сводится к задаче отыскания внутренне устойчивого множества (ВУМ) некоторого другого графа. Для заданных графов G1(Y) и G2(Z) граф G (P, M) составляется по следующим правилам:
1) P={yi zj / yi Y, zj Z, V(yi ) = V(zj )}.
2) Вершины (yi, zj ) и (yk,zl) в графе смежны, если отображения yi zj и yk zl противоречат друг другу, т.е. если:
а) i=k или
б) j=l или
в) r (yi, yk) r (zj, zl).
Графы G1(Y) и G2(Z) t-изоморфны тогда и только тогда, когда в графе G (P, M) существует t несмежных между собой вершин, причем, если вершины (yi1, zj1), (yi2, zj2),..., (yit, zjt) несмежные, то можно положить Y1 = {yi1,..., yit} и Z1 = { zj1,..., zjt}.
Внутренне устойчивыми множествами графа G (P, M) например, будут: {p2, p6} или {p2, p4, p7}.
Первое решение - это 2-изоморфизм, определенный отображениями y1 z3 и y2 z4. Второе решение определяют отображения y1 z3, y2 z1, y3 z2, что дает 3-изоморфизм.
Задача определения ВУМ имеет ряд приближенных, но эффективных алгоритмов. Например, простейший из них заключается в следующем. Выбираем в графе G (P, M) вершину с минимальной степенью связности и заносим ее в ВУМ. Вычеркиваем из графа G (P, M) данную вершину и все с ней смежные. В полученном графе опять определяем вершину с минимальной степенью связности и так до тех пор, пока не исчерпаем граф. Полученное ВУМ будет определять соответствующий изоморфизм.
3. Общая характеристика гиперграфового представления.
Не трудно заметить, что гиперграфовое представление имеет аналогии с семантическими сетями и с фреймами, но фреймы, как психологическая модель памяти, формально мало обоснованы, а семантические сети до сих пор не имеют стандартного определения, хотя и возникли из формального понятия сети, которое по определению связано с гиперграфом. Гиперграф же имеет четкое формальное определение и теоретически обоснованную процедуру сопоставления (поиска изоморфизма). Если “умело” пользоваться, то ее можно применять в достаточно широких пределах. Сопоставление дает спектр результатов в зависимости от структур гиперграфов, степени вершин и ребер, их окраски и порядка выбора вершин с одинаковой степенью связности в графе с ВУМ при поиске конкретного изоморфизма. То есть такая процедура дает возможность варьировать параметрами при сопоставлении и получать разные результаты исходя из внешних критериев.
Ресурсоемкость сопоставления сегодня не является критическим параметром и тем не менее опыт представления лингвистических знаний показывает, что за счет разного рода “естественных декомпозиций” (а сам процесс синтаксического или семантического разбора является таковым) всегда есть возможность использовать сравнительно небольшое количество элементов в гиперграфах и тогда (без нарушения общности) сопоставление будет эффективным.
Конечно, одного языка представления знаний в виде гиперграфов недостаточно для полного решения задачи лингвистической трансляции. Необходимо привлекать и другие типы языков, например, продукционные системы для задачи интерпретации синтаксиса в семантику. При этом есть возможность адекватной “привязки” множества гиперграфов к продукционной системе.
Описание синтаксиса и семантики на одном языке представления дает большие преимущества в реализации однотипных процедур при синтаксической и семантической обработке. А естественность описания правил позволяет вводить семантические характеристики и отношения даже и на уровне синтаксиса.
Аппарат гиперграфов позволяет описывать абзацы и даже полные тексты, не прибегая к использованию “гипертекстовых” технологий. Его можно применять для “метаописания” при определении понятий и отношений самой лингвистической модели и этапов трансляции. Гиперграфы не запрещают встраивания специальных механизмов, например, ассоциированных (присоединенных) процедур. Более того, любые синтаксические или семантические отношения проверяются с помощью этих процедур.
Восстановление эллипсисов, разрешение анафор и другие подобные задачи лингвистической трансляции решаются за счет выделения требуемого контекста (следовательно, соответствующего гиперграфа) и поиска аналогичного ему в предыдущей или последующей (см., например, относительно “прерванных” высказываний в [5]) части текста.
Первоначально гиперграфы и процедуры их сопоставления использовались при решении задач распознавания образов и формирования понятий [6, 7]. В последующем это представление было реализовано в лингвистическом трансляторе, который работал в нескольких экспериментальных системах: в системе доступа к базам данных на ЕЯ, в оболочке машинного переводчика, в системе поиска информации в непрепарированных ЕЯ-текстах по определенным пользователем семантическим описаниям, в системе индексирования ЕЯ-текстов на примере медицинских диагнозов и в системе синтеза графических изображений типа “ТЕКСТ->РИСУНОК. Краткое описания систем и примеры обрабатываемых транслятором различных типов ЕЯ-предложений приведены в [8].
Литература
1. Нариньяни А.С. Искусственный интеллект: стагнация или новая перспектива? Труды VI национальной конференции по Искусственному Интеллекту с международным участием - КИИ-98, 5-11 октября. Пущино, Россия, т.1, 1998, с. 15-29.
2. Berge C. Isomorphism problems for hypergraphs. Lecture Notes in Mahtematics. 411. Hypergraph Seminar. 1972. Spring-Verlag, 1974, p. 1-12.
3. Зыков А.А. Основы теории графов. М., Наука, 1987, 384 с.
4. Берж К. Теория графов и ее приложение, М., Изд. ИЛ, 1962, 320 с.
5. Леонтьева Н.Н. Семантический анализ прерванных высказываний на материале массива официальных документов. Труды Международного семинара Диалог'97 по компьютерной лингвистике и ее приложениям (под ред. А.С. Нариньяни). - М., 1997, с. 175-180.
6. Власов А.В., Гинзбург Б.Д., Хахалин Г.К. Процедура построения графа с “внутренне устойчивым множеством” применительно к процессу построения понятия. Вопросы радиоэлектроники. Сер. Общетехническая, вып. 8, 1975, с. 56-61.
7. Байков А.М., Гриднев А.А., Хахалин Г.К. Алгоритм идентификации описаний и его реализация на ЭВМ. - "Вопросы радиоэлектроники", сер. ЭВТ, 1978, вып. 5, с. 54-62.
8. Хахалин Г.К. Лингвистический транслятор в семействе систем с обработкой ЕЯ-текстов (ретроспекция). Труды VI национальной конференции по Искусственному Интеллекту с международным участием - КИИ-98, 5-11 октября. Пущино, Россия, т.1, 1998, с. 238 - 246.
Размещено на Allbest.ru
Подобные документы
Изучение способов перевода слова, обозначающего специфические реалии, изменения числа и типа предложений. Характеристика эквивалентности перевода при передаче семантики языковых единиц, принципов описания фразеологических и грамматических соответствий.
курсовая работа [133,7 K], добавлен 18.05.2011Структура текста, морфологический уровень. Исследование текста с лингвистической точки зрения. Прямонаправленная и непрямонаправленная связность текста. Важность морфологического уровня текста в понимании структуры текста и для понимания интенции автора.
реферат [30,4 K], добавлен 05.01.2013Лингвистическая терминология как объект исследования. Теоретические основы описания терминов. Этапы развития лингвистической терминологии, ее формирование посредством описательных грамматик. Словари лингвистических терминов и лингвистические энциклопедии.
дипломная работа [87,1 K], добавлен 25.02.2016Семантико-когнитивный подход в интерпретации метафор. Метафоризация текста как средство фиксации и отражения менталитета этнокультуры. Анализ метафоры как способа описания и экспликации доминант национального сознания в современной французской прессе.
дипломная работа [68,0 K], добавлен 25.07.2017Употребление нужной формы прилагательных в английском языке. Преобразование предложений из действительного залога в страдательный. Постановка предложений в отрицательную и вопросительную форму. Составление вопросов к словам в тексте, словаря к тексту.
контрольная работа [16,5 K], добавлен 03.02.2014Необходимость сближения и диалога культур и углубления взаимопонимания между обществами, нациями. Культурологические характеристики общения. Страноведческий текст в системе лингвистического знания. Комплекс ценностей как основа лингвокультурологии.
реферат [46,5 K], добавлен 15.08.2010Культурологические характеристики общения. Национально-культурная специфика речевого общения. Страноведческий текст в системе лингвистического знания. Комплекс ценностей как основа лингвокультурологии. Классификация ценностей как норм и правил поведения.
реферат [45,6 K], добавлен 22.08.2010Основные характеристики и способы описания лексико-семантической группы. Структурно-семантические особенности концепта "жилище" в русском и в казахском языках, описание каждой группы с точки зрения её системной организации. Сравнительные анализ лексем.
дипломная работа [993,3 K], добавлен 15.10.2010Слово как знак языковой системы: внутренняя структура, функция, категориальное значение. Изменение значений слов (в сравнении русского и французского языков), метафора и метонимия. Основные типы семантических преобразований в лексике французского языка.
курсовая работа [709,0 K], добавлен 28.08.2011Характеристика термина как единицы языка и речи; их классификация. Рассмотрение общих и частных явлений, свойственные русской лингвистической терминологии, экстралингвистических факторов. Описание деривационных и прагматических особенностей терминов.
дипломная работа [80,3 K], добавлен 03.02.2015