Нейронный машинный перевод

Классификация систем машинного перевода, автоматическая оценка качества перевода без использования референтных текстов. Методы оценки качества машинного перевода, гибридный машинный перевод. Искусственные нейронные сети, лингвистический анализ переводов.

Рубрика Иностранные языки и языкознание
Вид дипломная работа
Язык русский
Дата добавления 07.12.2019
Размер файла 3,3 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ

ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ

ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ

«ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»

Факультет гуманитарных наук

Программа подготовки бакалавров по направлению

45.03.03 «Фундаментальная и прикладная лингвистика»

Выпускная квалификационная работа

Нейронный машинный перевод

Сафарян Анна

Нижний Новгород, 2019

Содержание

  • Введение
  • 1. Задача машинного перевода
    • 1.1 Классификация систем МП
      • 1.1.1 Перевод на основе правил
      • 1.1.2 Статистический машинный перевод
      • 1.1.3 Гибридный машинный перевод
    • 1.2 Методы оценки качества машинного перевода
      • 1.2.1 Экспертная оценка
      • 1.2.2 Автоматическая оценка качества перевода без использования референтных текстов
      • 1.2.3 Автоматическая оценка качества перевода с использованием референтного перевода
  • 2. Искусственные нейронные сети
    • 2.1 Погружение слов (Embedding) \\методы_векторизации_или_все_эмбеддинг?
    • 2.2 Рекуррентные нейронные сети (RNN)
      • 2.2.1 Простые ячейки
      • 2.2.2 Долгая краткосрочная память (LSTM)
      • 2.2.3 Двунаправленные РНС
      • 2.2.4 Топология РНС
    • 2.3 Архитектуры последовательность-в-последовательность (sequence-to-sequence)
      • 2.3.1 Модель Чо
      • 2.3.2 Модель Суцкевера
      • 2.3.3 Механизм внимания (attentionmechanism)
  • 3. Лингвистические основы
    • 3.1 Некоторые основы языкознания
    • 3.2 Семантика
    • 3.3 Синтаксис
    • 3.4 Модели в лингвистике
  • 4. Оценка и анализ результатов систем нейронного машинного перевода
    • 4.1 Методология
      • 4.1.1 Данные (корпусы) и их предварительная обработка
      • 4.1.2 Инструменты и ресурсы, использованные в работе
      • 4.1.3 Алгоритм работы машинного переводчика
    • 4.2 Формальная оценка качества перевода
      • 4.2.1 Сравнение архитектур нейронной сети
      • 4.2.2 Сравнение методов распределённого представления слов
    • 4.3 Лингвистический анализ переводов
      • 4.3.1 Ошибки перевода и сравнение архитектур нейронного МТ
      • 4.3.2 Сравнение результатов перевода, полученных на основе различных эмбеддингов
  • Заключение
  • Библиографический список

Введение

Характеристика исследовательской проблемы

  • Глобализация, стирающая границы между странами, делает невозможным существование человека в кругу родного языка на протяжении всей жизни. В любой сфере деятельности: науке и образовании, культуре, отдыхе и т.д. -- мы всё чаще встречаемся с информацией на самых разных языках, контактируем с их носителями. Это объясняет, почему задача машинного перевода на протяжении нескольких десятилетий была и остаётся одной из наиболее актуальных проблем автоматической обработки естественного языка. машинный перевод референтный текст
  • В последние несколько лет значительный прорыв в этой области был достигнут благодаря технологии глубокого обучения, в основе которой лежит имитация работы клеток центральной нервной системы человека. Подбирая параметры обучения искусственной нейронной сети, можно добиться высоких результатов в различных областях обработки данных, в т.ч. в обработке текстов. Качество перевода зависит не только от архитектуры нейросети, но и от способа представления слов. Значительноеразвитиенейронныймашинныйпереводполучилблагодаряпоявлению современныхэм беддингов (способов векторизации слов): основанных на синтаксических зависимостях [Levyetal., 2014], кросс-лингвальныхэмбеддингов[Conneauetal., 2018], эмбеддингов, основанных на целых предложениях [Devlinetal., 2018] и т.п.\\последнюю_статью_от_ОВ?
  • В любойзадаче, связанной с обработкой естественного языка, определённыйинтереспредставляетрассмотрение результатов слингвистическойточкизрения. Несмотря на актуальность области, результаты нейронного машинного перевода крайне мало изучены с этой стороны. Однако, знаниеособенностей работы архитектур и понимание, как ведёт себя при переводе тот или иной язык, позволило бы выбирать оптимальную архитектуру и способ представления данных для каждой конкретной задачи машинного перевода.
  • Целью данной работы является построение нескольких систем машинного перевода, использующих различные архитектуры и способы векторизации данных, и последующее сравнение их результатов с лингвистической точки зрения.
  • Цель обуславливает следующие задачи:
  • 1) изучение различных подходов к машинному переводу;
  • 2) изучение архитектур нейронных сетей, применяющихся в нейронном машинном переводе;
  • 3) рассмотрение подходов к векторизации слов;
  • 4) создание систем машинного перевода, использующих различные архитектуры и методы репрезентации слов;
  • 5) сравнение результатов работы алгоритмов, оценка качества перевода;
  • 6) выявление ошибок, допущенных системами при переводе;
  • 7) анализ и сравнение переводов с лингвистической точки зрения.
  • Объектом данного исследования являются технологии нейронного машинного перевода.
  • Предметом исследования являются способы векторизации слов, применяющиеся для нейронного машинного перевода.
  • Материалом данной работы послужил англо-русский параллельный корпус, составленный на основе материалов сайта TatoebaProject
  • \\ссылка-- коллекции параллельных предложений для различных языков, пополняемой пользователями.
  • В работе использовались следующие методы:

1) дистрибутивный и грамматический анализыдля выделения лексических и синтаксических ошибок перевода;\\есть_ли? \\морфологический?

2) статистическийметод(критерий Мак-Немара) дляоценкизначимостиразличиймеждурезультатами, полученными от разных систем машинного перевода;

3) дедуктивный метод для анализа переводов на основе знаний об алгоритмах работы систем нейронного машинного перевода;

4) индуктивный метод для обобщения результатов работы и формулирования выводов.

Обоснование структуры исследования

Структура данной работы определяется целью и задачами исследования. Работа состоит из введения, четырёх глав, заключения и библиографии. Во введении даётся характеристика исследуемой проблемы, обосновывается актуальность данной работы, поставлены цель и задачи, определены объект и предмет исследования, описаны методы работы, охарактеризован материал исследования. Первая глава «Задача машинного перевода» посвящена той части теории, которая касается машинного перевода: в ней рассматриваются существующие подходы к машинному переводу, а также методы оценки качества автоматического перевода. Вторая глава «Искусственные нейронные сети» такженосит теоретический характер. В ней рассматривается понятие искусственная нейронная сеть и даётся обзор архитектур нейронных сетей, в частности, применяющихся при решении задачи машинного перевода. Третья глава «Лингвистические основы» приводятся некоторые базовые понятия и положения языкознания, необходимые для дальнейшего анализа переводов.В четвёртой главе «Оценка и анализ результатов систем нейронного машинного перевода»описывается алгоритм работы созданных систем и приводятся оценки качества перевода по метрике BLEU. Затем результаты перевода рассматриваются с лингвистической точки зрения: выявляются и объясняются некоторые ошибки, допущенные системами при автоматическом переводе, сравниваются переводы, полученные от систем, использующих разные методы репрезентации слов.В заключении подводятся итоги работы, делаются выводы о работе систем машинного перевода, основанных на различных архитектурах и способах векторизации слов, и характерных для них ошибках. Кроме того, приводятся возможные пути продолжения исследования.

1. Задача машинного перевода

Машинный перевод -- это выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст на другом языке, а также результат такого действия(Пиванова, 2014: 89). \\т-п-мп

Со времён Второй мировой войны и до сегодняшнего дня задача машинного перевода рассматривается как задача дешифровки сообщения -- эта идея принадлежит американскому математику и специалисту по криптографии Уоррену Уиверу. Более подробно она будет рассмотрена дальше(Пиванова, 2014: 90), (Николаев, 2016: 242).\\т-п-мп\\учебник

1.1 Классификация систем МП

\\учебник

Существует несколько стратегий машинного перевода(Николаев, 2016: 248):

1. Перевод на основе правил (rule-basedmachinetranslation, RBMT) уподобляется человеку-переводчику, имеющему большой словарь и подробную структуру грамматических правил для обоих языков.

2. Статистический машинный перевод (statisticalmachinetranslation, SMT) действует на основе методов машинного обучения, анализируя большой массив параллельных предложений. Для такого перевода важны не только перевод пар слов, но и их последовательность, место в предложении и т.д. На основе этих данных система выбирает наиболее вероятный перевод нового предложения.

3. Гибридный перевод (hybridmachinetranslation, HMT) бывает разных типов, в зависимости от комбинации, в которой совмещаются два предыдущих подхода.

Далее каждый из подходов будет рассмотрен подробнее.

1.1.1. Перевод на основе правил

Данные системы требуют структурированной лингвистической информации по обоим языкам, для которых производится перевод. Для перевода необходимы словари и грамматики, охватывающие семантические, морфологические, синтаксические закономерности обоих языков. На основе этих данных исходный текст последовательно, преобразуется в текст на требуемом языке. Такая стратегия имеет свои преимущества: результаты предсказуемы, точны с точки зрения грамматики и синтаксиса и настраиваемы на специфическую предметную область. Однако создание, поддержка и обновление лингвистических баз данных трудоёмко и дорого (Андреева, 2013: 64).

Внутри систем, основанных на правилах, можно выделить три типа(Николаев, 2016: 251):

1) Системы пословного перевода (word-by-wordMT, directsystems, dictionarybasedMT) работают по следующей схеме: слова исходного текста > слова перевода. Это простейших подход, обычно не предполагающий даже синтаксического и морфологического анализа, поэтому обеспечивающий крайне низкое качество перевода.

2) Трансферные системы (transfer-basedMT, transfersystems) анализируют текст на промежуточном шаге: исходное предложение > проанализированное исходное предложение > предложение на другом языке. Новое предложение собирается из переведённых слов на основе знаний системы о грамматике конечного языка.

3) Интерлингвистические системы (interlingualsystems) имеют в своей основе наиболее сложную систему: исходный текст > описание его смысла на универсальном языке-посреднике > текст перевода. При таком переводе используется формальное представление смысла (так называемая интерлингва). Однако полноценного вспомогательного языка для любой задачи перевода до сих пор не существует.

1.1.2. Статистический машинный перевод

Современный взгляд на статистический машинный перевод базируется на работах математика Клода Шеннона, занимавшегося шифрованием звукового потока при помощи шума. Тогда исходное сообщение представляется замаскированным при помощи шума, а его перевод -- исходным предложением, которое нужно декодировать(Николаев, 2016: 255).

Классическая модель Шеннона состоит из пяти линейно расположенных элементов: источника информации, передатчика, канала передачи, приёмника и конечной цели. В момент, когда передатчик, закодировав информацию от источника, передаёт её на канал с помехами, исходное сообщение искажается. Однако при опоре на избыточную информацию, которая присутствует в большинстве сообщений, исходное сообщение можно восстановить(Николаев, 2016: 255).

Задачей декодирования становится поиск при данном сообщении f такого исходного e, которому бы соответствовала наибольшая вероятность P. Согласно теореме Байеса:

Так как вероятность данного сообщения P(f)всегда постоянна, выражение можно упростить:

Таким образом, для нахождения исходного сообщения eнеобходимо уметь находить условную вероятность того, что данное переведённое сообщение f преобразуется в исходное eпосле воздействия на него шума. Для этих целей используют модель источника (модель языка), которая оценивает вероятность фраз языка исходного сообщения (P(e)), и модель канала (модель перевода), определяющую вероятность данной фразы при условии фразы на исходном языке (P). Тогда задача перевода сводится к поиску фразы, которая максимизировала бы произведение двух этих величин(Николаев, 2016: 256).

где

f -- данная фраза перевода,

e -- исходная фраза.

Эту схему можно представить, как показано на рис.:

Более подробно её составляющие будут рассмотрены дальше.

Модель языка

Как уже было сказано, языковая модель (languagemodel) -- это способ вычислять вероятность для всех теоретически возможных предложений языка. Наибольшие вероятности она присваивает максимально корректным предложениям. Для создания такой модели необходим корпус текстов на одном языке(Николаев, 2016: 257).

Для подсчёта вероятности такой цепочки используются цепи Маркова (n-граммы)(Джули, 2018: 153).

, где

w -- элемент из множества Wвсех словоформ в корпусе,

n -- порядок n-граммы (т.е. сколько предыдущих слов учитывается при подсчёте условной вероятности).

Чаще всего для расчётов используются цепи второго и третьего порядка (биграммы и триграммы), реже -- четвёртого (четырёхграммы).

Для оценки вероятности применяется оценка максимального правдоподобия (maximum-likelihoodestimates):

, где

c(x) -- число вхождений последовательности x в обучающий корпус(Джули, 2018: 153).

Модель перевода

Модель перевода (translationmodel) позволяет ответить, с какой вероятностью одно предложение является переводом другого. Иными словами, оно оценивает P, где f -- имеющееся переведённое предложение, вероятность которого необходимо оценить при условии e -- исходного предложения.

В отличие от модели языка, строящейся на одном корпусе, модель перевода создаётся на корпусах параллельных текстов. Для этого над ними производится выравнивание -- приведение слов одного языка в соответствие словам другого. В результате получается таблица, аналогичная той, что представлена на рис. (Koehn, 2009):\\коэн

Для создания модели перевода обычно используются корпусы, выровненные по словам (wordalignment), отдельным фразам (phrasealignment) или целым предложениям (sentencealignment), хотя встречаются также выравнивания по абзацам и т. п.(Koehn, 2009).

Последовательный перевод элементов может осуществляться как на основе отдельных слов (word-basedtranslation), так и на основе последовательностей словоформ (phrase-basedtranslation). Перевод на основе фраз позволяет переводить не только слова и словосочетания, не имеющие точных соответствий в двух языках. Кроме того, применяется также перевод, основанный на синтаксических структурах (syntax-basedtranslation), который позволяет разрешить неоднозначность в некоторых случаях (Goutteetal., 2009). \\лёрнинг

1.1.3 Гибридный машинный перевод

Считается, что системы гибридного машинного перевода достигают наибольшей эффективности, так как сочетают в себе достоинства как статистического машинного перевода, так и перевода, основанного на правилах. При этом существует несколько способов объединить эти подходы, и, соответственно, несколько видов таких систем:

1) интегрирование статистического модуля в перевод, основанный на правилах;

2) интеграция правил в статистическую модель.

3) перевод в два этапа: статистическая система дорабатывает перевод, основанный на правилах. Этот метод используется в компании PROMT(https://www.promt.ru). \\ссылка-на-них

1.2 Методы оценки качества машинного перевода

Для развития систем машинного перевода необходимо объективно оценивать качество работы алгоритмов. Рассмотрим существующие подходы к оценке качества машинного перевода (Улиткин, 2016: 172), (Koehn, 2009).\\статья-про-оценку\\Коэн

1.2.1 Экспертная оценка

Основа данного подхода -- оценка качества человеком, с опорой на определённые критерии и шкалы(Улиткин, 2016: 173).

1) Первый метод -- это оценка по заданной шкале двух параметров: полноты (adequacy), т.е. точности перевода, и гладкости (fluency) -- правильности фразы с точки зрения носителя языка.

2) Кроме того, при оценке текста задачей асессора может быть составление рейтинга результатов и расположение их по порядку.

3) Третьим способом экспертной оценки качества перевода является анализ ошибок, то есть идентификация и классификация ошибок в тексте, сгенерированном системой машинного перевода.

При таком подходе возможно оценить прагматические и стилистические характеристики перевода, соответствие культурному контексту. Однако ручная оценка качества машинного перевода -- очень дорогой, субъективный и трудоёмкий процесс.

1.2.2 Автоматическая оценка качества перевода без использования референтных текстов

Основная идея этого подхода -- оценка качества без опоры на эталонные тексты. При этом, формулировка задачи может быть разная: переводы пытаются оценивать либо абстрактной оценкой (1 -- идеальный, 2 -- несколько ошибок, 3 -- ужасный), либо с помощью прикладных метрик (например, HTER вычисляет число шагов, необходимое переводчику для обработки полученного текста перед публикацией) (Улиткин, 2016: 174).

1.2.3 Автоматическая оценка качества перевода с использованием референтного перевода

Оценка качества перевода на основе эталонных текстов не позволяет оценить перевод с учётом стилистических, семантических и прагматических оттенков, однако характеризуется максимальной объективностью и простотой. Методы, сравнивающие порождённый машинным переводчиком текст с эталоном, могут основываться на сравнении строк (stringmatching), на n-граммных моделях или на использовании информационного поиска (informationretrieval)(Улиткин, 2016: 174).

1. К методам, основанным на сравнении строк, можно отнести следующие метрики:

· WER (пословная вероятность ошибок),

· PER (позиционно-независимая пословная вероятность ошибки)

· TER (вероятность ошибки перевода).

Рассмотрим метрику WordErrorRate (взвешенное расстояние Левенштейна), которая определяет дистанцию редактирования между эталонным переводом и результатом оцениваемой системы машинного перевода.

substitution (замена): одно слово необходимо заменить другим;

insertion(вставка): требуется вставить новое слово;

deletion(удаление): нужно удалить одно из слов;

referencelength: длина эталонного перевода.

Для интерпретации WER необходимо учитывать, что максимальная оценка работы системы соответствует минимальному значению метрики.

2. N-граммные методы -- это метрики, основанные на совпадении n-грамм эталонного и переведённого текста:

· BLEU,

· NIST (разновидность BLEU, учитывающая информативность каждого совпадающего n-грамма)

· METEOR

· F-measure.

Самая известная метрика оценки машинного перевода -- BLEU (BiLingualEvaluationUnderstudy), которая выводит оценку качества перевода

по шкале от 0 до 100, основываясь на совпадении n-грамм в эталонном и переведённом тексте.

, где:

precision -- отношение числа совпадающих i-грамм к общему числу i-грамм в переводе;

outputlenght -- длинна оцениваемого текста;

referencelength -- длинна эталонного перевода.

2. Искусственные нейронные сети

В последнее время для задачи машинного перевода применяются нейронные сети. Этот подход набирает популярность и показывает очень высокие результаты по сравнению с системами, основанными на классических методах статистического машинного перевода. С недавнего времени нейронный машинный перевод используется в продуктах таких компаний, как Google (https://www.google.ru), Microsoft (https://www.microsoft.com) и SYSTRAN (www.systransoft.com). \\ссылки

В основе класса моделей машинного обучения, называемых искусственными нейронными сетями, лежит аналогия с нейронной структурой мозга млекопитающих. Нейросеть представляет собой слои взаимосвязанных нейронов, которые обмениваются между собой сообщениями (возбуждаются) при выполнении определённых условий. Обучение происходит путём последовательного абстрагирования: наружные слои искусственных нейронов обучаются базовым свойствам, a более глубокие обрабатывают более сложные концепции -- эта идея многослойной организации была заимствована у зрительной системы человека.

Перцептрон (perceptron) -- это модель нейронной сети, состоящая из одного линейного слоя нейронов, которая представляет собой простой алгоритм, принимающий вектор входных атрибутов x = (x1, x2, …, xn) и дающий два ответа: 1 или 0. Математически это выражается следующим образом:

,

где W -- вектор весовых коэффициентов, W*x -- скалярное произведение , ab -- смещение (bias).

Уравнение W*x + b определяет геометрические границы гиперплоскости, причём если x лежит над гиперплоскостью, то решение уравнения W*x + b > 0, а если под гиперплоскостью, то W*x + b < 0.

Простейшая архитектура представляет собой сеть, в каждом слое которой все нейроны соединены со всеми нейронами соседних слоёв. Такая сеть называется плотной (dense), а каждый слой в ней называется полносвязным.

Рассмотрим пример нейронной сети с 3 слоями: входным (input), промежуточным (intermediate) и выходным слоем (output).

При архитектуре, представленной на рис., каждый узел первого слоя получает на вход данные и реагирует по предопределённому локальному сценарию. Выход каждого слоя передаётся на следующий по цепочке до последнего, состоящего из одного нейрона.

2.1 Погружение слов (Embedding)

\\учебник

Смысл векторного представления (погружения) слов -- представление слов или фраз в виде векторов вещественных чисел. Такое решение делает возможным применение к ним стандартных алгоритмов машинного обучения(Джули, 2018: 158).

Простейший вид погружения слов -- унитарное кодирование (onehotencoding). Этот способ превращает текстовый элемент в вектор определённой длины (равной числу элементов), в котором все позиции, кроме одной, заполнены нулями. Для каждого элемента позиция, занятная единицей, будет уникальной. Однако унитарное кодирование имеет недостатки: во-первых, оно требует много ресурсов для хранения данных в памяти; во-вторых, не позволяет сохранить информацию о сходстве слов. Сходство векторов вычисляется с помощью скалярного произведения, т.е. суммы произведений соответствующих элементов, но при унитарном кодировании оно нулю.

В основе идеи наиболее широко применяемой формы погружения -- распределённого представления -- идея о том, что значение \\добавить_фреге? слова определяется словами, которые его окружают в контексте. Целью распределённого представления становится сохранение корреляции между сходством векторов и семантических сходством слов (Mikolov, 2013).\\миколов

Рассмотрим суть этого метода на примере:

Пусть имеется два предложения:

1) Париж -- столица Франции.

2) Берлин -- столица Германии.

Очевидно, что для пар слов Париж-Франция и Берлин-Германия можно выстроить семантическую пропорцию:

Париж : Франция :: Берлин : Германия

Целью распределённого представления является поиск такой функции f, что при преобразовании слова в соответствующий вектор сохраняется соотношение(Джули, 2018: 159):

f(Париж) - f(Франция) ~ f(Берлин) - f(Германия)\\учебник

В 2014 году был представлен способ погружения слов, основанный на синтаксических зависимостях внутри предложения. Вкачествеконтекстадлясловарассматриваютсякак зависимыеслова, так и вершина для самого целевого слова. Кроме того, учитываются типы синтаксических зависимостей между словами, что позволяет сохранить информацию о функциональной близости слов. Так, для предиката discoversв предложенииAustralianscientistdiscoversstarwithatelescopeпри распределённом способе погружения слов контекстом будут являться слова Australian, scientist, star, with, в то время как подход, основанный на синтаксических зависимостях, в качестве контекста будет рассматривать субъект, прямой объект и косвенный объект с предлогом: scientist-nsubj, star-dobj, telescope-prep_with(Levyetal., 2014).\\их_статтья

2.2 Рекуррентные нейронные сети (RNN)

Рекуррентные нейронные сети (РНС) -- класс нейронных сетей, позволяющих учитывать и обрабатывать последовательный характер входных данных (т.е. в которых последующие элементы зависят от предыдущих: текст, звучащая речь, временной ряд и т.д.).

РНС можно представить в виде графа, состоящего из элементарных ячеек. Каждая ячейка имеет «петлю» -- т.е. ребро, соединяющее элементарную ячейку с собой, что является основой для внутренней памяти рекуррентной сети. Подобные сети применяются для решения многих задач:

· распознавание речи;

· языковое моделирование

· машинный перевод

· анализ эмоциональной окраски

· подписывание (теггирование) изображений

и т.д. (Джули, 2018: 160).\\учебник

2.2.1 Простые ячейки

\\учебник

Рассмотрим, что представляют из себя простые ячейки РНС.

В них нарушается предположение, что все входы независимы: за «запоминание» предыдущих данных в ячейках отвечает скрытое состояние (память)h, значение которого в момент времени t-- функция fзначения памяти hна предыдущем шаге и значения данных xна текущем шаге (Джули, 2018: 161):

Закодировать информацию о последовательности любой длины позволяет рекуррентность данного уравнения, т.е. ht-1, в свою очередь, выражается через ht-2 и xt-2, и так до начала последовательности.

На рис. графически показана работа такой ячейки.

Часть значения yt, выводимого ячейкой в момент времени tиз входных данных xt -- и есть скрытое состояние ht, которое подаётся обратно на вход ячейки на следующем временном шаге t+1. Таким образом, параметры рекуррентной нейронной сети задаются матрицей весов U (вход), V (выход) и W (скрытое состояние) (Джули, 2018: 165).

Значение вектора скрытого состояния ht определяется применением нелинейной-функцииtanh к сумме произведения матрицы весов W на скрытое состояние в предыдущий момент времени t-1 и матрицы весов U на входное значение xt:

А выходной вектор yt, являющийся набором вероятностей выхода, представляет собой результат применения функции softmaxк произведению матрицы весов V на скрытое состояние ht:

2.2.2 Долгая краткосрочная память (LSTM)

Долгая краткосрочная память (Long Short-TermMemory, LSTM) -- самая популярная разновидность РНС, учитывая долгосрочные зависимости.

LSTM-сети также используют скрытое состояние на предыдущем шаге и текущие водные данные в слое с функцией активации, однако в ней четыре tanh-слоя, взаимодействующих между собой. Схема работы такой сети на каждом временном шаге t показана на рисунке (Джули, 2018: 166):

Здесь нижняя линия соответствует скрытому состояниюh, верхняя -- состоянию ячейки внутренней памятиc. Скрытым состоянием всей LSTM-сети управляют четыре вентиля:

1) вентиль забыванияf пропускает только часть предыдущего состояния ht-1:

2) входной вентильi для текущего входа xt пропускает только часть вычисленного на данном шаге состояния:

3) выходной вентильo передаёт следующему слою только часть текущего внутреннего состояния:

4) внутреннее скрытое состояниеgвычисляется на основе текущего входа xtи предыдущего скрытого состояния ht-1:

Выход всех вентилей приводится к диапазону [0;1] при помощи сигмоидной функции. Состояние ячейки внутренней памяти ct вычисляется на основе этих параметров:

Таким образом содержимое ячейки памяти комбинируется с новыми входными данными.

Скрытое состояние ячейки htвычисляется по следующей формуле:

2.2.3 Двунаправленные РНС

В задачах обработки последовательностей выход может зависеть не только от предыдущих элементов, но и от всей последовательности в целом. Для учёта всего контекста используются двунаправленные рекуррентные сети -- две РНС, считывающие последовательность в двух направлениях, причём выход на каждом временном шаге будет зависеть от скрытых состояний обеих составляющих (Джули, 2018: 167).

2.2.4 Топология РНС

При видоизменении базовой структуры РНС, представленной на предыдущем рисунке (рис.), получаются различные модели:

1) один-ко-многим

Как видно на рисунке, такая сеть получает на вход один элемент, а выход генерируется на каждом шаге, образуя последовательность. Примером может служить система, подписывающая изображения(Джули, 2018: 168).

2) многие-к-одному

Эта сеть на каждом временном шаге принимает на вход новые данные, однако выход генерируется только на последнем. Такие системы используются при анализе тональности.

3) многие-ко-многим (1)

Система обрабатывает входные последовательности одной длины, порождая выход на каждом шаге (timestep) -- это используется, например, при посимвольной генерации текста.

4) многие-ко-многим (2)

Такие сети также называются последовательность-в-последовательность (sequence-to-sequence): они порождают последовательности, предварительно обработав входные последовательности. Они используются в системах частеречной разметки и машинного перевода (в том числе, в данной работе) (Джули, 2018: 173).

2.3 Архитектуры последовательность-в-последовательность (sequence-to-sequence)

Как уже было сказано, сети типа последовательность-в-последовательность сначала обрабатывают входные последовательности, после чего порождают другие. Они обучаются непосредственно на входных и целевых последовательностях. Всё это возможно благодаря архитектуре, состоящей из двух элементов: кодировщика (encoder) и декодировщика (decoder) (https://blog.keras.io), (Гудфеллоу, 2018). \\блог-керас\\гудфеллоу\\джейсон

2.3.1 Модель Чо

Архитектура сети последовательность-в-последовательность впервые была предложена КьюнгьюнемЧо (KyunghyunCho)в 2014 г. (Choetal., 2014), (Neubig, 2017), (https://blog.keras.io). \\ссылка-на-статью\\туториал\\блог

Кодировщик -- это один или несколько слоёв РНС: он обрабатывает входные последовательности и возвращает вектор внутреннего состояния -- так называемый вектор контекста для декодировщика.

В качестве декодировщика выступает либо ещё один слой РНС, либо их стек. На этом шаге, исходя из предыдущих элементов целевой последовательности, прогнозируется следующий. Цель декодировщика сводится к тому, чтобы превратить целевую последовательность в ту же самую, но сдвинутую на один временной шаг (timestep) вперёд. При этом декодировщик использует в качестве начального состояния вектор состояний, полученный от кодировщика, т.е. получает информацию о том, что предполагается создать. Таким образом, на основе входящей последовательности декодировщик обучается порождать последовательности targets[t+1...] при условии targets[...t].\\из-блога

Так как в основе декодировщика лежит рекуррентный LSTM слой, на каждом шаге выходы декодировщика подаются ему на вход для предсказания последующего элемента, пока не будет сгенерирована вся последовательность. Таким образом, на каждом шаге декодировщик имеет информацию как о внутреннем состоянии кодировщика, так и о последнем предсказанном элементе последовательности.

2.3.2 МодельСуцкевера

Сходная архитектура была предложена в том же году Ильёй Суцкевером(Ilya Sutskever).Основным отличием этой модели является схема работы декодировщика (Brownlee, 2018).\\из-документации-библиотеки\\джейсон

В то время как архитектураЧо предполагает, что на каждом шаге декодировщик обращается к вектору контекста напрямую(рис. 1), модель Суцкевера подаёт вектор внутреннего состояния кодировщика на вход декодировщику только на первом временном шаге, дальше эта информация хранится в каждом выходе декодировщика (рис. 2).

Рис. 1

рис. 2

2.3.3 Механизм внимания (attentionmechanism)

\\гудфеллоу\\джейсон-чуть-чуть\\в-основном-туториал

При использовании механизма внимания часть входных данных определяется как наиболее значимая и подвергается более детальной обработке. Сначала на основе всей последовательности строится контекст, после чего выходы генерируются по одному, причём на каждом шаге модель фокусируется на новой части входной последовательности. Этот процесс происходит следующим образом(Гудфеллоу, 2018), (Brownlee, 2018):

1) Исходные данные преобразуются в распределённое представлениетак, что каждому слову соответствует один вектор признаков. Таким образом, вместо одного вектора контекста для последовательности создаются вектора для каждого её элемента. Обработка последовательности происходит в двух направлениях(Neubig, 2017):

,

,

где -- каждый элемент входящей последовательности, -- вектор каждого элемента последовательности, а -- вектор предыдущегоэлемента. Два вектора объединяются в бинаправленную репрезентацию элемента , а они, в свою очередь, образуют матрицу:

,

в который каждый столбец соответствует одному элементу входной последовательности.

2) Получившаяся матрица умножается на вектор внимания, содержащий значения от 0 до 1. Этот вектор определяет, на какой из элементов обрабатываемой последовательности алгоритму необходимо обратить внимание на данном временном шаге t(Neubig, 2017).

3) При порождении новой последовательности модель обращается к памяти ct, причём на каждом временном шаге она может обратиться только к одному элементу контекста (или к нескольким, но с разными весами).

Такая модель сопоставляет векторы соответствующих погружений слов, т.е. осуществляет нечто наподобие выравнивания. На рис. более светлый цвет означает, что на данном временном шаге данному элементу последовательности соответствует больший весовой коэффициент:

Включение в архитектуру механизма внимания способно значительно повысить качество предсказаний нейронной сети. \\аляйн

3. Лингвистические основы

3.1 Некоторые основы языкознания

Данная работа посвящена лингвистическому рассмотрению результатов перевода, поэтому необходимо привести основные термины и положения, которые будут использоваться в дальнейшем.

Языковая система делится на подсистемы -- уровни языка. Такие подсистемы образуются «совокупностью относительно однородных единиц и набором правил, регулирующих их использование и группировку в различные классы и подклассы»(http://tapemark.narod.ru/les/). \\лэс

В качестве основных уровней языка выделяются следующие (Немченко, 2008): \\немченко-83

1) Фонетический (фонемный, фонологический) -- уровень фонем, «основных незначимых единиц языка, связанных со смыслоразличением лишь косвенно» (http://tapemark.narod.ru/les/). \\лэс

2) Морфемный (морфологический, морфемно-морфологический) -- уровень морфем, т.е. «минимальных знаков, в которых за определённой фонетической формой (означающим) закреплено определённое содержание (означаемое) и которые не членятся на более простые единицы того же рода» (http://tapemark.narod.ru/les/).\\лэс

3) Лексический (словесный) -- уровень лексем, т.е. «слов, рассматриваемых как единицы словарного состава языка в совокупности конкретных грамматических форм и выражающих их флексий, а также возможных конкретных смысловых вариантов» (http://tapemark.narod.ru/les/).\\лэс

4) Синтаксический -- уровень синтаксических единиц: словосочетаний и предложений. \\расписать

Единицы одного уровня образуют классы и сочетаются в речевой цепи (т.е. вступают в парадигматические и синтагматические отношения) только с единицами своего уровня, с единицами других уровней их связывают отношения иерархии (http://tapemark.narod.ru/les/).\\лэс

Единицы языка могут находиться в отношениях двух типов: парадигматических и синтагматических. Эти отношения наблюдаются на всех уровнях языка (http://tapemark.narod.ru/les/).\\лэс

Синтагматические отношения наблюдаются между простыми единицами в потоке речи или тексте, образующимисинтагмы. \\примеры? «Член синтагмы получает значимость лишь в меру своего противопоставления либо тому, что ему предшествует, либо тому, что за ним следует, или же тому и другому вместе».\\соссюр-123 Такие отношения основаны на линейном характере речи и ограничены сочетаемостью языковых единиц. \\немченко-69

Парадигматические отношения (также называемые ассоциативными) -- это отношения между однородными языковыми единицами. Такие единицы, выделенные в языке и объединённые по формальной или семантической близости и взаимно противопоставленные друг другу, в совокупности образуют парадигму. \\немченко-68\\примеры?

\\семантика? \\интегральная-сема

3.2 Семантика

Изучению информации, передаваемой языком или какой-либо его, посвящён такой раздел языкознания, как семантика. Центральным её понятием является сема -- «элементарное отражение в языке различных сторон и свойств обозначаемых предметов и явлений действительности».\\лэс Сема является компонентомсемемы -- «элементарного значения слова», в структуре которой выделяются родовые, интегральные семы, т.е. «родовые семы, свойственные всем единицам определённого класса и отражающие их общие категориальные свойства и признаки», и дифференциальные, видовые семы, которые описывают различия единиц этого класса.\\лэс

«Слова одной части речи, в которых помимо общих грамматических сем имеется как минимум еще одна интегральная сема»составляют лексико-семантическую группу (ЛСГ). [Кузнецова, 1989 : 73]Выделяются также лексико-тематические группы (ЛТГ) -- «классы слов, которые объединяются одной и той же типов ситуацией, но общая инденцифирующая (ядерная) сема для них не обязательна». [Васильев, 1971, с.110] ЛТГ, состоящая из единиц разных частей речи, состоит из нескольких ЛСГ, связных общей частеречной принадлежностью[Филин, 1982, : 238]\\глянь_его\\ахманова?

3.3 Синтаксис

Предложение -- это одна из основных единиц синтаксиса, «высказывание (фраза), являющееся сообщением о чём-либо и рассчитанное на слуховое (в произнесении) или зрительное (на письме) восприятие».\\лэсКаждый элемент предложения обладает синтаксической функцией, т.е. «ролью, выполняемой языковой единицей (грамматической категорией, грамматической формой) при воспроизведении в речи».\\розентальВ предложении выделяются «структурно-семантические компоненты, выраженные полнозначными словами или словосочетаниями» -- члены предложения: \\лэс

1) подлежащее, «указывающее на объект, к которому относится сообщаемое»;

2) сказуемое, в котором «выражается сообщаемое»;

3) определение -- «зависимая синтаксическая позиция в составе субстантивного словосочетания или словоформа с признаковым значением, занимающая данную позицию, … реализующая атрибутивные отношения между наименованием субстанции и названием признака»;

4) Дополнение, «выраженное именем существительным и обозначающее предмет (объект), отражающий на себе действие глагольного признака или служащий его орудием»;

5) Обстоятельство -- «зависимая синтаксическая позиция в составе словосочетания или предложения; словоформа с признаковым значением, занимающая данную позицию, … характеризующая действие или состояние со стороны условий осуществления, а также определяющая активный или пассивный признак в качественном либо в количественном отношении».

Подлежащее и сказуемое, связанные между собой предикативными отношениями, образуют основу предложения.По количеству основ предложения делятся на простые и сложные.

Способность слова вступать в синтаксические связи с другими элементами называется синтаксической валентностью. Она может быть активной («способность слова присоединять зависимый элемент») или пассивной («способность слова присоединяться к господствующему компоненту сочетания»), обязательной или факультативной. По количеству возможных связей глаголы разделяются на одновалентные, двухвалентные и трёхвалентные и могут обладать субъектной, объектной, обстоятельственной или предикативной валентностью. \\лэс

Выделяются предложения двусоставные и односоставные. В то время как основу двусоставного предложения образуют подлежащее и сказуемое, односоставные предложения «не содержат раздельного грамматического выражения для субъекта и предиката», т.е. основа представлена одним главным членом, по форме совпадающим либо со сказуемым, либо с подлежащим.Двусоставные предложения, «характеризующиеся неполнотой грамматической структуры или неполнотой состава», называются неполными. От односоставных предложений они отличаются тем, что отсутствующий член предложения, главный или второстепенный, может быть восстановлен из контекста.

3.4 Модели в лингвистике

В лингвистике под моделью понимается «искусственно созданное лингвистом реальное или мысленное устройство, воспроизводящее, имитирующее своим поведением (обычно в упрощённом виде) поведение какого-либо другого («настоящего») устройства (оригинала) в лингвистических целях».\\лэс

Идеальная лингвистическая модель обладает следующими свойствами:

1) абстрактность;

2) идеализированность;

3) формальность -- в модели должны явно и однозначно задаваться исходные объекты, связывающие их отношения и правила обращения с ними;

4) экспланаторность -- способность объяснить факты и данные экспериментов, которые невозможно объяснить с точки зрения уже существующей теории;

5) эвристичность -- способность модели предсказывать неизвестное раньше, но возможное поведение оригинала.

Ю. Д. Апресян различает 3 типа моделей, отличающихся друг от друга по характеру рассматриваемого объекта: \\апресян

1) модели речевой деятельности человека, «имитирующие конкретные языковые процессы и явления;

2) модели лингвистического исследования, «имитирующие процедуры, которые ведут лингвиста к обнаружению того или иного языкового явления».

3) метамодели,«имитирующие теоретическую и экспериментальную оценку готовых моделей речевой деятельности или лингвистического исследования».

Модели речевой деятельности, в свою очередь, подразделяются на группы в зависимости от того, какая сторона владения языком моделируется:

1)модели грамматической правильности, которые имитируют умение отличать правильное от неправильного в языке. Это несемантические модели, то есть оценивается только грамматическая правильность предложения, но не его семантическая наполненность.

2)функциональные модели, которые имитируют умение соотносить содержание речи (план содержания) с её формой (планом выражения), понимать и строить осмысленные предложения (семантические модели).Такие модели бывают аналитические и синтетические. Аналитическая модель некоторого языка моделирует слушание, трансформируя некий отрезок текста в его смысловую запись (семантическое представление) на специальном семантическом метаязыке. Синтетическая модель является обратной по отношению к аналитической и разворачивает семантическую запись (то есть изображение некоторого фрагмента смысла)во множество синонимичных текстов на данном языке, выражающих этот смысл.

4. Оценка и анализ результатов систем нейронного машинного перевода

4.1 Методология

Практической целью данной работы является сравнение систем типа последовательность-в-последовательность, использующих различные архитектуры и способы репрезентации данных, для задачи машинного перевода, анализ результатов перевода с лингвистической точки зрения и выявление характерных ошибок.

Работа состоит из двух этапов. На первом этапе были построены 3 системы перевода с русского на английский, основанные на различных архитектурах рекуррентной нейронной сети типа последовательность-в-последовательность. На основе анализа переводов была выведена типология ошибок.

На втором шаге были построены 2 системы перевода с английского на русский с использованием различных способоввекторизации слов: в одном из них за контекст целевого слова принимаются окружающие его слова, во втором -- вершина и зависимые с указанием типа синтаксической связи.. Направление перевода пришлось поменять, так как в открытом доступеразмещены предобученные эмбеддинги только для английского языка.

4.1.1 Данные и их предварительная обработка

В ходе работы использовался англо-русский параллельный корпус, составленный на основе материалов сайта TatoebaProject\\ссылка-- коллекции параллельных предложений для различных языков, пополняемой пользователями. Несмотря на то, что исходные данные были достаточно большими для качественного обучения системы нейронного машинного перевода, из-за технических ограничений для работы пришлось сократить данные.

Количество предложений

Объём рус. Словаря

Макс. длина рус. предл.

Объём англ. Словаря

Макс. длина англ. предл.

Полный корпус

291 172

50530

33

15807

41

Использовано

30 000 (11%) *

10262 (20,3%)*

8

3837 (24,3 %)*

5

Обучение

24 000 (80%)**

8964 (87,4 %)**

7

3514 (91,6 %)**

5

Оценка

6 000 (20 %)**

4903 (47,77 %)**

8

2355 (61,4 %)**

5

* -- процент от полного корпуса

** -- процент от использованной выборки

Необходимо отметить, что в качестве словарной единицы используются словоформы, т.к. в силу того, что в процессе перевода не применяются морфологический и синтаксический анализы, лемматизация привела бы к снижению качества перевода. Кроме того, одно английское предложение может иметь несколько вариантов перевода на русский, как видно на рис.:

Для корпуса была применена следующая предварительная обработка:

1. Приведение к нижнему регистру.

2. Разбиение пары предложение-перевод на два параллельных предложения.

3. Токенизация.

4. Удаление пунктуации. При этом сокращенияприводились к полному виду (для этих целей был составлен словарь), а апострофы и дефисысохранялась.

После этого корпус был перемешан и разделён на тренировочную и тестовую выборки в соотношении 4:1.

4.1.2 Инструменты и ресурсы, использованные в работе

Для работы был использован скриптовый язык Python, особенностями которого являются простота синтаксиса и большое количество библиотек, в том числе для обработки текстовых данных и глубокого обучения. Был выбран Python 3.4, так как ветка 3.x обеспечивает более удобную работу с кодировками.

В качестве среды разработки использовался PyCharmEdu 4.0.1. -- облегчённая учебная версия популярной интегрированной среды разработки PyCharm.

Вычисления выполнены в облачном сервисе GoogleColaboratoryс использованием GPU (доступно 12.73 RAM).

Основные модули Python, использованные в работе:

· Numpy - модуль для работы с многомерными массивами.

· NLTK (NaturalLanguageToolkit) - один из ведущих инструментов для работы с естественным языком, предоставляющий удобные интерфейсы для работы с большим числом корпусов и лексических ресурсов, а также набор библиотек для обработки текстов: токенизации, частеречной разметки, синтаксического разбора и т.д. В данной работе NLTK используется для подсчёта метрики BLEU.

· TensorFlow - библиотека с открытым исходным кодом для вычислений, основанная на графах потоков данных, узлы которых представляют собой математические операции, а рёбра - многомерные массивы данных (тензоры). Этот фреймворк был выбран для работы из-за его стабильности, производительности, поддержки Python, а также возможности работы с текстом и поддержки необходимых архитектур нейронных сетей.

· Keras2.1.2 -- высокоуровневый интерфейс для TensorFlow, написанный на Python. Он позволяет быстро создавать различные архитектуры нейронных сетей из автономных модулей: нейронные слои, функции затрат, оптимизаторы, схемы инициализации, функции активации, схемы регуляризации можно комбинировать для создания новых моделей. Кроме того, новые модули легко добавлять (как новые классы и функции), а существующие модули имеют достаточно примеров.

· Seq2Seq\\ссылка-- библиотека для удобной работы с нейронными сетями типа последовательность-в-последовательность. Представляет собой абстракцию кодировщика и декодировщика, принцип работы которых был рассмотрен вчасти 2.3.

4.1.3 Алгоритм работы машинного переводчика

Рассмотрим алгоритм работы системы нейронного машинного перевода.

Предобработанные данные хранятся в массиве размерности (m, n), где m -- число пар предложение-перевод в корпусе, а n = 2 (по количеству языков). При помощи срезов можно обращаться как к первому столбцу массива, хранящему исходные предложения (русские), так и ко второму, хранящему целевые предложения (английские).

Необходимо описать формат, в котором предобработанные данные подаются на вход модели. Для кодирования предложений был построен индекс для каждого слова в предложении, представляющий собой словарь, в котором ключами являются слова, а значениями -- их позиции в корпусе. Таким образом, исходные и целевые последовательности трансформируются в последовательности целых чисел. Для достижения одинаковой длины последовательности дополняются нулями до максимальной длины предложения в данном корпусе. После этого к конечным последовательностям применяется унитарное кодирование каждого слова.

Затем определяется модель -- архитектура нейронной сети, состоящая из 3 слоёв:


Подобные документы

  • Перевод и другие виды языкового посредничества, их виды, формы и жанры. Место машинного перевода в общей классификации, его краткая характеристика. Содержание проблемы переводимости при машинном переводе, направления и перспективы ее разрешения.

    курсовая работа [42,2 K], добавлен 17.11.2014

  • Нормативные требования и их роль в оценке качества перевода. Жанрово-стилистическая норма перевода. Классификация смысловых ошибок. Условные критерии оценки качества перевода. Место оценки качества перевода в переводоведении. Норма переводческой речи.

    курсовая работа [32,1 K], добавлен 13.04.2015

  • Основные понятия и функциональные стили лингвостилистики. Принципы работы и типы систем машинного перевода. Сопоставительный анализ отрывков научно-технического текста и их переводов на русский язык с помощью различных СМП - трансфертной и статистической.

    дипломная работа [4,0 M], добавлен 23.06.2011

  • Понятие языка и нормы перевода. Обеспечение высокого качества перевода переводчиком. Семантические проблемы перевода. Межъязыковые расхождения в грамматикализации "классических" грамматических категорий. Синтаксические проблемы перевода стихотворений.

    реферат [33,3 K], добавлен 23.12.2011

  • Изучение морфологических и синтаксических особенностей научно-технического стиля, в аспекте применения автоматизированных средств перевода. Анализ принципа работы и типов систем машинного перевода. Сравнение текстов, переведенных машиной и переводчиком.

    дипломная работа [4,0 M], добавлен 20.06.2011

  • Особенности перевода юмора. Перевод безэквивалентной лексики. Средства выражения юмора в стихах для детей и некоторые аспекты их перевода. Основные трудности и приемы перевода культурных реалий в англоязычных анекдотах. Анализ английских лимериков.

    дипломная работа [80,7 K], добавлен 08.04.2014

  • Транслатологические аспекты специального перевода. Анализ текста оригинала. Подходы к переводу терминов. Транслатологическая специфика перевода терминов. Стилевая принадлежность и потенциальные рецепторы. Перевод текстов художественной литературы.

    курсовая работа [86,3 K], добавлен 30.04.2011

  • Основные исторические этапы возникновения переводческой деятельности. Первые теоретики перевода: Цицерон, Этьен Доле, Тайлер, Сэвори. Использование перевода в царской России в качестве орудия диссидентства. Особенности перевода технических текстов.

    презентация [45,4 K], добавлен 29.07.2013

  • Предмет, методы и направления исследования, основное содержание и значение теории перевода. Виды перевода, сферы его применения, оценка качества и языковой сложности. Переводческая сегментация текста, его связность. Типы лексических трансформаций.

    контрольная работа [33,6 K], добавлен 20.12.2011

  • Особенности художественного перевода и критерии его оценки. Понятие вторичной номинации, ее классификации и способы перевода. Специфика перевода драматургических текстов. Сопоставительный анализ перевода единиц вторичной номинаций в пьесах Чехова.

    курсовая работа [74,7 K], добавлен 22.08.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.