Нейронный машинный перевод

Классификация систем машинного перевода, автоматическая оценка качества перевода без использования референтных текстов. Методы оценки качества машинного перевода, гибридный машинный перевод. Искусственные нейронные сети, лингвистический анализ переводов.

Рубрика Иностранные языки и языкознание
Вид дипломная работа
Язык русский
Дата добавления 07.12.2019
Размер файла 3,3 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

1. Embedding (векторное представление слов). Для того, чтобы обучать нейронную сеть с использованием предобученных эмбеддингов, необходимо передать этому слою в качестве весов двухмерную матрицу, составленную из предобученных векторов, упорядоченных согласно построенному ранее индексу. При этом, слова тренировочной выборки, отсутствующие в предобученной модели, получали такой же вектор, как и зарезервированное для «незнакомых» слов из тестовой выборки слово unk. \\процент_незнакомых

2. Seq2Seq (последовательность-в-последовательность)

На этом этапе выбирается одна из 3 архитектур:

· модель Суцкевера в Seq2Seq задаётся слоем Seq2Seq;

· модель Чо задаётся добавлением параметра peeky=True к стандартному слою Seq2Seq;

· модель с применением механизма внимания задаётся при помощи слоя AttentionSeq2Seq.

3. TimeDistributed (Dense) -- таким образом задаётся полносвязный слой, через который на каждом временном шаге пропускается выход предыдущего слоя. В качестве функции активации используется softmax.

Функция потерь - перекрёстная энтропия, метод оптимизации -- оценка адаптивных моментов (adaptivemomentsestimation, Adam).

После обучения модели генерируются предсказанные ей английские предложения. На этом шаге для каждого батча предсказывается последовательность целых чисел, которые конвертируются в слова на основе индекса, построенного на одном из предыдущих шагов. Генерация происходит как для тренировочного корпуса, так и для тестового.

Заключительный этап алгоритма -- оценка перевода тренировочного и тестового корпусов при помощи метрики BLEU на основе униграмм, биграмм, триграмм и четырёхграмм. Как уже было сказано в части 1.2.3., алгоритм BLEU сравнивает предсказанные предложения с эталонными, взятыми из соответствующих параллельных корпусов.

4.2 Формальная оценка качества перевода

4.2.1 Сравнение архитектур нейронной сети

Целью первого этапа данной работы является сравнение трёх архитектур нейронного машинного перевода на основе моделей последовательность-в-последовательность. Эксперименты были проведены для стандартной модели Суцкевера, модели Чои модели с применением механизма внимания (attentionmechanism) со следующими параметрами:

Размер батча: 64

Число эпох всего: 15

Число нейронов во внутреннем слое: 256

Число внутренних слоёв: 1

Размерность вектора представления слов: 256

Несмотря на то, что обучение проводилось на 15 эпохах, для моделей Суцкевера и Чоминимизация функции потерь при валидации достигалась на 6 эпохе, после чего появлялись признаки переобучения.

Взглянем на полученные переводы:

Исходное предложение

Эталонный перевод

Модель Суцкевера

Модель Чо

С механизмом внимания

не вернусь

won'treturn

won'tcomechange

won'tgoback

won'tgoback

это так грустно

thisissosad

it'ssosad

it'ssosad

it'ssosad

пытаюсь

i'mtrying

i'm u

i'mclient

i'mup

насколько она высока

howtallisshe

howridisit

howisisdone

howisisit

люблю рыбалку

liketofish

likefishing

likefishing

likefishing

том был последним

tomwasthelast

tomfeltlast

tomwaslast

tomwashappy

стой здесь

stoprighthere

stayhere

stayhere

stayhere

можно тому расскажу

cantelltom

cantelltom

cantellyou

cantelltomtom

чего не хватает

what'smissing

howismissing

whatismissing

whatmissingmissing

том возражал

didtomobject

tomtom

tomtom

tomtomreply

ты можешь помочь

youcanhelp

canyouhelp

youcanhelp

canyouhelpus

попросите тома помочь

asktomtohelp

asktomtogo

asktomtohelp

asktomtohelp

была смущена

wasconfused

wasconfused

wasconfused

wasconfused

всё чихаю

keepsneezing

i'msneezing

amstill

i'mdead

Для сравнения в таблице приведены результаты оценки при обучении на 6 эпохах всех трёх моделей:

Standard

Peeky

Attention

BLEU-1

0.622803

0.613885

0.571373

BLEU-2

0.789179

0.783508

0.755892

BLEU-3

0.867571

0.863826

0.845427

BLEU-4

0.888357

0.88516

0.869421

Из представленных чисел видно, что результаты применения обычной архитектуры Суцкевера и архитектуры Чоочень близки: несмотря на то, что в первом случае результат немного выше, разница незначительна и может объясняться неустранимой ошибкой при обучении. С другой стороны, такая «близость» архитектур может наблюдаться из-за недостаточного объёма данных при обучении.

Низкий результат модели с вниманием при 6 эпохах объясняется сложностью самой архитектуры: так как при работе такого алгоритма осуществляется операция, аналогичная выравниванию, для обучения модели требуется намного больше времени. В следующей таблице приведены результаты оценки перевода при 10 эпохах:

6

10

BLEU-1

0.571373

0.612805

BLEU-2

0.755892

0.782819

BLEU-3

0.845427

0.863369

BLEU-4

0.869421

0.88477

Однако с 11 эпохи до 30 снова проявились симптомы переобучения.

4.2.2 Сравнение методов распределённого представления слов

Для сравнения была выбрана архитектура последовательность-в-последовательность, предложенная И. Суцкевером, и 2 способа распределённого погружения слов: в одном из них за контекст целевого слова принимаются окружающие его слова, во втором -- вершина и зависимые с указанием типа синтаксической связи. Размерность векторов составила 300 чисел.

Перевод осуществлялся в направлении с английского на русский, так как разработчики синтаксических эмбеддингов предоставили предобученные вектора только для английского, а обучение модели самостоятельно представляется невозможным из-за технических ограничений. Модель эмбеддингов на основе мешка слов с окном 2 была также взята с сайта разработчиков.

Обе системы показали крайне низкое качество перевода. Это можно объяснить тем, что использование векторов большой размерности требует обучения нейронной сети на большом количестве данных, с большим количеством нейронов на внутреннем слое и / или числом скрытых слоёв и в течение большего числа эпох, что было затруднено по техническим причинам.

Bag of words

Dependencies

BLEU-1

0.11

0.15

BLEU-2

0.0002

0.0002

BLEU-3

5.29e-05

7.43e-05

BLEU-4

5.99e-06

8.84e-06

4.3 Лингвистический анализ переводов

4.3.1 Ошибки перевода и сравнение архитектур нейронного МТ

В классических методах статистического машинного перевода синтагматические связи между словами моделируются при помощи модели языка, а парадигматические -- при помощи модели перевода.В случае нейронного машинного перевода в ходе распределённого представления слов на основе синтагматических связей моделируются парадигматические отношения между словами. Этот подход не опирается на синтаксические, морфологические и семантические характеристики слов, однако частично онитак или иначе отражаются в построенном векторном пространстве за счёт появления близких по этим параметрам слов в одних контекстах. Специальные типы эмбеддингов (например, основанные на синтаксических зависимостях, которые используются в данной работе), позволяют отразить больше информации о слове и его отношениях другими словами.

При обработке и генерации последовательностей(т.е. как в кодировщике, так и в декодировщике) рекуррентная нейронная сеть рассматривает предложение как цепочку следующих друг за другом словоформ, причём появление конкретной словоформы в данной позиции предложения зависит как от слов, непосредственно предшествующих данному, так и от слов, которые встретились раньше.Таким образом, не имея заложенных синтаксических правил и морфологических парадигм, нейронная сеть отчасти может воспроизвести их за счёт синтагматических связей -- порядка слов и дистрибуции.

Смысловое соответствие между предложениями на двух языках достигается за счёт общности вектора контекста.Таким образом, кодировщик и декодировщик представляют собой аналитическую и синтетическую функциональные модели соответственно.\\теория_модели

Необходимо отметить, что процесс принятия решений нейронной сетью непрозрачен, поэтому представляется возможным дать только предположительные объяснения ошибок, допущенных системами при переводе. Их можно разделить на следующие классы:

1. Пропущенные слова.

Эти ошибки, свою очередь, делятся на два типа:

1) Пропуск части основы.Такие ошибки чаще всего связаны с пропуском сказуемого или его части, реже -- с пропуском подлежащего.Так как ни в распределённое представление слов, ни в рекуррентную нейронную сеть не заложена в явном виде информация о русском и английском синтаксисе, при обучении нейронной сети может значительную роль играть наличие в тренировочном корпусе односоставных или неполных предложений. Кроме того, при переводе сказуемого нейронная сеть может не моделировать следование за вспомогательным глаголом смыслового.

2) Пропуск второстепенного члена предложения.Характерен пропуск дополнения или обстоятельства, но эти ошибки могут быть связаны с пропуском, например, артикля.Причиной таких ошибок может быть то, чтопри нейронном машинном переводе парадигматические связи между словами устанавливаются на основе синтагматических, сводящихся к порядку слов и дистрибуции, при переводе не учитывается валентность глаголов и синтаксическая функция того или иного слова в предложении.

tom got confused > tom is

we can go now > we can go

tom was the last > tom was last

2. Лишниеслова.

Внутри этого класса также можно выделить группы:

1) Добавление лишнего слова. Характерна вставка лишнего подлежащего в случаях, когда с ним сливается вспомогательный глагол в сокращённой форме.Эта ошибка, возможно, объясняется тем, что нейронная сеть соотнесла такую форму с глаголом и предсказывает после него подлежащее, как, например, в вопросительных английских предложениях.

2) Повтор предыдущего слова.Часто повторяются имена собственные (их набор в корпусе достаточно ограничен) и местоимения, как в качестве подлежащего, так и в качестве второстепенных членов предложения, что может быть объяснено частотностью именно этих слов в тренировочном корпусе. \\аааа_объяснить

it's time to go > it's it time go

did tom object > tom tom

thinki'm ok > i'mi'm ok

told tom > told tom tom

tom was punished > was punished punished

3. Замена слов.

Слова могут заменяться по нескольким взаимосвязанным основаниям:

1) На основе морфологического соответствия. Подавляющее большинство замен было произведено с сохранением части речи заменённого слова. Можно предположить, что рекуррентная нейронная сеть на основе предыдущих слов предполагает на текущей позиции слово конкретной грамматической формы и из соответствующихна основе информации, полученной из эмбеддингов, предсказывает более частотное в данном контексте.

2) На основе близости семантики.Пары слов могут входить в одну парадигму, а также являться синонимами/антонимами. Необходимо отметить, что семантическая замена может производиться не только для отдельных слов, но и для выражений. Так как использованный метод эмбеддингов не предполагал сопоставления слов и синтагм, \\синтагма_ли? по-видимому, соответствие было смоделировано рекуррентной сетью на основе дистрибуции выражений в тренировочном корпусе.

3) На основе частоты синтагматической встречаемости.Менее частотные последовательности слов заменялись на более частотные в обучающем корпусе. Этот тип замены может быть обоснован принципом обучения нейронной сети, которая склонна присваивать более высокие вероятности словам, которые чаще встречаются в обучающем корпусе.

Однако часть замен была произведена без видимого основания, в результате чего необходимо выделить также последний тип замен:

4) Замена без видимого основания, объяснение которой осложняется непрозрачностью процесса принятия решений нейронной сетью.Они могут быть связаны с предыдущим типом замен, однако могут объясняться и неизбежными погрешностями при обучении.

we'll talk here > we'll live here

let's play darts > let's play cards

let me repair it > let fix find it

why did you stop > why were you run

be on time > be punctual

go do something > go to something

that'slogical> that'ssunflower

4. Изменённая форма слова.

В силу того, что перевод производился для английского языка, характеризующегося неразвитой системой словоизменения, а обучение и тестирование систем проводилось на небольшом объёме данных, ошибок, связанных с изменением формы слова, было меньше, чем других. Многие ошибки связаны с изменением сокращённой формы глагола на полную (инаоборот). Нейронная сеть смоделировала на основе дистрибуции смысловое соответствие между формами слов, однако не смогла выбрать верную форму при переводе исходного предложения на русском языке, так как выбор конкретной формы в английском языке часто зависит от контекста.

like to fish > like fishing

everybody laughs > everyone laughing

how's tom > how is tom

i am ready > i'm ready

5. Неправильный порядок слов.

Такие ошибки могут сочетаться с повтором или пропуском слова. Для многих примеров характерно изменение порядка слов на вопросительный. Возможным объяснением таких ошибок может быть то, что при формировании вектора контекста на основе русских предложений разница между многими повествовательными и вопросительными предложениями могла стереться, так как пунктуация из предложений была удалена, а вопросительное наклонение в русском языке во многих случаях может выражаться одной интонацией. Тренировочный корпус содержалзначительное количество односоставныхопределённо-личныхпредложений (в т.ч. в повелительном наклонении), которые в примерах перевода на английский давались без подлежащего.В сочетании с вопросительными предложениями, начинающимися в английском языке со сказуемого, это привело к тому, что рекуррентная нейронная сеть стала чаще ставить в начальную позицию предложения глагольные формы.

you can help > can you help

you have fixed it > have you fix it

Данные типы ошибокбыли выведены на материале английского языка, однако они носят довольно общий характер, поэтому классификацию можно применить и на русских переводах. Как правило, в одном переводе могут сочетаться различные типы ошибок.

При сравнении систем нейронного машинного перевода практически не было выявлено различий в работе алгоритмов, основанных на моделях Суцкевера и Чо. Это повторяет результаты сравнения этих архитектур метрики BLEU, и так же может быть связано с объёмом и характером данных. В то же время, для системы МП, основанной на модели с применением механизма выравнивания, более характерны ошибки, связанные с семантическими связями между словами, нежели с пропуском или добавлением слова. Такой результат может объясняться принципом работы самого механизма внимания, который был описан выше. \\статистика

4.3.2 Сравнение результатов перевода, полученных на основе различных эмбеддингов

В пространстве векторов, построенных по классическому подходу к распределённому погружению слов, при котором контекстом целевого слова является его окружение в заданном окне (порядок слов не учитывается), близость между словами (парадигматические отношения) моделируется на основании синтагматических связей между ними. Так как в сходном контексте, не учитывающем порядок слов, могут встречаться слова различных частей речи, в этом случае группы векторов можно рассматривать как слова, объединённые одной лексико-тематической группой. При подходе, основанном на синтаксических зависимостях между словами, учитываются как синтагматические парадигматические связи: в таком пространстве группируются слова, обладающие функциональной близостью и занимающие одну позицию в синтаксической структуре предложения, что ближе к лексико-семантическим группам.

Перед началом работы была выдвинута гипотеза о том, что использование синтаксических эмбеддингов приведёт к уменьшению ошибок перевода, связанных с пропуском или добавлением слова, так как алгоритм учитывает синтаксическую структуру предложения. Однако из-за низкого качества полученных переводов сложно однозначно классифицировать ошибки в большинстве предложений, поэтому подтвердить или опровергнуть гипотезу не удалось.

Необходимо отметить, что значительная часть результатов обеих систем трудно поддаётся интерпретации. Тем не менее, в части переводов можно видеть, как нейронная сеть при помощи синтаксических эмбеддинговсохраняет элементы структуры и отдельные грамматические формы.

Source

Target

Dependency-based

canyoudothis

вы сможете это сделать

вы это этоэто помочь помочьпомочьпомочь раз

i ambusytom

я занят том

я не очень том голова головаголова тома тома

throwitthere

брось её туда

оставь это туда раз разразразразраз

stopdreaming

хватит мечтать

перестань врать в вв раз разразраз

givethattohim

дайте это ему

дайте мне это мной мноймноймноймноймной

tomwillcheck

том проверит

том поведёт есть пешком раз разраз порядке порядке

i willbeback

я вернусь

я буду домой раз разразраз порядке порядке

i wasconvicted

я был осуждён

я был зол цыплята порядке порядкепорядкепорядкепорядке

fixthis

исправь это

попроси это в в раз разразразраз

droptheknife

бросьте нож

дайте глаза комнату комнатукомнатукомнату раз разраз

i shouldgopack

мне надо идти собираться

я хочу есть раз разразразразраз

getmesometoo

дай мне тоже немного

дайте мне мной мноймноймноймной раз раз

thisismychild

это мой ребёнок

это мой кошка кошка собака голова порядке порядкепорядке

itwasbizarre

это было причудливо

это был был неудобно порядке порядкепорядкепорядкепорядке

youshouldgo

вам надо бы пойти

вы можете остановиться пойти раз разразразраз

areweallready

мы все готовы

мы все правы порядке порядкепорядкепорядкепорядкепорядке

doas i say

делай как я говорю

давайте я не так тактактактактак

comebackinside

идите обратно внутрь

позвоните свою комнату не нене раз разраз

lockthedoor

заприте дверь

перестань дверь комнату комнату в комнату комнату раз раз

wemustdomore

мы обязаны сделать больше

мы можем поговорить поговоритьпоговорить помочь раз разраз

youmustcome

вы должны прийти

вы можешь есть есть раз разразразраз

youaresosmart

вы такая умная

вы так высокий высокий болен болен сомнения сомнениясомнения

do notgiveup

не сдавайтесь

не ходи меня здесь здесьздесьздесьздесьздесь

whereisthedog

где собака

где мой собака собакасобакасобакасобакасобакасобака

letusaskthem

давай их попросим

давайте спросим здесь здесь раз разразразраз

thereishisbag

это его сумка

это мой в в машине раз разразраз

При этом, частично сохраняются и тематические связи, основанные на дистрибутивной и синтагматической близости слов.

Source

Target

Dependency-based

i willbeback

я вернусь

я буду домой раз разразраз порядке порядке

canyoudothis

вы сможете это сделать

вы это этоэто помочь помочьпомочьпомочь раз

stopdreaming

хватит мечтать

перестань врать в вв раз разразраз

staywithus

побудь с нами

просто нас здесь здесьздесьздесьздесьздесьздесь

fixthis

исправь это

попроси это в в раз разразразраз

youshouldgo

вам надо бы пойти

вы можете остановиться пойти раз разразразраз

runandhide

беги и прячься

будь в комнату раз разразразразраз

comebackinside

идите обратно внутрь

позвоните свою комнату не нене раз разраз

lockthedoor

заприте дверь

перестань дверь комнату комнату в комнату комнату раз раз

youmustcome

вы должны прийти

вы можешь есть есть раз разразразраз

takethataway

убери это

оставь мне раз разразразразразраз

webelieveyou

мы тебе верим

мы знаем знаем понимает понимаетпонимаетпонимаетпонимаетпонимает

letusaskthem

давай их попросим

давайте спросим здесь здесь раз разразразраз

isthatsobad

это так плохо

это так тактак чувствуете так тактактак

bemerciful

будьте милосердны

добро дозу болит дома не дома раз разраз

В результатах перевода, основанного на классических \\контекстныхэмбеддингах, также можно заметить сохранение тематических и синтагматических связей. Если нейронной сети, использующей синтаксические эмбеддинги, удалось сохранить элементы синтаксической структуры предложения, то в данном случае выделить такие элементы практически не выделяются.

Source

Target

BOW-based

i ambusytom

я занят том

паузу хотелось некрасивые курсе курсекурсекурсе знают волнительно

wewant a car

мы хотим машину

чему учу дорогу дорогудорогу перезвонил глупо глупоглупо

justsignhere

просто подпишись здесь

убийство помогло сообщение инъекция напряжён проголосовали проголосовалипроголосовалипроголосовали

i amhappytoo

я тоже счастлива

ощущаю рассказали рассказалирассказали забудем рассказали забудем рассказали забудем

theyneedmoney

им нужны деньги

помогло сразу подпишу арестована пенсии угощайся угощайся покормите угощайся

may i quoteyou

можно мне на тебя сослаться

одолжи отнести сообщение сообщение очарована очарованаочарованаочарованаочарована

tomissad

том грустный

пессимистично упитыйупитый умный курсе курсе дорогу дорогудорогу

webelieveyou

мы тебе верим

помогло помоглопомогло фанатик помогло фанатик помогло фанатик фанатик

letusaskthem

давай их попросим

нечто горда горда послушная ответе ответеответеответеответе

isthatsobad

это так плохо

пессимистично упитый хороши курсе курсекурсекурсекурсекурсе

i am a nurse

я медсестра

друзьями ранены бостону бостонубостону застенчивым бостону бостонубостону

Заключение

Целью данной работы было применение различных архитектур нейронных сетей и способов репрезентации данных для задачи машинного перевода и последующее сравнение их результатов в т.ч. с лингвистической точки зрения.

На первом этапе работы были созданы три системы машинного перевода с русского на английский, основанных на трёх архитектурах: модели Суцкевера, модели Чои модели с механизмами внимания.

Оценка качества работы алгоритмов проводилась при помощи распространённой метрики оценки машинного перевода BLEU. Согласно полученным данным, не обнаруживается значительной разницы между двумя первыми моделями, а вот третья при прочих равных предлагает худший перевод. Однако необходимо учесть, что обучение и тестирование проводилось на достаточно малом объёме данных, поэтому на другой выборке результаты могут отличаться. Кроме того, низкие показатели системы МП, основанной на архитектуре с механизмами внимания, объясняются сложностью самой модели, которая требует большего времени и объёма данных для обучения. На работу всех трёх моделей также мог оказать влияние недостаточный объём данных.

По результатам лингвистического анализа полученного перевода с английского на русский были сделаны следующие выводы:

1. Ошибки перевода обнаруживаются на лексическом и синтаксическом уровнях языка.

2. Ошибки перевода могут быть связаны как с парадигматическими, так и с синтагматическими связями между словами.

3. Можно выделить следующие общие классы ошибок: пропуск слова; добавление лишнего слова; замена слова или выражения; изменение морфологической формы слова; изменение порядка слов.

4. По характеру ошибок модели Суцкевера и Чоснова сближаются между собой, в то время как для модели с применением механизма внимания более характерны ошибки, связанные семантикой слов, в то время как количество ошибок, связанных с пропуском или добавлением слова, уменьшается.

Данные выводы можно обобщить и для обратного направления: с английского на русский.

Во время второго этапа работы были созданы две системы машинного перевода с английского языка на русский. Системы, основанные на архитектуре, предложенной И. Суцкевером, используют разные способы распределённого погружения слов: в качестве контекста для целевого слова используются либо окружающие слова (таким образом учитываются синтагматические связи), либо вершина и зависимые слова с указанием типов синтаксической связи между ними (так близкими оказываются векторы слов, связанных парадигматически). Была выдвинута гипотеза: количество ошибок, связанных с пропуском или добавлением слова, снизится при использовании синтаксических эмбеддингов. Из-за технических ограничений, качество полученных переводов оказалось неудовлетворительным, что затруднило выделение конкретных ошибок в переводе. Таким образом, подтвердить или опровергнуть гипотезу не получилось. Значительная часть результатов обеих систем трудно поддаётся интерпретации, однако, можно заметить, что системе, использующей синтаксические эмбеддинги, в некоторых примерах удалось сохранить элементы синтаксической структуры, а тематические и синтагматические связи сохраняются при использовании как синтаксических эмбеддингов, так и классических эмбеддингов, основанных на «мешке слов».

Данную работу можно продолжать за счёт увеличения объёма тренировочных данных и подбора гиперпараметров нейронной сети для повышения качества генерации перевода и последующего анализа ошибок. Кроме того, вместо модели распределённого представления слов одного языка планируется применить кросс-лингвальныеэмбеддинги для представления слов сразу на двух языках. Возможен также переход к нейронному машинному переводу без использования параллельного корпуса. Наконец, интерес представляет изучение особенностей перевода как отдельных языков, так и языковых групп с теми или иными типологическими характеристиками.

Библиографический список

1. Ревзин И.И. Модели языка. М.: АН СССР, 1962. -- 192 с.

2. Апресян Ю.Д. Идеи и методы современной структурной лингвистики. М.: Просвещение, 1966. -- 301 с.

3. Пиванова Э.В. Теория и практика машинного перевода: учебное пособие. Ставрополь: Северо-Кавказский федеральный университет, 2014.-- 115 c.

4. Немченко, В. Н. Введение в языкознание: учебник для вузов / В. Н. Немченко. -- М. : Дрофа, 2008. -- 703 с.

5. Шведова Н.Ю. Русская грамматика, том II. Издательство «Наука», 1980. -- 709 с.

6. Николаев И.С., Митренина О.В., Ландо Т.М. Прикладная и компьютерная лингвистика. М.: Ленанд, 2016. -- 316 с.

7. Кузнецова, Э. В. Лексикология русского языка / Э. В. Кузнецова. - М., 1989. 216 с.

8. Васильев, Л. М. Теория семантических полей / Л. М. Васильев // Вопросы языкознания М., 1971. - № 5. - С. 105 - 113.

9. Филин Ф. П. О лексико-семантических группах слов // Очерки по теории языкознания. М.: Наука, 1982. С. 229-239

10. Соссюр Ф. де. Курс общей лингвистики/Редакция Ш. Балли и А. Сеше; Пер. с франц. А. Сухотина. Де Мауро Т. Биографические и критические заметки о Ф. де Соссюре; Примечания / Пер. с франц. С. В. Чистяковой. Под общ. рея. М. Э. Рут. -- Екатеринбург: Изд-во Урал. ун-та, 1999.-- 432 с.

11. Улиткин И.А. Автоматическая оценка качества машинного перевода научно-технического текста. Вестник МГОУ. Серия: Лингвистика, 2016 / № 4.-- С. 174-182

12. Андреева А.Д., Меньшиков И.Л., Мокрушин А.А. Обзор систем машинного перевода. «Молодой учёный» . № 12 (59) Декабрь, 2013. -- С. 64-66

13. Джули А., Пал С., Библиотека Keras -- инструмент глубокого обучения. Реализация нейронных сетей с помощью библиотек Theano и TensorFlow/ пер. с анг. Слинкин А . А. - М.: ДМК Пресс, 2018. - 294 с.: ил.

14. Гудфеллоу Я., Бенджио И., Курвилль А. Глубокое обучение / пер. с анг. А. А. Слинкина. - 2-е изд., испр. - М.: ДМК Пресс, 2018. - 652 с

15. Машинный перевод: исторический обзор и преимущества (https://www.promt.ru/company/press/pdf/mt_istorich_obzor_preimushestva.pdf)

16. Goutte C., Cancedda N., Dymetman M., Foster G. Learning Machine Translation. Massachusetts Institute of Technology, 2009

17. Neubig G. Neural Machine Translation and Sequence-to-sequence Models: A Tutorial. Language Technologies Institute, Carnegie Mellon University, 2017

18. Ьstьn A., Kurfalэ M., Can B. Characters or morphemes: how to represent words? (https://www.aclweb.org/anthology/W18-3019)

19. Conneau A., Lample G., Ranzato M., Denoyer L., Jйgou H. Word translation without parallel data (https://arxiv.org/pdf/1710.04087.pdf)

20. Devlin J., Chang Ming-Wei, Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (https://arxiv.org/abs/1810.04805)

21. Mikolov T., Chen K., Corrado G., Dean J. Efficient Estimation of Word Representations in Vector Space (https://arxiv.org/abs/1301.3781)

22. Mikolov T., Quoc V. Le, Sutskever I. Exploiting Similarities among Languages for Machine Translation (https://arxiv.org/abs/1309.4168)

23. Bahdanau, D., Cho, K. Bengio, Y., Schwenk H., Bougares F., Gulcehre C., Merrienboer B. van. Learning phrase representations using RNN encoder-decoder for statistical machine translation, 2014. (https://arxiv.org/abs/1406.1078)

24. Bahdanau, D., Cho, K. Bengio, Y. Neural machine translation by jointly learning to align and translate. In Proc. International Conference on Learning Representations, 2015. (http://arxiv.org/abs/1409.0473).

25. Goutte, C. Cancedda, N. Dymetman, M. Foster, G. Learning Machine Translation. Cambridge, MA: MIT Press, 2009.

26. Koehn, P. Statistical Machine Translation. Cambridge University Press, New York, 2009.

27. Levy, O. Goldberg, Y. Dependency-based word embeddings. In ACL, 2014.

28. Sutskever I., Vinyals O., Quoc V. Le. Sequence to sequence learning with neural networks (https://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf).

29. Brownlee J. Deep Learning for Natural Language Processing (http://ling.snu.ac.kr/class/AI_Agent/deep_learning_for_nlp.pdf)

30. Changhau I. Word2Vecf -- Dependency-Based Word Embeddings and Lexical Substitute, 2017. (https://isaacchanghau.github.io/post/word2vecf/)

31. Chollet F. A ten-minute introduction to sequence-to-sequence learning in Keras (https://blog.keras.io/a-ten-minute-introduction-to-sequence-to-sequence-learning-in-keras.html)

32. Luong T., Brevdo E., Zhao R. Neural Machine Translation (seq2seq) Tutorial (https://github.com/tensorflow/nmt#background-on-neural-machine-translation)

33. Sequence to Sequence Learning with Keras (https://github.com/farizrahman4u/seq2seq)

34. Machine Translation. From the Cold War to Deep Learning (http://vas3k.com/blog/machine_translation/?hn=1&utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter)

Словари

1. Словарь-справочник лингвистических терминов. Изд. 2-е. -- М.: Просвещение. Розенталь Д.Э., Теленкова М.А. 1976.

2. Лингвистический энциклопедический словарь. Ярцева В.Н. (http://tapemark.narod.ru/les/)

Ссылки

1. https://tatoeba.org/rus/

Размещено на Allbest.ru


Подобные документы

  • Перевод и другие виды языкового посредничества, их виды, формы и жанры. Место машинного перевода в общей классификации, его краткая характеристика. Содержание проблемы переводимости при машинном переводе, направления и перспективы ее разрешения.

    курсовая работа [42,2 K], добавлен 17.11.2014

  • Нормативные требования и их роль в оценке качества перевода. Жанрово-стилистическая норма перевода. Классификация смысловых ошибок. Условные критерии оценки качества перевода. Место оценки качества перевода в переводоведении. Норма переводческой речи.

    курсовая работа [32,1 K], добавлен 13.04.2015

  • Основные понятия и функциональные стили лингвостилистики. Принципы работы и типы систем машинного перевода. Сопоставительный анализ отрывков научно-технического текста и их переводов на русский язык с помощью различных СМП - трансфертной и статистической.

    дипломная работа [4,0 M], добавлен 23.06.2011

  • Понятие языка и нормы перевода. Обеспечение высокого качества перевода переводчиком. Семантические проблемы перевода. Межъязыковые расхождения в грамматикализации "классических" грамматических категорий. Синтаксические проблемы перевода стихотворений.

    реферат [33,3 K], добавлен 23.12.2011

  • Изучение морфологических и синтаксических особенностей научно-технического стиля, в аспекте применения автоматизированных средств перевода. Анализ принципа работы и типов систем машинного перевода. Сравнение текстов, переведенных машиной и переводчиком.

    дипломная работа [4,0 M], добавлен 20.06.2011

  • Особенности перевода юмора. Перевод безэквивалентной лексики. Средства выражения юмора в стихах для детей и некоторые аспекты их перевода. Основные трудности и приемы перевода культурных реалий в англоязычных анекдотах. Анализ английских лимериков.

    дипломная работа [80,7 K], добавлен 08.04.2014

  • Транслатологические аспекты специального перевода. Анализ текста оригинала. Подходы к переводу терминов. Транслатологическая специфика перевода терминов. Стилевая принадлежность и потенциальные рецепторы. Перевод текстов художественной литературы.

    курсовая работа [86,3 K], добавлен 30.04.2011

  • Основные исторические этапы возникновения переводческой деятельности. Первые теоретики перевода: Цицерон, Этьен Доле, Тайлер, Сэвори. Использование перевода в царской России в качестве орудия диссидентства. Особенности перевода технических текстов.

    презентация [45,4 K], добавлен 29.07.2013

  • Предмет, методы и направления исследования, основное содержание и значение теории перевода. Виды перевода, сферы его применения, оценка качества и языковой сложности. Переводческая сегментация текста, его связность. Типы лексических трансформаций.

    контрольная работа [33,6 K], добавлен 20.12.2011

  • Особенности художественного перевода и критерии его оценки. Понятие вторичной номинации, ее классификации и способы перевода. Специфика перевода драматургических текстов. Сопоставительный анализ перевода единиц вторичной номинаций в пьесах Чехова.

    курсовая работа [74,7 K], добавлен 22.08.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.