Анализ особенностей машинного перевода (на материале финских текстов разных функциональных стилей)

Определение понятия перевода как вида человеческой деятельности. Системы, основанные на правилах. Статистический машинный перевод. Гибридные системы машинного перевода. Ошибки, вызванные отсутствием или некорректной предварительной обработкой запроса.

Рубрика Иностранные языки и языкознание
Вид дипломная работа
Язык русский
Дата добавления 31.10.2017
Размер файла 476,6 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Для использования метрик BLUE и NIST требуется корпус предложений на исходном языке и различные эталонные переводы этих предложений, выполненные человеком [Zhang, 2004].

Очевидно, что ни метрика BLUE, ни NIST не работают так же как экспертная оценка. Эксперты выше оценивают грамматически верные переводы, которые напоминают тексты на естественном языке, тогда как метрики оценивают тексты в пределе 5-грамм [Zhang, 2004], а значит, не могут оценить то, например, как связаны между собой предложения в переведенном тексте.

Хотя использование метрик BLEU и NIST, становится все более популярным, мы не до конца понимаем, как именно они работают [Zhang, 2004], Часто результаты их работы сложно интерпретировать, а выяснить причины ошибок, появляющихся в конкретной системе, с помощью только этих мер невозможно [Vilar, 2006].

То же касается и всех остальных инструментов автоматической оценки работы МП в целом. Сама по себе оценка работы системы без каких-то дополнительных исследований, не предоставляет полезной информации, которую можно было бы использовать для дальнейшего развития системы МП. Одним из вариантов такого исследования является подробный анализ результатов работы системы и появляющихся при работе ошибок.

2.2 Типология ошибок машинного перевода

Для поиска и анализа ошибок удобно использовать один или несколько вариантов эталонного перевода, чтобы можно было противопоставить результат работы системы МП и правильный текст [там же]. В случае, когда таких эталонных переводов нет, то эту задачу должен выполнять эксперт, владеющий принимающим языком и языком-источником.

Классификация ошибок, появляющихся при работе системы МП, ни в коем случае не является однозначной. Не существует общепринятой, единой классификации, а исследователи могут создавать собственные в зависимости от преследуемых целей. В нашей работе мы используем две разные классификации ошибок: одна из них уже использовалась ранее другими исследователями [Vilar, 2006; Llitjґos, 2005] и полезна с точки зрения статистической информации о количестве и типах ошибок. Вторая классификация -- наша собственная, используется с другой целью, и будет рассмотрена подробнее в третьей главе.

Первая классификация имеет иерархическую структуру. Ошибки делятся на пять больших классов: пропущенные слова, неправильный порядок слов, неверные слова, неизвестные слова и пунктуационные ошибки. Классы в свою очередь делятся на меньшие категории.

Рис. 1. Классификация ошибок, предложенная Vilar и Llitjґos

Следует помнить, что все типы ошибок взаимосвязаны и ошибка одного типа может быть причиной появления ошибки другого. Так, например, неправильный перевод одного слова может привести к неправильному порядку слов в предложении.

Все примеры, которые мы используем для иллюстрации классификации на рис.1, мы взяли из корпуса пользовательских запросов, более подробно описанного в третьей главе.

2.2.1 Пропущенные слова

Ошибка относится к этой категории, когда в результате работы системы в выходном тексте пропущены слова. Слова по важности можно разделить на «главные»” и «второстепенные». К главным словам относятся существительные и глаголы, которые несут в себе основной смысл предложения. К второстепенным относятся слова, которые требуются для составления грамматически правильного предложения. Так, выделяются два подкласса ошибок -- первый, более важный случай, когда в результате отсутствия некоторого слова оказывается непонятен смысл предложения, и второй случай, когда смысл сохраняется, но предложения оказывается некорректным с точки зрения грамматики.

Первый тип:

прикольный малый

rento

Rento `прикольный'. В результате перевода отсутствует существительное, соответственно, не понятно, кто именно «прикольный».

Второй тип:

Kokouskutsu ja esityslista liitteenд.

Приглашение на встречу и повестка дня вложения.

jossa hallitus aikoo rajoittaa maahanmuuttajien oikeutta sosiaalitukiin.

где правительство намеревается ограничить права иммигрантов социальная помощь.

В обоих случаях отсутствуют необходимые для построения грамматически правильной фразы предлоги. В первом примере отсутствует предлог «во». При этом «вложение» стоит в некорректном падеже. Во втором примере отсутствует предлог «на». «Социальная помощь» стоит в некорректном падеже.

2.2.2 Неправильный порядок слов

При неправильном порядке слов могут быть два случая: в первом случае для получения правильного перевода нужно перенести слово в другую часть текста. Во втором случае, когда ошибка допущена на уровне фразы, для получения правильного перевода нужно перенести блоки идущих последовательно слов.

Первый тип:

-Teimme kahden vuoden sopimuksen ja pidдmme siitд kiinni.

- Мы сделали на два года и соглашение мы придерживаемся его.

Если мы перенесем слова «и» и «соглашение», то получим правильный перевод: «Мы сделали соглашение на два года, и мы придерживаемся его».

Второй тип:

Mahdollisuus talvella moottorikelkan vuokraamiseen

Возможность зимой арендной платы для аренды снегохода.

Если перенести словосочетания «арендной платы» и то можно получить правильный перевод: «Возможность арендной платы зимой для аренды снегохода».

2.2.3 Неверные слова

Это самый широкий класс ошибок. Внутри этого класса можно выделить пять подкатегорий.

Первая подкатегория это смысловые ошибки, когда в результате неправильного перевода слова меняется смысл предложения. Такие ошибки могут появляться в двух случаях -- когда не было найдено правильного варианта перевода, или когда была неверно снята лексическая неоднозначность. Следующий пример иллюстрирует неправильное снятие лексической неоднозначности:

anna vaikuttaa hetki ja huuhdo vedella, kostealla liinalla.

Анна влияет момент и прополоскать с водой, влажной тканью.

Anna это не только имя, в данном контексте это императив (повелительное наклонение) глагола antaa `дать'. Дословный перевод в этом случае был бы «дайте (чему-то) подействовать и сполосните водой, влажной тканью».

Вторая подкатегория -- слово стоит в неверной с точки зрения грамматики форме, но основа слова переведена правильно. Такие ошибки особенно часто встречаются при работе с языками, в которых есть словоизменение, в том числе, в финском и русском языках.

В основном, такие ошибки связаны с неправильным согласованием по числу и роду.

Tilauksenne on kдsitelty ja postitetaan viimeistддn seuraavana arkipдivдnд.

Ваш заказ обработаны и отправлены самое позднее в следующий рабочий день.

setin avulla voit suunnitella ja vдrittдд oman olkalaukkusi.

набор позволяет планировать и вышить свою сумка.

Есть также случаи, когда вместо одной части речи в оригинале уместно использовать родственное слово другой части речи. Например:

Vuotuinen polttoainetarve on enimmillддn lдhes 3 miljoonaa kuutiota.

Ежегодная потребность в топливе максимум почти 3 миллионов кубических метров.

Смысл предложения в целом понятен, но в идеале нужно было бы перенести слово «максимум» в начало и образовать от него прилагательное: «Максимальная ежегодная потребность в топливе составляет почти 3 миллиона кубических метров». Третья подкатегория -- лишние слова. Ошибки такого типа появляются в основном при работе с инструментами автоматического распознавания речи.

Четвертая и пятая категории менее важные для работы МП. К четвертой категории относятся стилистические ошибки (например, повторное использование одного и того же слова в узком контексте вместо замены этого слова синонимом).

Сюда относится пример, который мы рассматривали до этого, где слово «мы» повторяется два раза.

-Teimme kahden vuoden sopimuksen ja pidдmme siitд kiinni.

- Мы сделали на два года и соглашение мы придерживаемся его.

Пятая категория -- это ошибки, связанные с переводом идиоматических выражений, которые система не распознает как таковые и переводит как обычный текст.

- Ну, ты талант! Человек пришел за удочкой, а уехал на мотоцикле.

- No, sinд rekvisiittani! Mies tuli / onkia ja lдhti moottoripyцrдkolari.

В данном примере «ты талант» является устойчивым выражением и не может быть переведено дословно.

2.2.4 Неизвестные слова

Неизвестные системе слова тоже приводят к двум разным типам ошибок. В первом случае, системе неизвестна само слово или его основа (стем), во втором -- система не знает определенной формы слова. Такие ошибки связаны с недостаточным объемом корпуса. В случае такой ошибки слово не переводиться, а остается в том виде, в котором оно было в пользовательском запросе. Такие ошибки часто появляются при переводе именованных сущностей, слов, принадлежащих узкой тематике и разговорной лексике.

Продам благоустроенный коттедж на участке 8 соток в п.Сотниково

Myy hyvinhoidettu oli mцkki on 8 aarin п.Сотниково

В продолжение нашего разговора о балансе прошу Вас уточнить у бухгалтера Юккостарвике следующие вопросы:

Keskustelumme jatkoa tasapainosta kirjanpitдjдn pyydдn tarkentaa joillekin Юккостарвике seuraavat kysymykset:

Магистратура, туризмовед, экскурсовод.

Maisteriohjelmissa, туризмовед, opas.

Pakkolainsддdдntц ei tдmдn mukaan rajoita sopimusvapautta.

Согласно этому не pakkolainsддdдntц ограничить свободу контракта.

2.2.5 Пунктуация

Пунктуационные ошибки представляют некоторую сложность при работе с языками без фиксированных правил пунктуации. Например, правила расстановки запятых в финском языке значительно мягче, чем в русском.

Kyllд olen tцissд.

Да я работаю.

asunto on pieni ja siksi me muutamme elokuussa

Небольшая квартира и поэтому мы переезжаем в августе.

2.3 Выводы

Оценка качества МП представляет собой сложную задачу, в первую очередь по той причине, что оценить перевод объективно невозможно. При экспертной оценке мнения асессоров могут расходиться, а при оценке с помощью метрик все равно требуется наличие эталонного перевода, выполненного вручную. Проблему также представляет интерпретация результатов такой оценки для дальнейшей работы, так как просто оценка не способствует устранению причин ошибок. При этом можно эффективно использовать экспертную оценку и метрики для сравнения различных систем перевода, или отслеживания улучшений в какой-то одной системе.

Чтобы приблизиться к пониманию того, что именно препятствует улучшению работы системы, можно по разному классифицировать ошибки.

Некоторые ошибки могут провоцировать появление других. К таким ошибкам, в первую очередь, относятся неизвестные слова и неправильный порядок слов.

3. АНАЛИЗ РАБОТЫ СТАТИСТИЧЕСКОЙ СИСТЕМЫ МП

3.1 Корпус и процентное соотношение ошибок

В ходе нашего эксперимента, нами были проанализированы 15043 реальных пользовательских запроса к финско-русскому онлайн-переводчику PROMT на момент 02.11.2015 года. 6804 из них это перевод с финского на русский, 8239 с русского на финский. При этом в нашем списке оказался достаточно большой процент запросов, выполненных на других языках (эстонском, французском, украинском и т.д.), которые были ошибочно распознаны как русский или финский инструментом автоматического распознавания языка.

Мы использовали классификацию типов ошибок, приведенную во второй главе, выбрали 300 первых запросов из обоих списков (2% от общего числа запросов), посчитали количество ошибок того или иного класса, которые мы кратко описали в пункте 2.2., и получили для нашего корпуса следующие приблизительные статистические данные:

Рис.2. Диаграмма процентного соотношения ошибок согласно классификации, приведенной в пункте 2.2.

Мы обнаружили, что больше всего ошибок относятся к категории «неверный перевод слова». Примерно треть из всех ошибок можно отнести к классу «неизвестные слова». Из этого мы можем сделать вывод о недостаточной представительности корпуса.

3.2 Причины возникновения ошибок

Как уже было сказано, нашей основной задачей является не столько перечисление типов ошибок, сколько анализ возможных причин их возникновения. Для того чтобы это выяснить, мы, учитывая полученные ранее теоретические данные о принципах работы статистического МП, подробно рассмотрели наш корпус и создали свою собственную классификацию ошибок.

В целом, ошибки, возникающие при работе системы PROMT, попадают в четыре большие категории.

· Ошибки, вызванные отсутствием или некорректной предварительной обработкой запроса.

· Ошибки, связанные с содержанием параллельного корпуса.

· Ошибки, связанные с особенностями языков.

· Ошибки, связанные с работой алгоритма системы перевода.

Необходимо упомянуть, что встречаются и некоторые пограничные случаи, когда ошибка вызвана более чем одной причиной. Далее мы рассмотрим упомянутые категории и выделим в них подкатегории.

3.2.1 Ошибки, вызванные отсутствием или некорректной предварительной обработкой запроса

Как мы уже выяснили, сейчас инструменты онлайн перевода активно используются обычными пользователями, которые зачастую либо не знают принимающего языка, либо языка источника. Пользователям свойственно допускать опечатки, нарушать правила пунктуации и использовать разговорную лексику, которую невозможно найти ни в одном словаре. В связи с этим, для корректной работы системы МП, должна проводиться предварительная обработка запроса и его нормализация.

Некорректное распознавание языка

Если предположить, что переводчиком будут пользоваться обычные пользователи, не имеющие базовых знаний о языках, которые не могут сами выбрать необходимый язык, то им необходим инструмент автоматического распознавания.

Рассмотрим следующие примеры работы программы.

take off the gun powder

take off the gun порошок

I went to Mexico in the calendar year before this one.

I вентти to Мехико in the calendar year before this one.

I want be with you

I want be with вы

В этих примерах язык определяется по одному слову (powder, went, you), для которых есть перевод в параллельном корпусе. В финском языке часто встречаются английские слова в неизмененной форме, особенно в названиях товаров, заведений. Если такое слово попадет в финно-язычный корпус, который использовался при обучении инструмента распознавания языка, то в дальнейшем программа будет определять его как принадлежащее финскому языку.

В случае с финским языком распознавание языка идет с использованием стемминга, учитываются не слова целиком, а их основы. Такой вывод можно сделать, посмотрев на следующие примеры.

Suimming kool

Suimming kool

immensily

immensily

herrasment

herrasment

Sui -- основа множественного числа слова `рот', herra `господин', immen -- генетив единственного числа от слова impi `дева'. Все три запроса написаны с опечатками, и при правильном написании, проблем бы не возникло.

Но бывают такие случаи, когда в двух различных языках присутствуют одинаковые лексемы.

He has never traveled by train.

Они у never путешествовал by train.

Kutsu Teile

Приглашение в закладки

mдssajad pдrast ta tapeti. Me olime abielus ьksteist aastat

mдssajad pдrast Тэ убиваемые. Мы инцидентами abielus ьksteist совещание

He -- англ. `он', финск. `они'. Во втором примере за счет стэмминга появляется основа teile, которая распознается как teile -- эстон. `вам', teille --финск. `вам'.

В результате в список попадают запросы на французском, латыни, эстонском и немецком. Такая стратегия как стэмминг не может использоваться в случае с финским языком, по той причине, что в финском и, относящемуся к той же финно-угорской языковой семье, эстонском языке присутствует большое количество родственных лексем [Hдrmдvaara, 2015].

Запросы, оформленные некорректно с точки зрения синтаксиса

Предположим, что пользователь не знает языка, с которым работает в программе переводчике. Он просто копирует текст и вставляет его в окошко программы. Следующий пример текст с сайта интернет-магазина.

Nyt joustavat maksuehdot.Kдsiraha alk.0e.Hinta 4490e-syysale 1000.Tarjoushinta 3490e.Hyvд vaunu ympдrivuotiseen kдyttццn.Siisti, kuiva ja hajuton vaunu.Kaikki laitteet toimii.Pitkд etuteltta kuluu kauppaan.Arvo 1000e.Kts kuva., Parivuode

Сейчас гибкие maksuehdot.Kдsiraha alk.0e.Hinta падение продажа 4490e 1000.Tarjoushinta 3490e.Hyvд kдyttццn.Siisti вагон весь год, сухая и без запаха vaunu.Kaikki устройства toimii.Pitkд тент проходит kauppaan.Arvo 1000e.Kts нашем номере двуспальная кровать, рисунок.

В тексте источнике нет орфографических ошибок, но благодаря отсутствию пробелов, текст был неправильно разбит на токены, и половина слов оказалась не переведена. Знакомые с алгоритмами МП пользователи догадаются, что для корректной работы нужно расставить пробелы, но обычный пользователь, скорее всего, нет. Так, обычный пользователь может совершить ошибку уже на стадии запроса, а значит, и получить неудовлетворительный результат работы программы.

При переводе с русского на финский язык многие пользователи оформляют запросы без знаков пунктуации, а благодаря свободному порядку слов в русском языке, вопросительную конструкцию невозможно отличить от утвердительной. Например,

а ты нет

Sinд et.

так что, можешь приезжать туда после того как освободишься

Joten voit tulla sinne kun olet vapaa

ты будешь потом еще одну катку

Olet sitten yhden jддhalli

Пользователь, естественно, не знает о том, что в финском языке существует фиксированная конструкция для оформления вопросительного предложения. В такой конструкции недопустим свободный порядок слов. Если бы в финском можно было задать вопрос с помощью той же конструкции, что и в русском, то проблемы разрешения неоднозначности бы не возникло.

-Знаешь, я ведь просто хотел уберечь тебя от плохих вестей.

- - Tiedдtkц, minд vain halusin suojella sinua huonoista uutisia.

Таким образом, даже если в корпусе будет содержаться правильный перевод для следующего предложения, при неправильном оформлении запроса, перевод будет неадекватным. В идеале, при оформлении запроса программа должны учитывать необходимость использования пунктуации и напоминать об этом пользователю.

Некорректное распознавание именованных сущностей

Rela Colic Drops vдhentдд tutkitusti vauvojen koliikki-itkua

Rela) colic ронявшая уменьшить плач колика доказанные быть младенцев

Gustaf Mannerheim syntyi Louhisaaren kartanossa, Turun lдhellд.

Густав Маннергейм родился заминировали остров в особняке, Турку близко.

Отдельную проблему при работе системы представляет перевод именованных сущностей как обычных слов. Представить, что может существовать такой корпус, где будут содержаться все возможные имена собственные и их переводы -- немыслимо. Тогда перед нами встает вопрос: как с ними поступать? Очевидно, что необходим дополнительный инструмент для выделения или распознавания таких сущностей. Один из самых простых способов сделать это -- подключить словарь, опирающий на традиции русской и финской терминологии. Другим возможным решением может быть написание отдельной грамматики для выделения имен (например, учитывать наличие кавычек, написание с большой буквы и так далее).

3.2.2 Ошибки, связанные с содержанием параллельного корпуса

Корпус параллельных текстов, использующийся для построения переводческой модели должен соответствовать ряду критериев, таких как отсутствие опечаток, изначально неверных переводов, качественно выполненное и, по возможности, проверенное экспертом выравнивание.

К сожалению, при работе с малыми языками, такими как финский, найти уже готовый корпус параллельных текстов широкой тематики, который мог бы использоваться для обучения онлайн-переводчика сложно. Учитывая небольшое количество параллельных ресурсов для финского и русского языка создавать такой корпус придется с нуля.

Следует также учитывать, что не все тексты требуют единой стратегии перевода. В каждом языковом коллективе существуют нормы особенности расположения и структурирования информации, различнык способы её подачи и представления, нормы языкового оформления в рамках различных функциональных контекстов. Тексты могут различаться по жанру и стилю, и знание жанровых и стилистических особенностей играет значительную роль при создании качественного перевода. Существует ряд формальных признаков, которые присущи текстам того или иного стиля. Так, функциональный стиль текста будет влиять на выбор лексики, которую следует использовать при переводе. В первую очередь это касается текстов, принадлежащих узкой предметной области. Существует также вопрос соблюдения норм, которые существуют для соответствующей разновидности текстов в принимающем языке. Все это в значительной степени усложняет задачу построения параллельного корпуса. Может ли быть эффективным использование переводческого инструмента, обученного на текстах художественной литературы, для перевода текстов из области медицины? Рассмотрим следующий пример:

Kennoja teillд jo on. Lдhettдisittekц tilausvahvistuksen?

Клетки у вас уже есть. Будете ли вы отправить подтверждение заказа?

Kenno - многозначное слово. Оно действительно переводится как `клетка'.

Но во множественном числе это слово означает `теплообменник для отопления салона автомобиля'. А в составе сложного термина, например, valoherkkд kenno, оно переводится как ` светочувствительная матрица'.

Можно, конечно, предположить, что кто-то покупает клетки, как например, клетки для содержания животных, но в финском языке для этого используется совсем другое слово - hдkki. При ручном переводе, если переводчик знает о том, что он работает с текстом из узкой предметной области, он может проверить точное значение этого термина. При статистическом переводе это возможно осуществить, только подключив отдельные терминологические словари. После этого придется либо предложить пользователю самому выбрать предметную область, либо создать автоматический анализатор текстов.

Отдельной проблемой является нелитературная (разговорная) лексика. Невозможно однозначно ответить на вопрос, следует ли включать ее в параллельный корпус. Её отсутсвие в параллельном корпусе приводит к тому, что такие слова не переводяться.

ПРОШУ ВАС ЛЮДИ НЕ ИГНОРЬТЕ ЭТО ИНФО!

pyydдn ihmiset eivдt ИГНОРЬТЕ se tietoa!

Ахахахахахаха Ангелин тебя тоже ждёт такая же судьба, эта шибанулась и ты с ней за одно

Ахахахахахаха Ангелин sinua odottaa sama kohtalo, tдmд шибанулась ja olet hдnelle yhden

Еще хуже ситуация обстоит с финским языком. Финский разговорный язык настолько не похож на литературный, что для его изучения его переводчики проходят отдельные курсы. Рассмотрим следующий пример:

Sun meikit levii ku kyyneleet niin valuvat

Ваш косметика Ливай текут слезы, тогда за

Исходный текст написан на разговорном языке, его литературная версия будет выглядеть вот так: «Sinun meikki leviдд kun kyyneleet valuvat».

Попробуем перевести этот вариант:

Sinun meikki leviдд, kun kyyneleet valuvat

Вы косметика распространяется, когда слезы текут

Как мы видим, результат уже значительно лучше.

В свою очередь, присутствие разговорной лексики в корпусе может приводить к стилистическим ошибкам:

ja juuri nyt hymyilet ilman epдilyttд.

и прямо сейчас лыбишься без сомнения.

Hymyllд `улыбаться' не отновится к разговорной лексике и стилистически не окрашен, а значит перевод его глаголом «лыбиться» неадекватен.

Недостаточный объем корпуса

Финский язык относится к агглютинативным языкам, а значит, словоизменение в финском языке происходит с помощью агглютинации, то есть присоединения формантов (суффиксов или префиксов), каждый из которых несет определенное значение. В финском языке всего пятнадцать падежей и также есть формы единственного и множественного числа. На практике это означает, что, например, каждое изменяемое по падежам слово в корпусе теоретически должно встречаться в своих пятнадцати формах в единственном числе, и еще пятнадцати формах множественного числа.

Эта ситуация осложняется тем, что русский язык, в свою очередь, относится к флективным языкам, где словоизменение происходит при помощи флексий, то есть формантов, сочетающих сразу несколько значений. Это означает, что в русскоязычной части параллельного корпуса каждое изменяемое по падежам слово должно встречаться в минимум шести формах основных падежей единственного числа и еще шести множественного.

Нужно помнить, что в крайнем случае, если какое-то слово появляется в тренировочном корпусе в какой-то одной форме, а в другой нет, то другая форма того же самого слова будет рассматриваться, как если бы слово не содержалось в словаре. Следующие примеры демонстрируют нам, что некоторые слова содержаться в корпусе только в одной форме. Во всех примерах инфинитив слова переводится другим падежом или формой множественного числа.

Kertakдyttцgrilli

Одноразовые мангалы

зять

vдvypoikasi

удача

Onnea

Вариант:

Vaihtoehdot:

Иноязычные слова в корпусе

Thx for your order from us.Your item has been shipped by China post International Mail Service. It is estimated to arrive in 15-40 days in normal conditions.

Thx for your order from США.Your item имеет Би поставляется by China post International Mail Service. It is расчетное to приходим в 15-40 days in normal условиях.

He has never traveled by train.

Они у never путешествовал by train.

Данные примеры были ошибочно определены как тексты, написанные на финском языке. Тем не менее, часть слов переведена, а значит, что они содержатся в корпусе, использовавшемся для тренировки переводческой модели.

Невозможно полностью избавиться от иноязычных вкраплений в корпусе, из-за большого количества названий брендов и товаров на английском языке. Для решения этой проблемы на уровне морфологической разметки можно определять иностранные слова и помечать их как не требующие перевода.

Неправильный перевод и опечатки

Очевидно, что если обучать модель на текстах с изначально неправильным переводом, то ошибка будет повторяться.

Tarjolla on aina suihkumahdollisuus ja puhtaat pyyhkeet.

На рану всегда вероятность ливней и чистые полотенца.

У слова suihkumahdollisuus есть только один возможный перевод -- `возможность помыться'. “Вероятность ливней” -- это либо неверный перевод, осуществленный переводчиком, который решил положиться на интуицию и предположил, что suihku `душ' может принимать значение `дождь', либо результат машинного перевода с помощью английского как посредника. Если обратиться к Google-translate, то в результате перевода на английский у нас появится «chance of showers», что при переводе на русский даст «вероятность ливней».

Следующие примеры демонстрируют наличие опечаток в параллельном корпусе:

Anna puhdistaa itse.

Анна вънистить сам.

Arvoisa asiakkaamme, Maritim-verkkokauppamme uudistuu nyt kokonaan.

Г-н наши клиенты, тагшта интернет-магазин теперь полностью обновляется.

Hymyillд

Улыбяться

Ihoni on lдpinдkyvд ja kylmд

Моя кожа посмотрите-thr и холодная

3.2.3 Ошибки, связанные с особенностями языков

При этом общепризнанно, что системе МП легче переводить текст, где порядок слов в предложении жестко фиксируется. Русский язык (как и финский) поддерживает свободный порядок слов в предложении, что значительно усложняет процесс его формализации [Карасев, 2011].

Сходства и различия между языками изучаются и эти данные активно применяются в том числе в области перевода. Структурные различия между двумя языками могут оказывать значительное влияние на качество перевода между ними [Koppel, 2011].

Нельзя не упомянуть также о том, что работая с переводами, мы, по сути, имеем дело с текстами, написанными на переводческом языке (translationese).

Так, исследования в области теории перевода показывают, что тексты, полученные в результате перевода, принципиально отличаются от текстов, изначально написанных на принимающем языке [Twitto-Shmuel, 2015]. Идея существования специального переводческого языка (translationese) и его различных диалектов, зависящих от комбинации языка-источника и принимающего языка [Koppel, 2011], может в значительной степени изменить наше представление о работе SMT.

Например, работа переводческой модели может напрямую зависеть от того, на каком языке были изначально написаны тексты в параллельном корпусе. Так, в ходе одного из проведенных экспериментов [Kurokawa, 2009], было создано два корпуса текстов, специально переведенных экспертами на английском и французском языках. Модель, которую обучали на корпусе параллельных текстов, переведенных с французского языка на английский, работала значительно лучше, чем модель, обученная на текстах, переведенных с английского на французский. Эти данные подтвердились в ходе дальнейших экспериментов с переводческим языком [Lembersky, 2013].

Все это доказывает, что особенности языков должны учитываться и при составлении параллельного корпуса.

Прагматические адаптации

Одна из проблем, с которой сталкиваются переводчики, это вопрос прагматических адаптаций. Мы уже упоминали, о том, что невозможно заставить программу принимать решения с учетом внешней метаинформации о тексте. Тем не менее, при работе с онлайн-переводчиком, проблемы, связанные с прагматикой все равно появляются. Одной из таких проблем является проблема перевода местоимений и глаголов в форме второго лица множественного и единственного числа. В финской культуре общения совершенно нормально обращаться к большинству людей «на ты», при этом «на вы» обращаются к посетителям или покупателям. Существует даже мнение, что обращение «на вы» является индикатором создания некоторой дистанции между собеседниками и вообще может быть воспринято как грубость. Тогда как в русской культуре общения обращение «на ты» к случайному прохожему или начальнику будет воспринято как фамильярность. В связи с этим, рассмотрим следующие примеры.

Missд olit kesдllд?

Где вы были летом?

Kysy lisдд.

Спроси еще.

Terve igor! Olitko jatkamassa datanomin opintoja nyt pдivдlinjan puolella vai oletko saanut kaikki nдytцt suoritettua?

Здравствуй Игорь! Вы были выполняются данные самостоятельно теперь исследований на день линия или вы позвонили, все мониторы выполненную?

Данные примеры демонстрируют непоследовательность в переводе местоимений и глаголов во втором лице. Во всех трех примерах в исходном тексте использована форма глагола второго лица единственного числа. Возможное решение этой проблемы - использовать единую стратегию перевода текстов, которые содержаться в параллельном корпусе.

Тире в русском

Проблема перевода предложений с тире в том, что в финском языке тире редко используется, а эллиптических конструкций нет. Поэтому при переводе с русского на финский в предложениях с тире отсутствует глагол. А в финском языке это является грамматической ошибкой.

Слабые-мстят, сильные- прощают, счастливые-забывают....

Heikot kostavat, vahvat - anteeksi antamusta, onnellisen sydдn unohtaa.

Вопросительная форма глагола в финском языке

Как мы уже упоминали в предыдущем пункте, в финском языке существует фиксированная конструкция для оформления вопросительного предложения.

На первое место выходит вопросительное слово или глагол с вопросительной частицей ko/kц. В данном примере, видимо вследствие отсутствия вопросительной формы глагола tyцskennellд `работать' в параллельном корпусе, вместо вопросительной конструкции получилась утвердительная, даже не смотря на то, что в запросе присутствует вопросительный знак.

Сколько это км от Хельсинки ? Где ты работаешь ? Ты работаешь ночью ?

Paljonko se km Helsingistд? Missд olet tцissд? Tyцskentelet yцllд?

Как только в корпусе появится эта форма глагола, ошибка исчезнет, но её можно было бы решить иначе, благодаря наличию фиксированной конструкции в финском языке. Достаточно прибавить ko/kц к нужной личной форме глагола и перенести его на первое место -- так можно создать вопросительные формы для любого глагола. Если использовать

Обобщенно-личные предложения по смыслу, но не по форме

В финском языке есть тип предложений, который является калькой с английского. Это обобщенно-личные предложения по смыслу, в которых глагол стоит во втором лице. Например:

Tilaukset teet helposti:

Заказы делаеш легко:

Когда мы переводим это предложение на русский язык дословно, то есть оставляем глагол во втором лице, то теряется смысл оригинала.

В данном случае предложение следовало перевести, как `Заказы делать легко!' или `Вы сможете легко сделать заказ!'. Правильно перевести такие конструкции, можно только используя синтаксический анализ. С помощью синтаксического анализа можно определить, что в предложении объект стоит на первом месте, а глагол во втором лице единственного числа и предположить, что мы имеет дело с обобщенно-личным предложением. Это не решит проблему полностью, так как такие конструкции определяются скорее по контексту, чем по формальным признакам.

Предложения с глаголом olla

К таким предложениям относятся прежде всего экзистенциальные предложения. В финском языке они имеют следующий вид: слово в инессиве/аллативе + глагол существования olla «есть, существует» + подлежащее в инфинитиве/партитиве. Такие конструкции выражают местонахождение чего-то или кого-то где-то. Похожие на них конструкции -- конструкции обладания: местоимение или имя собственное в аллативе + глагол существования olla «есть, существует» + подлежащее в инфинитиве/партитиве. Основная проблема при переводе на русский таких конструкций в том, что в большинстве случаев глагол olla переводится на русский либо эллиптической конструкцией, либо заменяется подходящим по смыслу глаголом. Рассмотрим самые простые примеры, которые демонстрируют использование таких конструкций.

Minulla on siniset silmдt. `У меня голубые глаза'.

Poydдllд on kuppi. `На столе стоит кружка'.

Poydдllд on kissa. `На столе сидит кошка'.

Tampereella on paljon turisteja. 'В Тампере много туристов'.

Huoneessa on paljon ihmisiд. 'В комнате много людей'.

В трех случаях глагол olla при переводе заменялся эллиптической конструкцией, а в еще двух случаях был заменен подходящим по контексту глаголом, `сидеть' и `стоять'. В случае с переводом экзистенциальных конструкций на русский -- это два самых распространеннх варанта перевода. Тогда перевод olla можно свести к принятию решения между эллиптической конструкцией, и глаголами `сидеть' и `стоять'.

Эту проблему можно попробовать решить с помощью соответствующего грамматического показателя одушевленности в морфологической разметке. Можно использовать эту дополнительную лингвистическую информацию для принятия решения между глаголами `сидеть' и `стоять'. Но проблема будет возникать с глаголом `лежать', так как с некоторыми предметами будет использоваться только этот глагол. Самый эффективный способ -- распознавать такие конструкции и создать правило, которое позволяет заменять глагол olla в таких предложениях на тире.

Перевод других типов предложений с olla тоже представляет собой сложную задачу.

Мне кажется, что Немецкий популярный язык. Поэтому я теперь буду писать по-Фински

Minusta tuntuu, ettд Saksan suosittu kieli. Siksi olen nyt kirjoitan suomea

Полученное в результате предложение грамматически неверно, в нем отсутствует глагол olla в форме третьего лице единственного числа. Правильный перевод звучит как «Saksa on suosittu kieli» При работе статистического переводчика каждому слову должно соответствовать одно слово. Мы не может перевести пустое место каким-нибудь словом. Когда мы переводим русскую эллиптическую конструкцию на финский язык, мы получаем неправильный перевод, так как система МП не может просто так добавить в него глагол olla, который ничему не соответствует в исходном тексте.

3.2.4 Ошибки, связанные с работой алгоритма системы перевода

Чтобы с уверенностью рассуждать об ошибках работы алгоритма перевода, нужно знать архитектуру конкретной системы перевода. Тем не менее, имея даже общее представление о работе статистических алгоритмов, мы можем выделить случаи, которые относятся к некорректной работе алгоритма. Следующие примеры демонстрируют систематическую ошибку, которая появляется регулярно. В столбце справа дается правильный перевод.

Ohi kulkeneen

Прохождение магазина

Вместе с мимо проходившими

Koulunkдynnin

Школу

Посещение школы

Kдsitellддn

Дело

Рассмотрим (императив)

noutopisteessд.

Взяв.

На пункте выдачи

kanssa

врача

Вместе с

tuossa

сидит

Там

Во всех приведенных примерах можно заметить повторяющийся шаблон, где слово переводится неправильно. В качестве перевода ошибочно выбирается слово, которое стояло за данным словом в корпусе, использовавшемся для обучения переводческой модели.

Например, noutopisteessд `на пункте выдачи' переведено как `взяв'. Можно с уверенностью сказать, что в параллельном корпусе содержалось предложение ottaessa noutopisteessд `взяв на пункте выдачи'.

Kдsitellддn `рассмотрим' переведено как `дело'. Вероятно, что в корпусе было предложение kдsitellддn asiaa `рассмотрим дело'.

Kanssa `вместе с' переведено как `врача'. Вероятно, в корпусе содержалось словосочетание lддkarin kanssa `вместе с врачом'.

Эта ошибка также может быть связана с относительно свободным порядком слов в финском языке и свободным порядком слов в русском языке.

Существует также ряд ошибок, который связан с несовершенством алгоритма перевода, в том плане, что инструмент не «осознает», что он переводит. Такие ошибки самые сложные и исправить их без использования семантического анализа невозможно.

Minulla on myynnissд punainen pentu

У меня есть в продаже красный парень

Pentu `щенок', 'парень'. В данном примере неправильно проводится снятие лексической неоднозначности. Система МП не может «знать», что в интернете не принято публиковать объявления о продаже людей. Для того чтобы правильно перевести такой текст система должна иметь представление о семантических связях между понятиями в реальном мире. Для таких целей могут использоваться иерархические семантические деревья (сети).

3.3 Выводы

С помощью подробного анализа ошибок, учитывая теоретические значения о лингвистических особенностях языков и принципах работы статистического МП, можно обнаружить причины ошибок и предложить возможности их исправления.

Основные проблемы в работе инструмента PROMT вызваны недостаточной представительностью корпуса, который использовался для создания переводческой модели. Также в корпусе содержаться некоторые изначально неверные переводы и опечатки, что приводит к повторению той же ошибки при работе системы.

Работу в некоторой степени нарушает присутствие иностранных слов в корпусе, использовавшемся для построения модели языка.

Отсутствие предварительной обработки запроса приводит к тому, что пользователи оформляют запросы неверно и на выходе получают неудовлетворительный результат.

Система не всегда справляется с переводом имен собственных, либо оставляя их в изначальной форме, либо переводит их как обычные слова.

В работе алгоритма перевода присутствует повторяющаяся систематическая ошибка, связанная со слишком большим окном перевода.

Пользователи, не знакомые с принципами работы статистического МП, часто некорректно оформляют запросы, что приводит к получению неудовлетворительных результатов.

ЗАКЛЮЧЕНИЕ

В данной работе мы определили понятие машинного перевода, описали основные типы систем и методы оценки МП. На основании изученной нами теоретических данных, описанных в первой и второй главах, мы проанализировали работу статистического онлайн-переводчика PROMT, подробно разобрали ошибки, появляющиеся при работе этой системы, привели нашу собственную классификацию ошибок и предложили способы их устранения.

В первой главе мы описали историю развития систем МП, современное состояние этой области, и рассмотрели три основных современных подхода к МП: основанного на правилах, статистического и гибридного. Далее, во второй главе мы описали популярные способы оценки МП, экспертную оценку и различные метрики. Мы также привели одну из возможных классификаций ошибок, появляющихся в ходе работы систем МП.

В третьей главе для анализа работы статистического переводчика PROMT мы использовали корпус из 15043 реальных пользовательских запросов (295 тысяч токенов). Мы привели статистические данные типов ошибок и дали свою собственную классификацию ошибок, на основе причин их появления.

Исследовательские работы, проводящиеся в области МП, часто можно разделить на две категории: написанные с точки зрения лингвистики, и написанные с точки зрения точных вычислительных наук. Так, работы, в которых дается оценка качества перевода, часто полностью опускают или не учитывают принципы работы программ, которые используются для этого перевода. Исследования, которые не учитывают данных лингвистики, предоставляют статистические данные о количестве и типах ошибок, оценки BLEU или NIST, которые сложно интерпретировать. В итоге, это приводит к тому, что причины появления ошибок остаются за пределами исследования. Для улучшения результатов таких исследований, специалисты из разных областей должны больше взаимодействовать.

Для дальнейшего развития систем перевода, которые будут использоваться реальными пользователями, нужно понимать, как и кто в конечном итоге будет ими пользоваться. Нужно учитывать потребности пользователя. Так для профессиональных переводчиков будет полезна возможность выбора между несколькими вариантами перевода, а для обычного пользователя потребуются различные инструменты, осуществляющие предварительную обработку запроса.

Наше собственное исследование запросов продемонстрировало, что пользователи переводят тексты различных функциональных стилей, и ограничить тематику или стилистику текстов практически невозможно. Тем не менее, можно утверждать, что значительная часть запросов относится к области коммерции и развлечений. Эти данные можно учитывать в дальнейшем при составлении корпуса для переводческой модели.

Мы считаем задачи, поставленные в данной работе, выполненными, а цель -- достигнутой.

СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ

1. Аматов А. М. К вопросу машинного перевода: энтропия языковой системы и способы ее преодоления // Вестник ЛГУ им. А.С. Пушкина. 2008. №2 (13) С.71-90.

2. Ахманова О. С. Словарь лингвистических терминов. М., 1969.

3. Бархударов Л. С. Язык и перевод. М., 1975.

4. Беляева Л. Н. Лингвистические автоматы в современных гуманитарных технологиях: Учебное пособие. СПб, 2007.

5. Борисова И. А. К опыту постредактирования на материале англо-русского перевода с помощью автоматических систем Google translate и Prompt // Вестник МГЛУ. 2014. №13 (699) С.53-59.

6. Борисова И. А. Коммуникация между интернет-пользователями -- носителями различных языков // Вестник МГЛУ. 2013. №13 (673) С.28-34.

7. Гальперин И. Р. Введение. // Большой англо-русский словарь. М., 1987.

8. Кан, Д. А. Применение теории компьютерной семантики русского языка и статистических методов к построению системы машинного перевода: диссертация кандидата физико-математических наук. Место защиты: Федеральное государственное образовательное учреждение высшего профессионального образования Санкт-Петербургский государственный университет. Санкт-Петербург, 2011.

9. Карасев И. В., Артюшина Е. А. Системы машинного перевода // Успехи современного естествознания. 2011, №7, С.117-118.

10. Колшанский Г. В. Контекстная семантика. М., 1980.

11. Комиссаров В. Н. Современное переводоведение. Учебное пособие. М., 2002.

12. Красных В. В., Изотов А. И. Язык, сознание, коммуникация: Сборник статей. М., 2011.

13. Латышев Л. К. Перевод: проблемы теории, практики и методики преподавания. М., 1988.

14. Максименко О. И., Чинина Д. С. Обзор системы машинного перевода «Google Переводчик» (на примере финского языка). // Science Time, 2014, №5 (5), С.133-139.

15. Марчук Ю. Н. Компьютерная лингвистика: учебное пособие. М., 2007.

16. Молчанов А. Статистические и гибридные методы перевода в технологиях компании ПРОМТ. М., 2013.

17. Найда Ю. К науке переводить // Вопросы теории перевода в зарубежной лингвистике. М., 1978.

18. Нелюбин Л. Л. Толковый переводческий словарь. М., 2011.

19. Новожилова А. А. Машинные системы перевода: качество и возможности использования // Вестник ВолГУ. Серия 2: Языкознание. 2014. №3 С.67-73.

20. Рябцева Н. К. Информационные процессы и машинный перевод. Лингвистический аспект. М., 1986.

21. Слокум Дж. Обзор разработок по машинному переводу. Новое в зарубежной лингвистике. М., 1989.

22. Федоров А. В. Основы общей теории перевода (лингвистические проблемы). М., 2002.

23. Фролов С. В., Паньков Д. А. Проблемы построения машинного перевода. Тамбов, 2008.

24. Шаляпина З. М. Автоматический перевод: Эволюция и современные тенденции // Вопросы языкознания, 1996, №2, C. 105--117.

25. Шевчук, В. Н. Информационные технологии в переводе. Электронные ресурсы переводчика. М., 2013.

26. Baker M. Routledge Encyclopedia of Translation Studies. London & New York, 2001.

27. Brown P. F., Delia Pietra V. J., Delia Pietra S. A., Mercer R. L. The mathematics of statistical machine translation: Parameter estimation // Computational Linguistics, 1993, Vol. 19, №2, P. 263--311.

28. Burukina, I. Translating implicit elements in RBMT. // Translating and the Computer 36, 2014, Asling, P. 182--193.

29. Costa-jussа, M., Fonollosa, J. Latest trends in hybrid machine translation and its applications. // Computer Speech & Language, 2015, №32(1), P. 3-10.

30. Guzmбn F., Joty S., Marquez L., Nakov P. Using Discourse Structure Improves Machine Translation Evaluation. // ACL (1), 2014, P. 687-698.

31. Hдrmдvaara H. Trouble sources in Finnish-Estonian RM interaction. Helsinki, 2015.

32. Hearne M., Way A. Statistical Machine Translation: A Guide for Linguists and Translators // Language and Linguistics Compass, 2011, №5, P. 205-226.

33. Heyn M. Integrating MachineTranslation into Translation Memory Systems.// Proceedings of the EAMT Machine TranslationWorkshop, Vienna, Austria, 1996, P. 113--126.

34. Hutchins, 2000a -- John Hutchins. Hutchins J. The IAMT Certification Initiative and Defining Translation System Categories // Proceedings of 5th EAMT Workshop, Slovenia, 2000.

35. Hutchins, 2000b -- John Hutchins. Petr Petrovich Troyanskii (1894-1950): A forgotten pioneer of mechanical translation. // Machine Translation, vol. 15 no. 3, 2000. P. 187--221.

36. Jehl L. Machine translation for Twitter. Master's thesis. The University of Edinburgh, 2010.

37. Koehn, P. Statistical Machine Translation. Cambridge, UK, 2010.

38. Koponen M., Salmi L. On the correctness of machine translation: A machine translation post-editing task. // The Journal of Specialised Translation, 2015, №23, P. 118--136.

39. Koppel M., Ordan N. Translationese and its dialects. // Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Techologies, Portland, Oregon, 2011, P. 1318--1326.

40. Kurokawa D., Goutte C., Isabelle P. Automatic detection of translated text and its impact on machine translation. // Proceedings of MT-Summit XII, 2009, P. 81--88.

41. Lembersky G., Ordan N., Wintner S. Improving statistical machine translation by adapting translation models to translationese. // Computational Linguistics, 2013, №39(4), P. 999--1023.

42. Llitjґos A., Carbonell J., Lavie A. A framework for interactive and automatic refinement of transfer-based machine translation. // Proceedings of the 10th Annual Conference of the European Association for Machine Translation (EAMT), Budapest, Hungary, 2005.

43. Sager J. C. Language Engineering and Translation: Consequenses of Automation. Amsterdam, 1994.

44. Silva J., Rodrigues J., Gomes L., Branco A. Bootstrapping a hybrid deep MT system. Lisbon, 2015.

45. Somers H. L. Intoduction // Computers and Translation: A Translator's Guide. Amsterdam, 2003.

46. Twitto-Shmuel, N., Ordan, N., Wintner, S. Statistical machine translation with automatic identification of translationese. // Proceedings of WMT-2015, 2015

47. Viera A., Garrett J. Understanding interobserver agreement: The Kappa Statistic. // Family Medicine, 2005, №37, P. 360-363.

48. Vilar D., Jia Xu, D'Haro L., Ney H. Error Analysis of Machine Translation Output. In International Conference on Language Resources and Evaluation, pages 697--702, Genoa, Italy, 2006.

49. Zhang Y., Vogel S., Waibel A. Interpreting BLEU/NIST Scores: How Much Improvement do We Need to Have a Better System? // Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC-2004), Lisbon, Portugal, 2004.

50. Zhechev V., Genabith V. Seeding Statistical Machine Translation with Translation Memory Output through Tree-Based Structural Alignment. // Proceedings of the 4th Workshop on Syntax and Structure in Statistical Translation, Beijing, China, 2010, P. 43--51.

ИНТЕРНЕТ-ИСТОЧНИКИ

51. Сайт Европейской ассоциации машинного перевода EAMT. European Association for Machine Translation EAMT.

URL: http://www.eamt.org/mt.html (дата обращения: 6.01.2016)

52. Сайт Джона Хатчинса.

URL: http://www.hutchinsweb.me.uk/history.htm (дата обращения: 6.01.2016)

53. Лекция о системах МП - Системы автоматического (машинного) перевода текста. История, основные сведения, описание. Лекция №13.

URL: http://itclaim.ru/Education/Course/Lingvistika/Lecture/Lecture13.pdf (дата обращения: 9.11.2015).


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.