Анализ особенностей машинного перевода (на материале финских текстов разных функциональных стилей)

Определение понятия перевода как вида человеческой деятельности. Системы, основанные на правилах. Статистический машинный перевод. Гибридные системы машинного перевода. Ошибки, вызванные отсутствием или некорректной предварительной обработкой запроса.

Рубрика Иностранные языки и языкознание
Вид дипломная работа
Язык русский
Дата добавления 31.10.2017
Размер файла 476,6 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Санкт-Петербургский государственный университет

Кафедра математической лингвистики

Выпускная квалификационная работа

Направление: «Лингвистика»

Образовательная программа: «Прикладная и экспериментальная лингвистика»

АНАЛИЗ ОСОБЕННОСТЕЙ МАШИННОГО ПЕРЕВОДА

(на материале финских текстов разных функциональных стилей)

Работа соискателя на степень

магистра филологии

Прохоровой Александры Алексеевны

Научный руководитель:

к. филол. наук, доц. М. В. Хохлова

Санкт-Петербург - 2016

ОГЛАВЛЕНИЕ

  • ВВЕДЕНИЕ
  • 1. МАШИННЫЙ ПЕРЕВОД
    • 1.1 Определение понятия перевода как вида человеческой деятельности
    • 1.2 Определение понятия машинного перевода
    • 1.3 История развития машинного перевода
    • 1.4 Типы систем МП
      • 1.4.1 Память переводов (Translation Memory)
      • 1.4.2 Системы, основанные на правилах (классические системы)
      • 1.4.3 Статистический машинный перевод
      • 1.4.4 Гибридные системы машинного перевода
    • 1.5 Практическое применение систем машинного перевода
    • 1.6 Перспективы развития систем машинного перевода
    • 1.7 Выводы
  • 2. ОЦЕНКА КАЧЕСТВА МАШИННОГО ПЕРЕВОДА
    • 2.1 Качество перевода
      • 2.1.1 Экспертная оценка
      • 2.1.2 Автоматическая оценка
    • 2.2 Типология ошибок машинного перевода
      • 2.2.1 Пропущенные слова
      • 2.2.2 Неправильный порядок слов
      • 2.2.3 Неверные слова
      • 2.2.4 Неизвестные слова
      • 2.2.5 Пунктуация
    • 2.3 Выводы
  • 3. АНАЛИЗ РАБОТЫ СТАТИСТИЧЕСКОЙ СИСТЕМЫ МП
    • 3.1 Корпус и процентное соотношение ошибок
    • 3.2 Причины возникновения ошибок
      • 3.2.1 Ошибки, вызванные отсутствием или некорректной предварительной обработкой запроса
      • 3.2.2 Ошибки, связанные с содержанием параллельного корпуса
      • 3.2.3 Ошибки, связанные с особенностями языков
      • 3.2.4 Ошибки, связанные с работой алгоритма системы перевода
    • 3.3 Выводы
  • ЗАКЛЮЧЕНИЕ
  • СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
  • ВВЕДЕНИЕ
  • Инструменты машинного перевода (МП), позволяющие работать с текстами онлайн и осуществлять быстрый перевод, служат для интернет-пользователей средством коммуникации. У таких инструментов есть ряд недостатков -- ни одна из таких платформ, существующих в настоящее время, не является оптимальной с точки зрения скорости, правильности и стоимости перевода [Борисова, 2013; Аматов, 2008].
  • Зачастую результаты работы онлайн-инструментов требуют постредактирирования [Борисова, 2014; Новожилова, 2014], и эффективно могут использоваться только теми, кто в какой-то степени владеет принимающим языком и языком-источником.
  • Другой проблемой является то, что не для всех малых языков существуют хорошо разработанные автоматические переводчики. Большинство систем при работе с некоторыми парами языков используют язык-посредник (обычно английский язык). Иначе говоря, перевод осуществляется не напрямую: сначала происходит трансфер текста с языка-оригинала на английский, а уже потом -- на необходимый язык перевода, что во многом влияет на качество перевода [Новожилова, 2014].
  • В этой ситуации нам кажется актуальной задача развития систем машинного перевода для тех языков, которые до сих пор не были достаточно автоматизированы. Так, до недавнего времени для перевода в паре финский-русский язык не существовало такой системы, которая бы не использовала язык-посредник. Это определяет актуальность нашей работы. Ее практическая значимость обусловлена тем, что разработанные нами классификация и рекомендации могут быть использованы при создании и усовершенствовании систем машинного перевода.
  • Мы выбрали для работы онлайн-переводчик PROMT, во-первых, потому что на данный момент прямой перевод между русским и финским языком, без использования языка посредника, может осуществлять только этот инструмент, во-вторых, по той причине, что в нашем доступе оказались данные реальных пользовательских запросов. Более того, компания начинает активно внедрять статистические технологии, и это один из их первых проектов, над которым началась работа в 2005 году. Для английского и русского языков компания уже сейчас ведет разработки гибридных подходов. Мы верим, что с богатым и успешным опытом компании в области классического перевода «по правилам», при дальнейшем использовании статистических методов, у PROMT есть большой потенциал также и в области гибридного перевода.
  • Мы считаем что, идентификация основных проблем системы перевода -- это важный шаг в направлении дальнейших исследований.
  • Целью нашей работы является анализ особенностей перевода, связанных с работой статистического машинного переводчика PROMT в паре языков русский-финский.

Для достижения поставленной цели нами были решены следующие задачи:

- изучена история развития систем МП, описаны типы систем МП и рассмотрены принципы их работы;

- исследованы понятие «качества перевода» и способы оценки качества перевода;

- проанализированы типы ошибок, появляющиеся при работе системы PROMT, и дана их классификация;

- дана оценка результатам эксперимента, рассмотрены причины возникающих ошибок и определены дальнейшие пути развития.

В первой главе дается краткий обзор истории машинного перевода, приведены несколько классификаций существующих систем МП, далее подробно расписаны принципы работы перевода по правилам, статистического перевода и гибридных подходов, приведены плюсы и минусы таких систем.

Вторая глава посвящена оценке качества МП, разбираются стандартные методы оценки качества перевода (такие как экспертная оценка, метрики BLEU, NIST и WER) ставится вопрос об интерпретации результата такой оценки, приводится стандартная классификация типов ошибок.

В третьей главе мы описываем практическую часть нашей работы, приводится классификация систематических ошибок на основании возможных причин их появления, даются рекомендации относительно улучшения работы СМТ с помощью дополнительных инструментов.

Благодарим компанию «ПРОМТ» за предоставленные нам для работы данные пользовательских запросов и возможность участвовать в разработке этого переводческого инструмента.

1. МАШИННЫЙ ПЕРЕВОД

1.1 Определение понятия перевода как вида человеческой деятельности

перевод машинный гибридный запрос

Перевод как один из видов языковой деятельности представляет собой процесс адекватной и полноценной передачи мыслей, высказанных на одном языке, средствами другого языка [Нелюбин, 2011, c.138]. Перевод -- это сложный и многогранный вид человеческой деятельности. В процессе перевода происходит столкновение не только языков, но и культур.

Данные переводоведения используются в областях культурологи, этнографии, истории и литературоведенья. В свою очередь, в науке о переводе могут выделяться культурологические, когнитивные, психологические, литературные и прочие аспекты [Комиссаров, 2002, c.22].

Л. С. Бархударов, один из основоположников отечественной теории перевода, дает следующее определение: «Переводом называется процесс преобразования речевого произведения на одном языке в речевое произведение на другом языке при сохранении неизменного плана содержания, то есть значения» [Бархударов, 1975, c.11]. Процесс перевода -- это также и процесс передачи информации, содержащейся в произведении речи, средствами другого языка [Ахманова, 1969, c.316].

По словам И. Р. Гальперина при переводе должно передаваться не только смысловое содержания текста, но и его стилистические особенности [Гальперин, 1987, c.20]. Перевод можно рассматривать, как вид коммуникативной деятельности [Колшанский, 1980, c.112], а перевести что-то на другой язык -- «значит выразить верно и полно средствами одного языка то, что уже выражено ранее средствами другого языка» [Федоров, 2002, c.10]. Л. К. Латышев считает, общественное предназначение перевода заключается в том, чтобы в максимальной степени приблизить опосредованную двуязычную коммуникацию по полноте, эффективности и естественности общения к обычной одноязычной коммуникации [Латышев, 1988, c.7].

Некоторые исследователи определяют перевод через требования, предъявляемые переводчику:

1. «Он должен понимать слово в оригинале и по смыслу, и по стилю»;

2. «Он должен преодолеть различия между двумя лингвистическими структурами»;

3. «Он должен в своем переводе воссоздать стилистическую структуру оригинала» [Найда, 1978, c.121].

Другие определяют его через требования, которым должен удовлетворять сам текст перевода:

1. передавать смысл,

2. передавать дух и стиль оригинала,

3. обладать легкостью и естественностью изложения,

4. вызывать равнозначное впечатление

[там же].

1.2 Определение понятия машинного перевода

Рассмотрим, каким образом машинный перевод (МП) вписывается в наше представление о переводе. Как это ни парадоксально, но на данный момент с практической точки зрения машинный перевод остается процессом человеческой деятельности.

Термин «машинный перевод» многозначен. За долгую историю использования он приобрел множество интерпретаций. Сначала этот термин подразумевал только автоматические системы, работающие без участия человека [Sager, 1994, c.326]. Европейская ассоциация машинного перевода дала следующее определение: «использование компьютера для перевода текста с одного естественного языка на другой язык» [Сайт Европейской ассоциации машинного перевода EAMT]. А Международная ассоциация машинного перевода (IAMT) определяет машинный перевод как «единовременный ввод полного предложения и генерирование соответствующего ему полного предложения» [Hutchins, 2000a]. Ни одно из этих определений не предполагает вмешательства человека.

Академические ученые и исследователи до сих пор расходятся во взглядах на определение машинного перевода в отношении участия человека в этом процессе. В данный момент этот термин продолжает использоваться для обозначения полностью автоматизированных систем пусть даже и с участием человека [Somers 2003: c.1--11].

Машинный перевод -- это выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст на другом языке, а также результат такого действия [Фролов, 2008, c.127].

Толковый переводоведческий словарь Л. Л. Нелюбина определяет машинный перевод следующим образом:

1. Автоматический перевод текста на основе заданной программы, осуществляемой ЭВМ.

2. Отрасль языкознания, разрабатывающая теорию такого перевода на основе коренного пересмотра основных положений и методов лингвистики.

3. Автоматизированная обработка информации в условиях двуязычной ситуации -- передача текста с одного человеческого (естественного) языка на другой.

4. Перевод с использованием машин (ЭВМ, компьютера).

5. Общий процесс переработки информации в условиях двуязычной ситуации на любом этапе использования (и развития) технических средств.

6. Процесс перевода текста с одного языка (естественного или искусственного) на другой (естественный или искусственный), осуществляемый на электронной цифровой вычислительной машине

[Нелюбин 2011 c.107].

1.3 История развития машинного перевода

Идея машинного перевода, т.е. мысль о том, чтобы поручить машине работу по переводу с одного естественного языка на другой, насчитывает к настоящему времени уже около пятидесяти лет существования. Примерно столько же лет ведутся научно-исследовательские работы по машинному переводу во многих странах мира [Марчук, 2007, c.245].

Начиная с 40-х годов ХХ века, с момента создания первой ЭВМ, машинный перевод являлся одной из задач, которую ученые собирались решить в кратчайшие сроки [Baker, 2001].

Первые опыты специалистов из IBM основывались главным образом на словарном (прямом) методе и были весьма, успешными для малого (250) количества входных предложений.

Это подкрепило уверенность в том, что проблема машинного перевода -- простая для решения задача. Но, после проведения дальнейших исследований, ученые обнаружили, что задача машинного перевода вовсе не является тривиальной [Кан, 2011].

Чарльз Бэббидж первым высказал мысль о возможности МП. В середине 19 века он работал над проектом цифровой аналитической машины. Это был механический прототип ЭВМ, которые потом появились только через 100 лет. Идея Бэббиджа состояла в том, что такую машину можно использовать для хранения словарей. Бэббидж привел эту идею в качестве обоснования для запроса у английского правительства средств, необходимых для физического воплощения машины, которую ему так и не удалось построить [Шаляпина, 1996, c.105].

Джон Хатчинс -- один из самых активных историков машинного перевода на западе [Сайт Джона Хатчинса]. Согласно Хатчинсу пионером в области машинного перевода был Пётр Петрович Троянский, предложивший схему механического устройства перевода. Троянский был незаслуженно забыт мировым научным сообществом. Первые ЭВМ («БЭСМ» и «Стрела») стали использоваться для работы в СССР в 1952-53 годах уже после его ухода [Hutchins, 2000b].

Машинный перевод начали воспринимать как отдельную исследовательскую область после марта 1947 года. Тогда, Уоррен Уивер, специалист по криптографии, в своем письме Норберту Винеру сформулировал задачу машинного перевода, сравнив ее с задачей дешифровки.

В 1949 г. Уивер составил меморандум, в котором смог обосновать, каким образом возможно осуществить МП. Уивер писал: «I have a text in front of me which is written in Russian, but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text» («У меня есть текст, написанный на русском языке, но я сделаю вид, что он написан по-английски и закодирован при помощи странных символов. Тогда все, что мне нужно сделать, -- это разгадать код, чтобы извлечь информацию, заключенную в тексте») [Слокум, 1989, c.56--58]. Позже идеи Уивера легли в основу подхода к МП, основанного на концепции интерлингвы (interlingva). При таком подходе стадия передачи информации разделена на два этапа. На первом этапе исходное предложение переводится на язык-посредник (созданный на базе упрощенного языка), а затем результат этого перевода представляется средствами выходного языка [Лекция о системах МП].

В 1952 г. состоялась первая конференция по МП в Массачусетском технологическом университете, а первые эксперименты по машинному переводу, подтвердившие принципиальную возможность его реализации, были проведены в 1954 г. в Джорджтаунском университете (г. Вашингтон, США). Тогда была представлена первая полноценная система машинного перевода -- IBM Mark II. Это событие вошло в историю как «Джорджтаунский эксперимент». Очень ограниченная в своих возможностях система прекрасно справилась с переводом 49 специально подобранных предложений с русского языка на английский с использованием словаря на 250 слов и шести грамматических правил [там же].

В СССР первый эксперимент по МП был осуществлен И. К. Бельской и Д. Ю. Пановым в Институте точной механики и вычислительной техники АН СССР в 1954 г. [там же].

В истории МП было несколько поворотных моментов, которые определили его развитие на долгие годы, и несколько моментов, которые привели к затишью в области на многие годы. Одной из таких поворотных точек стал доклад ALPAC, содержавший объективную оценку состояния МП в 60-е годы XX века, показавший насколько сложной задачей является машинный перевод на самом деле [Онлайн версия доклада ALPAC, 1966].

Результатом этого доклада стала идея того, что разработка систем машинного перевода нерентабельна. Это фактически привело к прекращению работ над системами машинного перевода. Однако, благодаря постоянному прогрессу вычислительной техники, исследования в этой области вновь возобновились в 70-е годы, а в конце 80-х началась разработка первых статистических систем [Молчанов, 2013].

Системы перевода разрабатывались в разных странах по всему миру: США, Германия, Франция, Россия, Япония. Из наиболее известных масштабных исследовательских проектов в области МП в Советском Союзе и России нужно отметить систему МП ЭТАП [Кан, 2011б с.71].

В СССР в 70-х годах разработку основ технологии машинного перевода продолжила группа специалистов в ВИНИТИ под руководством профессора Г. Г. Белоногова [Карасев, 2011]. В результате в 1993 г. была создана первая российская промышленная версия системы RETRANS фразеологического машинного перевода с русского языка на английский и обратно, которая применялась в министерствах обороны, путей сообщения, науки и технологий, а также во ВНТИЦ [Карасев, 2011].

Первые коммерческие продукты машинного перевода, нашедшие практическое использование, появились в середине 80-х годов. Тогда МП стал экономически выгодным. Стоимость персональных компьютеров (ПК) понизилась, и к ним стало проще получить доступ, количество пользователей ПК увеличилось. Системы МП были реализованы на персональных компьютерах и являлись системами прямого перевода, возможности которых базировались на огромных (по сравнению с первыми системами) словарях, а не на умении анализировать и синтезировать тексты.

Одной из новых разработок 70-80-х годов стала технология TM (translation memory -- «память переводов», или «переводческая память»), Такая «память», работает почти как человеческая память, по принципу накопления. Каждый раз при переводе сохраняется исходный текст и его перевод, из всех таких переводов создается лингвистическая база данных, которую затем можно использовать при последующих переводах. Инструменты TM сейчас активно используются большинством переводческих компаний.

Технологии МП начали развиваться еще активнее в 90-е годы. Популяризация интернета и высокий уровень возможностей персональных компьютеров обеспечили реальный спрос на МП. Так МП снова стал привлекательным для инвесторов и выгодным для разработки.

В ходе своего развития, алгоритмы МП перешли от прямого (словарного) метода к методу трансфера, а затем и к понятию интерлингвы. В итоге алгоритмы МП поделились на две группы: статистические подходы, основанные на входном корпусе данных (Data Driven Machine Translation), и классические (основанные на правилах), изучающие каждый язык во всей его лингвистической полноте (Rule Based Machine Translation) [Кан, 2011].

Сейчас основные исследования ведутся в области статистического МП [Hearne, 2011], а системы МП, основанные на правилах, считаются устаревающими. В российской литературе ситуация прямо противоположная: классические подходы привлекают значительно большее внимание специалистов [Кан, 2011].

Оба фундаментальных подхода имеют свои недостатки. Классические методы очень трудоёмки, а качество работы статистических подходов напрямую зависит от качества входного корпуса. Самые последние разработки ведуться в области гибридных систем, делающие попытку вобрать лучшие характеристики классического и статистического МП, минимизируя их недостатки [там же].

На данный момент наиболее известной и распространённой в мире системой МП является СМП компании Systran и компании Google. В России на текущий момент аналогом является СМП компании «ПРОМТ» [там же].

1.4 Типы систем МП

Классификацию систем машинного перевода можно произвести по разным основаниям [Беляева, 2007]. Например, можно выделять системы:

1. по количеству языков (бинарные, осуществляют перевод в одной паре языков, и многоязычные, работают с несколькими языками);

2. по направленности перевода (однонаправленные и многонаправленные, если целевой язык и язык-источник могут меняться местами в зависимости от требований пользователя);

В зависимости от того, какую роль играет человек в процессе МП, иными словами, по степени автоматизации, обычно выделяют три типа систем машинного перевода:

1. Полностью автоматические системы машинного перевода

2. МП-системы, машинный перевод при участии человека

3. TM-системы, перевод осуществляется человеком, при использовании компьютера

Полностью автоматические системы машинного перевода являются скорее несбыточной мечтой, чем реальной идей. Все системы машинного перевода (МП-системы) работают при участии человека в той или иной мере. Чтобы компьютер мог перевести текст, ему нужна помощь предредактора, который тем или иным образом предварительно обрабатывает подлежащий переводу текст, интерредактора, который участвует в процессе перевода, и постредактора, который исправляет ошибки и недочеты в переведенном машиной тексте [Рябцева, 1986, c.167].

TM-системы иногда называют еще «памятью переводов». Они являются скорее просто удобным инструментом, нежели элементом автоматизации.

Другой вариант классификации систем МП, пришедший из области корпусной лингвистики, -- это разделение на подходы, в которых используются параллельные корпуса и, соответственно те, в которых они не используются. Системы, использующие корпуса, далее делятся в зависимости от основной стратегии перевода -- на системы, основанные на примерах (EBMT), и статистические системы (SMT) [Hearne, 2011].

Самый простой и распространенный вариант классификации - это разделение на два основных типа систем МП [Молчанов, 2013]:

· основанные на правилах (rule-based machine translation, RBMT)

· статистические

Отдельно стоят гибридные системы, которые призваны сочетать в себе лучшие черты систем, основанных на правилах, и статистических систем.

1.4.1 Память переводов (Translation Memory)

Технология памяти переводов (Translation Memory или TM) использует правила перевода и сравнивает входной документ с текстами из постоянно пополняющейся базы переводов. Находя совпадения, программа предлагает ранее одобренный вариант [Карасев, 2011].

В процессе перевода сохраняется исходный сегмент текста (предложение) и его перевод; если подобный исходному сегмент обнаруживается, он отображается вместе с переводом и указанием совпадения; затем переводчик принимает решение (редактировать, отклонить или принять перевод), результат которого сохраняется системой [Лекция о системах МП].

1.4.2 Системы, основанные на правилах (классические системы)

Технология этого перевода состоит в применении алгоритмов, в соответствии с которыми программа анализирует текст и на основе проведенного анализа синтезирует вариант перевода.

Считается, что работа такого машинного переводчика похожа на процесс мышления человека [Новожилова, 2014].

Стандартный алгоритм действий над входным предложением в такой системе следующий: -- морфологический анализ -- поиск частей речи, определение входных словоформ (рода, числа, падежа, спряжения); -- поиск идиом, фразеологизмов для данной предметной области и исключение их из дальнейшего анализа; -- синтаксический анализ -- разбор структуры, нахождение членов предложения -- подлежащего, сказуемого, дополнения, обстоятельства.-- лексический анализ -- отделение однозначных входных слов (лексем) от многозначных (имеющих несколько переводных эквивалентов); -- грамматический анализ -- доопределение грамматической информации с учетом данных выходного языка; -- синтез выходного предложения (перевода) [Карасев, 2011].

В системах, основанных на правилах (RBMT), можно выделить два основных подтипа: трансферные и системы-интерлингвы.

Трансферные системы машинного перевода распространены более широко, чем системы-интерлингвы. Они работают по следующим принципам: проводится морфологический, лексический и семантико-синтаксический анализ предложения на языке оригинала, создается синтактико-семантическое дерево разбора входного предложения, затем производится так называемый «трансфер», т. е. преобразование структуры входного предложения в соответствии с формальными требованиями языка перевода. На заключительном этапе синтеза формируется конечное предложение на языке перевода. Основанная на правилах система перевода PROMT является классическим примером трансферных систем [Молчанов, 2013].

В основе систем-интерлингв лежит теория о том, что любое предложение любого языка можно преобразовать в его смысловое представление на универсальном метаязыке. Далее, используя полученное смысловое представление, можно синтезировать предложение на языке перевода. Любой текст можно преобразовать в смысл, и любой смысл в текст, используя ряд правил и семантичсекий словарь. Интерлингвы требуют очень долгой разработки и создания огромных баз знаний о языке [там же].

Системы, основанные на правилах, обладают рядом общих характеристик. Все они включают в себя словари и формальные грамматики, т. е. наборы правил морфологического, семантического и синтаксического анализа языка. С точки зрения разработки ииспользования, такие системы обладают рядом преимуществ и недостатков.

К достоинствам таких систем можно отнести высокое качество, стабильность и предсказуемость машинного перевода.

Недостатки таких систем включают высокую стоимость разработки и поддержки лингвистических алгоритмов и словарей, а также большое количество времени, необходимое для лексической настройки системы для отдельного клиента или новой предметной области. Кроме того, при высокой точности основанный на правилах перевод обладает определенным «машинным» акцентом, т. е. часто выглядит неестественно.

Существует также и проблема нарастающей сложности. Описать язык во всей его полноте -- очень трудная задача, за счет того, что каждый следующий уровень языка оказывается на порядок сложнее предыдущего, и за рамками описания всегда остаются некоторые лингвистические явления.

Современные RBMT-системы обычно включают в себя общетематические словари (объемом от нескольких десятков до нескольких сотен тысяч статей) и специализированные словари по отдельным тематикам (объемом до нескольких десятков тысяч статей). Производительность RBMT- систем машинного перевода зависит от различных параметров (среди которых количество и сложность грамматических правил, объем и количество используемых словарей) и обычно варьируется от нескольких слов до нескольких сотен слов в секунду [там же].

1.4.3 Статистический машинный перевод

Статистический МП опирается на предположение, что сказав что-то однажды, человек с некоторой вероятностью повторит это вновь [Кан, 2011].

Подход, используемый в статистическом МП, заключается в анализе колоссального массива параллельных текстов. С помощью этого двуязычного параллельного корпуса выявляются пары фраз на двух языках, которые несут один смысл. При этом использование каких-то дополнительный грамматических правил не предусматривается [Карасев, 2011].

Задача машинного перевода в этом случае на общем уровне может быть сформулирована как задача максимизации условной вероятности P(e|f), что обозначает условную вероятность предложения на языке Е при заданном предложении на языке F, eЃёE, fЃёF.

Для выполнения этой задачи можно использовать теорему Байеса. Формула Байеса или теорема Байеса -- одна из основных теорем элементарной теории вероятностей. Она позволяет определить вероятность чего-либо, какого-либо события при условии, что произошло другое статистически взаимозависимое с ним событие.

Тогда, применяя теорему Байеса, можно записать:

Где

Р(е) -- априорная вероятность гипотезы е;

P(e|f) -- вероятность гипотезы е при наступлении события f;

P(f|e) -- вероятность наступления события f при истинности гипотезы e;

P(f) -- полная вероятность наступления события f

Для максимизирования условной вероятности слева нужно максимизировать величину справа. Следующее уравнение называют фундаментальным уравнением машинного перевода [Кан, 2011]:

В этом уравнении вероятность P(e|f) называется моделью перевода, а Р(е) -- языковой моделью. Построение этих моделей является частью обучения статистической системы МП.

Для использования системы статистического МП ее нужно сначала обучить. Процесс обучения подразумевает создание двух моделей: статистической модели перевода на основании параллельного корпуса и статистической модели принимающего языка на основе (зачастую намного большего) одноязычного корпуса [Brown, 1993].

Модель перевода строится по двуязычному выровненному корпусу, то есть такому корпусу, где каждое предложение на языке F имеет перевод на языке Е. Другое название такого корпуса -- параллельный корпус.

Построение такого корпуса является отдельной научной задачей, а получение параллельных текстов в автоматическом режиме -- также и практической (например, сканирование сети Интернет в поисках страниц, переводящих друг друга). Получение двуязычного корпуса на практике сводится к анализу форматов оцифрованных книг-переводов друг друга, а также к индексированию Интернета с целью получения параллельных страниц. В этом случае возможно применение различных эвристик с распознаванием языка и поиска шаблонов в URL адресах, подобных URL/en и URL/ni. Более качественным и, соответственно, дорогим способом получения параллельного корпуса является ручная разметка. Одним из наиболее популярных источников параллельных корпусов для пар европейских языков является корпус Europarl [Кан, 2011].

Модель перевода составляет двуязычный словарь, где для каждого возможного перевода конкретной единицы языка-источника указана вероятность такого перевода [Hearne, 2011].

Такая модель отличается от обычного словаря, где присутствуют только правильные переводы; в этой модели будут присутствовать и маловероятные переводы. Так, лучшим переводом будет считаться самый вероятный, при этом «лучший» не означает полностью правильный [там же].

Языковая модель создает базу данных типичных цепочек слов (последовательностей словоформ) в принимающем языке (обычно от 1 до 7 слов), для каждой из которых указывается вероятность появления [там же].

После того, как система была обучена, можно начинать процесс декодирования, то есть непосредственно использовать систему для перевода. Когда система получает запрос от пользователя, переводческая модель генерирует возможные варианты перевода, а языковая модель выбирает такой перевод, который больше всего напоминает текст, написанный на естественном языке.

Когда говорят о статистическом МП, обычно имеют в виду фразовые переводчики (Phrase-based translation -- PBT).

До появления фразовых переводчиков, стандартом считались системы пословного перевода (Word-based translation -- WBT). В таких системах каждое слово переводится отдельно, в том порядке, в каком они встречаются в тексте, без учета синтаксических и логических связей. Появление фразовых переводчиков, позволило учитывать цепочки словоформ различной длины. В системе фразового перевода входное предложение делится на сегменты, (фразы, цепочки словоформ, n-граммы) которые переводятся отдельно. Фраза может состоять из одного и больше слов [Jehl, 2010б с.4].

Такая система позволяет легко решить проблему, когда в принимающем языке и языке источнике для некоторых слов нет точных соответствий.

В системах пословного перевода для решения этих проблем приходится водить новые сложные стратегии, такие как например нулевые слова [Jehl, 2010].

Система фразового перевода имеет следующие превосходства:

1. Позволяет разрешать лексическую неоднозначность при переводе полисемантических слов, учитывая дополнительную контекстуальную информацию

2. При увеличении количества тренировочной информации, информации в тренировочном корпусе, система может учить все более длинные фразы. Таким образом, фразовые переводчики используют тренировочные данные более эффективно [Koehn, 2010].

Многие годы фразовые системы перевода показывают лучшие результаты в области МП. В первую очередь, это связано с наличием огромных параллельных корпусов. Но необходимость использования такого большого объема данных может быть проблематична при работе с языками, для которых этих данных просто нет. Статистический перевод как подход имеет и другие внутренние ограничения [Silva, 2015, с.13].

Основанные проблемы статистического перевода связаны с использованием ограниченной лингвистической абстракции (limited linguistic abstraction), трудностям перевода определенных конструкций, как, например, получение правильного порядка слов при переводе между языками разных типов или сохранение семантического единства в выходном тексте [Silva, 2015].

К минусам статистических систем МП также можно отнести большое количество грамматических ошибок. Отдельные словосочетания при статистическом переводе получаются более точными и изящными, но грамматика хромает: иногда предложения настолько несогласованны, что невозможно понять их смысл [Карасев, 2011].

Другой проблемой является необходимость наличия представительных параллельных корпусов большого объема.

Чистая система статистического перевода без дополнительных инструментов не распознает сложные синтаксические связей, неверно определяет сказуемое, объектные, атрибутивные и другие отношения в предложении. Так, выполненные переводы могут представлять собой произвольный набор слов и словосочетаний, не объединенных смысловыми связями [Новожилова, 2014].

В целом, статистические методы перевода могут привлекать сложные алгоритмы и вероятностные модели, но главной их проблемой является то, что они не относятся к языку как к лингвистическому объекту. Они воспринимают тексты кк потоки данных, между которыми нужно найти есть соответствие.

Крупнейшие системы статистического машинного перевода, работающие с русским и финским языком -- это PROMT, Google Translate и Яндекс.Перевод.

1.4.4 Гибридные системы машинного перевода

Существует мнение, что корень подавляющего большинства проблем машинного перевода лежит в несоответствии систем языков, а скромные успехи в разработке программного обеспечения для перевода текстов не связаны с плохой работой программистов или компьютерных техников, а являются результатом плохой проработки этой проблемы с лингвистической стороны [Борисова, 2014]. Результатом этой идеи, стало развитие и разработка гибридных подходов.

Гибридные подходы становятся все более популярными, так как они сочетают лучшие качества подхода, основанного на правилах, и статистического подхода [Costa-jussа, 2015].

Машинный перевод -- это междисциплинарная область знаний, а к решению задач машинного перевода можно подходить с разных точек зрения, используя данные лингвистики или статистики. Именно существование разных подходов сделало возможным создание гибридных методов. Гибридные технологии фокусируются на том, чтобы взять все лучшие качества уже существующих подходов. В настоящее время, самые распространенный вариант гибридного переводчика -- это подключение правил к уже существующей системе статистического перевода (SMT). Тем не менее, проводятся также исследования, фокусирующиеся на улучшении работы систем, основанных на правилах (RBMT) с помощью дополнительной статистической информации. В настоящее время лингвисты, инженер-программисты и специалисты из области I.T. активно сотрудничают в области МП в ходе совместных семинаров, проводят эксперименты и разрабатывают архитектуру гибридных систем перевода. Например, один из таких семинаров HyTra (Workshop on Hybrid Approaches to Translation) проводится каждый год, начиная с 2012 [Costa-jussа, 2015].

Говоря о гибридных подходах, следует также упомянуть о новой уникальной технологии ABBYY Compreno, которая изначально развивалась как перевод по правилам. Сейчас она представляет собой многофункциональную лингвистическую технологию [Burukina, 2014]. Система состоит из двух основных и ряда дополнительных компонентов. Первый компонент -- это универсальное дерево понятий или универсальная семантическая иерархия. Все слова в паре языков являются листьями на этом дереве, между ними задаются отношения, информация о семантической сочетаемости. Второй компонент -- это синтаксический анализатор, который определяет структуру предложения и отношения между входящими в него словами. Для получения точного синтаксического анализа используются семантические данные о значении слов, которые хранятся в семантическом компоненте. Помимо этого Compreno использует статитистические методы, для снятия лексико-семантической омонимии и оценки вероятности встречаемости различных элементов лингвистического описания в текстовых корпусах.

1.5 Практическое применение систем машинного перевода

Системы МП непригодны для работы с текстами, содержащими большое количество сложносочиненных и сложноподчиненных предложений. Эти программы работают в основном на уровне словосочетания, и их можно успешно применять для перевода формализованных текстов, например технической документации, потребительских инструкций, формальных описаний и т. п., для которых характерно использование простых распространенных предложений и в которых не содержатся предложения со сложными синтаксическими конструкциями [Новожилова, 2014].

Целью использования машинного перевода может быть как получение перевода высокого качества, так и простая передача смысла исходного текста (так называемый «джистинг»). Машинный перевод применяется для перевода следующих типов текста: пользовательский контент (отзывы, комментарии и т. д.); документация (техническая, эксплуатационная, юридическая и т. д.); новостной контент; каталоги интернет-магазинов; личная и деловая переписка. К основным сферам применения машинного перевода относятся: локализация (ускорение и удешевление перевода больших объемов текста, например документации к ПО); оптимизация работы переводчиков и переводческих бюро (результат машинного перевода редактируется переводчиками); Интернет (электронная торговля, новостные и образовательные сайты) [Молчанов, 2013].

МП особенно востребован в коммерческой сфере продаж или рекламы товаров [Красных, 2011].

Системы МП являются хорошим подспорьем для специалистов различных профилей, нуждающихся в оперативных переводах иноязычной информации [Карасев, 2011].

Другое применение систем -- облегчение работы профессиональных переводчиков, выполнение такого перевода, который можно было бы исправить с помощью постредактирования. Такая технология позволяет увеличить количество переводимых в день слов с 2000 до 3500 единиц [Koponen, 2015].

Машинный перевод активно используется в области языковой локализации, где количество информации, которую требуется перевести, уже превышает реальные возможности людей переводчиков. Хотя процесс языковой локализации - это больше, чем просто перевод, тем не менее, качественный перевод является ключом к качественной локализации [Zhechev, 2010].

В настоящее время основные усилия прилагаются к уменьшению количества информации, которую переводчикам приходится переводить «с нуля». Таким образом, исследования ведутся в основном в области развития систем статистического машинного перевода (SMT) в качестве дополнения к уже сложившейся технологии памяти переводов (TM) [Zhechev, 2010].

На данный момент, профессиональные переводчики, использующие инструменты CAT, все еще с недоверием относятся к результатам работы SMT, по той причине, что в некоторых случаях постредактирование может занять больше времени, чем перевод «с нуля» [Zhechev, 2010].

В целом, SMT используется только в тех случаях, когда в результате работы TM не был получен качественный перевод [Heyn, 1996].

К основным факторам, затрудняющим машинный перевод, исследователи относят:

1. языковую неоднозначность, которая может быть как лексического, так и грамматического характера;

2. наличие сложных синтаксических структур, которые могут значительно различаться в языке оригинала и в языке перевода;

3. различия в порядке слов в предложении (прямой / обратный, строгий / свободный); наличие анафорических связей в тексте;

4. наличие идиом, смысл которых невозможно передавать посредством пословного перевода;

[Шевчук, 2013, c.222].

1.6 Перспективы развития систем машинного перевода

В настоящее время потребность в переводах растет. Увеличивается также необходимость выполнять переводы быстрее и уменьшить возможные затраты [Koponen, 2015].

Так, пользователи сети интернет ежедневно производят около миллиона запросов на перевод текстов в различных форматах [Беляева, 2007].

Если предположить, что дальнейшей направление развития систем МП будет двигаться в сторону гибридных подходов, использующих лингвистическую информацию, то это означает привлечение к работе над такими системами лингвистов и филологов. Это означает также, что необходимо обеспечить лингвистов необходимой информацией о том, как они могут повлиять на развитие этой области. Подобные руководства уже создаются [Hearne, 2011], и дальнейшее сотрудничество экспертов в области языка и специалистов в области информационных технологий может быть весьма продуктивно.

К наиболее обещающим направлениям развития статистического МП и его оценки можно отнести использование структурированной лингвистической информации (синтаксиса, иерархических структур и семантических ролей) при создании системы перевода, и разработки в области систем, которые могут выйти за пределы уровня предложений, и работать на уровне документов. Эти вопросы активно рассматриваются в области дискурсивного анализа [Guzmбn, 2014].

В идеале, система перевода должна подстраиваться под формат того, то именно она переводит. Можно предположить, что для перевода различных сайтов, например, потребуется разная стратегия перевода, относительно того, что нужно, а что не следует переводить, и какие лингвистические характеристике нужно сохранять [Jehl, 2010, с.21].

Признавая существующие недостатки, производители систем МП подчеркивают, что их программы не ориентированы на создание художественного текста. И заменить человека они не смогут даже в долгосрочной перспективе -- пока не будет создан полноценный искусственный интеллект [Карасев, 2011].

1.7 Выводы

Перевод -- это один из важнейших видов коммуникативной деятельности, передача информации, смыслового содержания и стилистических особенностей высказывания на одном языке средствами другого языка.

Изначально термин «машинный перевод» подразумевал только автоматические системы, работающие без участия человека. Но на данный момент с практической точки зрения машинный перевод остается процессом человеческой деятельности.

Машинный перевод -- это выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст на другом языке.

В ходе долгого развития алгоритмы машинного перевода (МП) поделились на две группы: статистические подходы, основанные на входном корпусе данных (Data Driven Machine Translation), и классические (основанные на правилах), изучающие каждый язык во всей его лингвистической полноте (Rule Based Machine Translation).

В настоящее время все большую популярность приобретают гибридные подходы, призванные соединить в себе плюсы классических и статистических подходов.

На данный момент системы МП непригодны для работы с текстами, содержащими большое количество сложносочиненных и сложноподчиненных предложений и качественно работают в основном на уровне словосочетания.

При этом системы МП являются хорошим подспорьем для специалистов различных профилей, нуждающихся в оперативных переводах иноязычной информации.

Системы также применяют для облегчения работы профессиональных переводчиков, для выполнения такого перевода, который можно было бы исправить с помощью постредактирования.

2. ОЦЕНКА КАЧЕСТВА МАШИННОГО ПЕРЕВОДА

2.1 Качество перевода

Когда мы говорим о качестве переводе вообще, важно понимать, что к переводу, выполненному человеком, будут предъявляться значительно более высокие требования. Так, при экспертной оценке перевода, выполненного человеком, рассматриваются такие детали как прагматика, соответствие перевода историческому и культурному контексту, стилистика и другие моменты, касающиеся создания правильного впечатления у читателя. При переводе определенной лексики могут рассматриваться даже оттенки значений некоторых слов. Рассматривать в таком же ключе машинный перевод представляется невозможным, хотя бы по той причине, что для осознания метаинформации, которую учитывает переводчик при своей работе, программа машинного перевода должна обладать искусственным интеллектом.

Оценка качества МП является сложной задачей, уже хотя бы потому, что для исходного текста может существовать множество различных правильных переводов.

Для оценки работы систем МП используются следующие методы:

· Экспертная оценка

· Автоматические методы

· Оценка с точки зрения конкретной задачи

Мы не станем подробно разбирать оценку с точки зрения конкретной задачи, по той причине, что она полностью зависит от целей исследования. В этом случае, могут рассматриваться такие вопросы, как, например, сколько времени уходит на постредактирование текста или насколько точно передается информация при переводе [Koehn, 2010].

2.1.1 Экспертная оценка

Иногда для оценки качества перевода, используется текст из узкой специальной области, и исследователь сам осуществляет оценку качества перевода, сопоставляя результаты работы нескольких систем [Новожилова, 2014; Борисова, 2014; Максименко, 2014].

Стандартная процедура оценки подразумевает больше одного эксперта.

Эксперты проводят субъективную оценку работы системы по двум параметрам: адекватность (adequacy) и гладкость текста (fluency). Для этого им предоставляют результаты работы системы МП, исходный текст и/или эталон перевода. Эталон перевода часто присутствует в том случае, если эксперт не владеет принимающим или исходным языком. Адекватность и гладкость текста оцениваются по шкале от одного до пяти. Адекватность в данном случае означает правильную передачу смысла исходного текста, а гладкость текста демонстрирует соответствие перевода нормам принимающего языка, правильность с точки зрения грамматики [Koehn, 2010].

Одна из проблем, возникающих при такой системе оценивания, это несогласие между экспертами. Эта проблема разрешается при использовании коэффициента каппа:

,

где p(A) -- доля случаев, когда эксперты дали одинаковую оценку, а p(E) -- вероятность того, что эксперты случайно дадут одинаковую оценку. Коэффициент Каппа равный единице будет означать полное согласие экспертов [Viera, 2005].

Существует также ранговая система оценки, когда перевод системы МП попарно сравнивается с переводами других систем в терминах «лучше» (один из переводов явно превосходит другой по качеству), «хуже» и «эквивалентно» (переводы принципиально не отличаются по качеству). В этом случае эксперты, как правило, более последовательны в своих оценках. Для достижения непредвзятости эксперты обычно не знают, результаты работы какой системы они оценивают.

2.1.2 Автоматическая оценка

Инструменты, использующиеся для автоматической оценки МП, в идеале, должны соответствовать следующим критериям: низкая стоимость работы, интуитивно понятные и значимые результаты, постоянство результатов при повторном использовании и, наконец, правильность оценки систем, которые работают лучше. Учитывается также скорость работы, возможность индивидуальной настройки под интересы пользователя и объем памяти, который требуется системе [Koehn, 2010].

Задача таких инструментов это, при наличии эталонного перевода и перевода, осуществленного МП, сравнить их и вычислить, насколько они похожи.

Для автоматической оценки работы машинных переводчиков зачастую используются показатель Word Error Rate или WER, метрики BLEU и NIST. Эти инструменты позволяют успешно сравнивать работу разных систем МП и оценивать улучшения в работе конкретной системы [Vilar, 2006]. Используются также метрики точность (precision), полнота (recall) и F-мера [Koehn, 2010].

Рассмотрим подробнее принципы их работы.

Word Error Rate, или взвешенное расстояние Левенштейна, позволяет измерять расстояние между машинным и образцовым переводом так же, как мы измеряем расстояние между словарным словом и словом с опечаткой (считая символами не буквы, а целые слова) [МП: обзор методов]. По сути WER измеряет минимальное количество изменений, которые необходимо сделать, чтобы из результата работы МП получить эталонный перевод [Koehn, 2010]. При этом WER может учитывать различные варианты эталонного перевода с разным порядком слов [Zhang, 2004].

По формуле взвешенного расстояния Левенштейна:

,

где

замена (substitutions): необходимость замены одного слова другим;

вставка (insertions): необходимость добавления слова;

удаление (deletions): необходимость удаления слова;

длина эталонного перевода (reference-length).

В случае с WER, чем меньше расстояние Левенштейна, тем лучше оценивается работа системы.

Метрика BLEU (Bilingual Evaluation Understudy) на данный момент самая популярная в современной оценке МП. Позволяет учитывать не только точность перевода отдельных слов, но и цепочек слов (n-граммы) [МП: обзор методов]. Метрика BLEU была разработана сотрудниками компании IBM и является одной из самых простых в использовании метрик оценки машинного перевода. Алгоритм BLEU оценивает качество перевода по шкале от 0 до 100 на основании сравнения машинного перевода с человеческим и поиска общих слов и фраз. Основная идея разработчиков метрики состоит в том, что чем лучше машинный перевод, тем больше он должен быть похож на человеческий [Молчанов, 2013].

Вариант метрики BLUE с ограничением до 4-грамм выглядит следующим образом:

,

где

precision -- отношение количества корректных i-грамм к общему количеству i-грамм в переводе;

output -- lenght -- длинна перевода, который оценивает метрика;

reference -- length -- длинна эталлоного перевода;

Лучше всего такая метрика работает не на уровне предложений, а на уровне большого текста. На маленьком объеме текста метрика зачастую обнуляется из-за отсутствия совпадающих 4-грамм и работает некорректно. Существуют также доработанные варианты метрики, которые подходят для сравнения на уровне предложения.

Метрика NIST была разработана на основе BLEU, но имеет одно фундаментальное отличие. Если для получения высокой оценки BLEU важнее правильный порядок слов, то NIST выше оценивает правильный выбор лексики [Zhang, 2004].


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.