Экспериментальное исследование эволюции автоматического перевода научно-технических текстов

Исследования эволюции и оценка эффективности систем машинного перевода. Рассмотрение возможности перевода научно-технических текстов машинными переводчиками без участия профессионального переводчика. Основные проблемы перевода научно-технического текста.

Рубрика Иностранные языки и языкознание
Вид дипломная работа
Язык русский
Дата добавления 23.12.2019
Размер файла 776,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Правительство Российской Федерации

Федеральное государственное бюджетное образовательное учреждение высшего образования

"Санкт-Петербургский государственный университет"

Выпускная квалификационная работа

на тему:

Экспериментальное исследование эволюции автоматического перевода научно-технических текстов

Исполнитель: Агафонова Виктория Борисовна

Научный руководитель:

к.ф.н., доц. Шамина Е.А.

Санкт-Петербург 2018

Содержание

Введение

Глава 1. Основные понятия машинного перевода

Глава 2. Исследования эволюции и оценка эффективности систем машинного перевода

2.1 Основные проблемы перевода научно-технического текста

2.2 Сравнительный анализ переводов, выполненных СМП и профессиональным переводчиком

Заключение

Список сокращений

Список использованной литературы

Введение

Технический бум последних лет и связанная с ним гонка за новейшими моделями техники приводит к тому, что появляется огромное количество текстов, которые сопровождают эту продукцию: руководства по эксплуатации, информация по техническому обслуживанию, рекламные брошюры, пресс-релизы, адресованные и потребителю, и производителю, и торговой и сервисной службе. Тексты, касающиеся импортных товаров, перед выпуском на российский рынок необходимо перевести на русский язык и локализовать.

С информационным взрывом и глобализацией всех видов коммерческой деятельности мир остро нуждается в компетентных переводчиках. Столкнувшись с огромными объемами документов, составленными или переводимыми на все большее количество разных языков, люди приходят к выводу о необходимости в использовании машинных ресурсов для перевода, так как его значительная часть является механической, рутинной и подавляющей воображение работой. Все виды машинного перевода неизбежно становятся глобальной индустрией в этой сфере.

Растущие практические требования к дешевому, быстрому, качественному автоматизированному способу перевода обуславливают актуальность данного исследования.

Перевод научно-технического текста является синтетическим действием, в идеале требующим равно высокой компетентности переводчика как в технике, так и в языке. Поскольку очень мало людей, которые одновременно хорошо разбираются в той технической сфере, к которой относится описываемый предмет, и одинаково хорошо владеют родным и иностранным языками, то и технический перевод, адресованный массовой аудитории, неизбежно становится принципиально коллективным продуктом. Перед профессиональным переводчиком, имеющим развитые навыки активной работы с разного рода текстами (устными и письменными), стоит задача придать материалу ясное звучание, формулировкам - четкость; он должен проверить фактический материал; устранить погрешности композиции, языка, стиля; адаптировать текст для той аудитории, которой он предназначен. Все вышеописанные трудности, связанные с переводом научно-технических текстов обуславливают его стоимость.

Все большее количество компаний-производителей нуждаются в быстром, качественном и недорогом переводе научно-технической литературы: ассортимент продукции расширяется, производимые модели постоянно обновляются, что предполагает выпуск большого количества инструкций по эксплуатации и обслуживанию технических единиц.

Для исследования развития и дальнейшего оценки эффективности систем машинного перевода (СМП) была выбрана инструкция по эксплуатации и техническому обслуживанию определенных моделей генераторного агрегата компании Thermo King. Выбор технической литературы связан с практической значимостью: американская компания Thermo King, занимающая лидирующее положение в мировых масштабах, имеет представительство в Северной Америке, Европе, Среднем Востоке, Индии, Азии, Латинской Америке, Африке и в России. На сегодняшний день решения компании включают в себя системы регулирования температуры для автофургонов, грузовых автомобилей, полуприцепов, железнодорожных платформ, контейнеров для воздушных, морских и смешанных перевозок. А также продукция ОВиК (обогрев, вентиляция и кондиционирование воздуха) для вагонов метрополитена, железнодорожных вагонов и автобусов. Все изделия компании Thermo King обеспечены широкой дилерской сетью, которая предоставляет услуги квалифицированного, обученного на заводе обслуживающего персонала. (http://www.europe.thermoking.com/brand/ru) Для обучения персонала компания проводит тренинги в странах-представителях, для чего печатает большое количество технической литературы на английском языке и переводит на соответствующие странам языки. Продукция компании постоянно обновляется, что предполагает выпуск новых инструкций и квалифицированный перевод.

В связи с вышеизложенными трудностями особенно актуально использование СМП для перевода многочисленных инструкций по эксплуатации.

Актуальность исследования также определяется быстрыми и сильными изменениями автопереводчиков и резко растущими, качественно меняющимися потребностями.

Цель исследования - рассмотреть возможность перевода научно-технических текстов машинными переводчиками без участия профессионального переводчика.

Для достижения данной цели нами были поставлены следующие задачи:

1. Раскрыть понятие машинного перевода (МП), определить его функции и место в общей системе переводов между человеком и компьютером;

2. Рассмотреть системы машинного перевода;

3. Описать основные проблемы перевода научно-технического текста;

4. Исследовать наличие или отсутствие эволюции СМП на примерах перевода инструкции по эксплуатации, касающейся продукции компании Thermo King, вывести сравнительные графики;

5. Проанализировать переводы научно-технических текстов и классифицировать возможные ошибки допущенные СМП на текущем этапе, вывести сравнительные графики;

6. Дать обзор современного состояния качества МП и спрогнозировать дальнейшую эволюцию СМП.

Для решения поставленных задач использовались следующие методы исследования: анализ теоретических и практических работ по теме дипломной работы; метод сопоставительного анализа МП; лингвистический и сравнительный анализ переводов научно-технических текстов, выполненных различными СМП.

Материалом для исследования выбраны тексты научно-технической направленности по обслуживанию генераторных агрегатов компании Thermo King". переводчик текст машинный

Предметом исследования данной работы являются переводы, выполненные СМП Translate, Google и Yandex.

Практическое значение. Данная работа позволит дать оценку продуктивности и активности современным программам-переводчикам. Результаты работы помогут понять роль МП и степень участия человека в переводе научно-технических текстов на современном этапе, позволят определить СМП с наилучшими результатами перевода и, возможно, будут полезными в прогнозировании тенденции к улучшению качества переводов.

Цель и задачи исследования определили структуру работы. Выпускная квалификационная работа состоит из: Введения, где описана актуальность настоящего исследования, обозначена цель и возможные пути по её достижению; Главы 1 с раскрытием понятия МП, обзором основных проблем перевода научно-технических текстов и классификацией ошибок в переводах; Главы 2 с исследованием эволюции СМП, анализом переводов, выполненных СМП, выявлением основных ошибок и сравнительным анализом современных переводчиков; Заключения, где представлены выводы по проделанной работе; Списка использованной литературы из 44 источников, а также 5 Приложений.

Глава 1. Основные понятия машинного перевода

Перевод (по определению) - это деятельность, заключающаяся в передаче содержания текста на одном языке средствами другого языка, а также результат такой деятельности. Особое место в теории перевода занимает машинный перевод (автоматический перевод, МП, MT, Machine Translation) - научная и одновременно технологическая дисциплина, связанная с наукой о переводе, а так же с компьютерной лингвистикой (Фролов, Паньков, 2008).

Машинный перевод - это интенсивно развивающаяся область научных исследований, экспериментальных разработок и уже функционирующих систем машинного перевода (СМП), в которых основная часть процесса перевода с одного естественного языка на другой выполняется компьютером. СМП призваны обеспечить быстрый и систематический доступ к информации, содержащейся в больших потоках текстов на иностранном языке. Промышленные СМП, переводя в основном научно-технические тексты, опираются на большие терминологические банки данных, поддерживая единообразие в переводе терминологической и специальной лексики. Они обычно требуют привлечения человека в качестве пред-, интер- и/или постредактора (Леонтьева 2006, 37).

Термин "машинный перевод" понимается по крайней мере в двух смыслах. Машинный перевод в узком смысле - это процесс перевода некоторого текста с одного естественного языка на другой, реализуемый компьютером полностью или почти полностью. В ходе данного процесса на вход машины подается текст, словесная часть которого не сопровождается никакими дополнительными указаниями, а на выходе получается текст на другом языке, являющийся переводом входного, причем преобразование входного текста в выходной происходит без вмешательства человека (иногда

допускается постредактирование). Машинный перевод в широком смысле - это область научных исследований, находящаяся на стыке лингвистики, математики, кибернетики, и имеющая целью построение систем, реализующих машинный перевод в узком смысле (Воронович 2013, 39).

В настоящей работе машинный перевод рассматривается как процесс перевода некоторого текста с одного естественного языка на другой, полностью реализуемый компьютером.

Функции машинного перевода

Программы-переводчики являются незаменимым инструментом, когда возникает необходимость:

· быстро понять общий смысл текста и решить, необходим ли дальнейший перевод;

· быстро проанализировать многоязычную информацию из сети Интернет;

· оптимизировать перевод большого объема текстов по одной тематике (процесс разбивается на два этапа: машинный перевод и постредактирование человеком);

· сделать информацию на сайте понятной иноязычным пользователям, встроив в сайт функцию перевода;

· извлечь информацию из большого объема текстов, опираясь на лингвистические характеристики слов. Например, выяснить, сколько раз в тексте встречаются имена собственные, какие это имена и какие действия связаны с этими именами (http://www.promt.ru/company).

История развития машинного перевода

Машинный перевод прошел долгий путь развития почти через столетие. Как ни странно, все начиналось со смелого эксперимента, теперь же машинный перевод является полезным и необходимым инструментом для большинства переводчиков. Машинный перевод всегда был спорной темой в мире переводческих услуг. Современные компьютерные программы перевода достаточно развиты, однако и по сей день они не справляются с самой сложной задачей процесса перевода: выбор контекстуально необходимого варианта. Переводчики могут использовать машинный перевод как черновик, который нуждается в редактировании, либо, как крайний вариант, в отсутствие переводчика - благодаря МП человек может получить общее представление о содержании текста.

По свидетельству биографов, еще выдающийся математик XIX века Чарльз Бэббидж пытался убедить британское правительство в необходимости финансировать его исследования по разработке "вычислительной машины". В числе прочих благ он обещал, что когда-нибудь эта машина сможет автоматически переводить разговорную речь. Но, хотя сегодня Бэббидж и считается признанным автором множества идей, лежащих в основе работы компьютера, он так и не сумел ни построить свою машину, ни выполнить обещания по поводу МП. И сегодня эта идея по-прежнему остается в значительной степени нереализованной. Однако, благодаря появлению сети Интернет как платформы глобальной связи она вновь начала привлекать широкое внимание и инвестиции (Вейзе, Киреев, Мирончиков 1997).

В середине 1930-х годов впервые заявление на получение патента на "переводческую машину" было подано Д. Арцруни, он изобрел автоматический двуязычный словарь. Затем П. Троянский представил более детальное изобретение. Оно включало в себя как двуязычный словарь, так и способы работы с грамматическими ролями между двумя языками. Изобретение Троянского оставалось неизвестным до конца 1950-х годов, когда появились ЭВМ.

В 1947 году машинный перевод перешел в разряд научного направления. Уоррен Уивер, директор отделения естественных наук Рокфеллеровского фонда, написал письмо Норберту Винеру, в котором рассматривал задачу перевода текстов с одних языков на другие как еще одну область применения техники дешифрования. Это вызвало бурные дискуссии. В этом же году А.Бут и Д.Бриттен разработали программу для пословного машинного перевода.

В 1952 году в Массачусетском технологическом институте была проведена первая конференция, посвященная машинному переводу, а затем в 1954 году была представлена первая система машинного перевода- IBM Mark II, которая получила название Джорджтаунский эксперимент. Эта русско-английская система имела словарь в 250 единиц и 6 грамматических правил. Последующее десятилетие было временем бурного развития машинного перевода. Позже, в 1966 году Американский комитет по проблемам автоматической обработки речи опубликовал отчет с выводами о том, что годы исследований машинного перевода не принесли ожидаемого результата. Это привело к прекращению государственного финансирования. Доклад существенно затормозил развитие машинного перевода в целом. 1970-80 года стали "Ренессансом" машинного перевода, эти годы связаны с развитием компьютерной техники. Ученые ставили более реалистичные задачи и делали акцент на участии человека в процессе автоматической обработки текста. Затраты на разработку систем машинного перевода в США, Европе и Японии исчислялись десятками миллионов долларов.

В 1991 году в России была создана компания "Промт" (СМП Translate). Ее костяк составили сотрудники лаборатории инженерной лингвистики Ленинградского пединститута им. А.И. Герцена. Уже через год фирма выиграла тендер NASA на поставку систем машинного перевода с английского языка на русский.

В 2003 году была запущена функция автоматического перевода в крупнейшей поисковой системе Google. Компания Google создала собственную программу, основанную на принципах статистического перевода. Она считается более эффективной, но менее "интеллектуальной". В 2009 году компания Yandex объявила о запуске автоматического перевода на основе технологии "Промт". (http://linguisticus.com)

В сентябре 2016 года компания Google представила систему нейронного машинного перевода (Google Neural Machine Translation system, GNMT). По мнению компании, она превосходит по качеству все прочие технологии в этой области. Применение GNMT сокращает количество ошибок в машинном переводе на 55-85%. (https://www.searchengines.ru)

Компания Yandex запустила нейросетевой перевод в 2017 году. Главным отличием компания заявили гибридность. СМП Yandex переводит предложение сразу двумя методами - статистическим и нейросетевым, а потом с помощью алгоритма CatBoost, в основе которого лежит машинное обучение, находит наиболее подходящий.

Как заявляет компания Google, GNMT совершает значительные ошибки, которые не допустил бы человек-переводчик. Например, не переводит определенные слова, неверно переводит имена собственные или редкие термины, переводит предложения по отдельности, а не рассматривает контекст абзаца или страницы.

В общем случае перевод с применением нейронных сетей превосходит перевод статистический, и у этой технологии есть огромный потенциал для развития.

Системы машинного перевода, их преимущества и недостатки

Существует несколько систем машин переводы, описание которых содержится в следующих подпунктах.

Машинный перевод, основанный на правилах

Rule - based Machine Translation (RBMT, Машинный перевод, основанный на правилах) - это технология, которая основана на словарной информации и анализе грамматических правил конкретных языков. Такие системы строятся на основе лингвистического описания двух естественных языков (двуязычных словарей и других баз данных, содержащих морфологическую, грамматическую и семантическую информацию), формальных грамматик и собственно алгоритмов перевода. Качество перевода зависит от объемов лингвистических баз данных (словарей) и глубины описания естественных языков, т. е., необходим учет максимального количества особенностей грамматической структуры как входного, так и выходного языка.

Существует два типа rule-based систем:

· системы по типу Transfer - предполагают морфологический, синтаксический и семантический анализ текста на языке входа; преобразование в структуру выходного языка; синтез текста на выходном языке,

· системы по типу Interlingua - предполагают анализ входного текста в терминах метаязыка и синтез метаструктуры текста на выходном языке.

К преимущества RBMT-систем относятся как синтаксическая и морфологическая точность, так и стабильность и предсказуемость результата. Недостатки RBMT-систем в необходимости поддерживать и актуализировать лингвистические базы данных.

Основные компании-производители систем машинного перевода на основе технологии rule-based - это PROMT, Systran, Linguatec.

Статистический машинный перевод

Statistical Machine Translation (SMT, Статистический машинный перевод) - это технология, основанная на поиске наиболее вероятного перевода предложения с использованием данных, полученных из двуязычной совокупности текстов. Такие системы перевода строятся на основе сравнения больших объемов корпусов параллельных текстов. Корпус параллельных текстов - это тексты, содержащие предложения на одном языке и соответствующие им предложения на втором. Статистический машинный перевод обладает свойством "самообучения": чем больше в распоряжении имеется параллельных корпусов и чем точнее они соответствуют друг другу, тем лучше результат статистического машинного перевода.

К преимуществам SMT-систем относятся понятность перевода, легкость в построении при достаточном количестве параллельных корпусов и переносимость технологии на любые языковые пары.

Основные еедостатки SMT - это ограниченность параллельных корпусов, неумение справляться с морфологией и синтаксисом, а также искажение информации (дублирование, пропуск, подмена информации).

Далее представлены компании-производители систем статистического машинного перевода: PROMT, Google, SDL Language Weaver, Microsoft, Asia Online, IBM.

Гибридный машинный перевод

Hybrid Machine Translation (HMT, Гибридный машинный перевод) - это технология, которая основана на совмещении методов RBMT и SMT . В связи с тем, что технологии SMT и RBMT имеют свои недостатки и сложности, а также достигли определенного предела в своем развитии, разработчики решений по МП рассчитывают на технологический прорыв за счет создания гибридной технологии перевода. Такой подход позволяет взять сильные стороны обеих технологий (грамматическую точность при переводе от RBMT и человекообразность перевода от SMT).

Основные компании-производители систем машинного перевода на основе гибридной технологии- это PROMT, Systran.

Помимо систем машинного перевода, существуют программы, принцип работы которых основан на технологии Translation Memory.

Нейронный машинный перевод

Нейронный машинный перевод (Neural Machine Translation, NMT) - это подход к машинному переводу, в котором используется большая искусственная нейронная сеть. Он отличается от методов машинного перевода, основанных на статистике фраз (SMT), которые используют отдельно разработанные подкомпоненты (Procedia Computer Science, 2015, 64). Модели NMT используют глубинное обучение и обучение признаков. Для их работы требуется лишь малая часть памяти по сравнению с традиционными системами статистического машинного перевода (SMT). Кроме того, в отличие от традиционных систем перевода, все части модели нейронного перевода обучаются совместно (от начала до конца), чтобы максимизировать эффективность перевода.

Компания Google является производителем нейронного машинного перевода.

Память переводов

Translation Memory (TM, Память переводов) - это многоязычные (чаще двуязычные) базы часто встречающихся предложений из фрагментов и так называемых сегментов. В основе технологии лежит принцип "не переводить один и тот же текст дважды".

Технологию Translation Memory часто путают с машинным переводом (Machine Translation). Использование технологии ТМ повышает скорость перевода за счет уменьшения объема механической работы. Однако важно отметить, что TM не выполняет перевод за переводчика, а является мощным инструментом для сокращения затрат при переводе повторяющихся текстов (Прохоров, 2006).

Технология базируется на сравнении документа, который нужно перевести, с данными, хранящимися в предварительно созданной базе переводов. В общем массиве текста система находит сегменты, которые уже были однажды переведены, и берет максимально похожие переводы из базы переводов Translation Memory оставляя выбор за переводчиком.

Далее приведены основные компании-производители систем TM: PROMT, SDL Trados, Atril (системы Dйjа Vu), OmegaT.

Для перевода больших объемов типовой документации принято использовать технологии TM и МТ вместе, так как каждая из них решает разные подзадачи в рамках общей задачи: базы TM обеспечивают извлечение и подстановку переведенного ранее контента, а с помощью MT производится перевод нового контента (http://www.promt.ru/company).

Методы оценки перевода

Проблемой оценки эффективности СМП занимаются на протяжении длительного времени. Предлагались и предлагаются самые различные методы: от статистических до учета мнения конечного пользователя. Несмотря на все многообразие предлагаемых методик, на настоящий момент нет единой общепринятой методики оценки эффективности СМП. Высказываются мнения о принципиальной невозможности сравнения различных систем МП в силу неравноценности таких программ еще на начальном этапе сравнения. Как можно сравнивать две системы, разработкой одной из которых занимается целая группа лингвистов, программистов при значительной финансовой помощи спонсоров, а другая разрабатывается энтузиастами своего дела. К. Буатэ отмечает, что для проведения действительно четкого сравнения нужны значительные капиталовложения, направленные на проведение идентичной настройки систем, выработки единых критериев (Воitet, 1991, 45-47).

Марчук Ю.Н. отмечает, что нет единого критерия оценки эффективности СМП и предлагает учитывать стоимость систем и оценивать ее работу за некоторый промежуток времени (Марчук, 2007).

Кроме практического подхода к оценке переводов, выполненных с помощью систем МП, которая до настоящего времени проводится в большей степени эмпирическим путем, скорее интуитивно, основываясь на профессиональном опыте и знаниях оценивающего, существуют и теоретические аспекты данной деятельности. "В теории перевода адекватность переводов традиционно сводится к категориям семантической (смысловой) полноты и точности, дополняемым стилистической эквивалентностью, включающей, в частности принцип соответствия текста перевода стилистическим нормам языка перевода. Именно на основе этих параметров чаще всего и выводятся оценки качества перевода" (Ванников, 1982, 5). Как полагает автор, существуют различные типы адекватности перевода: семантико-стилистическая, функциональная и дезидеративная. Кроме этого, адекватность, в зависимости от коммуникативной установки оригинала, может приобретать валоративный, инцитивный, информационный и селективный типы (Ванников, 1982а, 7).

Соотнесенность перевода с оригиналом также может быть выявлена на основе их преобразований в базисные структуры и последующего сравнения с учетом некоторого числа допустимых расхождений. Такие трансформации в глубинно-синтетические структуры предлагаются Мартемьяновым Ю.С (Мартемьянов, 1975), a Шаляпина З.М. (Шаляпина, 1975) преобразует их в глубинно-семантические структуры.

А.И. Новиков предлагает сравнивать тексты оригинала и перевода на основе денoтатной структуры предложений (Новиков, 1979). При таком подходе создается денoтатная структура для каждого из текстов. Узлами такой структуры являются понятия, а отношения между ними являются предикатами, выражая тем самым связь между узлами. Сравнение происходит на основе выявления близости или отдаленности между соответствующими денoтатными структурами.

Королев Э.И., придерживаясь традиционного подхода к оценке качества перевода, предлагает считать основными критериями эффективности перевода понятность и адекватность (Королев, 1991). Кулагина О.С. в своей работе отмечает, что для репрезентативности оценки эффективности СМП необходимо проводить их тестирование на представительных массивах информации (Кулагина, 1979). Проблемой понятности и адекватности перевода, выполненного СМП, занимались не только отечественные ученые, но и их зарубежные коллеги. Одним из первых результатов оценки эффективности СМП можно считать знаменитый доклад ALPAC (Trujillo, 1999).

Под критерием понятности подразумевается, насколько понятен текст перевода при его прочтении без обращения к оригиналу. Существуют различные методики оценки понятности переведенного машиной текста. Предлагают оценивать понятность как по четырехбалльной (Arnold et al, 1994) и пятибалльной шкале (Nogaо et al, 1988), так и по десятибалльной, которая использовалась при подготовке доклада ALPAC. Ниже приведена пятибалльная шкала оценки перевода, предложенная Нагао:

1. Смысл предложения понятен и не возникает никаких вопросов. Грамматика, словоупотребление и стиль соответствуют общей структуре текста и не требуют постредактирования.

2. Смысл предложения понятен, но возникают большие проблемы с грамматикой, словоупотреблением и стилем.

3. Общий смысл предложения понятен, но смысл некоторых его частей вызывает сомнение из-за неправильного грамматического строя, словоупотребления и стилистических ошибок. Требуется обращение к оригиналу.

4. В предложении имеется большое количество грамматических, слово- употребительных и стилистических ошибок. Смысл предложения с трудом можно понять после внимательного изучения.

5. Смысл предложения непонятен.

Схожая классификация, расположенная в обратном порядке, используется для оценки качества перевода Кристофером Хоганом и Робертом Фредеркингом (Hogan et al, 1998, 113):

5. Отлично.

4. Одна-две ошибки, а в остальном хорошо.

3. Несколько ошибок, но смысл понять можно.

2. Некоторые части переведены правильно, но понять смысл сложно.

1. Совершенно непонятно.

Авторы предлагают, учитывая концепцию генерализации оценочной шкалы некоторых исследователей (Gates et al., 1996, 195-206), сократить указанную выше шкалу до трехбалльной:

Хорошо (5 в прежней классификации).

Приемлемо (4,3 в прежней классификации).

Неприемлемо (2,1 в прежней классификации).

Тем не менее, о единстве мнений в этой области судить сложно, поскольку для вынесения исторического решения в докладе ALPAC использовалась десятибалльная шкала (ALPAC, 1966).

Однако, несмотря на многообразие предлагаемых классификаций, ни одна из них не может в полной мере считаться объективной. Уровень понимания текста реципиентом во многом зависит от индивидуальных, а значит субъективных, факторов (уровня образованности, степени знакомства с предметной областью, представленной в тексте, и т.д.).

Понятие адекватности подразумевает обязательное обращение к тексту оригинала с тем, чтобы выяснить, насколько точно перевод соответствует первоисточнику. В такого рода экспериментах обычно участвуют специалисты, хорошо владеющие как языком оригинала, так и выходным языком, на котором собственно и выполняется перевод. Критерий адекватности служит для подтверждения правильной передачи смысла оригинала, так как нередки случаи, когда реципиент прекрасно понимает содержание текста, но это содержание не соответствует в полной мере содержательной стороне исходного текста. В качестве примера приведена семибалльная оценочная шкала адекватности предложенная Нагао:

1. Содержание предложения на исходном языке (ИЯ) в полной мере со- ответствует содержанию выходного предложения. Необходимости в преобразованиях нет, носитель языка полностью понимает смысл выходного предложения.

2. Содержание предложения на ИЯ соответствует содержанию выходного предложения. Носитель языка понимает смысл выходного предложения, но необходимо его некоторое преобразование.

3. Содержание предложения на ИЯ правильно передано в выходном предложении. Требуются преобразования в порядке слов.

4. Несмотря на правильную передачу общего смысла исходного предложения в выходном предложении, возникают проблемы с согласованием времен, координацией между членами предложения, правильным употреблением наречий. Возможно двойное употребление существительных.

5. Содержание предложения на ИЯ не совсем правильно передано в выходном предложении. Некоторые выражения отсутствуют. Возникают проблемы с согласованием и правильным употреблением главных и придаточных предложений, членов предложения.

6. Содержание предложения на ИЯ неправильно передано в выходном предложении.

7. Содержание выходного предложения полностью не соответствует со- держанию исходного предложения. Структура выходного предложения не соответствует структуре нормального предложения, подлежащее и сказуемое отсутствуют.

Критерий адекватности, наряду с критерием понятности, являются одними из важнейших элементов оценки качества перевода. К сожалению, в настоящее время нет методик, позволяющих проводить адекватный и объективный анализ переведенных текстов. Формализация и автоматизация данного процесса требует больших временных и финансовых затрат и представляется на нынешнем уровне развития техники невозможной ввиду трудности представления экстралингвистических знаний в компьютерных системах. Оценка, произведенная человеком, в той или иной мере является субъективной и может достаточно широко варьироваться в зависимости от личности исследователя.

М. Суханова в статье "Кто лучше переводит", сравнивая разные версии программ Stylus и Сократ, использует статистический подсчет результатов редакторской правки, вводя универсальную единицу подсчета 1унк (одно универсальное нажатие клавиши). Данный метод оценки является интересным, но он не может претендовать на получение статистически верных, непредвзятых результатов, так как зависит от целого ряда субъективных факторов (компетенция редактора, его добрая воля и т.д.) (Суханова, 1997).

Кроме учета критериев понятности и адекватности, подсчета объема редакторской правки существуют различные принципы оценки действующих СМП.

Для исследования большинства коммерческих СМП независимыми экспертами применяется принцип "черного ящика" (Trujillo, 1999, 256-257), когда предположение о внутренней структуре системы МП и ее типе делается на основании выполненных ею переводов. Так как большинство СМП обладают свойствами продукта, то разработчики системы прилагают максимальные усилия для того, чтобы принципы функционирования системы и алгоритмы перевода составляли коммерческую тайну. В этом случае выявление основных принципов функционирования системы основывается исключительно на результатах переводов, полученных опытным путем и их последующего анализа.

В противовес принципу "черного ящика" используется принцип прозрачности системы, иначе именуемый "glass box"(Trujillo, 1999). Этот принцип применяется при оценке эффективности системы ее создателями и разработчиками. При таком анализе можно поэтапно проследить прохождение анализа и синтеза, определить какой модуль или какой алгоритм неправильно функционируют. Данный принцип используется для доводки и исправления системы самими разработчиками.

Также широкое применение нашел принцип использования тестовых массивов текста (Королев, 1991, Рябцева, 1986, King, 1997, Slocum, 1988). Для этой цели используются как реальные тексты, так и искусственно созданные для проверки правильности перевода того или иного языкового явления. Тестовая система МП METAL в течение пяти лет проверялась на представительном массиве текстов, общий объем которых составил около 1000 страниц (Slocum, 1988). Так, Маргарет Кинг и Фалкедал предлагают комбинированное использование тестовых и реальных массивов текста для того, чтобы проверить функционирование системы не только в заранее заданных для нее условиях, но и в непредсказуемой обстановке реального текста, смоделировать которую практически невозможно (King et al., 1990). При проведении оценки эффективности СМП немаловажную роль играет цель такого исследования и его непосредственные участники. Маргарет Кинг утверждает, что основополагающей остается цель таких исследований, так как реальной оценке подлежит не качество перевода в целом, а его приемлемые результаты для конкретных, узких областей и задач (King, 1996, 73-79, 1997, 251-263).

В этой связи целесообразно обозначить потенциальных участников и заказчиков исследований в области машинного перевода. Согласно градации, принятой М. Кинг, Труджипло, Хатчинсом, Сомерсом и другими исследователями, выделяются следующие группы (Hutchins et al., 1992, Jordan et al., 1993, King, 1991, Lеhrberger et al., 1988, Minnis, 1993, Sparck et al., 1995, Trujillo, 1999):

· Исследователи

· Спонсоры исследований

· Разработчики

· Покупатели

· Переводчики

· Конечные пользователи переводов

Исследователи занимаются разработкой центральных проблем МП и возможностью их принципиального создания. Суть исследований сводится к

выявлению новых феноменов в функционировании систем, созданию исследовательских прототипов, их последующей проверке и модификации существующих моделей МП.

Цель исследований, проводимых спонсорами, заключается в выявлении факторов, свидетельствующих либо в пользу продолжения финансирования проекта, либо, наоборот, в пользу прекращения инвестиций в связи с его неперспективностью или высокими затратами. Иногда от результатов таких исследований зависит не только судьба какого-либо конкретного проекта, но и уровень финансирования целого научного направления. Примером негативного влияния на исследования в области машинного перевода в целом могут служить результаты исследований, обнародованные в знаменитом докладе ALPAC.

Разработчики СМП активно сотрудничают с создателями систем. Эта категория специалистов занимается практической доработкой системы, превращая исследовательский прототип в реально действующую систему, обладающую свойствами реального продукта и пригодную для коммерческого распространения. Основополагающим фактором таких исследований является прагматический аспект функционирования программы, простота ее интерфейса, помехоустойчивая работа ее алгоритмов и приемлемое качество переводов. Создатели СМП также занимаются совершенствованием уже действующих систем МП в рамках функционирующей теоретической модели. Довольно часто в целях улучшения качества переводов данные специалисты проводят исследования, направленные на повышение эффективности системы.

К категории покупателей относятся все группы пользователей, начиная от крупных компаний и переводческих служб и заканчивая конечными пользователями и частными лицами. Эта категория людей широко применяет наряду с лингвистическими факторами оценки эффективности СМП и экстралингвистические критерии, к которым относятся стоимость самой системы, затраты на ее эксплуатацию и обучение персонала, возможность и стоимость обновлений, эффективность работы службы поддержки клиентов, конкурентоспособность разработчиков системы. Данная категория пользователей оценивает систему МП с прагматической точки зрения, основываясь не только и не столько на лингвистических критериях функционирования системы, сколько на экстралингвистических факторах ее функционирования.

В отличие от покупателей, переводчиков интересует лингвистическая сторона функционирования СМП. Рассматривая качество перевода, такие специалисты оценивают в первую очередь лингвистическое обеспечение, пользовательский интерфейс и пути своевременного пополнения системы. В силу своей специализации переводчики способны оказать большую помощь при оценке и доработке лингвистической компоненты.

Конечными пользователями переводов можно считать и покупателей, и переводчиков, и любого человека, который в той или иной степени использует их в своей деятельности. Оценка качества перевода такими пользователями зависит от нескольких факторов, а именно: от цели ознакомления с текстом перевода, является ли пользователь специалистом в области, описываемой в переводе. Цель ознакомления с переводом может представлять собой сигнальное чтение для получения основного смысла документа. При сигнальном чтении к качеству перевода предъявляются минимальные требования - он должен быть в целом понятен и отображать наиболее общий смысл. Для более детального ознакомления с текстом перевода, он должен соответствовать некоторым критериям, а именно наиболее полно и правильно передавать терминологию, перевод которой должен осуществляться в соответствии с последними изменениями в словарном составе обоих языков. Грамматический строй выходного предложения также должен передавать основную структуру входного предложения. Данный фактор не играет решающей роли при ознакомлении с текстом эксперта, так как стилистические погрешности могут быть восполнены глубокими знаниями в рассматриваемой предметной области.

Выводы к главе 1.

В настоящей главе было раскрыто понятие машинного перевода, определены его функции, описаны системы СМП. В данной работе термин "машинный перевод" рассматривается, как процесс перевода некоторого текста с одного естественного языка на другой, полностью реализуемый компьютером. Основным преимуществом машинного перевода являются его скорость и низкая стоимость.

Существует несколько разновидностей систем машинного перевода: машинный перевод, основанный на правилах (RBMT), статистический машинный перевод (SMT), гибридный машинный перевод (HMT) и нейронный машинный перевод (NMT) и память переводов (TM).

СМП Translate использует машинный перевод, основанный на правилах, в отличие от СМП Google, до недавнего времени использующей статистический метод перевода. В марте 2017 года компания Google полностью перешла на нейросети для повышения качества выходного текста. Компания Yandex внедрила гибридную систему, которая умеет выбирать между нейронным машинным переводом и статистической моделью.

В результате рассмотрения методик оценки эффективности СМП становится очевидным, что многообразие подходов и методик оценки качества машинного перевода свидетельствует о продолжающихся исследованиях в данной области и отсутствии единого стандарта определения эффективности действующих систем.

Из всего многообразия методов оценки перевода представляется целесообразным использовать принцип "черного ящика", так как практически все рассматриваемые системы являются коммерческими и специфика их внутренней организации и функционирования является закрытой для широкого пользователя, представляя собой коммерческую тайну. Для типологии ошибок при машинном переводе исследованию будет подвергаться выходной текст, в рамках которого осуществляется поиск и классификация допущенных системой ошибок.

Глава 2. Исследования эволюции и оценка эффективности систем машинного перевода

Прежде чем приступить к оценке полученных в результате эксперимента данных, необходимо дать краткую характеристику типу исследуемого текста. Основной особенностью научно-технических текстов является точное и четкое изложение материала без каких-либо выразительных элементов, которые делают речь более эмоционально насыщенной. В научно-технической литературе почти нет метафор, отсутствует метонимия, наличие стилистических особенностей минимально, в то время как в литературных произведениях они широко используются.

Такие тексты характеризуются повышенным содержанием фразеологических единиц технической специфики. Основные требования к научно-техническому переводу - это точное соответствие терминологии, краткость и четкость.

2.1 Основные проблемы перевода научно-технического текста

В среде переводчиков-филологов иногда бытует ошибочное мнение о том, что для технического перевода не требуется ничего, кроме технического словаря. Практика показывает, что наиболее адекватными современным требованиям к рассматриваемым текстам оказываются те переводчики, которые одинаково хорошо разбираются как в технике, так и в языке, и которые при этом имеют постоянную и активную переводческую практику, как, например, инженер-энергетик Б.Н. Климзо или математик А.Б. Сосинский. Только в этом случае человек может взглянуть на проблему с обеих сторон: технической и лингвистической и понять, что это единое целое.

Среди основных проблем перевода научно-технических текстов необходимо выделить следующие:

· самые современные словари обычно не отражают весьма значительной части узкоспециальной терминологии, возникающей с огромной скоростью, что нередко ставит переводчика в тупик, из которого он может выбраться, только если хорошо владеет предметом.

· в случае, если искомые слова в словаре имеются, сделать корректный перевод таблиц, списков и т.п. иногда бывает намного сложнее, чем осуществить перевод текстов, в которых есть широкий контекст.

Автор книги "Ремесло технического переводчика" Б.Н. Климзо - не только лингвист, но и инженер-энергетик, благодаря чему книга содержит множество рекомендаций, полезных и техническому переводчику, и литературному редактору. Этот исследователь, обладая опытом в области перевода и литературного редактирования технических текстов, пишет: "…все проблемы перевода рассматривались и, как правило, рассматриваются на примерах, заимствованных из публицистической или художественной литературы, а иногда даже из поэтических произведений. А вот переводу технической литературы посвящено очень мало работ, причем авторы таких работ, как правило, лингвисты, гуманитарии и поэтому о многих особенностях технического перевода они просто не догадываются либо эти особенности им совершенно непонятны" (Климзо 2003, 288).

Многозначность некоторых слов приводит к тому, что один и тот же список, в зависимости от контекста, можно перевести совершенно по-разному. Требуется много усилий от переводчика, чтобы восстановить контекст. Для полноты картины можно сказать о том, что и в нетехнических текстах могут возникнуть схожие проблемы, наглядно показывающие, что для перевода просто работы со словарем недостаточно. Особенно это касается коротких слов, которые не представляют затруднений в обычном тексте с полными предложениями, но вызывают сложности, когда даются вне контекста, например: off, on, out, up, down, которые могут переводится не только разными по смыслу словами (выход, выключить, вне/снаружи), но и разными частями речи (выключить, выключение, выключатель, выкл.) или синонимами (выключить, погасить, убрать).

В приложении 4 приведено много подобных примеров, которые заставляют серьезно задуматься о сложности, многоаспектности и многогранности процесса перевода современных технических текстов.

В современных технических текстах достаточно часто обнаруживается лексика, которая не только не соответствует языковой норме, но и в принципе не имеет аналогов в языке перевода - это термины, соответствия которым нет, поскольку они называют явления, предметы, процессы, связанные с новой техникой и передовыми технологиями. Известны две основных проблемы, связанные с неологизмами в рассматриваемом типе текстов:

Первая проблема связана с необходимостью дать принципиально новым устройствам запоминающееся и адекватное название.

В.Г. Костомаров в книге "Языковой вкус эпохи" пишет о первоначальной неустойчивости обозначения терминов новых технологий, в частности, появившегося в конце 1980-х годов слова факс "(факсимильная установка, факсимильная машина, факсимильный аппарат, факс-аппарат, факс-машина, телефакс, слово же факс долго писалось в кавычках)" (Костомаров 1999, 320). Подобный процесс происходит с английским словом копир, которое еще не всегда употребляется в оригинальном виде - копировальная машина, копировальное устройство, а в разговорной речи даже ксерокс, хотя это название компании-производителя, а не устройства. В.Г. Костомаров приводит пример рекламного объявления из газеты "Коммерсант", но не обращает внимания читателя на абсурдную ошибку: "…ксероксы фирмы Canon, … Зарядка картриджей ксероксов Canon…"(Костомаров 1999, 320). Такие производные от названия корпорации Xerox, как ксерокопия, а также ксерить или ксерокопировать, настолько укоренились в разговорной речи, что многими воспринимаются как должное, вне зависимости от того, с копирами каких компаний они имеют дело.

Вторая проблема касается различий в морфологических и словообразовательных процессах в английском и русском языках и, как следствие, трудностей перевода и редактирования специальных словосочетаний, а также составных и сложных слов, состоящих из двух (и более) основ. Лексические единицы английского языка довольно кратки (имеется в виду количество букв в слове). В английском языке, в отличие от русского, морфологическая характеристика слова выявляется в зависимости от его синтаксической позиции, что приводит к многозначности текста. С одной стороны, эта особенность делает английский язык идеальным для конспектирования, с целью личного применения или для специалистов узкой направленности, которые и так понимают что к чему, а также создания заголовков и рекламных слоганов, с другой - она является источником огромных сложностей и неточностей перевода.

2.2. Экспериментальное исследование переводов, выполненных системами машинного перевода Translate, Yandex и Google.

Прежде чем оценивать перевод, выполненный СМП необходимо выявить наиболее популярные программы электронного перевода. Согласно статистике большинство пользователей используют онлайн-переводчики: Google, Yandex и Translate (Кочеткова, Ревина, 2017).

Для проведения экспериментального исследования по эволюции СМП были переведены отрывки из инструкции по эксплуатации и техническому обслуживанию определенных моделей генераторного агрегата компании Thermo King (см. приложение 1, 2,3), общим объемом - около 1250 слов. Первый перевод выполнялся в ноябре 2017 года, второй перевод в мае 2018 года. Исследование показало, что на протяжение даже такого относительно непродолжительного отрезка времени переводы каждого из онлайн-переводчиков в различной степени изменились. Более подробно изменения по каждой СМП рассмотрены в следующих подпунктах.

На начальных этапах проведения эксперимента по исследованию эволюции систем машинного перевода исходный текст был переведен в СМП Translate 1998 года и СМП Translate 2018 года.

Таблица 1 содержит небольшой отрывок переведенного текста СМП Translate в 1998 году и в 2018 году (полный анализ в приложении 5).

Таблица 1 - Сравнение СМП Translate 1998 и СМП Translate 2018

Исходный текст

Перевод Translate 1998

Перевод Translate 2018

Отредактированный перевод

The information in this manual is provided to assist owners, operators and service people in the proper upkeep and maintenance of Thermo King units.

Информация в этом наставлении снабжается, чтобы страховать спортсмена владельцы, операторы и обслуживать людей в присущем обслуживании и поддержании Термо Короля модули(блоки).

Информация в этом руководстве предоставлена, чтобы помочь владельцам, операторам и сервисным людям в надлежащем содержании и обслуживании Термо единиц Короля.

Информация в данном руководстве предназ-начена для помощи владельцам, операторам

и механикам в содер-жании устройства Thermo King в рабочем состоянии и его техни-ческом обслуживании.

Manufacturer is not responsible and will not be held liable in contract or in tort (including negligence) for any special, indirect or consequential damages, including injury or damage caused to vehicles, contents or persons, by reason of the installation of any Thermo King product or its mechanical failure.

Изготовитель не ответствен и не будет проведен(поддержан) ответственным в контракте или в деликте (включая небрежность) для любого экстренного выпуска, косвенных или последующих убытков, включая повреждение или повреждение(ущерб), вызванное на носители, содержимое или лица, из-за инсталляции любого Термо Королем изделием(программой) или его механической неисправностью.

Производитель не ответственен и не будет считаться ответственным в контракте или в нарушении законных прав (включая небрежность) ни для каких специальных, косвенных или косвенных убытков, включая травму или ущерб, нанесенный транспортным средствам, содержанию или людям, из-за установки никакого Термо продукта Короля или его механического повреждения.

Изготовитель не отвечает и не несёт обязательств по контра-кту или в результате правонарушения

(включая небрежность) за любой вызванный особыми обстоятель-ствами, косвенный или последующий ущерб, включая повреждения или ущерб, причинён-ный транспортным средствам, грузу или лицам в результате

установки или эксплуатации какого-либо изделия Thermo King или его механи-ческой неисправности.

В результате проведения сравнительного анализа был сделан вывод об отсутствии актуальности подробного разбора из-за большого количества ошибок, допущенных СМП Translate 1998 года. Очевидно, что СМП эволюционирует, качество выходного текста в мае 2018 года и без детального разбора существенно выше. В связи с чем было принято решение о выборе временного промежутка в 6 месяцев.

Сравнительный анализ эволюции СМП Translate.

В результате перевода английского научно-технического текста объемом 1253 слова на русский язык в ноябре 2017 года выходной текст содержал 1279 слов, в мае 2018 года - 1265 слов, изменения в переводе были выявлены в 10% текста. При этом были обнаружены не только изменения, приводящие к повышению качества перевода, но и касающиеся его снижения.

На диаграмме 1 представлены сводные данные по преобразованию выходного текста.

Диаграмма 1 - изменения в переводах СМП Translate

Из Диаграммы 1 следует, что качество перевода выполненного СМП Translate не только не улучшилось, но и в некоторых случаях ухудшилось.

*Здесь и далее приведены только некоторые примеры предложений, вырванные из контекста. Полные тексты переводов находятся в Приложении 1,2,3. В процессе описания примеров из таблиц будет использован принцип очередности: Исходный текст - Перевод Translate ноябрь 2017 - Перевод Translate май 2018 - Отредактированный перевод.


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.