"Охота с птицами" или "соколиная охота": ошибки автоматического перевода

Характеристика переводческих ошибок, допущенных популярными сервисами онлайн-переводов при переводе с английского языка на русский. Проведение исследования лексико-семантических, стилистических, пунктуационных и грамматических переводческих ошибок.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 02.09.2024
Размер файла 25,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Калужский государственный университет им. К.Э. Циолковского

«Охота с птицами» или «соколиная охота»? Ошибки автоматического перевода

Бабак Олеся Юрьевна Магистрант

Аннотация

Данная статья посвящена анализу переводческих ошибок, допущенных популярными сервисами онлайн-переводов при переводе с английского языка на русский. В связи с ростом актуальности использования систем автоматического онлайн-перевода проблема качества машинного перевода становится с каждым годом актуальнее. В данной статье рассматриваются ошибки и возможные причины их возникновения. Исследование проводилось на материалах, взятых с новостного сайта BBC. В процессе исследования использовалась следующая классификация переводческих ошибок: лексико-семантические, стилистические, пунктуационные и грамматические. Было проанализировано количество ошибок в разрезе каждой группы и каждого онлайн-сервиса, выведены статистические данные. В исследовании использовались онлайн-переводчики Яндекс.Переводчик, SYSTRANet, Google Translate, Translate.ru. Данная статья может послужить источником данных для исследователей, интересующихся развитием машинного (автоматического) перевода.

Ключевые слова: машинный перевод (МП), автоматический перевод, сервис автоматического онлайн-перевода, статистический МП, СМП, нейронный МП, НМП, ошибки машинного перевода, переводческие ошибки.

The summary in English

Babak Olesya Urievna Master's Degree student

Kaluga State University named after K.E. Tsiolkovski «HUNTING WITH BIRDS». MACHINE TRANSLATION ERRORS This article is devoted to the analysis of translation errors made by popular online translation services in the process of translation from English into Russian. Every year the problem of the quality of machine translation becomes more urgent due to the growing relevance of the use of automatic online translation services. This article describes errors and possible causes of their occurrence. The research was conducted on materials taken from the BBC news site. During the research, the following classification of translation errors was used: lexical-semantic, stylistic, punctuation and grammatical. The number of errors in the context of each group and each online service was analyzed, and statistical analysis was performed. The research based on online translation services, such as Yandex.Translate, SYSTRANet, Google Translate, Translate.ru. This article can serve as a source of data for researchers interested in the development of machine translation.

Key words: machine translation (MT), automatic translation, automatic online translation service, statistical MT, SMT, neural MT, NMT, machine translation errors, translation errors.

В данной статье рассматривается проблема качества машинного, или автоматического, перевода на основе автоматического перевода англоязычных статей. Прежде всего, стоит уточнить, что машинный перевод (МП) -- это выполняемое на компьютере действие по преобразованию текста на одном естественном (исходном) языке в текст на втором естественном языке (языке перевода), эквивалентным по содержанию и стилистике. Также машинный перевод -- это область исследований, которая находится в пределах и на стыке нескольких наук, а именно лингвистики, кибернетики, математики для осуществления машинного перевода непосредственно как процесса [1].

Актуальность данной статьи повышается за счет роста межнациональной коммуникации, а значит, и в потребности использования автоматических переводов, когда происходит нарушение понимания между носителями разных языков, а также при возрастании количества информации, надлежащей к переводу. Вследствие этого и возникает потребность систем автоматического перевода [2]. Однако в настоящее время переводы, выполненные системами машинного перевода, в частности, сервисами онлайн-переводов, недостаточно совершенны для их использования без вмешательства человека.

Целью данного исследования было рассмотреть возможность использования различных сервисов онлайн-перевода, выявление и разбор типичных ошибок автоматического перевода, выделение наиболее часто встречающихся ошибок и определение наиболее приоритетной для использования системы онлайн-перевода с наименьшим количеством допущенных ошибок и, как следствие, затратой наименьшего количества времени для постредактирования готового материала человеком. Для достижения данной цели были поставлены следующие задачи:

изучить понятие МП и различные виды СМП;

делать выборку фрагментов из полученного текста при помощи сервисов онлайн-перевода, содержащих переводческие ошибки;

проанализировать выявленные ошибки в данных фрагментах, систематизировать их в соответствии с выбранной классификацией;

подвести итоги по работе различных сервисов онлайн-перевода и СМП в целом. переводческий семантический пунктуационный грамматический

Как уже отмечалось ранее, машинный перевод -- это преобразование текста на исходном языке в текст на языке перевода при помощи компьютера, а именно систем машинного перевода (СМП). Существует несколько видов СМП, наиболее популярные из них -- статистические и нейронные. Принцип работы статистических МП (SMT) базируется на статическом анализе, то есть при загрузке текстов на двух языках система производит анализ языковых соответствий и подбирает наиболее подходящий исходя из полученной ранее статистики. Соответственно, чем объемнее словарь данной языковой пары, тем более точным и корректным будет перевод. Однако у этой системы существует значительный недостаток: статистическая СМП приводит множество лексических и синтаксических ошибок, а также в значительном количестве показывает наличие стилистических ошибок [3]. Нейронный перевод (NMT) -- это вид СМП, в котором используется искусственная нейронная сеть, поэтому данный вид СМП способен обучаться и полученный перевод со временем становится все более соотносимым в эквивалентном значении с исходным текстом [4].

В данном исследовании использованы четыре сервиса онлайн- перевода: Google Translate и Яндекс.Переводчик, базированные на NMT, а также SYSTRANet и Translate.ru, базированные на SMT.

Google Translate представил свою собственную систему нейронного машинного перевода в 2016 году [5]. Яндекс.Переводчик был основан на SMT, однако с 2017 года начал переход на нейронную систему, что также повысило качество получаемых переводов при помощи этого сервиса [6]. SYSTRANet базирован на системе SYSTRAN, в основе которой лежит SMT [7]. Сервис Translate.ru действует на базе системы PROMT, широко известной ранее как самой первой системы машинного перевода [8].

Новизна данного исследования заключается в актуальности исходного материала. Для работы были взяти три статьи публицистического стиля с новостного портала BBC, а именно: статья «Pakistan stops bid to smuggle endangered falcons» [9], статья «Coronavirus: Police get access to NHS Test and Trace self-isolation data» [10] и статья «Famed Roman statue 'not ancient'» [11]. Данные статьи были загружены в буфер каждого из сервисов онлайн- перевода, далее полученный без участия человека перевод анализировался, выявлялись переводческие ошибки и систематизировались в соответствии со следующей классификацией: лексико-семантические, стилистические, пунктуационные, грамматические.

Лексико-семантические ошибки. На мой взгляд, ошибки данного типа -- самые распространенные, которые зачастую препятствуют понимаю смысла исходного текста. Pakistan stops bid to smuggle... -- Пакистан прекращает попытки контрабанды.... В переводах сервисами SYSTRANet и Translate можно увидеть грубую лексическую ошибку, которая ведет к потере смысла и нарушению контекстуального значения. Слово bid переводится как торги. Данное слово имеет в качестве основного русский эквивалент, связанный с предложением цены, участием в аукционе и прочими производными по смыслу, однако в данном случае это значение неуместно, и при его использовании происходит нарушение языковых норм языка перевода, влекущее за собой потерю смысла. Поэтому в данном случае более уместным будет употребление второго значения -- попытка. Тогда предложение приобретает нужный смысл, соответствующий контексту. Словосочетанию the endangered species list дается перевод как список исчезающих видов. Рассмотрим данный момент более подробно. Под данным словосочетанием в исходном подразумевается Закон «Об исчезающих видах», принятый в 1973 году. То есть согласно исходному языку, перевод, который дает сервис Яндекс.Переводчик, допустим. Однако, если возвращаться к языковым нормам языка перевода, то есть русского языка, у нас есть понятие Красная Книга, которое в некоторых странах, в том числе и в США, отсутствует. Учитывая равнозначность этих понятий и опираясь на полноценность перевода, можно прибегнуть к приему компенсации, и тогда более уместным будет вариант с использованием выражения Красная Книга, и следовательно словосочетание ...they were all on the endangered species list... будет иметь более корректный перевод в следующем виде: ...они занесены в Красную Книгу.... Переводческая ошибка допущена в переводе словосочетания hunting with birds. Данный перевод дается сервисами с использованием прямого перевода каждого слова, однако, согласно контексту, данное словосочетание можно перевести не как охота с птицами, а соколиная охота, так как речь в данном предложении идет именно об охоте с использованием птиц семейства соколиных, поэтому здесь уместно использовать прием конкретизации. Далее можно выделить следующую лексическую ошибку при переводе словосочетания Lupa Capitolina. Хотя назвать это переводческой ошибкой сложно, так как в данной работе исследуются ошибки перевода именно англоязычных исходных текстов, а данное словосочетание относится к латинскому языку, и в силу того, что данный язык считается «мертвым» языком, допустим вариант отсутствия русскоязычного эквивалента в системах онлайн-перевода. При обращении к Википедии можно выяснить, что данное словосочетание в переводе с латыни имеет значение Капитолийская волчица. Присутствует еще одна грубая лексическая ошибка, допущенная в переводе, предлагаемом сервисом Translate.ru. В словосочетании the public's dwindling trust выбрано полностью противоположное значение слова (растущий), что нарушает смысловую картину данного словосочетания и предложения в целом. Таким образом, можно наблюдать, что при МП могут нарушаться языковые нормы языка перевода, что влечет за собой зачастую к потере смысла исходного языка.

Стилистические ошибки. Данная группа включает в себя смешение стилей, нарушение сочетаемости слов и т.д. Сервисы дают прямой перевод словосочетания ...to be worth about 200 million rupees..., который выглядит следующим образом ...стоят около 200 миллионов рупий.... В этом случае следует сделать упор на стилистику текста. Если речь идет о разговорном стиле, который мы ежедневно употребляем в обыденной речи, то констатация факта стоимости какой-либо вещи выражается именно таким словосочетанием (пр. Эта сумка стоит 3000 рублей.) Однако в данный момент работа проводится со статьей публицистического стиля, и лучше использовать такой перевод, как ... оцениваются в сумму около 200 миллионов рупий.... В предложении No testing or health data is shared in this process можно также здесь отметить наличие ошибки. Три из четырех сервисов дают перевод предложения пословно, то есть Никакие тесты или медицинские данные не передаются в этом процессе. Если рассудить, то в данном случае стилистическая ошибка заключается в усилении факта отрицания процесса передачи данных посредством перевода частицы no. Однако данный перевод характерен для разговорной речи. В публицистическом стиле лучше же прибегнуть к приему антонимического перевода, вследствие чего более приемлемым будет такой вариант перевода: В этом процессе не передаются данные о тестировании или состоянии здоровья. Данная группа ошибок тоже играет свою роль при выполнении перевода посредством онлайн- сервисов, так как при возникновении таких ошибок полученный текст будет сложным к восприятию за счет смешения стилей.

Пунктуационные ошибки. Пунктуационные ошибки -- это ошибки в использовании надлежащих знаков препинания в письменной речи, например, неиспользование должного знака или замена одного знака другим. Данные ошибки незначительны в своем количестве в данной работе, однако я все же вынесла их как отдельную группу переводческих ошибок. По большей части данные ошибки возникают при дословном, или калькированном переводе. В одной из статей можно отметить, что выражение on the black market - «на черном рынке» заслуживает рассмотрения с точки зрения нарушения правил пунктуации. Здесь можно выделить пунктуационную ошибку, т.к. в русском языке данное словосочетание употребляется в письменной речи с использованием кавычек, что в полученном переводе не учитывается. Возвращаясь к фрагменту ...[reported by] the Health Service Journal, отметим, что Яндекс.Переводчик дает перевод с учетом генерализации понятий, однако упускает, что в этом случае согласно нормам языка перевода необходимо применение кавычек -- знаков препинания, использующихся при обозначении таких имен собственных, как в нашем случае название печатного издания. Стоит заметить, что данная группа ошибок находится в меньшинстве по своему количеству.

Грамматические ошибки. Грамматическая ошибка - это ошибка в структуре языковой единицы: в структуре слова, словосочетания или предложения; это нарушение какой-либо грамматической нормы: словообразовательной, морфологической, синтаксической. Среди грамматических ошибок можно выделить такие ошибки, как неправильная морфологическая форма слова, нарушение норм согласования и управления, ошибки в построении предложения, нарушении видовременной соотнесенности глагольных форм и многие другие. Например, можно выделить переводческую ошибку грамматического характера в переводе словосочетания this week в прямой речи исходного текста и в его переводе как на этой неделе, однако данное предложение в перестроено в косвенную речь (используется вводная конструкция По словам г-на Сакифа). Следует избегать уточнения недели, и для этого можно использовать словосочетание на неделе, либо полностью заменить на в течении нескольких дней. Следует отметить весьма интересный перевод сервисом Translate следующей части предложения ...a desert bird hunted by falconers..., который выглядит следующим образом: ...пустынная птица, на которую охотились соколы.... Рассмотрим более детально данный фрагмент. Следует обратить внимание на оборот hunted by falconers, в котором допущено сразу две грубых ошибки. Первая ошибка является грамматической и заключается в том, что сервис Translate.ru предлагает перевод страдательного залога в прошедшем времени, однако учитывая, что в этом предложении используется косвенная речь, и глагол, вводящий косвенную речь, употреблен в настоящем времени, можно использовать причастие в форме страдательного залога в любом времени в зависимости от смысла, следовательно, наиболее уместным в данном случае будет употребление настоящем времени. Вторая ошибка также является морфологической и заключается в переводе слова falconers. Здесь при переводе онлайн-сервисом не учитывается словообразование переводимого слова, возможно за отсутствием в системе памяти нужной формы, поэтому дается простейшая форма без учета образования новой словоформы при помощи суффикса. Возвращаясь вопросу более приемлемого и соответствующего языковым нормам языка перевода, то он будет выглядеть следующим образом: ...птица, обитающая в пустыне и подвергающаяся излову сокольниками.... Далее можно отметить следующий момент перевода: ...a desert bird hunted by falconers.... И здесь виден результат онлайн-перевода сервисом SYSTRAN, несколько отличный от предыдущих вариантов -- ...пустынная птица, охотящаяся на соколов.... Что примечательно, здесь, также, как и в варианте перевода сервисом Translate.ru, допущена морфологическая ошибка, а именно ошибка в словообразовании, т.е. falconers переводится как соколы, вместо положенного сокольники. Также здесь просматривается еще одна грубая грамматическая ошибка, заключающаяся в некорректном выборе онлайн-сервисом залога причастия. Форма, в которой употреблено причастие, и предлог by, показывает нам на использование в исходном тексте страдательного залога, однако SYSTRAN предоставляет в тексте перевода перевод данного причастия в действительном залоге. Данная группа также достаточно обширна по своему количеству в силу частой несовместимости синтаксических конструкций в исходном языке и языке перевода. Зачастую эти ошибки возникают в последствии неправильного употребления значения какого-либо слова, что является лексической ошибкой, например, в своей работе я столкнулась с некорректным выбором русскоязычного эквивалента предлога, и в последствии была неграмотно составлена синтаксическая конструкция всего словосочетания, что также привело к потере смысла и целостности картины в тексте перевода.

Детально рассмотрев перевод, полученный при использовании онлайн- сервиса Яндекс.Переводчик, можно отметить, что количество переводческих ошибок имеет значительный вес, а их характер может быть совершенно разным -- лексические, стилистические, грамматические. Самыми частыми можно выделить именно лексические, так как система по большей части базируется на подборе дословного перевода или прямого значения, не ориентируясь на языковые нормы языка, на который осуществляется перевод, следовательно, перевод не всегда выполнен корректно, а иногда в некоторых случаях и вовсе способствует потере смысла того или иного предложения или словосочетания. Также сразу стоит отметить схожесть переводов при помощи сервисов Яндекс.Переводчик и Google Translate. Основной причиной данного сходства является тот факт, что оба сервиса были основаны на системе PROMT, но с недавнего времени базируются на системе нейронного машинного перевода. Мы наблюдаем в данном варианте те же лексические переводческие ошибки, которые допущены в готовом варианте перевода сервисом Яндекса (on the black market, the endangered species list, «Arab countries», one houbara bustard и т.д.).

Сервис Translate, базированный на системе PROMT, допускает глобальное количество переводческих ошибок, и самая основная причина -- это хранение в системе памяти установленных слов и словосочетаний, однако в целом не суммирующих и не складывающих значения слов в единую картину, как при работе с системой NMT.

Сервис SYSTRANet, основанный на системе SYSTRAN, как и сервис Translate.ru, основанный на системе PROMT, уступают сервису Яндекс.Переводчик (использование некорректных и несуществующих в ПЯ словоформ, некорректная передача информации из исходного языка в язык перевода в разрезе временных форм и причастий).

Можно сделать вывод, что полностью автоматический машинный перевод, -- это очень сложная задача, которую предстоит решить не только лингвистам, но и программистам, специалистам по кибернетике и многим другим представителям наук, которые затрагивает эта проблема. Очень сложно смоделировать сам процесс перевода с помощью компьютерной программы. Если человек, осуществляя перевод, мыслит образами и исходит из того, какую мысль в конечном итоге надо донести до слушателя, то научить этому программу невозможно (на данном этапе развития компьютерных технологий).

Современные программы машинного перевода очень далеки, от того идеала к которому стремятся их разработчики. Но они уже без сомнений могут служить хорошим подспорьем переводчику в его рутинной работе. Хотя бы тем, что без проблем могут за несколько секунд сделать подстрочный перевод любого по сложности и объёму текста. Естественно, полностью отдать текст в руки машины нельзя. Системы нового поколения могут «запоминать» уже переведенные однажды конструкции и впоследствии уже не требовать повторного их перевода. Системы эффективны в помощи пользователям еще и потому что есть возможность создавать «пользовательский» словарь, что существенно облегчает перевод по определенной тематике.

Для наглядности определения наиболее оптимального сервиса онлайн- перевода можно систематизировать практическую часть данного исследования и представить выходные данные в следующей таблице.

Таблица 1 Результаты работы сервисов онлайн-перевода

Сервис/ошибки

Лексические

Стилистические

Пункт уацио нные

Грамматические

Всего

Яндекс.

Переводчик

22 (50%)

6 (14%)

5 (11%)

11 (25%)

44

Translate.ru

28 (54%)

6 (11%)

5 (10%)

13 (25%)

52

SYSTRANet

24 (49%)

6 (12%)

5 (10%)

14 (29%)

49

Google Translate

16 (52%)

4 (13%)

4 (13%)

7 (22%)

31

Всего

90 (51%)

22 (12%)

19 (11%)

45 (26%)

176

Источник: анализ автора

В данной таблице наглядно видно, что преобладающей группой переводческих ошибок являются лексические ошибки, они составляют 51% от общего количества ошибок. Наименее допускаемые -- пунктуационные (11%). Также, исходя из статистических данных этой таблицы, можно определить, что в данном исследовании на базе анализа 3 публицистических статей наиболее предпочтительным является использование Google Translate, так как при его использовании в тексте было выявлено наименьшее количество ошибок. При использовании сервиса Translate.ru допущено наибольшее количество ошибок, поэтому постредактирование перевода с применением этого сервиса займет наибольшее количество времени. Также наглядно можно убедиться в том, что использование системы нейронного машинного перевода гораздо более предпочтительно, чем использование системы памяти переводов, так как наибольшее количество лексических ошибок говорит о невозможности выбора нужного эквивалента в ПЯ. Причины возникновения переводческих ошибок в любой из систем достаточно взаимосвязаны между собой, поэтому исправление одной ошибки без учета общей ситуации может привести только к ухудшению эффективности работы СМП, необходим детальный анализ для выявления всех возможных ошибок и синтез в полноценный текст, который передает смысл, задуманный автором, в сходном стилистическом отражении ИТ. Таким образом, можно подвести итог по работе данных сервисов и по работе сервисов онлайн-перевода в целом. Значительное количество переводческих ошибок носят именно лексический характер, однако достаточное множество приходится и на долю грамматических ошибок. Также можем сделать вывод, что системы, базированные на системе памяти перевода, такие как PROMT, SYSTRAN, предполагают после получения выходного текста в ПЯ более трудоемкий процесс постредактирования за счет гораздо большего количества переводческих ошибок, вплоть до потери смысла предложения, его целостности и связности с контекстом. Системы нейронного машинного перевода более предпочтительны в данном вопросе, так как в их работе используется искусственная нейронная сеть, что позволяет смоделировать процессы работы человеческого мозга при выполнении переводческой деятельности.

Литература

1. Воронов В.В. Машинный перевод. Конспект лекций для студентов 5-го курса специальности «Современные иностранные языки». Минск, 2013 -- 39 с.

2. Евдокимов А.С. Искусство машинного перевода // Hard'N'Soft. -- 2005. -- №7. -- С. 86-91.

3. Леонтьева Н.Н. Автоматическое понимание текстов. Системы, модели, ресурсы. - Москва: ACADEMIA, 2006. 7. Google Translate начал использовать нейроперевод. [Электронный ресурс]

4. Нейронный машинный перевод. Вводный курс. [Электронный ресурс]

5. Максименко О.И., Чинина Д.С. Обзор системы машинного перевода «Google Переводчик» (на примере финского языка). // Science Time, 2014, №5 (5), С.133-139.

6. Википедия: Яндекс.Переводчик [Электронный ресурс]

7. Hovy E., Gerber L. MT at the paragraph level: Improving English Synthesis in SYSTRAN. In Proceedings of TMI-97, Santa Fe, 1997, pp. 47-54.

8. Борисова И.А. К опыту постредактирования на материале англорусского перевода с помощью автоматических систем Google translate и Prompt // Вестник МГЛУ. 2014. №13 (699) С.53-59.

9. Статья «Pakistan stops bid to smuggle endangered falcons» [Электронный ресурс]

10. Статья «Coronavirus: Police get access to NHS Test and Trace selfisolation data» [Электронный ресурс]

11. Статья «Famed Roman statue 'not ancient'» [Электронный ресурс]

Размещено на Allbest.ru


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.