Система оцінки якості автоматизованого перекладу

Переклад документів за допомогою систем машинного перекладу (СМП). Проблема автоматизації процесу перекладу. Система оцінки автоматизованого перекладу, яка може стати у пригоді користувачам для визначення недоліків тієї чи іншої системи та вибору кращої.

Рубрика Иностранные языки и языкознание
Вид статья
Язык украинский
Дата добавления 30.10.2010
Размер файла 37,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

СИСТЕМА ОЦІНКИ ЯКОСТІ АВТОМАТИЗОВАНОГО ПЕРЕКЛАДУ

А.В. Бірюков

Переклад документів за допомогою систем машинного перекладу (СМП) залишається наразі ще не достатньо якісним, але ступінь якості вже суттєво відрізняється залежно від використання тієї чи іншої системи. Таким чином, для потенційного користувача, серед різноманіття програмного забезпечення, постає питання вибору такого, яке б задовольняло його потреби та видавало якісний кінцевий продукт. Проблема автоматизації процесу перекладу досить приваблива, особливо в контексті питання глобалізації у світі взагалі і в перекладі зокрема, стрімкого розвитку мережі інтернет та її поширення в усі сфери людської діяльності. Тому закономірним є збільшення кількості людей, які тим чи іншим чином займаються питаннями прикладної лінгвістики. Склад учасників подібних проектів досить неоднорідний. Вони відрізняються один від одного обсягами та джерелами фінансування, науковою та технічною базою, кадрами тощо. Цілком зрозумілим стає тоді той факт, що всі вони виробляють кінцевий продукт, який має різні показники якості. У багатьох країнах світу, що досягли вже певних результатів у цій науковій галузі, розробники смп отримують кошти від уряду для досконалого дослідження проблеми. Так, на розробку німецької системи усного машинного перекладу “вербмобіль“, урядом країни на 2001 рік вже витрачено більше 100 мільйонів марок. Поряд з цим існує багато комерційних проектів, які ведуть дослідження та розповсюджують продукт на ринку власними силами. В україні, нажаль, проекти, які б дозволили скоординувати зусилля в цій галузі, державою не підтримуються і не фінансуються.

Враховуючи національний курс нашої країни до інтеграції в ЄС, питання розробки вітчизняних систем з основними європейськими напрямками перекладу є наразі дуже важливим.

У цій статті ми спробуємо запропонувати власну систему оцінки автоматизованого перекладу, яка може стати у пригоді користувачам для визначення недоліків тієї чи іншої системи, та для вибору кращої.

Терміни машинний та автоматизований переклад використовуються нами у цій статті як синоніми задля того, щоб не ускладнювати розуміння, зумовлене історичним розвитком питання. Хоча це не зовсім вірно, оскільки переклади, виконані машиною не завжди є кінцевим варіантом та доопрацьовуються часто людиною-перекладачем, тобто мають подвійний характер - з використанням праці машини та людини. Тому, на думку багатьох науковців, термін “автоматизований переклад” більш адекватно передає результат роботи машини [1, 25].

Машинний або автоматизований переклад, як і переклад традиційний, має два значення: безпосередньо процес перекладу, протягом якого здійснюється переказ повідомлення з вихідної мови мовою вхідною, та результат цієї роботи - тобто текст перекладу. Говорячи про оцінку процесу машинного перекладу, до уваги беруться всі складові системи, яка виконує переклад. Тут до оцінки входитимуть такі фактори, як зручність інтерфейсу системи, кількість словників, напрямки перекладу, вартість системи, швидкість перекладу та інші. В основному, у цій статті нами буде розглянута оцінка кінцевого результату перекладу - тобто тексту, який видає машина.

Вітчизняні дослідження, у яких би розглядалося безпосередньо питання розробки єдиної системи оцінки якості автоматизованого перекладу, нам, нажаль, невідомі. Взагалі то, створення саме єдиної системи оцінки доволі проблематичне, оскільки кількість критеріїв, за якими має бути проведена оцінка, дуже велика. Про складність цього питання говорить хоча б той факт, що навіть для ручного перекладу не існує загальних положень, які б дали можливість оцінювати переклади без огляду на мету перекладу, тип тексту, форму та умови здійснення перекладу (усний, письмовий, синхронний) та на багато інших факторів [2, 6].

Основні критерії, що їх виділяють іноземні дослідники для оцінки автоматизованого перекладу, є читабельність, зрозумілість перекладу [3], тип тексту [4], сприйнятливість для користувача [5] та орієнтація на перевірку певного мовного феномену за допомогою штучно створених тестів [6]. Що стосується останнього, то мається на увазі створення текстів, які б містили у собі речення для перевірки правильності перекладу певних граматичних, синтаксичних тощо конструкцій.

Звести до купи всі ці критерії, оцінюючи конкретний переклад, дуже важко, оскільки необхідно щоразу виконувати солідний обсяг праці для порівняння оригіналу та перекладу. Тому питання вибору пріоритетного критерію оцінки залишається наразі невирішеним. Тому постає питання розробки такої системи оцінки якості, яка б була універсальною та застосовувалась для різних типів тексту.

Це питання, однак, виглядає не таким складним, як при виборі критеріїв оцінки для перекладу традиційного хоча б тому, що на сьогоднішній день, стосовно перекладу машинного, мова йде лише про окремі функціональні стилі, а точніше - лише про переклад наукових, технічних та інформаційних текстів. Переклад тестів художніх - наразі нездійсненне завдання для будь-якої СМП - залишається прерогативою людини.

Кінцевий продукт СМП, тобто перекладений текст, може розглядатися з двох боків: як переклад, виконаний для подальшого використання, та як інформативний переклад для внутрішнього користування. Останній фактор суттєво відрізняє машинний переклад від ручного. Перекладів, які людина-перекладач виконувала б лише для себе, не існує. Використання СМП для інформативного ознайомлення зі змістом документу, є, на сьогоднішній момент, чи не найбільшою сферою застосування подібних систем. Тому здається переконливим, що оцінка перекладу машинного має суттєво відрізнятись від перекладу традиційного.

Основним чинником, який впливатиме на якість кінцевого продукту, ще до початку процесу перекладу, є можливість налаштування системи на тематичну галузь тексту, який має перекладатися. По-перше, це вибір тематичного словника. Кількість тематичних словників, які пропонує система, також дають наочну можливість користувачеві ознайомитися з її арсеналом та зробити попередні висновки. Наприклад, при користуванні системою машинного перекладу “Промт”, до ваших послуг надається більш ніж 100 тематичних словників. У резервах СМП “Сократ” ви знайдете лише 5 допоміжних словників, що, безумовно, зменшує тематичне різноманіття текстів, які можуть бути перекладені. Використання саме тематичного словника для перекладу відповідного тексту має принципове значення, оскільки переклад документів, який виконується системою лише за допомогою загального словника, не задовольняє жодних вимог щодо якості кінцевого продукту, а відповідно- не має сенсу.

Природна мова, однак, є настільки складним організмом, що передбачити особливості мовленнєвого вживання у всіх сферах людської діяльності, навіть при наявності такої кількості тематичних словників, неможливо. Тому користувачеві надається можливість створення власних словників та встановлення пріоритету використання того чи іншого словника. У власний словник записуються слова, яких не має у загальному та тематичних словниках, а також ті, що перекладені, але неправильно. Положення словника у списку визначає пріоритет його використання. Спочатку надаються переклади з першого підключеного словника, потім з другого і т. д. Міняти розташування словників у списку можна за допомогою “миші”, переміщуючи їх з місця на місце. Також існує можливість резервування певних слів, при якому вони залишаються без перекладу. Це корисно робити для власних назв, адрес електронної пошти та адрес в Інтернеті. Зарезервоване слово можна також транслітерувати.

Наступним кроком налаштування системи є механізм її навчання, який має назву асоціативної пам'яті (АП). Ця функція може бути дуже зручною при роботі з документами, зміст яких містить певну кількість однакових речень, або навіть фрагментів тексту. При цьому в базі АП зберігається оригінал та відредагований людиною переклад речення. Наступного разу, коли в тексті зустрічається таке речення, система не перекладає його знову, а видає збережений переклад, виконаний людиною.

Деякі системи машинного перекладу пропонують також можливість вибору алгоритму перекладу. Для кожного напрямку перекладу існує свій алгоритм перекладу, який може бути налаштований також безпосередньо користувачем. Наприклад, для англо-українського перекладу можна буде вибрати, як має бути виконаний переклад займенника “you” - як “Ви”, “ви”, чи “ти”.

Отже, виконавши налаштування системи за вище згаданими можливостями, окремий користувач чи професійний перекладач, який використовує СМП для підвищення ефективності своєї роботи, вже певною мірою забезпечить якість кінцевого продукту. З вище згаданих вже причин, можливості кожної окремої системи суттєво відрізняються. Не всі системи надають користувачеві однакові можливості для попереднього налаштування, тому кількість функціональних можливостей системи у цьому випадку є фактором, здатним покращити якість перекладеного тексту, що, врешті-решт, і має взяти до уваги при виборі тієї чи іншої системи кінцевий користувач.

Для того, щоб оцінити якість продукту, спочатку нам потрібно визначитись, що становить собою це поняття. У новому тлумачному словнику української мови якість визначається як “ступінь вартості, цінності, придатності чого-небудь для його використання за призначенням” [7, 930]. На нашу думку, якість можна визначити як ступінь виконання специфічних вимог. Чим вище цей ступінь, тим якіснішим є продукт.

Тепер розглянемо безпосередньо можливості оцінки результатів роботи систем машинного перекладу - перекладених текстів. Вище ми згадували, що при оцінці автоматизованих перекладів, до уваги беруться різні фактори, що ускладнює опрацьовування загальної системи оцінки якості. Кожен з критеріїв оцінки важливий і визначити якийсь пріоритетний можна лише у тих випадках, коли знаємо галузь застосування перекладу та мету його виконання, що безперечно матиме свої відмінності у кожному окремому випадку. Тому ми пропонуємо дещо формалізувати підхід до оцінки якості автоматизованих перекладів та спробувати створити шкалу, за якою кожний переклад отримував би певну кількість балів з урахуванням ваги кожної помилки.

Тепер спробуємо відтворити всі складові, що входять до процесу оцінки якості автоматизованого перекладу.

1) Визначення необхідного ступеню якості. Беручи до уваги той факт, що переклад, який видається машиною на теперішньому етапі розвитку CМП не є досконалим, то при підході до оцінки його якості суттєву роль відіграє подальше використання перекладеного тексту. Тут відомі принаймні дві можливості: переклад для подальшого використання та інформативний переклад для внутрішнього ознайомлення.

2) Перебіг процесу оцінювання. Аналізуючи помилки, які припустила система у процесі перекладу, автор оцінки може зробити певні висновки щодо її архітектури. Звичайно, маючи безпосередній доступ до системи, зробити це набагато простіше. Але враховуючи той факт, що фірми, які надають послуги з автоматизованого перекладу, виробляють продукт, який має свою комерційну таємницю, доступ до системи машинного перекладу відкритий виключно розробникам. Взагалі існують такі можливості доступу до системи:

- Метод “чорної скриньки” без доступу до автоматичного словника та алгоритмів системи;

- Метод “чорної скриньки” з доступом до автоматичного словника, але без доступу до алгоритмів системи;

- Метод “прозорої скриньки” з доступом до автоматичного словника, правил граматики та алгоритмів системи.

3) Частота оцінки. Існує одноразове оцінювання та повторне оцінювання після апгрейту системи.

Рівень всіх цих складових суттєво відрізняється залежно від суб'єкта оцінювання. Серед них розрізняють три основні групи: розробники систем машинного перекладу, власники комерційного продукту та кінцеві користувачі. Очевидно, що розробники СМП, які мають повний доступ до свого продукту, можуть здійснити оцінку маючи під рукою всі можливості для об'єктивного аналізу. З іншого боку на об'єктивізацію оцінки може вплинути можливість їх неупередженого ставлення до власного продукту.

Назвавши фактори, які мають враховуватися при оцінці автоматизованого перекладу, розглянемо тепер методи, які при цьому використовуються.

Дуже поширеним (також при оцінці ручного перекладу) є метод заповнення пропущених слів. Недоліком цього методу є складність інтерпретації результатів та можливість впливу суб'єктивних критеріїв при оцінці.

Також часто застосовується метод експертних оцінок, при якому перекладений текст перевіряється на зрозумілість та адекватність перекладу. На основі цих оцінок, однак, важко визначити сильні та слабкі місця перекладу, оцінити вагу окремих помилок.

Може застосовуватися також метод порівняльного аналізу двох чи більше систем та порівняльного аналізу автоматизованого та ручного перекладу. Перший з них дає нам змогу визначити кращу систему серед інших, але навіть визнання того, що певна система перекладає краще ніж інші, не дає гарантії, що вона перекладає якісно. Порівняння ж перекладу ручного та автоматизованого не зовсім доречно, оскільки, як вже згадувалося, переклад машинний апріорі містить помилки та має дещо інші завдання.

Дуже цікавим є тестовий метод, при якому людиною штучно створюються збірки з речень чи фраз, у яких відображені певні мовленнєві феномени (синтаксичні та граматичні структури, полісемія і т. ін.). Те, як система порається з перекладом цих тестів і є показником якості. Але функціонування мови у текстах таке широке, що охопити весь спектр мовного спілкування просто не можливо. Отже і тут ми не маємо об'єктивного критерію оцінки.

Ми пропонуємо використовувати з цією метою метод повного лінгвістичного аналізу.

Загальновідомо, що принцип роботи більшості систем машинного перекладу складається з трьох етапів: аналізу вхідного речення, безпосередньо перекладу та синтезу речення вихідною мовою. Аналізуючи більше ніж 140 перекладів з мережі Інтернет, виконаних СМП “Промт XT”, ми зробили висновок, що на кожному мовному рівні система діє не однаково успішно. Виходячи з цього, вважаємо доречним ввести коефіцієнти поправок згідно з рівнями для об'єктивізації оцінки якості. Найбільш складним для перекладу є наразі лексичний та синтаксичний рівні, що підтверджується також іншими дослідниками [8, 11]. Тому ступінь важливості рівня для визначення ваги кожної окремої помилки виглядатиме наступним чином (ієрархічне розташування, згідно зі ступенем складності):

Лексичний рівень - “5”

Синтаксичний рівень - “4”

Морфологічний рівень - “3”

Текстовий рівень - “2”

Орфографічний рівень - “1”

Зрозуміло, що і помилки, які припускає система всередині кожного мовного рівня, не однакові. Врешті-решт саме значущість кожної окремої помилки і впливає на кінцеву якість перекладеного тексту. Ми пропонуємо розрізняти такі помилки з окремим умовним балом для кожної: груба (0,6); суттєва (0,5); значна (0,4); дрібна (0,3); незначна (0,2); огріх (0,1) бали. Для кожного мовного рівня існуватимуть свої специфічні визначення кожної помилки, наводити які не є метою цієї статті, але загалом вони характеризуються нами таким чином: грубі помилки - помилки відповідно до кожного мовного рівня, які унеможливлюють розуміння тексту перекладу; суттєві помилки - помилки, які ускладнюють розуміння перекладу; значні помилки - ті, які б без наявності контексту унеможливлювали розуміння тексту; дрібні помилки - помилки, які ускладнюють читабельність тексту, але зрозумілість перекладу при яких суттєво не страждає; незначні помилки - це загалом правильно перекладені речення з незначними недоліками, що не впливають на загальну зрозумілість тексту перекладу; нарешті огріхи - це раніше вже виправлені помилки, які повторюються у тексті перекладу.

Далі визначимо коефіцієнт ваги кожної помилки на кожному мовленнєвому рівні за схемою: коефіцієнт ваги помилки (КВП) = ступеню важливості рівня (СВР) помноженому на бал цієї помилки (БП). Отже, КВП = СВР x БП.

Наприклад: коефіцієнт ваги грубої помилки на лексичному рівні дорівнюватиме ступеню важливості рівня (лексичний - 5), помноженому на бал грубої помилки (0,6). Тобто 5 х 0,6=3,0.

Мовленнєві рівні

Коефіцієнт ваги помилки

Груба

Суттєва

Значна

Дрібна

Незначна

Огріх

Лексичний

3,0

2,5

2,0

1,5

1,0

0,5

Синтаксичний

2,4

2,0

1,6

1,2

0,8

0,4

Морфологічний

1,8

1,5

1,2

0,9

0,6

0,3

Текстовий

1,2

1,0

0,8

0,6

0,4

0,2

Орфографічний

0,6

0,5

0,4

0,3

0,2

0,1

Якість машинного перекладу можна розглядати на кожному рівні еквівалентності перекладу, на рівні перекладу слів, словосполучень, речень, тексту, навіть на рівні морфем. Але нам здається, що заради прагматичних цілей оцінку потрібно здійснювати на текстовому рівні з урахуванням якості всіх речень, які входять до складу тексту. Для оцінки текстів та речень застосовується трьохбальна система: “добре”, “задовільно”, “незадовільно”. Введення більш диференційованої оцінки, ймовірно, ускладнюватиме процес аналізу.

Аналіз перекладів, виконаних різними СМП, свідчить про те, що якість перекладеного тексту залежить також від довжини речення. Складні речення, які містять декілька підрядних або складні периферійні синтагми та звичайні прості речення, перекладаються системою не однаково. Тому вважаємо доцільним ввести розгляд положення про довжину речення та його вплив на якість перекладу. Оцінка речень, таким чином, поділятиметься на дві групи: 1) оцінка простих речень; 2) оцінка складнопідрядних речень. Критерії оцінювання якості перекладу речень будуть такими:

“добре” - дві лексичні, або одна граматична (периферійна) помилка;

“задовільно” - три лексичні, або дві лексичні + одна граматична (периферійна) помилка;

“незадовільно” - більше ніж три лексичні чи дві граматичні (периферійні) помилки, або одна граматична (основна).

При оцінці складних речень кожне просте речення оцінюється окремо, потім виводиться загальна оцінка. При однакових показниках увага звертається на переклад головного речення.

Таким чином оцінюється кожне речення тексту. Потім підраховується загальна кількість оцінок “добре”: якщо кількість таких речень сягає 75% та більше, текст вважається перекладеним добре; 50% та вище - задовільно; нижче 50% - незадовільно.

Запропонована нами система оцінки якості автоматизованого перекладу не претендує на універсальність, але може стати у пригоді саме розробникам СМП. Аналіз тексту перекладу та помилок системи на кожному рівні може стати зручним помічником у справі покращення алгоритму та підвищення загальної якості перекладу.

Враховуючи бурхливий розвиток мережі Інтернет, зростаючі потреби користувачів в обміні інформації та необхідності її швидкого опрацювання, ймовірну можливість збільшення основних офіційних мов ЄС, подальший розвиток питання оцінки якості автоматизованого перекладу проходитиме, скоріше за все, з орієнтацію на потреби кінцевого користувача.

СПИСОК ЛІТЕРАТУРИ

1. Пиотровский Р.Г. Новые горизонты машинного перевода //НТИ, Сер.2. - 2002. - №1. - С. 17-29.

2. Цвиллинг М.Я. Туровер Г.Я. О критериях оценки перевода //Тетради переводчика. - М.: 1978. - Вып. 15. - 112 с.

3. Seewald-Heeg, U. (1999, September). Forum der Gesellschaft fuer Linguistische Datenverarbeitung

4. Seewald-Heeg, U. Textsortenspezifische Evaluation maschineller Uebersetzungssysteme am Beispiel von Instruktionstexten

5. Marx, J. Bewertung von MT-Systemen aus Benutzersicht: Evaluierung im Projekt MIROSLAV

6. Nuebel, R. Phaenomenspezifische Evaluation von maschinellen Uebersetzungen am Beispiel von Koordination.

7. Новий тлумачний словник української мови у чотирьох томах. /Укл. Яременко В.В., Сліпушко О.М. - К.: “Аконіт”, 1998. - Т.4. - 941 с.

8. Хайрова Н.Ф., Замаруєва І. В. Машинний переклад: Навч. посібник. - Харків: Око, 1998. - 82 с.


Подобные документы

  • Німецька реклама та її відтворення у перекладі. Адекватність та еквівалентність перекладу реклами. Способи перекладу німецьких рекламних слоганів. Дослівний переклад реклами, субституція як специфічний засіб перекладу. Парафраза як спосіб перекладу.

    курсовая работа [57,7 K], добавлен 21.06.2013

  • Теоретичні підходи в дослідженні газетно-інформаційних повідомлень та їх перекладу. Загальні поняття і роль перекладу в сучасному світі, проблеми перекладу газетно-інформаційних повідомлень, аналіз лінгвістичних та екстралінгвістичних факторів перекладу.

    дипломная работа [76,8 K], добавлен 06.06.2010

  • Приклади використовування на практиці перекладацьких прийомів за умов усного послідовного та письмового перекладу текстів за фахом. Вибір перекладацької стратегії згідно з видом перекладу. Алгоритм перекладу різних типів технічної та ділової документації.

    отчет по практике [29,2 K], добавлен 14.05.2012

  • Аналіз ділової кореспонденції з точки зору складових мовних жанрів і мовної поведінки авторів з метою визначення особливостей перекладу офіційних документів. Дослідження граматичних особливостей перекладу японських офіційних документів і кореспонденції.

    курсовая работа [1,6 M], добавлен 02.05.2019

  • Характеристика основних аспектів перекладу, класифікація стратегій. Вільний, дослівний та літературний (адекватний) переклад. Експлікація (описовий переклад): поняття, особливості. Функціонально-стилістична домінанта перекладу публіцистичних текстів.

    курсовая работа [30,0 K], добавлен 02.10.2011

  • Розгляд антонімічного перекладу як однієї з лексико-граматичних трансформацій. Аналіз мовного антонімічного перекладу формальної негативації, позитивації й анулювання наявних у реченні негативних компонентів. Опис контекстуального антонімічного перекладу.

    статья [20,1 K], добавлен 14.08.2017

  • Визначення поняття синтаксичної трансформації як особливого виду міжмовного перетворення та невід’ємної частини процесу перекладу. Характеристика основних типів синтаксичних трансформацій та аналіз їх використання під час перекладу різних текстів.

    статья [24,1 K], добавлен 24.11.2017

  • Переклад художнього тексту як особливий вид лінгвістичної та мовознавчої діяльності. Головні засоби досягнення адекватного перекладу, основні форми трансформацій. Особливості перекладу ліричних творів, фразеологічних одиниць та їх метафоричних елементів.

    курсовая работа [45,0 K], добавлен 20.11.2011

  • Дослідження витоків та основних принципів концепції "енергійного перекладу" Сен-Сімона. Визначення його місця у розвитку теоретичного знання про переклад доби Просвітництва. Роль метафоричних образів у концептуалізації перекладу як наукового поняття.

    статья [28,5 K], добавлен 19.09.2017

  • Поняття перекладу як передачі змісту засобами іншої мови. Діада змісту та форми, теза Гумбольдта. Мета перекладу - не заміна мови, а її збереження, тобто порозуміння. Реферування й анотування текстів - мовою джерела та іншою. Природа різнотипних мов.

    реферат [43,0 K], добавлен 20.09.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.