Автоматичне субтитрування німецькомовних текстів на базі сучасних інтернет-платформ

Обґрунтування актуальності, практичної цінності та особливостей автоматичного субтитрування на базі сучасних інтернет-платформ. Роль перекладача в процесі автоматичного субтитруванння німецькомовних текстів. Основні компоненти системи субтитрів.

Рубрика Иностранные языки и языкознание
Вид статья
Язык украинский
Дата добавления 14.02.2022
Размер файла 197,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

АВТОМАТИЧНЕ СУБТИТРУВАНННЯ НІМЕЦЬКОМОВНИХ ТЕКСТІВ НА БАЗІ СУЧАСНИХ ІНТЕРНЕТ-ПЛАТФОРМ

Денис РЯБОВ (студент ІІ курсу другого (магістерського) рівня

вищої освіти факультету іноземних мов)

Науковий керівник - кандидат філологічних наук,

старший викладач Верезубенко М. М.

Анотація

В поданій статті обґрунтовано актуальність, практичну цінність та особливості автоматичного субтитрування на базі сучасних інтернет-платформ.

Ключові слова: автоматичне субтитрування, гібридний машинний переклад, система базових субтитрів

Виклад основного матеріалу

Автоматичне субтитрування відіграє суттєву роль у всіх сферах розвитку та функціонування сучасних інформаційно-комунікаційних технологій, особливо при роботі в глобальній мережі Інтернет. Комунікативний аспект мережі Інтернет є надвеликим, та основним засобом комунікацій була і залишається природна мова, тому автоматичне й автоматизоване комп'ютерне оцифрування повідомлень, поданих природною мовою, є складовою більшості сучасних мережевих інформаційно-комунікаційних технологій.

Сучасний етап розвитку суспільства характеризується зростаючою роллю інформаційної сфери, що утворюється сукупністю суб'єктів інформаційної взаємодії, інформації безпосередньо, інформаційної інфраструктури та суспільних відносин у зв'язку із формуванням, передачею, розповсюдженням та зберіганням інформації, обміном останньої всередині суспільства, що в свою чергу впливає на розширення сфери автоматичного субтитрування. Передача інформації з іноземної мови за допомогою електронних пристроїв являє собою останні розробки в сучасній практиці перекладу. Завдяки фундаментальним дослідженням систем алгоритмів та встановленню лексичної еквівалентності на різних лексичних рівнях, автоматичне субтитруванння зробило значний прогрес за останні роки.

Актуальність дослідження зумовлена надзвичайно швидкими темпами розвитку перекладацьких технологій, володіння і розуміння якими є однією з найважливіших умов для забезпечення конкурентоспроможності майбутнього перекладача. Відповідно, сучасні перекладацькі технології, мають бути обов'язковим компонентом професійної підготовки перекладача, їх розуміння та пізнання, що і здійснюється в межах пропонованої роботи.

Об'єктом дослідження виступають сучасні інтернет-платформи автоматичного субтитрування.

Предметом нашого дослідження є визначення функціональних особливостей сучасних інтернет- платформ автоматичного субтитрування.

Мета полягає у дослідженні автоматичного субтитруванння німецькомовних текстів на базі сучасних інтернет-платформ. Для досягнення поставленої мети слід:

1. Проаналізувати основні компоненти системи субтитрів

2. Дослідити безпосередню роль перекладача в цьому процесі

3. Виявити практичну цінність досліджуваного матеріалу

Автоматичні субтитри і субтитри для призначених для користувача відеоматеріалів не є новою темою - наприклад, Google пропонує цю функцію з листопада 2009 року для відеоматеріалів, завантажених на YouTube для деяких мов. Багато послуг сторонніх провайдерів пропонують також постредагування за допомогою людини, що дозволяє підвищити якість автоматизованих послуг зі створення прихованих субтитрів, поліпшити якість виведених транскриптів для тексту прихованих субтитрів, а потім і переклад для тексту субтитрів, відповідно, для окремих мов Проблема полягає в тому, що, оскільки використовувані технології автоматичного розпізнавання мови (АРМ) і машинного перекладу (МП) не тісно пов'язані один з одним, а також пропоновані рішення зазвичай не потребують зворотного зв'язку з користувачем в реальному часі під час робочого процесу і відповідних ключових компонентів, але в той же час результати залишаються незмінними або нижче певного очікуваного порога якості, і, крім того, послуга обходиться кінцевому користувачу дуже дорого, так як складність робочого процесу для людини, що знаходиться в замкнутому циклі, висока. [17, 1].

Зазвичай це не дозволяє мережам телемовлення використовувати ці рішення для надання контенту споживачеві, і їм доводиться вибирати, який контент вони будуть надавати на декількох мовах своїм відповідним споживачам. Цей процес займає часто багато годин або днів [2, 10, 15].

Тож, субтитри - це текст, орієнтований на візуальне сприйняття. Головне завдання перекладача полягає в тому, щоб текст перекладу вийшов зручним для читання і містився в межах і ігрових епізодах, тобто необхідно зіставити швидкість читання і тривалість епізоду. До субтитрів належать такі підвиди:

1. внутрішньомовні (intralingual);

2. міжмовні (interlingual);

3. відкриті (open);

4. приховані (closed).

Автоматичний переклад субтитрів є задовільним, але вимагає постредагування, необхідного для поліпшення результату перекладу, так як в тексті, перекладеному за допомогою онлайн-перекладача, є помилки: лінгвістичні, соціокультурні, логічні і термінологічні. Для виправлення невідповідностей потрібно звернутися до початкового тексту [21, 22].

У ході дослідження автоматичного субтитрування було повністю проаналізовано процес відображення субтитрів від початкового відеосигналу та безпосередня участь перекладача у цій системі.

Рис. 1 Спрощена діаграма основних компонентів системи субтитрів

субтитр субтитрування інтернет німецькомовний

Відео та аудіо субтитри. Цей компонент субтитрує аудіо потік від живого аудіо каналу мовлення та направляє його на наступні компоненти в відповідних форматах.

Сегментація аудіо. Для поліпшення розпізнавання мови і якості машинного перекладу звук повинен бути попередньо сегментований. Сегментація повинна враховувати зміна диктора, перемикання каналів (різні середовища, такі як студія проти інтерв'ю на вулиці), зміна мови, просодичних підказок (інтонації і вимові ударних і ненаголошених складів в словах і реченнях), шум, виявлення музики і джинглів і т.д.

Автоматичне розпізнавання мови. Реальний текст буде витягнутий з аудіопотоку за допомогою високоточної підсистеми розпізнавання мови з великим словниковим запасом. Ця система має спеціальні функції постоброблення, що поліпшують загальну читабельність, наприклад, великі літери, пунктуацію і опціональну ідентифікацію і маркування мовця.

Постобробка автоматичного розпізнавання мови. Для подальшого поліпшення кінцевого результату процесу транскрипції система дозволяє здійснювати постобробку, так що людина може вибрати прослуховування висловлювань, зображених з джерела мовлення, і порівняти їх з транскрипцією з автоматизованого процесу.

Машинний переклад. Підсистема машинного перекладу перетворює (необов'язково після редагування) транскрипцію на мову перекладу. Вона використовує не тільки послідовність слів з транскрипції, а й іншу мета-інформацію, такі як просодичні особливості, коливання в голосі мовця і т.д.

Постобробка машинного перекладу. Крім того, за бажанням замовника результат машинного перекладу може бути підданий постобробці, щоб забезпечити достатньо високий рівень результатів для публікації. Для цього пост-редактор може вибрати читання оригінального звуку або необробленого чи постобробленого транскрипту.

Приховані субтитри и форматування субтитрів. Приховані титри і субтитри можуть бути закодовані в різних стандартах. Залежно від потреб користувача і споживача, ці зміни можуть кодувати деяку додаткову інформацію (наприклад, необхідно відобразити певні "немовні" події або відобразити характерні ознаки мовця).

Організація інформаційного потоку. Даний компонент дозволяє оптимізувати весь процес мовлення відповідно до обмежень по часу, доступності ресурсів, якості вихідних даних, а також оцінним якістю результатів роботи таких автоматичних компонентів, як автоматичне розпізнавання мови (АРМ) і машинний переклад (МП).

Далі ми більш детально опишемо два основних компоненти АРМ і MH.

Система розпізнавання мови, яку ми використовуємо в описаному налаштуванні, може бути реалізована на основі «програмного забезпечення як послуга» (SaaS (англ. software as a service)) або на основі локального програмного забезпечення або гібридним способом, що поєднує ці два методи.

SaaS (англ. Software as a service - програмне забезпечення як послуга; також англ. Software on demand - програмне забезпечення на вимогу) - одна з форм хмарних обчислень, модель обслуговування, при якій передплатникам надається готове прикладне програмне забезпечення, яка повністю обслуговується провайдером. Постачальник в цій моделі самостійно управляє додатком, надаючи замовникам доступ до функцій з клієнтських пристроїв, як правило через мобільний додаток або веб-браузер. Основна перевага моделі ПЗП для споживача послуги полягає у відсутності витрат, пов'язаних з установкою, оновленням і підтримкою працездатності обладнання і працюючого на ньому програмного забезпечення. Як і у всіх формах хмарних обчислень, замовники платять не за володіння програмним забезпеченням як таким, а за його оренду (тобто за його використання через мобільний додаток або веб-інтерфейс). Таким чином, на відміну від класичної схеми ліцензування програмного забезпечення, замовник несе порівняно невеликі періодичні витрати, і йому не потрібно інвестувати значні кошти в придбання прикладної програми і необхідних програмно-платформних і апаратних засобів для його розгортання, а потім підтримувати його працездатність. Схема періодичної оплати передбачає, що якщо необхідність в програмному забезпеченні тимчасово відсутня, то замовник може призупинити його використання і заморозити виплати розробнику.

Локальне програмне забезпечення встановлюється і працює на комп'ютерах на локальному програмному забезпеченні фізичної особи або організації, що використовують це програмне забезпечення, а не на віддаленому об'єкті, такому як «серверна ферма» або хмарному обчисленні (скорочено хмара). Локальне програмне забезпечення іноді називають програмним забезпеченням "термоусадочним" (володіють властивістю стискатися, розширюватися, або якось інакше змінювати свої геометричні розміри).

Наприклад, якщо взяти до уваги арабську мову, то система розпізнавання мови навчалася роботі більш як 2 000 годинами на основі даних, транскрибованих вручну, на додаток до більш ніж 100 000 годинах даних, транскрибованих автоматично, які використовувалися для неконтрольованого навчання. Система є мовно-адаптивною системою, тобто в системі АРМ існують набори підмоделей, які класифікуються як діалектична специфціка. Також з точки зору каналу інформації, мовця або групи мовців існують підмодели, які фокусуються саме на них.

Система АРМ здатна в режимі онлайн вчитися на основі даних, що виправляються пост-редакторами, які потім можуть бути доповнені фоновими даними [25]. Це може бути зроблено на різних рівнях:

1. Для акустичної моделі різні адаптаційні техніки можуть підтримувати сучасну модель (актуальний стан) за формою і звуковими характеристиками. Чим більше система вивчає нові акценти і діалекти, тим більше система адаптується до цього типу вхідної інформації.

2. Орфоепічний словник може бути автоматично доповнений новими словами, так як вони можуть зустрічатися в постобробленій транскрипції. Додатково система може навчитися коригувати варіанти вимови відповідно до корекції в постобробці вихідної інформації АРМ.

3. Мовна модель може бути адаптована з використанням скоригованого і некоректованого автоматичного розпізнавання мови. Адаптація відбувається безперервно з використанням технік субдескритизації в великому фоновому корпусі з використанням категорійної інформації ("політика" проти "спорт" і т.д.) і інших технік адаптації, до стиля моделі, діалекту і домену.

Лінгвістична субдискретизація - технологія кодування інформації зі зниженням роздільної здатності, при якій частота вибірки різницевих синонімічних мовних сигналів (синонімів) може бути менше частоти вибірки експресивних мовних сигналів (експресивів).

Рис. 2 Блок-схема процесу машинного перекладу

Дизамбігуація (дослівно з англ. «усунення протиріч») - вкладена в пошукову систему функція по підбору найбільш вірного значення з однієї сукупності слів омонімів, виявлення суті з безлічі значень.

Слова з однаковим написанням (омоніми) мають різну семантичне навантаження. Наприклад, «ключ» - музичний знак; інструмент; підказка; номер платної програми. Пошукова система в цьому випадку підбирає потрібні ресурси для видачі по контексту, використовуючи функцію дізамбігуаціі. При неможливості аналізу контексту і застосування інших способів обробки запиту, пошукова система видає результат, виходячи з статистики видачі попередніх пошуків.

Лексична функціональна граматика (LFG) - це заснована на обмеженнях граматична структура в теоретичній лінгвістиці. Вона встановлює два окремих рівня синтаксичної структури: граматичне представлення структури фрази порядку слів і складових, і представлення граматичних функцій, таких як суб'єкт і об'єкт, аналогічно граматиці залежностей.

Підсумовуючи все вищесказане, можна стверджувати, що автоматичне субтитрування відіграє суттєву роль у всіх сферах розвитку та функціонування сучасних інформаційно-комунікаційних технологій у зв'язку зі зростаючою роллю інформаційної сфери, а надзвичайно швидкі темпи розвитку перекладацьких технологій, володіння і розуміння якими є однією з найважливіших умов для забезпечення конкурентоспроможності майбутнього перекладача зумовлюють нас розвиватися в напрямку новітніх технологій, зокрема вивчаючи нові течії перекладацької діяльності, такі як гібридний машинний переклад, а саме автоматичний переклад субтитрів та безпосередню роль перекладача у цій системі.

Бібліографія

1. Білецька О. Автоматизований перекладу у контексті сучасної інформаційної культури / О. Білецька // Український інформаційний простір. 2013. Число 1, Ч. 2. 2010.

2. Горшкова В. Е. Особенности перевода фильмов с субтитрами // Вестник Сибирского государственного аэрокосмического ун-та им. Академика М. Ф. Решетникова. 2006. № 3. С.

3. Routledge Encyclopedia of Translation Studies / [ed. by Mona Baker, Kirsten Malmkj^r]. New York & London, 1998. 654 p.

4. Szarkowska A. The audiovisual landscape in Poland at the dawn of the 21st century / Foreign Language Movies - Dubbing and Subtitling / ed. by A. Goldstein, B. Golubovic. Hamburg, 2009. P. 185 -201.

5. Chaume, F. Cine y traduccion / F. Chaume. - Madrid: Catedra, 2004. 366 p.

6. Карташова Л. А. Хмарні технології як засіб ефективного впливу на практичну підготовку перекладачів / Л. А. Карташова, О. В. Данилюк // Вища освіта України. 2013. № 3 (50). С. 199- 202

7. Шиба А. В. Використання нових інформаційних технологій у процесі формування професійної компетентності майбутнього перекладача засобами інтерактивних технологій / А. В. Шиба // Педагогіка формування творчої особистості у вищій і загальноосвітній школах. 2013. Вип. 28 (81).

8. Martin Kay (1980), The Proper Place of Men and Machines in Language Translation. Research report CSL-80-11, Xerox Palo Alto Research Center, Palo Alto, Ca. Передруковано у 1997 році в Machine Translation 12: 3-23, 1997

9. DePalma, Donald A. and Arle Lommel (2017-02-15). "Augmented Translation Powers up Language Services". Common Sense Advisory. Retrieved 2017-05-19.

10. Bowker, Lynne (2002). Computer-aided Translation Technology. Ottawa: University of Ottawa Press.

11. Samson R. Computer-assisted translation / R. Samson // Training for the New Millenium. - Amsterdam & Philadelphia: John Benjamins Publishing Company, 2005.

12. Kenny D. Teaching Machine Translation and Translation Technology: A Contrastive Study [Electronic resource] /D. Kenny, A. Way.

13. Muegge U. Cloud-based translation memory tools are changing the way translators work and train [Electronic resource] / U. Muegge. - Reference: http://works.bepress.com/cgi/viewcontent.cgi?article=1102&context =uwe_muegge. - Accessed: 15.02.2015.

14. Mehadzic S. Benefits of translating in the cloud [Electronic resource] / S. Mehadzic. - Reference: http://www.textunited.com/cms/blog/benefits-of-translating-in-the-cloud. - Accessed: 15.02.2015

15. Козуляев А. В. Аудиовизуальный полисемантический перевод как особая форма переводческой деятельности // XVII Царскосельские чтения: Материалы междунар. науч. конф. Т. I. СПб., 2013..

16. Е. А. Иофис. §45. Субтитрированные фильмокопии // Кинофотопроцессы и материалы. - 2-е изд. - М.,: «Искусство», 1980. - 239 с.

17. Armstrong, S., A. Way, C. Caffrey, M. Flanagan, D. Kenny, and M. O'Hagan (2006). Improving the quality of automated DVD subtitles via example-based machine translation. In Proc. of Translating and the Computer 28, London. Aslib.

18. de Linde, Z. and N. Kay (1999). The Semiotics of Subtitling. Manchester: St. Jerome Publishing.

19. Popowich, F., P. McFetridge, D. Turcato, and J. Toole (2000). Machine translation of closed captions. Machine Translation

20. Whitelock, P. and K. Kilby (1995). Linguistic and Computational Techniques in Machine Translation System Design (2 ed.). Studies in Computational Linguistics. London: UCL Press.

21. Marian Flanagan. 2009. Using example-based machine translation to translate dvd subtitles. In Proceedings of the 3rd Workshop on ExampleBased Machine Translation, pages 85-92, Dublin, Ireland.

22. Fred Popowich, Paul Mcfetridge, Davide Turcato, and Janine Toole. 2000. Machine translation of closed captions. Machine Translation.

23. V. Choudhary, K. Tomak and A. Chaturvedi, "Economic Benefits of Software Renting", Journal of Organizational Computing and Electronic Commerce, vol. 8, no. 4, pp. 277-305, 1998.

24. R. Dewan, B. Jing and A. Seidmann, "Product Customization and Price Competition on the Internet", Management Science, vol. 49, no. 8, pp. 1055-1070, August 2003.

25. Ainsworth, W. A., and Meyer, G. F. (1994). “Recognition of plosive syllables in noise: Comparison of an auditory model with human performance,” J. Acoust. Soc. Am.0001-4966-96, 687-694.

Размещено на Allbest.ru


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.