Проблема формирования баз данных (на материале лексики подъязыка "логистика")

В научной статье представлены краткая справка и характеристика частных случаев употребления лексических единиц подъязыка логистики, предложены способы улучшения качества автоматизированного перевода и разрешения возникающих семантических трудностей.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 29.04.2022
Размер файла 27,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Проблема формирования баз данных (на материале лексики подъязыка "логистика")

О.И. Кузьмин

аспирант

кафедры прикладной и экспериментальной лингвистики

Института прикладной и математической лингвистики

Московского государственного лингвистического университета

Аннотация

В статье представлены краткая справка и характеристика частных случаев употребления лексических единиц подъязыка логистики, предложены способы улучшения качества автоматизированного перевода и разрешения возникающих семантических трудностей, а также рассмотрены способы формирования новых лингвистических баз данных и улучшения уже существующих. В этой связи разработка профессиональных словарей (глоссариев) поможет повысить степень точности перевода и избежать возможных ошибок.

Ключевые слова: большие данные; базы данных; искусственный интеллект; автоматизированный перевод; машинный перевод; подъязыки; логистика. лексический перевод автоматизированный

O.I. Kuzmin

Postgraduate Student

Department of Applied and Experimental Linguistics

Institute of Applied and Mathematical Linguistics Moscow State Linguistics University

THE PROBLEM OF DATABASES CREATION (based on the vocabulary of the sublanguage "logistics")

This article represents a brief reference and characteristics of particular cases of using the vocabulary of the sublanguage "logistics", suggests ways to improve the quality of automated translation and resolve emerging semantic difficulties. Moreover, it was studied the ways to form new linguistic databases and improve existing ones. In this regard, the development of professional dictionaries (glossaries) will help to increase the degree of translation accuracy and avoid possible errors.

Key words: Big Data; databases; artificial intelligence; automated translation; machine translation; sublanguages; logistics.

Введение

Несмотря на то, что определение "большие данные" (Big Data) появилось относительно недавно, история появления и развития данного понятия корнями уходит в глубокое прошлое. На протяжении веков особый интерес ученых представлял вопрос хранения, обработки и анализа информации. Примером этому могут послужить первые летописные источники (например, "Повесть временных лет"), а также античные библиотеки (Вавилонская и Александрийская), которые использовались для хранения больших объемов текстовой информации. Российская государственная библиотека, основанная в 1862 году и находящаяся в Москве, также может послужить прекрасной иллюстрацией базы данных [Володин 2002]. В рукописных и печатных источниках скрыта опасность утраты ценной информации вследствие вероятного пожара. К сожалению, так и были навсегда безвозвратно утеряны многие великие труды.

Технологический прогресс не стоял на месте, и после появления в XX веке первых ЭВМ и СУБД от американской компании IBM, а также Интернетка колоссально возросло количество мультиязычной текстовой информации. В связи с этим остро встали вопросы, связанные со сбором, хранением и анализом данных. С помощью современных цифровых технологий (в том числе облачных) многие письменные источники начали переводиться в цифровые. Так, Оксфордская библиотека (Oxford library), ранее существовавшая только в бумажном виде, была успешно оцифрована, как и многие другие российские и иностранные библиотеки. Цифровая информация сегодня хранится на огромных серверах (дата-центрах). Доступ к ней возможен из любой точки мира, где есть подключение к Интернету. Массивы цифровых текстовых данных начали использоваться для обучения алгоритмов систем машинного перевода с целью улучшения их качества. Таким образом, большие данные - это необходимый материал и основа для функционирования современных онлайн-переводчиков.

Однако такие преимущества современных технологий, как доступность информации и разнообразность цифровых источников, на которых обучаются системы машинного перевода, усложнили процессы межъязыковой трансформации текста предметных областей. В большей степени ошибки систем отчетливо проявляются именно при работе с профессиональными подъязыками. Согласно Л.Л. Нелюбину, "подъязык - это язык области знания, предметной области (язык математики, физики, военный язык, дипломатический язык и т п." [Нелюбин 2003]. Иными словами, для большей точности работы систем необходимо учитывать не только особенности каждого языка, но и подключать лексический материал конкретных предметных областей. Реализовать это в полной мере на данный момент невозможно из-за недостаточного описания лексических единиц подъязыков. Для разработки такого материала необходимы специализированные программные решения, основанные на базах данных, которые содержат мультиязычные лингвистические единицы подъязыков.

В ходе изучения особенностей, характерных для подъязыка логистики, были отобраны массивы мультиязычных текстов, содержащие ошибки машинного перевода с / на немецкий, английский и русский языки. Также был разработан специализированный глоссарий подъязыка логистики для последующего внедрения в системы CAT (Computer-aided translation). Актуальность темы обусловлена возрастающими объемами мультиязычной текстовой информации в Интернете, с одной стороны, и отсутствием программных подходов к переводу подъязыков, основанных на структуризации и классификации лингвистических единиц, - с другой. Для этого предлагается рассмотреть эффективность работы программных решений, подходящих для перевода текстов подъязыков. После тестирования программ и на основе выявленных ошибок был проведен анализ и выработаны определенные рекомендации по совершенствованию существующих систем автоматизированного перевода.

История больших данных

Если говорить о первом упоминании словосочетания большие данные, то оно датировано 2008 годом и связано с именем Клиффорда Линча, который был редактором журнала "Nature". В специальном выпуске журнала "Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объемами данных?" он отметил резкий рост объемов и способов обработки информации, а также спрогнозировал возможный скачок от количества данных к качеству полученных результатов [Lynch 2008].

В 2010 году появились первые системы для решения задачи обработки и хранения информации. Крупнейшие мировые разработчики информационных технологий IBM, Oracle, Microsoft, Hewlett-Packard начали активно исследовать и развивать технологии, основанные на использовании "больших данных". 2011-2014 годы - этап перехода от теоретических исследований к практическим областям применения. В вузах появилась дисциплина "наука о данных", которая занимается вопросами аналитики, анализа данных, управлением информационными потоками. C 2015 году по настоящее время происходит развитие всех областей, связанных с искусственным интеллектом, его применением в повседневной жизни людей. Эти процессы происходят в непосредственной зависимости от увеличения объемов данных, методов их обработки и хранения. Вследствие повсеместного применения современных цифровых технологий в 2019 году в соответствии с Указом Президента РФ от 10.10.2019 года № 490 был взят курс на развитие информационных технологий, основанных на анализе больших данных, и повсеместное внедрение искусственного интеллекта до 2030 года. В прошлом году на конференции "Artificial Intelligence Journey" (AI Journey 2020) президент отметил, что развитие информационных технологий будет регулировать и определять дальнейшую судьбу человечества в ближайшие годы, а глобальная цифровая трансформация жизни общества является неизбежным процессом. Многие ученые и футурологи современности искренне верят в будущую синергию человека и машины, о чем публично заявляют в своих выступлениях [Kurzweil 1990].

Любая система имеет свои определенные характеристики, следовательно, они есть и у "больших данных". В процессе исследования было установлено правило VVV, которым должна обладать каждая система данных, претендующая на звание "Big Data". Первое - это объем (volume), который должен составлять более 150 ГБ в сутки. Второе - это скорость обновления (velocity): информация регулярно обновляется и обрабатывается в реальном времени с помощью специальных технологий, основанных на понимании принципов работы "больших данных". Третье - это разнообразие (variety): информация в массивах может иметь неоднородные форматы, быть структурированной частично, полностью и скапливаться бессистемно. Развитие современных систем дополняет данные требования еще двумя критериями: изменчивость (variability) - потоки данных могут иметь пики и спады, периодичность. Всплески неструктурированной информации сложны в управлении, требуют мощных технологий обработки. Значение данных (value) - информация может иметь разную сложность для восприятия и переработки, что затрудняет работу интеллектуальным системам. Задача машин - определить степень важности поступающей информации, чтобы быть в состоянии оперативно ее структурировать и расположить в порядке приоритетности.

В ходе многочисленных аналитических исследований было отмечено, что к 2019-2020 годам важность "больших данных" и работа с большими мультимодальными информационными массивами возросла кратно в сравнении с началом десятилетия. Также произошли процессы интеграции этих систем во все сферы экономики, культуры, политики, спорта и т. п. [Mayer-Schonberger, Cukier 2013].

Области применения больших данных и баз данных

С появлением новых технологий возник вопрос применения знаний в практической деятельности для разработки программ и сервисов, направленных на улучшение уровня жизни человека. В этой связи было предложено использовать большие данные как основу всех цифровых вычислительных процессов. Данный термин, несомненно, связан со стремительным ростом количества информации в Интернете и скоростью работы вычислительной техники как инструмента для ее обработки. И в этой связи, конечно, интересна семантическая сторона вопроса. C одной стороны, это потоки бессистемной информации, которая хранится на цифровых носителях. С другой - объемы настолько велики, что стандартные методы работы над информацией в данном случае не подходят. Поэтому необходимо внести коррективы в значение данного термина. Большие данные - это не просто случайный набор данных, а информация, связанная между собой некими общими характеристиками и собирательными свойствами. Для выявления закономерностей необходимы особые технологии поиска (инструменты) для обработки и манипулирования неструктированными данными [Franks, Davenport 2012]. Такие сервисы и технологии активно развиваются в последние годы в связи со стремительным распространением и использованием искусственного интеллекта по всему миру и возникновением спроса на новые цифровые технологии, которые умеют генерировать и своевременно предоставлять необходимую информацию по запросу [Chen et al. 2014].

Благодаря современным цифровым технологиям и вычислительным ресурсам большие данные начали активно применяться в статистическом переводе (Statistical machine translation - SMT). Появилась 138 возможность сопоставлять большие массивы мультиязычных текстовых данных, вследствие чего система обучалась выдавать более корректные результаты. С появлением нейросетевых технологий и глубокого обучения (deep learning), основанного на искусственных нейронных сетях, появилась возможность обучения программ без прямого участия человека. Вследствие этого были улучшены стабильность и точность работы, а также отмечен высокий уровень качества перевода. Однако при машинном переводе текстов, в которых содержатся лексические единицы, характерные исключительно для данной сферы употребления (профессионализмы), сразу же возникают ошибки, неточности и лексические искажения [Maucec, Donaj 2019].

При стандартном подходе к обработке информации и формированию баз данных используется простой набор правил. Такой алгоритм лежит в основе машинного перевода. Однако встречаются особые случаи, которые скорее являются исключениями и не могут быть очевидно интерпретированы автоматической программой. В этой связи базы данных являются хорошим инструментом для улучшения качества машинного перевода. Как и в случае с большими данными, термин "база данных" имеет множество субъективных интерпретаций, но не имеет четкого определения. Одно из определений звучит следующим образом: база данных - организованная в соответствии с определенными правилами и поддерживаемая в памяти компьютера совокупность данных, характеризующая актуальное состояние некоторой предметной области и используемая для удовлетворения информационных потребностей пользователей [Когаловский 2002]. В качестве примера базы данных можно привести популярный веб-сервис Reverso.Context URL: https://context.reverso.net.. Это онлайн-база данных для поиска частных случаев употребления лексических единиц в контексте. Несомненно, что использование таких сервисов помогает переводчику подобрать правильное значение слова, но стоит отметить тот факт, что базы данных не предлагают готовый вариант перевода, а содержат лишь справочную информацию. Конечно, большие базы данных являются подспорьем переводчику, но окончательные решения и ответственность за качество перевода всё равно остаются за человеком.

При работе с предметной областью предлагается формировать базы данных подъязыков, содержащие те понятия, которые приняты и употребительны в конкретной языковой среде. Разработанные базы данных должны также предлагать варианты перевода, чтобы редактор мог выбрать из уже имеющихся слов, а не переводить отдельные слова или словосочетания самостоятельно. Конечно, сбор материалов, на основе которых будет формироваться база данных, требует ресурса и достаточно много времени. Стоит отметить, что системы, основанные на базах данных, существуют уже сегодня. Многие переводчики в крупных компаниях и организациях используют систему TRADOS, которая предлагает возможность составления базы данных терминов и памяти переводов на основе единиц конкретного подъязыка. Естественно, что для поддержания системы в рабочем состоянии необходимо постоянно обновлять уже существующие лексические данные URL: sdltrados.com..

Для эффективного перевода подъязыков предлагается использовать гибридный способ: машинный перевод (который обучается на больших данных) в совокупности со специально разработанными базами данных (глоссарий и память переводов). Синергия обоих подходов позволит ликвидировать минусы и недостатки каждой из систем. Большие данные работают с текстовыми массивами и позволяют системам машинного перевода использовать широкое многообразие базовых языковых структур. Однако в процессе ознакомления с результатами перевода отмечаются семантические ошибки, связанные с неточностью выбора слова или словосочетания конкретного подъязыка. Для таких задач лучше подходят базы данных, которые отыскивают как фрагменты текстов, так и отдельные текстовые единицы.

Формирование баз данных подъязыка логистики

Недостаточное описание подъязыков предметных областей и отсутствие программных методов трансформации лексических единиц приводит к многочисленным неточностям при переводе. Так, например, в подъязыке логистики существуют как отдельные единицы, так и целые лексические пласты, которые имеют особые значения в данной предметной области. Такие единицы образуют семантическое ядро, используя которое, специалисты понимают друг друга, формируют общие представления и приходят к взаимопониманию по конкретным вопросам.

При использовании машинного перевода невозможно избежать смысловых ошибок в подъязыках. Для анализа и формирования базы данных были использованы специально отобранные тексты подъязыка логистики, содержащие уникальные лексические единицы и словосочетания, автоматический перевод которых затруднителен. На основе текстов был разработан уникальный глоссарий подъязыка логистики. Для исправления допущенных машинным переводом ошибок была использована система CAT, в которую был загружен разработанный глоссарий.

Из опыта работы с языковыми парами английский - немецкий в подъязыке логистики были выявлены специализированные термины, перевод которых крайне затруднителен. Одним из них является словосочетание электронные пломбы - прибор, который не только защищает груз, но и коммуницирует с грузоотправителем, перевозчиком и грузополучателем с помощью сотовой и спутниковой связи. Для английского языка эквивалентным вариантом перевода является слово e-seals. Машинный перевод этих слов предлагает крайне отдаленные от действительности варианты, так как его алгоритмы не предполагают поиск по данной предметной области и не могут подобрать правильный эквивалент перевода. Такая же ситуация наблюдается и в немецком языке. Эквивалентом словосочетания электронные пломбы является elektronische Verschlusse. Машинный перевод не в состоянии правильно подобрать необходимый эквивалент, а выбирает только самое частотное значение, которое встречалось в Интернете в сочетании со стоящими рядом словами. Вследствие этого происходит смысловое искажение целых фрагментов текста.

Одним из примеров игнорирования автоматизированными системами семантических особенностей профессионализмов являются слова der Bahnverkehr и der Schienenverkehr. Принципиальной разницы в значениях нет, но они имеют особые оттенки смыслов. Так, die Schiene - рельс, а der Schienenverkehr - рельсовое движение (движение по рельсам) (https://www.wortbedeutung.info/Schienenverkehr.). В русском языке слова железная дорога и железнодорожный транспорт относятся к материалу изготовления рельсов, а не к самим рельсам или железнодорожному пути. Слово der Bahnverkehr имеет более широкое значение, которое включает в себя не только сам процесс движения состава, но и инфраструктуру и дополнительные факторы, влияющие на процесс железнодорожных грузоперевозок (https:// www.wortbedeutung.info/Bahnverkehr).

Часто пользователи автоматизированных систем сталкиваются с тем, что текст или отрывок содержит профессионализмы, которые используются только специалистами в данных областях, и процесс перевода из-за этого может стать крайне затруднительным. Слова подъязыка логистики не являются исключением. Например, словосочетания широкая колея, узкая колея, стандартная колея и ширина колеи в соответствующих контекстах приобретают особые значения. В немецком языке эти понятия означают Spurweite (ширина колеи) и Breitspur (широкая колея), в английском standart-gauge railway (стандартная колея) и track gauge (ширина колеи). Стандартная (европейская) колея шириной 1 435 мм применяется для транспортировки грузов железнодорожным транспортом по территории Европы. На территории России и стран СНГ используется широкая (русская) колея, которая равна 1 520 мм. В русскоязычной парадигме существует убеждение, что европейская колея 1 435 мм является узкой, так как в соотношении с русской расстояние между рельсами меньше, следовательно, на территории России такое название и закрепилось. В европейских странах, наоборот, узкая колея та, что меньше их стандарта в 1 435 мм. Конечно, такие особенности отражаются в подъязыке, и возникает разница в лексических единицах, основанных на представлениях, которые сложились на протяжении определенного времени в тех или иных странах.

Примерами профессионализмов, для которых необходимо формирование базы данных с учетом семантических значений, являются такие словосочетания, как двадцатифутовый эквивалент (ДФЭ), в английском - twenty-foot equivalent unit (TEU) - условная единица измерения вместимости грузовых транспортных средств (контейнеров). Накладная ЦИМ / СМГС, в английском - CIM / SMGS consignment note - специальная товарная накладная, регламентирующая правила перевозки по сетям железных дорог. Список таких слов более обширный, это указывает на необходимость создания баз данных профессиональной лексики подъязыков и специальных технологий, которые будут способны находить такие единицы в больших корпусах текста.

На сегодняшний день неразрешимой проблемой машинного перевода до сих пор остается полисемия [Ермолаева 2020]. Некоторые слова имеют несколько значений в зависимости от области употребления. Так, многозначным является слово мультимодальность, которое входит в несколько областей одновременно, но в то же время имеет в каждой различные значения. В логистике мультимодальная перевозка (multimodal transportation) означает перевозку грузов с помощью различных видов транспорта (автомобильная, морская, железнодорожная и т д.). В лингвистике слово мультимодальность имеет несколько другое значение, которое относится к каналам получения и передачи информации (графические, аудиальные и визуальные). Таким образом, как отдельное слово, так и целое словосочетание способно приобретать новое значение, и, несомненно, это должно быть каталогизировано и внесено в базу данных.

Заключение

Перевод текстов профессиональной отрасли знаний является даже более сложным процессом, чем перевод общеупотребительных лексических единиц, относящихся к бытовой сфере общения. Успешный перевод с подъязыка на подъязык предполагает не только знание языков и выполнение прямого перевода слова или предложения, но и владение профессиональной терминологий каждой отдельной отрасли. Недостаточная разработка лексических единиц подъязыков вызывает необходимость разработки программных продуктов совместно со специалистами каждой предметной области для подробного описания каждого подъязыка и заполнения существующих лакун [Eiger, Panasiuk 2005].

Подъязык "логистика" изобилует профессиональной терминологией, которая понятна только для людей, которые непосредственно связаны с данной тематикой. Машинный перевод при переводе корпусов текстов допускает определенное количество лексических ошибок и семантических неточностей, что приводит к смысловому искажению всего текста и снижению общего качества полученного перевода. Детальное формирование баз данных подъязыков (разработка глоссариев и использование памяти переводов) является на данный момент ключом к улучшению общего качества перевода, а также перевода подъязыков.

В рамках исследования был проведен сравнительно-сопоставительный анализ результатов машинного перевода и отредактированных CAT (система текстов с использованием специализированного глоссария. Также был разработан метод классификации ошибок, акцентировано внимание на частных случаях употребления лексических единиц подъязыков. Вычисленная частотность, с которой пользователю предлагалось заменить вариант машинного перевода на вариант, указанный в специализированном глоссарии, доказывает факт необходимости применения специально разработанных баз данных в автоматических системах для улучшения качества перевода.

Стоит отметить, что достижение высокого качества перевода без использования дополнительных программных надстроек, а также пред- и постредактирования переведенного текста на сегодняшний день невозможно [Оськина 2017]. В будущем онлайн-системы машинного перевода будут содержать дополнительный инструментарий, который можно будет адаптировать под каждого пользователя для перевода текста с любого подъязыка на любой подъязык.

Список литературы / references

1. Володин Б.Ф. Всемирная история библиотек. СПб. : Профессия, 2002. [Volodin, B. F. (2002). Vsemirnaya istoriya bibliotek (World Library History). St. Petersburg: Professiya. (in Russ.)].

2. Ермолаева А.А. Полисемия в контексте нейронного машинного перевода // Молодой ученый. 2020. № 32 (322). С. 175-177. [Yermolaeva, A. A. (2020). Polisemiya v kontekste neyronnogo mashinnogo perevoda (Polisemy in the context of neural mashine translation). Molodoy uchenyy, 32(322), 175-177. (in Russ.)].

3. Когаловский М.Р. Энциклопедия технологий баз данных. М. : Финансы и статистика, 2002. [Kogalovskiy, M. R. (2002). Entsiklopediya tekhnologiy baz dannykh (Encyclopedia of Database Technologies). Moscow: Finansy i statistika. (In Russ.)].

4. Нелюбин Л.Л. Толковый переводоведческий словарь. 3-е изд., перер. М. : Флинта: Наука. 2003. [Nelyubin, L. L. (2003). Tolkovyy perevodcheskiy slovar' (Explanatory translation dictionary). 3rd izd., pererab. Moscow: Flinta : Nauka. (In Russ.)].

5. Оськина К.А. Мультиязыковая типология семантем концепта "Новейшие информационные технологии": дис. ... канд. филол. наук. М., 2017. [O'skina

6. K. A. (2017). Mul'tiyazykovaya tipologiya semantem kontsepta "Noveyshiye informatsionnyye tekhnologii" (Multilingual typology of semantemes of the concept "The latest information technologies"): PhD in Philology. Moscow. (In Russ.)].

7. Lynch C. Big Data: how do your data grow? // Nature. 2008. Vol. 455. № 7209. P 28-29.

8. Kurzweil R. The Age of Intelligent Machines. Cambridge. MA: MIT Press, 1990. Mayer-Schonberger V., Cukier K. Big Data: A Revolution That Will Transform How We Live, Work and Think. Boston: Houghton Mifflin Harcourt, 2013.

9. Chen M. [et. al.]. Big Data. Related Technologies, Challenges, and Future Prospects / M. Chen, S. Mao, Y. Zhang, V. Leung C. DOI 10.1007/978-3-31906245-7. N Y : Springer International Publishing, 2014.

10. Franks B., Davenport T. Taming the Big Data Tidal Wave: Finding Opportunities in Huge Data Streams with Advanced Analytics, John Wiley & Sons Limited. 2012.

11. Maucec M. S., Donaj G. Machine Translation and the Evaluation of Its Quality. 2019.

12. Eiger G. W., Panasiuk I. (2005): Konzepte und Lakunen: Zur Frage der Determinierung interkultureller Unterschiede. In: Igor Panasiuk, Hartmut Schroder (Hrsg.): Lakunen-Theorie: Ethnopsycholinguistische Aspekte der Sprach- und Kulturforschung (Im Druck).

Размещено на Allbest.ru


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.