Стратегии преобразования русских фонетических заимствований в китайском языке: фонетические и графические аспекты
Рассмотрение фонетических и графических трансформаций, которые претерпевают звуковые заимствования из русского языка. Комплексный анализ имен нарицательных и имен собственных, кодифицированных в словарях и справочниках и употребляемых в Интернете.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | русский |
Дата добавления | 20.02.2022 |
Размер файла | 841,5 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Национальный исследовательский университет «Высшая школа экономики», Москва, Россия
Стратегии преобразования русских фонетических заимствований в китайском языке: фонетические и графические аспекты
Кирилл И. Семенов
Аннотация
фонетический звуковой заимствование русский
Статья посвящена рассмотрению фонетических и графических трансформаций, которые претерпевают звуковые заимствования из русского языка. Исследование включает в себя анализ имен нарицательных и имен собственных, кодифицированных в словарях и справочниках и употребляемых в Интернете. Рассмотренные данные позволяют выявить основные тенденции в адаптации согласных, а также локализовать предположительное влияние русско-китайского пиджина на современное употребление русских заимствований в путунхуа. В сфере графики выявлено существенное несоответствие норм транслитерации, предписываемых государственными СМИ КНР, и узуса в Интернете. Кроме того, обнаружена значительная специфичность наиболее частотных иероглифических N-грамм в заимствованиях по сравнению с контрольным корпусом китайских текстов. Мы рассчитываем на то, что работа будет полезна как для фундаментальных лингвистов, занимающихся языковыми контактами и фонетикой, так и для специалистов по автоматической обработке естественного языка.
Ключевые слова: китайский язык, русский язык, языковые контакты, фонетические заимствования, автоматическая обработка естественного языка, N-граммы
Adaptation strategies of Russian phonetic loanwords in Chinese. Phonetic and graphic aspects
Kirill I. Semenov
National Research University “Higher School of Economics, Moscow, Russia
Abstract
This article considers phonetic and graphic transformations of Russian loanwords in Chinese. The study comprises an analysis of both proper and common nouns, as well as both loanwords included in dictionaries and those used in the Internet. The data considered make it possible to detect the main trends in the adaptation of Russian consonants in Chinese, as well as to localize the hypothetical influence of the Russian-Chinese pidgin on current loanword adaptation in Mandarin Chinese. It is noted that there is a dramatic discrepancy between the norms of transliteration prescribed by the PRC media and the usage in the Internet. Furthermore, a significant level of specificity of the hieroglyphic N-grams in the loanwords is revealed, compared to the reference corpus of the Chinese texts. The author expects that the results of the work will be useful for specialists both in phonetic typology and in NLP.
Keywords: Chinese, Russian, language contacts, phonetic loanwords, NLP, N-grams
Введение
фонетический звуковой заимствование русский
На протяжении всей истории китайского языка (как в нормативном варианте, так и в диалектах) можно увидеть, что он испытывал влияние других языков, типологически и генеалогически очень сильно от него отстоящих. За последние две тысячи лет, согласно устоявшемуся взгляду в западной лингвистике, можно выделить несколько основных волн заимствований в китайский язык из других языковых семей. Первая - массовые заимствования буддийской терминологии при адаптации текстов пали на китайский язык (начиная с I в. н. э.) [Vervaet 2017, p. 23]. Вторая - заимствования из языков Средней Азии в эпоху существования Великого шелкового пути. Третья - христианская лексика, пришедшая в Китай вместе с миссионерами-иезуитами в XVI в. [Vervaet 2017, p. 26]. Четвертая - заимствования в науке и технике из быстро модернизировавшейся Японии, иногда - относящиеся к категории обратных (заимствованных из китайского в японский, затем - наоборот). Это происходило во второй половине XIX в. Последняя волна заимствований, начавшаяся в период правления Дэна Сяопина и продолжающаяся по сей день, включает в себя заимствования из европейских языков, в первую очередь из английского.
Весьма разнообразны стратегии, которые используют носители китайского языка, заимствуя те или иные слова. Традиционным считается разделение заимствований в китайском на фонетические, семантические (кальки) и гибридные (различные комбинации фонетических и семантических элементов). Такую классификацию можно увидеть, например, в [Семенас 2005, с. 210] или в [Vervaet 2017]. Впрочем, западные исследователи нового поколения предлагают более подробное и исчерпывающее деление всех заимствований на 15 типов, включающее все возможные вариации с передачей смысла, звучания и графического облика заимствования [Cook 2018, p. 20] Отдельно стоит отметить феномен «буквенных слов» (lettered words, ЧЦДёґК-zimьd). Пример такого слова Иэ GКЦ»ъЈЁsвngлshфujп)-обознача-ет «мобильный телефон третьего поколения»Ј¬ при этом G здесь - сокращение от английского generation. Большая часть данного лексического класса образовывает пересечение с заимствованиями из европейских языков.. Примечательно, что даже если базовой стратегией адаптации слова стала фонетическая, то семантическая интерпретация все равно будет влиять на финальный фонетический облик этого заимствования, то есть звуковой, тоновый и морфемный состав заимствования будет зависеть от семантически интерпретируемых китайских морфем [Семенас 2005, с. 216], [Nelson 2013, p. 500].
В настоящий момент большинство ученых находят более перспективной сферой анализ графических и семантических заимствований в современном китайском. Это связано с тем, что основные языки, из которых продолжают приходить заимствования в путунхуа, - английский и японский - дают по большей части именно графические заимствования или семантические кальки.
На фоне повышенного интереса к изучению вышеописанных типов заимствований в китайском языке крайне слабо затронутым (как в фундаментальном, так и в прикладном языкознании) остается исследование фонетических заимствований. Те же работы, которые посвящены этой сфере, отличаются либо отсутствием системного взгляда на весь процесс фонетической адаптации слов, либо узкой областью заимствованных слов (ограниченных либо конкретным языком-донором, либо конкретным семантическим полем).
Между тем, согласно [Cook 2018, p. 25], в ближайшие десятилетия фонетических заимствований будет в китайском все больше.
Стоит, тем не менее, упомянуть небольшое количество выдающихся работ, посвященных проблематике фонетических заимствований в китайском языке. Одним из наиболее значимых китайских трудов стал Словарь заимствований в китайском языке, впервые вышедший в 1985 г.-[БхХэзьЈЁliь zhиngtвn) 1985]. Основная часть вхождений в нем представляет собой именно фонетические заимствования. Из публикаций на английском языке необходимо отметить две работы. В [Lin 2008] приводится описание основных исследований последних 30 лет в западной научной литературе. Из этого обзора видно, что основной интерес у лингвистов вызывал кантонский диалект китайского, значительно отличающийся от путунхуа. Вторая работа - [Miao 2005] - представляет подробное исследование фонетических заимствований в путунхуа из трех европейских языков. Методика этой работы будет подробнее описана ниже и ляжет в основу одного из разделов настоящей статьи. Что касается работ, посвященных фонетическим заимствованиям из русского языка, то единственным достаточно систематическим описанием этого явления стала статья русских и китайских лингвистов Амурского государственного университета, выпущенная в 2016 г. [Ин, Шипановская 2016]. К сожалению, данная статья отличается малым объемом проанализированных данных (около 50 слов) и отсутствием единообразия в классификации возможных фонетических трансформаций.
Очевидно также, что фонетические заимствования - большая проблема для автоматической обработки китайского языка. Усугубляется она тем, что в китайской системе письменности нет пробелов, а предлагаемое обычными алгоритмами NLP деление на слова достаточно европоцентричное [Huang, Chen 1996, p. 4]. В отличие от семантических калек, часто уже кодифицированных и не представляющих особенных проблем для китайского слово- деления, подход к обработке фонетических заимствований машинными алгоритмами развит крайне слабо. В хрестоматийном труде Introduction to Chinese Natural Language Processing можно встретить лишь небольшой пассаж о распознавании транслитерированных заимствований, который является частным случаем распознавания слов, не включенных в словарь (проблема OOV)- [Wong, Xu 2010, pp. 39, 67]. Эвристики, которые применяются в автоматических переводчиках, например Google.Translate или Яндекс. Переводчик, пока достаточно далеки от идеала и в обнаружении фонетического заимствования, и в его правильном обратном переводе. Более досконально автоматический анализ европейских фонетических заимствований был исследован на материале корейского и японского языков. Несмотря на типологические и генеалогические различия между каждым из трех языков, имеется и ряд принципиальных для нашего исследования сходств между ними: общие черты наблюдаются как в фонетике (в т. ч. жесткие ограничения на структуру слога), так и в графике (иероглифическая и/ или слоговая письменность). В числе работ, посвященных японскому и корейскому, можно отметить [Koo 2015] (заимствования из английского в корейский и японский) и [Fujii, Ishikawa 2001] (пара языков: английский и японский).
Настоящая работа предлагает начать систематичное заполнение лакуны в области исследований фонетических заимствований из русского языка в путунхуа. Мы попытались проанализировать основные аспекты в последовательности фонетических и графических трансформаций, которая происходит при транслитерации русских слов в стандартном китайском языке. Методы и результаты настоящего исследования были описаны в курсовой работе, защищенной в Высшей школе экономики в 2019 г. [Семенов 2019].
1. Материал, методика и ограничения исследования
Объектом нашей работы стали фонетические заимствования из русского в путунхуа. В первую очередь это имена собственные, однако в нескольких разделах были использованы заимствования имен нарицательных, зафиксированные в Словаре заимствований в китайском языке [БхХэзьЈЁliь zhиngtвn) 1985]. Отметим, что в этом словаре есть вхождения лексем, относящиеся к разным историческим периодам в России - например, к имперскому (слова «мазурка» или «сударь») или к советскому («ГПУ»). Это позволяет нам предположить, что они могли прийти в китайский язык в разные эпохи. Однако, во-первых, в самом словаре отсутствуют пометы, касающиеся времени (или хотя бы источников) заимствования, во-вторых, стоит принимать во внимание, что время использования лексики в русском языке не обязательно соответствует времени его заимствования. Например, если какое-то слово, касающееся имперских реалий, пришло в китайский через пиджин (об этом будет рассказано в разделе 4), можно ожидать, что оно сохранило черты китайского языка или диалектов XIX в.; но если оно пришло в китайский через переводы русской литературы XIX в., это, скорее всего, произошло не раньше середины ХХ в. В дальнейших исследованиях было бы полезно сгруппировать вхождения словаря по предположительному времени их появления в китайском; однако на использованных для данного исследования материалах сделать это не представляется возможным. Исключение составляет лишь подвыборка слов, встречающихся одновременно в словарях пиджина и в Словаре заимствований в китайском языке.
Первый этап исследования (раздел 3) посвящен анализу трансформаций, которые происходят с согласными русского языка в процессе адаптации к китайской фонетической системе. Анализ выполнен в парадигме Теории оптимальности и повторяет методику, предложенную в диссертации Жуйцинь Мяо, защищенной в Университете Стоуни-Брук (Нью-Йорк) в 2005 г. [Miao 2005]. В этой работе рассматриваются фонетические заимствования из английского, немецкого и итальянского языков. Анализ для русского языка был проведен на материале имен нарицательных из Словаря заимствований в китайском языке (387 слов).
В разделе 4, посвященном проверке гипотезы о влиянии приграничных пиджинов на современную адаптацию фонетических заимствований из русского в путунхуа, за основу был взят материал словаря сибирского пиджина, собранный Е. Перехвальской в ее книге [Перехвальская 2008]. Необходимо отметить, что в рассмотрение не брался недавно опубликованный Словарь кяхтинского пиджина - [Попова, Таката 2017]. Мы приняли это решение по причине существенных различий в системе нотации в русских работах и в данном словаре.
Следующий этап работы (раздел 5) посвящен графической адаптации фонетических заимствований из русского в путунхуа. Раздел 5.1 посвящен сравнению нормы и узуса в транслитерациях русских имен собственных в китайском сегменте Интернета. В качестве образца нормы была использована таблица для транслитерации названий на русском языке, опубликованная Синьхуа [РВ»ЄЈЁxпnhuа) 1993]. В качестве корпуса реальных употреблений имен собственных в китайском Интернете был автоматически собран список из более чем 13 тыс. имен собственных, о которых имеется статья в китайской Википедии. Это было сделано на материале Wikidata - масштабной многоязычной базы знаний, основанной на данных из Википедии (URL: https://www.wikidata.org/wiki/). Данный этап работы был осуществлен при помощи языка Python.
В последнем этапе исследования (раздел 5.2) анализируются частотность иероглифических N-грамм, использованных в транслитерациях заимствований, и их сравнение с N-граммами в контрольном корпусе, составленном из нескольких художественных произведений китайских авторов конца ХХ в. Данный анализ был также проведен при помощи языка Python.
Необходимо отдельно отметить ограничения последних двух разделов исследования. Во-первых, все статистические исследования были проведены на основе пары «русское слово - иероглифическое заимствование», минуя фонетическую транскрипцию китайского слова. Возможно, при дальнейшем анализе этот слой окажется очень нужен в качестве медиатора между исходным русским словом и иероглифической репрезентацией. Второе ограничение - использование материалов китайской Википедии для анализа узуса носителей путунхуа. Дело в том, что на территории КНР китайская Википедия заблокирована; соответственно основную часть пользователей этой энциклопедии предположительно составляют жители Китайской Республики, Гонконга, Макао, Сингапура и диаспоры. При этом в основной части вышеперечисленных государств, во-первых, не обязательно использование предписаний по транслитерации, выдвинутых Синьхуа, во-вторых, используются другие варианты языковой нормы (гоюй) и традиционная система китайских иероглифов. Следовательно, Wikidata, пользующаяся статьями Википедии, едва ли может претендовать на звание самой большой базы знаний именованных сущностей на китайском, так как в Китае существует своя интернет-энциклопедия Baidupedia (°Щ¶И°ЩїЖЈ¬URL: https://baike.baidu.com/), объем которой превышает общий объем англоязычной, немецкоязычной, русскоязычной и китайскоязычной Википедии. Это позволяет предположить, что в Baidupedia содержится больше статей о русских именованных сущностях, чем в рассматриваемой нами базе знаний. Избрание не самого большого китайскоязычного набора данных, аудитория которого сильно смещена в сторону Тайваня, Сингапура и Гонконга, могло породить сильный перекос в данных, на основе которых строилось наше исследование.
Почему же в таком случае была выбрана именно Wikidata? В первую очередь из-за интерфейса по автоматической выкачке данных: при помощи сравнительно простого поискового запроса она позволяет сформировать набор данных по всем именам собственным, в оригинале имеющим русское имя, а ныне переведенным на китайский язык. Такого объема вхождений невозможно добиться ни пользуясь бумажными версиями словарей заимствований, ни параллельными русско-китайскими корпусами, ни скачав списки имен собственных, находящиеся в онлайн-словарях (так как обычно их объем исчисляется сотнями). Baidupedia же не предлагает алгоритмов поиска по своей базе знаний или возможности выкачки всей энциклопедии, поэтому на сегодняшний день остается довольствоваться базой знаний Википедии.
2. Анализ фонетических заимствований в китайском языке в парадигме Теории оптимальности
Прежде чем начать сравнительный анализ фонетических заимствований из европейских языков и из русского в китайский, отметим основные параметры различия фонетики т. н. SAE-языков и путунхуа в области консонантизма. В фонетике стандартного китайского языка отсутствуют фонемные противопоставления по звонкости-глухости и по мягкости-твердости. Вместо этого большая часть согласных обладает оппозицией по придыхательности. Кроме этого, структуру слога в китайском можно задать формулой (Ci)V(C2), где С - согласный, V - гласный или дифтонг. Ci, в соответствии с китаистикой, принято называть инициалью, сочетание V(©–2) - финалью. При этом набор согласных, возможных в позиции C2, значительно ограничен по сравнению с Ci.
Обратимся теперь к исследованиям фонетических заимствований в стандартном китайском. Как уже было отмечено в обзоре литературы, наиболее общим и последовательным трудом, изучающим адаптацию фонетических заимствований в путунхуа из европейских языков, стала диссертация Жуйцинь Мяо [Miao 2005]. Автор выполнила ее в парадигме Теории оптимальности (далее - ОТ), и основным объектом ее изучения стали трансформации отдельных согласных в китайских заимствованиях, а также стратегии адаптации консонантных кластеров в путунхуа. Мы применили методы ее работы и сравнили результаты, полученные на данных русских заимствований, с результатами, которые были сделаны Мяо для английского, немецкого и (в некоторых вопросах) итальянского языков. Был воспроизведен первый раздел ее работы, мы рассмотрели возможные трансформации согласных (сгруппировав их по способу артикуляции).
Учитывая, что большое количество иероглифов имеет вариативность в прочтении (как в тоне, так и в звуковом составе), сравнивать русские и иероглифические вхождения при отсутствии эксплицитной транскрипции было бы некорректно. Поэтому в рассмотрение был взят ресурс, где транскрипция была дана эксплицитно.
Таков Словарь заимствований в китайском языке [БхХэзь (liь zhиngtвn) 1985], где каждому словарному вхождению была приписана принятая в КНР транскрипция пиньинь. Из этого словаря было взято 387 слов, в большинстве своем имен нарицательных. Необходимо отметить, что не все из них являются исконно русскими, немалая часть из них пришла в русский из языков России и бывшего СССР. Анализ слов из этого ресурса был сделан вручную.
Последнее, о чем следует напомнить перед анализом заимствований из европейских языков, - между Международным фонетическим алфавитом (МФА, IPA) и официальной китайской транскрипцией пиньинь (ЖґТфЈ¬pпnyпn) есть существенные различия, при этом обе системы взаимозаменяемы. В данной работе в целях удобства как для специалистов по китайскому языку, так и для лингвистов-типологов всегда будет приводиться и транскрипция пиньинь (в кавычках “ ”), и транскрипция МФА (в косых скобках //).
В работе Мяо были рассмотрены все согласные сегменты, встречающиеся в английских, немецких и итальянских заимствованиях, проанализированные по группам (в зависимости от способа образования). Такое деление было избрано вследствие работы в парадигме P-map (от Perceptual mapping), подразумевающей, среди прочего, что главным качеством согласного, улавливаемым перцептивно, является его способ артикуляции [Miao 2005, p. 90].
Для каждого согласного из языков-доноров была приведена сводная таблица всех соответствующих ему согласных в китайских фонетических адаптациях, где все варианты были упорядочены по частотности (в процентном соотношении). На основе таблиц была составлена иерархия ограничений (в данном случае - faithfullness constraints), выглядящая для большей части согласных (кроме губных и плавных) таким образом:
IDENT (Manner) >> IDENT (Place) >>
>> IDENT (Voice/Asp),
где первое предписывает сохранение того же способа образования, второе - сохранение того же места образования, третье - переход звонкого согласного в непридыхательный, а глухого - в придыхательный [Miao 2005, p. 82].
Мы повторили данное исследование на русском языке и проанализировали частотность всех преобразований для каждого из согласных звуков. Ниже приведена таблица (табл. 1), где представлены обобщенные результаты, показывающие все возможные трансформации каждого из согласных русского слова. Для каждого согласного реализации упорядочены по частоте их встречаемости.
Таблица 1. Иерархии реализаций консонантных сегментов в фонетических заимствованиях
Способ артакуляции |
Сегмент |
Твердый, onset |
Твердый, coda |
Мягкий, onset |
Мягкий, coda |
Пример наиболее частотной реализации |
|
взрывные |
/б/,/б'/ |
“b”/p/>“p”/pV |
“b”/p/>“p”/PV |
“b”/p/ |
н./д. |
баян > °НСп“bвyаng” /pajag/ |
|
/п/, /п'/ |
“р” /pV >“ь” /p/>“f'/f/ |
“p” /pV >“ь” /p/>0 |
“p” /pV >“ь” /Р/ |
н./д. |
пуд > ЖХМШ “pьtи” / рЧ#т/ |
||
/к/, /к'/ |
“k” /kh/ >“g” /к/>ТА/ |
“k” /kh/ >“g” A/>T/te/ |
T'/te/>“g” /к/ >“k” /kh/ |
Н./д. |
катюша >ОыЗпЙЇ “kдqiьshд” /khдte^ligд/ |
||
/г/, /г'/ |
“g”/k/>“j” M |
“g”/k/>0 |
“g”/k/>“j” /te/>“q”Ј¬“x” /teV'/е/ |
Н./д. |
ГПУ>ёс±рОЪ “gйbiйwь” /kr:p^й:ь/ |
||
взрывные* |
/д/, /д7 |
>“tЈ¬7th/ >“zЈ¬Ј¬/te/ |
>“t” AV > 0 |
“d” Д/ >“j” M |
Н./д. |
дума >¶ЕВн “dщmв” /tщ:ma:/ |
|
/т/, /т'/ |
“t” /th/ >“d” /t/ >“q”/te/ |
“t” Д V >“d” А/ > 0 |
“q” /teh/ >“t” /tv>T'/te/ >“d” /t/ |
“j” /te/Ј¬“t” AV |
точка >НРЖдїЁ “tuцqikд” /№: tQhi: khд:/ |
||
щелевые |
/в/, /в'/ |
>“bЈ¬7p/Ј¬“u” /-11-/Ј¬0 |
“fЈ¬/f/ |
“WЈ¬Ј¬/w/ mi |
Н./д. |
ведро >О¬µГґд “wйidйlu6” /wsitTlwц:/ |
|
/ФА/Ф7 |
“f” /f/ >“h” /V |
“fЈ¬/f/ |
“fЈ¬/f/ |
“fЈ¬/f/ |
финка >·ТїЁ[Г±]“fлnkв” /fsnkhд:/ |
||
/з/,/з7 |
“zhVf/Ј¬“s”/s/ >“z” /ts/ >“sh” /g/Ј¬“ch”/f/ |
“zЈ¬Ј¬/te/ Л/ |
T'/te/>“q” AV |
Н./д. |
азарин > PїЙФэБЦ “вzfiаlin” /в:jfа:Wn/ |
||
/С/,А7 |
“s”/s/>“sh”/g/ >“x”/e/ |
“sЈ¬7s/>“zЈ¬7te/> “zh”/ay>“sh”/§/ |
“X” А/ >“S” M |
“X” Д/ >“S” N |
сарафан >ИшА°Ж» “sаlаfаn” /sа:lа:fжn/ |
||
/ж/ |
“zhvrm “sh”/g/Ј¬“x”/e/Ј¬ “ch”/f/ |
н./д. |
крыжачок >їЛАЧФъЧїїЛ ^kиlйizhвzhuфkи^ /khT:bi±Щ:khT:/ |
||||
/ш/, /Ш'/ |
“sh”/g/>“s”/s/Ј¬ “x”/e/ |
“sh”/g/>“s”/s/Ј¬ “X”/e/ |
Н./д. |
“sh”/g/>“x” |
шапка >ЙіЖХїЛ ' “shвpьkи” /^р^іІкЧ:/ |
||
А/, А7 |
“h” /h/ |
“h” /V |
“h” /VЈ¬“X” /е/ |
Н./д. |
хорошо >№юАаВ “hдlдsuц” /xд:lд:swц:/ |
||
аффрикаты |
/ц/ |
“ch” /teh/ >“c” /tsV>“sh”/g/ |
“cЈ¬Ј¬/teh/ |
червонец >ЗР¶ы·кДщґД “qiл'лrfйngniиci”Ј» /tfS1^ :tshz/ |
|||
N |
“q” /teV >“ch” /tjV^zhvr/, TVte/,0 |
“q”/teV >“ch”/f/ >TA/ |
4K>ЖхїЁ “qikд” /tehi:khд:/ |
||||
носовые |
/м/, /м'/ |
“тЃCЃC/т/ |
“тЃCЃC/т/ >“ng.” A)./>“n.ЃC7n./ |
“n.” /П./ЃC “ng.n” /д.п/ |
МиГ>•ДЉi “mпgй” /тЃlї:кг:/ |
||
/н/, /ну |
“.nЃC7.n/>“n.nЃCЃC /п.п/ >“ng.n” A).n/>“ng.”/g./ |
“n.”/n./>“ng.” A/ |
“.nЃC7.n/ >“n.n” /п.п/ >“ng.n”A).n/ |
>“.nЃC7.n/ |
НЭП >?•Ѓ “nаpь” /nаip%:/ |
||
плавные |
/р/'/р'/ |
T /1/ |
“r. V?./ > 0 /iy>^ng.Vr)./ |
T/l/>“r.” А-/ |
T /1/ >“r.” А-/ |
рало >ќf? “Шиб” /lд:lwц:/ |
|
/л/, /л'/ |
T /1/ >“п” /п/ |
“r. ”/aV /1/ |
T /1/ |
/0-./ > 0 |
лезгинка >—с?‹а?[•‘] “liиzпjпnkв” /Pи :tszЃCteьikhд :/ |
||
глайды |
/й/ |
/ji/ > 0 |
ералаш >Љђќfќ\ђј “yиlвnаxп” /jи:lв:nа:,Gп:/ |
Кирилл JHL GrDMrDKow
Примечания
Трансформация в ноль звука обозначается символом 0.
Несуществующий в русском языке сегмент обозначается прочерком (---); русские сегменты, примеров которых не нашлось в выборке, обозначены «н./д.».
Символ границы слога Соответственно обозначение “п.” необходимо трактовать как «звук п в позиции coda», а «Л» - как «звук 1 в позиции onset».
Сегменты /д/ЃC/д'/ЃC/т/ЃC/т'/ выделены в отдельную группу взрывных, так как их мягкие варианты по способу образования близки к аффрикатам.
Можно увидеть, что основная часть реализаций согласных удовлетворяет иерархии ограничений, построенной для европейских языков. Наличие дополнительной (по сравнению с европейскими языками) оппозиции по мягкости в большинстве случаев также не добавляет исключений.
Так, русское /к/ в позиции onset переходит в /kh/ - в 95% случаев, в /к/ - в 3% случаев, а /ф/ в onset реализуется в 93% как /f/, в 7% - как /h/. Это подтверждает гипотезу Мяо о том, что в первую очередь будут выполняться ограничения способа и места, а затем сохраняться переход «звонкий > непридыхательный; глухой > придыхательный».
Тем не менее существует два типа явлений, достойные более пристального внимания. В пункте 3.1 будут рассмотрены случаи адаптации согласных, удовлетворяющие основной иерархии, но обладающие сильной вариативностью. В пункте 3.2 будет рассмотрен ряд согласных, основные реализации которых в заимствованиях противоречат предложенной иерархии.
3. Широкая вариативность
Аффрикаты и мягкие взрывные
Первая такая группа - русские аффрикаты /ц/ и /ч/. Например, /ч/ может реализовываться четырьмя аффрикатами - “q” /teh/, “ch”Ј¬/, “zh” Л/или БЛ/te/.
Кроме того, примечательна реализация аффрикат в виде щелевых в наиболее редких случаях:
царь > Йі¶ы “shв'лr” /gд:)/
Этот процесс общий для заимствований из русского и из рассмотренных Мяо европейских языков, и он указывает на то, что аффрикаты - одна из наиболее неустойчивых групп согласных с точки зрения сохранения способа образования. В принципе, это не очень удивительный факт, так как типологически известен эффект спирантизации Kerstens J., Ruys E., ZwartsJ. Spirantisation [Электронный ресурс] // Lexicon of Linguistics. 1996. URL: https://lexicon.hum.uu.nl/?lemma=Spirantisation (дата обращения 25 марта 2020)..
Здесь было бы логично упомянуть и о двух группах согласных, в которых часто происходят трансформации, на первый взгляд нарушающие иерархию. Речь идет, во-первых, о мягких сегментах /г'/ и /к'/, а во-вторых, о /д'/, /т'/. Согласные из обеих этих групп часто превращаются в аффрикаты в китайских транслитерациях. Ниже можно увидеть примеры таких трансформаций.
Трансформация мягких заднеязычных в аффрикату:
кисель > јЄРБ¦ “jixiйli” /td:sй:lji:/
Трансформация мягких зубных в аффрикату:
«іЯ&¶Ў»ГїЪ›]Ў·>ОыЗпЙЇ “kдqiьshд” /khд:tsh3_ugд:/
Представляется достаточно простой интерпретация такого изменения сегментов в сторону аффрикат. Мягкие заднеязычные из-за смещения места образования и долгого шума при взрыве (в силу большой площади задней части языка) перцептивно могут напоминать аффрикативные согласные. Необходимо отметить, что Мяо обращала особое внимание на сочетание «заднеязычный согласный + передний гласный» в своей работе, где она указывала на аналогичное поведение (передачу заднеязычного переднеязычной аффрикатой) в заимствованиях из европейских языков (например, нем. “Kiel” /ki:l/ > кит.»щ¶ы “jп'лr” /Ші^/). Было отмечено, что это следствие палатализации [Miao 2005, p. 63]. Это кажется справедливым, а в русском языке с более выраженными процессами палатализации это становится еще более очевидным. Что касается мягких зубных /д'/ и /т'/, то в современном русском их можно вполне считать аффрикатами; отнесение их на письме к их твердым взрывным аналогам можно объяснить скорее традицией и влиянием орфографии, нежели отображением реальных фонетических особенностей этих сегментов. Китайские же заимствования очень явно отображают эту особенность русских согласных.
Таким образом, явления, кажущиеся на первый взгляд исключениями из предложенной Мяо теории в зоне мягких согласных, на самом деле являются лишь ее дополнительным подтверждением.
Плавные
Напомним, что в китайском языке распределение плавных согласных принципиально отличается от обычного для европейских языков. Наименее маркированным является боковой /1/, который может встречаться в позиции onset. Этот звук является «базовым» плавным в китайском языке, аналогично тому, каким в японском является одноударный /Ўї/. Существует также ретрофлексный сегмент, который в позиции onset представляется как аппроксимант /^/, а в позиции coda - как эризованный шва /^/.
Это, видимо, является причиной некоторой асимметрии в преобразовании плавных (как русских, так и английских/немецких/ итальянских), заключающейся в том, что в позиции onset оба согласных /р/ и /л/ в абсолютном большинстве случаев преобразуются в /1/, а в позиции coda - в /^/. Примечательно, что в случае с мягкими сегментами /р?/, /л?/ происходит значительное расслоение: в позиции coda примерно половина вхождений /р?/ трансформируется в /^/, в то время как остальные вхождения реализуются как onset /1/ (обычно в слоге /li/). Аналогичный процесс происходит при трансформации /л?/, где как onset /1/ реализуется больше половины вхождений (55%).
Реализация /р?/ в позиции coda в /1/:
сударь > ЛХґпАы “sьdаli”/sь:tв:lji/
Реализация /р'/ в позиции coda в /Ј¬/:
богатырь >ІЁјУµД¶ы “bфjiвdiлr”/pф:tsв:tji:)/
Для описания трансформации плавных Мяо вводит дополнительные ограничения маркированности. Оба из них предлагается ставить в вершине иерархии ограничений. Первое из них - */^V/ >> */lV-/ - обозначает, что аппроксимант в onset более маркирован, чем /1/ [Miao 2005, с. 86]. Это оказалось верно. Второе ограничение, предложенное автором, - *-Vl/-Vr” -> /CV/: запрет плавной coda становиться плавным onset в заимствованном слове [Miao 2005, с. 87]. Это ограничение оказывается опровергнуто в случае с русскими заимствованиями на материале мягких согласных.
Носовые
Что касается употребления носовых согласных в onset, то, аналогично заимствованиям из европейских языков, вариация согласных очень мала и в основном губно-губной /м/ и зубной /н/ совпадают со своими аналогами /т/ и /п/. Примечателен в данном случае единственный момент (не затронутый в работе Мяо): немалое количество вхождений в русском языке, где /н/ встречается в позиции между гласными, преобразуется в сочетание коды /n/ или /д/ и следующего за ним в позиции onset /п/, как бы «усиливая» этот согласный (см. пример 7).
(7) Семинар > П°ГчДЙ¶ы “ximingnа'лr”/dmignа)/
Что же касается позиции coda, то здесь (аналогично тому, как это происходит в европейских языках) примечателен переход /м/ в допустимую в китайском назализованную финаль (/n/ или /д/). Впрочем, этот процесс происходит далеко не во всех случаях (27%), уступая при этом эпентетической вставке гласного после /m/.
4. Согласные, трансформация которых противоречит иерархии ограничений
Случаи значимого несоответствия предложенной иерархии ограничений относятся к трансформации сегментов /ж/, /з/ и /з?/. Приведем два примера:
жалейка > ФъБРїЁ[№Ь]“zhаliиkв,/fа:ljи:khв:/
мазурка > ВкЧйїЁ[±э]“mдzьkд” /mд:tsь:khд:/
В отличие от господствующей в западных заимствованиях трансформации звука в щелевые (в большинстве случаев в англ. - в /s/, /§/ или /е/), в заимствованиях из русского они преобразуются в аффрикаты /^/ (30%) и /Ь/ (20%). Ожидаемые же трансформации данных сегментов в щелевые представлены для каждого из звуков в меньшинстве. Мы попробуем проверить связь данного несоответствия с влиянием пиджина на стратегию фонетической адаптации русских слов.
Помимо этого, сегмент /ж/, особенно в позиции onset, имеет тенденцию к реализации в виде ретрофлексного аппроксиманта “г” /^/ (17% на материале Словаря заимствований). Такая тенденция не наблюдается в европейских языках, где сегмент /з/ обычно реализуется как “y” /j/ (из-за близости по месту образования). При этом можно увидеть, что в обоих случаях (и в русском, и в европейском) фрикативные согласные могут меняться на аппроксиман- ты того же места образования. Это можно объяснить тем, что ап- проксиманты и фрикативные различаются только шириной щели [Кодзасов, Кривнова 2001, с. 280]. Кроме того, возможно, на такой способ адаптации повлияла устоявшаяся норма китайско-русской практической транскрипции Палладия: буква «ж» обозначает в транслитерации китайских слов как раз данную ретрофлексную инициаль: например, имя великого китайского писателя №щ›iИф (“Guц Moruo”, /kwц:mц^wo:/) в системе Палладия передается как «Го Можо».
5. Проверка влияния пиджина и северных диалектов на адаптацию русских заимствований в путунхуа
Перед непосредственным обсуждением влияния пиджина на китайские идиомы необходимо локализовать объект нашего исследования. В семействе северных диалектов китайского ученые выделяют группу диалектов гуаньхуа [Завьялова 1996, с. 19]. Нас будут интересовать несколько диалектов из этой группы, носители которых живут в приграничных с Россией и Монголией регионах КНР.
Фонетика диалектов гуаньхуа, во-первых, отличается от фонетики путунхуа, во-вторых, неоднородна между говорами. Особенности консонантизма можно увидеть как в наборе согласных фонем (например, неразличение верхнезубных согласных и переднетвердонёбных), так и в позиционном распределении инициалей и финалей (например, взаимная заменяемость [-g] и [-n] и более продуктивная эризация).
В зоне распространения приграничных северокитайских говоров с конца XVIII в. стал распространяться вариативный русско- китайский пиджин, которым пользовались изначально русские и китайские крестьяне и купцы. Далее этот пиджин распространился на приграничные и даже на внутренние территории России, а также стал языком межнационального общения для малых народов этого региона (маньчжуров, удэгэ и т. д.) с русскими - [Перехвальская 2008, с. 73, 121]. Примечательно, что, несмотря на периоды изоляции между китайским и русским населением во второй половине ХХ в., а также на почти полное исчезновение русской общины в Маньчжурии в эпохи японской оккупации и Культурной революции в КНР, этот пиджин продолжает существовать (хоть и сильно видоизменившись), на что указывают недавние исследования [Цзе 2007].
Нас интересует в данном случае тот факт, что большое количество как российских, так и китайских ученых отмечают в своих работах, что «транзит» русских слов через пиджин и северные китайские диалекты мог оказаться важным этапом для адаптации русских заимствований в нормативном путунхуа. С вариациями этого предположения можно ознакомиться в [Ин, Шипановская 2016, с. 145]. Тем не менее нам не удалось встретить ни одной научной работы, где было бы доказано прямое влияние пиджина и/ или северных диалектов китайского языка на адаптацию русских заимствований в путунхуа. Теперь мы обладаем трактовкой ОТ для трансформаций русских согласных в путунхуа, а также сравнением этих данных с аналогичными трансформациями в европейских языках. Значит, мы можем попробовать проверить гипотезу о влиянии пиджина или диалектов на трансформацию русских согласных в путунхуа с лучшей верифицируемостью.
Для того чтобы обоснованно предполагать связь между ранними языковыми контактами русских и китайцев и современным процессом русских заимствований в путунхуа, мы предлагаем следующий набор требований, удовлетворение каждого из которых повышает вероятность того, что заимствование пришло в путунхуа при посредничестве пиджина или северо-китайских говоров:
Трансформация элементов в этих словах противоречит предсказаниям ОТ для русских и европейских заимствований.
Трансформация элементов в этих словах объясняется фонетикой/грамматикой пиджина или северных диалектов.
Существуют словарные вхождения в пиджине или диалектах, которые подтверждают возможность прямого заимствования той или иной трансформации из пиджина/диалекта в путунхуа.
В качестве главного источника по грамматике и фонетике пиджина была использована монография Е.В. Перехвальской, посвященная русским пиджинам и собственно русско-китайскому контактному языку, на котором автор специализировалась [Перехвальская 2008]. В данной монографии также приводится словарь всех найденных ею лексем и словоформ со всеми возможными транскрипциями. В качестве описания фонетики северных диалектов был взят труд О.И. Завьяловой «Диалекты китайского языка», упоминавшийся выше [Завьялова 1996]. Для анализа словарных вхождений северных диалектов были использованы русскоязычные статьи о русско-китайских языковых контактах в этом регионе [Ин, Шипановская 2016], [Ма 2015].
Что касается возможности трансфера диалектных фонетических черт в стратегию адаптации в путунхуа, то оказалось, что ни одна из наиболее знаковых особенностей диалектов не проявляется в словах пиджина, диалектов и путунхуа так, чтобы удовлетворить всем вышеперечисленным требованиям. Например, слово «хорошо» согласно Словарю заимствований в китайском языке выглядит в путунхуа как №юАаВ “hдlдsuц” /xд:lд:sw6/. Можно было бы заподозрить трансформацию /ш/ > /s/ как проявление диалектной особенности (отсутствие оппозиции зубных и передненёбных щелевых), но такая трансформация вполне предсказывается иерархией ограничений ОТ, рассмотренной в предыдущем разделе. Более того, примеры из английских и немецких заимствований указывают на то, что процент аналогичных чередований в заимствованиях из европейских языков значительно больше, чем в русских заимствованиях (25% в европейских заимствованиях против 8% в русских). Необходимо также отметить, что большое количество консонантных чередований, описанных в диалектной фонетике, не встречается ни в лексемах пиджина, ни в диалектных заимствованиях, ни в фонетических заимствованиях путунхуа. Это значит, что во всех вышеописанных случаях не следует множить сущности без необходимости и вводить пиджин и диалекты в качестве посредников в процессах фонетической адаптации русских заимствований в путунхуа.
Есть, однако, две особенности, удовлетворяющие всем требованиям к «пиджинному следу», обозначенным нами. Первую из них можно увидеть на закрытой группе лексем, и связана она с процессом первичного лексического заполнения пиджина. Некоторое количество существительных (34 из 193 зарегистрированных во всем корпусе) заканчиваются квази-суффиксом, записываемым обычно как «дза»: «яйдза», «монедза» (монеты, деньги), «купедза» и т. д. [Перехвальская 2008, с. 97]. Согласно наиболее распространенной гипотезе, этот суффикс появился из китайской морфемы ЧУ “zi” /?i/, достаточно грамматикализовавшейся в современном китайском. Согласно [Моисеев 2013], в северных диалектах в принципе распространена практика частотного употребления подобных «классификаторов», в то время как для большинства современных заимствований (из русского или из европейских языков) такая стратегия не реализуется. Самое главное здесь то, что мы можем проследить цепочку вхождений слов с таким суффиксом в словаре пиджина, в диалектных словарях и затем в Словаре заимствований в путунхуа. Такова судьба слова «купец»: через пиджинное «купедза» это слово появляется в диалекте и в путунхуа в виде сочетания №И±сЧУ “g?biзz?” /ku?p?м?tsћ?, где мы можем увидеть реализацию суффикса, исходно прикрепленного к русской псевдооснове. Таких слов (включая позднюю замену родового слова на более подходящее по смыслу) в современном китайском языке, пришедших из пиджина и/или диалектов, сейчас можно встретить пять. Таким образом, мы можем с большой долей уверенности говорить о влиянии исходного морфемного парсинга русских слов носителями китайского на восприятие этих заимствований в нормативном китайском языке. Однако класс этих слов, как показывают остальные данные Словаря заимствований, непродуктивен, поэтому это не является главным объектом для рассмотрения в нашей работе. Другая особенность трансформации русских заимствований лежит уже в области фонетики. Как уже упоминалось, бо`льшая часть современных заимствований, содержащих звуки /ж/, /з/ и /з'/, во-.
Анализ графических преобразований в заимствованиях из русского языка на основе больших данных
Как правило, каждый слог в китайском языке обладает определенным лексическим значением и соответствует определенному иероглифу, составляя таким образом единство слога, морфемы и обозначающего ее графического символа [Хаматова 2003, с. 19]. При этом широко распространены как омофоны, так и омографы. Из-за этого часты случаи написания одного слога разными иероглифами и, наоборот, множественных вариантов прочтения одного и того же иероглифа.
Отсутствие прямого перевода слогов в иероглифы и обратно подразумевает, что для максимально точного анализа следовало бы рассматривать такие данные, где были бы эксплицитно указаны и произношение адаптированного русского заимствования, и его иероглифическая запись. Однако основная часть доступных на китайском языке ресурсов, которая могла бы нам для этого пригодиться, не содержит информации о транскрипции слов. Поэтому данные, которые были проанализированы в практической части работы, содержали только русский оригинал и его иероглифическую транслитерацию.
Как уже было упомянуто в пункте 2, в нижеследующих разделах был использован ресурс Wikidata, связанный со свободной интернет-энциклопедией Википедия. Основным его минусом является его малый объем (по сравнению с Baidupedia), основными плюсами -большое количество данных (по сравнению со словарями и справочниками) и удобный интерфейс для скачивания данных.
Проект Wikidata позволяет осуществить выкачку необходимых данных в разном формате при помощи языка SPARQL на странице https://query.wikidata.org/. Мы последовательно выполнили несколько запросов на этом ресурсе и сохранили данные в формате .tsv, затем объединив их в один файл .csv. Поисковые запросы собирали следующую информацию об объектах: страну (из набора: Российская Федерация, СССР, Российская империя, Беларусь, Приднестровье), тип объекта (из набора: озера, реки, горы, острова, населенные пункты, персоны), названия объекта на русском и на китайском языках.
В результате поиска было получено 13 410 объектов. Из них 81% относились к РФ, 10% - к СССР Выборка стран была сделана с учетом того, в каких государствах на русском языке говорит большинство населения и где он является официальным. Что касается распределения по типам объектов, то 43% всех объектов покрывали населенные пункты, далее (33%) шли имена людей, еще по 10-11% были заняты реками и озерами. Эти типы объектов были выбраны, так как ожидалось, что именно они будут содержать наибольшее количество фонетических заимствований (в отличие, например, от названий организаций и экономических компаний, которые, как показал предварительный анализ, в большинстве своем калькировались семантически).
Таблица 2. Описание набора данных для графического анализа транслитераций
Столбец |
Легенда и тип переменной |
Значение |
|
id_ |
Индекс объекта; порядковая |
Натуральное число (с нуля) |
|
wiki id |
Индекс объекта в системе Wikidata; порядковая |
Натуральное число (с нуля) |
|
label ru |
Название объекта на русском языке; номинальная |
Любая строка кириллических символов |
|
label zh |
Транслитерация объекта в системе Wikidata; номинальная |
Любая строка из иероглифических символов |
|
xinhua |
Нормативная транслитерация по Синьхуа; номинальная |
Любая строка из иероглифических символов |
|
country |
Название страны из выборки; номинальная |
Значение из набора {Russia, USSR, Russian Empire, Belarus, Transnistria} |
|
type |
Название типа объекта из выборки; номинальная |
Значение из набора {settlement, person, river, lake, island, mountain} |
|
levenstein abs |
Абсолютное расстояние Левенштейна между значениями label zh и xinhua; количественная |
Натуральное число (с нуля) |
|
levenstein norm |
Нормированное расстояние Левенштейна между значениями label zh и xinhua; количественная |
Десятичная дробь в интервале [0,1] |
|
jaccard |
Коэффициент Жаккара между значениями label zh и xinhua; количественная |
Десятичная дробь в интервале [0,1] |
Предобработка данных состояла из нескольких шагов и выполнялась над обобщенным файлом .csv при помощи программы на языке Python с использованием библиотек HanziConv, re и pandas.
Названия, содержащиеся в объектах Wikidata, были записаны разными системами иероглифов - традиционной и упрощенной. Для чистоты анализа все иероглифические вхождения были переведены в упрощенную письменность при помощи библиотеки HanziConv.
Далее, при помощи регулярных выражений, были очищены от семантических элементов русские и китайские вхождения. Так, китайские названия были очищены от так называемых родовых слов - семантических морфем, употребляемых после имен собственных (как в примере 10). Русские названия были очищены от поясняющих слов («городское поселение», «река», «вулкан» и т. д.), которые могут стоять по обе стороны от собственно названия. Также были удалены все знаки препинания (включая кавычки) и латинские и числовые элементы в названиях на русском и китайском языках. Наконец, были унифицированы последовательности имени, отчества и фамилии в русских и китайских именах людей.
(10)·ь¶ыјУ |
-єУ |
|
“fuлrjia |
-hй” |
|
/fuЈє3 ^tea: |
-XT:/ |
|
Волга (фон.) |
-река (род. слово) |
После этого было добавлено четыре столбца, необходимые для одного из разделов статистического исследования: нормативная транслитерация, порожденная созданным нами алгоритмом, а также три метрики близости строк, сравнивающие китайское вхождение из Wikidata и нормативную транслитерацию на китайский язык. Использованные метрики - абсолютное расстояние Левен- штейна, нормированное расстояние Левенштейна и индекс Жаккара. Три метрики были высчитаны для каждого объекта при помощи библиотеки textdistances. Подробнее об алгоритме и метриках будет рассказано ниже.
6. Сравнение нормы и узуса в китайских транслитерациях
С конца ХХ в. в Китайской Народной Республике существуют прескрипции к транслитерации иностранных слов. Занимается этими информационное агентство Синьхуа (РВ»ЄЙзЈ© - официальное правительственное издание и самое большое новостное агентство в КНР В 1982 г. оно выпустило Русско-китайский словарь транскрипций (¶нєєРХГыТлГыКЦІб). Этот словарь включал в себя все хотя бы единожды употребленные в изданиях имена собственные, взятые из русского языка, и состоял почти из 600 страниц. В 1993 г. Синьхуа выпустило более компактную и удобную в использовании таблицу для транслитерации русских слов, которая умещалась на одном листе и позволяла находить необходимые сочетания русских букв и выбрать подходящие для этих сочетаний иероглифы. Все примечания и исключения были компактно сформулированы в шести примечаниях, идущих под таблицей; большая их часть касалась фонетических поправок, связанных как с русской (например, для транслитерации сочетаний «чн» и «чт» следовало искать сочетания «шн» и «шт»), так и с китайской фонетикой (для транслитераций «мп» и «мб» следовало искать иероглифы, соответствующие сочетаниям «нп» и «нб»).
Мы решили проверить, насколько нормативные предписания, диктуемые агентством Синьхуа, соответствуют узусу, который в нашем исследовании представлен вхождениями из Wikidata. Для этого нами был создан код на языке Python, который бы получал на вход строку с русскими символами и выводил бы иероглифическую транслитерацию этой строки. Несмотря на то что в русскоязычном сегменте Интернета уже существует автоматический транслитератор русских слов (представленный на сайте БКРС: https://bkrs.
info/proper_convert.php), при проверке даже на небольшой выборке он выдает регулярные ошибки, поэтому мы решили сделать собственный транслитератор, создающий максимально «ортодоксальные» транслитерации. В качестве источника он принимает таблицу предписаний Синьхуа 1993 г., переработанную в удобный для считывания компьютером вид и сохраненную в формате .csv. В наборе данных из Википедии наш алгоритм принимал на вход слово из столбца с русским именем собственным и записывал его китайскую транслитерацию в новый столбец, предназначенный для нормативной транслитерации. Отметим, что в процессе транслитерации было найдено 30 объектов, правописание которых не могло быть предсказано созданным нами алгоритмом. Это произошло из-за отсутствия предписаний для конкретных комбинаций русских букв, в основном невозможных с точки зрения русской орфографии (имена собственные на языках России, например «Чыбыда»). Все эти случаи были исключены из рассмотрения.
Для сравнения предсказанной и реальной транслитераций было использовано три метрики близости строк. Первая - абсолютное расстояние Левенштейна. Эта метрика показывает, сколько символов в строке А необходимо вставить, убрать или заменить, чтобы получить строку В. Область значений этой метрики - натуральные числа от 0 (полное совпадение строк) до бесконечности. Вторая - нормированное расстояние Левенштейна - метрика, учитывающая не только количество замененных символов, но и длину исходной строки и показывающая отношение количества исходных символов, которые необходимо было заменить, к длине исходной строки. В данном случае область значений - десятичные дроби от 0 до 1 включительно, где 0 - полное совпадение строк, 1 - полная замена исходной строки. Третья метрика - индекс Жаккара. Эта метрика не учитывает порядка символов, зато рассматривает частотное распределение символов в строке А и в строке В. Чем более соответствуют друг другу символьные наборы и их частотность в двух строках, тем ближе значение индекса к 1, чем меньше - тем ближе значение индекса к 0. При обработке данных были сделаны попытки унифицировать последовательность элементов в русских вхождениях и их китайских переводах (в первую очередь это касается личных имен - они были приведены в порядок: (имя)?-(отчество)?-фамилия). Однако где-то могли остаться строки с несовпадающим порядком морфем или слов, и индекс Жаккара позволяет сравнить такие строки и не помечать как расхождение разный порядок слов в транслитерации Синьхуа и вхождении Wikidata.
Далее мы проанализировали распределение объектов нашего набора данных в зависимости от абсолютного расстояния Левенштейна. Расстояние, равное 0, оказалось у 24% объектов, равное 1 - у 20% объектов, равное 2 - у 14% объектов и равное 3 - у 15% объектов (см. график 1). Мы также рассмотрели среднее расстояние Левенштейна, сгруппировав данные по типам объектов (см. график 2). Оказалось, что наименьшее среднее расстояние свойственно именам собственным (чуть меньше 1), в то время как географические объекты имели среднее расстояние в промежутке между 1 и 2,5, а населенные пункты - более 3. Это позволяет предположить, что личные имена - тип объектов, при транслитерации которого наиболее последовательно соблюдаются прескрипции Синьхуа. Это подтверждает распределение нормированного расстояния Левенштейна на подвыборке личных имен в датасете, где около 80% объектов имеют метрику в интервале (0,0-0,1), а 15% объектов - в интервале (0,1-0,2). Кроме того, мы рассмотрели среднее расстояние Левенштейна, сгруппировав данные по странам (график 3), в результате чего получили наименьшее среднее расстояние по объектам в РФ (около 2), а наибольшее - в СССР (около 4).
График 1. Частотное распределение абсолютного расстояния Левенштейна
График 2. Усредненное расстояние Левенштейна по типам объекта
График 3. Усредненное расстояние Левенштейна по странам
График 4. Частотное распределение по нормированному расстоянию Левенштейна
Подобные документы
Научное представление о фонетических заимствованиях, их характерные особенности в китайском языке. Принципы разделения заимствований в названиях торговых марок. Фонетические заимствования, касающиеся коммунистической и социалистической тематики.
курсовая работа [35,2 K], добавлен 17.09.2012Понятие заимствований и их роль в системе языка. Источники и их классификации. Период появления скандинавских заимствований, его причины. Проблема ассимиляции заимствований. Анализ фонетических характеристик скандинавских заимствований в английском языке.
курсовая работа [75,3 K], добавлен 31.05.2015Понятие о фонетических законах и фонетических процессах. Позиционные и комбинаторные изменения звуков. Действие фонетических законов в синхронии. Условия, в которых происходит оглушение конечного звонкого. Фонетические процессы, происходящие в слове.
контрольная работа [27,2 K], добавлен 20.05.2010Ономастика как раздел языкознания, занимающийся изучением имен собственных. Прозвища людей, употребляемые в Ленском районе Архангельской области. Анализ классификации антропонимов. Семантика собственных имен. Отличие собственных имен от нарицательных.
курсовая работа [49,9 K], добавлен 07.02.2010Лингвистические свойства имен собственных, способы их образования, принципы и факторы, которые необходимо учитывать в процессе перевода. Сравнительный анализ имен собственных в русских и итальянских переводах произведений Дж.К. Роулинг "Гарри Поттер".
курсовая работа [43,1 K], добавлен 06.04.2012Сравнительный анализ семантической адаптации иностранных заимствований в лексике китайского языка. Изучение словообразовательных возможностей заимствований. Английские и американские заимствования в современном китайском языке: употребление и семантика.
дипломная работа [124,3 K], добавлен 20.06.2013Особенность звуковой передачи имен и названий на другом языке. Принципы перевода имен собственных путем транслитерации, транскрипции и транскрипции с элементами транслитерации. Анализ данных методов на примере перевода научной статьи Франсуа Грожана.
курсовая работа [47,0 K], добавлен 19.11.2014Фамилия как вид антропонима. Введение на Руси в X веке христианских личных имен, образованных от нарицательных слов греческого, латинского, древнееврейского и других языков. Народная форма крестильного имени. Смешения сходных имен путем заимствования.
курсовая работа [78,3 K], добавлен 29.10.2017Признаки аналитизма при выражении лексического и грамматического значения слова в русском языке. Рассмотрение роста аналитизма в системе глаголов, имен существительных, имен прилагательных, наречий, числительных, предлогов, и частиц русского языка.
реферат [28,6 K], добавлен 29.01.2011Критерии определения слова и его фонетические, семантические, грамматические признаки. Миграция слов по странам, из одного языка в другой вместе с их носителями. Примеры образования имен нарицательных от одного собственного в русском и других языках.
реферат [21,6 K], добавлен 02.04.2010