Порівняльний аналіз різнотематичних лінгвістичних корпусів

У статті досліджено проблему аналізу різнотематичних корпусів великих обсягів. Запропоновано порівняльну методику та критерії розгляду лінгвістичних корпусів. Опрацьована та підтверджена методика скачування корпусу на основі термінологічних списків.

Рубрика Иностранные языки и языкознание
Вид статья
Язык украинский
Дата добавления 10.04.2023
Размер файла 1,4 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Порівняльний аналіз різнотематичних лінгвістичних корпусів

Олександр Козоріз,

кандидат філологічних наук, асистент кафедри мов і літератур Далекого Сходу та Південно-Східної Азії Інституту філології Київського національного університету імені Тараса Шевченка (Київ, Україна)

Анотація

У статті досліджено проблему аналізу різнотематичних корпусів великих обсягів. Запропоновано порівняльну методику та критерії розгляду лінгвістичних корпусів.

Загалом було укладено сім корпусів, створено вузькі спеціалізовані термінологічні корпуси на противагу термінологічним словникам для досліджень функціональних особливостей, моделей речень тієї чи іншої терміно-системи. Отримано корпуси медичного, біологічного, політехнічного, нафтогазового спрямування, корпус частотної лексики та корпус сучасної розмовної лексики, а також об'єднаний корпус на 4 млн пар речень. Нами було створено об'єднаний паралельний корпус на 4 млн пар речень або на 68 млн слів англійської частини, що за обсягом становить 10% від відомого корпусу COCA або корпусу GRAC.

Для усіх корпусів пораховано загальну кількість знаків, слів і речень із відповідною узагальнюючою таблицею; встановлено середню довжину речень ASL, визначено автоматичний індекс читабельності ARI, складено частотні списки лексики, пораховано загальну кількість унікальної лексики, визначено співвідношення type/token ratio TTR.

Опрацьована та підтверджена методика скачування корпусу на основі термінологічних списків. Розроблена методика порівняння рангів морфем різних корпусів із морфемами частотного списку СКМ, що може бути застосована для визначення тематики корпусу чи належності тексту до певної галузі у майбутньому. Запропонована методика визначення продуктивних моделей речень корпусу за допомогою регулярних виразів.

Загалом побудовано чотири графічні діаграми (в т. ч. діаграма розподілу за довжиною речень для семи різнотематичних корпусів) і шість таблиць, які виразно унаочнюють результати досліджень, чітко репрезентуючи матеріал. Підрахунки підкріплено формулами та ілюстративним матеріалом, що дозволяє повторити дослідження для будь-яких інших дотичних систем. термінологічний лінгвістичний корпус

Ключові слова: лінгвістичний корпус, паралельний корпус, частотний список, type/token ratio, середня довжина речення, ступінь термінологічності, продуктивні моделі речень, регулярні вирази.

Oleksandr KOZORIZ,

Candidate of Philological Sciences, Assistant at the Department of Languages and Literatures of the Far East and Southeast Asia Institute of Philology of Taras Shevchenko National University of Kyiv (Kyiv, Ukraine)

COMPARATIVE ANALYSIS OF VARIOUS THEMATIC LINGUISTIC CORPORA

The problem of the analysis of various thematic corpora of large volumes is investigated in the article. The comparative technique and criteria of consideration of linguistic corpora are offered.

In total, seven corpora were compiled, and narrow specialized terminological corpora were created in contrast to terminological dictionaries for the study offunctional features, sentence models of one or another terminological system. The corpora of medical, biological, polytechnic, oil and gas directions, the corpus of frequency vocabulary and the corpus of modern colloquial vocabulary were obtained, as well as the combined corpus of 4 million pairs of sentences. As a result of our research, we created a combined parallel corpus of 4 million pairs of sentences or 68 million words of the English part, which is 10% of the known COCA corpus or GRAC corpus.

For all corpora, the total number of signs, words and sentences in the corpus with the corresponding summary table is calculated; the average length of ASL sentences is calculated, the automatic readability index ARI is determined, frequency vocabulary lists are compiled, the total number of unique vocabulary is calculated, the type / token ratio TTR is determined.

The method of downloading the corpus on the basis of terminological lists is developed and confirmed. The method of comparing the ranks of morphemes of different corpora with morphemes of the Modern Chinese Character frequency list has been developed, which can be used to determine the subject of the corpus or the affiliation of the text to a certain field in the future. The technique of definition of models of sentences of the corpus by means of regular expressions is offered.

In total, four graphical diagrams have been constructed (including a sentence-length distribution diagram for seven thematic corpora) and six tables that clearly illustrate the results of the research, undoubtedly representing the material. The calculations are supported by formulas and illustrative material, which allows you to repeat the study for any other similar systems.

Key words: linguistic corpus, parallel corpus, frequency list, type /token ratio, average sentence length, terminological degree, productive sentence models, regular expressions.

Постановка проблеми. У багатьох галузях лінгвістики стали популярними дослідження на основі корпусів. Сьогодні спостерігається значний інтерес до використання корпусів в освітній і професійній сферах. Проблема їх створення й опрацювання набуває істотного значення. Велика кількість словників укладається на основі подібних лінгвістичних корпусів.

Виокремлення невирішених раніше частин загальної проблеми. Створення паралельних різнотематичних лінгвістичних корпусів.

Основні напрямки використання корпусів паралельних текстів різної тематики: 1) з навчальною та дослідницькою метою; 2) для створення систем машинного перекладу.

Мета статті - визначити джерела лінгвістичного матеріалу, запропонувати методики створення власних різнотематичних лінгвістичних корпусів; розглянути основні характеристики створених корпусів; запропонувати методики досліджень корпусів.

Аналіз досліджень. В Україні у сфері корпусної лінгвістики працювали такі дослідники: О.О. Балабан, Н.М. Бобер, М.М. Брик, Н.П. Дарчук, О.А. Дюндик, А.М. Желєзко, В.В. Жуковська, В.П. Захаров, П.В. Зернецький, О.М. Зубань, Л.С. Івашкевич, Я.В. Капранов, Є. А. Карпіловська, В. І. Качанов, В.В. Комаренко, А.В. Корольова, Ю.В. Кравцова, Н. Є. Леміш, Л.Л. Макарук, Т Б. Маслова, С.А. Матвєєва, Б.О. Назаров,

B. О. Папіжук, В.М. Підвойний, Ю. І. Позніхіренко, В.Ф. Старко, А.А. Таран, О.М. Тищенко, О.В. Ткачик, Т С. Толчеєва, М.О. Шведова,

C. М. Щербина. За кордоном відомі такі прізвища:

S. Hoffmann, S. Evert, G. Kennedy, T. MacEnery, T. Otlogetswe, J. Sinclair, J. Svartvik, E. TogniniBonelli та ін. Усі зазначені науковці мають власний підхід, завдання і мету дослідження корпусів, що безпосередньо не пов'язані з результатами наших досліджень, запропонованими тут методиками створення й аналізу корпусів.

Виклад основного матеріалу. Скориставшись власним досвідом, на основі сайту-словника QuWord (QuWord) ми створили оригінальні паралельні корпуси китайсько-англійських перекладів різних тематик. Під паралельним корпусом ми розуміємо електронний корпус, який, окрім оригінальних текстів, має відповідні переклади іншою мовою, що вирівняні до оригіналу за реченнями з видаленням повторів.

Першим кроком була підготовка списку слів для пошуку та скачування паралельних пар речень. З цією метою спочатку за основу було взято частотний список англійської мови 5 000 слів (Word frequency data). Шляхом скачування було отримано корпус на 106 000 паралельних пар речень китайської та англійської мов; або 1 462 000 лексем англійської частини корпусу (загальна кількість слововживань). Після складання частотного списку цього корпусу отримано словник-список на 42 000 слів, на основі якого була повторена процедура скачування й отримано корпус вже на 920 000 пар речень або 12 900 000 лексем (token), котрий має словник на 166 000 слів (type). Таким чином було отримано перший частотний паралельний корпус, оскільки скачування відбувалося на основі частотних списків.

Окремо було виконано скачування на основі списків-слів, створених на базі термінологічних словників медичного (Ривкин, 2004), біологічного (Чибисова та ін., 2003), політехнічного (Столяров та ін., 2003), нафтогазового (OilAndGas, 1998) спрямування й англо-російського словника сучасної розмовної лексики (Глазунов, 2003). Так було отримано ще п'ять окремих корпусів, а також створено загальний корпус на основі всіх шести корпусів. Після об'єднання усіх шести корпусів і видалення повторів загальний обсяг отриманого паралельного корпусу сягає 4 000 000 пар речень, або 67 800 000 лексем англійської частини (token).

Було підраховано основні статистичні характеристики корпусів, що наведено у табл. 1. Представлені характеристики рахувалися за англійською частиною корпусу, оскільки тут легше здійснити поділ на слова, а індекси були розроблені саме під англійську мову.

Автоматичний індекс читабельності (ARI) (Automated readability index) - міра визначення складності сприйняття тексту читачем, що апроксимує складність тексту до номера класу в американській системі освіти. ARI вираховується за формулою: 4.71 * (characters/ words) + 0.5 * * (words / sentences) - 21.43, де Characters - кількість букв і цифр у тексті; Words - кількість слів у тексті; Sentences - кількість речень у тексті.

Середня довжина речення (англ. Average sentence length (ASL) = words / sentences) - величина, тісно пов'язана з метриками індексу легкості читання Флеша (Flesch Reading Ease). FRE = = 206,835 - 1,015 x ASL - 84,6 x ASW, де ASW - середня довжина слова у складах (англ. average number of syllables per word) = syllables / words.

Спостереження виявили, що корпус частотної лексики має найменшу середню довжину речень - 14, а корпус розмовної лексики має найменший автоматичний індекс читабельності - 6,68, що відповідає віку 12-ти років; хоча середня довжина його речень - 16, співмірна з корпусами медичного та біологічного спрямування. Найдовшу середню довжину речень має корпус політехнічного спрямування - 17,89, але це середні показники, які не зовсім чітко відображають реальну картину.

Тому додатково було досліджено довжину кожного речення у словах для всіх корпусів і побудовано відповідні графіки, тобто пораховано кількість речень у корпусі відповідної довжини. Пошук кількості слів у реченні здійснювався регулярним виразом: A(Yw+YW+){X}$ - де Х, кількість слів у реченні, словосполучення тут не враховані, оскільки в кінці виразу обов'язково має стояти розділовий знак, "YW+" означає один і більше розділовий знак (пробіл, кому, крапку, тире, апостроф тощо); регулярний вираз "Yw+" використовувався для пошуку слів, відповідно "Yw" - для знаків. Корпуси містять незначну кількість словосполучень термінів, які тут не було враховано. Для дослідження словосполучень можна застосовувати "YW*", що означає нуль або більше розділових знаків.

Як бачимо з рис. 1, об'єднаний корпус якнайкраще репрезентує усі типи речень, тут широко представлені речення з довжиною від 4-х до 33-х слів, більше 40 тис. вживань на кожну довжину речення. Графік корпусу частотної лексики на 920 тис. речень має довжини переважно від 6-и до 13-и слів, що корелює із графіком корпусу розмовної лексики на 250 тис. речень меншого обсягу. Графік політехнічного корпусу, найбільший із галузевих, якнайкраще представляє спеціалізовані корпуси - корелює з медичним, біологічним корпусом і корпусом нафтогазогазової лексики та має довжину від 12-и до 30-и слів у реченні. Тобто частотні та розмовні корпуси кардинально відрізняються від галузевих за довжиною речень.

Далі було складено частотні списки морфем китайської частини корпусів, оскільки в англійській мові багато службових слів і важче знайти ключові слова для корпусу (див. табл. 2). Для економії місця тут ілюстровано лише перші 50 позицій. Шляхом порівняння з морфемами частотного списку сучасної китайської мови (СКМ), створеного професором Цзюнь Да (Middle Tennessee State University) (Jun Da), було визначено найбільш значимі морфеми для певної лінгвістичної тематики. Як показує практика, найбільш значимими є перші 125 морфем частотного списку (Козоріз, 2014). Перші 10 частотних морфем є спільними для майже усіх корпусів і текстів китайської мови з невеличкими розбіжностями за рангами.

Звісно, бажано порівнювати корпуси схожі за об'ємом, втім вважаємо, що порівняння рангів може застосовуватися до корпусів, різних за обсягом. Іншою перешкодою для отримання достовірних даних може бути неспеціалізованість словника, на основі якого створювалися корпуси. Втім, методологія дослідження має правомірність.

Спробуємо визначити термінологічність найбільш значимих морфем політехнічного корпусу шляхом порівняння різниці рангів морфем цього корпусу та морфем частотного списку СКМ (Козоріз, 2014). На рис. 2. представлені найбільш характерні перші 33 морфеми політехнічного корпусу із зазначенням ступеня їхньої термінологічності, підрахованого шляхом віднімання від рангу частоти морфеми СКМ рангу морфеми політехнічного корпусу.

Ступінь термінологічності політехнічного корпусу було пораховано для перших 129 частотних 17,3 слів. Автоматичний індекс читабельності АМ корпусу - 10,24, що відповідає розвитку дитини у 16 років. Виявилося, що правий "хвіст" графіка - лексика, яка вживається лише один раз, на великих корпусах становить 50% корпусу.

Таблиця 1

Таблиця статистичних даних створених корпусів

Corpus

characters

words

sentences

ARI

ASL

1

частотний

61 372 000

12 904 000

920 000

7,98

14,03

2

медичний

35 520 000

6 843 000

410 000

11,36

16,69

3

біологічний

38 073 000

7 564 000

452 000

10,64

16,73

4

політехнічний

113 921 000

22 543 000

1 260 000

11,32

17,89

5

нафтогазовий

39 878 000

7 917 000

437 000

11,35

18,12

6

розмовний

17 149 000

4 026 000

250 000

6,68

16,10

7

об'єднаний

331 330 000

67 800 000

3 919 000

10,24

17,30

Ще один метод дослідження корпусу, що хотілося би втілити у життя: визначення найпродуктивніших моделей речень. З цією метою візьмемо корпус розмовної мови на 250 тис. пар речень, пригадаємо його найчастотніші морфеми: Й, і, Ш, ^, Й, 7, Ш, 7, її], Ж, 7. За допомогою регулярних виразів спробуємо знайти в корпусі частотні моделі речень, припускаючи, що тут будуть задіяні поєднання частотних морфем (див. табл. 5), тут не враховується послідовність поєднання та повторення морфем.

Фактично отримано такі моделі речень (див. табл. 6). Здобути вичерпний або абсолютний обсяг моделей вручну без застосування спеціально розробленого програмного забезпечення неможливо - занадто багато варіацій живої мови.

Висновки. Таким чином, ми запропонували та перевірили на практиці методику пошуку найпродуктивніших моделей речень у корпусі, які також можуть корелювати з довжиною речень. Показати та дослідити усі можливі моделі речень у межах цієї статті, на жаль, неможливо.

У підсумку можна сказати, що розроблена методика порівняння рангів морфем різних корпусів із морфемами частотного списку СКМ, яка може бути застосована для визначення тематики корпусу чи належності тексту до певної галузі. Також запропоновано методику визначення продуктивних моделей речень корпусу за допомогою регулярних виразів.

морфем: Щ 939, Щ 782, Ш 651, Д 628, Ш 600, М 473, Щ 420, Ж 405, Ж 392, Щ 386, Ш 337, Щ 335, % 303, Ш 291, Ж 261, Ш 258, М 256, Д 244, Ш 234, Д 223, Ж 213, Ш 202, Ш 201, Д 198, й 197, Ш 193, й 184, Ж 183, Ж 181, Д 174, Д 173, % 171, Ш 150, Ш 136, Й 135, Д 133, Ш 129, Ш 127, Ж 126, Ш 125, Ш 125, Д 122, ® 119, Д 111, Й 106, Й 103, Ш 96, Ш 90, Й 89, W 84, X 79, й 73,

Д 72, Г 71, Д 70, Ж 67, X 66, Ш 64, % 57, # 56,

Д 51, Й 50, Щ 49, Д 49, Й 46, Й 44, Д 42, Ж 41,

Ж 40, й 39, Д 39, Ж 38, Ш 32, Й 31, Д 30, Ж 27,

Й 27, $ 23, Ж 22, Ш 21, Д 20, Ж 19, Ш 17, Й 15, Ш 15, Й 13, Й 12, Д 12, Ж 11, Д 7, Д 6, Ж 5, Щ 2, Й -2, Д -4, Ж -5, Щ -5, Ж -7, Й -9, Ж -9,

ЭД -11, Ж -16, Й -21, Д -23, Щ -24, № -26, Н -27,

Д -29, Й -30, Т -32, й -33, Й -35, Щ -35, Д -39,

Й -42, Ж -44, А -45, Ш -47, Д -48, Д -55, й -56,

Й -58, Щ -62, І -65, Ш -74, Ш -81. Можна говорити також про від'ємну термінологічність, тобто непритаманність певних морфем певній терміносистемі, див. рис. 3. Загалом дані про ступінь термінологічності морфем можна застосовувати для автоматичного визначення тематики корпусу чи належності тексту до певної галузі.

Тепер наведімо кілька прикладів вживання морфем "Щ" та "Д" у політехнічному корпусі, аби наочно підтвердити, що корпус дійсно репрезентує саме політехнічну галузь, а морфема справді має високий ступінь термінологічності (див. табл. 3).

Інше цікаве співвідношення для досліджень type/token ratio (TTR) - співвідношення між типами та лексемами корпусу дуже сильно варіюється відповідно до довжини тексту, де "type" - це різні слова в корпусі, word token - це усі лексеми корпусу. Чим довший текст, тим менший буде відсоток.

Спробуємо проаналізувати TTR на найбільшому нашому корпусі на 4 млн пар речень. Після складення частотного списку англійської частини об'єднаного корпусу отримано словник і побудовано відповідний логарифмічний графік лексики корпусу за частотністю (див. рис. 4). Пораховано індекс TTR і деякі інші статистичні характеристики.

Аналіз корпусу показав таке: загальний обсяг різної лексики - 442 000 слів; близько 50% із них (217 000) вживаються лише один раз - правий "хвіст" графіка; середня частина графіка - частоти від 10 до 2-х - займає близько 26% лексики (117 000); найчастотнішими є перші 24% слів (108 000). TTR корпусу - 0,65% (442 000 / 67 800 000). Середня довжина речення становить

160000

частотний корпус на 920 тис. медичний корпус на 410 тис.

біологічний корпус на 452 тис. політехнічний корпус на 1 260 тис.

корпус нафтогазової лексики на 436 тис. корпус розмовної лексики на 250 тис. об'єднаний корпус на 4 млн.

Рис. 1. Графіки розподілу кількості слів у реченні для корпусів

Рис. 2. Найбільш термінологічні морфеми політехнічного корпусу

Рис. 3. Загальна термінологічність морфем політехнічного корпусу

Таблиця 2

Таблиця частотних морфем китайської частини корпусів

СКМ

ранг

частотний

медичний

біологічний

політехнічний

нафтогазовий

розмовний

об'єднаний

W

1

W

W

W

W

W

W

W

--

2

--

--

--

--

--

--

--

Ж

3

ж

ж

Ж

Ж

Ж

s

ж

Ж

4

Ж

Ж

ж

T

T

ж

Ж

T

5

T

ff

ff

ж

ж

Ж

T

Ж

6

s

ш

ш

ж

ж

T

ш

Л

7

ff

ж

T

ff

ff

ff

ff

ш

8

ш

й

ж

ш

ш

Ж

Ж

s

9

ж

T

ж

ж

ж

Й

s

ff

10

Й

ж

ж

ж

ж

ж

ж

ж

11

ж

Ж

ж

Й

й

ш

ж

ж

12

Ж

й

Ж

й

й

ж

ж

Й

13

Л

Й

й

Ь

Й

й

Л

ж

14

ff

ж

й

ff

ff

Л

ff

ж

15

й

ж

й

й

ж

і

ж

і

16

ж

й

Й

ж

Ь

я

Й

ж

17

ж

ff

s

й

Ж

ж

й

й

18

і

Л

й

Ж

й

Ж

Ь

ff

19

Ь

й

Й

й

й

ш

Й

а

20

я

й

ff

й

ш

ff

і

й

21

й

Ь

щ

ff

ff

й

й

я

22

ж

s

Л

Й

ж

й

ff

Ь

23

й

Ж

Ь

ж

і

й

ж

ff

24

ж

Й

й

ш

й

Ь

ш

Й

25

ff

ж

ff

і

s

ff

й

ш

26

Й

ff

й

ж

й

ж

я

Е

27

й

Й

і

й

й

ж

й

Ж

28

Ж

ff

ж

а

й

Ж

ж

Ж

29

й

Й

Й

й

ж

ж

й

й

30

ш

Й

ш

m

а

е

й

Ж

31

й

і

ff

s

ж

й

а

й

32

Е

й

а

Ж

Й

й

й

Й

33

а

ш

ff

ж

Й

Ж

ж

й

34

Ж

й

Ж

ж

ж

Й

Ж

ff

35

й

а

ж

ш

ж

ш

ff

ш

36

й

ж

й

ff

ff

ff

Ж

й

37

Ж

Щ

Й

ff

ff

Е

й

Ж

38

ж

ff

я

ад

Ж

й

ff

ш

39

ff

ff

й

й

й

т

ж

а

40

ff

ж

й

ш

й

й

Ж

Е

41

а

й

й

й

в

ж

м

ff

т

42

Ж

S

ж

Й

а

й

й

а

43

е

й

й

а

ш

й

а

й

44

ж

й

ff

в

ж

ш

Е

й

Е

45

й

ff

ж

Й

Й

ff

й

Й

46

ш

Ж

Ж

я

ff

Е

й

Ж

47

й

ж

й

й

я

ff

ж

ж

48

ff

ш

ж

ff

Л

ff

ш

ff

49

ш

я

в

ж

ж

ff

ж

Й

м

50

ff

а

ff

й

Л

ш

а

Таблиця 3

Приклади вживання морфеми "Я" у політехнічному корпусі

ш 12004ш:ёттшш^штт^ш 1ш

The paper gives a brief introduction to the European Conference on X-ray Spectrometry 2004.

The precipitation mechanism and the effect of deoxidation production on precipitates were discussed.

The principle of the time reversal processing and its spatial and time focusing are studied.

The reflected light is then analyzed in real time (10) to determine the object's chemical composition.

й: ЯЯ 73ШШАТЙЯШШт 7М*ЯЖЯЯо

The shock absorbing effect of the damper isolated system excited by sinusoidal wave is also analysed.

мгшттш-ітшшштттштт*

The shortage of contact shoe in ore smelting electric arc furnace is analysed from its performance.

тилШїїтжттттжшшттіо

The reflection phase property and surface wave dispersion are analyzed using finite element method.

Таблиця 4

Приклади вживання морфеми "7" у політехнічному корпусі

The controlling of rail pressure of high pressure common rail diesel engine is studied.

The article introduces methods of nutritional appraisal to extruded and expanding foods.

The article presents a method of pressure difference conversion and provides an example.

The deflection of effective stress path occurs with the increase of consolidation pressure.

ТЕ"

The decaying voltages can be measured for a time after the current is switched off.

Таблиця 5

Теоретично можливі поєднання частотних морфем у реченні

ОД

і

ш

Ј

7

*

П

Ж

ОД

+

+

+

+

+

+

+

+

+

--

+

+

+

+

+

+

+

+

ш

+

+

+

+

+

+

+

+

+

+

+

+

+

Ј

+

+

+

+

+

7

+

+

+

+

+

+

+

*

+

+

П

+

Ж

Таблиця 6

Деякі найпродуктивніші моделі речень корпусу розмовної мови

регулярний вираз

приклади речень

Ж.+ОД.+$

Я 77--Я§7ОД 7І.*$і777№йІ7.

7.+ОД.+$

№І№7№ОДШЈЈЈ^о№ЖІШ^7$ЈОД^№о№Ј^7ЖМЖ±ОДШЈо

і.+ОД

^ІЙ--77ІОДІ7І.ЖЙІ7--7Й"ОДЙЄ.І7*^"І7ЇІ7^ОД? Ш

ПЖЈ--ЈІ0ОД'ШЈо--ЯІВЖЈ--ЈЖАОД?Шйо

ОД.+ОД.+

МОДМйОДоЖйОДМ/Ж 7ЈЈйОДЙоЩШЖЖЈЈЖМОДо

Ж#±ЈОД^ЈЖ 1ЖЈОДоЖЈ/ІЙОД--ЕЈЈЖШОД!

ОД.+Ж.+ОД.+

№ОДЈЙЖЈЈОДо№ОД*@ЖЯ 7#ЈОДо№ОД 7ЈЖіШФОДо

ОД.+7.+ОД.+

№ОДі№Ш 7№ОДЈоШОД^ЈШШ 7ШОД№РЈЖо№ОДЈ#7іШОДЈЙ®о

Ж.+ОД.$

Ј.+ОД.+$

№ПЈЈШЙЖОДЈКоЈЈЈЖ--йЈ"ЈОДЖоА"ЈЈЙОД§ШН#г 7о

*.+ОД.+$

П.+ОД.+

№ПОД#Ш 7ЈЖ--ЈЈійЈоШПШїЈОДОДЈЖДоЙ№ПтОДііЈЈт±о^

ПШЙМОДААЖАЖо

ОД.+7.+

ШШВ#МЈ®7^!ДоШШЯ№Јг 7ОДЈЈіАЈ7№оШЙШОДЈЙЈЖ 7№о

Ј.+7

М]ЈМ"7Ш 77п 7?ЈАЙАЈЈЈЖА 7о№"ШйЈ±^Ј7оЙЈШЈй 7Ј

®Шї7оЈЈЖЛЈЈЈ7?№і±ШЈМЈАТ 7Јо

ЖЖ*

ЖЖЖОДоЖЖЖОД^Й? ЖЯОДЯ? ЖЖЈА?ЖЖ--ЈШ^о

ЖЖ.*ОД

ЖЖЙЇІОД--АЈОДЈШоЖЖ--#ЈЈїШОДЈ"оЖЖ--А"ЈЈОДКЈо

ЖЖЛ^ОДАйоЖЖ--ААШШОДіШАо

Ж* 7

АШЖЈЩ 7--ЯАЈоШПШІШіОД 7№По

ОД.+*.+

ЖіШОДЙЈ*ЈАЈоШ 7ОДйАіП*®Јо{7ОДШ®Ш 7АЈ*ІІо

П.*Ј.*

П *--*

№ПЖ--^Ј#ОДЈЈЈоЈШПЖЈЈЈ^--ЈЖ#оЈЈПЈЈЖМЙ 7--ЈйЖо

Загалом було створено сім різнотематичних корпусів, до яких зведено чотири графічні діаграми, створено зведену таблицю статистичних даних і таблицю частотних морфем корпусів. На основі прикладів вживання морфем "Я" та "Д" у політехнічному корпусі наочно підтверджено, що корпус дійсно репрезентує саме політехнічну галузь, а методика визначення тематики корпусу чи належності тексту до певної галузі, як і методика скачування корпусу на основі термінологічних списків, є дієвою.

Опрацьовано теоретично можливі поєднання частотних морфем у реченні та виявлено деякі найпродуктивніші моделі речень корпусу розмовної мови.

Список використаних джерел

1. Глазунов С.А. Новый англо-русский словарь современной разговорной лексики. "Русский язык - Медиа", 2003. 778 с.

2. Козоріз О.П. Статистичні характеристики мовних одиниць юридичної термінології китайської мови. Вісник Київського національного університету імені Тараса Шевченка. Східні мови та література. 2014. Вип. 1. С. 15-20. ШЬ: http://nbuv.gov.ua/UJRN/VKNU_Sm_2014_1_6.

3. Ривкин В. Новый англо-русский медицинский словарь. 2004.

4. Столяров Д.Е., Кузьмин Ю.А., Баринов, С.М. Большой англо-русский политехнический словарь: в 2 т. Москва: Руссо, 2003. 1424 с.

5. Чибисова О.И., Смирнов Н.Н., Васецкий С.Г. Новый англо-русский биологический словарь. Москва: Руссо, 2003. 920 с.

6. OilAndGas (En-Ru): Большой англо-русский словарь по нефти и газу. ВНИИГАЗ, РАО "ГАЗПРОМ", 1998. К версии ABBYY Lingvo x3.

7. Jun Da: Modern Chinese Character Frequency List. URL: http://lingua.mtsu.edu/chinese-computing/statistics/char/ CharFreq-Modem.xls (дата звернення: 12.02.2021).

8. QuWord. URL: https://www.quword.com/ (дата звернення: 12.02.2021).

9. Word frequency data. URL: https://www.wordfrequency.info/samples.asp (дата звернення: 12.02.2021).

10. REFERENCES

11. Hlazunov S. A. Noviy anhlo-russkyi slovar sovremennoi razghovornoi leksyky. [New English-Russian dictionary of modern colloquial vocabulary]. "Russian language - Media", 778 p., 2003 [in Russian].

12. Kozoriz O. P. Statystychni kharakterystyky movnykh odynyts yurydychnoi terminolohii kytaiskoi movy. [Statistical characteristics of the mobile units of the legal terminology of the Chinese language]. Bulletin of the Kiev National University of the Name of Taras Shevchenko. Skhidni movi and literature. 2014. 1. pp. 15-20. URL: http://nbuv.gov.ua/UJRN/VKNU_ Sm_2014_1_6 [in Ukrainian].

13. Ryvkyn V. Noviy anhlo-russkyi medytsynskyi slovar. [New English-Russian Medical Dictionary], 2004 [in Russian].

14. Stoliarov, D. E.; Kuzmyn, Yu.A.; Barynov, S.M. Bolshoi anhlo-russkyi polytekhnycheskyi slovar. [The Big EnglishRussian Polytechnic Dictionary]. 2 vol.: Moskva: Russo; 1424 p; 2003 [in Russian].

15. Chybysova, O. Y; Smyrnov, N.N.; Vasetskyi, S.H. Noviy anhlo-russkyi byolohycheskyi slovar. [New English-Russian Biological Dictionary]. Moskva: Russo; 920 p.; 2003 [in Russian].

16. OilAndGas (En-Ru): Bolshoi anhlo-russkyi slovar po nefty y hazu. [Comprehensive English-Russian Dictionary of Oil and Gas]. VNIIGAZ, RAO "GAZPROM", 1998. ABBYY Lingvo x3 version [in Russian].

17. Jun Da: Modern Chinese Character Frequency List. URL: http://lingua.mtsu.edu/chinese-computing/statistics/char/ CharFreq-Modern.xls (Accessed 12 February 2021).

18. QuWord. URL: https://www.quword.com/ (Accessed 12 February 2021).

19. Word frequency data. URL: https://www.wordfrequency.info/samples.asp (Accessed 11 February 2021).

Размещено на Allbest.ru


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.