Корпус текстів Юрія Шевельова: структура, функції, навігація

Дослідження проблеми створення корпусу текстів видатного лінгвісту, історика літератури Юрія Шевельова. Огляд основних структурних компонентів корпусу текстів, функцій, характеристик його наповнення, екстралінгвістичного й лінгвістичного розмічення.

Рубрика Иностранные языки и языкознание
Вид статья
Язык украинский
Дата добавления 04.09.2022
Размер файла 763,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Корпус текстів Юрія Шевельова: структура, функції, навігація

Ілля Дапилюк

Анатолій Загнітко

Ганна Ситар

Статтю присвячено проблемі створення корпусу текстів Юрія Шевельова. Визначено основні структурні компоненти корпусу текстів, виділено функції, схарактеризовано особливості його наповнення, пояснено екстралінгвістичне й лінгвістичне розмічення.

Ключові слова: конкорданс, корпус текстів, лінгвоперсона, лінгвопер- сонологія, розмітка корпусу, частотний аналіз, Юрій Шевельов.

Abstract

IliyaDanyliuk, AnatoliyZahnitko, Hanna Sytar

GEORGE Y. SHEVELOV'S TEXT CORPUS: STRUCTURE, FUNCTIONS, NAVIGATION

Background. In modem linguistics, the questions of the linguistic portrait of the person, the establishment of its structural and functional components are actualized. The study of eminent linguistic persons is very important, and

George Y. Shevelov is one of them - as an eminent linguist, historian of literature, and critic. The scientific task to establish the linguistic corpus structure of George Y. Shevelov's discursive practices is highly motivated.

Purpose.The purpose of the article is to establish and implement an experimental and research model of text corpus of George Shevelov's linguistic person with the determination of the main corpus components, patterns of free linguistic text navigation.

Methods.The method of discursive analysis, body content analysis are used.

Results.Text corpus contains all the Ukrainian-language published texts by George Y. Shevelov, it was created on the free NoSketch Engine corpus manager and is available on the server of the Department of General and Applied Linguistics and Slavic Philology in VasyTStus Donetsk National University at corpora.donnu.edu.ua.

The quantitative parameters of the created corpus are as follows: 104 documents contain 1 346 424 tokens, and 1 037 949 are words in 66 039 sentences. The total lexicon includes 138 187 different word forms and punctuation marks, 157 original tags, and 32 172 lemmas.

Conclusions and Prospects.The created corpus of George Y. Shevelov is research type, full-text and dynamic, has extralinguistic and linguistic markings. Among the important features: a) building a concordance based on simple search, search in lemmas, search for a phrase, wordfonn, symbol or a certain pattem created using the regular expression; b) frequency analysis for word forms, lemmas, and tags.

The prospect of the research is the creation of a comprehensive George Y. Shevelov' s Texts Corpus, which will cover documents in Ukrainian and English and will be a reliable basis for studying the features of the outstanding scientist's speech.

Keywords: concordance, text corpus, linguistic person, linguistic personality, corpus marking, frequency analysis, George Y. Shevelov.

Вступ

Лінгвоперсонологія грунтована на філософському розумінні персоналізму (Б. П. Боун, Р. Г. Лотце, Дж. X. Хауісон, У. Джеймс, Дж. Ройс, М. У. Калкінс, У. Е. Гокінґ, Г. У. Опорт, Е. Муньє, Т. О. Бофорд та ін.), одним із виявів якого постає теза про духовне оновлення особистості, тяглість її самовдосконалення 1. У сучасній лінгвістиці актуалізовані питання мовного портрета особистості, встановлення структурних і функційних компонентів останнього.

Заявлені та низка інших питань постають істотними для сучасної прикладної лінгвістики, почасти для психолінгвістики, лінгвопсихіатрії, нейролінгвістичного програмування, сугестивної лінгвістики та ін. У лінгвоперсонології як науці про мовну особистість - одноосібну (монолінгвоперсона) чи колективну (полінгвоперсону) - лінгвоперсону досліджують у функційно-комунікативних, вербально-семантичних, лінгвопсихологічних, мовленнєвоповедінкових, дискурсивно-ситуативних, мотиваційно-сугестивних та інших вимірах. Актуальними є питання формування мовленнєвих потреб персони, визначення їх тяглості, діагностування видозміни мовних і мовленнєвих потреб у життєвому просторі лінгвоперсони з внутрішнім диференціюванням статусу та функційного навантаження мовних і мовленнєвих переходів, кодування й перекодування, формування множин лінгвоіндивідуалізацій, умотивованих територіальними, соціальними, віковими, естетичними, етичними, емоційно-ситуативними та іншими чинниками. Особливо важливим постає дослідження знаних лінгвоперсон, до яких належить Юрій Шевельов - видатний лінгвіст, історик літератури, критик. У його мовленнєво-дискурсивних практиках співвіднесені різні мовні стихії, нерівнорядні дискурсивні практики, активізовані територіальні, соціальні, вікові, естетичні, емотивні та інші мотиватори індивідуальних видозмін. Мотивованим є наукове завдання встановлення лінгво- корпусної структурованості дискурсивних практик Юрія Шевельова. Заявлене корелює з практичним завданням - уведенням в активний обіг не лише науково-творчої спадщини видатного науковця, а й використання напрацьованих Юрієм Шевельовиммовних моделей і конструкцій, лінг- воіндивідуалізацій у сучасній мовно-кодифікованій практиці.

Теоретичне підґрунтя

Уперше поняття лінгвоперсони на початку XX ст. використав М. Трубецькой із опертям на ідеї персоналізму (Е. Муньє та ін.). У другій половині XX ст. у зв'язку з активізацією студіювань мовної особистості, питань активної, асоціативної граматики (Караулов, 1987) поняття лінгвоперсони набуло іншого виміру й статусу. Активізацію лінгвоперсонологійних студіювань спостережувано в кінці XX - на початку XXI ст., коли істотними постали теоретичні й практичні напрацювання комунікативних стратегій і тактик, дискурсології, лінгвістики тексту, спроби дослідження мовленнєвоповедінкових стереотипів, розширення студій із прикладної лінгвістики, окреслення теоретичних засад об'єктивної граматики та ін. Не менш значущими були спроби мовного портретування особистості, створення авторських корпусів текстів.

Мовну особистість Юрія Шевельова розглядав Р. Трифонов, з'ясовуючи лінгвокультурні складники індивідуального мовлення науковця на матеріалі есе та листів, а М. Мозеррозкриває основні етапи динаміки творчої особистості Ю. Шевельова на дорозі відрадянщини(Трифонов, 2009; Трифонов, 2015; Мозер, 2014). Не менш актуальними є студіювання А. Даниленка, М. Коцюбинської, Л. Масенко, Л. Тарновецької та ін. У мережі інтернет сьогодні розміщено більшість праць Ю. Шевельова, що загалом не вирішує питання цілісного бачення його творчої лінгво- персони, що можливе за умови цілісної корпусації його спадщини, на- працюваннялінгвокомп'ютерних технологій вільної навігації в межах гіпертексту. Тому метою студіювання є експериментально-дослідницька модель текстової корпусаціїлінгвоперсони Юрія Шевельова з визначенням основних компонентів корпусу, закономірностей вільної лінгвотек- стової навігації.

Методологійне підґрунтя дослідження

Цілісна корпусаціялінгвоперсони Юрія Шевельова, а також розгляд особливостей мовного портрета науковця потребує застосування відповідних методів, з-поміж яких значущими постають метод дискурсивного аналізу з використанням методики корпусного контент-аналізу для встановлення усіх можливих фіксацій досліджуваного слова з фіксацією його граматичних змін, вузьких і розширених контекстів, а також - для вияву невипадкових сполук слів - колокацій, зіставлення останніх із регулярними та квантитативнодомінувальними. Використання корпусного контент-аналізу може слугувати опертям створення скетчаслова з вну- трішньокорпусним диференціюванням узуальних та оказіонально-авторських (індивідуалізованих) сполук слів, визначення їх навантаження в межах комунікативних регістрів, вияву комунікативних інтенцій.

Індивідуально-авторські експериментальні науково-дослідні корпуси: функційне навантаження в дослідженні лінгвоперсони

Викінчене мовне портретування можливе за умови охоплення усієї сукупності породжених особистістю текстів із діагностуванням територіальних, соціальних, генераційних та інших мотивацій змін у дискурсивних практиках. Сукупність наголошених питань постає однією із площин сучасної лінгвоперсонології, окремі напрями якої активно студійовані на кафедрі загального та прикладного мовознавства і слов'янської філології Донецького національного університету імені Василя Стуса (А. Загнітко, І. Данилюк, Ж. Краснобаєва-Чорна, Г. Ситар та ін.). Опрацювання рівнів, категорій та аспектів лінгвоперсонології уможливить створення об'єктивної та суб'єктивної мовносоціумної граматики, в центрі якої перебуває моно- і/або полілінгвоперсона в неозначеній кількості її і/або їхніх дискурсивних практик. Діагностування видозмін у 1) структурі мовної особистості, 2) рівнях її реалізації (вербально- семантичного, лінгвокогнітивного, мотиваційного (за Ю. Карауловим), функційного (В. Конецька), ситуативно-психологічного), 3) співвідношенні компонентів (формування уміння комунікувати, потреби у спілкуванні й належної компетентності, формування мовної свідомості та мовної і/чи мовленнєвої поведінки) з опертям на врахування: а) органічної потреби спілкування рідною мовою; б) комунікативної необхідності спілкуватися чужою мовою; в) дискурсивно-мотивованої практики (педагогічна, лікарська та ін.) спілкування нерідною мовою, можливе за умови створення цілісного корпусу текстів мовної особистості.

Індивідуально-авторські експериментальні науково-дослідні корпуси дають змогу встановити рівні й аспекти лінгвоперсони з опертям на її персонотексти. Через призму сумарної величини текстового корпусу можна визначити певні тематично-ключові елементи розкриття тяглості розвитку лінгвоперсони, формування лакун, мотивованих територіальними, соціальними та іншими чинниками, а також відповідним мовним ландшафтом функціювання лінгвоперсони, реконструювання її творчого потенціалу та механізмів його реалізації. Прикметно, що реконструйованими можуть поставати результати навчання, розпросторення й самореа- лізаціялінгвоперсони та ін. Текстовий корпус уможливлює простеження закономірностей мовносоціальної зумовленості лінгвоперсони та статусу лінгвоіндивідуалізацій як індивідуального самовияву: потяг, бажання, схильність, світогляд, переконання. Лінгвоперсона виявляє себе через стосунки з іншими, де відносини з іншими індивідами - це переживання й усвідомлення, переконання ж окреслюють спрямування особистості, її мовні цінності. Згодом постають значущими знання, уміння, навички та звички користуватися мовою, диференціювати її в різних корпоративних групах, уміти використовувати різні мовні коди залежно від ситуацій, що підтверджує мовножиттєвий простір Юрія Шевельова в різні періоди його життя - в дитинстві, студентські роки, харківський період, роки мюнхенської еміграції, викладання в Лундському університеті, а згодом - у Гарвардському й Колумбійському університетах.

Послідовне використання корпусного контент-аналізу забезпечує визначення емоційного тла дискурсивних практик, вияву в них відчуттів і почуттів, рівнів пам яті та ін. У цілісності авторський експериментальний науково-дослідницький корпус текстів забезпечує з ясування властивостей темпераменту лінгвоперсони, простеження зміни її мов- леннєвоповедінкових реалізацій, встановлення типологійних властивостей лінгвоперсони. Загалом дискурс лінгвоперсони - її життєвий простір із різними функційно навантаженими сукупностями самореалі- зацій у мову та в мові.

Індивідуально-авторський експериментальний науково-дослідний корпус лінгвоперсони Юрія Шевельова: структура, технології

Юрій Шевельов- видатна особистість, яка реалізована в численних текстах, різних дискурсивних практиках, нерівноряднихлінгволандшафт- них просторах.

Для дослідження особливостей мовлення Юрія Шевельова було вирішено укласти дослідницький корпус текстів. Цей корпус текстів спроектували й реалізували викладачі кафедри загального та прикладного мовознавства і слов'янської філології Донецького національного університету імені Василя Стуса А. Загнітко, І. Данилюк і Г. Сигар. У межах проходження навчальної практики в підготовці текстів для корпусу активну участь взяли студенти 2 курсу спеціальності «Прикладна лінгвістика».

Корпус текстів Юрія Шевельова створений за допомогою вільного корпусного менеджера NoSketchEngine (https://www.sketchengine.eu/), розробленого в університеті Масарика (Брно, Чехія) (Rychly&Sinrz, 2004). Цей корпус разом з іншими доступний на сервері кафедри загального та прикладного мовознавства і слов'янської філології ДонНУ імені Василя Стуса за адресоюcorpora.donnu.edu.ua.

За задумом авторів, корпус містить усі видані на сьогодні тексти Юрія Шевельова, зокрема:

Шевельов Юрій. З історії незакінченої війни (упорядники Оксана Забужко, Лариса Масенко). Київ: Видавничий дім «Києво-Могилянська академія», 2009. 471 с. ISBN978-966-518-519-2; Шевельов Юрій. З історії незакінченої війни (упорядники Оксана Забужко, Лариса Масенко). Київ: Видавничий дім «Києво-Могилянська академія», 2009. 471 с. ISBN978-966-518-519-2; Шерех Юрій. Поза книжками і з книжок. Київ: Вид-во «Час», 1998. 456 с. ISBN966-95238-3-4; Шерех Юрій. Друга черга. «Бібліотека Прологу і Сучасности Ч. 130», 1978. 393 с.; Шерех Юрій. Не для дітей. Нью-Йорк: Вид-во «ПРОЛОГ», 1964. 416 с.; Шевельов Юрій. Вибрані праці: у 2 кн. Книга II. Літературознавство. Київ: Видавничий дім «Києво-Могилянська академія», 2009. 1151 с. ISBN 978966-518-496-6;Шевельов Юрій. Вибрані праці: у 2 кн. Книга І. Мовознавство. Київ: Видавничий дім «Києво-Могилянська академія», 2009. 583 с. ISBN978-966-518-494-2; Шерех Юрій. Третя сторожа. Балтимор-Торонто: Смолоскип, 1991. 454 с.; Шевельов Юрій. «Я, мені, мене... (і довкруги)». Спогади. У двох томах. Видавництво часопису «Березіль», Видавництво М. П. Коць. Харків - Нью-Йорк, 2001; Забужко О., Шевельов Ю. Вибране листування на тлі доби: 1992-2002: з додатками, творами, коментарями, причинками до біографій та іншими документами. Київ: Висока Полиця, ВД Факт, 2011.

Українськомовна частина корпусу на сьогодні охоплює 104 документи українською мовою, містить 1 346 424 токени.

У створеному корпусі використано екстралінгвістичну й лінгвістичну розмітку. Екстралінгвістична розмітка корпусу об'єднує:

а) метатекстові дані. До них належать:

• поле area(сфера) з можливими значеннями літературознавство, мовознавство, загальні праці;

• author(автор) - у цьому корпусі тільки Юрій Шевельов, створено для можливості об'єднання з іншими корпусами;

genre(жанр): есе, стаття, монографія, інтерв'ю, передмова, виступ, доповідь, спогади, стаття, виступ, стаття, доповідь, лист, вступне слово;

пате (назва твору)',

• source (джерело)',

• style(стиль): публіцистичний, науковий та епістолярний;

type(тип): мовою оригіналу, переклад з англійської, переклад з німецької, переклад з французької;

year (рік)-,

б) структурну розмітку. Корпус містить дані:

• про межі тексту в тегах <doc>- </doc>;

• про межі абзацу в тегах <р> - </р>;

• межі речень у тегах <s>- </s>;

• спеціальний тег <g/>позначає розділові знаки, які не відокремлюються пробілом від попереднього токена.

Лінгвістична розмітка аналізованого корпусу текстів Юрія Шевельо- ва сьогодні є результатом автоматичного морфологічного аналізу й ле- матизації, здійснених за допомогою авторських інструментів. Структура стандартного тегу до кожного токенає такою: на першій позиції стоїть позначка граматичного класу слова, далі - позначки підкласів, усі позначки - односимвольні латиницею або цифрами, за кожним підкласом закріплена позиція, яка не змінюється для різних класів.

Наприклад, для слова конференцією тег має вигляд - Izzooinlm(рис. 1).

Рис. 1. Розшифрування тегу для словоформи «конференцією»

Таблиця 1Класи слів у корпусі текстів Юрія Шевельова

іменник

і.*

дієслово

D.*

дієприкметник

Dk.*

дієприслівник

Ds.*

прикметник

К.*

займенник

Z*

прислівник

S*

прийменник

J.*

сполучник

p *

числівник

c.*

частка

T *

вигук

w.*

абревіатура

A.*

решта

R.*

Таблиця 2. Позначки грамем роду в корпусі текстів Юрія Шевельова

ч. р.

..с.*

ж. р.

..Z.*

с. р.

..S.*

Докладно систему позначок для тегів викладено в дослідженні (За- гштко& Данилюк, 2013). Зокрема, класифікацію граматичних класів подано в табл. 1. Категорію роду описано поз н а ч к а м и в т е г а х у т а б л . 2.

К ількісн і п арам етриствореного корпусу є таким и: у 104 д окументахзібрано 1 346 424 то к енів , з я к и х 1037 949 - цесл о в а у 66 039реченнях. Загальний лексикон охоплює 138 187 різних словоформ та розділових знаків, описаних 157 оригінальними тегами, і 32 172 лем.

У корпусному менеджері доступні типові функції, як-от побудова конкордансуна підставі простого пошуку, пошуку в лемах, пошуку фрази, словоформи, символу або певного шаблону, побудованого за допомогою регулярного виразу.

Рис. 2. Інтерфейс для вибору типу запиту в корпусі

Запит може спиратися на додатковий пошук у контексті з фільтруванням потрібних лем чи словоформ на відстані до 15 токенів управо чи вліво від головного слова.

Рис. 3. Інтерфейс для вибору контексту запиту в корпусі

Нарешті, пошук можна обмежити різними типами текстів, передбаченими екстралінгвістичною розміткою.

У побудованому конкордансі можливі різні типи сортування та фільтрування даних, частотний аналіз морфологічних позначок чи словоформ для леми тощо.

Іншою типовою функцією корпусного менеджера є частотний аналіз із можливістю вибору мінімальної чи максимальної частоти, частиномовних фільтрів, N-грамів.

Рис. 4. Інтерфейс для побудови частотного словника в корпусі

Інструмент частотного аналізу дає змогу, крім того, вибрати всі леми та всі словоформи.

Рис. 5. Фрагмент словника частот словоформ із корпусу Юрія Шевельова

Висновки

Отже, створений корпус Юрія Шевельова є дослідницьким, повнотек- стовим і динамічним, має екстралінгвістичну та лінгвістичну розмітку. З-поміж важливих функцій варто виокремити: а) побудову конкордансу на підставі простого пошуку, пошуку в лемах, пошуку фрази, словоформи, символу або певного шаблону, створеного за допомогою регулярного виразу; б) частотний аналіз для словоформ, лем та тегів.

Нині колектив авторів працює над усуненням помилок автоматичного морфологічного аналізу й наповненням англійськомовної частини корпусу. Перспективою дослідження є створення вичерпного корпусу текстів Юрія Шевельова, що охоплюватиме документи українською та англійською мовою та стане надійним підґрунтям для вивчення особливостей мовлення видатного вченого.

Список використаної літератури

юрій шевельов текст література лінгвістичний

1Загнітко, А. П., Данилюк, І. Г. (2013). Корпус текстів граматичної службовості. В Прикладна лінгвістка та лінгвістичні технології: MegaLing-2012 (с. 102-112). Київ: УМІФ.

2Караулов, Юрий. (1987). Русский язык и языковая личность. Москва: УРСС.

3Мозер, Міхаель. (2014). Юрій Шевельов на дорозі відрадянщення. Взято з http://www.historians. in.ua/index.php/en/ukrayinska-mova/1066-mikhael-mozer-yurii-shevelov-na-dorozi-vidradianshchennia.

4Трифонов, Р. А. (2009). Метамовні фрагмента спогадів Юрія Шевельова- репрезентанта індивідуальної картини світу лінгвіста. Вісник Харківського національного університету ім. В. Н. Каразіна, 843 (55), 19-26.

5Трифонов, Роман. (2015). Лінгво культур ні складники індивідуального мовлення Юрія Шевельова (на матеріалі есе та листів). Взято з http://www.historians.in.ua/index.php/en/ukrayinska-mova/1697-roman-tryfonov-linhvokulturni-skladnyky-indyvidualnoho-movlennya-yuriya-shevelova-na-materiali-ese-ta-lystiv.

6Rychly, Pavel, &Smrz, Pavel. (2004). Manatee, Bonito and Word Sketches for Czech.In Proceedings of the Second International Conference on Corpus Linguisites (pp. 124--132). Saint-Petersburg: Saint-Petersburg State University Press.

References

1Karaulov, Yuryi. (1987). Russkyiyazykі yazykovaialychnost [Russian language and language personality]. Moskva: URSS [in Russian].

2Mozer, Mikhael. (2014). YuriiShevelovnadorozividradianshchenma [George Shevelov on the Soviet- away-road].Retvieved from http://www.historians.in.Ua/index.php/en/ukrayinska-mova/l066-mikhael-mozer-yurii-shevelov-na-dorozi-vidradianshchennia [in Ukrainian].

3Rychly, Pavel, &Smrz, Pavel. (2004). Manatee, Bonito and Word Sketches for Czech.In Proceedings of the Second International Conference on Corpus Linguisitcs (pp. 124-132). Saint-Petersburg: Saint-Petersburg State University Press.

4Tryfonov, R. A. (2009). MetamovnifrahmentyspohadivYuriiaShevelova - reprezentantyindyvi- dualnoikartynysvitulinhvista [Metamorphic Fragments of George Y. Shevelov's Memoirs - Representatives of the Linguist's Individual Picture of the World].VisnykKharkivskohonatsio- nalnohouniversytetuim.V N. Karazina [Bulletin of Kharkiv National University named by V N. Karazin], 843 (55), 19-26 [in Ukrainian].

5Tryfonov, Roman. (2015). LinhvokulturniskladnykyindyvidualnohomovlenniaYuriiaShevelova (namateriali ese ta lystiv) [The linguistic and cultural components of George Y. Shevelov's individual speech (based on essays and letters)].Retvieved from http://www.historians.in.ua/index.php/en/ ukrayinska-mova/1697-roman-tryfonov-linhvokulturni-skladnyky-indyvidualnoho-movlennya- yuriya-shevelova-na-materiali-ese-ta-lystiv [in Ukrainian].

6Zahnitko, A. P, &Danyliuk, I. H. (2013). Korpus tekstivhramatychnoisluzhbovosti [Text corpus for grammatical auxiliary]. In Prykladnalinhvistkata linhvistychnitekhnolohii [Applied linguistics and linguistic technologies]: MegaLing-2012 (pp. 102-112). Kyiv: UMIF [in Ukrainian].

Размещено на Allbest.ru


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.