Концептуальні засади укладання корпусних словників

Принципи укладання корпусних словників, зумовлені розвитком теорії корпусу текстів й концепції колокації в сучасній лінгвістиці. Необхідність застосування встановлених принципів для укладання корпусного словника колокацій українського юридичного дискурсу.

Рубрика Иностранные языки и языкознание
Вид статья
Язык украинский
Дата добавления 31.01.2018
Размер файла 28,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru//

Размещено на http://www.allbest.ru//

Київський національний лінгвістичний університет

Концептуальні засади укладання корпусних словників

Бобкова Т. В.

Стаття присвячена встановленню концептуальних засад сучасної корпусної лексикографії. Процес укладання корпусного словника розглянуто як здійснення корпусного дослідження. Окреслено основні принципи укладання корпусних словників, зумовлені розвитком теорії корпусу текстів й концепції колокації в сучасній лінгвістиці. Обґрунтовано необхідність застосування встановлених принципів для укладання корпусного словника колокацій українського юридичного дискурсу.

Ключові слова: корпус текстів, корпусна лінгвістика, корпусна лексикографія, лексикографічний корпус, корпусний словник, колокація.

Статья посвящена установлению концептуальных принципов современной корпусной лексикографии. Процесс заключения корпусного словаря рассматривается как осуществление корпусного исследования. Очерчиваются основные принципы составления корпусных словарей, предопределенные развитием теории корпуса текстов и концепции колокации в современной лингвистике. Обосновывается необходимость применения установленных принципов для составления корпусного словаря колокаций украинского юридического дискурса.

Ключевые слова: корпус текстов, корпусная лингвистика, корпусная лексикография, лексикографический корпус, корпусный словарь, колокация.

The article is to outline the conceptual basis of modern corpus lexicography. The corpus dictionary compiling is analyzed as conducting of corpus research. The main principles of corpus dictionary compiling are determined depending on the developing of corpus theory and conception of collocation in modern linguistics. A necessity of determined principles use for compiling of collocation dictionary of Ukrainian Law discourse is proved. корпусний словник юридичний

Keywords: text corpus, corpus linguistics, corpus lexicography, lexicographic corpus, corpus dictionary, collocation.

Завдання розроблення й удосконалення прикладних систем автоматичного аналізу тексту й укладання словників потребують дослідження великих обсягів природно-мовних текстів електронних корпусів. Ефективність розв'язання прикладних завдань опрацювання текстової інформації значною мірою залежить від вибору підходів і теоретичних пріоритетів, визначальних для методології дослідження. Загальне визнання необхідності використання в сучасній лексикографії даних електронних корпусів текстів визначає актуальність дослідження концептуальних засад укладання корпусних словників.

Мета статті - дослідити теоретичні принципи корпусного підходу до укладання словників. Досягнення поставленої мети передбачає виконання таких завдань: 1) проаналізувати й виділити концептуальні засади, пов'язані з розробленням теорії корпусу текстів, 2) визначити концептуальні засади укладання корпусних словників, зумовлені розвитком теорії колокації, і 3) навести аргументи на користь застосування окреслених теоретичних принципів для укладання корпусного словника колокацій.

Уперше електронні корпуси текстів були застосовані з метою лексикографічного аналізу наприкінці 1960 рр. [22, р. 137-138]. Ілюстрацією найпростішого використання корпусів є автоматично укладений У Френсисом і Г Куцерою частотний словник словоформ (Computational Analysis of Present-Day American English, 1967 р.). Поєднання корпусної лінгвістики й лінгвостатистики сприяло появі в 1980 рр. нових типів корпусних словників у зарубіжній лексикографії і засвідчило необхідність формування засадничих принципів їх укладання. При цьому процес укладання корпусного словника розглядався як здійснення корпусного дослідження, загальнотеоретичні принципи якого представлені в працях Дж. Ліча, Е. Тоніні-Бонеллі, А. Ренофф, В. Плунгяна, В. Тойберта. Зазначені принципи традиційно формулюються у вигляді “теоретичних пріоритетів”, або “ідеологічних преференцій” [5, с. 9], визначальних для здійснення корпусного аналізу.

Прогрес в опрацюванні нових типів електронних корпусів, використовуваних у теоретичних пошуках, і зміни в “ідеологічних настановах” лінгвістів [5, с. 12] потребують узагальнення основних теоретичних принципів сучасних корпусних досліджень. Зіставлення встановлених принципів [5; 14; 20; 22; 23] уможливлює виділення загальних концептуальних засад, покладених в основу створення корпусних словників, не зважаючи на різницю в їх призначенні й методиці розроблення. Узагальнені концептуальні засади слід класифікувати як пов'язані з розвитком теорії корпусу текстів (1) або концепції колокації (2):

Пріоритет емпіричного підходу над раціоналістичним [14, р. 107; 23, р. 206; 11, р. 12; 20, р. 29; 5, с. 11; 22, с. 150; 16, с. 49].

За емпіричним підходом вихідним пунктом лінгвістичного аналізу є спостереження мовних даних та індуктивна процедура їх опису. При цьому гіпотези будуються на базі експериментальних спостережень реальних мовних фактів, а не на підставі апріорно сформульованих положень. У подальшому дослідженні висунута гіпотеза перевіряються представленими в результаті експерименту доказами, що в свою чергу уможливлює формулювання теоретичних узагальнень на основі реальних даних. Як це не парадоксально, за раціональним підходом цілком достатньо інтуїції автора-лінгвіста, який набагато краще за інших носіїв знається на устрої мови і не покладається на “експериментальні”, “об'єктивні” методи дослідження мови [5, с. 11].

У цьому розумінні корпусні дослідження ґрунтуються на положеннях теорії узусу, що потребує вивчення емпіричної бази: мова визнається значно ширшою за оманливу інтуїцію окремого лінгвіста. При цьому не передбачається відмови від заздалегідь встановлених і перевірених традиційних категорій лінгвістичного опису, але відправним пунктом корпусного дослідження є спостереження вживання автентичної мови, а не описових категорій, які в кінцевому підсумку можуть бути значно віддаленими від реальних мовних фактів [23, р. 206]. Основним джерелом природної мови, доступним для безпосереднього спостереження, є реальний текст, яким звичайно нехтували традиційні теоретики мови [5, с. 9]. У такий спосіб, зміни в підході до спостереження й опису мовних даних у корпусній лінгвістиці уможливлюють зміну в теорії мови. Отже, в основу корпусних досліджень покладено пріоритет емпіричного підходу, відправним пунктом якого є аналіз реальних мовних фактів, вилучених з тексту.

Пріоритет автентичності досліджуваних текстів [8, р. 5; р. 107; 23, р. 206; 16, р. 49; 20, р. 30; 5, с. 9; 22, с. 130].

У корпусних дослідженнях як джерело мовних даних аналізуються лише природно-мовні тексти, створені в реальних умовах. Лише цілісний текст, або дискурс, а не його окремі фрагменти - слова й речення, визнається “реальним інструментом комунікації” [5, с. 9], доступним для безпосереднього вивчення. І, якщо серед корпусних лінгвістів до цього часу немає згоди щодо визначення базового поняття - корпусу, то щодо автентичності використовуваних для корпусу текстів загалом досягнуто консенсус [23, р. 206].

Зосередження на вивченні природно-мовного тексту пояснюється насамперед спрямуванням корпусних досліджень на розв'язання прикладних завдань з навчання мові й автоматичного аналізу тексту. У цьому розумінні корпусний і текстоорієнтований підходи базуються на спільних засадах: метою корпусної лінгвістики, як і лінгвістики тексту, стає опис використання мови, втіленої в тексті як основному засобі створення сенсу [23, р. 207; 22, с. 136-137]. Однак зазначені підходи принципово відрізняються за кількома позиціями. Зокрема як джерело мовних даних текст і корпус якісно розрізняється за кількома визначальними для теоретичних принципів параметрами [23, р. 207-208], поданими нижче в узагальненому вигляді:

єдність тексту як мовної події між двома учасниками комунікації vs. сукупність текстів корпусу, які не можуть бути ідентифіковані як єдина мовна подія;

цілісність тексту vs. фрагментарність KWIC-формату конкордансу;

горизонтальний напрямок аналізу тексту vs. вертикальний напрямок KWIC-формату конкордансу корпусу;

специфічний ситуативний і культурний контекст тексту vs. відсутність унікального контексту й формальний характер параметрів корпусу;

текст як мовленнєвий зразок vs. корпус як аплікативний зразок мови;

змістовний характер текстової інформації vs. відсутність безпосереднього зв'язку з конкретним контекстом,узагальнений характер мовної інформації корпусу.

Отже, незважаючи на те, що в основу корпусного підходу покладено засади текстоорієнтованого, корпус і текст принципово відрізняється за якісними (цілісність, наявність ситуативного контексту, характер інформації), кількісними параметрами (обсяг, кількість текстів) та аплікативним призначенням, що визначає напрямок аналізу, теоретичні принципи й методологію дослідження. Це дозволяє стверджувати, що в сучасній лінгвістиці використовуються два типи емпіричних даних [23, р. 208-212]: текст як зразок мовлення й корпус як потенційне джерело мовних моделей. Сучасні послідовники емпіричного підходу обирають для дослідження представницьку сукупність текстів, якою є електронні корпуси текстів. Саме в корпусі текст набуває статусу головного об'єкта теоретичної рефлексії [5, с. 14]. У такий спосіб, як єдине джерело даних для корпусного дослідження слугують автентичні тексти, створені в реальних умовах комунікації, а не штучно сконструйовані або вилучені в ході лінгвістичного аналізу зразки мови.

Пріоритет використання лексикографічного корпусу текстів за джерело корпусного словника [18, р. 47; 9, с. 54; 3, с. 281-282].

На сучасному етапі загальновизнаною обов'язковою вимогою в лексикографії є використання корпусних даних, які відображають реальне говоріння й письмо: жоден великий словник не може розраховувати на серйозне сприйняття, якщо він не ґрунтується на корпусних студіях [3, с. 281-282]. Окреслена зорієнтованість корпусу на практичне використання в лексикографії приводить до уточнення базового поняття корпусної лінгвістики й актуалізує детермінативну ознаку аплікативності, або дослідного призначення текстового ресурсу для укладання словника. Отже, емпіричною базою сучасних лінгвістичних досліджень визнається представницька сукупність текстів [20, р. 29; 5, с. 11-12] як реального об'єкта, властивості якого мають бути встановлені в ході експерименту.

Традиційне написання словникової статті, базоване на інтуїції лексикографа або на використанні за основу даних інших, раніше укладених словників, витісняється лексикографічним аналізом організованої вибірки корпусних даних [12, р. 427]. Процедура корпусного лексикографічного аналізу є індуктивною: відправною точкою формування реєстру словника є безпосереднє спостереження відповідних одиниць у текстах корпусу. Включення до реєстру словника та опис ознак певної одиниці реалізується через застосування програмних засобів, які уможливлюють формулювання й верифікацію гіпотез на підставі встановлених у корпусі повторюваних моделей. Саме тому обсяг та інструментарій використовуваного лексикографічного корпусу має задовольняти вимоги щодо забезпечення адекватності результатів теоретичних пошуків [20, р. 30-31].

У цьому розумінні предметом професійних дискусій є співвідношення детермінативних параметрів обсягу й якості корпусу через поширеність думки, що дослідження лексикону й лексикографічна практика вимагають опрацювання великого корпусу [10, р. 22-23].

На сучасному етапі розвитку корпусної лінгвістики остаточно не встановлено, який саме обсяг корпусу задовольнить загальні й конкретні цілі лексикографів. Залежно від мети лексикографічного аналізу пропонується використовувати різні за обсягом (від 1 млн. і більше) наявні у вільному доступі анотовані корпуси текстів [15, с. 14-15, 22]. Однак обсяг використовуваного лексикографічного корпусу має бути адекватним меті й завданням дослідження [13, р. 68].

Застосування корпусів у лексикографічній практиці кардинально змінює не тільки процес написання, а й редагування словникової статті, оскільки дозволяє ґрунтувати редакційні рішення не на здогадах або інтуїції, а на надійних мовних даних [3, с. 281-282]. Отже, в корпусній лексикографії на відміну від традиційної, базованої на інтроспекції і довільних цитатах з інших джерел [18, р. 47], перевага надається виключно результатам емпіричного аналізу автентичних текстів корпусу, який уможливлює вільний доступ й опрацювання лексикографічного матеріалу. При цьому корпуси дозволяють отримувати дані щодо статистичних і морфолого-синтаксичних характеристик одиниць на підставі аналізу їх функціонування в текстах. У такий спосіб, сучасна корпусна лексикографія пропонує кардинально новий погляд на вивчення лексичних одиниць через аналіз їх уживання в тексті.

Пріоритет вивчення функціонування мови над дослідженням мовної компетенції [14, р. 107; 10, р. 21; 23, р. 207-208; 5, с. 8; 22, р. 150].

У певному розумінні зазначений принцип є розвитком текстоорієнтованого підходу до вивчення мови, втіленої в тексті. Від самого початку розвитку корпусної лінгвістики корпуси текстів замислювалися як зразки презентації вживання мови, зокрема Огляд англійського слововживання Р. Кварка (SEU, 1959 р.). Мета корпусного аналізу полягає у виявленні “характерних схем” уживання мови й “контекстових чинників”, що впливають на варіативність мовних одиниць [10, р. 3]. Через властивості людської пам'яті виділяти частіше “незвичні випадки, ніж типові” базовані на інтуїції лінгвістів висновки можуть бути ненадійними [10, р. 3].

Саме тому корпусна лінгвістика відкидає припущення щодо інтуїції носія мови як “надійного орієнтиру мовного вжитку” й взагалі ставить під сумнів існування мовної компетенції, можливості її виявлення через ретельне й раціональне вивчення правил, визначальних для індивідуального мовлення [3, с. 279]. Як інструмент опису мовної компетенції ідеального мовця застосовуються граматично правильно сконструйовані лінгвістом фрази. Віддаленість штучних фраз від вилучених з природно-мовних текстів начебто уможливлює перевірку вродженої мовної компетенції, незнайомої з реальними зразками фраз певною мовою [5, с. 17]. За умови необхідності нівелювання мовної варіативності на користь ідеальної, статичної системи перевага надається інтуїції дослідника-лінгвіста, а не автентичним текстам носіїв мови.

У цьому розумінні на відміну від традиційної корпусна лексикографія фокусується на вивченні поведінки лексичної одиниці в контексті, її значення, регулярних зв'язків, стильових ознак й характеристик використання в різних жанрах автентичних текстів. Функціональні властивості мовних одиниць визначаються особливостями їх уживання в певному тексті: частотою, дистрибуцією, сполучуваністю, і залежать від функціонального або авторського стилю тексту. Окреслені вище тенденції корпусного аналізу дозволили класифікувати теорію корпусу текстів як функціональний (або “функціонально-когнітивний”) напрямок сучасної лінгвістики [5, с. 8]. Отже, за корпусним підходом значення або вживання лексичної одиниці досліджується через аналіз контексту в автентичному тексті.

Пріоритет лінгвістичного опису над аналізом лінгвістичних універсалій [14, р. 107; 5, с. 11; 22, р. 137-138].

Якщо традиційний підхід до лексикографічного аналізу визначає ідентифікацію групи слів у межах мовної системи й термінах стандартних категорій, то корпусно-базований підхід передбачає опис способів вираження зв'язків між словами цієї групи в різних контекстах.

Зазначені особливості корпусної лексикографії, як і загалом прикладної лінгвістики, пояснюються дослідною спрямованістю галузі: практичною необхідністю досліджувати факти, а не конструкти, осмислювати властивості реально спостережуваних явищ у текстах, а не моделей їх побудови [5, с. 9]. Зокрема, на підставі статистичних обчислень англійських текстів загальним обсягом у 12 млн. слововживань зафіксовано значно більше морфологічних форм дієслів, що мають бути опрацьовані автоматично, ніж подано в нормативній граматиці [4, с. 447-448].

У такий спосіб об'єктом корпусного дослідження мають стати реальні, а не уявні мовні явища. Корпусно-керований підхід вивчення мови передбачає встановлення безпосередньо на базі корпусу регулярно повторюваних моделей і розподілу частот текстових одиниць, які не можуть бути визначені апріорно [17, р. 115]. Так, встановлені на базі Огляду англійського слововживання Р. Кварка морфологічні ознаки було покладено в основу розмітки сучасних корпусів текстів [13, р. 19]. У цьому розумінні остаточною метою корпусного аналізу є побудова нової теорії мови на базі генерованої з корпусу текстів моделі, що у свою чергу вимагає кардинальної зміни способу спостереження й опису вилучених мовних даних [23, р. 206].

Подібно до орієнтованого на узус корпусний підхід протистоїть системному, зосередженому на вивченні не скільки мови, а уявлень про неї - певної ідеальної структури,порівняно з якою спостережувані факти є лише більш-менш адекватними реалізаціями шуканого абсолюту, інколи ігноровані дослідником [5, с. 11]. Важливим положенням корпусно-базованого підходу є визнання неможливості вичерпного суто синхронного опису мови. Сучасна граматика має включати не тільки відомості про способи вираження граматичного значення, а й узагальнення щодо динаміки зміни цих способів в історичній перспективі [20, р. 30-31]. Лінгвістичний опис мовних даних удосконалюються з появою моніторингових,динамічних корпусів текстів, про що свідчить аналіз лексичних і граматичних інновацій в англійській мові за останні 30 років, здійснений на базі корпусів FLaB і Frown (1991-1996 рр.).

Подібно до цього визнається нагальна потреба в укладанні на базі корпусів усного й письмового мовлення окремих граматик [22, р. 131].Оскільки внаслідок застосування системного підходу спостерігається певне спрощення традиційної граматики, базованої на штучно сконструйованих мовних виразах або “підтверджених фактами інтуїції” окремих ілюстраціях певного абсолюту в текстах [5, с. 11]. На відміну від традиційного корпусний підхід оперує статистично значущими моделями, встановленими й експериментально перевіреними на представницькій колекції текстів. На думку послідовників системного підходу, подібні експериментальні перевірки лише перешкоджають непотрібними “емпіричними випадковостями” виведенню узагальнень, сформульованих як звичай до початку дослідження [5, с. 11]. За корпусним підходом, застосованим Д. Байбером, граматика усної, розмовної мови визначається так само самостійним статусом, як і граматика письмової: Longman Grammar of Spoken and Written English (1999 р.).

У такий спосіб, корпусне дослідження й теоретичний аналіз ґрунтується не на абстрактній мові, а безпосередньо на дискурсивній практиці, зокрема на структурах, регулярно відтворюваних у певних типах дискурсу. За корпусним підходом найістотнішими для лінгвістичного опису є високочастотні, статистично значущі явища, що зумовлює визнання пріоритету квантитативного компоненту мови.

Пріоритет дослідження кількісних моделей, а не лише якісних [14, р. 107; 11, р. 12; 5, с. 9; 22, р. 137-138; 6, с. 11-12].

Окремі загальнотеоретичні аспекти квантитативних відношень у мові були об'єктом досліджень зарубіжних і вітчизняних лінгвістів ще з початку ХХ ст. (І. О. Бодуен де Куртене, Е. Торндайк, Е. Горн, О. Синявський, М. С. Трубецькой, Х. С. Ітон, І. Лордж, Р Буза, А. Джіланд, Р. Г. Піотровський, В. І. Перебийніс, Л. М. Засоріна, В. В. Левицький). Зокрема, завдяки широкомасштабним лінгвостатистичним дослідженням в Україні на матеріалі різних мов установлено визначальні закономірності взаємних зв'язків системних і функціональних відношень у мові [4, с. 446-447]. Визначальною серед функціональних характеристик визнано частоту мовної одиниці, тобто ступінь її вживаності в мовленні. За даними аналізу частоти словозмінних форм 248 найчастотніших англійських дієслів у чотирьох масивах текстів художнього, наукового, суспільно-політичного стилю й драми загальним обсягом у 12 млн. слів установлено зв'язки між частотою й структурними, граматичними й семантичними ознаками мовних одиниць, а також особливостями певного функціонального стилю чи жанру.

Однак зазначені елементи й вияви застосування в лінгвістичних дослідженнях квантитативного підходу загалом уважаються “периферійними” [5, с. 9]. Лише в сучасній корпусній лінгвістиці квантитативні відношення були визнані суттєвим фактором “мовної еволюції і структури лінгвістичних узагальнень” [5, с. 9]. На сучасному етапі пріоритет дослідження квантитативних моделей пояснюється прикладною спрямованістю корпусної лінгвістики й соціальним замовленням: лінгвістичний аналіз має бути зосередженим на високочастотних, максимально представлених у сучасних корпусах текстів мовних явищах. Цілком очевидно, що насамперед потребують вивчення механізми вираження смислів, які користуються широким попитом посеред реальних носіїв мови на сучасному етапі. Крім того, багатократне відтворення пріоритетних для мовного колективу значень зумовлює максимальну стійкість і структурованість механізмів їх вираження.

Узагальнення спостережень великої кількості корпусів текстів дозволили Дж. Синклеру дійти важливих теоретичних висновків щодо зумовленості значення частотою вживання одиниці, делексикалізації високочастотних слів, максимальної частоти вживання головного значення слова, побудови більшості автентичних текстів сполученнями частотних слів і частотних значень менш частотних слів [21, p. 113]. Отже, на сьогодні безперечний пріоритет для корпусної лексикографії становить дослідження високочастотних механізмів вираження значення через опис регулярно вживаних структур, наявних для безпосереднього спостереження в корпусі текстів.

Пріоритет концепції функціонального структуралізму в дослідженні значення [10, р. 21; 23, р. 206; 11, р. 12; 5, с. 13; 22, р. 137-138].

Опис лексичного значення становить одну з основних проблем традиційної лексикографії [21, р. 112]. За контекстно-орієнтованим підходом вивчення значення лексичних одиниць має спиратися на реальні текстові дані, оскільки значення певного слова визначається способом його вживання [6, с. 11] або сукупністю усіх контекстів - “звичних або звичайних позицій певного слова” [1, с. 18]. Сьогодні реальні дані про оточення слова на великому репрезентативному матеріалі надають електронні корпуси текстів, саме тому подібно до функціональної лінгвістики вихідним положенням корпусного підходу є визнання мови як певної сукупності текстів [5, с. 13].

Усвідомлення необхідності емпіричного дослідження мови безпосередньо у функціонуванні дозволило сформулювати гіпотезу про можливості встановлення значення через аналіз уживання форми. Зокрема, представники функціонального структуралізму Дж. Р Фьорз і М. А. К. Халлідей під значенням розуміли комплекс функцій мовних форм [1, с. 17]. Подібно до цього сучасна корпусна лексикографія має справу насамперед з вивченням значення слова через опис його функціональних ознак [10, с. 21]. Визнано, що лексичні одиниці набувають сенсу не в ізольованому положенні, а лише в контексті: формування значення є результатом колокації - поєднання слів у певному контексті, регулярно повторюваних у дискурсі [22, р. 150]. Ключовими проблемами для корпусного лексикографа стає дослідження вживаності й значення лексичної одиниці в контексті, її стильових ознак і регулярних зв'язків у різних жанрах автентичних текстів. Власне, лексикографічний аналіз корпусу передбачає інтерпретацію ймовірних преференцій уживання лексичних одиниць [19, р. 142].

Крім того, у межах контекстуальної теорії Дж. Р. Фьорзом теоретично обґрунтовано можливість ідентифікації значення слова шляхом установлення його колокацій - типових і постійних оточень, що реалізують різні аспекти значення лексичної одиниці. Як розвиток фьорзіанської концепції колокації слід розглядати корпусну модель значення й уведення в науковий обіг поняття семантичної просодії Б. Лоува [19, р. 144]. Так, якщо колокація описує лексичну одиницю А, що регулярно сполучається з В, то семантична просодія визначає спосіб, у який увесь семантичний клас гіпотетично матиме сильну тенденцію до зв'язку із цією лексичною одиницею. Результатом лексикографічного аналізу значення слова є узагальнення щодо вживання лексичної одиниці.

Як подальший розвиток контекстуальної теорії значення слід розглядати встановлені Дж. Синклером[21, р. 113]за результатами спостереження корпусних даних тенденції до:

прогресивної делексикалізації частотних слів,

зумовленості значення принципом ідіоматичності,

частої вживаності й незв'язності головного значення слова,

побудови текстів сполученнями частотних слів і частотних значень менш частотних слів.

У такий спосіб, корпусна концепція колокації уможливлює визначення й розв'язання проблем

сучасної лексикографії щодо встановлення й типізації значень високочастотних службових слів і визначення обсягу значень високочастотних слів. Можливість розв'язання проблем лексикографічного опису забезпечує визнання колокації основною “функціонально значущою одиницею змісту” [23, р. 213].

Пріоритет дослідження колокації як основної одиниці корпусного аналізу [21, р. 112; 23, р. 213; 22, р. 136; 7, с. 398].

Протягом тривалого часу розроблення більшості використовуваних у сучасних лінгвістичних дослідженнях прикладних програм автоматичного аналізу текстової інформації було зорієнтоване виключно на традиційні одиниці - лексеми [7, с. 397-398]. Однак практичні потреби й завдання опрацювання текстової інформації з метою навчання мови, укладання словників, машинного перекладу й анотування текстів спонукали до необхідності критичного перегляду традиційних одиниць лінгвістичного аналізу. У цьому розумінні формування теоретичних принципів нової - корпусної парадигми вже наприкінці 1960 рр. певною мірою визначалося концепцією колокації, про що свідчить ґрунтовна праця Дж. Синклера, С. Джоунз, Р Делея “English Collocation Studies” [22, р. 136-137]. Проте лише поява електронних корпусів текстів і застосування статистичних методів спричинили до кардинальних змін у способах спостереження й описі текстових даних.

У 1980-90 рр. у машинно-орієнтованому аналізі текстів спостерігається переміщення акцентів з вивчення окремого слова на стійкі сполуки - колокації, вилучені з корпусів текстів [2]. Забезпечення вільного доступу до великих обсягів автентичних текстів корпусів уможливило критичний перегляд функціонального, змістового й структурного навантаження традиційних одиниць. Емпіричні дані спостереження корпусів свідчать, що 80 % текстів становлять не ізольовані лексичні одиниці, а регулярно відтворювані структури, які є важливим будівельним матеріалом природної мови [15, р. 62]. Спостережувані багатослівні сполучення включають лексичні й граматичні реалізації, обрані мовцями як цілісні одиниці, тенденція до частотного використання яких доводить зсув розвитку мови в бік ідіоматичності й фразеології [23, р. 215].

Узагальнення спостережень корпусних даних дозволили дійти висновків щодо зумовленості побудови текстів на рівні структури й значення двома взаємодоповнюючими принципами: ідіоматичності - використання напівготових фраз, визначальних для вільного вибору мовця [21, р. 109-110]. Це,власне, підтверджується доказами колокацій - сполук слів, уживаних у природно-мовному тексті разом зі значно вищою частотою, ніж кожне з них з іншими словами [3, с. 304]. Тенденція слів зустрічатися систематично разом призводить до втрати первинного значення й набуття складниками колокації нової функції і значення. Відбувається злиття окремого складника з контекстом, поділ на окремі елементи фактично є неможливим, і цілісність сполучення зумовлює одночасний вибір складників колокації. Результати статистичного аналізу великої кількості даних корпусів уможливлюють виявлення колокацій як “одиниць сенсу, не зафіксованих жодним словником” [22, р. 138]. Під колокацією при цьому слід розуміти характерні, часто відтворювані синтагматичні лексичні послідовності, поява яких зумовлена статистичними, семантичними й синтаксичними чинниками.

Регулярно спостережувані корпусні факти слід вважати ґрунтовною підставою для “серйозного перегляду одиниць сенсу й уживання”, тобто “перевизначення одиниць” [23, р. 215]. Вилучені з корпусу текстів колокації дозволяють не тільки виявити відсутні в лінгвістичних джерелах стійкі поєднання, а й обчислити статистичні показники їх стійкості, встановити на їх підставі реально існуючі моделі семантико-синтагматичних зв'язків різного типу. У такий спосіб, за корпусним підходом теоретичними основами визначення певного слова або виразу визнаються граматична й колокаційна моделі, представлені контекстом.

Окреслені вище теоретичні засади покладено в основу створення корпусного словника колокацій українського юридичного дискурсу. Лексикографічним джерелом для словника колокацій слугує розроблений нами підкорпус законодавчих документів [24], основу планування якого становлять ключові вимоги до корпусних об'єктів - скінченність обсягу, репрезентативність, збалансованість, лінгвістична й хронологічна однорідність, анотованість і повнота текстів. Призначений для укладання словника колокацій українського юридичного дискурсу підкорпус визначається фіксованим обсягом у 1.157 млн. слововживань, що дозволяє оптимізувати зусилля й детермінувати поріг відображення досліджуваної предметної галузі - офіційного стилю.

Вибір за документальне джерело “Зібрання законодавства України” [25] зумовлений максимальною насиченістю колокацій у текстах офіційних документів. Укладений підкорпус є одномовним, однорідним в аспекті функціонального стилю і збалансованим за діапазоном 43 жанрових різновидів. Кожен із жанрів презентовано найбільшими за обсягом (від 3.014 до 44.008 тис. слововживань) повними текстами документів, що забезпечує їх структурну, лексичну й синтаксичну завершеність. З метою дотримання принципу хронологічної однорідності й максимального представлення сучасного українського юридичного дискурсу хронологічні рамки підкорпусу обмежено 1991 роком за екстралінгвістичних причин.

Укладання корпусного словника колокацій передбачає формування реєстру за статистичними ознаками: при цьому колокація визначається як комбінація слів, зафіксована в тексті обсягом в 1 млн. слововживань принаймні двічі [10, р. 104]. Підкорпус інтегровано в інформаційно- пошукову систему Корпусу текстів української мови й забезпечено набором програм морфологічної, синтаксичної і лексико-семантичної розмітки, використовуваних для виявлення й встановлення ознак колокацій. Дотримання експліцитних та імпліцитних принципів корпусної побудови й теоретичних засад дослідження колокацій дозволяють класифікувати розроблений підкорпус законодавчих текстів як репрезентативний для укладання корпусного словника колокацій українського юридичного дискурсу.

Здійснена розвідка дозволяє дійти таких висновків: 1. Процес укладання корпусного словника слід розглядати як здійснення корпусного дослідження. 2. В основу укладання різних типів корпусних словників покладено загальні теоретичні принципи, сформульовані у вигляді пріоритетів виконання корпусного дослідження. 3. Основні концептуальні засади укладання корпусних словників становлять пріоритети: емпіричного підходу, використання автентичних текстів лексикографічного корпусу, вивчення функціонування мови через опис кількісних моделей, концепції функціонального структуралізму в дослідженні семантики, визнання колокації основною одиницею значення й уживання. 4. Дотримання встановлених теоретичних принципів забезпечує об'єктивність результатів лексикографічного аналізу на представницькій емпіричній базі.

Література

Гаврилова Ю. В. Лондонская лингвистическая школа и концепция Джона Руперта Фёрса : автореф. дисс. ... канд. филол. наук : спец. 10.02.19 “Теория языка” / Ю. В. Гаврилова. - М., 2010. - 21 с.

Кобрицов Б. П. Снятие лексико-семантической омонимии в новостных и газетно-журнальных текстах : поверхностные фильтры и статистическая оценка / Б. П. Кобрицов, О. Н. Ляшевская, О. Ю. Шеманаева // Интернет-математика 2005. Автоматическая обработка веб-данных. - М. : [б. и.], 2005. - С. 38-57.

Лендау С. І. Словники : мистецтво та ремесло лексикографії / Сидні І. Лендау; [пер. з англ.]. -K. : К. І. С., 2012. - 480 с.

Перебийніс В. І. Частота мовних одиниць як відображення їхніх системних характеристик / В. І. Перебийніс, Т. В. Бобкова // Проблеми загального, германського та слов'янського мовознавства: [зб. наук. праць]. - Чернівці : Книги - ХХІ, 2008. -С. 446-453.

Плунгян В. А. Корпус как инструмент и как идеология: о некоторых уроках современной корпусной лингвистики / В. А. Плунгян // Русский язык в научном освещении. - 2008. - № 2 (16). - С. 7-20.

Хохлова М. В. Исследование лексико-синтаксической сочетаемости в русаком языке с помощью статистических методов (на базе корпусов текстов) : автореф. дисс. ... канд. филол. наук : спец. 10.02.21 “Прикладная и математическая лингвистика” / М. В. Хохлова. - СПб., 2010. - 26 с.

Ягунова Е. В. Исследование контекстной предсказуемости единиц текста с помощью корпусних ресурсов / Е. В. Ягунова // Труды междунар. конф. “Корпусная лингвистика - 2008” : 6-10 окт. 2008 г., Санкт-Петербург. - СПб., 2008. - С. 396-403.

Размещено на Allbest.ru


Подобные документы

  • Лексикографія як розділ мовознавства, пов’язаний зі створенням словників та опрацюванням їх теоретичних засад. Староукраїнська лексикографія. Українська лексикографія з кінця XVIII ст. по ХХ ст. Етапи розвитку концепції і принципів укладання словників.

    статья [25,8 K], добавлен 14.02.2010

  • Омофразія в системі рівнойменності мовних одиниць. Утворення омофраз в результаті фразеологізації словосполучень в англомовній військовій лексиці. Усунення омофразії у текстах оригіналу. Структура і принципи укладання загального словника омофраз.

    курсовая работа [183,6 K], добавлен 13.12.2011

  • Класифікація документів та вимоги до їх укладання. Документація особового складу. Вирази, характерні для листів-співчуття. Правила укладання приватного листа. Формалізовані документи багатонаціональних штабів. Основні правила укладання меморандумів.

    учебное пособие [346,1 K], добавлен 21.11.2012

  • Вживання іншомовних запозичуваних слів в українській мові та витоки їх появи. Короткий термінологічний словничок. Укладання перекладних багатомовних словників. Проблеми української термінології, основні напрями дослідження та розвитку термінознавства.

    лекция [28,4 K], добавлен 17.05.2009

  • Фахова мова - сукупність усіх мовних засобів, які використовують у конкретній сфері науки, щоб забезпечити взаєморозуміння комунікантів. Точність терміна - адекватне співвідношення висловів до предметів, станів і процесів галузей людської діяльності.

    статья [19,4 K], добавлен 19.09.2017

  • Задачі та історія тлумачного словника. Переваги електронних словників. Характеристика найпопулярніших тлумачних словників англійської мови та механізм роботи з ними. Якість тлумачень лексики: загальновживаної, сленгової, спеціалізованої та неологізмів.

    курсовая работа [1,9 M], добавлен 07.10.2009

  • Стан мовознавства в Європі епохи середньовіччя, Відродження. Формування національних мов і закріплення їх в літературі. Укладання національних емпіричних граматик та словників. Звуконаслідувальна теорія походження мови. Лексикографія у східних слов'ян.

    реферат [47,0 K], добавлен 20.07.2009

  • Поняття теоретичної і практичної лексикографії та напрямки її розвитку. Принципи класифікації словників, що вміщують інформацію про речі, явища, поняття та слова. Різниця між енциклопедичними та лінгвістичними (одномовними й багатомовними) словниками.

    реферат [27,9 K], добавлен 28.03.2014

  • Офіційно-діловий стиль у документації. Правила оформлення. Вимоги та правила укладання листів, що не потребують відповіді. Написання цифр та символів у ділових паперах. Протоколи. Положення. Вказівки, розпорядження. Укладання договорів. Накази.

    реферат [876,5 K], добавлен 05.02.2008

  • Політичний дискурс у сучасній лінгвістиці, характер новоутворень у ньому. Комунікативний і прагматичний аспект перекладу текстів політичного дискурсу. Складності під час перекладу рекламного дискурсу на українську мову і намітити шляхи їх усунення.

    курсовая работа [52,5 K], добавлен 19.10.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.