Корпус сучасної американської англійської мови як інструмент лінгвістичних досліджень

Розгляд основних функцій Корпусу сучасної американської англійської мови для лінгвістичних досліджень на прикладі прикметників "quiet" і "peaceful". Необхідність вивчення контекстів, частотності вживання слів, словосполучень, граматичних конструкцій.

Рубрика Иностранные языки и языкознание
Вид статья
Язык украинский
Дата добавления 29.09.2023
Размер файла 3,0 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Національний університет «Львівська політехніка»

КОРПУС СУЧАСНОЇ АМЕРИКАНСЬКОЇ АНГЛІЙСЬКОЇ МОВИ ЯК ІНСТРУМЕНТ ЛІНГВІСТИЧНИХ ДОСЛІДЖЕНЬ

Бігдай М.О.,

кандидат філологічних наук, асистент

кафедри прикладної лінгвістики

Анотація

Мета статті - описати основні функції Корпусу сучасної американської англійської мови (Corpus of Contemporary American English, COCA) для лінгвістичних досліджень на прикладі прикметників `quiet' і `peaceful'.

Незважаючи на те, що на сьогоднішній день існує багато корпусних студій у різних країн світу, проте в українському мовознавстві Корпус сучасної американської англійської мови як інструмент лінгвістичних досліджень не був достатньо досліджений. Недостатність опису цієї проблематики зумовлює актуальність нашої розвідки.

Окрім цього, актуальність теми зумовлена розвитком корпусної лінгвістики, різноманіттям корпусів, що постійно з'являються і визначається необхідністю проведення досліджень на основі американської англійської мови на великому масиві даних.

Корпус сучасної американської англійської мови містить близько 1 млрд слів з 1990 до 2019 років. Особливістю цього корпусу є рівномірний жанровий розподіл між такими жанрами, як: розмовні тексти, художня література, популярні журнали, газети, академічні журнали, телебачення/субтитри фільмів, блоги, веб-сторінки. У кожному жанрі приблизно 120-130 мільйонів слів.

Проаналізувавши словосполучення `quiet - іменник' та `peaceful - той самий іменник', доходимо до висновку, що перші трапляються в корпусі COCA набагато частіше (загальна частота 3.50 на противагу 0.29).

Корпус сучасної американської англійської мови може слугувати матеріалом для проведення різноманітних лексикологічних досліджень для американської англійської мови, а саме: вивчення контекстів, частотності вживання слів, словосполучень, граматичних конструкцій, багатозначності, омонімії, синонімії, антонімії, історичних змін в словниковому складі мови. Перспективу подальших розвідок вбачаємо у дослідженні інших частин мови на основі даних цього корпусу.

Ключові слова: корпусна лінгвістика, корпус, статичний корпус, динамічний корпус, американська англійська мова.

Annotation

американський англійський мова прикметник

CORPUS OF CONTEMPORARY AMERICAN ENGLISH AS A TOOL OF LINGUISTIC RESEARCH

The purpose of the article is to describe the main functions of the Corpus of Contemporary American English (COCA) for linguistic research using the adjectives `quiet' and `peaceful' as an example.

Despite the fact that today there are many corpus studies in different countries of the world, the Corpus of Contemporary American English as a tool of linguistic research has not been sufficiently studied in Ukrainian linguistics. The lack of the description of this issue determines the relevance of our investigation.

In addition, the topicality of the theme is determined by the development of corpus linguistics, the variety of corpora that constantly appear and is determined by the need to conduct research based on American English on a large array of data.

The Corpus of Contemporary American English contains about 1 billion words from 1990 to 2019. A peculiarity of this corpus is an even genre distribution among such genres as: spoken, fiction, popular magazines, newspapers, academic journals, television/film subtitles, blogs, web pages. Each genre has approximately 120-130 million words.

After analyzing the collocations `quiet - noun' and `peaceful - same noun', we came to the conclusion that the former occurs much more often in the COCA corpus (total frequency 3.50 against 0.29).

The Corpus of Contemporary American English can serve as material for conducting various lexicological studies for the American English language, namely: the study of contexts, frequency of use of words, collocations, grammatical constructions, polysemy, homonymy, synonymy, antonymy, historical changes in the vocabulary of the language. We see the prospect of further investigations in the study of other parts of the language based on the data of this corpus.

Key words: corpus linguistics, corpus, static corpus, dynamic corpus, American English.

Постановка проблеми

Корпусна лінгвістика є одним із пріоритетних напрямків сучасної лінгвістичної науки. Розвиток корпусної лінгвістики тісно пов'язаний із розвитком комп'ютерних технологій та інформатизацією. Корпусні студії дозволяють максимально об'єктивно вивчати різноманітні мовні явища, оскільки відбуваються на матеріалах текстів природної мови в умовах реального функціонування.

Актуальність теми зумовлена розвитком корпусної лінгвістики і визначається необхідністю проведення досліджень на основі американської англійської мови на великому масиві даних.

Аналіз останніх досліджень і публікацій

На сьогоднішній час здійснюється велика кількість досліджень у галузі корпусної лінгвістики. Корпусні студії проводяться дослідниками багатьох країн світу (О. М. Демська-Кульчицька [1, 2, 3], В. В Жуковська [4], Є. А. Карпіловська [5], М. О. Шведова [6], В. А. Широков [7], D. Biber [8], W. Francis [9], G. Leech [10], J. Sinclair [11] та багато інших).

Термін «корпусна лінгвістика» вперше згаданий у 1983 році у збірнику наукових праць «Corpus Linguistics: Recent Developments in the Use of Computer Corpora in English Language Research» [4, с. 8].

Завданням корпусної лінгвістики є розробити теоретичні засади і практичні прийоми побудови, машинного опрацювання та експлуатації лінгвальних даних у формі корпусу текстів [1, c. 45].

Корпусна лінгвістика має на меті розв'язання таких проблем:

спосіб представлення та збереження мовленнєвих одиниць;

вимоги до корпусу текстів із боку укладачів і користувачів;

специфіка програмного забезпечення корпусів;

принципи добору параметрів проблемної галузі;

методи структурування корпусу;

транскрипція для текстів усного мовлення;

мультимедійна підтримка для корпусів усного мовлення;

розробка систем пошуку у корпусі;

кодування дескрипцій одиниць збереження тощо [12, c. 669].

За словами О. О. Селіванової «головним поняттям корпусної лінгвістики є корпус мовленнєвої реалізації мови, що кваліфікується як сформована за певними вимогами вибірка мовленнєвого матеріалу, яку можна використовувати для опису й дослідження мови як системи» [12, c. 668].

Під корпусом розуміють корпус «машиночитане, стандартно організоване зібрання репрезентативних для певної мови, діалекту або іншої підмножин(и) мов(и) писемних або усних текстів, призначених для лінгвістичного аналізу й опису, відібраних і впорядкованих згідно з експліцитними екстра- та інтралінгвальними критеріями» [2, с. 53].

До основних ознак корпусу відносять репрезентативність, автентичність, відібраність, збалансованість, машиночинатість:

Репрезентативність полягає в тому, наскільки в корпусі відображені всі властивості певної предметної галузі. Предметна галузь містить феномени, що підлягають лінгвістичному описові.

Автентичність передбачає відбір текстів усного або писемного мовлення, записаних у процесі реальної комунікації.

Відібраність передбачає застосування конкретних правил відбору даних, що відповідають певній стратегії побудови корпусу в залежності від його типу і мети створення.

Збалансованість полягає у пропорційній кількості текстів у корпусах.

Машиночитаність полягає у тому, що сучасний текстовий корпус обов'язково має бути в електронній формі, повинен мати кодування первинних корпусних даних та лінгвістичну анотацію [3, с. 102-103].

Постановка завдання. Мета статті - описати основні функції Корпусу сучасної американської англійської мови (Corpus of Contemporary American English, COCA) для лінгвістичних досліджень на прикладі прикметників `quiet' і `peaceful'.

Виклад основного матеріалу

На сьогоднішньому етапі свого існування комп'ютерні корпуси застосовують як в лінгвістичних, так і в нелінгвістичних галузях:

Лінгвісти-теоретики - у якості експериментальної бази для перевірки гіпотез і доведення своїх теорій.

Прикладні лінгвісти (викладачі, перекладачі) для навчання іноземній мові і розв'язання своїх професійних завдань.

Комп'ютерні лінгвісти для створення комп'ютерних моделей мови на основі виокремлених статистичних й лінгвістичних закономірностей.

У соціолінгвістичних дослідженнях для вивчення мовного розмаїття (соціолектів).

Інші фахівці з мови (літературознавці, редактори) також звертаються до даних корпусу.

У літературознавстві, перекладознавстві, судовій лінгвістиці для аналізу дискурсу.

Історики, соціологи для дослідження таких параметри текстів, як період, автор або жанр.

Для розробки й налаштування автоматизованих систем з машинного перекладу, розпізнавання мовлення, інформаційного пошуку [4, с. 105-106].

Корпус сучасної американської англійської мови містить близько 1 млрд слів з 1990 до 2019 років. Особливістю цього корпусу є рівномірний жанровий розподіл між такими жанрами, як: розмовні тексти, художня література, популярні журнали, газети, академічні журнали, телебачення/субтитри фільмів, блоги, веб-сторінки. У кожному жанрі приблизно 120-130 мільйонів слів.

Статичний корпус засвідчує стан мови на певному синхронному зрізі, а динамічний корпус постійно оновлюється, що дозволяє відстежувати зміни у мові [4, с. 62]. Корпус сучасної американської англійської мови належить саме до динамічного типу.

Розглянемо можливості корпусу COCA на прикладі прикметників `quiet' та `peaceful' та словосполучень з ними.

Існує шість основних способів пошуку в корпусі [13]:

По-перше, можна шукати конкретні фрази та за певним шаблоном. Наприклад: got VERB-ed, BUY По-п'яте, можна вводити цілі тексти, а потім використовувати дані корпусу для отримання детальної інформації про слова та фрази в тексті.

Можна шукати та досліджувати випадкові слова, а також переглянути випадково вибрані «Слова дня».

У корпусі COCA можна також переглядати частотність слів, фраз і граматичних конструкцій за різними жанрами, як на Рис. 2, зокрема досліджувати, чи вони належать до неформальних жанрів (наприклад, субтитри), більш офіційних жанрів (наприклад, академічні статті) або десь посередині (наприклад, журнали та газети).

Окрім цього, у корпусі COCA можна бачити історичні дані за останні 30 років, як на Рис. 3, а також дані детально для кожного діапазону років.

На Рис. 4. бачимо у контексті словосполучення `quiet time' із зазначенням жанру, назви та року випуску джерела.

Однією з найцікавіших функцій у корпусі COCA є порівняння двох словосполучень, наприклад, коли потрібно дослідити слова синоніми. ADJ NOUN, різноманітні фразеологічні дієслова.

По-друге, можна переглядати список із 60 000 найпопулярніших слів у корпусі, включаючи пошук за формою слова, частиною мови і навіть за значенням чи вимовою. Це особливо корисно для тих, хто вивчає мову та для викладачів.

По-третє, для тих, хто цікавиться академічною англійською, можна переглядати детальні записи для кожного з 3000 слів Академічного списку слів (Academic Vocabulary List), укладеного у 2013 році.

По-четверте, можна здійснювати пошук за окремим словом і переглядати словосполучення, кластери та споріднені слова для кожного з цих слів.

Окрім цього, як бачимо на Рис. 1, у корпусі COCA можна отримати велику кількість інформації про слово, включаючи інформацію про частотність, визначення, переклад, покликання на аудіо, зображення та відео, а також синоніми, пов'язані словоформи, словосполучення, кластери та конкорданси / слова в контексті (KWIC).

Рис. 1. Сторінка з детальною інформацією про слово `quiet' у корпусі COCA

Рис. 2 Частотний розподіл слова `quiet' у різних жанрах у корпусі COCA

Рис. 3 Частотний розподіл слова `quiet' у різних роках у корпусі COCA

а Рис. 5 зображено таке порівняння для словосполучень `quiet - іменник' та `peaceful - іменник'. Обидві таблиці посортовані за частотою появи кожного іменника з досліджуваними прикметниками `quiet' і `peaceful'. Частота словосполучення `quiet time' - 620, а `peaceful time' - 50. Співвідношення частот цих словосполучень (W1/ W2) - 12.4. На другому місці за частотою є словосполучення `quiet place' (508), `peaceful place' (208) та їхнє співвідношення (W1/W2) - 2.4. І третє словосполучення `quiet life' з частотою 323 та `peaceful life' з частотою 165 та співвідношенням (W1/W2) - 2.0. Отже, словосполучення `quiet - іменник' (загальна частота 3.50) трапляються в корпусі COCA набагато частіше, ніж `peaceful - той самий іменник' (загальна частота 0.29).

Рис. 4 Словосполучення `quiet time' у контексті у різних стилях у корпусі COCA

Рис. 5 Порівняння словосполучень `quiet - іменник' та `peaceful - іменник' у корпусі COCA (сортування за частотою)

Висновки

Отже, Корпус сучасної американської англійської мови - це унікальний, великий, динамічний корпус, який постійно оновлюється і має рівномірний жанровий розподіл текстів. Цей корпус може слугувати матеріалом для проведення різноманітних лексикологічних досліджень для американської англійської мови, а саме: вивчення контекстів, частотності вживання слів, словосполучень, граматичних конмови. Перспективу подальших розвідок вбачаємо струкцій, багатозначності, омонімії, синонімії, у дослідженні інших частин мови на основі даних антонімії, історичних змін в словниковому складі цього корпусу.

Список використаних джерел

1. Демська-Кульчицька О. М. Деякі аспекти корпусної лінгвістики. Українська мова: наук.-теорет. журн. 2005. № 1. С. 44-51.

2. Демська-Кульчицька О. М. Основи національного корпусу української мови. Київ, 2005. 218 с.

3. Демська-Кульчицька О. М. Репрезентативність як ознака текстового корпусу. Українська мова. 2005. № 3. С.100-107.

4. Жуковська В. В. Вступ до корпусної лінгвістики. Житомир: Вид-во ЖДУ ім. І. Франка, 2013. 142 с.

5. Карпіловська Є. А. Вступ до прикладної лінгвістики: комп'ютерна лінгвістика. Донецьк, 2006. 188 с.

6. Шведова. М. О. Генеральний регіонально анотований корпус української мови (ГРАК) як інструмент дослідження лексико-граматичної варіативності. Людина. Комп'ютер. Комунікація: Збірник наукових праць, 2019. С.145-148.

7. Широков В. А., Бугаков О. В., Грязнухіна Т. О. та ін. Корпусна лінгвістика. Київ: Довіра, 2005. 471 с.

8. Biber D. Using corpus-based methods to investigate grammar and use: some case studies on the use of verbs in English. 2001. P. 101-115.

9. Francis W. Language Corpora. Berlin -New York: Mouton de Gruyter, 1991. P.17-35.

10. Leech G. New resources, or just better old ones? Corpus Linguistics and the Web. Amsterdam: Rodopi, 2007. P 134-149.

11. Sinclair J. Corpus, Concordance, Collocation Oxford: Oxford University Press, 1991. 170 p.

12. Селіванова О. О. Корпусна лінгвістика. Сучасна лінгвістика: напрями та проблеми. Полтава, 2008. 712 с.

13. The Corpus of Contemporary American English. URL: https://www.english-corpora.org/coca/

Размещено на Allbest.ru


Подобные документы

  • Дослідження процесу становлення мовознавства для більш точного розуміння лінгвістичної ситуації у світі. Деривація як провідна традиція мовотворення англійської мови. Способи англійського словотвору. Приклади скорочень та абревіацій англійської мови.

    курсовая работа [71,5 K], добавлен 13.04.2015

  • Культура і мова. Характеристика й умови розвитку різновидів американських лінгвістичних субкультур. Аналіз лінгвістичних субкультур Великої Британії та їхнє місце в культурному розвитку країни. Аналіз однорідності регіональних варіантів англійської мови.

    курсовая работа [156,2 K], добавлен 17.01.2011

  • Визначення додатку та шляхи його вираження в мові художнього тексту. Особливості перекладу додатку з англійської мови на прикладі роману Ф.Г. Бернет "Таємничий сад". Аналіз частотності вживання перекладацьких прийомів при перекладі додатку в романі.

    курсовая работа [47,5 K], добавлен 07.12.2010

  • Місце англійської мови у загальній мовній системі світу. Зв’язок англійської мови з французькою. Заміщення латинської мови англійськими еквівалентами. Становлення англійської мови як національної. Функціонування англійської мови в різних країнах світу.

    курсовая работа [51,9 K], добавлен 30.11.2015

  • Характеристика запозиченої лексики, її місце у складі сучасної української мови. Особливості вивчення пристосування німецькомовних лексичних запозичень до системи мови-рецептора. Характеристика іншомовних запозичень з соціально-політичної сфери.

    курсовая работа [139,6 K], добавлен 08.04.2011

  • Специфіка утворення складних лексичних одиниць; види складних прикметників англійської та української мови за написанням та компонентами; порівняльна характеристика. Структурний аналіз досліджуваних одиниць за складниками утворених використаних слів.

    курсовая работа [68,1 K], добавлен 27.06.2012

  • Вивчення історії становлення і розвитку англійської мови в Індії. Дослідження екстралінгвальних факторів, які мали вирішальне значення для формування англомовної картини світу в Індії. Аналіз лексичних та граматичних особливостей досліджуваної мови.

    дипломная работа [673,2 K], добавлен 24.11.2010

  • Словотвір як лінгвістична дисципліна, предмет її досліджень. Класифікація способів словотвору. Словоскладення основ різних частин мови в сучасній англійській мові. Лінійні та нелінійні моделі словотвору основ усіх частин мови. Сутність поняття "реверсія".

    курсовая работа [71,7 K], добавлен 29.01.2010

  • Розгляд проблеми передачі функціональних значень синтаксичних структур, де придаткові виступають в ролі одного з членів речення. Поняття емфази, особливості її використання. Аналіз перекладу емфатичних конструкцій англійської мови, можливі труднощі.

    курсовая работа [30,6 K], добавлен 23.09.2013

  • Природа та статус вигуків взагалі і англійської мови зокрема, їхні структурно-граматичні риси та взаємодія з іншими частинами мови. Особливості вигуків на рівні мовлення. Вигуки з конвенційно- та контекстуально-обумовленим прагматичним значенням.

    дипломная работа [142,4 K], добавлен 20.12.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.