Мультилінгвальний корпус і його програмне забезпечення для дослідження Європеїстики

Використання комп’ютерного програмного забезпечення в мультилінгвальному корпусі для дослідження Європеїстики. Методика роботи із функціоналом комп’ютерних програм AntConc, WordSmith, WordList, MonoConc Pro, CATMA й KORP; роль корпусної лінгвостатистики.

Рубрика Иностранные языки и языкознание
Вид статья
Язык украинский
Дата добавления 14.11.2023
Размер файла 3,7 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.Allbest.Ru/

Київський національний лінгвістичний університет, Україна

Мультилінгвальний корпус і його програмне забезпечення для дослідження Європеїстики

А.В. Корольова

Анотація

У статті запропонована методика роботи із функціоналом комп'ютерних програм AntConc, WordSmith, WordList, MonoConc Pro, CATMA й KORP, які можна використовувати для дослідження текстів мультилінгвального корпусу за тематикою Європеїстики. Розглянуто різні дискусійні погляди зарубіжних учених - представників корпусної лінгвістики - щодо змісту поняття мультилінгвальний корпус. Сформульовано робоче визначення мультилінгвального зіставного корпусу, який належить до комбінованого типу тематично орієнтованих різномовних корпусів текстів, об'єднаних у підкорпуси, з їхнім перекладом іншими мовами (або з можливістю застосування комп'ютерних програм для виконання перекладу текстів).

Визначено роль корпусної лінгвостатистики, якою оснащені проаналізовані комп'ютерні програми і яка дозволяє здійснювати обчислення частоти вживання слів чи колокацій, будувати діаграми частоти вживання слова / колокації в підкорпусах текстів тощо.

Зроблено попередній висновок про те, що комп'ютерний інструментарій корпус-менеджерів AntConc, WordSmith, WordList, MonoConc Pro, CATMA й KORP надає змогу конструювати як окремі Key Word in Context (KWIC), так і конкордансні списки пошукових елементів за тематикою Європеїстики; розмежовувати відтінки того чи іншого контекстуального значення пошукових одиниць в їхній найбільш імовірній лівобічній та правобічній валентності в різних мовах; побачити результати статистичної обробки інформації з корпусних тегів; зберігати та роздруковувати результати; підтримувати різні формати текстових даних (txt, doc, rtf, html й ін.).

Ключові слова: мультилінгвальний корпус, комбінований тип корпусу текстів, Європеїстика, комп'ютерні програми, корпус-менеджери.

Abstract

The paper proposes the method of working with the functionality of the computer programs AntConc, WordSmith, WordList, MonoConc Pro, CATMA, and KORP, which can be used to study the multilingual corpus texts on the topic of European Studies. Various debatable views of foreign scientists - representatives of Corpus Linguistics - regarding the content of the concept of the multilingual corpus have been considered. Besides, there has been formulated a working definition of the multilingual comparative corpus that belongs to the combined type of thematically oriented corpora of texts in different languages, grouped into sub-corpora, with their translation into other languages (or with the possibility to use computer programs to translate texts).

The paper also defines the role of statistics in Corpus Linguistics, which deals with the analyzed computer programs and allows to calculate the frequency of words or collocations use, construct diagrams of the frequency of word or collocation use in sub-corpora of texts, etc. thus there has been made a preliminary conclusion that the computer toolkit of the corpus managers AntConc, WordSmith, WordList, MonoConc Pro, CATMA and KORP makes it possible to construct both individual Key Word in Context (KWIC) and concordance lists of search elements on the subject of European Studies; distinguish between the functionality of one or another contextual meaning of search units in their most probable left-handed and right-handed valency in different languages; see the results of statistical processing of the information from corpus tags; save and print the results; support different formats of text data (txt, doc, rtf, html, etc.).

Keywords: multilingual corpus, combined type of text corpus, European Studies, computer programs, corpus managers.

Вступ

Сучасні дослідження в галузі корпусної лінгвістики (О. Андрушенко, В.В. Жуковська, І.В. Мейзерська, В.А. Широков, A.M. McEnery, A. Kilgariff, S.P. Rauf, P. Resnik & N.A. Smith та ін.) визначають корпус текстів не суто як продукт технологічного прогресу чи зручний інструмент для пошуку необхідної інформації, а насамперед як нову ідеологію у вивченні мов, що орієнтує дослідника на текст чи ширше - дискурс, які становлять новий об'єкт теоретико-лінгвістичної рефлексії.

Робота з корпусом текстів допомогла відкрити можливості не лише для більш швидкого й ефективного розв'язання актуальних на сьогодні лінгвістичних завдань, а й для реалізації більш амбітних цілей, принципово нових, які раніше були надскладними для їхньої практичної реалізації через великий обсяг інформації, що потребувала селекції й подальшого оброблення. Одним із таких завдань є необхідність узагальнення наявних результатів дослідження мікроеволюції кожної мови протягом одного-двох століть, які пов'язані:

1) з малопомітними, та все ж таки змінами в правилах поєднання слів і комбінацій їхніх значень;

2) зі змінами частоти вживання лексичних і граматичних варіантів різних конструкцій;

3) із фіксацією абсолютно нових явищ мови та практичного зникнення тих, що тривалий час уважалися традиційними.

Оптимальне розв'язання сформульованої проблеми стає можливим у разі залучення ресурсів (значних за обсягом колекцій текстів) мультилінгвальних / багатомовних корпусів та наявного комп'ютерного інструментарію, що дозволить технологічно забезпечити виконання вище окреслених масштабних завдань, зокрема й діахронічних (Андрушенко, 2022; Жуковська, 2013). Для доведення цієї гіпотези розглянемо функціонал комп'ютерного програмного забезпечення і застосуємо його інструменти для опрацювання текстів мультилінгвального корпусу з такої тематичної сфери знання, як Європеїстика.

Вибір Європеїстики (англ. European studies), з одного боку, як галузі наукового знання, зосередженої на аналітиці процесів європейської інтеграції, а з іншого, як ресурсу наукової та медійної інформації, присвяченої висвітленню питань діяльності всіх європейських інституцій (Європейського парламенту, Європейської ради, Ради Європейського Союзу, Європейської комісії, Суду Європейського Союзу, Європейської Рахункової палати, Європейського центрального банку та ін.), зумовлений тим фактором, що обрана сфера (одна з небагатьох) сама по собі вже містить тематичну розмітку у вигляді так званих тематичних підкорпусів різномовних текстів.

Аналіз останніх досліджень і публікацій. Попередній огляд наукових праць із цього питання дає підстави припустити, що визначення дистинктивних критеріїв укладання оптимальної типології мультилінгвальних корпусів текстів перебуває в стадії розроблення.

Одним із типів мультилінгвальних корпусів є зіставні корпуси (англ. comparable corpora), створенням та вивченням яких займаються здебільшого закордонні вчені (A. McEnery, Z. Xiao, A. Kilgariff), а в Україні така практика лише починається. Основне питання, яке обговорюється в зарубіжних дослідженнях, пов'язане з визначенням принципів побудови такого типу корпусів, а також сфер їхнього призначення та використання.

У корпусно орієнтованих студіях представлені полярні погляди щодо інтерпретації поняття “зіставний корпус”, який розглядають або 1) як мономовний, або 2) як двомовний / мультилінгвальний, або 3) як паралельний.

1. До зіставних мультилінгвальних корпусів текстів (L. Bowker, J. Pearson) відносять “декілька аналогічних за будовою (структурою) підкорпусів текстів окремої тематики, які не містять текстів перекладу” (Bowker, Pearson, 2002, р. 93). Інші автори (Barzilay, Lee, 2003; Elhadad, Sutaria, 2007) цілком згодні зі своїми колегами в тому, що “зіставний корпус повинен містити текстові документи, обмежені рамками фахової мови з конкретної предметної сфери й призначені для використання членами певної соціальної групи” (Bowker, Pearson, 2002, р. 12).

Натомість із-поміж представників цього напряму не все так однозначно. Деякі фахівці (F. Zanettin, O. Culo, S. H. Schirra, S. Neumann, M. Vela та ін.) висловлюють думку про те, що один із підкорпусів має включати письмові тексти певною мовою, а інший - тексти, перекладені цією мовою, оскільки це необхідно для вивчення перекладацьких трансформацій. Тим часом інша група дослідників (B. Cartoni, L. Deleger) переконують у тому, що подібний тип корпусу повинен містити підкорпуси текстів однією мовою (англійською, французькою, польською тощо), але які презентують різні функціональні типи мовлення й різну тематику (Cartoni, Deleger, 2011).

2. До двомовних або мультилінгвальних зіставних корпусів (H. Afli, L. Barrault, H. Schwenk) відносять тексти близької тематики двома й більше мовами, метою яких є винятково зіставлення мов, а не власне переклад. Виходячи з такого розуміння, “зіставний корпус визначають як колекцію текстів аналогічної тематики різними мовами, що не містить їх переклади” (Afli, Barrault & Schwenk, 2012, р. 448).

Проте тут також панує і протилежна думка (A.M. McEnery та ін.), згідно з якою обстоюється можливість включення паралельних текстів до зіставного мультилінгвального корпусу. Зокрема С. Роф не заперечує, щоб у корпус такого типу були додані різномовні тексти, окремі фрагменти яких мали б переклади іншими мовами (Rauf, 2012).

3. Третій підхід (F. Scarpa) спостерігається в дослідженнях, які значно розширюють уявлення про межі мультилінгвальних зіставних корпусів і відповідно пропонують власні принципи для їхньої побудови. Представники цього підходу переконані, що такі корпуси повинні включати як паралельні (оригінали мовою А та їхні переклади мовою В), так і неперекладені різномовні тексти близької тематики (Scarpa, 2010, р. 124). Знову ж таки з приводу такої позиції дискусія до кінця не вичерпана. Наприклад, М. Гідер категорично не згоден включати до такого типу корпусів тексти без перекладу певною мовою. Він уважає, що поняття зіставного корпусу поширюється лише на вирівняні (перекладені) корпуси текстів (Guidere, 2010, р. 95).

І хоча дискусія щодо завершення укладання типології зіставних корпусів текстів ще триває, проте попередньо мультилінгвальні корпуси можна об'єднати в три типи:

1) одномовні корпуси, в яких представлені тексти оригіналу для спеціальних цілей та їхні тлумачення цією ж мовою (наприклад, підкорпус текстів англійською мовою, підкорпус текстів французькою мовою тощо);

2) двомовні чи мультилінгвальні корпуси, в яких представлені різномовні тексти оригіналів близької тематики для зіставного аналізу;

3) мультилінгвальні корпуси, в яких представлені тексти оригіналу та їхній переклад, що отримали назву паралельних корпусів.

Виходячи з представленої типології, можна припустити, що до різновидів мультилінгвальних корпусів належать:

- так звані одномовні корпуси з підкорпусами текстів для спеціальних цілей конкретними мовами;

- зіставні мультилінгвальні корпуси, що містять текстові масиви близької тематики двома і більше мовами, що належать до одного функціонального стилю, дискурсу тощо;

- паралельні (вирівняні) корпуси, що включають оригінальні тексти та їхні переклади різними мовами і створюються для вивчення різних аспектів перекладу.

У корпусних студіях пропонують виділити ще один тип зіставних мультилінгвальних корпусів - так звані комбіновані мультилінгвальні корпуси текстів. На нашу думку, комбінований мультилінгвальний корпус повинен містити колекцію підкорпусів різномовних текстів тієї самої тематичної сфери та їхні переклади. У цьому випадку такою тематичною сферою є Європеїстика.

Зважаючи на сказане, можемо сформулювати робоче визначення мультилігвального зіставного корпусу текстів як комбінованого типу тематично орієнтованого корпусу, що складається з оригінальних різномовних текстів близької тематики, об'єднаних у підкорпуси, з їхнім перекладом іншою або іншими мовами (або ж із можливістю застосування комп'ютерного програмного забезпечення для перекладу текстів).

Мета статті - теоретично обґрунтувати і практично продемонструвати ефективність використання в мультилінгвальному корпусі комп'ютерного програмного забезпечення для дослідження Європеїстики.

Методологія проведення дослідження з викладом та обговоренням основних наукових результатів. Перш ніж розглядати потенціал програмного забезпечення для його використання в мультилінгвальному корпусі, слід детальніше розкрити характеристики цього типу корпусу.

Оскільки запропоноване вище робоче визначення мультилінгвального корпусу загалом відповідає критеріям як зіставного, так і паралельного корпусів, то вочевидь слід зупинитися на характеристиках комбінованого мультилінгвального корпусу текстів, ресурси якого представляють колекцію текстів із тематикою Європеїстика.

Мультилінгвальний тематично орієнтований корпус комбінованого типу має кілька унікальних властивостей, що відрізняють його від інших типів зіставних корпусів. До таких властивостей варто віднести:

а) багатомовність;

б) паралельність;

в) тематична об'єднаність;

г) письмовий вид сучасних текстів (медійних та наукових).

Головні характеристики корпусу, до яких належать багатомовність і паралельність, передбачають наявність у його ресурсній базі оригінальних текстів різними мовами з їхніми відповідними перекладами іншими мовами (або з можливістю їхнього машинного перекладу). Наступні характеристики - це тематична медійно-дискурсивна та наукова спрямованість, пов'язана зі сферою Європеїстики, а також письмові види текстів. У корпус такого типу можуть бути включені як повноформатні тексти, так і їхні фрагменти.

Відповідно до завдань і специфіки будь-якого корпусу, у цьому випадку і комбінованого мультилінгвального корпусу, для їхньої реалізації обирається як наявне програмне забезпечення, так і розробляються цільові корпусні програми та їхній індивідуальний інструментарій.

Наразі найвідомішими і найпопулярнішими є комп'ютерні програми AntConc, WordSmith, WordList, MonoConc Pro, CATMA й KORP, які термінологічно називають ще корпусними менеджерами. Деякі з цих програм можуть виконувати функції корпусних інструментів, наприклад, WordList. Крім цих програм, використовують інструменти й інших програмних продуктів, розроблених для виконання різних етапів корпусного аналізу.

Початковий етап методики роботи з корпусом передбачає аналіз корпусних менеджерів (програм) та принципів побудови конкордансів, що надають різні можливості для отримання необхідної інформації з корпусу.

Корпусний менеджер - це спеціальний пошуковий інструмент, який використовує програмні засоби для пошуку даних у корпусі, отримання статистичної інформації та надання результатів користувачеві у вигляді горизонтальних рядків із пошуковим елементом посередині.

Для опрацювання корпусів першого порядку використовують зазвичай корпус-менеджер (або комп'ютерну програму) AntConc, яка є найбільш доступною комп'ютерною програмою та найбільш затребуваною користувачами. Вона підтримується на будь-якому комп'ютері, оснащеному операційною системою Microsoft Windows.

AntConc містить низку інструментів, до яких можна отримати доступ, натиснувши клавішу табуляції в меню інструментів або використовуючи функціональні клавіші F1-F7. Це - KWIC; Plot (відображає наявність пошукових елементів у тексті у вигляді штрих-коду і надає можливість візуально оцінити, як часто і в якій частині тексту трапляється потрібний елемент); File View; Clusters; N-Grams; Collocate; Keyword; Word; Wordcloud. Методологію роботи з программою AntConc для дослідження ключових слів із семантикою резилентності розроблено у праці Я.В. Капранова (Kapranov, 2022, рр. 22-32).

Для дослідження Європеїстики можна використовувати найбільш ефективний інструмент цієї програми - Concordance (Johns, 1991), що представляє результати пошуку потрібного елемента з його лівобічними та правобічними валентними зв'язками шляхом оброблення великих масивів текстів. Після відповідної команди Concordance представляє задану користувачем кількість фрагментів текстів, що містять пошукові одиниці. На основі отриманих даних можна зробити висновок про контекстне вживання заданої одиниці у конкретному дискурсивному просторі.

Наприклад, до колекції текстів мультилінгвального корпусу був завантажений текст англійською мовою “Consolidated Version of the Treaty on the Functioning of the European Union” для пошуку в ньому інформації, пов'язаної із завданнями і функціями Європейського Парламенту (European Parliament) як законодавчого органу ЄС. Для пошуку в цьому тексті одиниці European Parliament був задіяний інструмент Concordance програми AntConc, що дав змогу побачити її контекстне вживання - лівобічний контекст, з якого був зрозумілий зміст цілого тексту, де розкривалися завдання Європейського Парламенту та його повноваження як органу ЄС (Рис. 1).

Генерування рядків конкордансу, або його лінгвістична наочність, досягається за допомогою баз даних (Dаta-driven approach) і представляє фрагменти текстів корпусу з пошуковою одиницею (O'Keeffe et al., 2007).

Прийом вертикального прочитання рядків конкордансу надає змогу скласти тематичний профіль пошукової одиниці в заданому тексті чи всьому підкопусі або корпусі.

Окрім заданого тексту, конкорданс може опрацювати й інші тексти підкорпусу European Parliament мультилінгвального корпусу іншими мовами.

Рис. 1. Concordance програми AntConc для візуалізації пошукової одиниці European Parliament у тексті “Consolidated Version of the Treaty on the Functioning of the European Union” мультилінгвального корпусу

У цьому випадку користувач корпусу та корпусної програми фактично обробляє за невеликий проміжок часу великий масив інформації певної тематики одночасно, фіксуючи важливі для виконання власного дослідницького завдання особливості контекстного вживання пошукових елементів. Користувач за допомогою корпусу формує та вдосконалює навички корпусного аналізу в процесі оволодіння функціоналом корпусних інструментів.

Розглянемо ще одну, теж ефективну, комп'ютерну програму WordSmith Tools, яка створює конкорданс пошукового елемента після завантаження у вікно Concord того ж файлу тексту англійською мовою “Consolidated Version of the Treaty on the Functioning of the European Union”, конвертованого з формату pdf у формат txt. Після здійснення цієї операції на запит іншого пошукового елемента European Central Bank отримано її конкорданс.

Рис. 2. Конкорданс програми WordSmith Tools для візуалізації пошукового елемента European Central Bank у тексті “Consolidated Version of the Treaty on the Functioning of the European Union” мультилінгвального корпусу

комп'ютерний програмний корпусний мультилінгвальний європеїстика

У створеному програмою конкордансі маркуємо необхідний для подальшого дослідження пошуковий елемент і за допомогою клавіші F8 отримуємо результати роботи інструмента “Розширений контекст”, який надає доступ до кількох фрагментів вихідного тексту. Розширений контекст сприяє збереженню включеності пошукового елемента в певній ситуації, містить відомості про час створення та використання тексту, джерело публікації тощо. Зазначена функція розширеного контексту допомагає реконструювати ситуацію, в якій зафіксовано вживання пошукового елемента European Central Bank.

Інструмент “Розширений контекст” для пошукового елемента наявний у наборі комп'ютерних сервісів програми MonoConc Pro, яка призначена для роботи в комп'ютерних мережах системи Windows у різних версіях (W95 і вище) та достатньо проста у використанні. Програма оснащена низкою функцій, серед яких: контекстуальний пошук, пошук за регулярним виразом, частотний пошук за тегами, за сполучністю слів та іншими опціями. Однак її обмеження пов'язані з тим, що вона є комерційною програмою.

Для того щоб побачити ширший контекст пошукового елемента (тобто фрагмент попереднього та наступного тексту), користувач обирає будь-який рядок у вікні отриманих первинних конкордансних результатів. Розширений контекст пошукової одиниці відображається у верхньому вікні конкордансу.

Рис. 3. Меню Конкордансу програми MonoConc Pro

Оскільки мультилінгвальний корпус - це тематично орієнтоване зібрання текстів з Європеїстики, то його тематичні блоки є підкорпусами текстів, які можна створити за допомогою, наприклад, тега <European>. Класифікацію текстів у підкорпуси з використанням тегів можна здійснити за допомогою інструментарію комп'ютерної програми CATMA (Computer Aided Textual Markup and Analysis). Версія CATMA 3.2 JAVA підтримується для Mac та Windows PC та доступна на сайті для завантаження. Заснована на відомій програмі “Usebase”, вона дозволяє обробити тексти у двох її складниках: Tagger та Analyzer (Рис. 4).

Ще одна досить відома програма KORP може бути використана для дослідження Європеїстики як комп'ютерний пошуковий інструмент конкордансного типу, що включає колекції текстів різних мов, різної тематики, різних жанрів тощо.

Рис. 4. Діалогове вікно комп'ютерної програми CATMA для створеного тега European Parliament

Наприклад, на запит пошукового елемента European у підкорпусі текстів іспанською мовою програма KORP побудувала конкорданс із можливістю представлення розширеного контексту шляхом натискання в меню функції Show context. Вікно конкордансу, окрім лівобічного і правобічного контекстів, містить праворуч метадані тексту (Рис. 5). Розширений контекст надав можливість ознайомитися зі змістом усього тексту, у якому йдеться про діяльність Європейського економічного співтовариства (ЄЕС), що став фундатором Європейського Союзу. Цікавими виявилися відомості про функціонування економічних інституцій ЄЕС, про умови для вступу країн до ЄЕС, основні з яких такі: ратифікація Європейської конвенції з прав людини, реформування економіки й соціальної сфери, дотримання принципів плюралістичної демократії тощо.

Окрім стислого огляду комп'ютерних програм, які можна використовувати в процесі роботи з мультилінгвальним комбінованим корпусом, зокрема, для дослідження Європеїстики, вкажемо на роль і значення корпусної статистики, якою оснащені всі комп'ютерні програми для виконання різних дослідницьких завдань.

Рис. 5. Concordance програми KORP для візуалізації пошукового елемента European у підкорпусі текстів іспанською мовою з можливістю представлення розширеного контексту

Наприклад, програма KORP дозволяє отримати статистичні дані шляхом натискання в меню функції Show statistics (Рис. 6) та побудувати діаграми шляхом натискання в меню функції Graph (Рис. 7).

Сьогодні, коли текстові бази даних володіють конкордансом і корпус- менеджерами, до основних методів роботи з корпусами текстів можуть бути віднесені всі види корпусної лінгвостатистики: підрахунок абсолютної частотності слів, виділення найбільш змістових частотних слів за окремими підкорпусами (включаючи дискурсивно релевантні), побудова діаграм частотності слова за кожним підкорпусом, виділення кластерів (статистично значущих ланцюжків слів, розташованих контактно), корпусний пошук сполучуваності (колокацій, які можуть розташовуватися дистантно).

Рис. 6. Статистичні дані пошукового елемента European у підкорпусі текстів іспанською мовою програми KORP

Рис. 7. Побудова діаграм у підкорпусі текстів іспанською мовою програми KORP

Зіставний аналіз кількісних і статистичних даних про частоту вживання слів або колокацій, про ступінь їхньої семантичної близькості допомагає встановлювати зв'язки між пошуковими одиницями різних мов як усередині тегів, так і між ними.

Висновки та перспективи дослідження

Підбиваючи підсумок критичного огляду комп'ютерних програм, які можна використовувати для роботи з мультилінгвальним зіставним корпусом текстів за тематикою Європеїстика, відзначимо, що функціонал комп'ютерних інструментів корпус-менеджерів AntConc, WordSmith, WordList, MonoConc Pro та CATMA дозволяє: будувати як окремі KWIC, так і повні конкордансні списки (KWIC дає змогу простежити, у яких контекстах (зокрема й розширених із наданням метаданих текстів: автора, джерело публікації, рік видання джерела тощо) та дискурсах вжито колокати, наприклад, European Central Bank, European Parliament, і яка їхня семантична близькість у різних мовах); розмежувати функціонал того чи іншого контекстуального значення пошукового елемента в його найбільш імовірній лівобічній та правобічній валентності; побачити результати статистичної обробки необхідної інформації з корпусних тегів; зберігати та роздруковувати результати; швидко обробляти запити та видавати результати; підтримувати різні формати текстових даних (txt, doc, rtf, html та ін.).

Перспективи подальших досліджень полягають в описі результатів практичної апробації запропонованої методики роботи з корпус-менеджерами AntConc, WordSmith, WordList, MonoConc Pro, CATMA та KORP для дослідження Європеїстики.

Література

1. Андрушенко, О. (2022). Комплексна методика дослідження фокусувальних адвербів у сучасних та історичних корпусах текстів англійської мови. Innovative pathway for the development of modern philological sciences in Ukraine and EU countries (pp. 26-54). Publishing House “Baltija Publishing”.

2. Бобер, Н.М. (2020). Когнітивно-семантична матриця фразових дієслів емоційних станів людини у Британському національному корпусі [Дис. канд. філол. наук, Національний педагогічний університет імені М.П. Драгоманова].

3. Жуковська, В.В. (2013). Ресурси корпусної лінгвістики у дослідженні історичної динаміки мови. В Матеріали міжнародної наукової конференції “Слово і речення: синтактика, семантика, прагматика” (с. 151-156). Київський університет імені Бориса Грінченка.

4. Мейзерська, І.В. (2014). Корпусний підхід у сучасній лінгвістиці: перспективи і можливості застосування. Науковий вісник кафедри Юнеско. Серія Філологія. Педагогіка. Психологія, 28, 53-58.

5. Широков, В.А., Бугаков, О.В., & Грязнухіна, Т.О. (2005). Корпусна лінгвістика. Київ: Довіра.

6. Afli, H., Barrault, L., & Schwenk, H. (2012). Traduction automatique a partir de corpus comparables: extraction de phrases paralleles a partir de donnees comparables multimodales. Actes de la conference conjointe JEP-TALN-RECITAL, 2, 447-454.

7. Barzilay, R., & Lee, L. (2003). Learning to Paraphrase: An Unsupervised Approach Using Multiple-Sequence Alignment. Edmonton.

8. Biber, D., Conrad, S., & Reppen, R. (1998). Corpus Linguistics: Investigating Language Structure and Use. Cambridge University Press.

9. Bowker, L., & Pearson, J. (2002). Working with Specialized Language: A Practical Guide to Using Corpora. Routeledge.

10. Brawn, S. (2007). Designing and exploiting small multimedia corpora for autonomous learning and teaching. In E. Hidalgo, L. Quereda, J. Santana (Eds.), Corporain the Foreign Language Classroom: Selected Papers from the Sixth International Conference on Teaching and Language Corpora (TaLC 6, p. 32-33.). Rodopi.

11. Cartoni, B., & Deleger, L. (2011). Decouverte de patrons paraphrastiques en corpus comparable: une approche basee sur les n-grammes. In Actes de la 18e conference sur le Traitement Automatique des Langues Naturelles. Articles courts (p. 182-187). Montpellier.

12. Culo, O., Schirra, S.H., Neumann, S., & Vela, M. (2008). Empirical Studies on Language Contrast Using the English-German Comparable and Parallel Corpus. In N. Calzolari (Ed.), Workshop abstracts /Sixth International Conference on Language Resources and Evaluation (p. 47-51). Palais des Congres Mansour Eddahbi.

13. Elhadad, N., & Sutaria, K. (2007). Mining a Lexicon of Technical Terms and Lay Equivalents. In ACL BioNLP Workshop (p. 49-56). Prague.

14. Guidere, M. (2010). Introduction a la traductologie. Penser la traduction: hier, aujourd''hui, demain. De Boeck Universite.

15. Johns, T. (1991). Should You Be Persuaded - Two Samples of Data-driven Learning Materials. Classroom Concordancing: ELR Journal, 4, 1-16.

16. Kapranov, Ya. (2022). AntConc corpus manager and its possibilities for keywords with resilience semantics search. In R. Vasko (Ed.), Language. Culture. Discourse (p. 2232). PC Technology Center.

17. Kilgariff, A. (2001). Comparing Corpora. International Journal of Corpus Linguistics, 6, 97-133.

18. McEnery, A.M. (2003). Corpus Linguistics. In R. Mitkov (Ed.), The Oxford Handbook of Computational Linguistics (p. 448-463). Oxford University Press.

19. McEnery, A., & Xiao, Z. (2007). Parallel and Comparable Corpora: What is Happening. In Incorporating Corpora: Translation and the Linguist (p. 18-31). Multilingual Matters.

20. O'Keeffe, A., McCarthy, M., & Carter, R. (2007). From Corpus to Classroom: Language Use and Language Teaching. Cambridge University Press.

21. Rauf, S. (2012). Efficient Corpus Selection for Statistical Machine Translation: these de Doctorat. Universite du Maine.

22. Reppen, R. (2010). Using Corpora in the Language Classroom. Cambridge University Press.

23. Resnik, P., & Smith, N.A. (2003). The Web as a parallel corpus. Computational Linguistics, 29(3), 349-380.

24. Scarpa, F. (2010). La traductionspecialisee: uneapprocheprofessionnellea l'enseignement de la traduction. University of Ottawa Press.

25. Zanettin, F. (1998). Bilingual Corpora and the Training of Translators. Meta, 4(43), 616-630.

References

1. Andrushenko, O. (2022). Kompleksna metodyka doslidzhennya fokusuval'nykh adverbiv u suchasnykh ta istorychnykh korpusakh tekstiv anhliys'koyi movy. V Innovative pathway for the development of modern philological sciences in Ukraine and EU countries (pp. 26-54). Publishing House “Baltija Publishing”.

2. Bober, N.M. (2020). Kohnityvno-semantychna matrytsya frazovykh diyesliv emotsiynykh staniv lyudyny u Brytans'komu natsional'nomu korpusi [Dys. kand. filol. nauk, Natsional'nyy pedahohichnyy universytet imeni M. P. Drahomanova].

3. Zhukovs'ka, V.V. (2013). Resursy korpusnoyi linhvistyky u doslidzhenni istorychnoyi dynamiky movy. V Materialy mizhnarodnoyi naukovoyi konferentsiyi “Slovo i rechennya: syntaktyka, semantyka, prahmatyka” (s. 151-156). Kyyivs'kyyts universytet imeni Borysa Hrinchenka.

4. Meyzers'ka, I.V. (2014). Korpusnyy pidkhid u suchasniy linhvistytsi: perspektyvy i mozhlyvosti zastosuvannya. Naukovyy visnyk kafedry Yunesko. Seriya Filolohiya. Pedahohika. Psykholohiya, 28, 53-58.

5. Shyrokov, V.A., Buhakov, O.V., & Hryaznukhina, T.O. (2005). Korpusna Linhvistyka. Dovira.

6. Afli, H., Barrault, L., & Schwenk, H. (2012). Traduction automatique a partir de corpus comparables: extraction de phrases paralleles a partir de donnees comparables multimodales. Actes de la conference conjointe JEP-TALN-RECITAL, 2, 447-454.

7. Barzilay, R., & Lee, L. (2003). Learning to Paraphrase: An Unsupervised Approach Using Multiple-Sequence Alignment. Edmonton.

8. Biber, D., Conrad, S., & Reppen, R. (1998). Corpus Linguistics : Investigating Language Structure and Use. Cambridge University Press.

9. Bowker, L., & Pearson, J. (2002). Working with Specialized Language: A Practical Guide to Using Corpora. Routeledge.

10. Brawn, S. (2007). Designing and exploiting small multimedia corpora for autonomous learning and teaching. In E. Hidalgo, L. Quereda, J. Santana (Eds.), Corporain the Foreign Language Classroom : Selected Papers from the Sixth International Conference on Teaching and Language Corpora (TaLC 6, p. 32-33.). Rodopi.

11. Cartoni, B., & Deleger, L. (2011). Decouverte de patrons paraphrastiques en corpus comparable: une approche basee sur les n-grammes. In Actes de la 18e conference sur le Traitement Automatique des Langues Naturelles. Articles courts (p. 182-187). Montpellier.

12. Culo, O., Schirra, S.H., Neumann, S., & Vela, M. (2008). Empirical Studies on Language Contrast Using the English-German Comparable and Parallel Corpus. In N. Calzolari (Ed.), Workshop abstracts /Sixth International Conference on Language Resources and Evaluation (pp. 47-51). Palais des Congres Mansour Eddahbi.

13. Elhadad, N., & Sutaria, K. (2007). Mining a Lexicon of Technical Terms and Lay Equivalents. In ACL BioNLP Workshop (p. 49-56). Prague.

14. Guidere, M. (2010). Introduction a la traductologie. Penser la traduction: hier, aujourd''hui, demain. De Boeck Universite.

15. Johns, T. (1991). Should You Be Persuaded - Two Samples of Data-driven Learning Materials. Classroom Concordancing: ELR Journal, 4, 1-16.

16. Kapranov, Ya. (2022). AntConc corpus manager and its possibilities for keywords with resilience semantics search. In R. Vasko (Ed.), Language. Culture. Discourse (p. 22-32). PC Technology Center.

17. Kilgariff, A. (2001). Comparing Corpora. International Journal of Corpus Linguistics, 6, 97-133.

18. McEnery, A.M. (2003). Corpus Linguistics. In R. Mitkov (Ed.), The Oxford Handbook of Computational Linguistics (p. 448-463). Oxford University Press.

19. McEnery, A., & Xiao, Z. (2007). Parallel and Comparable Corpora: What is Happening. In Incorporating Corpora: Translation and the Linguist (p. 18-31). Multilingual Matters.

20. O'Keeffe, A., McCarthy, M., & Carter, R. (2007). From Corpus to Classroom : Language Use and Language Teaching. Cambridge University Press.

21. Rauf, S. (2012). Efficient Corpus Selection for Statistical Machine Translation: these de Doctorat. Universite du Maine.

22. Reppen, R. (2010). Using Corpora in the Language Classroom. Cambridge University Press.

23. Resnik, P., & Smith, N.A. (2003). The Web as a parallel corpus. Computational Linguistics, 29(3), 349-380.

24. Scarpa, F. (2010). La traductionspecialisee: uneapprocheprofessionnelle al'enseignement de la traduction. University of Ottawa Press.

25. Zanettin, F. (1998). Bilingual Corpora and the Training of Translators. Meta, 4(43), 616-630.

Размещено на Allbest.Ru


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.