История развития корпусной лингвистики (на примере англоязычных корпусов)

Оценка авторской периодизации формирования и развития англоязычных корпусов, базирующаяся на принципах Г. Кеннеди, в соответствии с которой выделяются четыре основных периода. Разработки программного обеспечения корпусов, автоматизация обработки текстов.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 30.03.2021
Размер файла 676,6 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

2

ИСТОРИЯ РАЗВИТИЯ КОРПУСНОЙ ЛИНГВИСТИКИ (НА ПРИМЕРЕ АНГЛОЯЗЫЧНЫХ КОРПУСОВ)

М.И. Солнышкина, Г.М. Гатиятуллина

Предложена авторская периодизация формирования и развития англоязычных корпусов, базирующаяся на принципах Г. Кеннеди (1998), в соответствии с которой выделяем четыре основных периода: доэлектронный - до 1960-х гг. (архивы), I - с 1960-х по 1990-е гг. (корпусы), II - с 1990-х по 2000 г. (мегакорпусы), III началось в 2000-е гг. (гигакорпусы). Предложено описание периодов разработки программного обеспечения корпусов: программ-конкордансеров и автоматизированной обработки текстов.

Ключевые слова: история лингвистики, корпусы текстов, корпусная лингвистика, поколения корпусов, классификация корпусов.

периодизация англоязычный корпус автоматизация текст

The History of Corpus Linguistics (On the Example of the English Language Corpora)

Keywords: history of linguistics, text corpora, corpus linguistics, corpus generations, corpus classification.

The aim of the research is to review the milestones in the development of corpus linguistics and present an original classification of the main periods in formation and development of English-language corpora which includes the following four periods: (a) the “pre-electronic” period or the period of text archives which lasted for over several centuries and finished in the 1960s; (b) “the first generation” covers the period from the 1960s to the mid-1990s; (c) “the second generation” period of megacorpora corresponds to the last decade of the 20th century; (d) the third generation period of gigacorpora started in the mid-2000s. The pre-electronic corpora and concordances lacked a unified system of text collection, views on representative size, and sources of corpora. In this period, there were developed the basic principles of concordance collection, the KWIC system, lemmatization. The first generation corpora were mostly compiled for the study of certain genres and/or speech of certain groups of people. These corpora typically contained texts with a limited number of tokens, usually no more than 2,000. Among the most significant achievements of that period are The Brown Corpus and the London-Oslo-Bergen corpus, the first reference corpora, which were used for lexical and grammatical studies of “language in use”, the first concordance software (CLOC, COCOA), and the first automatic tagging software (TAGGIT). By the early 1990s, the following terms were introduced, specified and defined: “corpus linguistics”, “metatext”, “tagging”, “con- cordancer”, “POS-tagging”, “tokenization”, “segmentation”, “parsing”. The problem of a standardized corpus, its compilation, and tagging were addressed in the project of Text Encoding Initiative (1987). The annotation patterns of that period began requiring POS, syntactic, semantic, and other tagging. Concordances of the mid-2000s became faster and more user friendly. Representativeness in corpora was achieved by the presence of texts of spoken and written speech in various communicative events. Therefore, the referential corpora of the second generation (BNC, ANC) represent the national language with a wide range of both written and spoken genres in many territorial dialects. The size of the third generation corpora or gigacorpora (COCA, Google Books) was increased to several billion tokens, and they became dynamic. The installed software enables tracking the form, meaning, and use of words and n-grams in written and spoken texts in a number of languages covering several historical periods. Modern concordances are also tools for compilation of small subcorpora and contrasting the obtained results with those of the larger corpora (BNC, COCA).

Корпусная лингвистика как наука зародилась в конце 1970-х гг., однако методы, лежащие в ее основе, были известны с XIII в. Так, в зависимости от объема и принципов отбора текстов в развитии корпусов выделяют несколько периодов [1, 2]Исследование выполнено при финансовой поддержке Российского научного фонда, грант № 18-18-00436. Здесь и далее перевод с английского выполнен авторами статьи.. Эпоха доэлектронных корпусов началась в Х111 в. и завершилась к началу 1960-х гг. [1-3]. Понятие «корпус» в его лингвистическом значении появилось только к концу доэлектронной эпохи, поскольку им признавалось отдельное религиозное или литературное произведение или собрание сочинений одного автора, к которому вручную составлялся конкордансВ настоящее время конкордансом называют алфавитный список всех употреблений конкретного слова в корпусе. Обязательным является также указание контекста слова, как правило, от двух до пяти, реже семь слов справа и слева от искомого слова [2. Р. 42]. Определяя задачи конкорданса, П. Бейкер, А. Харди и Т. Макинери обращаются к учению Дж.Ферса (1957) о коллокациях как «реальных словах» в привычном окружении. По их мнению, конкорданс призван определить наиболее частотные коллокации [Ibid. Р. 36]., формируемый преимущественно для теологических, литературоведческих и лексикографических исследований.

А. Круден называет конкордансами словарь или указатель к Библии, в котором все слова, использованные в «боговдохновенном писании», расположены в алфавитном порядке, а также указано место, в котором употребляется данное слово, чтобы можно было легко найти стих с этим словом и сравнить несколько значений, в которых оно употребляется [4]. Все конкордансы доэлектронной эпохи отличались от современных и представляли собой некий указатель места употребления слова или словосочетания. Такого рода конкордансы также именуют каталогами или алфавитными указателями (indexes), а сам процесс - индексацией (indexing) [1]. Конкорданс состоит из «узловых слов» (node words) и контекста их употребления [5]. Объем контекста конкорданса обычно ограничивался восемью - десятью словами, поэтому объем конкорданса к Библии составил 2 370 000 словоупотреблений и по объему превышал объем Библии [6].

Первый конкорданс был составлен в XIII в. монахом Антонием Падуан- ским к латинской версии Библии V в. «Vulgate». Этот конкорданс назывался Concordantiae Morales. Примерно в то же время в Париже кардинал Гуго де Сен-Шер с помощью монахов прихода Святого Джеймса за два года составили алфавитный указатель слов к Библии Vulgate [7. Р. 3]. Также известны попытки создания конкорданса в XV в. Джоном Марбеком [6. Р. 2]. В 1737 г. А. Круден опубликовал первое издание «Полного конкорданса к Святому Писанию», в котором узловое слово располагалось на отдельной строке, а далее следовало указание названия книги и главы в Библии, где употреблено данное слово [4]. В тексте цитаты узловое слово сокращено до первой буквы. Все цитаты представлены на отдельной строке. Левосторонний и правосторонний контексты не превышают двух - пяти слов. «Полный конкорданс к Святому Писанию» А. Крудена также содержит полную цитату из Библии с данным словом (рис. 1).

Рис. 1. A. Cruden A Complete Concordance to Holy Scriptures (1737)

А. Круден отдельно выделял словоформы: например, глагол «dry» и его форма прошедшего времени «dried» указывались отдельно. В качестве узловых в конкордансе А. Крудена выделялись как однословные единицы (существительное, глагол), так и многословные (устойчивые сочетания) (рис. 2).

Рис. 2. Конкордансы к устойчивым словосочетаниям А. Крудена

В 1890 г. Дж. Стронг публикует «Исчерпывающий конкорданс к Библии» (Strong's Exhaustive Concordance of the Bible), в котором приведены этимологические сведения для 8 674 слов из Ветхого Завета, корни которых происходят из иврита, и 5 624 слова с корнями греческого происхождения в Новом Завете. К каждому слову дается информация о количестве (частотности) и месте употребления [8].

После публикации первого издания конкорданса А. Крудена в 1737 г. по такому же принципу стали составляться конкордансы к произведениям великих писателей. Так, важной работой для развития корпусной лингвистики стал «Конкорданс к произведениям У. Шекспира во всех редакциях» (1 787) А. Беккета, поскольку в нем помимо информации о месте употребления того или иного слова (пьесы, акта и действия) был представлен отрывок произведения, в котором употреблялось данное слово (рис. 3). Узловое слово содержало все словоформы. Например, вместе со словом «dream» указана и форма множественного числа «dreams». Объем иллюстрирующего отрывка по усмотрению автора мог содержать от одной до пяти строк [9. Р. 167-183].

Рис. 3. A. Becket “A Concordance to Shakespeare suited to all the editions” (1787)

Известны также конкордансы к произведениям У. Шекспира, составленные М. Коуден-Кларк (1847) и С. Ойскотом (1790). Статья конкорданса С. Ойскота содержит следующие зоны: узловое слово, контекст, а также место употребления данного слова (пьеса, акт, сцена, страница, колонка и строчка). Узловое слово также содержит все словоформы (рис. 4) [10].

Рис. 4. S. Ayscough “Dramatic works with Explanatory notes” (1790)

Конкоданс, предлагаемый М. Коуден-Кларк, также создан по типу конкорданса А. Крудена, однако как и в конкордансе С. Ойскота, узловое слово представляет все словоформы (рис. 5) [11].

Рис. 5. M. Cowden-Clarke (1845) The Complete Concordance to Shakespeare: Being a Verbal Index to All the Passages in the Dramatic Works of the Poet В иллюстрациях сохранена пунктуация первоисточника.

Традиция составления конкордансов вручную к произведениям художественной литературы сохранялась вплоть до 1995 г. и была реализована в следующих работах: Конкоданс к «Секретному агенту» Дж. Конрада The Concordance to Conrad's The Secret Agent (Bender, 1979), Конкорданс к «Дейзи Миллер» Генри Джеймса A Concordance to Henry James's Daisy Miller (Bender, 1987), Конкорданс к полному собранию пьес и поэм Т.С. Эллиота A Concordance to the Complete Poems and Plays (Dowson, 1995) [12. Р. 169].

На рубеже XIX и ХХ вв. было организовано несколько проектов по сбору эмпирического материала для лексикографических целей. На их основе были составлены «Словарь американского варианта английского языка» под редакцией Н. Вебстера (Noah Webster's An American English Dictionary) (1828) и «Оксфордский словарь английского языка» (The Oxford English Dictionary, OED) (1884). Для создания исследовательской базы «Оксфордского словаря» две тысячи читателей-добровольцев собрали около пяти миллионов цитат общим объемом примерно 50 миллионов словоупотреблений для того, чтобы проиллюстрировать значения и употребление 414 825 слов в словаре. На основе собранных текстов английской диалектной речи Дж. Райт составил «Словарь английских диалектов» The English Dialect Dictionary (1898-1905) [1].

Эмпирический материал О. Есперсена, который включал фрагменты из произведений O. Хаксли, Дж. Остин, У. Черчилля, Ч. Дарвина, Г. Филдин- га, Э. Хемингуэя, Р. Киплинга, Дж. Локка, Г. Менкена, П. Шилли, Дж. Пристли, Х. Уолпола, В. Вульф, имел особое значение для преподавания практической грамматики английского языка, основанной на дескриптивных, не предписывающих принципах [13].

Поворотным моментом в истории развития конкордансов стала разработка методики использования ключевых слов (key words) в системе Keyword out of context (KWOC) ключевых слов вне контекста или Keyword in title ключевые слова в названии (1856) А. Крестадоро для систематизации каталогов в государственной библиотеке г. Манчестера. В 1958 г. Х.П. Лун доработал данную методику и ввел в компьютерную технологию под названием keywords in context (KWIC) «ключевые слова в контексте», в соответствии с которой ключевое слово располагалось в центре, а линии конкорданса можно было расположить слева или справа от ключевого слова, включая необходимый контекст [14. Р. 151]. Формат KWIC дает возможность составить список коллокаций слова в алфавитном порядке, а также список частотности каждого словоупотребления. П. Бейкер, А. Харди и Е. Макинери считают термин конкорданс синонимичным термину «ключевые слова в контексте» (key words in context, KWIC).

Электронный конкорданс Index Tomisticus общим объемом более 10,6 миллиона словоупотреблений, созданный монахом Р. Бусой к трудам Фомы Аквинского, стал первой работой, в которой были применены элементы машинной обработки текстов [15]. Конкорданс создавался в течение пяти лет: с 1962 по 1966 г. Для удобства работы с конкордансом и его краткости Р. Буса решил представить в нем к качестве ключевого слова только лемму, или заголовочное слово, со всеми ее словоформами. Для этого он осуществил лемматизацию текстов, которая проходила в два этапа: объединение всех словоформ с флексиями под одной леммой и прикрепление кода с соответствующей частью речи для каждой леммы и ее словоформы. Лемматизация проводилась на основе Латинского машинного словаря Lexicon Electronicum Latinum, который Р. Буса и десять священников составляли в течение двух лет. Электронный словарь представлял собой таблицу с леммами, на основе которой компьютер осуществлял лемматизацию текстов. Данный метод работы на основе электронного словаря или списка позже во многом определил принцип электронной обработки текстов. В 1973 г. был опубликован первый том Index Tomisticus, в 1970-е гг. было опубликовано более 40 томов Index Tomisticus с алфавитными указателями, таблицами с указанием частотности слов и др. [17].

Последним корпусом доэлектронной эпохи стал смешанный корпус устной и письменной речи Р. Кверка «Обзор практического употребления английского языка» The Survey of English Usage, SEU, Р. Кверка, разработанный в Лондонском университете [16]. Р. Кверк называл собранный исследовательский материал «исходным материалом» или «текстами». Я. Свартвик утверждает, что в 1960 г. термин «корпус» почти не употреблялся и на конференции ученые долго спорили о множественном числе слова «корпус» (corpuses, corpora или даже corpi) [17. Р. 15]. Данный корпус оказался наиболее хорошо структурированным и систематическим корпусом доэлектронной эпохи. Устная и письменная формы речи были представлены текстами различных жанров, при этом источниками служили как сфера формального, так и неформального общения. Корпус состоял из 200 фрагментов текстов, каждый объемом 5000 словоупотреблений. Данный корпус ознаменовал собой переход из доэлектронной эпохи в электронную.

Таким образом, в доэлектронную эпоху были созданы все предпосылки перехода к корпусам электронной эпохи. Были разработаны первые конкордансы, которые понимались как синоним словарей и указателей. Первые конкордансы имели огромное значение для дальнейшего развития корпусной лингвистики, поскольку в составе статьи конкорданса обязательными считались указание искомого слова, места его употребления, контекст использования зафиксированных единиц языка. Кроме того, была разработана система иллюстраций контекста в конкордансе «ключевое слово в контексте». В корпусах отсутствовали единый принцип сбора текстов, единые правила составления конкордансов. Их объем и источники также сильно различались: корпусом могли быть тексты священных книг (переводы Библии, произведения богословов), а также отдельные произведения художественной литературы. С современной точки зрения, такого рода тексты являются не корпусами, а архивами или собраниями отдельных текстов. Отсутствовал также и сам термин «корпус».

Электронная эпоха (с 1960-х гг по настоящее время). C. Йоханссон утверждает, что, несмотря на уже опубликованные в 1960-х гг. работы Р. Бусы и появление первого электронного корпуса, ученые стали активно интересоваться корпусной лингвистикой лишь в 1970-е гг. [18. Р. 39]. По его мнению, настоящая корпусная лингвистика зародилась именно в 1970-е гг. с созданием первых лабораторий и центров, в которых над общими проблемами лингвистики и способами обработки текстов стали работать лингвисты и программисты. Центры компьютерной лингвистики, нацеленные на сбор, хранение и обработку текстов корпуса, были открыты в Италии, США, Англии, Германии, Канаде, Франции, Швеции, Норвегии. К середине 1970-х гг. были созданы первые базы для хранения и распространения электронных корпусов: Оксфордский архив машиночитаемых текстов ОТА (Oxford Text Archive) (1976) и Международный архив электронных текстов современного английского языка ICAME (International Computer Archive of Modern English) (1977).

Корпусы первого поколения. В начале 60-х гг. ХХ в. впервые появились электронные корпусы. Первым электронным корпусом признан так называемый «Брауновский корпус» ^he Brown corpus), названный по имени университета США The Brown University, штат Род-Айленд. Его название официально включало термин «корпус». Группа ученых под руководством Г. Кучеры и Н. Френсиса работала над созданием корпуса в период с 1961 по 1964 г. [19]. В создании данного корпуса также приняли участие Р. Кверк, П. Оконнор и Дж. Керролл, а также Филипп Б. Гоув, редактор третьего издания словаря Уэбстера [1]. Брауновский корпус был корпусом письменной американской английской речи и содержал один миллион словоупотреблений из 500 текстов, изданных только в 1961 г. В корпусе представлены следующие пятнадцать жанров письменной речи американского варианта английского языка: газетные статьи, научные труды, объявления, книги о хобби, религиозная литература, биография, эссе, художественная литература (детективы, приключения и вестерны, научно-популярная литература, любовные романы, фельетоны). Тексты в «Брауновском корпусе» наносились на перфокарту, которая содержала информацию о месте расположения текста, его названии, а также о количестве строк в тексте.

В 1968 г. Ф. Бэгли впервые ввел термин «метаразметка» (metadata) для обозначения всех данных о текстах в корпусе [20. Р. 195]. С середины 1960-х гг. появились первые программы-конкордансеры на основе KWIC: «Атлас создания конкорданса и подсчетов корпуса» (COCOA, COunt and Cьncordance Gйnйration Atlas) (1967) и «Коллокации» (CLOC, CoLOCation) (1978) [5. Р. 2]. При их создании машинная обработка текстов сопровождалась ручной разметкой, т.е. «прикреплением» кода (или тега) к единице текста с информацией о ней [2. Р. 154]. Об автоматической разметке текста стали говорить, когда в 1971 г. Б. Грин и Дж. Рабин написали программу автоматизированной разметки текстов TAGGIT, первая апробация которой представляла собой разметку Брауновского корпуса. TAGGIT осуществляла разметку при помощи 86 тегов, выделяющих в тексте знаменательные и служебные слова, знаки препинания и отдельные морфемы. Программа «не снимала омонимию», и 23% слов в корпусе оказались размеченными одновременно несколькими тегами [3].

В 1978 г. А. Эллегард осуществил синтаксическую разметку части Брауновского корпуса вручную: было выделено три уровня синтаксической разметки - простые предложения внутри сложных предложений (clause structures in sentences), составляющие клаузальных конструкций (constituent structures of clauses), часть речи каждого слова (word class of individual word). После нескольких лет проверок и исправлений работа по частеречной разметке Брауновского корпуса в 1979 г. была завершена. Б. Грин и Дж. Рубин опубликовали все данные о морфологическом анализаторе TAGGIT с тем, чтобы другие ученые могли ее доработать и усовершенствовать [18. Р. 46]. Программы-конкордансеры первого поколения COCOA и CLOC создавались для каждого отдельного компьютера и отдельной задачи, т.е. всякий раз «приходилось заново изобретать колесо» [3. С. 35]. Именно эта проблема поставила необходимость создания кон- кордансеров следующего, второго поколения. Ученые считают, конец 1970-х гг. временем официального признания термина «корпусная лингвистика» [17. Р. 12].

В 1980-х гг. продолжается доработка и усовершенствование программы TAGGIT, в 1983 г. в университете Ланкастера группа ученых под руководством грамматиста Дж. Лича и программиста Р. Гарсайда апробировала и внедрила обновленный вариант морфологического анализатора под названием CLAWS (the Constituent Likelihood Automatic Word-tagging System, букв. Автоматическая система разметки составляющих на основе сходства) [3].

«Брауновский корпус» стал стандартом для составления корпусов как по объему, так и по спектру представленных в нем стилей и жанров письменной речи. С публикацией «Брауновского корпуса» в середине 1970-х гг. стали появляться подобные корпусы сначала в Великобритании, потом и в других странах. Например, в 1976 г. был опубликован совместный корпус университетов Ланкастера, Осло и Бергена (The Lancaster-Oslo-Bergen corpus (LOB) (1961-1978) [21]. В начале 1990-х гг. стали создаваться аналогичные корпусы объемом не менее одного миллиона словоупотреблений, состоящие из 500 текстов пятнадцати различных жанров письменной речи. При этом в каждом тексте должно было быть представлено не менее 2000 словоупотреблений. Такими являлись, например, корпус Австралийской английской речи, The Australian Corpus of English, ACE (1986), Веллингтонский корпус новозеландской английской речи, The Wellington Written English, WWE (1986), Корпус американской английской речи университетов Фрайбурга и Брауна, The Freiburg-Brown Corpus, FROWN (1991-1992), Корпус британской английской речи университетов Фрайбурга, Лондона, Осло и Бергена, The Freiburg London-Oslo / Bergen corpus, F-LOB, (1991-1992), Колхапурский корпус индийского варианта письменной английской речи, The Kolhapur corpus Indian English (1978) [1, 2]. Эти корпусы получили общее название «Семейство корпусов Браун» [22]. Различие данных корпусов состояло лишь в том, что корпусы содержали тексты одного из вариантов письменной английской речи: американского, британского, австралийского, новозеландского, индийского (таблица).

Содержание и объем корпусов Семейства Браун (The Brown Family)

Корпусы

Код I Brown

Frown

LOB

F-LOB

Pre-LOB

Kolhapur

ACE |WWC

LCMC

Количество текстов отдельных жанров

A

44

44

44

44

44

44

44

44

44

B

27

27

27

27

27

27

27

27

27

C

17

17

17

17

17

17

17

17

17

D

17

17

17

17

17

17

17

17

17

E

36

36

38

38

38

38

38

38

38

F

48

48

44

44

44

44

44

44

44

G

75

75

77

77

77

77

77

77

77

H

30

30

30

30

30

37

30

30

30

J

80

80

80

80

80

80

80

80

80

K

29

29

29

29

29

59

29

29

29

L

24

24

24

24

24

24

15

24

24

M

6

6

6

6

6

2

7

6

6

N

29

29

29

29

29

15

8

29

29

P

29

29

29

29

29

18

15

29

29

R

9

9

9

9

9

9

15

9

9

S

-

-

-

-

-

-

22

-

-

W

-

-

-

-

-

-

15

-

-

Код соответствует следующим жанрам: А - репортаж, В - редакторская колонка, С - обзорная статья, D - религиозный текст, Е - хобби и полезные советы, F - массовая культура, G - биография и эссе, H - отчеты и документы, J - научная проза, K - художественная литература, L - детектив, M - научная фантастика, N - вестерн и приключенческий роман, P - роман и любовная проза, R - сатира и юмор, S - исторический роман, W - женский роман [24].

Корпусы устной речи. Корпусы устной речи появились значительно позже письменных, их впервые начали публиковать в 1990-е гг.

Корпус London-Lund (LLC) был разработан в период с 1975 по 1990 г. Я. Свартвиком, Р. Кверком, С. Гринбаумом и К. Хофландом на основе двух проектов: корпус SEU (1959-1989) (см. доэлектронную эпоху) и Корпус устной английской речи (SSE, 1975). Корпус LLC состоит из 100 затранскрибированных текстов устной монологической и диалогической ре-

чи по 5000 словоупотреблений каждый. Диалогическая речь зафиксирована в текстах разговорного стиля между друзьями и коллегами, в беседах и телефонных разговорах. Монологическая речь представлена спонтанной (комментарии и рассказы), а также подготовленной речью, не читаемой с листа [22. Р. 408-409]. Помимо грамматической разметки тексты в корпусе размечены на просодическом уровне, т.е. содержат информацию о тоновых единицах, начале звука (onset), места ядра (слова, синтагмы), направлении ядерных тонов (восходящий, нисходящий, ровный, восходяще нисходящий), высоте тона, паузе (короткая и длинная), ударении (обычное и выделенное). Тексты из проекта SEU имеют детальную просодическую разметку: указания на различный уровень громкости и темпа (быстрая, прерывистая, манерно-растянутая), модификации качественных характеристик голоса (высота, ритм, напряжение и т.д.), дополнительные характеристики (шепот, хрип) [23].

Источником корпуса устной английской речи (The Spoken English Corpus, SEC) общим объемом 53 000 словоупотреблений послужили тексты эфиров радиовещания, записанные в период с 1984 по 1987 г. и характеризующиеся жанровым многообразием: комментарии, новости, лекции для небольшой аудитории, лекции для большой аудитории, радиопередачи на религиозные темы, включая литургии, репортажи о светской жизни, телефонные разговоры с радиослушателями и др. [22].

Одним из первых размеченных (или аннотированных) корпусов устной английской речи является также машиночитаемый вариант корпуса SEC, MARSEC (Machine readable spoken English corpus) (1992-1994) - совместный проект Лаборатории компьютерных исследований английского языка ^he Unit for Computer Research on the English Language, UCREL), университетов Ланкастера и Лидза, а также научного центра IBM в Винчестере. MARSEC в отличие от SEC был доработан фонологической разметкой: были размечены паузы, длина слова во временном отрезке, звуковое содержание, а также тоновое ударение [Ibid. Р. 408-409].

С разработкой Брауновского корпуса появилось понятие «референтный корпус», которым стали характеризовать все перечисленные корпусы, поскольку исследователи проверяли свои предположения и теории (так называемые “intuitive data”) с помощью этих корпусов. Референтный корпус определяли как корпус, создаваемый для проведения частотного анализа текстов, а также для сравнения текстов большого спектра жанров или источников [2. Р. 137]. Именно в этот период было доказано, что объем в миллион словоупотреблений нерепрезентативен для изучения низкочастотных слов, поскольку они могут отсутствовать в корпусе [1].

Кроме того, в этот период начинает формироваться ряд устных корпусов для распознавания и синтеза устной речи, разрабатываемых по заказу Агентства Министерства обороны США по передовым научноисследовательским проектам (Defense Advanced Research Projects Agency, DARPA).

В 1984 г. компанией Texas Instruments была собрана база данных устной английской американской речи TI-DIGITS, которая содержала 77 зачитанных вслух цифровых последовательностей. В качестве дикторов выступили 111 мужчин, 114 женщин, 50 мальчиков и 51 девочка. Данный корпус был создан для автоматического распознавания цифровых последовательностей в устной речи [24, 25].

В 1990 г. для акустико-фонетических исследований, разработки и оценки автоматических систем распознавания речи был создан корпус устной слитной речи TIMIT Acoustic-Phonetic Continuous Speech Corpus. В разработке корпуса принимали участие Массачусетский технологический институт (MIT), Стэнфордский научно-исследовательский институт (SRI) и компания Texas Instruments. Корпус содержит тексты на восьми основных диалектах устной английской американской речи 630 дикторов (70% мужчин и 30% женщин), которые зачитывали вслух по десять предложений. Для тестирования систем распознавания речи корпус TIMIT включает три типа текстов: диалектные (1 260 предложений), фонетически насыщенные (compact), т.е. покрывающие весь фонематический состав и отдельные сочетания фонем, представляющие определенную трудность распознавания (3 150 предложений), и фонетически разнообразные тесты (diverse) с повтором каждой фонемы в различном контексте (1 890 предложений). Для третьей части корпуса TIMIT использовались тексты Брауновского корпуса, а также из диалогов театральных постановок того времени. Данный корпус включает орфографическую, подробную фонетическую транскрипцию, а также транскрипцию каждого отдельного слова с временной соотнесенностью. Каждый диктор зачитывал пять предложений из подкорпуса с фонетически насыщенными текстами, три предложения из подкорпуса с фонетически разнообразными текстами и по два предложения из подкорпуса диалектных текстов. Корпус TIMIT поделен на две части: 20-30% корпуса составляет оценочно-тестовая часть и 70-80% - тренировочная. Повтор предложений и дикторов как в тестовой, так и в тренировочной частях был минимизирован. Тестовая часть была также поделена на две части: основная оценочная подборка Core Test Set (192 текста, произнесенных 24 дикторами: 16 мужчинами и 8 женщинами) и подборка для заключительной оценки Complete Test Set (1 344 предложений или 168 дикторов (112 мужчин и 56 женщин) по 8 предложений). Тренировочная часть включает весь языковой материал, не вошедший в тестовую часть. Тренировочная часть содержит 4 620 предложений, зачитанных 462 дикторами (73% дикторов корпуса) [26].

Корпус Управление ресурсами (Resource management corpus) (1988) для тестирования систем распознавания слитной речи включает более 25 000 высказываний более 160 респондентов, говорящих на различных региональных диалектах американского варианта английского языка. Корпус включает два подкорпуса: RM1 и RM2. Подкорпус RM1 состоит из трех частей. Тренировочная часть с подбором говорящего (Speaker- dependent) включает речь 12 лиц, каждый из которых зачитывает вслух 600 «тренировочных» предложений на двух диалектах и десять предложений для «быстрой адаптации» (rapid adaptation sentences). 600 предложений подобраны таким образом, что они покрывают 97% лексического материала корпуса. Общий объем данного подкорпуса составляет 7 344 предложения. Подкорпус “Speaker independent” содержит 3 360 предложений, зачитанных вслух 80 лицами на двух диалектах, и по 40 предложений, взятых из основного корпуса RM. Тестовая часть RM содержит 1 600 предложений, зачитанных вслух двумя дикторами. Тестовая часть снабжена диагностическим и оценочным программным обеспечением. Подкорпус RM2 представляет собой дополненную версию подборки RM1 Speaker-dependent. Подкорпус содержит 10 508 предложений, зачитанных двумя мужчинами и двумя женщинами (по 2 652 предложения каждый). В данный подкорпус вошли 600 стандартных тренировочных предложений из подкорпуса RM1, 2 диалектных предложения, 10 предложений быстрой адаптации, 1800 дополнительных тренировочных предложений, 120 дополнительных предложений для промежуточных испытаний (development-test sentences), 120 оценочных предложений (evaluation test sentences) Г27].

Корпус информационной службы (Air Travel Information Service Corpus, ATIS) (1990) был разработан для изучения спонтанной речи и синтеза речи. Корпус также делится на тренировочную и тестовую части. ATIS содержит тексты разговора людей с автоответчиком “I would like a ticket to...”, “I want to fly to Boston from New York next week”. На основе данного корпуса позже были созданы диалоговые системы, которые могли ответить на вопросы типа “Does Air Canada fly from Toronto to Dallas?” Г28].

Данные корпусы, разработанные по военному заказу, показали возможность обучения машин автоматическому распознаванию речи и дали новые термины: токенизация (разделение слитной речи на отдельные слова), сегментация (разделение слитной речи на предложения и синтагмы), парсер (синтаксический анализатор), нормализация (приведение к фонетической норме слов, произнесенных с различными индивидуальными особенностями говорящего) на основе временной соотнесенности фразы (time alignment).

Характеризуя типы корпусов, Г. Кеннеди утверждает, что все корпусы текстов отдельных жанров различных исторических эпох, тексты речи представителей отдельных профессиональных сообществ, возрастных групп либо региональных диалектов являются примерами корпусов первого поколения, поскольку их цель заключается в изучении речи отдельной формы языка, а не языка в целом во всем его многообразии [11. Таким образом, согласно его классификации мультимедийные корпусы, которые стали разрабатываться с середины 2000-х гг., вне зависимости от их технической составляющей считаются корпусами первого поколения, так как являются специальными корпусами и преимущественно репрезентируют отдельные жанры устной речи.

В 1960-1990-е гг. постепенно формируются требования к корпусам: обязательным стало привлечение текстов письменной речи общим объемом до миллиона словоупотреблений. Однако при этом привлекались преимущественно тексты наиболее распространенных жанров письменной речи, объем каждого фрагмента текста составлял примерно 2 000 словоупотреблений. Характерным признаком этого времени является также тот факт, что корпусы содержали не полные тексты письменной речи, а фрагменты с фиксированным объемом слов.

1970-е гг. стали определяющими в развитии корпусной лингвистики: появились центры и лаборатории по разработкам электронных средств обработки текстов. Методика KWIC позволила систематизировать форму представления конкорданса, позднее появились первые программы- конкордансеры, такие как COCOA (COunt and Concordance Generation Atlas) и CLOC (CoLOCation). Электронная обработка корпусов поставила перед учеными проблему точности электронной обработки текстов, которая давала хорошие результаты только совместно с ручной разметкой.

К середине 1970-х гг. с развитием техники и, как следствие, доступности записи звучащей речи начали формироваться корпусы для более широкого спектра исследовательских целей. В 1980-х гг. разработан морфологический анализатор текстов CLAWS (the Constituent Likelihood Automatic Word-tagging System). К 1990-м гг. были опубликованы два корпуса устной речи, при этом спектр представленных жанров не был богат и сводился к следующим: беседы в неформальной обстановке, разговоры по телефону, радио, выступления на лекции. Объем корпусов также значительно уступал письменным. Создание корпусов устной речи поставило вопросы адекватной транскрипции и разметки. Корпусы устной речи также составлялись в военных целях для разработки систем распознавания и синтеза живой звучащей речи. В данный период закрепилось современное толкование значений таких терминов, как «корпус», «корпусная лингвистика», «разметка», «метаразметка», «конкордансер», «морфологический анализатор». При изучении устной речи появились термины «токенезация», «токены», «сегментация», «нормализация», «временная соотнесенность» (time alignment).

Корпусы второго поколения, мегакорпусы. В начале 1980-х гг. был разработан язык разметки текстов, или метаязык SGLM (Standard Generalized Markup Language, букв. Единый стандартный язык разметки), который представляет собой набор тегов, стандартизирующий разметку текстов [2. Р. 149]. Данный формат оставался эталонным до 2007 г., когда ему на смену пришел упрощенный формат XML с более унифицированной и строгой формой разметки для предотвращения дублирования разметки, как это имело место в SGML [Ibid. Р. 71; 3. С. 76-77].

В 1990-х гг. ученые Университета Ланкастера разработали ряд программ для следующих уровней разметок: разметка анафорических референтных связей (1992), просодическая разметка (1993), семантическая разметка (1993), (2004), художественно-стилистическая (1996 и 2004), прагматическая разметка (2003) и разметка ошибок говорящих (1999, 2003) [3. Р. 78, 83; 29].

Изучение устной речи показало необходимость исследования описания прагматики высказывания, поскольку смысл высказывания в полной мере может быть понят и представлен при условии фиксации речи (текста) в прагматическом контексте с указанием повышения или понижения голоса, жестикуляции, движения головы и др. [30, 31]. Прорывной явилась разработка программы ELAN (EUDICO Linguistic Annotator, 2006), позволяющая размечать тексты на уровне жестов, однако решение этой проблемы подняло вопрос этики [32, 33].

Т. Макинери и А. Харди утверждают, что 1990-е стали эпохой про- грамм-конкордансеров второго поколения. Конкордансеры второго поколения работали на платформе IBM, поэтому могли использоваться на персональных компьютерах, поддерживающих операционную систему IBM. Конкордансеры второго поколения, такие как Micro-OCP (1988), Longman Mini-Concordancer (1989), Kaye concordancer (1990), также работали на основе методики KWIC и осуществляли следующие функции: составление алфавитного списка конкордансов с контекстным окружением слов справа и слева, составление списка слов корпуса, элементарные описательные статистические данные, такие как подсчет словоупотреблений, соотношение количества слов и словоупотреблений (type-token ratio). Совмещение функций отрицательно сказалось на мощности и производительности кон- кордансеров второго поколения. В качестве дополнительных причин такого положения указываются следующие: отсутствие единого формата, стандартов представления символов и разметок [3. Р. 40].

В 1987 г. на конференции в Колледже Вассара в г. Пафкипси, штат Нью-Йорк, было основано сообщество Инициатива по кодированию текстов (Text Encoding Initiative, TEI), которое поставило проблему разработки единых стандартов составления, транскрипции и разметки корпусов [34]. Появление большого количества корпусов, созданных на основе различных типов текстов, привело к необходимости создания единого свода правил, в котором бы содержались все правила по сбору, транскрипции и аннотации текстов как устного, так и письменного дискурсов. Кроме того появились вопросы этики и передачи авторских прав. Так, если в 1970-е гг. использование скрытых микрофонов для записи речи, указание личных имен и адресов считалось приемлемым, то к 1990-м гг. использование подобных методов стало вызывать вопросы [1. Р. 76-78; 3. Р. 60-69]. Таким сводом правил стали выпущенные Инициативой TEI документы TEI (Text Encoding Initiative Principles В период с 1990 по 2018 г. Инициатива TEI опубликовала пять редакций данного документа с соответствующей нумерацией P1-P5. В редакциях Р1-Р3 (1990-1999) SGML был рекомендованным языком разметки. В редакции Р4 (2002) составителям предоставлялся выбор между SGML и XML. В редакции Р5 (2007) единственно рекомендованным языком разметки является XML. С ноября 2007 г. документ TEI стал обновляться дважды в год [35, 36].) [2. Р. 157].

В 1991 г. некоммерческая компания «Уникод консорциум» разработала стандарт кодирования символов Уникод (Unicode) для ASCII (American Standard Code for Information Interchange), предназначенный для всех типов письменных языков мира, а также для кодирования непечатных символов (транскрипции, математических формул и др.). В настоящее время UTF-8 является наиболее распространенной спецификацией Unicode [2, 37, 38].

Попытки стандартизации составления корпусов были также предприняты Европейской консультационной группой по стандартам обработки языка - Expert Advisory Group on Language Engineering Standards (EAGLES) (1993), которая предложила свой стандарт сбора и разметки текстов в корпусе Corpus Encoding Standard (CES) (1998), имевший в своей основе сначала язык разметки SGML (1998), в настоящее время - язык разметки XML - XCES (2000) [2. Р. 50].

Для решения вопроса о необходимости стандартизации разметок для всех языков в четвертой редакции TEI Р4 (2002) составителям предоставлялся выбор между SGML и более строгим и унифицированным языком разметки XML. В пятой редакции TEI Р5 (2007) единственно рекомендованным языком разметки является XML [3].

В 1993 г. Дж. Лич опубликовал максимы для составления метаразметки, т.е. метатекста, или текста о тексте, с указанием полной экстралингвисти- ческой информации. По мнению Дж. Лича, метаразметка должна соответствовать установленным требованиям и включать следующую информацию о критериях и источниках отбора текстов: 1) возможность доступа к исходному варианту материала; 2) отдельное хранение метатекста от основного текста; 3) перечисление всех использованных принципов разметки в отдельном документе; 4) доступность информации об авторах разметки и основные характеристики разметки (ручная / автоматизированнаяДо сих пор автоматически размеченные тексты проходят процедуру post-tagging - ручную выверку разметки., программное обеспечение и т.д.); 5) понимание разметки как авторской интерпретации, ее относительности; 6) обязательное изложение в разметке максимально полной информации о тексте на основе общепринятых лингвистических принципов; 7) недопустимость признания ни одной разметки как эталонной [39].

Во вторую эпоху развития корпусной лингвистики с конца 1990-х гг. по 2000-е гг. были разработаны и внедрены конкордансеры третьего поколения (WordSmith 0.4 (1996), MonoConc (2000), AntConc (2005)). Данные программы характеризуются способностью обрабатывать большой объем текстов любой письменности, а также выполнять сложный статистический анализ. Кроме того, программы-конкордансеры начала XXI в. отличает их высокая функциональность: одна программа способна быстро составить список ключевых слов, конкордансы, выполнить частотный анализ и анализ коллокаций [3. Р. 35].

Таким образом, с начала 1990-х гг. технические возможности позволили ученым компилировать и разрабатывать корпусы больших объемов. Цель данных корпусов состояла в охвате большого спектра форм языка, манифестируемых как в письменной, так и в устной речи, представляя таким образом все многообразие языка. Стало возможным автоматически размечать устные корпусы на просодическом, фонетическом, морфологическом, лексическом, синтаксическом и дискурсивном уровнях. Более того, появился целый ряд программ для автоматизированной обработки конкордансов. Г. Кеннеди [1], П. Бейкер, А. Харди, Т. Макинери [2. Р. 35] называют корпусы, разработанные в период с конца 1980-х гг., корпусами второго поколения, или мегакорпусами, поскольку их объем приблизился к 100 миллионам словоупотреблений. К таким корпусам традиционно относят сеть корпусов Логман, The Longman Corpus Network (1991), Банк английского языка, The Bank of English, BoE (1993), Британский национальный корпус, The British National Corpus, BNC (1994), Американский национальный корпус, The American National Corpus, ANC (2008).

Одним из наиболее масштабных проектов, разработанных в конце 1980-х гг., стала Collins Birmingham University International Language Database (Международная база данных языка при Бирмингемском университете и компании Коллинз), или Корпус COBUILD. Корпус создавался группой ученых под руководством Дж. Синклера. В проекте использована так называемая Бирмингемская коллекция текстов (The Birmingham Collection of Texts), включающая 20 миллионов словоупотреблений текстов письменной и устной речи. Объем основного корпуса составил 7,3 миллиона словоупотреблений, а объем так называемого «резервного корпуса» - 13 миллионов словоупотреблений. Корпус на 75% состоит из текстов письменной речи, на 25% - устной речи. Корпус COBUILD содержит тексты, опубликованные в период с 1960-х гг. до 1982 г. Письменная речь преимущественно представлена прозаическими художественными текстами. В корпусе зафиксирована устная кодифицированная речь, в которой используется только общеупотребительная неспециальная лексика. 75% устной речи - речь мужчин старше 16 лет, 25% - речь женщин. 20% корпуса составляют тексты американского варианта английского языка. По мнению С. Йохансона, проект COBUILD был прорывным для своего времени по ряду причин: 1) объем корпуса превышал 20 миллионов словоупотреблений; 2) источниками служили полные тексты, а не короткие фрагменты; 3) он был наиболее репрезентативным и включал тексты устной и письменной речи различных жанров. COBUILD стал самым объемным корпусом своего времени и лег в основу Словаря английского языка издательства Коллинз, The Collins COBUILD Dictionary of English (1987) [40].

По завершении проекта COBUILD в 1991 г. Дж. Синклер стал писать о том, что объем корпусов должен быть максимально большим [41]. В 1990-х гг. ученый объявил о проекте по расширению корпуса COBUILD и созданию на его основе корпуса «Банк английского языка» (The Bank of English, BoE). Цель нового проекта состояла в создании «динамического» корпуса объемом несколько сот миллионов словоупотреблений, который непрерывно пополнялся бы новыми текстами английской устной и письменной речи. Такого рода корпус также именовался «мониторный корпус», поскольку ожидалось, что подобный корпус поможет отслеживать изменения, происходящие в языке [1. Р. 47; 2. Р. 65, 116]. Как и COBUILD, корпус

BoE состоит на 75% из текстов письменной речи и 25% - устной речи, при этом 70% являются текстами британского варианта английского языка, 20% - американского варианта и 10% - других национальных вариантов английского языка. К 1997 г. объем корпуса «Банк английского языка» составил 300 миллионов словоупотреблений. Корпус стал впервые по- настоящему динамичным: ежегодно в состав корпуса добавляли новые тексты. Г. Кеннеди пишет, что подобный тип корпуса поставил перед учеными новые задачи обработки текстов: ежемесячно из каждой газеты- источника поступало до 2,5 миллиона словоупотреблений [1. Р. 47]. И хотя разработчики еще не были до конца уверены в целесообразности использования мониторных корпусов, тем не менее корпусы COBUILD и BoE сформировали новый стандарт в составлении корпусов - сбалансированность и репрезентативность. Сбалансированность как принцип формирования корпуса, по мнению П. Бейкера, может быть реализована только в больших референтных корпусах, в которых должна быть представлена как устная, так и письменная формы высокого, формального и низкого регистров [2. С. 18]. В настоящее время корпус называется Word Banks Online и содержит 259,4 миллиона словоупотреблений британского английского языка (41,4 миллиона словоупотреблений устной речи) и 189,4 миллиона словоупотреблений американского английского языка (33,1 миллиона словоупотреблений устной речи) [42].

Обосновывая необходимость репрезентативности корпуса, Д. Байбер пишет, что поскольку понятие «общий язык» есть абстрактная категория, а язык - это система различных жанров или стилей, референтный корпус должен включать все стили и жанры речи, а также территориальные говоры и диалекты. Говоря о социальной представленности языка, Д. Байбер утверждает, что в корпусах необходимо фиксировать территориальный и региональный диалекты, социолекты и профессиональные языки. Кроме того, Д. Байбер заявляет, что язык должен быть представлен в историческом ракурсе, т.е. включать тексты всех исторических эпох [43. Р. 12, 246250; 44]. Таким образом, репрезентативность рассматривается Д. Байбером как представленность в корпусе текстов широкого спектра жанров и функциональных стилей.

Исследователи признают, что полную репрезентативность достичь невозможно [43-46]. П. Бейкер пишет, что понятие репрезентативности тесно связано с понятием валидности или соответствием полученных данных реальному состоянию языка в данной сфере употребления [2. Р. 140]. Д. Байбер считает, что репрезентативность корпуса связана со сбалансированностью, пропорциональной представленностью жанров и стилей языка всех слоев общества, которая соответствует существующей в реальности [43. Р. 246-250].

Д. Байбер также выдвигает два вида репрезентативности текстов в корпусе: лингвистический (представленность всех грамматических и лексических форм в тексте, жанре и корпусе) и ситуационный фактор (представленность ситуаций) [39]. В соответствии с точкой зрения Дж. Синклера он утверждает, что главным критерием отбора текстов для корпуса должны стать внешние или экстралингвистические факторы (коммуникативные ситуации), а не фактор представленности той или иной грамматической конструкции или лексемы в тексте (их он называет внутренними, или лингвистическими факторами) [40]. После публикации революционных работ Дж. Синклера и Д. Байбера репрезентативность стала обязательным условием для создания корпуса.

Еще одним мегакорпусом, формирование которого было начато в конце 1980-х гг. группой под руководством Д. Саммерс, является Сеть корпусов издательства Лонгман, The Longman Corpus Network. Данная сеть корпусов в настоящее время является коммерческой базой данных, состоящей из пяти основных корпусов: 1) Лонгманский корпус речи изучающих английский язык, The Longman Corpus of Learners' English (10 миллионов словоупотреблений); 2) Лонгманский корпус письменной американской английской речи, The Longman Written American Corpus (100 миллионов словоупотреблений); 3) Лонгманский корпус устной американской английской речи, The Longman Spoken American Corpus (5 миллионов словоупотреблений); 4) Совместный корпус письменного английского языка, издательства Логман и Ланскастерского университета The Longman / Lancaster English Language Corpus (30 миллионов словоупотреблений) и 5) Лонгманский корпус устной британской английской речи, The Spoken British Corpus (10 миллионов словоупотреблений) [49]. Г. Кеннеди пишет, что хотя каждая из частей Сети корпусов Лонгман (The Longman Corpus Network) была собрана для специальной цели, объединенный корпус стал мощным инструментом, в котором зафиксировано большое разнообразие текстов различных жанров речи, созданных носителями и неносителями английского языка. Данный тип корпусов использовался для создания словарей и учебников по коммуникативной грамматике английского языка. Позднее корпус устной английской речи вошел также в состав устной части Британского национального корпуса [48].

Британский национальный корпус (British National Corpus, BNC) составлялся с 1991 по 1995 г. в Оксфордском и Ланкастерском университетах. Целью проекта явилось создание сбалансированного и репрезентативного корпуса устной и письменной английской речи для академических, лексикографических и коммерческих целей. Корпус объемом 100 миллионов словоупотреблений включает 10% транскриптов устной речи и 90% текстов письменной речи второй половиной ХХ в. 75% текстов письменной речи - тексты информативного жанра: научные статьи и монографии, политические, деловые, культурные (музыка, театр) и светские новости, религиозные и философские тексты, статьи из журналов о спорте и домоводстве. 25% корпуса - произведения художественной литературы. Сбалансированная устная часть корпуса разделена на так называемые «контекстуальные» и «демографические» тексты. «Контекстуальная» часть (“the context-governed texts”) подкорпуса устной английской речи содержит тексты различных жанров и стилей устной речи: научно-информативный стиль (лекции, новости, обсуждения в классе, научные консультации); деловой (торговые выставки, встреча с профсоюзами, медицинские, юридические и профессиональные консультации, интервью); публичный (проповеди, политическая речь, заседания советов, парламентские чтения, судебные слушания); досуг (спортивные комментарии, разговоры после ужина, собрания в клубах, звонки радиослушателей). В «Демографическом подкорпусе» (“Demographic texts”) представлены тексты устных записей региональных диалектов (южный, центральный и северный диалекты) английского языка. Для записей диалектов по возрастному, половому, социальному и территориальному признакам были отобраны 124 добровольца из южных, центральных и северных графств Британии. Тексты в корпусе были размечены с помощью программы автоматизированной разметки CLAWS 5 Tagset1, разработанной в университете Ланкастера. Разметка текстов осуществлена при помощи языка разметки SGML по стандартам TEI [24, 48, 491.


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.