История развития корпусной лингвистики (на примере англоязычных корпусов)

Оценка авторской периодизации формирования и развития англоязычных корпусов, базирующаяся на принципах Г. Кеннеди, в соответствии с которой выделяются четыре основных периода. Разработки программного обеспечения корпусов, автоматизация обработки текстов.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 30.03.2021
Размер файла 676,6 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Еще одним амбициозным проектом своего времени стал Корпус национальных вариантов английского языка - The International Corpus of English (ICE), разработанный в Университетском колледже Лондона под руководством С. Гринбаума в 1996 г. Цель проекта состояла в сборе текстов региональных вариантов английского языка. Подкорпусы включают тексты устной и письменной речи региональных вариантов английского языка Британии (ICE-GB), Восточной Африки, Индии, Новой Зеландии, Сингапура, Канады, Гонконга, Ямайки, Филиппин, США, Камеруна, Фиджи, Ирландии, Кении, Мальты, Малайзии, Пакистана, Сьерра Леоне, Шри Ланки, Тринидада и Тобаго. В качестве респондентов избирались лица старше 18 лет, получившие среднее школьное образование в англоязычной школе. Все подкорпусы содержат 60% текстов письменной речи и 40% транскрип- тов устной речи. Подкорпус диалогической речи включает следующие жанры устной речи: частные беседы (личные встречи и телефонные разговоры) и публичные (уроки, беседы на радио и телевидении, теле- и радиоинтервью, парламентские дебаты, деловые переговоры, очные ставки. Подкорпус монологической речи разделен на две части. Первая включает высказывания спонтанной речи (комментарии, речь на демонстрациях и в суде). Вторая часть содержит подготовленную читаемую с листа речь (теле- и радионовости, теле- и радиобеседы (ток-шоу). Морфологическая разметка выполнена на основе программы CLAWS7 (С7) TagsetCLAWS 5 tagset - пятая версия программы автоматической частеречной разметки CLAWS, имеющая 57 тегов для лексического списка, списка суффиксов и списка фразеологизмов [50]. CLAWS 7 tagset - седьмая версия программы автоматической частеречной разметки CLAWS, автоматически размечающая 137 тегов для лексического списка, списка суффиксов и списка фразеологизмов [51]., семантическая - с помощью программы UCREL Semantic Analysis System (USAS)UCREL Semantic Analysis System (USAS) - программа автоматической семантической разметки [52]..

С 2006 г. в состав корпуса начинают включать аудиозаписи речи. В подкорпусе ICE-Gb (1996) выполнена частеречная и лексическая разметки. Подкорпусы (сингапурского, индийского, филиппинского, новозеландского) вариантов английского языка не размечены [24, 53].

Таким образом, корпусы второго поколения - это корпусы объемом не менее ста миллионов словоупотреблений, цель которых предполагает репрезентацию всего многообразия письменной и устной речи. Составители стремились представить как можно больше жанров и стилей устной и письменной речи различных слоев населения. Как правило, это корпусы, доступные онлайн, собранные и размеченные по требованиям TEI. Национальные корпусы стали мониторными и составлялись на основе принципов репрезентативности отбора текстов и по правилам, характерным для корпусов второго поколения.

В 1990-е гг. в качестве нового образца корпусов использовался Британский национальный корпус, а стандартом составления корпусов стал TEI, который рекомендовал язык разметки SGML. В период с 1987 по 2004 г. были разработаны правила сбора корпусов, составления метаразметки, а также программы автоматизированной разметки текстов.

Корпусы третьего поколения, или гигакорпусы. Начало 2010-х гг. ознаменовано появлением больших технических возможностей: разработаны конкордансеры четвертого поколения BNCweb (2009), CQPweb (2012), SketchEngine (2013), Wmatrix (2013), функционально схожие с кон- кордансерами третьего поколения. Конкордансеры четвертого поколения были разработаны с целью решения следующих проблем: ограниченная мощность персональных компьютеров, несовместимость операционных систем персональных компьютеров и правовые ограничения распространения корпусов. Для решения правовых вопросов и упрощения процедуры получения доступа корпусы перешли на онлайн-версии, что увеличило скорость обработки запросов и расширило количество пользователей. Непосредственный доступ стал доступен через веб-браузер, снабженный онлайн-поиском [3. Р. 35; 54]. Четвертое поколение конкордансеров работает онлайн и позволяет осуществить контрастивный анализ небольшого частного корпуса с корпусами BNC или текстами из Интернета. М. Девис называет конкордансеры четвертого поколения гибридными корпусами, поскольку их интерфейс представляет собой некое общее поле для создания корпуса и проведения частотного анализа на морфемном, лексическом, синтаксическом и фразовом уровнях [55].

Тенденция к увеличению объема корпусов продолжилась и после 2000-х гг. А. Мауранен [56] С. Кублер и Х. Цинсмайстер [57. Р. 10] характеризуют данное поколение девизом «чем больше корпус, тем лучше», а Л. Флауэр- дью первой начинает именовать данную эпоху эпохой поколения гигакорпусов Гигакорпусы (от греч. гига - миллиард) - корпусы объемом несколько миллиардов словоупотреблений. [58]. В это время появился ряд новых корпусов (СОСА, Google

Books Ngram) (см. ниже), объем которых составил несколько миллиардов словоупотреблений. Большой объем корпусов позволил проводить частотные исследования более масштабно и изучать коллокации, состоящие из трех, четырех и более слов. Такого рода коллокации Д. Байбер [59] и К. Хайленд [60] называют «лексическими пучками» (lexical bundles), где одно слово может быть переменным. Например, в коллокациях из пяти слов in the beginning of the, in the end of the, in the _ form of the переменным является третье слово. Впоследствии эти коллокации получили название n- граммы, где биграммы - это коллокации, состоящие из двух слов, триграммы - коллокации, состоящие из трех слов, а n-граммы - это коллокации, состоящие из n слов [61]. В настоящее время фиксация подобных кол- локаций стала возможной благодаря созданию больших гигакорпусов, часто рассматриваемых как сама сеть Интернет (Google Ngram, Google Books, COCA и др.). Кроме того, подобные корпусы предлагают возможность построения графиков частотности n-грамм для различных периодов времени с 1800 до 2010 г.

В 2008 г. был опубликован Корпус современной американской английской речи (The Corpus of Contemporary American English (COCA), общий объем которого на данный момент составляет примерно 400 миллионов словоупотреблений. Корпус содержит тексты устной и письменной речи. Письменная речь представлена такими жанрами, как художественная литература: короткие рассказы и пьесы из литературных журналов, детская литература, первые главы книг, опубликованные с 1990 г., а также сценарии к фильмам (113 миллионов словоупотреблений); тексты из популярных журналов взяты из Time, Cosmopolitan, Men's Health, Good Housekeeping, Fortune, Christian Century, Sports Illustrated (118 миллионов словоупотреблений); тексты жанра газетной статьи взяты из 10 газет со всей Америки: USA Today, New York Times, Atlanta Journal Constitution, San Francisco Chronicle (114 миллионов слоупотреблений); тексты жанра научная статья взяты из 100 рецензируемых журналов по различным областям науки (112 миллионов словоупотреблений) На данный момент объем корпуса увеличен до 520 миллионов словоупотреблений. [62]. В корпусе СОСА объем текстов устной речи составляет 118 миллионов словоупотреблений. Данный подкорпус содержит транскрипты, видео- и аудиозаписи широкого спектра радио- и телепередач: All Things Considered (радиостанция NPR), Newshour (телеканал PBS), Good Morning America (телеканал ABC), Today Show (телеканал NBC), 60 Minutes (телеканал CBS), Hannity and Colmes (телеканал Fox). Корпус СОСА является динамичным и ежегодно пополняется на 20 миллионов словоупотреблений. Частеречная разметка текстов осуществляется при помощи программы CLAWS. К корпусу прилагается про- грамма-конкордансер WordAndPhrase [Ibidem].

В 2009 г. опубликован корпус оцифрованных текстов книг Google Books Ngram Viewer, в котором представлены тексты более одного миллиарда электронных книг, опубликованных в период с 1500 по 2008 г.

В 2011 г. объем корпуса Google N-gram Corpus превысил 200 миллиардов словоупотреблений [63]. В 2014 г. выпущена вторая версия корпуса Google Books, в которой письменный американский дискурс на английском языке представлен 155 миллиардами словоупотреблений, а британская английская речь - 34 миллиардами словоупотреблений [64]. В корпусе Google Books кроме текстов на английском языке в значительно меньшем объеме представлены тексты на 6 языках: испанском, французском, русском, немецком, итальянском и иврите [Ibidem].

Корпус Global Web-based of English (GloWbE) (2013), как и корпус второго поколения ICE, ставит целью представить как можно больше региональных вариантов английского по всему миру. Этот корпус содержит тексты веб-страниц и веб-сайты 20 региональных вариантов английского языка. Объем корпуса GloWbe превышает объем корпуса ICE в 100 раз: его объем составляет 1,9 миллиарда словоупотреблений [65].

Объем корпуса News on the Web (NOW) (2016) на данный момент превышает 5,7 миллиарда словоупотреблений. Авторы пишут, что корпус содержит англоязычные тексты с «2012 г. по вчерашний день» [64]. Ежедневно объем корпуса пополняется текстами на 4-5 миллионов словопо- треблений. Каждую ночь с 22:00 до 1:00 тексты загружаются в корпус: программа HTTrack считывает интернет-адреса (URL) из ресурса Google News и загружает в корпус 9-10 тысяч текстов, затем при помощи программы JusText повторяющиеся и шаблонные тексты удаляются. Разметка и лемматизация текстов осуществляется с помощью программы CLAWS 7, тексты добавляются к основному составу корпуса. На сайте можно, например, отследить самое популярное слово дня или года [66].

Появление мега- и гигакорпусов показало, что большие референтные корпусы непригодны для изучения речи отдельных профессий или жанров речи, поскольку большие корпусы, несмотря на их огромный размер, содержат преимущественно тексты наиболее распространенных жанров устной и письменной речи [47, 53, 56, 58, 67]. В конце 1990-х - начале 2000-х гг. было доказано, что принципы репрезентативности специальных корпусов соблюдаются при значительно меньших объемах, поскольку частотность как терминов, так и нейтральных слов остается стабильной и равномерной [46, 47]. В этой связи Л. Флауэрдью пишет, что репрезентативность необходимо рассматривать как более важный аспект, чем объем корпуса, и для корпусов письменной профессиональной речи объем может варьироваться от 20 000 до 250 000 словоупотреблений [58]. Характеризуя различия устных и письменных корпусов, А. Кестер утверждает, что устный корпус объемом миллион словоупотреблений считается большим корпусом, а корпус письменной речи объемом 5 миллионов словоупотреблений считается маленьким [67]. Л. Флауэрдью уточняет, что письменные корпусы объемом меньше 250 000 словоупотреблений принято считать небольшими [58]. Если же рассматривать специальный корпус, то количество текстов, как правило, будет варьировать от семи до одиннадцати. А. Кестер считает, что количество текстов одного жанра или типа дискурса должно составлять минимум пять текстов. Если количество текстов меньше пяти, то корпус не является репрезентативным. А. Кестер также отмечает, что тексты, записанные в одной организации, не будут репрезентативными для того или иного жанра вообще, но будут представлять данный жанр в данной организации [67].

Таким образом, этот период характеризуется слиянием методов корпусной лингвистики со Всемирной сетью: созданы программы автоматической загрузки текстов из Интернета, как в случае с корпусами NOW и GloWbE, отношение ко Всемирной сети как к корпусу (частный случай, корпус Google Books), выход самих инструментов во Всемирную сеть (SketchEngine, BNCweb). Рассуждения об n-граммах на данном этапе получили более предметный характер. Кроме того, стало возможным отслеживать развитие употребления того или иного слова на больших массивах данных, например изменение формы и значения слова в течение времени в письменной (Google Books) либо в устной речи (СОСА, NOW, GloWbE). Появление корпусов с большими массивами текстов не уменьшило актуальность вопроса необходимости и репрезентативности малых корпусов профессиональной речи.

Заключение. Авторская классификация корпусов, дополняющая классификацию электронных корпусов Г. Кеннеди, имеет в своей основе два параметра: объем корпуса и принципы отбора материала. Корпусы доэлек- тронной эпохи (до 1960 г.) в современном представлении являются собранием текстов или архивом, в них отсутствует единая система сбора текстов, их объем и источники сильно варьируются. Эти же черты свойственны и для конкордансов того времени. В доэлектронную эпоху, были заложены основы принципов составления корпусов и формирования конкордансов. К концу доэлектронной эпохи уже существовали термины «конкорданс», «ключевые слова в контексте», «лемматизация». Развитие информационных технологий электронной эпохи (с 1960 г.) во многом определило развитие корпусной лингвистики.

Характерной чертой электронных корпусов первого поколения является их нацеленность на изучение текстов отдельных жанров и/или речи социальных групп. Они содержат фрагменты текстов длиной не более 2 000 словоупотреблений. Объем корпусов первого поколения не превышал миллиона словоупотреблений. Брауновский корпус и корпус LOB являются первыми референтными корпусами, на основе которых были проведены первые корпусные исследования лексики и грамматики устной речи. Среди наиболее актуальных вопросов того времени следует указать проблему разработки программ автоматической разметки, программ-конкордансеров. Именно в 1980-е гг. закрепились такие термины, как «корпус», «корпусная лингвистика», «разметка», «метаразметка», «конкордансер», «морфологический анализатор». При изучении устной речи также появились термины «токенеза- ция», «токены», «сегментация», «нормализация», «синтаксический анализатор» (парсер), «временной интервал» (time alignment).

Проблема единого стандарта разметки, а также стандартизации сбора и составления корпусов была решена созданием Инициативы по кодированию текстов. Корпусы второго поколения, создаваемые по правилам TEI, в конце 1990-х гг. имели морфологическую, синтаксическую, семантическую и другие виды разметки. Середина 2000-х гг. ознаменовалась тремя достижениями: разработка программ разметки видеозаписей на уровне жестов, внедрение удобных в использовании конкордансеров второго и третьего поколений высокой производительности. Так же как и корпусы первого поколения, мегакорпусы являются референтными корпусами, однако их составление впервые базировалось на принципах репрезентативности и сбалансированности с целью представления всего многообразия языка. Они включали широкий спектр жанров письменной и устной речи различных форм языка. Главным критерием отбора признается экстра- лингвистический аспект, т.е. коммуникативная ситуация. BNC и ANC имели объем около ста миллионов словоупотреблений.

Объем корпусов третьего поколения, или гигакорпусов, составляет несколько миллиардов словоупотреблений (СОСА, Google Books). Это динамические корпусы, объем которых постоянно пополняется новыми текстами. Они могут содержать устные или письменные тексты на нескольких языках и охватывать несколько исторических периодов. Программное обеспечение представляет возможность проследить развитие того или иного слова в различные исторические периоды, а также изучать коллокации в контексте. Появление гигакорпусов послужило основанием для создания корпусов специализированной речи, объем которых, как и корпусов первого поколения, не превышает одного миллиона словоупотреблений. Кон- кордансеры четвертого поколения предлагают больший спектр функций с возможностью составлять свой корпус и сравнивать полученные результаты с результатами референтных корпусов.

Литература

1.Kennedy G. An Introduction to Corpus linguistics. Addison Wesley Longman limited, 1998. 315 p.

2.Baker P., Hardie A., McEnery T. Glossary of Corpus Linguistics. Edinburgh University Press, 2006. 192 p.

3.McEnery T., Hardie A. Corpus Linguistics: Method, theory and practice. Cambridge university press, 2012. 312 p.

4.Cruden A. A Complete Concordance to Holy Scriptures of Old and New Testament. 1737. 756 p.

5.Stubbs J. Notes on the History of Corpus Linguistics and Empirical Semantics // Collocations and Idioms / eds by M. Nenonen, S. Niemi. Joensuu: Joensuun Yliopisto, 2007. P. 317-329.

6.Meyer Ch.F. Pre-electronic corpora // Corpus Linguistics: An International Handbook / ed. by A. Ludeling, M. Kyto. 2008. P. 1-14.

7.McCarthy M., O'Keeffe A. Historical perspective: What are corpora and how have they evolved? // The Routledge handbook of corpus linguistics / ed. by A. O'Keeffe and M. McCarthy. 2010. P. 3-13.

8.Strong J. Strong's Exhaustive Concordance of the Bible. 1890. 1807 p.

9.Becket A. A concordance to Shakespear: suited to all the editions. 1787. 470 p.

10.Dramatic Works with Explanatory Notes. A New Ed., to which is Now Added a Copious Index to the Remarkable Passages and Words by Samuel Ayscough. 1790. Vol. 2. 558 p.

11.Cowden Clarke M. V. The Complete Concordance to Shakespeare: being a verbal index to all the passages in the dramatic works of the poet. 1847. 890 p.

12.Tribble C. What are concordances and how are they used // The Routledge handbook of corpus linguistics / ed. by A. O'Keeffe, M. McCarthy. 2010. P. 167-183.

13.Jespersen O. A modern English grammar: on historical principles. 1949. 542 p.

14.Korycinski C., Newell A.F. Text indexing: the problem of significance // Computers and writing. State of the Art / ed. by P.O. Holt [et al.l. 1992. P. 149-171.

15.Busa R. The Annals of Humanities Computing: The Index Tomisticus // Computers and the Humanities. 1980. Vol. 14. P. 83-90.

16.QuirkR. A grammar of contemporary English. 1972. 1120 p.

17.Svartvik J. Corpus linguistics 25+ years // Corpus Linguistics 25 Years On / ed. by R. Faccinetti. 2007. P. 11-27.

18.Johansson S. Some aspects of the development of corpus linguistics in the 1970-s and 1980-s // Corpus Linguistics: An International Handbook / ed. by A. Ludeling, M. Kyto. 2008. P. 33-53.

19.The Brown Corpus. URL: https://www1.essex.ac.uk/linguistics/external/clmt/w3c/ corpus ling/content/corpora/list/private/brown/brown.html (дата обращения: 20.06.2018).

20.Nguen T.H., Nunavath V., Prinz A. Big Data Metadata Management in small Grids // Big Data and Internet of Things: A Roadmap for Smart Environments. 2014. P. 189-215.

21.The LOB Corpus. URL: http://www.helsinki.fi/varieng/CoRD/corpora/LOB/in- dex.html (дата обращения: 20.06.2018).

22.Xiao R. Well-known and influential corpora // Corpus Linguistics: An International Handbook / ed. by A. Ludeling, M. Kyto. 2008. P. 383-457.

23.The LLC. URL: http://www.helsinki.fi/varieng/CoRD/corpora/LLC/index.html (дата обращения: 20.06.2018).

24.Lamel L., Cole R. Spoken Language Corpora // Survey of the State of the Art in Human Language Technology. 1997. P. 338-391.

25.TIDIGITS.URL: https://catalog.ldc.upenn.edu/LDC93S10 (дата обращения: 20.06.2018).

26.DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus. CD-ROM / J.S.Garofolo let al.l. 1993. 94 p.

27.Resource Management Corpus. URL: https://catalog.ldc.upenn.edu/LDC93S3C (дата обращения: 20.06.2018).

28.Tur G. Spoken Language Understanding: Systems for Extracting Semantic Information from Speech / ed. by G. Tur, R. De Mori. 2011. 470 p.

29.Corpus annotation. URL: http://ucrel.lancs.ac.uk/annotation.html (дата обращения: 20.06.2018).

30.McNeill D. Hand and Mind: What Gestures Reveal About Thought. Chicago : University of Chicago Press, 1992.

31.Rowley-Jolivet E. Visual discourse in scientific conference papers A genre-based study // English for Specific Purposes. 2002. Vol. 21, iss. 1. P. 19-40.

32.ELAN. URL: https://tla.mpi.nl/tools/tla-tools/elan/release-notes (дата обращения: 20.06.2018).

33.Crawford Camiciottol B., Fortanet-Gomez I. Multimodal Analysis in Academic Settings: From Research to Teaching. Routledge, 2015. 251 p.

34.Lou Burnard. The Evolution of the Text Encoding Initiative: From Research Project to Research Infrastructure // Journal of the Text Encoding Initiative. June 2013. Is. 5. Online since 21 June 2013, connection on 01 April 2018. URL: http://journals.openedition.org/ jtei/811; DOI: 10.4000/jtei.811

35.TEI Guidelines. URL: http://www.tei-c.org/Guidelines (дата обращения: 20.06.2018).

36.Introducing the guidelines. URL: https://tei-c.org/support/learn/introducing-the- guidelines/. (дата обращения: 20.06.2018).

37.Meyer Charles F. English Corpus Linguistics: An Introduction. Cambridge University Press, 2004. 168 p.

38.Kubler H., Zinsmeister S. Corpus linguistics and linguistically annotated corpora. 2015. 320 p.

39.Leech G. Corpus annotation schemes // Literary and Linguistic Computing. 1993. № 8 (4). Р. 275-281.

40.The history of COBUILD. URL: https://www.collinsdictionary.com/cobuild/ (дата обращения: 20.06.2018).

41.Sinclair J. Corpus, Concordance, Collocation. Oxford University Press, 1991.

42.Word Bank Online (Bank ofEnglish) режим доступа. URL:

https://corpus.byu.edu/coca/old/help/compare boe.asp (дата обращения: 20.06.2018).

43.Biber D., Conrad S., Reppen R. Corpus linguistics: Investigating language structure and use. Cambridge University Press, 1998.

44.Biber D. Representativeness in corpus design // Literary and Linguistic computing. 1993. Vol. 8 (4). P. 243-257.

45.Sinclair J. Corpus and Text - Basic Principles // Developing Linguistic Corpora: a Guide to Good Practice / ed. by M. Wynne. 2005. Р. 1-16.

46.Tognini-Bonelli E. Corpus linguistics at work. Amsterdam : John Benjamins, 2001.

47.The Longman Corpus Network.URL:http://www.longmandictionari-

esusa.com/longman/corpus (дата обращения: 20.06.2018).

48.The British National Corpus. URL: http://www.natcorp.ox.ac.uk (дата обращения: 20.06.2018).

49.Leech G. A brief users' guide to the grammatical tagging of the British National Corpus. URL: http://www.natcorp.ox.ac.uk/docs/gramtag.html (дата обращения: 20.06.2018).

50.UCREL CLAWS5 tagset. URL: http://ucrel.lancs.ac.uk/claws5tags.html (дата обращения: 20.06.2018).

51.Introduction by word-class to the claws7 tagging scheme. URL: http://www.natcorp. ox.ac.uk/docs/claws7.html# Toc334867959 (дата обращения: 20.06.2018).

52.UCREL Semantic Analysis System (USAS). URL: http://ucrel.lancs.ac.uk/usas/ (дата обращения: 20.06.2018).

53.The International Corpus of English. URL:http://www.ucl.ac.uk/english-

usage/projects/ice.htm (дата обращения: 20.06.2018).

54.Laurence A. A critical look at software tools in corpus linguistics // Linguistic Research. 2013. № 30 (2). P. 141-161.

55.DaviesM. Corpora: an introduction // The Cambridge handbook of Corpus Linguistics / ed. by D. Biber, R. Reppen. Cambridge University Press, 2015. P. 11-31.

56.Mauranen A. Speaking professionally in L2 // Variation and change in spoken and written discourse: Perspectives from Corpus Linguistics / ed. by J. Bamford, S. Cavalereri, G. Diani. 2013. P. 5-31.

57.Kuebler S., Zinsmeister H. Corpus Linguistics and Linguistically Annotated Corpora. London : Bloomsbury Publishing, 2015. 320 p.

58.Flowerdew L. The argument for using English specialized corpora to understand academic and professional language // Discourse in professions: perspectives from Corpus Linguistics / ed. by U. Connor, T. Upton. 2004. P. 11-33.

59.Biber D. University Language: A Corpus-based Study of Spoken and Written Registers. Amsterdam : John Benjamins, 2006. 261 p.

60.Hyland K. As it can be seen: Lexical bundles and disciplinary variation // English for Specific Purposes. 2008. Vol. 27. P. 4-21.

61.Ray son P. Computational tools and methods for corpus compilation and analysis // The Cambridge handbook of English corpus linguistics / ed. by D. Biber, R. Reppen. Cambridge university press, 2015. P. 32-49.

62.The Corpus of Contemporary American English.URL: https://corpus.byu.edu/coca/ (дата обращения: 20.06.2018).

63.The Google Books Corpora. URL: http://www.helsinki.fi/varieng/CoRD/corpo- ra/GoogleBooks/ (дата обращения: 20.06.2018).

64.Google Books. URL: https://googlebooks.byu.edu/ (дата обращения: 20.06.2018).

65.Google Books Ngram Viewer. URL: https://books.google.com/ngrams/info (дата обращения: 20.06.2018).

66.GloWbE. URL: https://corpus.byu.edu/glowbe/ (дата обращения: 20.06.2018).

67.Koester A. Building small specialized corpora // The Routledge handbook of corpus linguistics. 2010. P. 66-80.

References

1.Kennedy, G. (1998) An Introduction to Corpus linguistics. Addison Wesley Longman limited.

2.Baker, P., Hardie, A. & McEnery, T. (2006) Glossary of Corpus Linguistics. Edinburgh University Press.

3.McEnery, T. & Hardie, A. (2012) Corpus Linguistics: Method, Theory and Practice. Cambridge University Press.

4.Cruden, A. (1737) A Complete Concordance to the Holy Scriptures of Old and New Testament. London.

5.Stubbs, J. (2007) Notes on the History of Corpus Linguistics and Empirical Semantics. In: Nenonen, M. & Niemi, S. (eds) Collocations and Idioms. Joensuu: Joensuun Yliopisto. pp. 317-329.

6.Meyer, Ch.F. (2008) Pre-electronic corpora. In: Ludeling, A. & Kyto, M. (eds) Corpus Linguistics: An International Handbook. Walter de Gruyter. pp. 1-14.

7.McCarthy, M. & O'Keeffe, A. (2010) Historical perspective: What are corpora and how have they evolved? In: O'Keeffe, A. & McCarthy, M. (eds) The Routledge Handbook of Corpus Linguistics. Routledge. pp. 3-13.

8.Strong, J. (1890) Strong's Exhaustive Concordance of the Bible. The Methodist Book Concern.

9.Becket, A. (1787) A Concordance to Shakespear: Suited to all the Editions. Printed for G.G.J. and J. Robinson.

10.Shakespear, W. (1790) Dramatic Works with Explanatory Notes. A New Ed., to which is Now Added a Copious Index to the Remarkable Passages and Words by Samuel Ayscough. London : Printed for John Stockdale.

11.Cowden Clarke, M.V. (1847) The Complete Concordance to Shakespeare: being a verbal index to all the passages in the dramatic works of the poet. Bickers and Son.

12.Tribble, C. (2010) What are concordances and how are they used. In: O'Keeffe, A. & McCarthy, M. (eds) The Routledge Handbook of Corpus Linguistics. Routledge. pp. 167183.

13.Jespersen, O. (1949) A Modern English Grammar: On Historical Principles. Copenhagen: George Allen & Unwin Ltd.

14.Korycinski, C. & Newell, A.F. (1992) Text indexing: the problem of significance. In: Holt, P.O. et al. (eds) Computers and Writing. State of the Art. Springer. pp. 149-171.

15.Busa, R. (1980) The Annals of Humanities Computing: The Index Tomisticus. Computers and the Humanities. 14. pp. 83-90.

16.Quirk, R. (1972) A Grammar of Contemporary English. Addison-Wesley Longman Ltd.

17.Svartvik, J. (2007) Corpus linguistics 25+ years. In: Faccinetti, R. (ed.) Corpus Linguistics 25 Years On. Rodopi. pp. 11-27.

18.Johansson, S. (2008) Some aspects of the development of corpus linguistics in the 1970-s and 1980-s. In: Ludeling, A. & Kyto, M. (eds) Corpus Linguistics: An International Handbook. Walter de Gruyter. pp. 33-53.

19.The Brown Corpus. [Online] Available from: https://www1.essex.ac.uk/linguistics/ external/clmt/w3c/corpus_ling/content/corpora/list/private/brown/brown.html. (Accessed: 20.06.2018).

20.Nguen, T.H., Nunavath, V. & Prinz, A. (2014) Big Data Metadata Management in Small Grids. In: Bessis, N. & Dobre, C. (eds) Big Data and Internet of Things: A Roadmap for Smart Environments. Springer. pp. 189-215.

21.The LOB Corpus. [Online] Available from: http://www.helsinki.fi/varieng/ CoRD/corpora/LOB/index.html. (Accessed: 20.06.2018).

22.Xiao, R. (2008) Well-known and influential corpora. In: Ludeling, A. & Kyto, M. (eds) Corpus Linguistics: An International Handbook. Walter de Gruyter. pp. 383-457.

23.Varieng. (n.d.) The LLC. [Online] Available from: http://www.helsinki.fi/varieng/ CoRD/corpora/LLC/index.html. (Accessed: 20.06.2018).

24.Lamel, L. & Cole, R. (1997) Spoken Language Corpora. In: Varile, G.B. et al. Survey of the State of the Art in Human Language Technology. Cambridge University Press. pp. 338391.

25.Leonard, G.R. & Doddington, G.R. (1993) TIDIGITS. [Online] Available from: https://catalog.ldc.upenn.edu/LDC93S10. (Accessed: 20.06.2018).

26.Garofolo, J.S. et al. (1993) DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus. CD-ROM. Gaithersburg, MD.

27.Resource Management Corpus. [Online] Available from: https://catalog.ldc.upenn. edu/LDC93S3C. (Accessed: 20.06.2018).

28.Tur, G. (2011) Spoken Language Understanding: Systems for Extracting Semantic Information from Speech. John Wiley and Sons.

29.UCREL. (n.d.) Corpus Annotation. [Online] Available from: http://ucrel.lancs.ac.uk/ annotation.html. (Accessed: 20.06.2018).

30.McNeill, D. (1992) Hand and Mind: What Gestures Reveal About Thought. Chicago: University of Chicago Press.

31.Rowley-Jolivet, E. (2002) Visual discourse in scientific conference papers A genre- based study. English for Specific Purposes. 21 (1). pp. 19-40.

32.ELAN. [Online] Available from: https://tla.mpi.nl/tools/tla-tools/elan/release-notes. (Accessed: 20.06.2018).

33.Crawford Camiciottol, B. & Fortanet-Gomez, I. (2015) Multimodal Analysis in Academic Settings: From Research to Teaching. Routledge.

34.Burnard, L. (2013) The Evolution of the Text Encoding Initiative: From Research Project to Research Infrastructure. Journal of the Text Encoding Initiative. 5. [Online] Available from: http://journals.openedition.org/jtei/811. DOI: 10.4000/jtei.811

35.TEI. (n.d.) TEI Guidelines. [Online] Available from: http://www.tei-c.org/Guidelines. (Accessed: 20.06.2018).

36.TEI. (n.d.) Introducing the Guidelines. [Online] Available from: https://tei- c.org/support/learn/introducing-the-guidelines/. (Accessed: 20.06.2018).

37.Meyer, Ch.F. (2004) English Corpus Linguistics: An Introduction. Cambridge University Press.

38.Kubler, H. & Zinsmeister, S. (2015) Corpus Linguistics and Linguistically Annotated Corpora. Bloomsbury Academic.

39.Leech, G. (1993) Corpus annotation schemes. Literary and Linguistic Computing. 8 (4). pp. 275-281.

40.Collins. (n.d.) The History of COBUILD.[Online] Available from:

https://www.collinsdictionary.com/cobuild/. (Accessed: 20.06.2018).

41.Sinclair, J. (1991) Corpus, Concordance, Collocation. Oxford University Press.

42.Word Bank Online (Bank of English). [Online] Available from: https://corpus.byu.edu/ coca/old/help/compare_boe.asp. (Accessed: 20.06.2018).

43.Biber, D., Conrad, S. & Reppen, R. (1998) Corpus Linguistics: Investigating Language Structure and Use. Cambridge University Press.

44.Biber, D. (1993) Representativeness in corpus design. Literary and Linguistic Computing. 8 (4). pp. 243-257.

45.Sinclair, J. (2005) Corpus and Text - Basic Principles. In: Wynne, M. (ed.) Developing Linguistic Corpora: a Guide to Good Practice. Oxbow Books. pp. 1-16.

46.Tognini-Bonelli, E. (2001) Corpus Linguistics at Work. Amsterdam: John Benjamins.

47.The Longman Corpus Network. [Online] Available from: http://www.longmandicti- onari-esusa.com/longman/corpus. (Accessed: 20.06.2018).

48.The British National Corpus. [Online] Available from: http://www.natcorp.ox.ac.uk. (Accessed: 20.06.2018).

49.Leech, G. (n.d.) A Brief Users' Guide to the Grammatical Tagging of the British National Corpus. [Online] Available from: http://www.natcorp.ox.ac.uk/docs/gramtag.html. (Accessed: 20.06.2018).

50.UCREL. (n.d.) UCREL CLAWS5 tagset. [Online] Available from: http://ucrel.lancs. ac.uk/claws5tags.html. (Accessed: 20.06.2018).

51.UCREL. (1996) Introduction by word-class to the claws7 tagging scheme. [Online] Available from: http://www.natcorp.ox.ac.Uk/docs/claws7.html#_Toc334867959. (Accessed: 20.06.2018)

52.UCREL Semantic Analysis System (USAS). [Online] Available from: http://ucrel.lancs. ac.uk/usas/. (Accessed: 20.06.20180.

53.The International Corpus of English. [Online] Available from: http://www.ucl.ac.uk/ english-usage/projects/ice.htm. (Accessed: 20.06.2018).

54.Laurence, A. (2013) A critical look at software tools in corpus linguistics. Linguistic Research. 30 (2). pp. 141-161.

55.Davies, M. (2015) Corpora: an introduction. In: Biber, D. & Reppen, R. (eds) The Cambridge Handbook of English Corpus Linguistics. Cambridge University Press. pp. 11-31.

56.Mauranen, A. (2013) Speaking professionally in L2. In: Bamford, J., Cavalereri, S. & Diani, G. (eds) Variation and Change in Spoken and Written Discourse: Perspectives from Corpus Linguistics. Amsterdam: Benjamins. pp. 5-31.

57.Kuebler, S. & Zinsmeister, H. (2015) Corpus Linguistics and Linguistically Annotated Corpora. London: Bloomsbury Publishing.

58.Flowerdew, L. (2004) The argument for using English specialized corpora to understand academic and professional language. In: Connor, U. & Upton, T. (eds) Discourse in the Professions: Perspectives From Corpus Linguistics. Amsterdam: Benjamins. pp. 11-33.

59.Biber, D. (2006) University Language: A Corpus-based Study of Spoken and Written Registers. Amsterdam: John Benjamins.

60.Hyland, K. (2008) As it can be seen: Lexical bundles and disciplinary variation. English for Specific Purposes. 27. pp. 4-21.

61.Rayson, P. (2015) Computational tools and methods for corpus compilation and analysis. In: Biber, D. & Reppen, R. (eds) The Cambridge Handbook of English Corpus Linguistics. Cambridge University Press. pp. 32-49.

62.The Corpus of Contemporary American English. [Online] Available from: https://corpus.byu.edu/coca/. (Accessed: 20.06.2018).

63.The Google Books Corpora. [Online] Available from: http://www.helsinki.fi/varieng/ CoRD/corpo-ra/GoogleBooks/. (Accessed: 20.06.2018).

64.Google Books. [Online] Available from: https://googlebooks.byu.edu/. (Accessed: 20.06.2018).

65.Google Books Ngram Viewer. [Online] Available from: https://books.google.com/ ngrams/info. (Accessed: 20.06.2018).

66.GloWbE. [Online] Available from: https://corpus.byu.edu/glowbe/. (Accessed: 20.06.2018).

67.Koester, A. (2010) Building small specialized corpora. In: O'Keeffe, A. & McCarthy, M. (eds) The Routledge Handbook of Corpus Linguistics. Routledge. pp. 66-80.

Размещено на Allbest.ru


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.