Возможности корпусной лингвистики для исследования квантификаторов английского языка

Особенности использования инструментов корпусного анализа в исследовании квантификаторов в английском языке. Преимущества корпусных исследований в сравнении с традиционными. Условия частотности встречаемости конкретных квантификаторов и их сочетаемости.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 12.12.2018
Размер файла 602,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

ISSN 1997-2911 Филологические науки. Вопросы теории и практики, № 6 (24) 2013, часть 2 83

Тамбовский государственный университет им. Г.Р. Державина

Возможности корпусной лингвистики для исследования квантификаторов английского языка

Деревянкина Светлана Алексеевна

Аннотация

Статья посвящена использованию инструментов корпусного анализа в исследовании квантификаторов в английском языке. Показаны преимущества корпусных исследований в сравнении с традиционными. Исследование позволило выявить частотность встречаемости конкретных квантификаторов, их сочетаемость, тенденцию к употреблению в ряде устойчивых сочетаний, а также тяготение к конкретным стилям речи и жанрам текстов.

Ключевые слова и фразы: корпусная лингвистика; электронный корпус; частотность употребления языковых единиц; квантификаторы.

Annotation

The author considers the use of corpus analysis tools in the research of quantifiers in the English language, shows the advantages of corpus researches in comparison with traditional ones, and concludes that the research allows revealing the frequency of specific quantifiers occurrence, their collocability, the tendency of use in a number of stable collocations, as well as the inclination to particular speech styles and texts genres.

Key words and phrases: corpus linguistics; electronic corpus; frequency of language units use; quantifiers.

В настоящее время все больше и больше внимания уделяется тому, как компьютерные технологии могут способствовать исследованию различных языковых явлений. Одним из инструментов такого исследования является электронный корпус языка, который представляет собой набор текстов, собранных в единую систему по определенным признакам (жанру, времени создания текста, автору и т.д.) и снабженных поисковой системой.

Корпусное исследование оперирует инструментарием, позволяющим обрабатывать колоссальные объемы языкового материала (как устного, так и письменного), что гарантирует типичность данных и обеспечивает полноту представления всего спектра языковых явлений. Кроме того, данные разного типа находятся в корпусе в своей естественной контекстной форме, что создает возможность их всестороннего и объективного изучения.

За последнее время было создано множество национальных корпусов. Национальный корпус - это информационно-справочная система, содержащая собрание текстов в электронной форме, которые представляют определенный язык во всем его многообразии стилей, жанров, территориальных вариантов и т.п. Такая система имеет две важные особенности. Первая ее особенность - репрезентативность. Это означает, что в корпус должны быть включены по возможности все типы письменных и устных текстов, существующих на данном языке в данном временном отрезке, причем все эти тексты должны входить в корпус пропорционально их доле в языке соответствующего периода. Но для решения различных лингвистических задач мало лишь наличия массива текстов. Также необходимо содержание в текстах различной дополнительной лингвистической и экстралингвистической информации. Поэтому второй особенностью корпуса является наличие разметки. Текстам приписываются специальных метки. Они могут быть экстралингвистическими (например, сведения об авторе и сведения о тексте: автор, название, год и место издания, жанр, тематика), структурными (например: глава, предложение, словоформа) и собственно лингвистическими, описывающими лексические, грамматические и прочие характеристики элементов текста [3, с. 5]. Наличие этих данных значительно расширяет возможности, предоставляемые корпусами исследователям.

Что касается корпусов английского языка, то они появились одними из самых первых и на данный момент существует достаточно большое их количество. Одними из самых известных и распространенных являются Британский национальный корпус (The British National Corpus - BNC) и Корпус американского варианта современного английского языка (Corpus of Contemporary American English - COCA).

Британский национальный корпус является одним из первых национальных корпусов, по образцу которого создавались многие современные корпуса различных языков. Объем корпуса 100 млн слов. Корпус включает метатекстовую и морфологическую разметку. В нем представлены письменная речь (90%), включая самые разнообразные по жанру, стилю и тематике тексты, такие как газетные и журнальные публикации, письма, школьные эссе и т.п., и устная речь (10%). Он отражает состояние британского варианта английского языка конца ХХ - начала ХХI в. [5].

С помощью корпусного менеджера XAIRA можно искать конкретную словоформу; все формы одной лексемы по лемме (по исходной форме слова); словосочетания, включая разрывные; выбранные грамматические формы лексемы (например: clean - только как прилагательное, но не как глагол); осуществлять более сложный поиск с использованием специального языка (CQL - язык запроса к корпусу); искать более сложные конструкции с использованием специального конструктора запросов; получать информацию об источниках примеров, информацию об относительной частоте, информацию о частоте коллокаций и т.д.

Корпус американского варианта современного английского языка является самым большим, свободно распространяемым корпусом американского варианта английского языка. Его объем - 445 млн словоупотреблений. Корпус содержит в одинаковых пропорциях устную речь, художественную литературу, журнальные статьи, газетные публикации, научные тексты. Каждый год периода с 1990 по 2009 гг. представлен текстами объемом 20 млн слов. Корпус обновляется один или два раза в год [6]. квантификатор сочетаемость английский язык

Поисковый интерфейс позволяет искать как слова, так и словосочетания, леммы, а также осуществлять грамматический поиск, поиск синонимических рядов, осуществлять поиск по спискам пользователя. Можно получить как все контексты, в которых встречается интересующее пользователя поисковое выражение, так и информацию о распределении частоты употребления этого языкового выражения по жанрам и по годам [4].

Рассмотрим более подробно некоторые возможности корпусов и приведем примеры их использования для исследования квантификаторов в английском языке.

Одной из наиболее значимых возможностей, которую дает корпус, является возможность извлечения статистической информацию о частотности употребления языковых единиц. Например, анализ данных с помощью COCA показал, что some является наиболее употребительным квантификатором в английском языке. Частотность употребления изученных квантификаторов показана в Таблице 1.

Таблица 1. Частотность употребления англоязычных квантификаторов (COCA)

п/п

Лексема

Количество словоупотреблений

1.

some

767141

2.

many

436768

3.

much

424028

4.

any

398577

5.

few

225621

6.

a lot

211408

Кроме того, применение корпуса предоставляет возможность получения данных об окружении исследуемых языковых единиц для анализа их сочетаемости с другими языковыми единицами. Можно уточнять параметры поиска по многим критериям. Можно указывать требуемое количество лексем в препозиции и/или в постпозиции, выводимые единицы можно фильтровать по частям речи и стилистической принадлежности и т.д. [2, с. 85]. Например, в Таблице 2 показано, какие единицы являются наиболее частотными в ближайшей постпозиции слова much.

Таблица 2. Наиболее частотные слова в ближайшей постпозиции квантификатора much

в списке

Лексема

Количество словоупотреблений

1.

of

45785

2.

more

32496

3.

as

32364

4.

for

28659

5.

to

16271

6.

better

13991

7.

less

12879

8.

about

7655

При ограничении поиска конкретной частью речи (например, существительным) в ближайшей постпозиции слова much были получены данные, представленные в Таблице 3.

Таблица 3. Наиболее частотные существительные в ближайшей постпозиции квантификатора much

в списке

Лексема

Количество словоупотреблений

1.

time

6209

2.

money

5030

3.

attention

2367

4.

fun

2032

5.

trouble

997

6.

energy

679

7.

weight

629

8.

pressure

609

Инструменты корпусного анализа также позволяют установить тяготение лексических единиц к определенному виду дискурса. Корпус COCA предоставляет возможность исследования лексем в различных по тематике и стилистической окрашенности текстах: устная и письменная речь (художественная, газетная, журнальная, академическая). Более того, возможен просмотр полученных результатов в контексте с указанием источника. Рассмотрим пример использования некоторых квантификаторов в различных видах дискурса.

Рис. 1. Использование квантификаторов в устной речи, художественной литературе, газетах, журналах, учебных и научных публикациях (COCA)

Как видно из диаграммы (Рисунок 1), наибольшее число квантификаторов используется в устной речи. Это можно объяснить спецификой последней, в том числе особых оценочных, или модальных, фраз, выражающих, например, неуверенность: to some extent, some+what, some+how, any+way, any+how и др.

Г. А. Вейхман утверждает, что квантификатор lots of имеет разговорную стилистическую окраску, тогда как a large number (of) характерен для письменного стиля [1, с. 15]. Все это легко можно проверить при помощи инструментов корпусного анализа, подкрепляя это действительно большим количеством наблюдений (см. Рисунок 2).

Рис. 2. Использование квантификаторов lots of и a large number (of) в устной речи, художественной литературе, газетах, журналах, учебных и научных публикациях (COCA)

Также электронные корпуса дают возможность сравнить использование различных лексических единиц в разные периоды времени.

Рассмотрим количество употреблений квантификатора a good deal of в корпусе текстов COCA в период с 1995 по 2012 гг.

Рис. 3. Данные корпусного исследования употребления квантификатора a good deal of в 1995-2012 гг.

Результаты корпусного исследования показывают, что количество употреблений квантификатора a good deal of систематически снижалось в период с 1995 по 2012 гг.

Таким образом, можно утверждать, что инструменты корпусного анализа действительно эффективны при исследовании квантификаторов. Небольшой набор примеров того или иного языкового явления, полученный исследователем, не выдержит конкуренции с многомиллионным электронным корпусом, возможности и преимущества использования которого очевидны. В исследовании квантификаторов корпусный анализ может быть эффективным методом как с точки зрения квантитативного, так и квалитативного компонента. Это подтверждается проведенным нами сравнительным анализом квантификаторов английского языка, который показал, в частности, что каждая из данных единиц имеет определенную частотность употребления в текстах корпуса, сочетаемость с различными языковыми единицами, а также характерность использования в определенных устойчивых словосочетаниях, стилях речи и жанрах текстов.

Список литературы

1. Вейхман Г. А. Новое в английской грамматике: учеб. пособие. М.: Высшая школа, 1990. 128 с.

2. Голечкова Т. Ю. Использование корпусных данных при исследовании дискурсивных характеристик наименования человека в английском языке // Вестник Московского государственного лингвистического университета. 2012. № 5. С. 83-89.

3. Захаров В. П. Корпусная лингвистика: учеб.-метод. пособие. СПб.: Изд-во СПбГУ, 2005. 48 с.

4. Корпуса английского языка [Электронный ресурс] // Образовательный портал Национального корпуса русского языка. URL: http://studiorum.ruscorpora.ru/index.php?option=com_content&view=article&id=213&Itemid=4 (дата обращения: 01.04.2013).

5. BYU - BNC British National Corpus [Электронный ресурс]. 100 million words, UK, 1980s-1993. Brigham Young University. URL: http://corpus.byu.edu/bnc/ (дата обращения: 01.04.2013).

6. The Corpus of Contemporary American English (COCA) [Электронный ресурс]. 450 million words, 1990-2012. Brigham Young University. URL: http://corpus.byu.edu/coca/ (дата обращения: 01.04.2013).

Размещено на Allbest.ru


Подобные документы

  • Слова категории состояния в системе частей речи английского языка, их понятие и содержание, семантические группы. Сравнительный анализ частотности слов категории состояния, их комбинаторика и особенности функционирования в современном английском языке.

    дипломная работа [78,5 K], добавлен 11.11.2011

  • История и основные направления развития английского разговорного языка, его особенности и закономерности словотворчества. Проведение анализа некоторых выражений. Понятие идиом, их разновидности и специфика употребления в английском разговорном языке.

    презентация [1,2 M], добавлен 18.09.2012

  • Теоретические основы исследования современной пунктуации как исторически сложившейся системы. Ключевые принципы системы современной пунктуации. Особенности пунктуации современного английского языка. Употребление знаков препинания в английском языке.

    курсовая работа [72,1 K], добавлен 23.11.2019

  • Характеристика словообразования в современном английском языке. Функции, единицы и модели описания. Проблема языковой нормы и дифференциации функциональных стилей английского языка. Об основных характеристиках английского научно-технического текста.

    курсовая работа [156,1 K], добавлен 07.09.2009

  • Фразеология как объект лингвистического исследования. Классификации фразеологических единиц английского языка. Предмет и задачи фразеологии. Первичная и вторичная фразеологизация. Происхождение фразеологических единиц в современном английском языке.

    курсовая работа [79,5 K], добавлен 20.11.2013

  • Омонимы и их место в системе английского языка. Трудности разграничение омонимии и полисемии, словообразовательные конверсивы. Источники омонимии в английском языке. Подходы к классификации омонимов в английском языке: Лайонз, Скит, Смирницкий, Арнольд.

    курсовая работа [193,6 K], добавлен 26.03.2011

  • Исторические аспекты в формировании американизмов. Становление американского варианта английского языка. Появление американизмов в современном варианте английского языка. Грамматические, фонетические и лексикологические особенности американизмов.

    курсовая работа [60,3 K], добавлен 14.03.2015

  • Имя существительное (the noun) как часть речи. Категория числа имен существительных. Категория рода в английском языке. Подходы к классификации имен существительных в английском языке. Сложности перевода с английского языка.

    курсовая работа [50,0 K], добавлен 21.09.2006

  • Классификация научных текстов. Экспрессивность и образность в научном стиле английского языка. Синтаксические и лексические особенности и стилеобразующие факторы научного стиля в английском языке. Лексический состав научной и технической литературы.

    курсовая работа [43,7 K], добавлен 02.12.2014

  • Неличные формы глагола в английском языке. Грамматические категории инфинитива, особенности употребления частицы to с ним, структурно-семантические особенности. Инфинитив в функции члена предложения, его конструкции в грамматике английского языка.

    дипломная работа [74,9 K], добавлен 25.11.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.