Корпусная лингвистика: исторический и лингводидактический аспекты
Рассмотрение основных этапов развития корпусной лингвистики. Описание предпосылок ее развития и отраслей языкознания, которые положили начало корпусной лингвистике. Спорные вопросы о статусе корпусной лингвистики как самостоятельной научной дисциплины.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | русский |
Дата добавления | 20.04.2018 |
Размер файла | 45,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
КОРПУСНАЯ ЛИНГВИСТИКА: ИСТОРИЧЕСКИЙ И ЛИНГВОДИДАКТИЧЕСКИЙ АСПЕКТЫ
Майорова А.Д.
Развитие корпусной лингвистики, а также построение корпусов является одной из актуальных проблем современного языкознания. На данный момент использование корпусов играет ведущую роль при проведении большинства лингвистических исследований. Хотя еще в первой половине ХХ века было возможно построение корпусов только вручную. Это отнимало массу времени, сил и затрат. Поэтому обращение к корпусам текстов было минимальным и лишь в том случае, когда большое количество людей было в этом заинтересовано. Но благодаря развитию корпусной лингвистики использование корпусов стало возможным повсеместно. Структурировать и синхронизировать материал стало гораздо легче, а затраты резко снизились.
Важность развития корпусной лингвистики не вызывает никаких сомнений. В ней объединены многие положительные свойства гуманитарных и технических наук. Но возникнув относительно недавно, она не успела полностью сформироваться, и ее статус как независимой науки еще не установлен. Так, многие ученые рассматривают корпусную лингвистику в качестве подобласти традиционной. Они утверждают, что она имеет лишь прикладное применение, а теоретические обоснования отсутствуют. По их мнению, корпусная лингвистика является улучшенной методикой сбора и обработки материала, новым информационным ресурсом. С другой стороны, если есть прикладная корпусная лингвистика, почему не может быть и теоретической, т.е. дисциплины, обладающей собственным предметом, методом и теорией. Отсутствие теоретической базы на данный момент не влияет на возможность ее разработки в будущем.
В середине XIX в. в научной среде главенствовал рациональный подход, основанный «на лингвистической интуиции, проводящей различие между правильными и неправильными конструкциями» [1, С. 14]. В противовес такому подходу появляется эмпирический подход, который предлагает рассматривать язык как «ресурс, обеспечивающий набор возможности для коммуникации» [1, С. 14]. Развитие такого подхода и послужило началом создания корпусной лингвистики. Многие технологии, которые сейчас используются при построении корпусов, были изобретены задолго до появления компьютеров и электронных ресурсов. Некоторые из них использовались еще в XVIII - XIX веках, когда лингвистику начали считать самостоятельной и независимой научной дисциплиной. Захаров В.П. в учебнике «Корпусная лингвистика» называет технологии, которые повлияли на создание корпусов. Он выделяет три основные области лингвистических исследований, которые вошли в основу корпусной лингвистики, хотя и отмечает, что их было гораздо больше [2, С. 25].
Первой такой областью он выделяет сравнительно-историческое языкознание. Ученые, работающие в этой области, всегда обращались к огромному количеству различных текстов. Применение технологий по реконструкции праязыков можно встретить и в современной лингвистике. Второй областью, которой Захаров В.П. отдает предпочтение, является составление грамматик и словарей и обучение языку. Действительно, любое грамматическое правило необходимо проиллюстрировать. И в этом случае примеры из текста отлично смогут в этом помочь. Корпусы как источники эмпирических данных играют важную роль при обучении иностранному языку. Последней областью, повлиявшей на развитие корпусов, является социолингвистика. Еще в XIX веке ученые начинают разрабатывать диалектные карты и составлять сборники диалектных отношений. При этом необходимо было учитывать различные критерии при составлении пособий по диалектам. Все эти факторы и послужили началом корпусной лингвистики.
На данный момент корпусная лингвистика успешно развивает технологии и методы, которые привели к ее зарождению. Также не стоит забывать и о технической стороне вопроса. Произошел резкий скачок в развитие компьютерных и информационных технологий. Данные возможности начали успешно применять в лингвистике и языкознание. Благодаря развитию и популяризации мирового Интернета, огромное количество пользователей из разных стран могли воспользоваться данными из корпуса. К тому же больше не возникала проблема полноты и расширенности корпусов. Большинство исследований в области корпусной лингвистики было проведено на материале английских текстов. На это есть две основные причины: во-первых, происходит активное развитие компьютерной техники в Северной Америке и Западной Европе, а во-вторых, складывается благоприятный климат для развития британской лингвистики в 60-80е гг. ХХ в.
Первым лингвистическим корпусом принято считать Брауновский корпус (Brown Corpus). Он был разработан в 1963 году сотрудниками Брауновского Университета, У. Френсис и Г. Кучера. Объем первого корпуса представляется собой 1 млн. словоупотреблений, т.е. в его состав входит 500 фрагментов объёмом по 2000 словоупотреблений из текстов, изданных в 1961 г. в США, разных жанров: художественные тексты известных писателей и поэтов, статьи из газет и журналов, примеры письменной деловой речи и тексты на религиозную тематику. Существует несколько причин создания Брауновского корпуса. В первую очередь, это обеспечение системного исследования английских текстов, принадлежащих к различным жанрам. Во-вторых, предоставление достаточного количества материала для сравнения этих данных. В-третьих, привлечение интереса многих ученых к появлению новой научной дисциплины. Это был прорыв в прикладной лингвистике, который вызвал много споров и дискуссий. Что касается составления самого корпуса, то он строился, с одной стороны, на основе статистических данных, а, с другой стороны, на опыте и интуиции ученых. Чтобы достичь объективности, было необходимо использование простых и прозрачных текстов.
Позднее в 1971-78 годах, по примеру своих американских коллег, европейские ученые занялись составлением другого корпуса текстов. Он получил название Ланкастерско-Осло-Бергенский корпус британского варианта современного английского языка (The Lancaster-Oslo/Bergen Corpusof British English, LOB). Составлением данного словаря занимались в основном британские и норвежские ученые. Они руководствовались теми же принципами, что и ученые из Брауновского Университета. На период создания он состоял из 500 текстов, принадлежащих к различным жанрам, объемом 2000 словоупотреблений.
Наиболее популярным на данный момент является Британский национальный корпус (BritishNational Corpus, BNC).Создан он был 1991-1994 гг. исследователями из Оксфордского Университета и Университета Ланкастер. Его объем составляет 100 млн. словоупотреблений и он значительно больше, чем его предшественники. По составу он на 90% состоит из письменных текстов и на 10% из устных. Тексты принадлежат к концу ХХ века и представляют различные жанры. В нем можно встретить газетные статьи, научно-популярную литературу, примеры деловой переписки, тексты на религиозную тематику, транскрибированные записи неофициальной речи, радио-шоу, правительственной речи и пр.
Стоит отметить, что именно Британский корпус получил статус «национальный» первым. Плунгян В.А. пишет, что «для британцев слово «национальный» означало в первую очередь «характеризующий британский национальный вариант английского языка». Ведь существуют также американский и австралийский вариант английского языка. Но спустя время данный корпус стал эталоном всех корпусов и значение слова «национальный» несколько изменилось. Национальным стали называть корпус, который является самым большим и представительным и который, характеризует язык данной страны в целом. Плунгян В.А. отмечает, что национальный корпус должен быть не просто большим по объему, но и содержать тексты различных жанров во всем их многообразии в данный исторический период, и при этом содержать их в правильной пропорции [3, С. 7].
Многие страны по примеру Британского Национального Корпуса решили создать свои национальные корпуса. Россия не является исключением. На протяжении семи лет с 2003 по 2010 гг. ученые работали над созданием единой текстовой базой. Ассоциация «Национальный корпус русского языка» предложила сотрудничество компании «Яндекс» и при их технической поддержке был разработан сайт, на котором и размещен нынешний вариант Национального корпуса русского языка. В его составе находится более 163 млн. словоупотреблений за период от середины XVIII до начала XXI века. Благодаря наличию текстов из различных эпох в нем можно найти примеры как современных, так и исторических текстов. При этом тексты принадлежат к литературному, разговорному, официально-деловому и научному стилям. Национального корпуса русского языка содержит много примером просторечий, жаргонизмов и диалектов. На официальном сайте Национального корпуса русского языка есть справочная статья о значение термина «корпус», о правилах пользования, а так же четко определяется цель его создания. Также там описана структура Национального корпуса. На данный момент он состоит из следующих разделов:
· Основной корпус (прозаические письменные тексты XVIII -- начала XXI века);
· Синтаксический корпус (в котором для каждого предложения построена полная морфологическая и синтаксическая структура);
· Газетный корпус (статьи из СМИ 1990-2000-х годов);
· Параллельные корпуса (в которых можно найти все переводы для определенного слова или словосочетания на русский язык или с русского языка);
· Корпус диалектных текстов;
· Корпус поэтических текстов;
· Обучающий корпус русского языка (корпус со снятой омонимией, разметка которого ориентирована на школьную программу русского языка);
· Корпусной устной речи;
· Мультимедийный корпус (включает снабженные видео- и аудиорядом фрагменты кинофильмов 1930--2000-х годов.
· Корпус истории русского ударения (тексты, несущие информацию об истории русского ударения);
Как можно видеть из структуры, Национальный корпус охватывает почти все грани языка.
Стоит отметить, что национальный корпус является не единственным корпусом русского языка. Грудева Е.В. в своей работе «Корпусная лингвистика» выделяет еще несколько корпусов [4, С. 35]. Первым из них является Упсальский корпус русского языка (The Uppsala Russian Corpus). Он является первым корпусом русского языка. Над созданием Упсальского корпуса работали ученые из университета Упсалы в Швеции в конце 1980-х - начале 1990-х гг. Он включает в себя 600 фрагментов художественных и информативных текстов объемом около 1 млн. словоупотреблений.
Также стоит обратить внимание на еще один корпус русского языка. Разработан он был в 1999 - 2004 гг. в Германии, в Тюбингенском университете. Свое название получил согласно месту, где был создан (Тюбингенский корпус русского). Разработан он был на основе Упсальского корпуса, но количество словоупотреблений выросло до 25 млн. словоупотреблений.
Вернемся на несколько десятилетий назад, к тому моменту, когда начались рьяные споры о ее статусе как о независимой дисциплине. Хочется напомнить, что в 60-80-ые годы XX в., когда начали создаваться первые корпусы в США и Западной Европе, в научной среде главенствовал рациональный (хомскианский) подход. Ноам Хомский и его сторонники разделяли мнение, что построение правильных и неправильных языковых конструкций может быть осуществлено только лишь на основе интуиции носителей языка. Американский лингвист был ярым противником корпусного подхода, и этому есть много подтверждений. Известен ответ Н. Хомского на вопрос интервьюера о том, как Хомский относится к корпусной лингвистике: «Таковой не существует» [5, С. 195]. А в одной из телеконференций Corpora-List сторонники Н. Хомского вступили в дискуссию об иррелевантности корпусов [6, С. 334]. Сторонник Н. Хомского, профессор Роберт Лиз в 1962 году на одной из конференций в Университете Браун заявил, что создание корпуса «бессмысленная трата вашего времени и правительственных денег. Вы - носитель английского языка; в течение десяти минут вы способны представить больше примеров на любое явление английской грамматики, чем сможете найти во многих миллионах слов случайных текстов» [7, С. 26]. Доля истины в их утверждениях, несомненно, присутствует, тем не менее, у корпусной лингвистики нашлось немало сторонников, как среди ученых, так и в правительстве. Все больше и больше средств стало выделяться на создание и модернизацию корпусов. «В настоящее время лингвистика во многом избавилась от раннегенеративистских иллюзий, в частности, от уверенности, что лингвистические механизмы как таковые могут быть познаны с привлечением весьма ограниченного набора примеров (обычно сочиненных самим лингвистом). На смену этим достаточно наивным представлениям приходит понимание необходимости строить исследование даже самого «мелкого» фрагмента языковой системы с использованием репрезентативного множества текстов соответствующего языка» [8, С. 94]. В качестве множества текстов, конечно, выступает лингвистический корпус. Хотя критерии репрезентативности такого корпуса еще недостаточно ясны, задача, которую ставят перед корпусом, уже вполне определена. «Корпус должен обладать количественными и качественными параметрами, необходимыми и достаточными для построения на его основе адекватных словаря и грамматики соответствующего языка» [8, С. 93].
При создании Национального корпуса ученые, конечно, задавались очевидным вопросом: для кого же корпус окажется полезным? В каких сферах жизни его можно применить? На этот вопрос достаточно полно ответил Плунгян В.А. в своей работе «Зачем нужен Национальный корпус русского языка?». В первую очередь, он является неоценимым инструментом для профессиональных лингвистов: «Они, так или иначе, имеют дело с фактами языка, а значит, должны эти факты собирать и систематизировать» [3, С. 8]. Во-вторых, он очень полезен для программистов. Неудивительно, что они сразу поддержали идею о его создании. Конечно, лингвистический корпус пригодится и для людей, связавших свою жизнь со словом, например, писателей, редакторов газет и журналов. Любой сложный момент можно проверить, обратившись к корпусу.
И, наконец, отличным помощником корпус станет для преподавателей и учителей, как в школе, так и в ВУЗе. В ведущих вузах мира становится повседневной практикой использование корпусных данных в качестве материала для лекционных курсов, студенческих заданий и самостоятельных проектов.
Во всем мире в высших учебных заведениях данные из лингвистических корпусов применяются при составлении различных лекционных курсов и заданий для студентов. Многие студенты сами используют корпусные данные при работе над проектами и домашними заданиями. Можно предположить, что студенты, поощряемые к самостоятельному изучению языка, его особенностей и черт, овладевают языковыми компетенциями быстрее и эффективнее, чем те, кому вбиваются в голову правила.
На данный момент одним из самых популярных направлений корпусного подхода в обучении иностранному языку является обучение с помощью корпусов, или data-driven learning (DDL). Суть данного обучения заключается в том, что студенты используют «сырые» языковые данные напрямую из корпуса. Это направление основано на предположении, что студенты могут гораздо более эффективно осваивать язык, когда в процессе обучения поощряется использование модели наблюдай - предполагай - экспериментируй, т.е. когда они имеют возможность делать собственные выводы относительно значений слов, фраз, грамматических правил на основе языкового материала. Процесс не обязательно ограничен терминалом компьютера. Результаты корпусных поисков (конкордансов) в распечатанном виде могут быть легко инкорпорированы в раздаточный материал, методические пособия и т.п.
Корпусный подход при обучении иностранному языку меняет характер учебной деятельности учащегося и ставит его в центр процесса обучения. Роль учителя будет заключаться в организации и осуществлении контроля исследовательской деятельности учеников. При этом формирование способности обучающихся к автономному овладению лингвистическими знаниями и умениями потребует от педагога определенных усилий по созданию методических материалов. Как отмечает Н.Л. Байдикова, «одна из функций педагога по организации обучения эффективным приемам самостоятельной работы - методическое обеспечение данного процесса. Разработка пособий представляется важнейшей задачей, иначе организация самостоятельной работы студентов превращается в трудоемкий, громоздкий и неэкономичный процесс» [9, С. 108]. Следует быть готовым, что корпус не всегда выдаст данные, соответствующие толковому словарю. Многие примеры могут быть сложны для понимания учащихся.
Таким образом, лингвистический корпус - это средство для решения не только научных, но и учебно-методических задач. Польза от ее применения в различных областях не вызывает никаких сомнений, хотя теоретическая база еще до конца не проработана. Именно поэтому ученые до сих пор не могут ответить на вопрос: «Что же такое корпусная лингвистика: новая научная дисциплина или всего лишь информационный ресурс?» Мы надеемся, что в скором времени ответ на этот вопрос будет найден и корпусная лингвистика станет независимой научной дисциплиной.
корпусный лингвистика языкознание научный
Список литературы
1. Шаров С.А. Представительный корпус русского языка в контексте мирового опыта / С.А. Шаров // Научно-техническая информация. - Сер. 2. - - № 6. - С. 12-16.
2. Захаров В.П. Корпусная лингвистика: учеб.-метод. Пособие / В.П. Захаров. - СПб., 2005. - 48 с.
3. Плунгян В.А. Зачем нужен Национальный корпус русского языка? Неформальное введение / В.А. Плунгян // Национальный корпус русского языка: 2003 - 2005. - М.: Индрик. - - С. 6 - 20.
4. Венцов А.В., Грудева Е.В., Касевич В.Б., Ягунова Е.В. Национальный корпус русского литературного языка: некоторые результаты, приложения и задачи / Венцов А.В., Грудева Е.В., Касевич В.Б., Ягунова Е.В. // Научно-техническая информация. - Сер. 2. - - № 6. - С. 35-36.
5. Венцов А.В., Грудева Е.В. О корпусе русского литературного языка / А.В. Венцов, Е.В. Грудева // Russian Linguistics. - - № 2. - С. 195 - 209.
6. Фрэнсис У.Н. Проблемы формирования и машинного представления большого корпуса текстов / У.Н. Фрэнсис // Новое в зарубежной лингвистике. Выпуск Проблемы и методы лексикографии. - М.: Прогресс. - 1983. - С. 334 - 335
7. Венцов А.В., Касевич В.Б., Ягунова Е.В. Корпус русского языка и восприятие речи / А.В. Венцов, В.Б. Касевич, Е.В. Ягунова // Научно-техническая информация. - Сер. 2. - - № 6. - С. 25 - 27.
8. Грудева Е.В Корпусная лингвистика: учеб. пособие / Е.В. Грудева. - 2-е изд., стер. - М.: ФЛИНТА, 2012. - 165 с.
9. Байдикова Н.Л. Формирование учебной компетенции у студентов языковых факультетов вузов в процессе обучения теоретическим дисциплинам / Н.Л. Байдикова // Актуальные проблемы международного сотрудничества в области науки и образования: Материалы III международной научно-практической конференции (заочной). - Тамбов: ТГУ им. Г. Р. Державина. - - С. 105 - 109.
10. Brown Corpus: [электронный ресурс]: http://clu.uni.no/icame/brown/bcm.html#bc3 (дата обращения: 05.04.2017).
11. The Lancaster-Oslo/Bergen Corpus of British English, LOB: [электронный ресурс]: http://clu.uni.no/icame/manuals/LOB/INDEX.HTM (дата обращения: 05.04.2017).
12. British National Corpus, BNC: [электронный ресурс]: http://www.natcorp.ox.ac.uk/ (дата обращения: 05.04.2017).
13. Национальный корпус русского языка: [электронный ресурс]: http://www.ruscorpora.ru/index.html (дата обращения: 05.04.2017).
14. The Uppsala Russian Corpus: [электронный ресурс]: http://www.slaviska.uu.se/korpus.htm (дата обращения: 05.04.2017).
15. Тюбингенский корпус русского языка: [электронный ресурс]: http://www.sfb441.uni-tuebingen.de/b1/- en/korpora.html (дата обращения: 05.04.2017).
Размещено на Allbest.ru
Подобные документы
Основные понятия корпусной лингвистики. Общая характеристика Национального корпуса русского языка. Изучение лексических категорий многозначности и омонимии, синонимии и антонимии. Использование данных Корпуса при изучении синтаксиса и морфологии.
дипломная работа [95,5 K], добавлен 07.11.2013Современная лингвистика как продукт длительного исторического развития лингвистического знания. Характеристика основных этапов развития и методология лингвистики. Философия языка XIX и ХХ вв. Становление психолингвистики как науки, ее методология.
курсовая работа [52,7 K], добавлен 26.08.2011Рассмотрение языкознания как науки на современном этапе развития, а также этапов ее становления, связи с другими науками. Описание языкознания как разветвленной многоаспектной лингвистики, имеющей связи практически со всеми областями современного знания.
реферат [28,9 K], добавлен 06.09.2015Текст как объект лингвистики. Становление лингвистики текста как самостоятельной научной дисциплины. Объект и предмет лингвистики текста. Характеристика и реализация газетно-публицистического стиля. Использование артикля в газетно-публицистическом стиле.
реферат [34,3 K], добавлен 09.03.2011Введение основных понятий корпусной лингвистики. Понятие учебного корпуса и лингвистической разметки. Обзор разработок мультимодальных корпусов и изучение их структуры. Создание русско-немецкого подкорпуса. Разметка текстов и аннотирование данных.
курсовая работа [2,0 M], добавлен 20.06.2014Контрастивная лингвистика как отрасль современного языкознания, ее объект, предмет исследования. Цели и задачи контрастивной лингвистики, описание ее методологии и методов. Особенности понятия конгруэнтности и эквивалентности в контрастивной лингвистике.
реферат [28,5 K], добавлен 30.08.2011Демократизация общества как причина появления прикладной лингвистики. Возникновение и основные принципы правовой лингвистики, темы исследований и тенденции дисциплины. Сферы соприкосновения языка и права. Переводы юридических текстов и лексикографии.
реферат [22,2 K], добавлен 09.12.2010Теоретические аспекты формирования когнитивной лингвистики, лингвокультурологии, контрастивной лингвистики и направлений современного языкознания. Лингвистический анализ картины мира двуязычных индивидов путем когнитивного, традиционного исследования.
учебное пособие [1,0 M], добавлен 09.11.2010Частички "коммуникативного фонда" славянского и европейских языков. Тенденция к секуляризации указательных слов в современной лингвистике, в функциональном плане. Типы научной парадигмы и партикулы. Парадигматическая и непарадигматическая лингвистика.
курсовая работа [54,6 K], добавлен 28.07.2009Доминантные тенденции лингвистики ХХ века. Направления развития гендерных исследований в лингвистике: экспансионизм; антропоцентризм; неофункциональность; экспланаторность. Сущность параметрической модели описания гендерного коммуникативного поведения.
реферат [42,9 K], добавлен 11.08.2010