Оптимизация эпистемической функции языка: создание корпуса текстов по основам прикладной лингвистики

Оптимизация эпистемической функции языка в корпусной лингвистике и создание корпуса книги В.Е. Болдырева "Введение в теорию межкультурной коммуникации" с помощью компьютерных средств. Основные принципы создания корпуса текстов. Типы разметок текстов.

Рубрика Иностранные языки и языкознание
Вид курсовая работа
Язык русский
Дата добавления 03.01.2011
Размер файла 42,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Министерство образования и науки РФ

Государственное образовательное учреждение высшего профессионального образования

«Юго-Западный государственный университет»

Курсовая работа

по дисциплине «Основы прикладной лингвистики»

Специальность 031301 Теоретическая и прикладная лингвистика

ОПТИМИЗАЦИЯ ЭПИСТЕМИЧЕСКОЙ ФУНКЦИИ ЯЗЫКА: СОЗДАНИЕ КОРПУСА ТЕКСТОВ ПО ОСНОВАМ ПРИКЛАДНОЙ ЛИНГВИСТИКИ

Автор работы: К.А. Епишева

Руководитель работы: доц.,

к.п.н. Н.Э. Петрова

Курск - 2010

Оглавление

Введение

Глава 1. Хранение и передача данных с помощью корпусов текстов

1.1 Характеристика эпистемической функции языка

1.2 История развития корпусной лингвистики

1.3 Общие понятия корпусной лингвистики

1.4 Типы корпусов

1.5 Технология создания корпусов

Заключение

Приложение

Список использованной литературы

Введение

Язык - основной объект изучения языкознания. С точки зрения эпистемической функции языковая система предстает как способ хранения и передачи знаний. Проявляется она в лексикографии (в том числе компьютерной), в терминологии и терминографии, в корпусной и полевой лингвистике. В данной работе мы рассмотрим реализацию данной функции в корпусной лингвистике.

На данный период своего развития корпусная лингвистика приобретает всё большую значимость. Эта наука становится основой и неотъемлемой частью большинства лингвистических исследований. Ещё несколько десятилетий назад создание корпусов проводилось только вручную, что отнимало массу времени, сил и затрат. Поэтому создавались они только в случаях наличия широкого круга заинтересованных лиц. Теперь же структурировать и синхронизировать какой-либо материал гораздо легче, «себестоимость» этого процесса резко снизилась, благодаря развитию сначала компьютерной, а потом и корпусной лингвистики.

Актуальность данной курсовой работы не вызывает сомнений. Это обусловлено прежде всего тем, что корпусная лингвистика - относительно молодая наука, развивающаяся в течение сравнительно небольшого периода времени. Поэтому не удивительно, что в ней существует ряд нечётко определённых понятий и терминов, по поводу употребления которых ведутся споры и дискуссии; также, корпус текстов полезен для разных лингвистических и лексикографических работ, по нему можно в дальнейшем создать терминологический словарь, глоссарий, то есть извлечь максимум информации по данной теме.

Целью данной курсовой работы является описание оптимизации эпистемической функции языка в корпусной лингвистике и создание корпуса книги В.Е. Болдырева «Введение в теорию межкультурной коммуникации».

В связи с поставленной целью необходимо решить следующие задачи:

1. охарактеризовать эпистемическую функцию языка;

2. рассмотреть общие понятия корпусной лингвистики;

3. описать основные принципы создания корпуса текстов;

4. проанализировать типы разметок текстов;

5. создать корпус книги В.Е. Болдырева «Введение в теорию межкультурной коммуникации» с помощью современных компьютерных средств.

Методы, используемые для решения вышеуказанных задач:

* описательный;

* сравнительно-исторический;

* сопоставительный.

Объектом исследования является корпусная лингвистика как один из аспектов эпистемической функции языка.

Предмет изучения - сам процесс создания корпуса, а именно - методы описания текста с помощью специальных видов разметок.

Теоретическую и методологическую базу курсовой работы составляют труды таких ученых, как А.Н. Баранов, В.В. Рыков, В.П. Захаров, В.А. Плунгян и многих других, статьи из сборников конференций по корпусной лингвистике, а также интернет-сайты, посвящённые корпусной лингвистике.

Теоретическая значимость курсовой работы - материалы курсовой работы могут быть использованы при составлении учебных пособий по корпусной лингвистике.

Практическая ценность работы заключается в том, что материалы курсовой работы могут быть использованы в курсе преподавания теории по корпусной лингвистике.

Структура и объем курсовой работы: курсовая работа состоит из введения, двух глав, заключения, списка использованной литературы и приложений, которые содержат сетевые адреса, краткие сведения о некоторых корпусах в сети Интернет и классификацию типов копусов.

Глава 1. Хранение и передача знаний с помощью корпусов текстов

Любое лингвистическое исследование в той или иной мере опирается на анализ языкового материала, языковых данных. Чем больше материал, тем выше достоверность выводов, тем шире сфера действия наблюдаемых закономерностей. В традиционном языкознании сбору материала всегда придавалось особое значение. И развитие такой науки корпусной лингвистики значительно облегчило сбор и хранение языковых данных.

1.1 Характеристика эпистемической функции языка

«В круг задач прикладной лингвистики входит оптимизация функций языка (в том числе и эпистемической) - будь то формирование и поддержание традиции чтения и понимания сакральных текстов (экзегетика и герменевтика) или обеспечение контактов между разными народами. В философии и лингвистической теории принято различать коммуникативную, эпистемическую и когнитивную функции языка, которые, конечно, далеко не однородны и, в свою очередь, разделяются на более мелкие функции. Так, коммуникативная функция включает в себя фатическую (контактоустанавливающую) и информационную (в узком смысле) функции, функцию воздействия, социальную функцию (проявляющуюся в языковой политике). Когнитивная функция относится к той области жизни языка, которая связана с мышлением человека и с познанием действительности. С помощью языка знания интерпретируются, что приводит к порождению новых знаний (ср. понятие интерпретации знаний в [5]).

Рассмотрим более подробно особенности эпистемической функции языка. С точки зрения эпистемической функции языковая система предстает как способ хранения и передачи знаний (хранение знаний), а также как отражение специфически национального взгляда на мир -- отражение национального самосознания. Согласно В. А. Звегинцеву, в рассматриваемой функции язык служит для дискретизации знаний и их объективизации [5].

При составлении словарей и корпусов текстов большое внимание уделяется способу сбора языковых данных. Более того, во многих областях лингвистики сбор новых языковых фактов может считаться основной задачей лингвистического описания -- ср. исследование неописанных и плохо описанных языков, выявление фонетических и морфологических различий в диалектах, изучение функционирования жаргонов, определение изменений в функционировании языка и множество других задач, которые невозможно даже перечислить.

Каковы традиционные способы сбора и хранения языковых данных? Чаще всего речь идет ручной обработке письменных текстов, опросе информантов по разным методикам и последующем изучении полевых анкет, о записях текстов в письменной форме, словарных картотеках и пр. Нет нужды говорить, что часто этап сбора материала в традиционной технологии исследования занимал многие годы. Конечно, при удачном стечении обстоятельств лексикографическая картотека становилась важнейшим источником для изучения языковых. Однако это скорее исключение, чем правило. К сожалению, многие картотеки недоступны для лингвистов-исследователей, некоторые из них просто потеряны.

Имеются и другие проблемы. При традиционной технологии сбора и обработки языковых данных обновление собранного материала представляет собой отнюдь не тривиальную задачу. Текущая обработка картотеки, поиск нужных единиц и пр. -- все эти абсолютно необходимые операции отнимают значительное время. Кроме того, традиционная технология делает практически невозможным доступ к языковым данным на расстоянии.

Новые информационные технологии и технические средства (компьютерные системы, системы связи, системы мультимедиа) значительно облегчили сбор языковых данных. Так, поскольку компьютерные технологии широко используются в печатном деле и в средствах массовой информации, то существенно упростился процесс получения материала: большинство крупных газет имеют электронные версии, функционирующие в информационных сетях, в частности, в Интернете. Имеются довольно продуктивные устройства сканирования текста (сканеры) и эффективные программы расшифровки графической информации («картинки» текста) в собственно текстовый формат (текст как совокупность графем). Налицо колоссальный технологический рывок вперед»[2].

Таким образом, перед учеными встает задача разработки общих принципов построения лингвистических корпусов данных с использованием современных компьютерных технологий. Для этого необходимо изучить историю развития корпусной лингвистики и основные понятия этой науки.

1.2 История развития корпусной лингвистики

Все современные лингвистические исследования и работы по составлению словарей и грамматик так или иначе ориентированы на использование представительных корпусов текстов. Развитие современных интеллектуальных программных систем, предназначенных для обработки текстов на естественном языке, также требует большой экспериментальной лингвистической базы. Спрос на корпусные данные совпал с появлением соответствующих технических возможностей [4].

Первые лингвистические корпусы текстов появились в 60-е гг. прошлого столетия. В 1963 г. в Брауновском университете (США) впервые был создан большой корпус текстов на машинном носителе (Brown Corpus). Авторы корпуса У. Френсис (W. Francis) и Г. Кучера (H. Kucera) спроектировали его как набор из пятисот двухтысячесловных прозаических печатных текстов американского варианта английского языка. Тексты принадлежали пятнадцати наиболее массовым жанрам англоязычной печатной прозы США и были напечатаны в 1961 г. Корпус сопровождался большим количеством материалов его первичной статистической обработки -- частотный и алфавитно-частотный словарь, разнообразные статистические распределения. Появление Брауновского корпуса вызвало всеобщий интерес и оживленные дискуссии. Прежде всего они коснулись принципов отбора текстов и состава потенциально решаемых на таком корпусе задач. Затем последовали Ланкастерский корпус английского языка (Lancaster-Oslo-Bergen Corpus, LOB), Уппсальский корпус русского языка. Среди современных корпусов английского языка наиболее известны Британский национальный корпус (British National Corpus), Международный корпус английского языка (International Corpus of English), лингвистический Банк английского языка (Bank of English) и др. В настоящее время корпусы созданы для многих языков мира. Ведется работа и над созданием Национального корпуса русского языка.

В первой половине 90-х гг. корпусная лингвистика окончательно сформировалась как отдельный раздел науки о языке. При этом она тесно взаимодействует с компьютерной лингвистикой, используя ее достижения и в свою очередь обогащая ее.

Корпусная лингвистика сделала возможным уточнить результаты и выводы проведённых ранее исследований речи и произвести новые, более широкие и системные по охвату речевого материала лингвистические исследования. Главная её цель - это лингвистическое описание языковой системы, особый способ отражения речевого материала в корпусе текстов, который может использоваться в свою очередь другими лингвистическими дисциплинами [6].

Таким образом, можно сделать вывод, что появление такой науки как корпусная лингвистика в значительной мере облегчило процедуру сбора и хранения информации и позволило использовать корпусы текстов при различных лингвистических исследованиях.

1.3 Общие понятия корпусной лингвистики

эпистемическая язык корпусная лингвистика

В имеющейся литературе по корпусной лингвистике часто используются понятия, которые никак не определяются, но составляют исходный категориальный аппарат этой дисциплины. Рассмотрим их в самом первом приближении, не претендуя на точные, исчерпывающие дефиниции [2].

Корпус текстов - это сделанная по определенным правилам выборка из проблемной области. В разных источниках понятие «корпуса текстов» определяется по-разному, как, например, «некоторый филологический объект, организованное словесное множество, элементами которого являются определённым образом отобранные тексты» или «организованное определённым образом словесное единство, элементами которого являются тексты или специальным образом отобранные отрывки из текстов». Иными словами, под корпусом текстов понимается большой, структурированный и обработанный специальным образом массив языковых данных конечного размера, предназначенный для решения различных лингвистических задач. Все тексты, входящие в массив объединены некоторым логическим замыслом, логической идеей [10].

Поскольку корпус текстов -- это некоторая выборка из проблемной области, сформированная по определенным принципам, то единица хранения непосредственно зависит от того, по каким основаниям осуществляется выборка. Единица хранения -- это некоторая совокупность естественно-языковых выражений проблемной области, которой сопоставляется одно описание на некотором метаязыке, определяемом процедурой формирования корпуса. У. Френсис, обсуждая размеры «базовых единиц» корпуса, отмечает, что это могут быть отдельные слова, короткие фразы, предложения, словосочетания (синтагмы). Если корпус предполагается для синтаксического анализа, то он должен включать целые тексты или их достаточно большие фрагменты [Френсис 1983, с. 344 и далее].

Задача создателей корпуса - собрать как можно большее количество текстов, относящихся к тому подмножеству языка, для изучения которого корпус создается. Но главное не только и не столько в количестве языкового материала, сколько в его пропорциональности. Можно сказать, что корпус - это уменьшенная модель языка или подъязыка. Важнейшее понятие корпусной лингвистики - репрезентативность. Под репрезентативностью понимается необходимо-достаточное и пропорциональное представление в корпусе текстов различных периодов, жанров, стилей, авторов и т.п. Имеются разные подходы к определению репрезентативности, можно сказать, что применительно к общеязыковому (национальному) корпусу это понятие невозможно рассчитать и описать строго математически, однако к этому можно и нужно стремиться, как на этапе проектирования корпуса, так и на этапе его эксплуатации.

Размер корпуса. Термин «корпус» обычно обозначает собрание текстов конечного фиксированного размера. С течением времени объем и состав корпуса может меняться, однако эти изменения должны или не менять его репрезентативность, или менять обоснованно. Объем первых корпусов составлял 1 млн словоупотреблений (Брауновский корпус, Уппсальский корпус русского языка). В настоящее время считается, что объем общеязыкового корпуса должен быть не меньше 100 млн словоупотреблений.

Разметка. Для решения различных лингвистических задач мало лишь наличия массива текстов. Требуется также, чтобы тексты содержали в себе явным образом разного рода дополнительную лингвистическую и экстралингвистическую информацию. Так в корпусной лингвистике возникла идея размеченного корпуса. Разметка заключается в приписывании текстам и их компонентам специальных меток: внешних, экстралингвистических (сведения об авторе и сведения о тексте: автор, название, год и место издания, жанр, тематика; сведения об авторе могут включать не только его имя, но также возраст, пол, годы жизни и многое другое. Это кодирование информации имеет название метаразметка), структурных (глава, абзац, предложение, словоформа) и собственно лингвистических, описывающих лексические, грамматические и прочие характеристики элементов текста. Набор этих метаданных во многом определяет возможности, предоставляемые корпусами исследователям. При выборе этих данных необходимо руководствоваться целями исследования и потребностями лингвистов, а также возможностями по внесению в текст тех или иных дополнительных признаков. Среди лингвистических типов разметки выделяются:

· морфологическая разметка. В иностранной терминологии употребляется термин part-of-speech tagging (POS-tagging), дословно - частеречная разметка. В действительности морфологические метки включают не только признак части речи, но и признаки грамматических категорий, свойственных данной части речи. Это основной тип разметки: во-первых, большинство крупных корпусов являются как раз морфологически размеченными корпусами, во-вторых, морфологический анализ рассматривается как основа для дальнейших форм анализа - синтаксического и семантического, и, в-третьих, успехи в компьютерной морфологии позволяют автоматически размечать корпусы больших размеров;

· синтаксическая разметка, являющаяся результатом синтаксического анализа, или парсинга (англ. parsing), выполняемого на основе данных морфологического анализа. Этот вид разметки описывает синтаксические связи между лексическими единицами и различные синтаксические конструкции (например, придаточное предложение, глагольное словосочетание и т.п.);

· семантическая разметка. Хотя для семантики нет единой семантической теории, чаще всего семантические тэги обозначают семантические категории, к которым относится данное слово или словосочетание, и более узкие подкатегории, специфицирующие его значение;

· анафорическая разметка. Фиксирует референтные связи, например, местоименные;

· просодическая разметка. В просодических корпусах применяются метки, описывающие ударение и интонацию. В корпусах устной разговорной речи просодическая разметка часто сопровождается так называемой дискурсной разметкой, которая служит для обозначения пауз, повторов, оговорок, и т.д.

Существуют и другие типы разметки [6, 7].

Автоматическая разметка. Фактически, корпус в его современном понимании - это всегда компьютерная база данных, и в процессе его создания естественно использование специальных программ. Среди этих программ особое место занимают программы автоматической разметки. Разметка корпусов представляет собой трудоемкую операцию, особенно учитывая размеры современных корпусов. Если для некоторых видов разметки, в частности анафорической, просодической, создание автоматических систем пока представляется довольно сложным и основная часть работы проводится вручную, то для морфологического и синтаксического анализа существуют различные программные средства, которые принято называть соответственно тэггеры (taggers) и парсеры (parsers). В результате работы программ автоматического морфологического анализа каждой лексической единице приписываются грамматические характеристики, включая часть речи, лемму (нормальную форму) и набор граммем (например, род, число, падеж, одушевленность/неодушевленность, переходность/нереходность и т.п.). В результате работы программ автоматического синтаксического анализа фиксируются синтаксические связи между словами и словосочетаниями, а синтаксическим единицам приписываются соответствующие характеристики (тип предложения, синтаксическая функция словосочетания и т.п.) [1].

Исправление ошибок и снятие неоднозначности. Однако автоматический анализ естественного языка небезошибочен и многозначен - он, как правило, дает несколько вариантов анализа для одной лексической единицы (слова, словосочетания, предложения). В этом случае говорят о грамматической омонимии. Снятие неоднозначности (морфологической, синтаксической) в целом является одной из важнейших и сложнейших задач компьютерной лингвистики. При создании корпусов для снятия неоднозначности используются автоматические и ручные способы. Корпусы нового поколения включают сотни миллионов слов, поэтому выдвигаются принципы разработки систем, которые бы минимизировали вмешательство человека. Автоматическое разрешение морфологической или синтаксической омонимии, как правило, основывается на использовании информации более высокого уровня (синтаксического, семантического) с применением статистических методов.

Форматы данных и стандартизация. Корпусы, как правило, предназначены для многократного использования многими пользователями, соответственно, и их разметка, и их программное обеспечение должны быть определенным образом унифицированы. Что касается разметки, то как лингвистическая, так и экстралингвистическая разметка должны базироваться на некоторых достаточно широко распространенных и принятых принципах описания текстов и языковых единиц. Параметры разметки и их значения должны быть достаточно «естественными», т.е. должны соответствовать общепринятым научным классификациям. Что касается программного обеспечения, то оно должно поддерживать обработку типовых запросов и решение типовых задач. Большое значение имеет унификация форматов, как их наполнения, так и структуры. Единые форматы представления данных позволяют во многих случаях использовать единое программное обеспечение и обмениваться корпусными данными. Стандартизация в отношении корпусов, совместимость типов данных важны и с точки зрения сравнимости разных корпусов. Вопросы оценки корпусов, их пригодности к различным заданиям также требуют своих «стандартов оценки».

В настоящее время на основе международного опыта выработались де-факто стандарты представления метаданных, базирующиеся на описаниях текстов в рамках проекта Text Encoding Initiative (TEI) и на рекомендациях EAGLES (Expert Advisory Group on Language Engineering Standards). В качестве формального языка разметки широко применяются языки SGML и XML. В настоящее время стандарты EAGLES непосредственно включаются в технологическую среду языка XML, см., в частности, разработку стандарта Corpus Encoding Standard for XML (XCES).

Работа пользователей с корпусом осуществляется с помощью специализированных программных средств - корпусных менеджеров, предоставляющих разнообразные возможности по получению из корпуса необходимой информации:

- поиск конкретных словоформ;

- поиск словоформ по леммам;

- поиск группы словоформ в виде разрывной или неразрывной синтагмы;

- поиск словоформ по набору морфологических признаков;

- отображение информации о происхождении, типе текста и т.п.;

- вывод результатов поиска с указанием контекста заданной длины;

- получение различных лексико-грамматических статистических данных;

- сохранение отобранных строк конкорданса в отдельном файле на компьютере пользователя и др.

Результаты поиска обычно выдаются в виде конкорданса (поэтому корпусные менеджеры еще называют конкордансерами), где искомая единица представлена в ее контекстном окружении и в виде статистических данных. Последние могут фиксировать частотные характеристики отдельных языковых единиц, или граммем, или могут характеризовать совместную встречаемость нескольких лексических единиц. Многие системы позволяют настраивать формат выдачи (менять длину левого и правого контекста, задавать объем выдачи и порядок сортировки данных, отображать или не отображать лингвистические и экстралингвистические характеристики, и т.д.).

Пользователи и способы использования корпусов. Первоначальные лингвистические исследования, проводившиеся с помощью корпусов, сводились к подсчету частот встречаемости различных языковых элементов. Чаще всего этими элементами были слова, в других случаях - графемы, морфемы, словосочетания. Действительно, если в наличии имеется большой корпус, то самое очевидное, что с ним можно делать - подсчитывать разного рода частоты. Статистические методики используются в решении сложных лингвистических задач, таких как машинный перевод, распознавание и синтез речи, средства проверки орфографии и грамматики и т.д. Так, устойчивые словосочетания представляют собой с семантической точки зрения неделимую смысловую единицу, что очень важно учитывать в лексикографии, системах автоматической обработки текста. На материале корпуса статистическими методами можно определить, какие слова встречаются вместе регулярно и, таким образом, могут быть отнесены к устойчивым словосочетаниям.

По прошествии времени корпусы стали осознаваться как мощные информационные ресурсы, могущие быть использованными в рамках различных лингвистических направлений. Так, корпусы являются богатым источником данных для лексикографии. На их основе и с применением компьютера словари могут составляться и пересматриваться гораздо быстрее, чем раньше, таким образом фиксируя текущее состояние языка и не успевая устаревать за то время, которое проходит от момента начала работы над ними до момента выхода их из печати. Так, например, одна из главных целей создания Британского национального корпуса и Банка английского языка заключалась в применении последних в лексикографии. Словарь современного английского языка Collins COBUILD English Language Dictionary был создан с применением текстовой базы данных Бирмингемского университета. Во введении говорится, что впервые словарь был составлен посредством исследования репрезентативной группы английских текстов, достигающих в общей сложности объема в несколько миллионов слов. Особый вид корпусов, так называемые monitor corpora - открытые для пополнения новыми данными корпусы, позволяет лексикографам отслеживать неологизмы и изменение значений у уже известных слов.

С исследованиями по лексикографии тесно связаны исследования в области семантики. Наблюдая окружения той или иной лингвистической единицы в корпусе, можно установить определенные семантические признаки, характеризующие данную единицу. Часто слово входит сразу в несколько семантических категорий, поэтому следует говорить только о степени принадлежности слова к той или иной категории. Степень же может быть выявлена путем подсчета частот его распределения по разным категориям.

На корпусе тестируются системы автоматической обработки текста и проверяются различные лингвистические теории. Так, например, в университете Nьmegen, Нидерланды, на текстовых корпусах проверяются разрабатываемые там формальные грамматики. На основе грамматики создается программа синтаксического анализа, которая обрабатывает корпус. Результаты обработки показывают, насколько полно и точно грамматика описывает данные.

С помощью корпусов можно изучать самые разные языковые явления.

Вывод: терминология корпусной лингвистики еще не установилась. Во-первых, это естественно, учитывая ее недавнее происхождение. Во-вторых, корпусная лингвистика как отдельная ветвь лингвистики сложилась в США и в Великобритании. И соответственно, ее терминология складывалась и продолжает складываться в недрах английского языка. И, естественно, русская корпусная терминология строится на базе англоязычной. Но мы в данной курсовой работе попытались дать общие для всей литературы по данной дисциплине определения [5].

1.4 Типы корпусов

Несмотря на разнообразие корпусов, можно выделить два основных способа деления корпусов на классы: 1) это противопоставление корпусов, относящихся ко всему языку (часто к языку определенного периода), корпусам, относящимся к какому-либо подъязыку (жанр, стиль, язык определенной возрастной или социальной группы, язык писателя или ученого и т.п.); 2) разделение корпусов по типу лингвистической разметки. Несмотря на наличие множества типов разметки, большинство реально существующих корпусов относится к корпусам морфологического либо синтаксического типа (последние в англоязычной литературе называют treebanks, что можно перевести как «банки синтаксических структур»). При этом следует подчеркнуть, что корпус с синтаксической разметкой явно или неявно включает в себя и морфологические характеристики лексических единиц. Вообще же существует большое число разных типов корпусов.

Подробнее остановимся на статических, динамических, исследовательских, иллюстративных корпусах текстов и корпусах параллельных текстов.

Исследовательские корпусы. Исследовательскими называются такие корпусы, которые предназначены преимущественно для изучения различных аспектов функционирования языковой системы. Они строятся не post factum -- после проведения какого-либо исследования, а до его проведения. Этот тип корпусов данных, как правило, ориентирован на широкий класс лингвистических задач. Неспецифицированность задачи требует при построении исследовательских корпусов использовать пропорциональное сужение, являющееся наиболее простым способом обеспечения репрезентативности.

Иллюстративные корпусы. Иллюстративные корпусы создаются после проведения научного исследования: их цель не столько выявить новые факты, сколько подтвердить и обосновать уже полученные результаты. Такие корпусы не являются слепком, правильным (с точки зрения статистики) отображением проблемной области. Они включают лишь то, что достаточно для иллюстрации описываемого феномена. Типичный пример иллюстративного корпуса представлен в «Путеводителе по дискурсивным словам русского языка» [3], где семантический анализ частиц и выделенные значения сопровождаются значительным текстовым материалом, позволяющим читателю проверить предложенные семантические интерпретации.

Динамические и статические корпусы текстов. Первоначально корпусы текстов создавались как статические образования, отражающие определенное временное состояние языковой системы. Типичными представителями этого вида корпусов являются авторские корпусы -- коллекции текстов писателей. Однако значительная часть чисто лингвистических и не только лингвистических задач требует выявления функционирования языковых феноменов на временной шкале -- например, изменения значения слов, частоты использования тех или иных синтаксических конструкций и пр. Для отражения процессуального аспекта проблемной области была разработана новая технология построения и эксплуатации динамического корпуса текстов. В имеющейся литературе такие корпусы получили также название мониторных. Особенность сборки мониторных корпусов заключается в том, что они не предполагают раз и навсегда заданного набора текстов. В течение заранее фиксированного промежутка времени происходит обновление и/или дополнение множества текстов корпуса.

Специфика эксплуатации динамического корпуса состоит в том, что пользователь при проведении исследования может выделить из общего генерального корпуса рабочий корпус, включающий лишь часть текстов генерального корпуса. Как динамический корпус строился Бирмингемский корпус английского языка.

Корпусы параллельных текстов. Для научных и практических целей (в частности, для преподавания иностранных языков) формируются корпусы параллельных текстов. По своей структуре это подмножество текстов на языке-источнике и одно или несколько подмножеств текстов, которые являются переводами текстов языка-источника на языки-цели. Например, английский текст «Alice in Wonderland» и его переводы на немецкий, французский и русский языки могут формировать такой корпус или быть частью большего корпуса параллельных текстов [2].

Таким образом, разнообразие корпусов текстов определяется многообразием исследовательских и прикладных задач, для решения которых они создаются, и различными основаниями для классификации.

1.5 Технология создания корпусов

Технологический процесс создания корпуса можно представить в виде следующих шагов или этапов.

1. Определение перечня источников.

2. Оцифровка текстов (преобразование в компьютерную форму). Следует сказать, что насколько раньше задача ввода текстов в компьютер была тяжела и трудоемка, настолько сегодня эта проблема решается довольно легко, по крайней мере, что касается современных текстов и в современной орфографии. Эта легкость базируется на успехах в оптическом вводе (сканирование) и распознавании текстовой информации и на глобальной компьютеризации современной жизни, в том числе и в областях, связанных с обработкой текстовой информации. Тексты в электронном виде для создания корпусов могут быть получены самыми разными способами -- ручной ввод, сканирование, авторские копии, дары и обмен, Интернет, оригинал-макеты, предоставляемые составителям корпусов издательствами и проч.

3. Предобработка текста. На этом этапе все тексты, полученные из разных источников, проходят филологическую выверку и корректировку. Также осуществляется подготовка библиографического и экстралингвистического описания текста.

4. Конвертирование и графематический анализ. Некоторые тексты проходят также через один или несколько этапов предварительной машинной обработки, в ходе которых осуществляются различного рода перекодировка (если требуется), удаление или преобразование нетекстовых элементов (рисунки, таблицы), удаление из текста переносов, «жёстких концов строк», обеспечение единообразного написания тире и проч. Как правило, эти операции выполняются в автоматическом режиме. Обычно на этом же этапе осуществляется сегментирование текста на его структурные составляющие.

5. Разметка текста. Разметка текста заключается в приписывании текстам и их компонентам дополнительной информации (метаданных). Метаописание текстов корпуса включает как содержательные элементы данных (библиографические данные, признаки, характеризующие жанровые и стилевые особенности текста, сведения об авторе), так и формальные (имя файла, параметры кодирования, версия языка разметки, исполнители этапов работ). Эти данные обычно вводятся вручную. Структурная разметка документа (выделение абзацев, предложений, слов) и собственно лингвистическая разметка обычно осуществляются автоматически.

6. На следующем этапе осуществляется корректировка результатов автоматической разметки: исправление ошибок и снятие неоднозначности (вручную или полуавтоматически).

7. Заключительный этап - конвертирование размеченных текстов в структуру специализированной лингвистической информационно-поисковой системы (corpus manager), обеспечивающей быстрый многоаспектный поиск и статистическую обработку.

8. И, наконец, обеспечение доступа к корпусу. Корпус может быть доступен в пределах дисплейного класса, может распространяться на CD-ROM и может быть доступен в режиме глобальной сети. Различным категориям пользователей могут предоставляться разные права и разные возможности.

Конечно, в каждом конкретном случае состав и количество процедур могут отличаться от выше перечисленных, и реальная технология может оказаться гораздо сложнее [9].

Таким образом, процесс создания корпусов текстов - сложная и трудоёмкая процедура, которая имеет определенный алгоритм и особенности.

Заключение

Появление различных технических средств, компьютерных технологий и необходимость совершенствования способов сбора и хранения информации обусловило развитие корпусной лингвистики.

В ходе исследования была изучена теория по данной дисциплине, и был создан корпус книги В.Е. Болдырева «Введение в теорию межкультурной коммуникации». Исходя из этого, можно сказать о положительных и отрицательных тенденциях в этой науке.

Создание корпусов текстов значительно облегчило сбор и хранение информации. Это очень ценится при создании словарей, глоссариев, лексикографических работ. Также способ хранения корпусов текстов позволяет более надежно и дольше хранить любой языковой материал, что является важной находкой и инструментом в лексикографии.

Также создание корпусов текстов позволило быстрее и качественнее производить различные лингвистические исследования и решать важные исследовательские задачи.

Но так как корпусная лингвистика относительно молодая и развивающаяся наука, в ней существуют различные проблемные вопросы.

К настоящему времени накоплен уже довольно значительный опыт построения корпусов текстов, однако информация о наличии корпусов в разных странах ограничена. Это существенно затрудняет проведение научных исследований и нередко приводит к дублированию работы. Сложность получения информации о существующих корпусах текстов связана с тем, что практически все они создаются по локальным проектам отдельными организациями. Международная координация усилий в этой области пока еще не налажена в должной мере.

Вторая проблема в области корпусной лингвистики связана с первой: локальность проектов приводит к возникновению различных форматов представления корпусов текстов. Отсутствие единого формата представления дополняется и несовместимостью программного обеспечения.

В имеющихся описаниях корпусов нет ясной информации о содержательных принципах отбора материала. Поскольку корпус является сужением проблемной области, то представительность корпуса прямо связана с принципами отбора материала. Если же нет уверенности в представительности корпуса, его заведомо нельзя использовать для многих видов лингвистической деятельности, например, для оценки частоты употребления лексем в тех или иных значениях или для составления словников некоторой проблемной области. Необходимо разработать общепринятую процедуру сужения проблемной области до корпуса текстов. По-видимому, таких процедур должно быть несколько, поскольку соотношение между корпусом и проблемной областью не является постоянной величиной и меняется в зависимости от характера проблемной области и задач исследования.

Таким образом, изучив все «плюсы» и «минусы» данной науки, перед учеными встает задача устранения тех самых проблемных вопросов, возникших при процессе создания корпусов текстов.

Приложение 1

В Интернете можно получить доступ и найти списки самых различных корпусов -- см., например, D. Lee. Bookmarks for Corpus-based Linguists (http://devoted.to/corpora), веб-страницы М. Барбера (Manuel Barbera) (http://www.bmanuel.org/index.html) или М. Барлоу (Michael Barlow) (http://www.athel.com/corpus.html), сайт Language and Speech Resources (http://www.elsnet.org/resources.html) и др.

Национальный корпус русского языка http://ruscorpora.ru

70 млн. слов

Компьютерный корпус текстов русских газет конца ХХ-го века http://www.philol.msu.ru/~lex/corpus

200 тыс. слов Система поиска по корпусу временно недоступна

Корпус русского языка ХАНКО (Хельсинский университет) http://www.ling.helsinki.fi/projects/hanco/

100 тыс. слов Ручная морфологическая разметка

Корпуса русских текстов на сайте Университета в Лидсе, Великобритания http://corpus.leeds.ac.uk

Русские корпуса Тюбингенского Университета http://www.sfb441.uni-tuebingen.de/b1/en/korpora.html

Словарь-корпус языка А.С. Грибоедова http://www.inforeg.ru/electron/concord/concord.htm

120 тыс. слов

Уппсальский корпус русских текстов Доступен для поиска на сайте http://www.sfb441.uni-tuebingen.de/b1/en/korpora.html

1 млн. слов 600 текстов (публицистика 1985-1989; литературные произведения 1960-1988).

Банк английского языка (Bank of English) http://www.collins.co.uk/books.aspx?group=153

Свободный доступ: http://www.collins.co.uk/Corpus/CorpusSearch.aspx

524 млн. слов, 56 млн. в свободном доступе (The Collins Wordbanks Online English corpus: 36 млн. - брит. англ., 10 млн. - амер. англ., 10 млн. - брит. разговорн. англ.)

Британский национальный корпус http://www.natcorp.ox.ac.uk/ или http://sara.natcorp.ox.ac.uk

100 млн. слов Корпусные менеджеры SARA и XAIRA (http://www.xaira.org)

Венгерский национальный корпус http://corpus.nytud.hu/mnsz/

100 млн. слов

Корпус испанского языка (исторический) http://www.corpusdelespanol.org/

100 млн. слов, тексты 13-20 вв. Создан в Иллинойском университете, США

Корпус латинских текстов «Персей» http://www.perseus.tufts.edu

Корпус современного датского языка http://www.korpus2000.dk/

50 млн. слов Тексты 1998-2002 гг.

Корпус современного итальянского языка CORIS/CODIS http://www.cilta.unibo.it/ricerca.htm

100 млн. Слов

Корпус современного китайского языка (LIVAC Synchronous Corpus) http://www.rcl.cityu.edu.hk/livac/

720 млн. слов (150 млн. иероглифов)

Мангеймский корпус немецкого языка (Institut fьr Deutsche Sprache, Mannheim, Germany) http://corpora.ids-mannheim.de/~cosmas/

1610 млн. слов Корпусный менеджер COSMAS

Национальный корпус словенского языка http://www.fida.net/eng/

Более 100 млн. слов

Польский национальный корпус http://korpus.ia.uni.lodz.pl/

93 млн. слов

Словацкий национальный корпус http://korpus.juls.savba.sk

180 млн. слов Используется корпусный менеджер Manatee/Bonito.

Хорватский национальный корпус http://www.hnk.ffzg.hr/

53 млн. слов Корпусный менеджер Manatee/Bonito.

Чешский национальный корпус http://ucnk.ff.cuni.cz

100 млн. слов + 100 млн. нового корпуса современной лексики Корпусный менеджер Manatee/Bonito.

Эстонский корпус http://test.cl.ut.ee/korpused/baaskorpus/1980/index.html.en/

Приложение 2

Классификация корпусов

Признак

Типы корпусов

Тип данных

Письменные

Речевые

Смешанные

Язык текстов

Русский

Английский и т.д.

«Параллельность»

Одноязычные

Двуязычные

Многоязычные

«Литературность»,

специфичность

Литературные

Диалектные

Разговорные

Терминологические

Смешанные

Жанр

Литературные

Фольклорные

Драматургические

Публицистические

Доступность

Свободно доступные

Коммерческие

Закрытые

Назначение

Исследовательские

Иллюстративные

Динамичность

Динамические (мониторные)

Статические

Разметка

Размеченные

Неразмеченные

Характер разметки

Морфологические

Синтаксические

Семантические

Просодические и т.д.

Объем текстов

Полнотекстовые

«Фрагментнотекстовые»

Хронологический аспект

Синхронические

Диахронические

«Общность»

Общие

Одного писателя

Структура

Центральные и архивные

Ядерные и периферийные

Список используемой литературы

1. Апресян, Ю.Д., Иомдин, Л.Л., Санников А.В., Сизов, В.Г. Семантическая разметка в глубоко аннотированном корпусе русского языка[Текст]//Труды международной конференции «Корпусная лингвистика - 2004». СПб.: Издательство Санкт-Петербургского университета, 2004.

2. Баранов, А. Н. Автоматизация лингвистических исследований: корпус текстов как лингвистическая проблема [Текст]//Русистика сегодня. М.: Просвещение, 1998.

3. Баранов, А.Н., Плунгян В.А., Рахилина, Е.В. Путеводитель по дискурсивным словам русского языка [Текст]/А.Н. Баранов, В.А. Плунгян, Е.В. Рахилина. М.: Наука, 1993.

4. Захаров, В.П. Корпусная лингвистика, Учебно-методическое пособие [Текст]/В.П. Захаров. Санкт-Петербург: Наука, 2005.

5. Звегинцев, В.А. Теоретическая и прикладная лингвистика [Текст]/Звегинцев В.А. М.: Наука, 1968.

6. Крылов, С. А. Об усовершенствовании процедуры автоматического анализа и синтеза речевых отрезков (в связи с разработкой лингвистического процессора в интегрированной информационной среде STARLING)[Текст]/С.А. Крылов. Москва: издательство института востоковедения РАН, 2005.

7. Леонтьев, Н.Н. Роль связей в семантической разметке корпуса текстов [Текст]//Труды международной конференции «Корпусная лингвистика - 2004». Санкт - Петербург: Издательство Санкт-Петербургского университета, 2004.

8. Макагонов, П., Александров, М., Гельбух, А. Формулы проверки подобия слов с обучением на примерах: построение и применение [Текст]// Труды международной конференции «Корпусная лингвистика - 2004». Санкт - Петербург: Издательство Санкт-Петербургского университета, 2004.

9. Труды Международного семинара по компьютерной лингвистике и ее приложениям «Диалог-2000», «Диалог-2001», «Диалог-2002», «Диалог-2003», «Диалог-2004», «Диалог-2005».

10. Труды Международной научной конференции «Корпусная лингвистика - 2004» // Под ред. А.С. Герда. СПб.: Просвещение, 2004.

11. Фрэнсис, У. Н. Проблемы формирования и машинного представления большого корпуса текстов // Новое в зарубежной лингвистике. Вып. XIV Проблемы и методы лексикографии. М.: Наука, 1983.

12. http://www.russian.slavica.org.

13. http://www.ruscorpora.ru.

14. http://www.aot.ru.

15. http://www.oucs.ox.ac.uk/rts/xaira/Doc/refman.xml.ID=X01.

Размещено на Allbest.ru


Подобные документы

  • Введение основных понятий корпусной лингвистики. Понятие учебного корпуса и лингвистической разметки. Обзор разработок мультимодальных корпусов и изучение их структуры. Создание русско-немецкого подкорпуса. Разметка текстов и аннотирование данных.

    курсовая работа [2,0 M], добавлен 20.06.2014

  • Основные понятия корпусной лингвистики. Общая характеристика Национального корпуса русского языка. Изучение лексических категорий многозначности и омонимии, синонимии и антонимии. Использование данных Корпуса при изучении синтаксиса и морфологии.

    дипломная работа [95,5 K], добавлен 07.11.2013

  • Структурно-содержательные особенности медийных текстов. Характеристика современного медиадискурса. Анализ синтагматических и лингвостилистических особенностей корпуса текстов группы передовых редакторских статей в качественной и популярной прессе.

    дипломная работа [76,6 K], добавлен 29.03.2016

  • Черты научного стиля, которые отличают его от других стилей английского языка. Функции и признаки текстов научного стиля, их разновидности. Исследование основных лексических, грамматических и стилистических особенностей текстов английской научной речи.

    курсовая работа [603,0 K], добавлен 21.04.2015

  • Демократизация общества как причина появления прикладной лингвистики. Возникновение и основные принципы правовой лингвистики, темы исследований и тенденции дисциплины. Сферы соприкосновения языка и права. Переводы юридических текстов и лексикографии.

    реферат [22,2 K], добавлен 09.12.2010

  • Изучение лексико-грамматических и стилистических особенностей перевода военных текстов. Текстуальные категории военных текстов. Выявление специфических приемов перевода, используемых для передачи текстов военного характера с английского языка на русский.

    дипломная работа [94,1 K], добавлен 20.05.2015

  • Понятия "содержание" и "форма" при переводе музыкально-поэтических текстов. Сопоставительный анализ текстов оригинала (подлинника) и перевода. Лексические и грамматические трансформации при переводе музыкально-поэтических текстов песен Джона Леннона.

    дипломная работа [174,2 K], добавлен 09.07.2015

  • Факторы речевой организации текста. Характеристика текста как особой речевой единицы. Основные типы текстов. Построение текстов различных стилей. Особенности построения текстов в научном, публицистическом, официально-деловом и художественном стилях.

    курсовая работа [46,9 K], добавлен 22.05.2015

  • Категория побудительности в языковедении. Анализ особенностей предписывающих немецких текстов на примере рекламы. Изучение текстов директивно-регулятивного типа, их места в системе речевой коммуникации. Немецко-русский перевод предписывающих текстов.

    курсовая работа [33,0 K], добавлен 10.04.2013

  • "Метаязык" как понятие в лингвистике и переводоведении. Особенности научного стиля и обзор классификаций текстов. Жанр телепередач и прагматический аспект перевода научных текстов. Особенности перевода французских текстов научно-популярного подстиля.

    курсовая работа [44,2 K], добавлен 06.03.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.