Методы анализа корпусной лингвистики

Исследование проблем количественного и качественного анализа в современной корпусной лингвистике. Анализ степени эффективности метода интроспекции. Характеристика уровней категоризации и аннотации, представляющих собой интерпретацию корпусных данных.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 09.12.2018
Размер файла 16,0 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Казанский (Приволжский) федеральный университет

Кафедра немецкой филологии

Методы анализа корпусной лингвистики

д. филол. н., доцент

Галина Васильевна Колпакова

Аннотация

В статье рассматриваются проблемы количественного и качественного анализа в современной корпусной лингвистике, степень эффективности метода интроспекции, характеризуются уровни категоризации и аннотации, представляющие собой интерпретацию корпусных данных, анализируется понятие «экспериментального материала» в корпусной лингвистике.

Ключевые слова и фразы: корпус; качественный анализ; количественный анализ; интроспекция; категоризация; аннотация; экспериментальные данные.

Annotation

The author considers the problems of quantitative and qualitative analysis in modern corpus linguistics, the effectiveness degree of introspection method, characterizes the levels of categorization and annotation representing corpus data interpretation, and analyzes the notion of “experimental material” in corpus linguistics.

Key words and phrases: corpus; qualitative analysis; quantitative analysis; introspection; categorization; annotation; experimental data.

Корпусная лингвистика сформировалась в самостоятельное научное направление, достижения которого знаменуют новый этап в развитии научной мысли. В современной лингвистике заметна тенденция создания объемных корпусов текстов, поддерживаемая крупными научно-исследовательскими проектами. Цели этих исследовательских проектов различны: от сбора и документации труднодоступного материала исчезающих языков до дальнейшего развития теории корпусных исследований и методов анализа больших корпусов текстов.

Использование корпусов при проведении исследований привело к теоретической и методической переориентации лингвистики. Широкую известность получили количественный и качественный виды анализа корпусов текстов. Эти методы анализа применимы как к тексту корпуса, так и к уровням аннотации в корпусе. Аннотацией в понимании К. Шерер является дополнительная грамматическая или структурная информация, выходящая за рамки текста в корпусе и кодированная в тексте с помощью специальных средств (маркировок) [3, S. 21]. С помощью аннотации имплицитная информация, содержащаяся в тексте, переводится в эксплицитную форму, что ускоряет процесс сбора информации. Аннотация не должна разрушать оригинальный текст, после удаления маркировок текст должен предстать в изначальном виде.

Лингвистическая аннотация может быть представлена на различных уровнях языка: на уровне слова, предложения, текста, звука, значения. На уровне звука копируются признаки произношения (фонетическая аннотация), а также ударение и интонация (просодическая аннотация). На уровне слова добавляется информация о флективных признаках или части речи (морфологическая аннотация), на уровне предложения - информация о типе фраз или синтаксических функциях (синтаксическая аннотация). На уровне значения кодируются семантические признаки слов или семантические отношения между элементами в тексте (семантическая аннотация). Аннотация в дискурсе или тексте включает такие феномены как маркировка вежливости и такие лингвистические явления как пролепсис. Такого рода корпуса получили название «аннотированных корпусов» [Ibidem, S. 21-22].

Любой вид аннотации, отмечает А. Люделинг, является категоризацией и представляет собой неизбежную контролируемую потерю информации. Каждый способ категоризации одновременно является также интерпретацией данных [2, S. 30]. В больших корпусах каждому уровню аннотации сопутствует уровень интерпретации. Наряду с линейно аннотированными корпусами получили распространение многоуровневые модели корпусов, в которых все уровни аннотации сохраняются независимо от текста.

В диахронической лингвистике ученые традиционно использовали данные корпусов текстов, не имея иных источников экспериментального материала. В синхронической лингвистике корпуса текстов, рассматриваемые как банк данных (источник материала), все в большей степени находят применение в теоретических исследованиях. Наряду с использованием корпусов как банка данных при проведении качественного анализа, лингвисты все чаще применяют методику количественного анализа: статистические тесты, анализ коллокаций, т.е. сочетаемости лексем, мультивариантные методики. Но основой любого количественного анализа является качественный анализ или категоризация данных. В исследованиях, базирующихся на количественном анализе корпусов, нередко отсутствуют сведения о проведенной категоризации, применяемых категориях, критериях выделения и надежности этих категорий, что не позволяет считать результаты количественного анализа достоверными [Ibidem, S. 28-29].

Широкий спектр технических возможностей для создания электронных корпусов и необозримое множество экспериментальных данных, языковых высказываний, в электронном виде побуждает лингвистов к поиску точной дефиниции лингвистического феномена «экспериментальные данные». Ввиду кардинального изменения состояния исследований в области создания языковых корпусов невозможно оставить без внимания результаты этого развития. С другой стороны, влияние этих результатов ощущается и в области теоретических исследований. По мнению Л. М. Айхингера, даже те лингвистические теории, авторы которых всецело доверяли интроспекции как исследовательскому методу, а реальные факты рассматривали как «неточные рефлексы» абстрактных принципов, видят в анализе корпусов дальнейшую возможность расширения теоретического знания о языке. Подобный подход в наибольшей степени отвечает интересам лингвистов, прокладывающих путь к эмпирическому лингвистическому познанию посредством подтверждения выдвигаемой гипотезы корпусом примеров. Но стремление к документации языковой реальности выглядит при различных подходах к анализу языковых фактов по-разному, отмечает Л. М. Айхингер. Сбор данных, осуществляемый исследователем для подтверждения выдвигаемой им гипотезы, и еще в большей степени метод интроспекции, апеллирующий к собственно языковой компетенции и ее надежности, основываются на лишь относительной независимости производства речевых высказываний от говорящего субъекта. Корпусные же исследования представляют собой попытку приблизиться к языковой реальности посредством статистического анализа и математического моделирования в отвлечении от субъекта, его языковой компетенции и метода интроспекции [1, S. 2]. корпусный лингвистика интроспекция

В меньшей степени методы корпусной лингвистики находят применение в области синтаксического анализа, если таковой не сводится к созданию инвентаря правил и примеров для подтверждения предварительно сформулированных гипотез. Здесь преобладают описания, служащие скорее банком данных для анализа синтаксических образцов. Вопрос лишь в том, как и на этом уровне можно использовать преимущества корпуса, позволяющие выявить закономерности сочетаемости слов, исходя из самого корпуса, без предваряющей этот анализ интерпретации. Настоящим достижением с позиций корпусной лингвистики могло бы стать обнаружение повторяемости структур чисто статистическими методами. Возможно, это позволило бы обнаружить неожиданные образцы сочетаемости. Лишь правильно выбранный метод исследования позволит установить, каких результатов можно достичь, исследуя корпуса. Чем объемнее корпус, тем более ценным, с одной стороны, может быть результат познания, но, с другой стороны, интуитивная доступность и возможность осмысления результатов снижаются в той же степени, в какой возрастает объем корпуса. Так, слишком длинный ряд примеров делает его необозримым и лишает нас возможности его анализа. Вне зависимости от этой проблемы существует необходимость лингвистической интерпретации корпусных данных и качественной оценки феноменов в корпусе [Ibidem, S. 4-5].

Новым, поворотным моментом в исследовании корпусов текстов явилось требование изучать закономерности организации больших массивов текстов и особенностей естественного речевого употребления, опираясь на статистические методы (методы количественного анализа), минуя этап предварительно сформулированного предположения-гипотезы и осуществляя качественный анализ (интерпретацию корпусных данных) лишь на последующем (конечном) этапе.

Список литературы

1. Eichinger L. M. Linguisten brauchen Korpora und Korpora Linguisten // Sprachkorpora - Datenmengen und Erkenntnisfortschritt / Institut fuer Deutsche Sprache. Berlin - New York: Walter de Gruyter, 2007. Jahrbuch 2006. S. 1-8.

2. Luedeling A. Das Zusammenspiel von qualitativen und quantitativen Methoden in der Korpuslinguistik // Sprachkorpora - Datenmengen und Erkenntnisfortschritt / Institut fuer Deutsche Sprache. Berlin - New York: Walter de Gruyter, 2007. Jahrbuch 2006. S. 28-48.

3. Scherer C. Korpuslinguistik // Kurze Einfuehrungen in die germanistische Linguistik. Heidelberg, 2006. Bd. 2. 98 S.

Размещено на Allbest.ru


Подобные документы

  • Основные понятия корпусной лингвистики. Общая характеристика Национального корпуса русского языка. Изучение лексических категорий многозначности и омонимии, синонимии и антонимии. Использование данных Корпуса при изучении синтаксиса и морфологии.

    дипломная работа [95,5 K], добавлен 07.11.2013

  • Понятие текста в лингвистике. Стенограмма гуманитарного мышления. Понятие дискурса в современной лингвистике. Особенности создания лингвистики текста. Анализ дискурса как метод анализа связной речи или письма. Область исследования текстоведения.

    реферат [24,6 K], добавлен 29.09.2009

  • Введение основных понятий корпусной лингвистики. Понятие учебного корпуса и лингвистической разметки. Обзор разработок мультимодальных корпусов и изучение их структуры. Создание русско-немецкого подкорпуса. Разметка текстов и аннотирование данных.

    курсовая работа [2,0 M], добавлен 20.06.2014

  • Основные этапы становления когнитивной лингвистики как науки. Концепт, как ментальная единица описания картины мира, содержащая языковые и культурные знания, представления, оценки. Понятие "язык" и "мышление", их использование в современной лингвистике.

    курсовая работа [69,1 K], добавлен 25.05.2014

  • Исследование эволюции научных взглядов Якобсона от формализма к структурализму. Характеристика трудов писателя по поэтике и лингвистике. Методы структурного анализа при изучении бинарных акустических оппозиций. Вклад автора в развитие нейролингвистики.

    научная работа [21,3 K], добавлен 13.06.2011

  • Доминантные тенденции лингвистики ХХ века. Направления развития гендерных исследований в лингвистике: экспансионизм; антропоцентризм; неофункциональность; экспланаторность. Сущность параметрической модели описания гендерного коммуникативного поведения.

    реферат [42,9 K], добавлен 11.08.2010

  • Основные методы и отличие концептуального анализа от семантического. Антропологическая ориентация современной лингвистики. Лингвокогнитивное и культурологическое направления и их подход к анализу концепта. Терминология Московской семантической школы.

    реферат [32,8 K], добавлен 10.08.2010

  • Место дискурсивного анализа в лингвистике. Характер связи дискурсивного анализа художественного текста и интерпретации данного текста с комплексом теоретических положений литературной науки. Осуществление предварительного филологического анализа рассказа.

    курсовая работа [114,8 K], добавлен 04.12.2009

  • Исследование проблемы взаимодействия языков в современной лингвистике. Анализ и характеристика типов контактов языков. Лексические заимствования как результат контактирования языков. Возникновение языковых контактов в истории развития французского языка.

    реферат [17,1 K], добавлен 18.07.2011

  • Текст как формально-логическое образование. Основные методы криптоанализа. Метод частотного анализа текста. Показатель частоты встречаемости буквы алфавита. Частотные характеристики биграмм. Определение ранжирования данных. Определение контент-анализа.

    реферат [280,3 K], добавлен 28.09.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.