Главная Коллекция "Otherreferats" Программирование, компьютеры и кибернетика Разработка учебного мультимодального подкорпуса немецкого языка

Разработка учебного мультимодального подкорпуса немецкого языка

Мультимодальный корпус как аннотированная коллекция взаимосвязанного контента, используемая в качестве модели дискурса. Разработка принципов построения лингвистических массивов данных при помощи компьютерных технологий - задача корпусной лингвистики.

Рубрика	Программирование, компьютеры и кибернетика
Вид	курсовая работа
Язык	русский
Дата добавления	26.09.2017
Размер файла	1,4 M

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

Размещено на http://www.allbest.ru

Введение

Работа с корпусами, то есть с массивами текстов, представленными в компьютерном виде, давно уже стала одним из основных методов лингвистических исследований, при помощи которого могут решаться самые разные задачи. Одним типом таких корпусов являются учебные корпусы, которые используются при обучении иностранному языку и в лингвистической педагогике. Корпусный подход, или метод лингвистического исследования, основанный на корпусах текстов, ориентирован на прикладное изучение языка, его функционирование в реальных средах и текстах, что важно для преподавания языка. На сегодняшний день существует сравнительно немного учебных корпусов. В основном все они направлены на изучение английского языка. Отечественная лингвистика значительно отстаёт в этом отношении от современного состояния зарубежных исследований. Более того, учебных корпусов, направленных на изучение русского языка, мы не нашли.

Еще одним новым и перспективным направлением является создание мультимодальных (мультимедийных) корпусов текстов, или корпусов текстов звучащей речи, включающих аудио- и видеозаписи. Мультимодальные корпусы являются перспективными с точки зрения исследования взаимодействия вербальной и невербальной составляющей естественного диалога. Данные корпусы решают самые разнообразные лингвистические и экстралингвистические задачи, например, фиксирование особенностей фонетической, грамматической системы исследуемого языка, взаимосвязь между речью говорящего и его мимикой/жестами/телодвижениями и т.д.

Учебный мультимодальный Корпус соединил в себе оба данные направления корпусной лингвистики, послужив идеей для создания в нем немецкого подкорпуса.

Целью данной выпускной квалификационной работы является разработка русско-немецкого подкорпуса в Учебном Мультимодальном Корпусе (УМКО).

Поставленная цель предполагает решение следующих задач:

1. поиск конкретных примеров учебных корпусов и корпусов устной речи;

2. создание русско-немецкого подкорпуса в УМКО;

3. разметка текстов русско-немецкого подкорпуса;

4. проведение анализа ошибок;

5. поиск возможных причин допущения ошибок и поиск путей их избежания.

1. Понятие учебных и мультимодальных корпусов

1.1 Введение основных понятий корпусной лингвистики

Корпусная лингвистика - раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с применением компьютерных технологий. Термин «корпусная лингвистика» был введён в употребление в 60-х годах XX века в связи с развитием практики создания корпусов, которому, начиная с 80-х, способствовало развитие вычислительной техники. В основе корпусной лингвистики лежит то, что язык - это полностью социальное явление, и его можно описать данными, основанными на опыте, т.е. в речевом акте. Это влечет за собой то, что мы не знаем, а иногда и стараемся не знать, как говорящий или слушающий понимает слова, предложения или тексты, которые он говорит или слышит. Как социальный феномен язык проявляет себя в текстах, которые можно записать, описать и проанализировать. Внутренние, немые тексты также являются текстами, но их нельзя пронаблюдать и, следовательно, они не являются социальным явлением. Большинство текстов встречаются в виде речевых актов, т.е. как взаимодействие между членами языкового общества. Отсюда следует, что корпусная лингвистика показывает полную картину, позволяя узнать соглашения языкового общества. Для корпусной лингвистики, язык - это виртуальное функционирующее явление, которое может быть зафиксировано и представлено в виде модели человеческой речи в текстах.

В центре внимания корпусной лингвистики лежит языковая личность, т.е. её речевая деятельность, массовая коммуникация, проблема её описания.

Под лингвистическим, или языковым, корпусом текстов понимается большой, представленный в машиночитаемом виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач. В.В. Рыков определяет корпус текстов как некоторое собрание текстов, в основе которых лежит логический замысел, логическая идея, объединяющая эти тексты.

Существует большое количество разных типов корпусов, что определяется многообразием исследовательских и прикладных задач, для решения которых они создаются, и различными основаниями для классификации. В зависимости от поставленных целей и классифицирующих признаков, можно выделить различные типы корпусов.

Таблица 1. Классификация корпусов

Признак	Типы корпусов
Тип данных	Письменные, Речевые, Смешанные.
Язык текстов	Русский, Английский и т.д.
«Параллельность»	Одноязычные, Двуязычные, Многоязычные.
«Литературность», специфичность	Литературные, Диалектные, Разговорные, Терминологические, Смешанные.
Жанр	Литературные, Фольклорные, Драматургические, Публицистические.
Доступность	Свободно доступные, Коммерческие, Закрытые.
Назначение	Исследовательские, Иллюстративные.
Динамичность	Динамические (мониторные), Статические.
Разметка	Размеченные, Неразмеченные.
Характер разметки	Морфологические, Синтаксические, Семантические, Просодические и т.д.
Объем текстов	Полнотекстовые, «Фрагментнотекстовые».
Хронологический аспект	Синхронические, Диахронические.
«Общность»	Общие, Одного писателя.
Структура	Центральные и архивные, Ядерные и периферийные.

1.2 Понятие учебного корпуса и лингвистической разметки

В связи с развитием технических средств появилась возможность более эффективных лингвистических исследований разного рода на базе корпусной лингвистики. Одним из таких перспективных приложений является разработка учебных корпусов текстов (Learner Corpora), ориентированных на лингводидактический формат и применимых для анализа языка и речи тех, кто изучает иностранный язык.

Под учебным корпусом (Learner Сorpus) понимается электронный корпус текстов группы лиц, изучающих иностранных язык. Основной целью организации учебных корпусов является их анализ на предмет выявления способов и эффективности освоения изучаемого языка (Language Acquisition). Учебные корпусы текстов изначально создавались с целью мониторинга и анализа ошибок, допускаемых при овладении инофонами чужим языком. Корпусные технологии позволили обнаружить наиболее распространенные ошибки в словоупотреблении и словообразовании, характер которых заставил пересмотреть содержание многих учебных материалов, поскольку выявленные отклонения от нормы свидетельствовали о влиянии интерференции родных языков инофонов и так называемой «промежуточных грамматик» или, от чего не предупреждает ни один традиционный учебник или учебный словарь. На основе исследований в LC (Learner Corpora) создаются словари и учебники нового типа, включающие предупреждающие ошибки комментарии.

LC-технологии совершенствуются с каждым годом, в результате чего появляются все новые и новые направления в данной области. Отметим основные из них:

· При сохранении основных принципов проектирования и строительства LC развитие технологий предполагает новые форматы и процедуры. Многие корпусы включают аудио - и видеоматериалы, сканы и pdf-файлы оригинальных рукописей информантов, что требует разработки процедур встраивания их в корпус инструментов для дальнейшей обработки.

· Кроме обязательной морфологической и синтаксической разметки, возникает необходимость в просодической разметке аудио и видео материалов. Новые запросы создателей LC - семантическая и дискурсивная разметки.

· Специфическая для LC задача - разметка ошибок. Достаточно трудоемкой задачей является сам процесс обнаружения ошибок в тексте, который обычно проводится вручную.

· LC перестают быть только базой для извлечения ошибок, но становятся полезным и эффективным средством обучения. Примером последнего может быть обучающая система Т.Кобба, созданная на основе оригинального учебного корпуса.

· Большинство известных LC фиксируют определенный этап языковой компетенции. Новое направление в LC - создание лонгитюдных корпусов, накопление текстов одного и того же автора (авторов) в течении некоторого времени, что позволяет представить процесс овладения языком в динамике.

Практически все учебные корпусы являются лингвистически размеченными. (Лингвистическая) разметка (англ. tagging, annotation) - это процесс или результат приписывания текстам и их компонентам специальных меток.

Лингвистическая разметка является одним из основных понятий корпусной лингвистики. Разметка даёт возможность идентифицировать тексты по различным параметрам, позволяя осуществлять осмысленный поиск по корпусу.

Разметка должна быть независима от текста: должна быть возможность убрать разметку и просмотреть текст без неё и, наоборот, вычленить только разметку. Принципы разметки и их разработчики должны быть известны конечному пользователю. Пользователь должен быть поставлен в известность о том, что разметка не является безошибочной, а представляет собой лишь потенциально полезный инструмент. В основу разметки должны быть положены общепринятые и, по возможности, теоретически нейтральные лингвистические принципы. И, наконец, ни одна разметка не может априорно считаться стандартом.

Существует несколько видов разметки. Экстралингвистическая, или метаразметка, сообщает сведения о данных. Метаразметку можно условно подразделить на внешнюю, структурную и техническую разметки. Внешняя разметка содержит сведения об авторе и сведения о тексте (автор, название, год и место издания, жанр и тематика). Структурная разметка маркирует главы, абзацы, предложения и словоформы. Техническая разметка отмечает кодировку, даты обработки, исполнителей и источник электронной версии. Метаразметка нужна для исследования условий существования языка, выявления в нём взаимосвязей и для изучения отдельных подмножеств языка. Большое внимание уделяется стандартизации метаразметок:

· проект TEI (Text Encoding Initiative),

· рекомендации EAGLES (Expert Advisory Group on Language Engineering Standards),

· стандарт CES (Corpus Encoding Standard),

· стандарт XCES (Corpus Encoding Standard for XML),

· проект ISLE (International Standards for Language Engineering),

· стандарт CDIF (Corpus Document Interchange Format, BNC).

Собственно лингвистическая разметка делится на:

· морфологическую (выделение аффиксов, сложных слов и т.п.),

· лемматизацию (указание для каждой словоформы из текста ее исходной формы),

· морфо-синтаксическую, или частеречную (part-of-speech-tagging) (выделение основ, определение части речи и признаков грамматических категорий),

· синтаксическую (характер синтаксической связи, тип предложения, член предложения и т.п.),

· семантическую (снятие семантической омонимии, разрешение анафоры и кореферентности, фиксирование информационной структуры и т.п.),

· дискурсивную (реплики, коммуникативные акты и т.п.).

Обычно корпус аннотирован сразу по нескольким или по всем видам разметки. Для исследования любого учебного корпуса обычно рассматриваются способы классификации ошибок, выбирается методика их кодирования в корпусе для последующей автоматической либо ручной разметки (error tagging), а также методика количественного автоматизированного подсчета ошибок по типам, что позволяет провести их всесторонний лингвистический и лингводидактический анализ.

1.3 Краткий обзор разработок по созданию учебных корпусов текстов

На сегодняшний день учебные корпусы наиболее распространены в Азии и Европе. Изучение английского языка достигло в этой области значительных успехов. Международный Учебный Корпус Английского языка (The International Corpus of Learner English) является первым и самым известным учебным корпусом. Корпус включает в себя аргументативные эссе, написанные студентами 3-4 курсов продвинутого языкового уровня. Основная цель ICLE - исследование языка межнациональной коммуникации студентов, изучающих этот язык.

Версия 1.1 ICLE, изданная на CD-ROM в 2002, содержала более чем 2.5 миллиона слов в форме 3 640 текстов, располагающихся между 500-1 000 словами по длине. Она была написана студентами EFL из 11 стран, а именно, из Болгарии, Чехии, Голландии, Финляндии, России, Франции, Германии, Италии, Польши, Испании и Швеции. Корпус все еще расширяется дополнительными подкорпусами (каждый содержит по 200 000 слов) студентами из восьми других стран, включая Бразилию, Китай, Японию, Литву, Норвегию, Португалию, Турции, а также студентами Южной Африки носителями языка Тсвана. В ICLE, изданном на CD-ROM, нет пометок о частях речи и учебных ошибках.

Корпус ICLE доступен для лингвистического исследования, но не может использоваться в коммерческих целях. Данный корпус является показательным примером эффективности разработок в области корпусной и прикладной лингвистики.

Не менее известным учебным корпусом английского языка является Кембриджский Учебный корпус (The Cambridge Learner Corpus). Как часть Кембриджского Международного Корпус, Кембриджский Учебный Корпус - это огромная коллекция примеров английского языка, который пополняют изучающие всего мира. Он содержит свыше 20 млн. слов и непрерывно расширяется. Корпус в настоящее время содержит 50 000 подлинников из 150 стран (100 различных фонов L1). Каждый подлинник содержит информацию о родном языке студента, национальности, уровне английского языка, возрасте, и т.д. Более чем восемь миллионов слов (или приблизительно 25 000 подлинников) были закодированы для ошибок, используя Учебную Кодирующую Систему Ошибок, развитую издательством Кембриджского университета. CIC является коммерческим корпусом. В настоящее время получить доступ к корпусу могут только авторы текстов и авторы, работающие на издательство Кембриджского университета, а также члены штата в Кембридже ESOL.

Среди отечественных разработок в данной области, одним из самых известных является Корпус Текстов Петербургских Школьников (КТПШ).

Объём корпуса составляет 38.122 словоупотребления. Сбор материала проходил в школах Санкт-Петербурга и осуществлялся в рамках педагогической практики студентами 4 курса филологического факультета РГПУ им. А.И. Герцена. В качестве информантов (авторов текстов) выступили 78 учащихся 7, 9-11 классов. Родной язык информантов - русский. Возраст учащихся - от 13 до 17 лет (средний возраст 15.4 лет; стандартное отклонение - 0,8 года). Жанры текстов - эссе и письмо другу (письменные тексты), монолог и диалог (устные тексты).

В таблице 2 представлены основные характеристики корпуса.

Таблица 2. Характеристики КТПШ

Признак

Тип корпуса

Тип данных

Смешанный (устные и письменные)

Язык текстов

Английский

«Параллельность»

Одноязычный

Специфичность

Содержит тексты обучающихся английскому зыку

Доступность

Свободный доступ

Назначение

Исследовательский

Динамичность

Мониторный

Разметка

Размеченный

Характер разметки

Синтаксическая разметка ошибок (error tagging)

Объем текстов

Полнотекстовый

Хронология

Диахронический

«Общность»

Общий

Работа по созданию корпуса текстов обучающихся английскому языку проводилась в рамках программы «Методология проектирования гуманитарных технологий извлечения информации в условиях инновационной образовательной среды: коммуникативный аспект».

Руководитель программы: Беляева Лариса Николаевна, доктор филологических наук, профессор, заслуженный деятель науки РФ, почетный работник высшего профессионального образования РФ.

Работа над программой проводилась в рамках инновационного образовательного проекта РГПУ им. А.И. Герцена «Создание инновационной системы подготовки специалистов в области гуманитарных технологий в социальной сфере» (2008 г).

На данном сервисе представлены тексты петербургских учащихся, разделенные по типам и жанрам и синтаксически размеченные. В корпусе есть возможность свободного наполнения, т.е. любой пользователь может разместить в нем свой текст.

Разметка текста на ошибки.

Разметка ошибок в КТПШ была выполнена полуавтоматическим способом с помощью программ Microsoft Word и Advanced Auto Renamer. Для того, чтобы разместить размеченный вариант текста нужно следовать предложенной в корпусе инструкции:

1) Загрузите на локальный компьютер предлагаемый список ошибок;

2) Скопируйте текст, который будете размечать в отдельный файл редактора Microsoft Word 2007. (! в другом файле у Вас должен остаться текст без разметки!) Убедитесь, что в настройках "Правописание" - "Набор правил" выбран пункт "Строго (все правила)";

3) Кликните на ошибочном варианте слова правой кнопкой мыши и в открывшемся меню выберите пункт "Грамматика";

4) Выделите слово с ошибкой цветом, соответствующим типу ошибки. Для этого воспользуйтесь инструментом "маркер";

5) Впишите номер ошибки (см. список ошибок) после слова через пробел в круглых скобках;

6) Пройдите по ссылке http://www.whitesmoke.com/online-writing-assistant, разместите в диалоговом окне сайта ваш неразмеченный текст;

7) Осуществите разметку текста, нажав на кнопку "check spelling";

8) Выделите в вашем документе слово с ошибкой цветом, соответствующим типу ошибки (см. список ошибок);

9) Впишите номер ошибки (см. список ошибок) после слова через пробел в круглых скобках;

10) По окончании работы воспользуйтесь программой Advanced Auto Renamer, присвоив ошибкам соотвествующие названия;

11) Сохраните документ в формате HTML присовив ему имя типа «textcode»_error tagged.htm (веб-страница с фильтром);

12) Отправьте полученный документ на электронный адрес администрации сайта. Ваш текст будет добавлен в корпус после рассмотрения его администратором сайта.

Практически все уже существующие на данном сервисе тексты размечены на ошибки. На рисунке 1 показан фрагмент размеченного текста.

Рисунок 1. Фрагмент текста КТПШ

Кроме разметки на ошибки, сервис предлагает пользователю разметить текст синтаксически. Для синтаксической разметки текстов корпуса предлагается использовать сервис Machinese Syntax © компании Connexor Oy. Для того, чтобы разместить размеченный вариант текста нужно также проследовать предложенной инструкции.

Создание конкорданса.

Для создания конкордансов используется программа AntConc. В корпусе дано подробное описание этой программы, а также ссылка для скачивания и тексты для работы с программой.

Наполнение сервиса.

Для того чтобы добавить текст в корпус, сначала нужно выбрать раздел Corpus Builder (конструктор корпуса).

· Перед тем как добавить свой текст, нужно заполнить следующие поля:

· тип текста (эссе, письмо другу, монолог, диалог),

· уникальный идентификатор (ID),

· возраст, пол, школа, класс,

· родной язык, второй язык,

· дополнительное образование (подготовительные курсы, репетитор, не занимается),

· уровень владения языком (новичок, начальный, ниже среднего, средний, выше среднего, продвинутый),

· тема,

· и последнее, вставить свой текст в соответствующее поле.

1.4 Мультимодальные корпусы текстов

Новым направлением в корпусной лингвистике является создание мультимодальных (мультимедийных) корпусов текстов.

Мультимодальный корпус - это «аннотированная коллекция взаимосвязанного контента (выровненных текстов, аудио- и видеозаписей актов коммуникации), используемая в качестве модели дискурса». Корпус такого рода, кроме текстовой составляющей, включает видео- или аудиозаписи процесса коммуникации с привязкой к тексту. Такой корпус представляет языковой и коммуникативный материал, отражающий более чем одну модальность восприятия. Являясь «аннотированной коллекцией взаимосвязанного контента, мультимодальный корпус может быть использован в качестве модели дискурса». Тексты выравнивают с их расшифровками, что позволяет исследовать не только языковые единицы, но и речевые действия говорящего в различных ситуациях общения, его неречевое поведение (мимику, жесты, позы).

Интеграция текстовой информации, аудио- и видеозаписей коммуникативных актов в корпусе обеспечивает платформу для исследования целого спектра явлений в области лексики, просодии, использования невербальных средств, а также для изучения способов взаимодействия этих явлений в естественной речи. Кроме того, мультимодальные корпусы обладают высоким потенциалом для практического применения в таких областях как лексикография, построение систем машинного перевода, создание интерфейсов, построение систем искусственного интеллекта и многих других.

Также как и в учебных корпусах, тексты мультимодальных корпусов имеют разметку, соответствующую целям корпуса. В отличие от корпусов письменной речи, мультимодальные корпусы в дополнение к выше представленным типам разметки имеют свою разметку, которая позволяет выделить интонацию, ударение (фонетические компоненты) и разметку, обозначающую мимику, жесты, телодвижения и т.д.

1.5 Обзор разработок мультимодальных корпусов и изучение их структуры

Первым учебным корпусом устной речи стал корпус LINDSEI. Он является разговорной копией ICLE. Первая версия корпуса была составлена на CECL и содержала стенограммы пятидесяти 15-минутных интервью со студентами 3-4-го года обучения. Она содержала приблизительно 100 000 слов. База данных в настоящее время наполняется дополнительными компонентами, представляющими другие языки, включая болгарский, китайский, итальянский, японский, испанский, и шведский. Поскольку большинство учебных корпусов использовало только письменные данные, этот тип данных дает новое исследование относительно широкого диапазона особенностей устного языка межнационального общения.

В России среди мультимодальных корпусов текстов самым популярным является подкорпус Национального Корпуса Русского Языка (НКРЯ). Мультимедийный русский корпус (МУРКО) - это подкорпус Национального корпуса русского языка, который содержит устные русские тексты, выровненные с соответствующими аудио- и видеофрагментами. МУРКО позволяет изучать устную речь, используя не только ее письменную фиксацию, но и ее реальное звучание и жестовое сопровождение. МУРКО рассчитан, прежде всего, на фонетистов, интонологов, специалистов по жестикуляции, но будет также полезен преподавателям русского языка, прежде всего, как иностранного.

Рисунок 2. Мультимедийный корпус НКРЯ

В настоящее время основу корпуса составляют видеоматериалы из отечественных фильмов и аудиозаписей публичной и непубличной устной речи. Технология подготовки материалов для корпуса предполагает расшифровку видео и аудиоматериалов, произведенную с высокой степенью подробности (т.е. включая не только собственно слова, но и междометия, возгласы, а также оговорки); фрагментирование видео и аудио материалов на относительно самостоятельные отрезки (длительностью от10 до 20секунд); фрагментирование текстовых расшифровок, или транскриптов; выравнивание мультимедийных и текстовых фрагментов между собой.

Клипотексты снабжены принятой в НКРЯ аннотацией - морфологической, семантической, социологической, акцентологической. Поскольку разметка клипотектов стандартная, то по ним возможен обычный для Национального корпуса поиск - по морфологическим, семантическим категориям, по социологическим параметрам и по их комбинации.

Наряду с метатекстовой разметкой, которая относится к тексту как целому, каждый клипотекст или клип считается отдельным текстом и описывается как отдельный текст с точки зрения его автора, названия,даты создания, жанра, хронотопа и некоторых других.

Однако, кроме того, добавляются и другие, дополнительные характеристики, которые и раскрывают в полной мере своеобразие мультимедийного корпуса по сравнению, например, со стандартным устным подкорпусом. Прежде всего, предлагается некоторая система параметров, характеризующая речевую составляющую клипотекста.

· тип ситуации;

· тип речевых действий (вопрос, просьба, извинение, совет и пр.);

· полнота речевого действия (полное, незаконченное, прерванное);

· манера говорения (нормальная речь, шепот, крик, диктовка);

· наличие и типы повторов однократный, многократный, переспрос, цитирование, передразнивание);

· наличие и типы междометий и вокальных жестов (причмокивание, цоканье, присвистывание, подзывание и под.);

· характеристика говорящих (количество, пол, язык, на котором говорят).

Уникальный материал и система разметки делают мультимедийный корпус мощным исследовательскими обучающим ресурсом. Его особенность в том, что методика использования существующих пособий ограничивается учебными задачами и предполагает в основном имитационные или имитационно-аналитические упражнения. Что касается корпуса, то в нем аудио- и видеоматериалы, выровненные с текстом, снабжены сложной лингвистической и металингвистической разметкой и снабжены инструментом поиска - и это расширяет возможности их использования. Корпус благодаря этому можно использовать не только в учебных курсах, но и в научно-исследовательских целях.

Еще один пример устного корпуса - проект «Один речевой день». Данный проект является первой попыткой серьезного изучения реального русского языка, на котором не написано ни одной книжки, но на котором мы все говорим. Корпус «Один речевой день» (ОРД) представляет собой один из блоков Звукового корпуса русского языка (ЗКРЯ), работа над которым ведется на факультете филологии и искусств СПбГУ. Принцип, положенный в основу организации этой части корпуса, условно можно назвать «принципом невода»: забрасываем широкую сеть в среду носителей языка, вытягиваем все, что в нее попало, и делаем это объектом многоуровневого анализа. Принцип невода позволяет увидеть реальную, естественную, а не искусственно созданную в лабораторных условиях, жизнь, отраженную в речи. В целом корпус ОРД характеризуется в настоящее время такими количественными показателями: 320 часов звучания, полученные от 40 информантов (20 мужчин и 20 женщин). Звукозаписи переформатированы, убраны длительные (больше 5 минут) шумовые фрагменты, не содержащие речи. Звукозаписи разрезаны на коммуникативные эпизоды по принципу общих условий коммуникации и качества звукозаписи. В результате было получено 994 файла-эпизода общей продолжительностью 268 часов. Подготовлены методики многоуровневого аннотирования данных на лингвистическом и паралингвистическом уровнях. Осуществлена расшифровка 34 часов звукозаписей для 40 информантов и их многоуровневое аннотирование в профессиональной программе ELAN. В результате расшифровки получены тексты общим объемом в 244 075 словоупотреблений на уровне Frase (реплики говорящих), которые относятся к 125 эпизодам и соответствуют 33,87 часам непрерывной звучащей речи. Для 20 информантов-мужчин получено 106 109 словоупотреблений на уровне реплик, что соответствует 15,10 часам непрерывной речи, для 20 информантов-женщин - 137 966 словоупотреблений, что соответствует 18,77 часам.

Реплики говорящих содержат синтагматическое и фразовое членение.

По материалам расшифрованных записей 40 информантов был получен частотный словник всех использованных в речи словоформ и выполнен первичный анализ этих данных. Начато сегментирование речевого материала на лексическом уровне. Осуществлена сегментация 14 884 слов для 5 информантов (S01, S19, S24, S35, S37) (147 минут звучания). Расшифрованный материал корпуса включает более чем 32 000 фраз. Подавляющее большинство высказываний в материале исследования оказались утвердительными (23 494), восклицательных и вопросительных высказываний встретилось около девяти тысяч.

Получена выборочная реальная транскрипция для 1000 словоизменительных морфем из речи 4 информантов. Морфемное аннотирование включает три уровня - орфографическую запись морфемы, её функциональный тип и реальную фонетическую транскрипцию.

По мере сбора и обработки материалы ЗКРЯ традиционно передаются в устный подкорпус Национального корпуса русского языка («Из материалов корпуса “Один речевой день”, подготовленного группой А.С. Асиновского»), что делает их доступными для самого широкого круга пользователей.

Корпус устных рассказов на русском языке был создан для того, чтобы показать, какие отдельные признаки жестов-иллюстраторов указывают на наличие границ сегментов дискурса. Стимулом написания рассказов послужил 6-ти минутный видеосюжет «Фильм о грушах» (“Pear film”). Об этом фильме студентами МГУ было написано 8 рассказов общей продолжительностью 20 минут. В целом, в корпусе было 595 элементарных дискурсивных единиц, которые обычно совпадают с простым предложением, и 327 иллюстративных жестов, которые понимаются как носители информации, выступая в качестве знаковых кинетических единиц выражения и передачи информации. На примере из корпуса исследователям удалось показать, как отдельные признаки жестов и положения рук могут добавлять дополнительную информацию касательно организации дискурса, состояния говорящего и передачи информации.

1.6 Учебный Мультимодальный Корпус

Корпус, разрабатываемый в Иркутском государственном лингвистическом университете, который был назван УМКО (Учебный Мультимодальный Корпус), в настоящее время содержит 28 видеозаписей неподготовленных учебных диалогов носителей и «не носителей» русского, китайского и немецкого языков по определенным темам, размеченных в программе ELAN. В качестве подкорпуса создаваемого мультимодального корпуса разрабатывался параллельный одноязычный подкорпус, в котором между собой выравнивались тексты на одном из языков, произнесённые носителями и «не носителями» языка.

Рисунок 3. Параллельный корпус УМКО

Выполнение данного проекта относится к сфере одного из восьми приоритетных направлений развития науки РФ «Информационно-телекоммуникационные системы» в русле информационных технологий и создания электронных баз данных и преследует несколько важных целей:

1) Лингводидактическая цель проекта заключается в разработке новых методик преподавания русского, китайского и немецкого языков как иностранных на эмпирическом материале нового поколения, в том числе с учетом типичных ошибок при построении устных высказываний на иностранном языке студентами старших курсов. Данный корпус предназначен, в первую очередь, для выработки методических рекомендаций по обучению китайскому и немецкому языков русских студентов и обучению русскому языку китайских студентов, поскольку позволяет найти пути устранения ошибок в ходе учебных занятий и самостоятельной работы студентов.

2) Лингвистическая цель заключается в анализе различных языковых и сопутствующих им паралингвистических явлений, зафиксированных в подкорпусах, созданных на основе видеозаписей диалогов носителей русского и китайского языков. С помощью корпусов текстов можно не только с большей точностью анализировать отдельные факты реализации языковых единиц, но и выявлять общие закономерности, присущие языковой системе. В частности, очевидным образом звучащий корпус является подспорьем для исследователей фонетики и орфоэпии.

В отличие от мультимедийных корпусов, которые основываются на уже существующем видеоматериале, цели УМКО требовали создания собственных видеозаписей. Первоначальное проектирование мультимодального корпуса включает определение субъектов коммуникации, физических условий, при которых будет происходить запись, инструментального обеспечения процесса записи, а также выбор тем, которые будут обсуждаться коммуникантами в процессе разговора.

В соответствии с ранее определенной спецификой корпуса были выбраны участники-волонтеры из числа студентов 3-4 курса изучающих немецкий и китайский языки.

Выбор тем диалогов осуществлялся на основании исследования, выявившего список общих разговорных тем, которые являются актуальными в независимости от изучаемого языка и необходимыми для установления контакта и ведения бесед в стандартных ситуациях: «Ориентирование в городе»; «В аэропорту»; «Знакомство»; «Питание. Ресторан»; «Магазины. Покупки», «На приеме у врача», «Свободное время. Обсуждение фильма», «Увлечения. Спорт», «В гостинице».

Для каждой темы был составлен опорный план диалога, содержащий несколько (обычно 4-5) пунктов, которые так или иначе должны были быть включены в текст диалога. Несмотря на заданные заранее темы, речь студентов можно назвать спонтанной, так как темы сообщались участникам лишь незадолго до момента записи, при этом уточнялось, что предложенный план является лишь опорным, и участникам самим предлагалось развить тему в любом направлении. Записи было решено проводить в помещениях университета.

В результате анализа существующих программных продуктов для создания корпуса была выбрана программа ELAN. На основании сопоставительного анализа функциональных возможностей нескольких программ, мы пришли к выводу, что программа ELAN обладает рядом преимуществ. Во-первых, она является бесплатной и свободно распространяемой. Во-вторых, поддерживает русский язык для интерфейса. В-третьих, обладает продвинутыми поисковыми возможностями (например, позволяет производить структурированный поиск по нескольким файлам).

Параллельный подкорпус.

Рисунок 4. Параллельный подкорпус на китайском языке

Главными задачами при построении параллельного мультимедийного подкорпуса были:

· Выбор оптимального способа хранения корпусных данных.

· Разработка метода выравнивания корпуса.

· Создание корпус-менеджера.

Для хранения данных мультимедийного параллельного корпуса был выбран формат баз данных Microsoft Access 2003. Данный формат позволяет наглядно представить структуру корпуса, упростить процесс его заполнения и выравнивания, является широко известным, что позволит любому уверенному пользователю ПК работать с корпусом. Каждая таблица корпуса имеет жесткую структуру и хранит в себе данные одной языковой ситуации.

Поскольку исходные тексты характеризуются высокой степенью спонтанности, произвести выравнивание по предложениям не представляется возможным. По этой причине за единицу выравнивания было решено принять тематический блок - часть текста, относящуюся к одной теме. Граница тематического блока может проходить как между репликами коммуникантов, так и в рамках реплики одного из коммуникантов.

Каждый тематический блок записывается в отдельную ячейку таблицы. Выравнивание между текстами осуществляется на основе текста носителей языка: соответствующие друг другу тематические блоки записываются в рядом стоящие ячейки. Если же тематическому блоку из одного текста невозможно поставить в соответствие ни один блок из другого текста, то рядом стоящая ячейка остаётся пустой.

Наряду с самим корпусом на платформе Delphi XE был создан корпус-менеджер, позволяющий удобно просматривать мультимедийный параллельный корпус. Данный корпус-менеджер в наглядном виде представляет текстовую часть корпуса со всей разметкой и выравниванием по тематическим блокам, позволяет воспроизвести отрывок видео, относящийся к тому или иному блоку корпуса, а также позволяет просматривать метаданные.

На сегодняшний день корпусная лингвистика является довольно популярным направлением прикладного языкознания среди лингвистов. Особую область в этом направлении представляют учебные корпусы, которые предназначены для выявления ошибок в речи носителей и изучающих язык. На данный момент существует огромное количество письменных учебных корпусов по всему миру. Большинство из них направлено на изучение английского языка как иностранного. В России данное направление только входит в практику, поэтому значительных успехов пока не зафиксировано.

Что касается корпусов текстов устной речи, то с развитием технологий записи аудио и видео, а также компьютерных программ, позволяющих систематизировать и хранить мультимедийные данные, они приобретают все большую значимость в языкознании. Позволяя изучить вербальную и невербальную составляющую речи, они являются все более востребованными на рынке образования.

Как уже отмечалось выше, создание мультимедийных корпусов требует наличие специальных компьютерных программ. Таких программ уже достаточно много в глобальной сети. Главное - выбрать ту, которая наиболее подходит для достижения поставленных целей.

Рассмотрев структуру учебных корпусов письменной речи и устных корпусов текстов на конкретных примерах, мы поставили перед собой задачу создать подкорпус немецкого языка, который будет использоваться в лингводидактических целях.

2. Русско-немецкий подкорпус УМКО

2.1 Подготовка материалов и создание русско-немецкого подкорпуса

Создание русско-немецкого подкорпуса началось в 2013 году студентами нашего университета кафедры прикладной лингвистики. Выбор немецкого языка обусловлен тем, что на специальности Теоретическая и прикладная лингвистика он является одним из обязательных языков обучения, а также тем, что каждый год студенты университета выезжают на полугодичные стажировки в Германию, становясь тем самым объектами исследования. Также как и китайский подкорпус, немецкий подкорпус предназначен, с одной стороны, для разработки новых методик преподавания немецкого языка на эмпирическом материале нового поколения, с другой стороны, для анализа различных языков и сопутствующих им паралингвистических явлений, зафиксированных в подкорпусе.

Создание русско-немецкого подкорпуса можно разделить на следующие этапы:

1. Поиск коммуникантов-волонтеров;

2. Создание тем диалогов, написание шаблонов, опорных слов;

3. Запись диалогов;

4. Написание текстов записанных видео;

5. Разметка текстов на ошибки;

6. Внесение видео и текстов в корпус;

7. Анализ ошибок;

8. Поиск причин допущения ошибок и способы их избежания в будущем.

В соответствии с ранее определенной спецификой корпуса были выбраны участники-волонтеры из числа: российских студентов 3-4 курсов, изучающих немецкий язык как в качестве основного, так и в качестве второго языка. От всех студентов было получено письменное согласие на участие в проекте, проведение видеозаписи и дальнейшее использование видеозаписи в научных и учебных целях. Каждый участник заполнил анкету, в которой они должны были указать следующие метаданные:

1) имя, фамилия,

2) пол,

3) возраст,

4) национальность,

5) страна, город проживания,

6) учебное заведение (факультет, специальность, курс),

7) родной язык,

8) изучаемые языки и их уровни,

9) посещение страны изучаемых языков (период времени).

Всего в проекте приняло участие 8 студентов нашего университета. Это студенты специальности Теоретическая и прикладная лингвистика 4го курса (основной язык - английский) и студенты специальности Теория и методика преподавания иностранных языков и культур 4го курса (основной язык - немецкий).

Темы диалогов были преимущественно взяты из русско-китайского подкорпуса, который включает в себя разговорные темы, являющиеся актуальными в независимости от изучаемого языка и необходимыми для установления контакта и ведения бесед в стандартных ситуациях:

1. «Ориентирование в городе».

2. «В аэропорту».

3. «Знакомство».

4. «Питание. Ресторан».

5. «Магазины. Покупки».

Ознакомившись с различными учебными пособиями, интернет источниками, мы добавили еще несколько новых тем: «На приеме у врача», «Свободное время. Обсуждение фильма», «Увлечения. Спорт», «В гостинице».

Для каждой темы был составлен опорный план диалога, содержащий несколько пунктов, которые должны были быть включены в текст диалога.

Например, для ситуации «Ресторан» был составлен следующий план:

Ситуация: Студенты А, В - посетители, студент С - официант. Студенты А, В приходят в кафе, садятся за столик. Официант приветствует посетителей, приносит меню.

Студенты А, В:

1. обсудите меню, цены;

2. сделайте заказ;

3. обсудите обстановку;

4. обменяйтесь впечатлениями о еде;

5. попросите счет, рассчитайтесь;

Студент С:

1. примите заказ;

2. ответьте на возникшие вопросы, посоветуйте блюда;

3. принесите блюда, пожелайте приятного аппетита;

4. принесите счет, рассчитайте и проводите посетителей.

Несмотря на то, что темы были известны заранее, речь студентов можно назвать спонтанной, т.к. темы сообщались непосредственно перед снятием видеозаписей, а представленные планы являлись лишь опорными, и студенты могли сами развить темы в любом направлении.

Запись проводилась на территории Иркутского государственного лингвистического университета.

2.2 Разметка текстов и аннотирование данных

Все аудиозаписи были затранскрибированы. При записи реплик использовалась схема, предложенная Шерстиновой Т.Ю. для аннотирования звукового корпуса русского языка «Один речевой день». Выбор именно этой схемы обусловлен близостью предмета исследования - ОРД также содержит записи спонтанной, неподготовленной разговорной речи. Однако схема разметки ОРД не полностью отвечает нашим задачам, в связи с чем в нее был внесен ряд изменений:

1) слова записываются в орфографии; обязательно используется буквы ц, д, ь;

2) если некая словоформа употреблена грамматически неправильно (не тот падеж, число и т. п.), то в орфографии записывается реально звучащая словоформа, в конце которой без пробела ставится символ звездочка (*) (напр., в путём*);

3) при неуверенности расшифровщика в идентичности словоформы после неё без пробела ставится знак вопроса в круглых скобках (напр., на станцию Торфянка(?));

4) неполные (оборванные) слова помечаются многоточием без пробела;

5) начала реплик не выделяются заглавной буквой;

6) заглавные буквы ставятся в начале имен собственных;

7) названия не выделяются в кавычки. При необходимости пометить название, после одиночного слова ставится знак $, названия из двух или более слов объединяются символом «подчеркивание», и в конце также ставится $ (напр., я посмотрела фильм Монгол$, а ты смотрела Унесённые_ветром$ ?);

8) точки и запятые в расшифровках не ставятся;

9) членение реплик на фразы и синтагмы осуществляется с учетом интонационно-синтаксических характеристик отрезков звуковой цепи;

10) знак / - одинарный слеш - знак членения на синтагмы;

11) знак // - двойной слеш - знак конца фразы;

12) знаки / и // отбиваются обязательным пробелом с двух сторон, если это не конечный символ реплики (в этом случае обязательным является только пробел перед слешем);

13) символы ? (вопросительное предложение) и ! (восклицательное предложение) употребляются в обычном значении. Но перед ними обязательно ставится пробел;

14) если фраза не закончена (оборвана), в конце ставится символ Ц (многоточие) после пробела;

15) каждая реплика, находящаяся в отдельном боксе, должна быть «закрыта», т. е. иметь на конце один из пяти следующих символов: /, //, ?, !, Ц;

16) слово, словосочетание или целая реплика, которые трудно расшифровать, помечаются символом *Н (звездочка + заглавная русская буква Н);

17) если вся реплика в боксе является неразборчивой, тем не менее, она должна иметь закрывающую интонационную помету;

18) внутри каждой реплики обязательно отмечаются паузы;

19) символ () (открывающая и закрывающая круглые скобки без пробела) ставятся на месте небольшой заминки с краткой паузы хезитации;

20) символ (Ц) (открывающая и закрывающая круглые скобки, многоточие между ними) обозначает продолжительную паузу хезитации;

21) если пауза хезитации заполнена некоторыми звуками, соответствующие буквенные символы ставятся внутри круглых скобок: напр., (э) с краткая пауза хезитации, заполненная э-образным звуком, (э-э) с длинная пауза хезитации, заполненная э-образным звуком, подобным образом помечаются (м), (м-м), (а), (а-а) и т. п.;

22) внутри реплик обязательно отмечаются и нехезитационные паузы, обозначаемые символом *П, продолжительностью более 50 мс. Чаще всего они имеют место после символов, завершающих интонационную группу (/, //, ?, !). Например, я буду завтра в три // *П а ты ?;

23) все символы, обозначающие паузы, отбиваются пробелом с двух сторон;

24) расшифровка реплики не может начинаться или заканчиваться символом *П с;

25) растягивание слова или отдельного слога в слове помечается символом (:) в конце слова без пробела. Например, да ты что(:)!.

Запись одного из текстов выглядит следующим образом:

Рисунок 5. Фрагмент размеченного текста

Первичное аннотирование данных осуществлялось в программе ELAN.

ELAN - программа для включения текстовых аннотаций в видео- и аудиофайлы. Данное приложение является бесплатным; оно позволяет создать, визуализировать и редактировать заметки, прикрепленные к видео- и аудиофайлам. ELAN обладает удобным интерфейсом на русском и других языках, показывает время добавленного текста, поддерживает отображение аудио- и видео-сигналов в сопровождении встроенных аннотаций. Программа позволяет добавлять текстовые данные в определенном месте и просмотреть результат на графике. Редактировать текст можно в любое время, при этом текущая аннотация может быть объединена с предыдущей или следующей.

Для того чтобы проаннотировать аудио- или видеозапись, нужно следовать данной инструкции:

1) Создаем новый файл. Для этого требуется открыть программу, выбрать в меню раздел File, затем вкладку New. Открывается окно, где нужно выбрать аудио- и/или видеофайл, который должен быть обработан. Нужно найти нужный файл (или нужные файлы) и выбрать его с помощью стрелок [>>] в середине окна, потом нажать ОК. Если Вы хотите работать с аудио- и видеофайлом вместе, нужно сначала выбрать аудиофайл (.wav), потом выбрать видеофайл (.mpg). Открывается главное окно ELANa, где видно либо только звуковые волны (если выбрали только аудиофайл), либо звуковые волны и видео (если выбрали аудио- и видеофайл).

2) Под звуковыми волнами есть место для аннотаций. Чтобы создать уровни для аннотации, нужно сначала определить их структуру - в ELANе это называется их «тип». Есть 2 основных типа аннотаций: независимые (которые связаны прямо со звуковым файлом во времени) и зависимые (которые связаны не со звуком, а с другой аннотацией); например: орфографическая транскрипция = независимый тип аннотаций, потому что она связана прямо со звуком, перевод = зависимый тип аннотаций, потому что он связан с транскрибированным предложением

В ELANе надо сначала определить типы: Type - Add new linguistic type.

3) Нужно назвать типы, и потом дать им «стереотип». Главные стереотипы = None (независимый тип, аннотация связана прямо со звуком, например для транскрипции), и Symbolic Association (зависимый тип, аннотация связана с другой аннотацией, например для перевода). После того, как назвали и выбрали стереотип, нужно нажать Add, чтобы этот тип добавился.

4) Когда типы определены, можно определить уровни аннотации = tiers. Tiers - Add new tier. Каждый уровень получает определенный тип, например, аннотация с эвенской орфографией = тип transcription, и аннотация с русским переводом = perevod.

5) Теперь нужно таким же образом дать название уровням; при этом необходимо определить вышестоящий уровень (parent tier) и тип. Нужно сохранить файл: File - Save as...

6) Вводить аннотации. Чтобы начать вводить аннотации, нужно сначала активировать тот уровень аннотации, в который Вы хотите вводить аннотации; активированный уровень = красный. Потом нужно выделить тот кусок речи, который Вы хотите аннотировать - одно предложение, например. В этом помогает звуковая волна, где можно видеть снижающуюся интонацию, или речевые паузы. После этого в активированном уровне при двойном клике мышкой по выделенному фрагменту открывается окно для аннотации, куда можно вписать транскрипции (перевод, комментарий, и т.д.).

7) Сохранить написанное: Strg+enter (ввод). Чтобы воспроизвести звук только выделенного отрывка, можно нажать на кнопку >S. Очень важно: аннотации должны быть неотрывными, поэтому нужно маркировать следующий кусочек, начиная чуть-чуть перед концом первого. Скорость речи можно снижать через Rate - если передвинуть стрелку налево, то речь замедляется. Чтобы сохранить файлы во время работы: Strg+S (или File - Save).

2.3 Анализ ошибок

Следующим шагом было распределение ошибки по типам. Для этого была использована классификация, созданная Сотниковой Еленой Сергеевной (кафедра немецкой филологии ИГЛУ), которую она составила при разработке учебного корпуса ошибок по немецкому языку. Нужно отметить, что из данной таблицы были использованы не все типы ошибок. Не были задействованы пунктуационные типы ошибок и орфографические, так как они используются для анализа письменной речи.

Проверка текстов на ошибки осуществлялась преподавателем немецкого языка с кафедры немецкой филологии и носителем языка доктором филологических наук профессором университета Циттау/Гёрлитц. Выявленные ими ошибки были отмечены в текстах знаком (*). На месте ошибок преподаватели написали свои варианты слов, фраз, предложений, которые являются корректными в данном предложении или фразе.

В результате распределения были получены следующие данные:

Таблица 3. Количество ошибок в русско-немецком подкорпусе

Тип ошибки

2013

2014

Всего

Артикль

Выбор

6

5

11

Склонение

1

3

4

Имя существительное

Род

3

3

Число

1

1

2

Склонение

Местоимение

Выбор

3

1

4

Склонение

1

1

Имя прилагательное

Склонение

10

10

Глагол

Форма

1

4

5

Время

1

3

4

Управление

4

4

Вспомогательный глагол

Предлог

6

6

12

Словоупотребление

32

24

56

Порядок слов в предложении

1

9

10

Произношение

1

1

Интонация

Ударение

Стиль

2

2

Данная таблица содержит список грамматических, фонетических разделов, в которых коммуниканты допустили ошибки. Количество ошибок указано в столбцах «2013» и «2014». Последний столбец показывает общую сумму этих ошибок. Для графического представления данной таблицы ошибок были созданы диаграммы.

Из первой диаграммы, которая показывает данные за 2013 год, видно, что более 50% ошибок были допущены из-за неправильного словоупотребления. Ошибки в употреблении артиклей и предлогов занимают второе место. Ну а третьими по распространенности идут ошибки в употреблении местоимений.

Рисунок 6. Данные за 2013 г.

Совсем иначе выглядит диаграмма ошибок за 2014 год. Единственным сходством с прошлым годом является то, что большинство ошибок было допущено при словоупотреблении, хотя их количество отличается - 32 против 24. На втором месте стоят сразу насколько разделов - глаголы, имена прилагательные и порядок слов в предложении. Чуть меньшее количество ошибок было допущено при употреблении артиклей и предлогов.

Рисунок 7. Данные за 2014 г.

На диаграмме, показывающей общее количество ошибок, также видно, что ошибки, связанные со словоупотреблением, занимают 35-40% от всего количества ошибок. Ошибки в предлогах, глаголах и артиклях составляют примерно по 10%. Нарушения порядка слов, а также неправильное употребление и склонение прилагательных стоят на третьем месте по частоте.

Рисунок 8. Общее количество ошибок

2.4 Установление причин возникновения ошибок и поиск решения их устранения

Для того чтобы предупредить речевые ошибки, необходимо знать их лингвистические и психологические причины. Рассмотрев справочные материалы, учебную литературу, интернет-ресурсы, мы выявили ряд возможных причин возникновения ошибок в процессе изучение немецкого языка.

Одна из главных причин возникновения ошибок, по мнению В.П. Натальина, является несформированность соответствующих речевых навыков и умений. Учащиеся допускают ошибки не потому, что им не знакома грамматическая структура языка, а потому, что у них не были сформулированы соответствующие грамматические речевые навыки и умения. Если учащемуся указать на ошибку, то он в большинстве случаев ее исправит, причем, при этом он чаще всего может правильно объяснить грамматическое явление. Еще одна распространенная причина неправильности речи состоит в том, что обучающиеся опасаются сделать ошибку, что неблагоприятно сказывается на оформлении речи, ее беглости и на содержательной стороне высказывания.

Страница:

1
2

курсовая работа "Разработка учебного мультимодального подкорпуса немецкого языка" скачать

Подобные документы

Разработка базы данных "Университет"
Анализ проектирования баз данных и освещение методов построения форм и отчетов на примере построения программы ведения электронной документации учебного заведения. Разработка и построение инфологической модели по предметной области "Университет".

курсовая работа [6,3 M], добавлен 03.11.2014

Обработка массивов данных в среде Turbo Pascal
Разработка программ на языке Turbo Pascal на основе использования массивов данных. Особенности хранения данных, способы объявления переменных, действия над элементами массивов, их ввод и вывод. Практическое применение одномерных и многомерных массивов.

методичка [17,8 K], добавлен 25.11.2010

Компьютерная лингвистика
Место и роль компьютерной лингвистики в лингвистических исследованиях. Лингвистические средства, создаваемые и применяемые в компьютерной лингвистике. Современные интерфейсы компьютерной лингвистики. Перспективная задача компьютерной лингвистики.

курсовая работа [28,5 K], добавлен 22.11.2009

Разработка и исследование принципов и методики построения информационно-телекоммуникационных систем на базе ГИС-технологий
Анализ технологий развития телекоммуникационными сетями и структурной модели бизнес-процессов телекоммуникационного предприятия с целью определения архитектуры ИТС. Классификация направлений использования ГИС-технологий в телекоммуникационной области.

автореферат [805,3 K], добавлен 04.01.2009

Ассоциативный массив с возможностью хранения данных произвольных типов (хэш-массив)
Исследование основных отличий ассоциативных массивов от массивов скаляров. Разработка библиотеки классов. Выбор языка программирования. Сравнение языка C++ с Delphi, Java и JavaScript. Изучение методики тестирования и структуры тестового приложения.

практическая работа [390,2 K], добавлен 06.01.2013

Разработка учебного пособия "Семейство компьютеров Pentium"
Основные положения и классификация электронных учебных материалов. Использование информационных технологий в создании и применении обучающих систем. Разработка компьютерного учебного пособия, его интерфейса. Обоснование выбора языка программирования.

курсовая работа [63,9 K], добавлен 13.02.2009

Изучение пунктуации на примерах корпуса школьных текстов
Корпус текстов школьников в контексте корпусной лингвистики, его содержание и пополнение. Пунктуационная разметка текстов, классификация ошибок. Использование языка разметки TEI для кодировки пунктуации. Обработка корпуса с помощью программы Интерробанг.

дипломная работа [1,9 M], добавлен 08.11.2015

Принципы построения и проектирования базы данных
Понятие информации, автоматизированных информационных систем и банка данных. Общая характеристика описательной модели предметной области, концептуальной модели и реляционной модели данных. Анализ принципов построения и этапы проектирования базы данных.

курсовая работа [1,7 M], добавлен 18.01.2012

Массивы. Двумерные массивы
Широкое использование компьютерных и информационных технологий. Концепции типов данных. Алгоритмы сортировки одномерных массивов. Описание двумерного массива Паскаля. Методы доступа к элементам массивов. Индексные, динамические и гетерогенные массивы.

курсовая работа [66,3 K], добавлен 07.12.2010

Разработка телефонного справочника
Основные концепции построения реляционных СУБД, базовые принципы проектирования данных. Базы данных: способы представления и модели. Цели построения инфологического моделирования. Разработка структуры программы. Даталогическая модель, разработка процедур.

курсовая работа [1,7 M], добавлен 11.07.2012

Другие документы, подобные "Разработка учебного мультимодального подкорпуса немецкого языка"

главная

рубрики

по алфавиту

вернуться в начало страницы

вернуться к началу текста

вернуться к подобным работам

Рубрики

По алфавиту

Закачать файл

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.

Признак	Тип корпуса
Тип данных	Смешанный (устные и письменные)
Язык текстов	Английский
«Параллельность»	Одноязычный
Специфичность	Содержит тексты обучающихся английскому зыку
Доступность	Свободный доступ
Назначение	Исследовательский
Динамичность	Мониторный
Разметка	Размеченный
Характер разметки	Синтаксическая разметка ошибок (error tagging)
Объем текстов	Полнотекстовый
Хронология	Диахронический
«Общность»	Общий

Тип ошибки	2013	2014	Всего
Артикль	Выбор	6	5	11
	Склонение	1	3	4
Имя существительное	Род		3	3
	Число	1	1	2
	Склонение
Местоимение	Выбор	3	1	4
	Склонение	1		1
Имя прилагательное	Склонение		10	10
Глагол	Форма	1	4	5
	Время	1	3	4
	Управление		4	4
Вспомогательный глагол
Предлог	6	6	12
Словоупотребление	32	24	56
Порядок слов в предложении	1	9	10
Произношение	1		1
Интонация
Ударение
Стиль	2		2