Ruskell: теория и практика

Рассмотрение сочетаемости слова: коллокации и работа скетч-грамматики. Проведение сравнительного анализа скетч-грамматики ruskell 1.3 и скетч-грамматики Araneum Russicum. Определение особенностей депиктивных конструкций. Обзор похожих и однокоренных слов.

Рубрика Иностранные языки и языкознание
Вид дипломная работа
Язык русский
Дата добавления 01.08.2017
Размер файла 778,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Правительство Российской Федерации

Федеральное государственное автономное образовательное учреждение

высшего образования

Национальный исследовательский университет

«Высшая школа экономики»

Факультет гуманитарных наук

Образовательная программа

«Теория языка и компьютерная лингвистика»

Ruskell: теория и практика

Выпускная квалификационная работа студента 2 курса магистратуры

Культепина Ольга Александровна

Академический руководитель образовательной программы Научный руководитель канд. филологических наук, доц. Профессор, д.ф.н.

А.А. Бонч-Осмоловская Апресян Валентина Юрьевна

Москва 2017

Оглавление

Введение

1. Обзор литературы

2. Сочетаемость слова: коллокации и работа скетч-грамматики

2.1 Скетч-грамматика ruskell 1.3

2.2 Сравнительный анализ скетч-грамматики ruskell 1.3 и скетч-грамматики Araneum Russicum

2.3 Ошибки в выдаче

2.3.1 Ошибки в автоматической разметке

2.3.2 Ошибки в омонимичных формах

2.4 Включение новых правил в скетч-грамматику

2.4.1 Числительные

2.4.2 Предлоги

2.4.3 Депиктивные конструкции

2.5 Что пользователь может найти во вкладке “Сочетаемость слова”

2.5.1 Агрессивный: смена оценки

2.5.2 Нотка: расширение сочетаемости

2.5.3 Инструмент: развитие нового значения

2.5.5 Идиомы и фразеологизмы: лебединая верность и ранняя пташка

2.5.6 Однокоренные слова в RuSkELL

3. Выдача примеров

4. Похожие слова

4.1 Похожие слова: отношения внутри группы

4.2 Похожие слова: возможности анализа

4.3 Что похожего у похожих слов с RusVectфrзs

5. Возможности RuSkELL в преподавании РКИ

5.1 Тьюториал: с чего начать работу в RuSkELL

5.2 Работа с примерами в RuSkELL

5.2.1 Исследование слова в контексте: значение, функции, окружение

5.2.2 Работа с фразеологизмами

5.2.3 Что функция “Примеры” дает для изучения грамматики? Вид глагола

5.3 Сочетаемость слова: обучающие возможности

5.3.1 Близкие синонимы и их сочетаемость

5.3.2 Работа с однокоренными словами

5.4 Для чего студенту “Похожие слова”

5.5 Исследование слова: обращение ко всем функциям

Заключение

Список использованных источников и литературы

Приложения

коллокация грамматика araneum russicum

Введение

В своей работе я хочу рассмотреть теоретические основы функционирования онлайн-инструмента для изучения русского языка RuSkELL и возможности его практического применения в исследовании и преподавании русского языка. RuSkELL - это онлайн-ресурс для изучения русского языка, основанный на корпусе русского языка ruTenTen11 и адаптированный для использования наивным непрофессиональным пользователем, незнакомым с корпусной лингвистикой и не имеющим лингвистического бэкграунда. RuSkELL является одним из проектов Sketch Engine и, в первую очередь, ориентируется на аудиторию пользователей, изучающих русский язык как иностранный. Однако возможности ресурса могут быть использованы и профессиональными исследователями в области лексикографии, лексической семантики и фразеологии.

Также в работе будут описаны реальные изменения в функционировании ресурса, которые были подготовлены мною в рамках работы в проектной группе НИС.

Корпус RuSkELL состоит из текстов Рунета, закачанных в 2011 году при помощи SpiderLing (Suchomel, Pomikбlek, 2012), прошедших “чистку” и обработанных при помощи алгоритма GDEX (Good Dictionary EXamples). В итоге в корпусе остались предложения средней длины со словами средней частотности, с которыми удобно работать как исследователям русского языка, так и студентам. Благодаря разнообразию документов, составивших корпус RuSkELL, и механизму их обработки, пользователь ресурса может ознакомиться как с привычно-нейтральными контекстами, так и со специальными терминологическими или сленговыми. Вся работа по компилированию, чистке и обработке корпуса была проведена специалистами до непосредственной исследовательской работы над ресурсом См. подробнее:https://www.sketchengine.co.uk/ruskell-examples-and-collocations-for-learners-of-russian/.

RuSkELL не единственный корпус русского языка в системе Sketch Engine: из известных и широко используемых в исследованиях можно также выделить Russian Web 2011 (ruTenTen11) и Araneum Russicum, к которым я буду обращаться в работе. Однако RuSkELL - первый русский учебный корпусный ресурс, имеющий упрощенный интуитивно понятный интерфейс и небольшой объем выдачи примеров и коллокаций. Он создан по модели английского аналога SkELL (Baisa, Suchomel 2014) с теми же целями, но с учётом специфики русского языка.

Целью настоящей работы стали рассмотрение теоретических принципов работы RuSkELL на фоне других корпусных онлайн-ресурсов и составление рекомендаций по практическому применению его ресурсов в лексикографии и преподавании русского языка как иностранного. Объектом исследования является, в первую очередь, непосредственно RuSkELL как отдельная онлайн-площадка и как корпус в коллекции Sketch Engine, но также в процессе анализа были привлечены другие русскоязычные корпусы Sketch Engine (Russian Web 2011 (ruTenTen11), Araneum Russicum Russicum Maius (Russia-only Russian, 15.03) 1,20 G), английский прототип SkELL, частично - ресурсы НКРЯ и RusVectфrзs.

Задачи исследования:

Определить место RuSkELL в ряду корпусных онлайн-ресурсов, используемых лексикографами и потенциально - изучающими русский язык как иностранный, и выявить сильные и слабые стороны инструмента;

Проанализировать внутреннюю структуру RuSkELL: как работают функции “Примеры”, “Сочетаемость слова”, “Похожие слова”, какие проблемы возникают при работе с выдачей, как они могут быть решены. Для этого в работе будут приведены как результаты индивидуальных анализов, так и результаты работы проектной группы НИС «RuSkELL: Online Language Learning Tool for Russian Language» (руководитель В.Ю. Апресян, участники: О. Буйволова, О. Культепина, А. Малолетняя).

Определить ценность RuSkELL в работе лексикографа: какие возможности делают ресурс привлекательным для исследователей;

Очертить круг практических проблем в преподавании и изучении РКИ, которые можно решить с помощью RuSkELL.

Рабочие гипотезы, которые определили направление исследовательской работы, были сформулированы на базе следующих предположений: 1) RuSkELL показывает полуидиоматические, идиоматические сочетания, коллокации, которые часто оказываются неучтенными в других корпусных ресурсах и словарях; 2) RuSkELL может использоваться в преподавании РКИ как эффективное дополнение к традиционным учебным словарям и спискам лексем.

Методом достижения поставленных задач стал анализ корпусов и их выдач. В качестве основных методик исследования были выбраны: составление и корпусный анализ выборок, сравнительный анализ корпусов, сравнительный анализ частотности, семантической близости и скетчей, вычисление семантической близости, составление семантических полей слов.

Структура работы: работа состоит из введения, обзора литературы по вопросу и четырех глав, которые описывают корпус RuSkELL, функции и принципы работы ресурса, дают сравнение RuSkELL с другими корпусами и онлайн-инструментами по изучению русского языка и представляют рекомендации по использованию RuSkELL в изучении русского языка для преподавателей РКИ, а также заключения, в котором даны перспективы развития корпуса и его практического использования.

1. Обзор литературы

Как конечный продукт RuSkELL представляет собой онлайн-ресурс с достаточно ясной запросной системой и интуитивно понятной системой использования. При этом корпус ruskell 1.3. (закрытый корпус на Sketch Engine) и возможности его изучения в Sketch Engine гораздо более широки. В определенной степени можно утверждать, что RuSkELL - это в первую очередь образовательный ресурс, а уже во вторую - лексикографический, в то время как корпус ruskell 1.3 прежде всего является лексическим инструментом со сложным функционалом и продвинутым интерфейсом. Поэтому для моего исследования важно было ознакомиться не только с работами, поднимающими вопрос использования корпусных технологий в преподавании РКИ, но и с теми исследованиями, которые помогли бы лучше понять структуру корпуса, работу его функций (скетчей, тезауруса, выдачи примеров) и особенностей каждой функции.

Исходя из этого, я обратилась к работам, описывающим создание, обработку, функционирование и совершенствование первого и самого крупного корпуса на Sketch Engine - Russian Web 2011 (ruTenTen11). Именно на его основе был создан RuSkELL - с сохранением скетч-грамматики и базы корпуса при уменьшении объема корпуса через ограничения по частотности и повторной обработке и чистке примеров.

Первый корпус русского языка ruTenTen11, на основе которого был создан RuSkELL, был включен в систему Sketch Engine в 2011 году, когда лингвист М.В. Хохлова написала скетч-грамматику (sketch grammar - свод правил для составления коллокаций, используемый в Sketch Engine) для русского языка. Исследовательница посвятила ряд статей описанию работы над адаптацией скетч-грамматики под специфику русского языка (Khokhlova 2009, 2010) (Khokhlova, Zakharov 2010 ). В своих работах Хохлова описывает процесс создания самого корпуса и загрузки текстов, отобранных по ряду критериев (однородность, похожая структура). Но наибольшее внимание было уделено описанию того, как создаются контролирующие правила скетч-грамматики. Хохлова и её коллеги опробовали два способа написания правил. В одном случае они использовали подход Владимира Бенко, который выносил в ворд-скетч (список сочетаемости слова-запроса с коллокатами) все возможные сочетания запроса во фразах. При другом подходе, которому впоследствии было отдано предпочтение, приоритетом был сочетаемостная способность слова (collocability). То есть грамматические отношения в скетч-грамматике принимали во внимание синтаксические конструкции, в которых участвуют слова, и их морфологические особенности, которые в сумме могут выдавать приемлемые коллокации, мало объясненные в словарях или справочниках (Khokhlova 2009, 2010). Описывая работу скетч-грамматики, Хохлова так писала о механизме её работы:

This grammar itself represents a collection of definitions that allow the system to automatically identify possible relations of words to the keyword. Taking into account these rules the system selects predefined types of phrases and then on the basis of statistical measures it generates tables with word sketches for a keyword sorted according to the selected associative measure» (Хохлова, Захаров 2010: 3492).

Выбор принципов написания правил скетч-грамматики определил характер выдачи корпуса, в которой представлена информация о «words' syntagmatic behavior» (Khokhlova 2010).

Другим важным для настоящего исследования автором стал уже упомянутый Владимир Бенко, работавший над созданием ряда одноязычных и параллельных корпусов, объединенных общим принципом работы и правилами составления скечт-грамматики. Проект получил название Aranea, и в его рамках был создан корпус русского языка Araneum Russicum Russicum Maius. Корпус был создан в рамках эксперимента по переносу скетч-грамматики, созданной для словацких корпусов, на русский материал, в результате чего исследователь оценивал совместимость и своего рода универсальность созданной им грамматики. Главное принципиальное отличие скетч-грамматики Aranea - ориентация на коллокации по всем классам слов вне зависимости от прямых синтаксических связей внутри сочетания (Benko 2013). Этот принцип позволяет охватить всё многообразие сочетаний в корпусе, гораздо больше, чем при работе скетч-грамматики в ruTenTen11.

Важно, что в своих статьях Бенко отмечает, что TreeTagger, морфосинтаксическая разметка корпуса (которая применялась не только для Araneum Russicum, но и для ruTenTen11), плохо различает “субкатегории” (вроде причастий и деепричастий) в отдельных языках, в частности - в русском, что косвенно влияет на выдачу в ворд-скетче. (Benko 2016). Отдельно про сравнение скетч-грамматик корпуса Araneum Russicum и RuSkELL и выдач коллокаций будет сказано подробнее в основной части.

Работы об использовании корпусных технологий в преподавании иностранных языков, в частотности английского языка, появляются достаточно регулярно. При этом для своего исследования я могу выделить два типа работ этого направления: одни обсуждают только корпуса, в частности корпуса Sketch Engine, и их практическое использование в преподавании, а другие пропагандируют принципы Data-driven (language) learning. Статьи второго типа представлены именами практиков, разбирающих конкретные примеры использования технологий (приоритетно - корпусных) на занятиях по английскому языку, например: (Smith 2009), (Shaw 2011), (Talai, Fotovatnia 2012). Авторы обращаются к лексическим аспектам использования корпусов, при этом Sketch Engine используется наравне с другими ресурсами, более или менее популярными среди преподавателей английского языка (например, COCA). Обращение к этим работам позволяет взглянуть на разные подходы к корпусному обучению языку в рамках одной “идеологии” DDL и сравнить различные практики. В целом можно заметить общую манеру использования корпусов: обращение к ним для сбора лингвистических данных по определенной лексической или лексико-тематической группе, для подготовки тестов на основе реально употребляемых примеров и для активации приема “лингвистического расследования” (толкования, значения, сочетаемость и др.) Принципы DDL ещё будут более подробно обсуждены в последней главе.

Наиболее подробная теоретическая работа, прямо касающаяся SkELL и Sketch Engine и их роли на занятиях английского языка, была написана Кilgarriff А., Marcowitz F., Smith S., Thomas J. в 2015 году и называется “Corpora and Language Learning with the Sketch Engine and SKELL”. В ней авторы подробно разбирают подходы к использованию корпусов в преподавании и изучении L2 и постулируют максимы: «firstly, don't scare the students; then, use the corpus when the dictionary does not tell you enough, and moreover, disguise the corpus as a dictionary» (Кilgarriff et al. 2015: 61). Эти принципы я принимала во внимание, когда составляла рекомендации по использованию RuSkELL на занятиях РКИ. Один из важнейших посылов статьи - преподаватель при работе с корпусами в классе является только координатором самостоятельной деятельности студентов (то, что Килгаррифф и авторы обозначили как research organizer, организатор исследовательской деятельности студентов). Хотя работа с корпусами в образовательных целях может принимать две формы: непосредственная работа студентов в классе (в основном - с конкордансами) и опосредованная - для составления словарей, справочников, учебников и пр. Также авторы не раз подчеркивают, что работа с корпусами требует сознательности и мотивированности студентов, а кроме того может быть успешна только на высоких уровнях владения языком:

[…] this is not a report for a beginner learner: all the information that the beginner needs will be provided in a good dictionary. It is for intermediate and advanced learners looking for information they could not find in the dictionary (Кilgarriff et al. 2015: 67).

Отдельно английский SkELL и его возможности были представлены в работе “SkELL: Web Interface for English Language Learning” (Baisa, Suchomel 2014), написанной в 2014 году разработчиками Sketch Engine. В ней авторы представляют все возможности корпусно-ориентированного ресурса, функции которого позволяют получить максимально полную информацию о сочетаемостных особенностях слова, его лексико-семантических особенностях и контекстах употребления. В целом статья представляет собой подробное описание ресурса с анализом некоторых конкретных примеров и для моей работы является образцом для презентации функций.

Отдельного внимания заслуживает учебник по английскому языку “Discovering English with Sketch Engine” (DESKE) (Thomas 2016). Джеймс Томас уже долгое время занимался исследованием возможностей Sketch Engine в преподавании, был автором и соавтором статей (в том числе упомянутой выше “Corpora and Language Learning with the Sketch Engine and SKELL”) и в результате создал практическое руководство для студентов и преподавателей по исследованию английского языка при помощи корпуса BNC. В учебнике лингвист разбирает каждую функцию и подфункцию Sketch Engine, язык продвинутого запроса CQL (Corpus Query Language), для каждого обращения к инструменту анализирует примеры и предлагает варианты применения корпусных технологий в классе. В своей работе я буду обращаться к этому изданию при разговоре об использовании RuSkELL в преподавании РКИ.

Статей, посвященных конкретно RuSkELL, проблемам его разработки и работы с ним, на сегодня нет, если не считать статью в сборнике докладов Euralex XVII, написанную В.Ю. Апресян, В. Байса, О. Буйволовой, О. Культепиной, А. Малолетней. Это объяснимо, так как ресурс ещё малоизвестен в Интернете и не имеет широкой пользовательской аудитории, хотя ссылка на него лежит на странице Sketch Engine, посвященной SkELL.

Но нельзя оставить без внимания ряд работ российских авторов, касающихся использования корпусов (в основном - НКРЯ) в преподавании иностранного языка (Прилепская 2010, 2012), (Сысоев 2010), (Чернякова 2011), а также те работы на базе НКРЯ (Добрушина 2005, 2009), (Добрушина, Левинзон 2007), которые посвящены в большей мере методам использования Национального корпуса в преподавании русского языка в русскоязычной аудитории. При этом в работе (Добрушина 2009) дана полная на момент издания библиография по проблематике использования НКРЯ в образовательной деятельности (составление заданий, организация исследовательской работы школьников и пр.).

Из перечисленных авторов углубленным изучением мультимедийных ресурсов для преподавания именно РКИ занимается М.В. Прилепская, выпустившая несколько статей, в которых она разобрала возможности НКРЯ для работы в классе иностранных студентов. Прилепская обозначает ряд важных моментов, связанных с работой преподавателя с НКРЯ и его успешным использованием на занятиях: дидактическую ценность естественного языкового материала; «систематизацию и расширение языковых знаний студентов при использовании ими раздела лексико-грамматического поиска в НКРЯ»; обращение к сопоставительной грамматике и сравнительной лексикологии; формирование русскоязычного мышления (Прилепская 2010, 2012).

2. Сочетаемость слова: коллокации и работа скетч-грамматики

RuSkELL представляет собой набор трех базовых функций, работающих на платформе морфологически размеченного корпуса. Эти функции: “Примеры”, “Сочетаемость слова”, “Похожие слова” - названия были переведены с английского “Examples”, “Word sketch”, “Similar words”. Каждая из этих функций может быть использована как для практических образовательных целей, так и для лингвистических целей.

В работе я употребляю два названия для объекта своего исследования - RuSkELL и ruskell 1.3, в первом подразумевая более конкретно ресурс и его функционал, а во втором - сам корпус, на котором базируется ресурс.

2.1 Скетч-грамматика ruskell 1.3

Все слова в корпусе ruskell 1.3. имеют морфологическую разметку (был использован тегсет Russian multilingual MULTEXT-East specifications, version 4), а коллокации между словами регулируются при помощи скетч-грамматики. Скетч-грамматику можно определить как свод грамматических правил сочетания слов по их частеречным признакам при помощи регулярных выражений (regular expressions): «Strictly speaking, grammatical relations are defined as regular expressions over part-of-speech tagging» (Khokhlova, Zakharov 2010: 3492). Зная правила написания скетч-грамматики и понимая запросный язык Sketch Engine CQL, можно достаточно легко переводить один код в другой, чтобы проверять и тестировать правила или изменения в правилах в режиме онлайн в корпусе ruskell 1.3. Именно так проводились тестирование и проверка новых правил, введенных нашей проектной группой.

Скетч-грамматика имеет три вида правил, определяющих количество компонентов и их взаимозависимость в коллокации, - *SYMMETRIC, *DUAL и *TRINARY. Правило *SYMMETRIC работает только для коллокаций “и/или”, когда слово-запрос вступает в сочинительные отношения. Основную часть скетч-грамматики составляют правила *DUAL, регулирующие отношения двух компонентов сочетания - слова-узла (запроса) и коллоката. При этом узел не всегда является вершиной сочетания, зависимость в сочетании зависит от правила и сочетаемостей слова: так, правило #=gen_modifier/gen_modifies ставит запрос вершина в позицию подчиненного слова и в позицию подчиняющего слова, образуя словосочетания вроде вершина айсберга и штурм вершины:

Рисунок 1. Выдача по запросу вершина

Эту особенность правила - работу в двух направлениях - надо всегда учитывать при написании правил. Например, цель - написать правило для депиктивов таким образом, чтобы выдача по правилу работала на глагольных запросах (например, выглядеть): выглядеть + странный, логичный, интересный, привлекательный, перспективный. В этом случае правило будет работать и в обратную сторону: при запросе логичный в ворд-скетче будет представлены коллокации логичный + выглядеть, представляться, казаться, быть, являться.

*TRINARY-правило рассчитано на поиск коллокации с тремя базовыми компонентами. Изначально в скетч-грамматике RuSkELL это правило использовалось только для сочетаний существительных с предлогами, например, для запроса огонь выдача в предложной группе с предлогом по и существительным хождение:

(1) В тот первый раз я узнал следующее: есть по крайней мере два способа хождения по огню.

Однако в дальнейшем было написано ещё одно *TRINARY-правило для скетча предлогов, о чём подробнее будет сказано ниже.

Все правила в скетч-грамматике регулируют выдачу “Сочетаемости слова”, или, в терминологии Sketch Engine, ворд-скетчей (word sketch). Хохлова в своей статей прокомментировала особенности скетч-грамматики следующим образом: «One can understand word sketches as typical phrases determined on the one hand by syntax that restricts words' combinations in a given language and on the other hand by probability closely related to semantics and/or word usage» (Khokhlova, Zakharov 2010: 3491).

Чтобы лучше понять особенности работы скетч-грамматики RuSkELL, полезно обратиться к её сравнению с принципиально другой скетч-грамматикой и ответить на вопросы: чем отличаются скетч-грамматики и как эти отличия влияют на выдачу ворд-скетчей?

2.2 Сравнительный анализ скетч-грамматики ruskell 1.3 и скетч-грамматики Araneum Russicum

Особенности скетч-грамматики ruskell 1.3, принимающей во внимание синтагматические особенности слова, определяют характер выдачи. В список сочетаемости попадают слова только высокой частотности, которые с большой долей вероятности образуют полуидиоматические, идиоматические и фразеологические сочетания и коллокации. Однако это не единственный возможный подход к созданию ворд-скетчей на материале русского языка. Например, скетч-грамматика Araneum Russicum работает на других принципах регулирования отношений в коллокациях, что находит отражение в качественных различиях между выдачами ruskell 1.3 и Araneum Russicum.

Как уже было упомянуто в “Обзоре литературы”, скетч-грамматика Araneum Russicum написана таким образом, что Araneum Russicum занимает промежуточное положение между корпусами, составленными по принципу “мешка слов”, и корпусами вроде ruskell 1.3, в которых грамматические отношения внутри коллокации имеют ограничения на частереченную морфосинтаксическую совместимость слов в коллокации. Обобщенно говоря, главное в скетч-грамматике Araneum Russicum - позиция слова-коллоката и его частеречная отнесенность. В этой скетч-грамматике принимается во вниманием лево- и право-стороннее положение слова-коллоката относительно любого неспецифицированного в скетч-грамматике слова-запроса. При этом часть речи уточняется для самого коллоката. В результате чего любое слово-запрос, вне зависимости от его части речи, имеют одинаковый набор групп в ворд-скетче.

Поэтому Araneum Russicum имеет более широкий сочетаемостный ряд для каждого, даже низкочастотного слова, в то время как в ruskell 1.3 списки по группам коллокаций не такие обширные. Главная причина - строгость и контроль синтагматических отношений в ruskell 1.3.

Таблица 1 демонстрирует разницу двух коллокационных групп в корпусах. Группа ruskell 1.3 “%w подчиняет существительное в родительном падеже” покрывает сочетания существительного-узла и существительного-коллоката в генитиве (noun "P....g.*") с возможными согласованными с коллокатом прилагательными между ними (? adj_gen). Группа “X Nn” - наиболее близкая по свойствам к данной группе, однако не имеет четких ограничений на часть речи узла (X) и падеж коллоката. Единственные ограничения - X не союз или другие редкие и поэтому не включенные в скетч-грамматику части речи («PoS category not covered by the other «explicit» rules» Benko 2015): atag!="(Cj)|(Z.*). Вторая группа “глаголы с %w в роли дополнения в винительном падеже” контролирует управление глагола запросом-узлом в аккузативе (2:noun_acc) при допущении наречия ([pos="R"]) и согласованного прилагательного (? adj_acc) между коллокатом и узлом (на шаге 2-3 слова между коллокатом и узлом). В Araneum Russicum относительно близким аналогом группы может служить коллокация “Vb X/X Vb” - любое слово-узел и лево- и право-стороннее расположение глагола, без ограничений на грамматические характеристики глагола (2:[atag="Vb"]) и с тем же ограничением на Х, что и в правиле X Nn.

Таблица 1 - Сравнение грамрелов Araneum Russicum и ruskell 1.3

Корпус

Группа сочетаемости

Правило

Araneum Russicum

X Nn

# X + noun (right nominal collocate)

1:[atag!="Z.*"] [atag!="(Cj)|(Z.*)"]{0,2} 2:[atag="Nn"]

ruskell 1.3

%w подчиняет существительное в родительном падеже

*DUAL

#=gen_modifier/gen_modifies

1:noun "P....g.*"? adj_gen{0,2} 2:noun_gen

Araneum Russicum

Vb X/X Vb

# verb + X/X + verb (left or right verbal collocate)

2:[atag="Vb"] [atag!="(Cj)|(Z.*)"]{0,8} 1:[atag!="Z.*"]

1:[atag!="Z.*"] [atag!="(Cj)|(Z.*)"]{0,8} 2:[atag="Vb"]

ruskell 1.3

глаголы с %w в роли дополнения в винительном падеже

*DUAL

#=object4/object4_of

1:"Vmi.*" [pos="R"]? adj_acc{0,3} 2:noun_acc 1:"Vmg.*" [pos="R"]? adj_acc{0,2} 2:noun_acc

1:"Vmn.*" [pos="R"]? adj_acc{0,2} 2:noun_acc

Вследствие разницы в скетч-грамматиках каждый корпус имеет свои достоинства и недостатки выдачи, которые очень субъективно зависят от задач исследователей. Например, возьмем две группы сочетаемости по запросу голос в ruskell 1.3: запрос подчиняет существительное в родительном падеже и глаголы с запросом в роли дополнения в винительном падеже (описанные в Таблице 1 правила). В первом случае ожидание - увидеть несогласованные определения к запросу голос, во втором - прямые дополнения после непереходных глаголов. Правило для первой группы четко регламентирует генитив коллоката при возможности двойного шага от узла и появления прилагательных, согласованных с коллокатом. Выдача показывает возможных “обладателей” голоса, как конкретных, так и абстрактных: избиратель, совесть, америка, диктор, разум, певец, член, птица, мать, бог, мама, девушка, отец, персонаж, собеседник. Во второй группе ожидаемо оказываются в основном глаголы порождения речи и восприятия: услышать, слышать, понижать, понизить, подать, повысить, узнать, возвысить, повышать, слушать, возвышать, звучать, заглушать, подавать, отдать. Благодаря анализу списков для толкования слова и понимания его лексико-семантической сочетаемости можно понять некоторую связь: имеющий голос порождение голоса (опционально: + манера (громкость)) / восприятие голоса) голос.

При обращении к корпусу Araneum для сравнения приходится выбирать две уже разобранные группы “X Nn” и “Vb X/X Vb”, однако такое сопоставление нельзя назвать абсолютно объективным. Возможным решением было бы сравнение указанных групп в Araneum и групп с коллокатами-существительными во всех падежах и узлами-глаголами. Однако и такое сравнение не могло бы быть полностью объективным, так как для каждой группы коллокаций ruskell 1.3 рассчитывает убывание по частотности в рамках именно этой группы, а следовательно, их выдачи сложно сравнить с выдачей групп Araneum из-за количественной асимметрии.

Если анализировать выдачу группы X Nn, то ясно, что её коллокаты по семантике полностью совпадают с группой ruskell 1.3, так как также обозначают “обладателя” голоса: избиратель, член, число, Россия, планета, птица, председатель, Америка, совет, совесть, выборы, собрание, сердце, участник, заседание, комиссия, разум, кадр, народ, мать, бог, диктор, голова, мама, депутат. На мой взгляд, в данной ситуации решающую роль играет сочетание позиция + высокая частотность. При сравнении выдач по обоим корпусам можно заключить, что коллокации слова голос с “обладателями” голоса - это самые высокочастотные синтагматические отношения этого слова с существительными. И для подобного вывода данные Araneum Russicum более показательны, так как если скетч-грамматика ruskell 1.3 изначально дает спецификацию коллокаций по морфосинтаксическим характеристикам, то Araneum принимает во внимание только позицию и частеречную отнесенность. Однако если пользователя более интересует сочетаемостная способность слова, например, с целью составления лексикографического описания, то ruskell 1.3 дает более релевантную для этой задачи информацию.

Выдача по группе “Vb X/X Vb” дает более широкий ряд сочетающихся с запросом голос глаголов: быть, услышать, слышать, говорить, набрать, звучать, получить, иметь, отдать, приниматься, сказать, повышать, раздаться, стать, подать, раздаваться, обладать, принять, присутствовать, отдавать, послышаться, дрожать, слушать, петь, слышаться. Однако здесь наблюдается и разнообразие падежных ролей запроса-узла, а следовательно - бомльшая морфосинтаксическая и семантическая разнородность группы. Условно можно выделить три группы: поссесивные и трансферные глаголы (набрать, получить, иметь, отдать, подать, обладать, принять, отдавать), глаголы восприятия и речи (услышать, слышать, говорить, звучать, сказать, повышать, раздаться, раздаваться, послышаться, дрожать, слушать, петь, слышаться), и бытийные глаголы (быть, стать), в которой глаголы являются частью именного предиката. Если проанализировать выдачу всех коллокаций по ruskell 1.3, то большинство этих глаголов можно найти в группах, регулирующих другие грамрелы (последствие уже объясненной детализации морфосинтаксических характеристик в скетч-грамматике ruskell 1.3) (Таблица 2).

Таблица 2 - Положение глаголов группы Vb X/X Vb (Araneum Russicum) в группах ruskell 1.3

Глаголы в группе Vb X/X Vb

Место глагола в группах ruskell 1.3

Набрать

глаголы с %w в роли дополнения в родительном падеже

Получить

-

Иметь

глаголы с %w в роли дополнения в родительном падеже

Отдать

глагол с %w в роли подлежащего

Подать

глаголы с %w в роли дополнения в винительном падеже

Обладать

-

Принять

Принимать - глаголы в пассиве при %w

Отдавать

существительное в составе предложной группы с предлогом за при %w

Услышать

1 - глаголы в пассиве при %w

2 - глаголы с %w в роли дополнения в родительном падеже

Слышать

глаголы с %w в роли дополнения в родительном падеже

Говорить

существительное в составе предложной группы с предлогом во при %w

Звучать

1 - глагол с %w в роли подлежащего

2 - глаголы с %w в роли дополнения в винительном падеже

Сказать

глаголы с %w в роли дополнения в творительном падеже

Повышать

глаголы с %w в роли дополнения в винительном падеже

Раздаться

глагол с %w в роли подлежащего

Раздаваться

глагол с %w в роли подлежащего

Послышаться

глагол с %w в роли подлежащего

Дрожать

глагол с %w в роли подлежащего

Слушать

глаголы с %w в роли дополнения в винительном падеже

Петь

глаголы с %w в роли дополнения в творительном падеже

Слышаться

глагол с %w в роли подлежащего

Быть

глаголы с %w в роли дополнения в родительном падеже

Стать

-

Несколько иная ситуация с глаголом присутствовать: в выдаче представлено причастие (от общего числа голосов присутствующих на общем собрании членов) в атрибутивной функции, а не глагол в предикативной функции, как в контекстах с другими глаголами. Подобное смешение глаголов и глагольных форм случается из-за плохого различения субкатегорий TreeTagger, о чем писал и сам Владимир Бенко (Benko 2015).

Отдельно интересно отметить, что Araneum дает в своей глагольной группе коллокаций глаголы иметь, повышать, слышать, которые управляют аккузативом, но не вынесены в корректную группу в ruskell 1.3 из-за отрицания перед глаголом в компилируемых корпусом примерах: Тот же Бернес, не имея оперного голоса, пел так, что люди плакали. В этом случае можно заключить, что для конкретных трех глаголов более частотно употребление с отрицанием.

Игнорирование морфосинтаксических характеристик слов в скетч-грамматике Araneum объясняет неоднородность определенных групп, как это видно в глагольной группе по запросу голос и, например, в группе Y X по запросу прятать:

Рисунок 2. Araneum Russicum ворд-скетч по запросу прятать

Таким образом, из сравнения скетч-грамматик и списков сочетаемости двух корпусов можно заключить, что Araneum подходит для тех исследователей, кто хочет собрать все возможные, даже низкочастотные коллокации, а ruskell 1.3 - для тех, кому необходима выдача с более устойчивыми коллокациями или (полу)идиомами с четко определенными грамматическими отношениями внутри сочетания. Но важно принять во внимание, что этот вывод не касается групп сочетаемостей с предлогами или наречиями, выдачу которых в общем оценить гораздо сложнее.

2.3 Ошибки в выдаче

Скетч-грамматика строит коллокации на основе сочетания разметок RFTagger См. подробнее: http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/ + TreeTagger См. подробнее: http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/, первая из которых была адаптирована конкретно под флективные языки - немецкий, чешский, словенский, словацкий, венгерский и русский. Эти разметки, как уже было упомянуто в обзоре, нередко автоматически неверно ставят разметки на причастия, деепричастия и даже наречия и прилагательные. Анализируя выдачу RuSkELL, я не раз обнаруживала различный “мусор”, связанный с трудностью разметки русского языка. Автоматическая разметка не может работать идеально, а успех TreeTagger в разметке слов варьируется от языка к языку, в зависимости от их специфики (Benko 2013). Неудивительно, что флективный русский язык с частой омонимией (лексической и грамматической) в RuSkELL получает определенное количество ошибок и “мусор”.

2.3.1 Ошибки в автоматической разметке

В ruskell 1.3 разметку получает почти каждый элемент, даже точка, кавычки или случайно отделенный в тексте аффикс. Эти ошибки возникают, во-первых, из-за характера самих Интернет-текстов - корпус был очищен только от обсценной лексики, но не от неграмотных и/или раздельных написаний, как: Научитесь пи тать ся , как древние гавайцы! Во-вторых, причиной становится сам принцип работы морфоразметчика - каждая единица воспринимается как как отдельное слово. Свой тег получают также и сокращения вроде м. или т.к.

Рисунок 3. Ворд-скетч для м.

Данный вид ошибок имеет автоматическую природу и может быть исправлен только при развитии TreeTagger и RFTagger, что выходит за рамки задач данного исследования.

2.3.2 Ошибки в омонимичных формах

Если говорить об омонимии в русском языке, то относительно этого аспекта автоматическая разметка влияет на выдачу двумя способами: неправильно относит омонимичные падежные формы в группах сочетаемости с ворд-скетче; определяет неверную часть речи слова (POS).

Омонимия падежных форм. Например, возможны следующие варианты омонимии:

1. Омонимия генитивных и аккузативных форм существительных. Например, глагол достигнуть, управляющий генитивом, имеет целый ряд коллокатов в группе “дополнение в винительном при w%”: отметка, договоренность, вершина, цель, совершенство, соглашение, берег, стадия, край, точка, остров, цифра, поверхность, высота. Источник ошибки - выбор омонимичной формы женского рода единственного, которая имеет два набора тегов с единственным отличием в падеже. Также влияет контекст с отрицанием перед глаголом. Эта ошибка пока что не имеет никакого решения, кроме введения ограничения на определенные грамматические формы (например, ж.р. ед.ч. неодуш.). Однако при таком ограничении возможны потери важных коллокатов в выдаче.

2. Омонимия генитивных и дативных форм существительных. Тот же глагол добиться. Если обратиться к корпусу к первому же примеру, то видим следующий пример:

(2) Мне стоило очень больших усилий добиться справедливости

И его разметку: добиться /Vmn----m-p-/Vmn----m-e справедливости /Ncfsdn-/Ncfsgn - где справедливость имеет два набора тегов: для генитива (Ncfsgn) и для датива (Ncfsdn). Для решения этой проблемы было предложено ввести небольшой список глаголов, требующих дополнения в генитиве, в скетч-грамматику. Например, следующий код в скетч-правиле, регулирующем коллокации запросного слова с дополнением в аккузативе (выделено полужирным; приведена только часть правила), помогает убрать омонимию в выдаче, так как он включает запрет на сочетание генитивного глагола с существительным, имеющим одинаковое окончание в В.п. и Р.п.:

#=object4/object4_of

1:"Vmi.*" & [lemma!="стоить|казаться|достигнуть|держаться|добиваться|добиться"] [pos="R"]? adj_acc {0,3} 2:noun_acc

Похожее правило возможно ввести и в группу коллокаций с дополнением в дативе для нескольких из упомянутых генитивных глаголов (например, достигнуть).

Отдельно надо остановиться на омоформах, проблемы в выдаче которых могут на первый взгляд ввести пользователя в заблуждение. Например, RuSkELL выдает верные ворд-скетчи по частям речи в следующих однокоренных парах: столовая - ворд-скетч для существительного, столовый - для прилагательного; гостиная - для существительного, гостиный - для прилагательного; мороженое - для существительного, мороженый - для прилагательного. Но при этом RuSkELL для омоформ данные-данный выдает скетч только для существительного данные. В поиске в ruskell 1.3 можно обнаружить набор тегов для данный как для местоимения Что в целом может быть объяснено семантической близостью прилагательного данный к местоимению этот. Однако в этом случае единственное объяснение, как данный получил подобный тег по этой логике - ручная расстановка тегов для местоимений, что маловероятно.:

(3) Поэтому /P-----r/R в /Sp-l/Sp-l данном /P--msla/P--msl случае /Ncmsln-/Ncmsln…

В это же время для похожей пары наличные-наличный присутствуют скетчи и правильная разметка существительное-прилагательное. В чём различие? Если посмотреть на частоту вхождений на миллион в самом корпусе ruskell 1.3, то данный получает пороговое значение (1,04 вхождений на миллион), которое уже не попадает в зону действия скетчей в RuSkELL.

Таблица 3 - Частотность запросов данный и наличный

Данный

freq = 1,278 (1.04 per million)

Наличный

freq = 12,293 (10.04 per million)

Это вопрос статистической значимости слова в системе Sketch Engine и SkELL, отражающийся в выдаче, который поначалу можно спутать с неточностью в разметке и который ещё будет упомянут далее.

Омонимия кратких прилагательных и наречий. Неточность есть в отношении прилагательных-причастий: при нормальном распределении частей речи на слова хороший-хорошо, прекрасный-прекрасно разметка в RuSkELL определяет просто как прилагательное и выдает соответствующие прилагательному коллокации в ворд-скетче, которые некорректно идентифицируют отношения в сочетании:

Рисунок 4. Выдача сочетаемости по запросу просто

Например, в группе “существительное с просто в роли определения” даны следующие примеры, которые были определены как коллокации прилагательное + существительное из-за некорректной лемматизации (просто получил теги Afpnsns - качественного прилагательного в краткой форме). Даже при полном доверии к определению коллокации они могут создать у пользователя некорректное представление о сочетаемости слова:

(4) Это не просто желание показать себя.

(5) Поэтому "Небоход" это не просто название проекта, а название целого нового вида транспорта.

(6) Весна - это не просто слово, которое означает приход нового сезона.

(7) В русском языке просто море слов, означающих глупость (неудивительно, если снова вспомним о дураках и дорогах).

Все эти возможные ошибки из-за разметки в корпусе влияют на выдачу, поэтому при обращении к RuSkELL необходимо делать поправки на подобные неверные выдачи, особенно в обучающих целях: без комментария тьютора-преподавателя изучающий РКИ студент может составить неверное представление о синтагматических и/или синтаксических связях слова или характере слова вообще. Однако эти же ошибки можно использовать и в обучающих целях на высоких уровнях: используя точные данные об определенных словах (например, зная, что просто - это наречие), студенты могут в рамках задания корректировать неверные коллокации и на основе подготовленного преподавателем текста составить собственные (по примеру корректных скетчей для других наречий).

2.4 Включение новых правил в скетч-грамматику

Упомянутые выше изменения в скетч-грамматике и проспекты будущих изменений были мотивированы ошибками в выдаче и касались изменений в существующих правилах. Однако не менее важным было и включение совершенно новых правил для частей речи, не попавших во внимание ruTenTen(11) и, соответственно, не актуализированных в изначальной версии RuSkELL (ruskell 1.0).

Работа со скетч-грамматикой - основа всех изменений в работе RuSkELL, практическая составляющая исследовательской деятельности. Изначально взятая из ruTenTen(11) скетч-грамматика Хохловой была рассчитана на более объемный корпус и более низкий частотный порог, но для меньшего корпуса RuSkELL и при учете учебных целей ресурса скетч-грамматика RuSkELL нуждалась в ряде доработок.

Алгоритм работы над созданием правил был следующим:

Группа анализировала выдачу, исходя из задач: обнаружить источники ошибок или лакуны в скетчах, которые были бы важны для более полного понимания русского языка;

Собиралась модель коллоката с определением морфосинтаксических особенностей словосочетания (например, глагол (тип, форма и пр.) + прилагательное в Тв.п.);

Создавался поисковый запрос на языке CQL для проверки выдачи в корпусе ruskell 1.3;

При удовлетворительной выдаче (действительно достаточно большое количество ожидаемых коллокатов и минимальное количество “мусора”) запрос брался за основу для составления правила;

После этого формировалось правило для скетч-грамматики;

Правило передавалось программистам, курирующим RuSkELL в системе Sketch Engine, для корректировки и введения в скетч-грамматику.

В общем, были добавлены числительные и депиктивные конструкции (работающие ворд-скетчи) и предлоги (в стадии внедрения в скетч-грамматику).

2.4.1 Числительные

Одно из нововведений, принятых по описанной выше схеме, в работу RuSkELL - включение правил для числительных:

*DUAL

#=ordinal numeral

2: "M.*" 1: noun & agree(1,2)

1: noun [lemma="быть"] 2: "M.*" & agree(1,2)

*DUAL

#=numeral_object2_of

1: "Mc..n.*" 2:noun_gen

2: noun_gen 1: "Mc..n.*"

*DUAL

#=numeral_inst

1:"Mc..i.*" 2: noun_ins

Обоснованием для включения этой группы стала необходимость знакомства изучающих РКИ с особыми коллокациями, имеющими числительные в своем составе (первым делом, на седьмом небе, двумя руками за и пр.). При этом правило не должно было быть слишком большим, чтобы не создавать мусорную выдачу с малочастотными сочетаниями. Поэтому были предложены грамматические отношения с наибольшей вероятной частотностью.

Правила регулируют стандартные грамматические отношения числительных с существительными, которые имеют высокую частотность, а именно отношения:

порядкового числительного, согласующегося с существительным в роде, числе и падеже (2: "M.*" 1: noun & agree(1,2). В этом же правиле есть строчка для порядкового-коллоката в предикативной позиции при существительном (1: noun [lemma="быть"] 2: "M.*" & agree(1,2))

количественного числительного с существительным в Р.п. (управление): 1: "Mc..n.*" 2:noun_gen. Здесь надо отметить, что специального тега для управления в Sketch Engine не существует (в отличие от согласования), однако заданные грамматические параметры, порядок слов и частотность позволяют скетч-граммару выбирать управление без шума.

количественного числительного с существительным в Тв.п. (согласование). Это правило было добавлено для появления сочетаний вроде пятью хлебами или двумя руками:

Разве не насытил Он пятью хлебами пять тысяч человек? или

И я только двумя руками “ЗА”!

Например, при запросе два RuSkELL выдает две группы коллокаций: одну, в которой числительное управляет существительным, и другую, в которой он согласуется с ним в Тв.п. (Рисунок 5):

Рисунок 5. Выдача сочетаемости по запросу два

Как правило, в выдаче по запросам-числительным встречается мало идиом, полуидиом или фразеологических сочетаний, большая часть выдачи - достаточно стандартные ожидаемые коллокации. Однако у отдельных числительных встречаются интересные сочетаемости, а кроме того, даже ожидаемые сочетаемости дают материал если не для работы лингвиста-теоретика или лексикографа, то для работы преподавателя.

Например, глядя на шесть числительных, выбранных из-за интуитивно-логических ожиданиий определенных коллокаций (Таблица 4), видно, что во всех выдачах в группе управления есть коллокаты, обозначающие конкретные (минута, час, день, месяц, год) и абстрактные (раз) временные промежутки, также абстрактные существительные со значением количества - миллион, тысяча. Это - базовые коллокаты для большинства числительных, ведь даже числительные, которые не имеют специфических коллокаций, в выдаче показывают эти коллокаты, например: одиннадцать - друзь Данное слово - ошибка лемматизации в определении формы ед.ч. от высокочастотного существительного друзья., час, год, миллион, минута, тысяча, месяц, человек, ребенок, день; четырнадцать: год, тысяча, человек.

Интересны совпадения в группах только по двум запросам, как в запросах два и три совпадают способ, путь, ряд, что говорит о том, что, как правило, например, способов сделать что-то не больше двух-трех:

(8)Управление с пульта может осуществляться двумя способами.

(9) От него легко можно защититься тремя способами.

Это предположение подтверждает и тот факт, что для числительных четыре и пять в выдаче отсутствуют слова способ, путь, ряд.

Эти условно базовые коллокаты отличаются от коллокатов, составляющих специфические сочетания с числительным-узлом. Они могут быть культурно-обозначенными сочетаниями, отсылающими к культурно-значимым денотатам, а также сочетаниями, отсылающими к наиболее очевидным реалиям. Во втором случае в роли коллокатов будут выступать в основном существительные, обозначающие реальные предметы мира, в наиболее “прототипическом” количестве. Например, для числительного семь таким коллокатом станет существительное нот (Таблица 4), для четыре - колесо, лапа (понятно, что меньшее количество - это уже не норма, а отклонение), а для пять - лепесток, палец (цветок с пятью лепестками - это прототипический цветок):

(10) Но теперь уже машина держится за дорогу всеми четырьмя колесами.

(11)Умка оттолкнулся всеми четырьмя лапами и прыгнул с плюхом в воду.

(12) Иногда попадаются цветки сирени с пятью лепестками.

(13) На руках - кисти с пятью пальцами.

В отношении пяти стоит также заметить коллокацию, которую, по моему мнению, сложно отнести однозначно к первой или второй группе специфических коллокатов, - это сочетание пять и элемент. В целом, можно было бы назвать это культурно-специфической коллокацией, если бы знание о том, что элементов именно пять, не было одним из базовых, а в прошлом даже - элементарных, то есть относилось к разряду явлений, чья реальность была ровно так же, как и объективна, как и реальность сочетания четыре лапы. Но для причисления ко второй группе коллокат имеет абстрактное значение, которое ставит его отдельно от всех других предметных имен. Таким образом, статус этого сочетания остается очень субъективным, определяемым в зависимости от взглядов исследователя. Пример в контексте:

(14) Платон связывал эти строительные блоки с этими пятью элементами: землей, огнем, воздухом, водой и эфиром.

Полужирным в Таблице 4 выделены те коллокаты, которые представляют интерес для лексикографов. Это, например, культурно-специфические сочетания, вроде десять заповедей, семь чудес, двенадцать апостолов (учеников) (прецедентные явления мировой культуры), двенадцать стульев и десять негритят (названия известных романов), сто друзей (прямая цитата пословицы или отсылка к ней). Другие специфические коллокации следует рассматривать конкретно без обобщений, как например, словосочетание сто дорог, которое является метафорой и которое можно назвать окказиональной оппозицией к сочетанию два варианта (ограниченность выбора - свобода выбора): Перед тобой открыты сто дорог, Ты только выбери, какою ты пойдешь! А если посмотреть на примеры к коллокации двумя руками, то можно обнаружить как метафорическое, так и прямое употребление (которое более близко к группе словосочетаний, отсылающих к предметным реалиям мира), ср.:

(15) И я только двумя руками “ЗА”! и

(16) Возьмите кусок прочной белой веревки двумя руками за его концы.

Таблица 4 - Выдача для количественных числительных

Два

Три

Семь

Десять

Двенадцать

Сто

w% управляет существительным в родительном падеже

год

человек

раз

день

вид

вариант

месяц

час

тип

брат

сын

способ

слово

вопрос

десяток

месяц

раз

день

год

год

день

человек

тысяча

раз

чудо

минута

миллион

час

месяц

фут

член

процент

нота

брат

минута

год

тысяча

день

заповедь

человек

процент

миллион

негритенок

час

секунда

раз

метр

месяц

участник

стул

апостол

месяц

час

год

апостолов

тысяча

человек

шаг

миллион

ученик

друзь

сын

день

ребенок

тысяча

процент

грамм

миллион

рубль

год

метр

рона

раз

пуд

дорога

человек

друзь

день

доллар

w% согласуется с существительным в творительном падеже

способ

рука

страна

ребенок

палец

путь

год

вид

группа

слой

спальня

тип

точка

ряд

человек

ребенок

способ

год

спальня

вид

день

палец

ряд

группа

тип

месяц

путь

вариант

орден

уровень

Грамм

тысяча

Порядковые числительные получили одну группу, в которой важны только порядок компонентов словосочетания и полное согласование числительного с существительным. Этой одной группы достаточно для составления представления об их особенных сочетаемостях. Так, для запроса первый ворд-скетч выдает в числе прочего коллокаты: очередь (в первую очередь), взгляд (на первый взгляд), помощь (первая помощь), раз (в первый раз, первый раз), заместитель (первый заместитель) - употребления, зафиксированные в русском языке. Идиоматическое сочетания можно найти и в выдаче других порядковых, например, седьмой:

(17) Чувствую себя на седьмом небе от счастья! Работа без оглядки, до седьмого пота.

2.4.2 Предлоги

Экспериментальным шагом в работе с RuSkELL стало составление правила для сочетаний с предлогами-запросами. На данный момент правило передано программистам Sketch Engine и находится на этапе включения в скетч-грамматику.


Подобные документы

  • Рассмотрение особенностей изучения грамматики в современных условиях в средней школе. Анализ сущности информационных технологий, их роли в учебном процессе, влияния на мотивацию обучения. Применение Интернет-ресурсов на уроках английского языка.

    дипломная работа [249,5 K], добавлен 26.04.2015

  • Понятие морфологии как науки и раздела грамматики, изучающей слово, его принадлежность к определенной части речи, структуру, формы изменения, способы выражения грамматических значений. Особенности семантического строя языка, правила изменения слов.

    реферат [61,5 K], добавлен 09.12.2014

  • Место грамматики конструкций в научной лингвистике. Грамматика конструкций: истоки и теоретическое обоснование. Грамматика Ч. Филлмора и А. Голдберга. Сопоставительный анализ предлогов в конструкциях вынужденного движения в русском и английском языках.

    дипломная работа [161,2 K], добавлен 30.10.2008

  • Активная и пассивная грамматика: философский и психологический подходы. Построение активной грамматики по принципу "от содержания к форме", пассивной - "от формы к содержанию". Языковое "предложение", его роль в разработке активной и пассивной грамматики.

    реферат [22,9 K], добавлен 06.02.2011

  • Сущность и цель лингвистической теории по Хомскому. История развития генеративной (порождающей) грамматики Хомского. Этапы существования генеративизма. Представление о конечном наборе правил (приемов), порождающих все правильные предложения языка.

    реферат [151,0 K], добавлен 22.10.2011

  • Изучение диалекта как уникального гносеологического и культурного феномена. Определение универсальных составляющих исторической диалектологии и исторической грамматики. Создание модели обучения родному языку на основе концепции диалектной картины мира.

    реферат [23,9 K], добавлен 29.08.2011

  • Исследование истории возникновения и содержания грамматики "Пор-Рояля" как первого фундаментального грамматического сочинения, относимого к универсальным грамматикам. Изучение основных положений и оценка значения "Российской грамматики" М.В. Ломоносова.

    презентация [2,1 M], добавлен 29.04.2012

  • Особенности языковой ситуации в позднесредневековой Европе. Дедуктивный и индуктивный пути развития языкознания в XVII в. Содержание "Грамматики Пор-Рояля". Возникновение логико-менталистического и философско-психологического течений развития лингвистики.

    курсовая работа [56,7 K], добавлен 13.10.2010

  • Изучение грамматики английского языка путем выполнения специальных заданий. Пути пополнения личного словарного запаса. Особенности использования специальной литературой для изучения грамматики английского языка. Написание топика на тему "Family".

    контрольная работа [30,6 K], добавлен 05.10.2012

  • Правильность речи как фундамент языковой культуры. Виды языковых норм, их сущностная характеристика. Словообразовательные, морфологические и синтаксические нормы грамматики. Фонетическая природа русского словесного ударения, его характерные признаки.

    реферат [22,5 K], добавлен 10.12.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.