Главная Коллекция "Otherreferats" Иностранные языки и языкознание Ruskell: теория и практика

Ruskell: теория и практика

Рассмотрение сочетаемости слова: коллокации и работа скетч-грамматики. Проведение сравнительного анализа скетч-грамматики ruskell 1.3 и скетч-грамматики Araneum Russicum. Определение особенностей депиктивных конструкций. Обзор похожих и однокоренных слов.

Рубрика	Иностранные языки и языкознание
Вид	дипломная работа
Язык	русский
Дата добавления	01.08.2017
Размер файла	778,1 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

Необходимость создания своего ворд-скетча для служебных частей речи предлогов была обусловлена идей о пользе знакомства со значениями предлогов через их сочетания с существительными. Это часто бывает очень важно при изучении предлогов и понимании их значений у изучающих РКИ, особенно при частичном сходстве функций и значений предлогов в доминантных языках. Таким образом, практическое значение создания правила для предлогов - показ предлогов как многозначных лексических единиц. Самый простой пример - предлог в, имеющий пространственное и временное значения (в здании и в 2017 году).

Анализируя корпус, проектная группа обнаружила омонимию в выдаче глаголов, наречий и существительных, от которых образованы производные предлоги и отсутствие скетчей для предлогов как отдельных частей речи. В числе неверно размеченных предлогов: с, из-за, из-под, включая, благодаря, несмотря, путем. Надо отметить, что multiword запрос невозможен в RuSkELL, так же, как и не существует корректной разметки для составных лексикализованных единиц, вроде составных предлогов несмотря на, в течение, в отличие и пр. Каждая часть предлога получает свою часть речи (как правило глагол + сущ), что можно проверить по корпусу ruskell 1.3.

Рисунок 6. Несмотря в Sketch Engine

В корпусе все предлоги имеют разметку (разной степени корректности) и свой набор тегов (стандартное для всех начало Sp = Adposition + preposition). Однако до данного момента у них не было своих правил в скетч-грамматике, а следовательно, они не могли иметь свой упорядоченный ворд-скетч и из-за автоматического распределения POS могли попадать в другие группы.

Особенности поисковой системы RuSkELL не позволяют использовать составные лексиколизованные единицы в качестве запросов, однако включение правила для односоставных предлогов с простыми отношениями предлог + существительное, глагол + предлог + существительное остается возможным. Правило имеет следующий вид и строит грамматические отношения для 1) любого простого предлога при существительном в любом падеже, 2) любого простого предлога после глагола и перед существительным:

*DUAL

= %w + существительное

#=prep_object

1: "Sp.*" 2: noun_nom

1: "Sp.*" 2: noun_gen

1: "Sp.*" 2: noun_dat

1: "Sp.*" 2: noun_acc

1: "Sp.*" 2: noun_inst

1: "Sp.*" 2: noun_loc

3: [tag="Sp.*"] 2: adj [word=","]? 1:noun & agree (1,2)

*TRINARY

= глагол + %w + существительное

#=pp_%(3.lemma)

1: "V.*" 4: [tag!="SENT" & tag="Sp.*"] 3: adj [word=","]? 2: noun & agree(2,3)

2.4.3 Депиктивные конструкции

Одной из идей проектной группы стало включение специфических русских депиктивных конструкций с прилагательным в творительном падеже, которые обозначают непостоянный, ограниченный определенным периодом времени признак (подробнее см. Кузнецова, Рахилина 2010), вроде: Она казалась грустной сегодня. Эта конструкция часто вызывает сложности у изучающих РКИ, особенно в отношении глаголов, с которыми возможно употребление депиктивов.

Внесение в скетч-грамматику грамматического отношения для депиктивных конструкций касалось корректировок или добавлений в уже существующие правила. Мы включили в новую версию скетч-грамматики RuSkELL расширение для правила с грамматическим отношением глагол+ сущ в Тв.п., добавив в него прилагательное в Тв.п.:

DUAL

#=inst_modifier/inst_modifies

2: adj_ins 1: "Vm.*"

Мы предполагали, что благодаря этому правилу в выдаче появятся новые коллокации с депиктивными конструкциями типа выглядел странным / интересным. Также мы ожидали, что подобные конструкции появятся и в сочетании с глаголами стать, быть, оказаться, казаться, притвориться и т.д. Частотные коллокации с прилагательным в творительном падеже по этим глаголам представлены в Таблице 5.

Таблица 5 - Выдача коллокация по правилу: 2: adj_ins 1: "Vm.*"

Глагол-запрос	Выдача
выглядеть	странным выглядит отсутствие логичным выглядит сохранение интересным выглядит включение перспективным выглядит участие
казаться	странным казался этот вопрос
оказаться	эффективным оказался режим успешной оказалась работа интересным оказался раздел удачным оказался спектакль лучшими оказались рисунки

Кроме того, правило работает и для ворд-скетча прилагательного-запроса. Например, в коллокациях прилагательного красный появляются сочетания с пассивом, вроде:

(18) Красным выделено то, чего нет в наличии, желтым то что есть.

Однако в этом случае надо понимать, что подобные конструкции не являются депиктивами и становятся просто побочным результатом работы правила.

Кроме того были проведены мелкие коррекции, вроде фиксации порядка в группе сочетаемости запроса с модальным словом/инфинитивом:

*DUAL

#=modal_inf/modal

1: "A.....s" 2: "Vmn.*"

Все правила и изменения, внесенные в скетч-грамматику, были рассмотрены и утверждены прежде всего с ориентацией на непрофессиональную пользовательскую аудиторию для изучающих РКИ. Однако, на мой взгляд, добавление новых правил для числительных и предлогов, которых не было в скетч-грамматике ruTenTen(11), может быть полезно и для лингвистов.

Таким образом, внесение новых частей речи и расширение некоторых правил скетч-грамматики стало достаточно полезным добавлением в онлайн-ресурс, благодаря которому пользователям стали доступны большее количество данных по языку.

2.5 Что пользователь может найти во вкладке “Сочетаемость слова”

Выдача коллокаций регулируется правилами скетч-грамматики и частотностью: слово должно иметь не менее 1 вхождения на миллион и overall frequency и overall score для его коллокации должны быть высокими. При менее одного вхождения на миллион и низких показателях для коллокаций слово не получает выдачу сочетаемости в RuSkELL. В каждой группе коллокаций может быть максимум 15 коллокатов - самых частотных слов, появляющихся в контексте с узлом. По объему ворд-скетча можно судить о величине частотности слова (score frequency):

высокочастотные имеют полный ворд-скетч и заполненный список “Похожих слов”;

среднечастотные и близкие к порогу (вроде яблочко - 1,58 вхождений на миллион) - меньший ворд-скетч, в котором, однако, может быть представлено меньшее количество примеров, и полный список “Похожих слов”;

низкочастотные - только список “Похожих слов” (как, например, глагол острить - 0,37 вхождений на миллион, и некоторые другие уже ранее упомянутые примеры) или полное отсутствие выдачи по всем функциям.

Достоинство RuSkELL как для студентов РКИ, так и для лексикографов - наличие в выдаче идиом, полуидиоматических сочетаний и даже фразеологизмов, новых употреблений. Однако надо обратить внимание, что ворд-скетч слова в самом корпусе ruskell 1.3 на Sketch Engine благодаря регулированию настроек частотности может быть более полным, чем ворд-скетч того же слова в RuSkELL. Поэтому при обращении к поиску в системе Sketch Engine можно расширить возможности для сравнительного исследования: то, что не попадает в выдачу RuSkELL, может быть найдено в ruskell 1.3, исходя из чего, можно судить о принципах “что нужно для изучения лексики в РКИ”. Так, глагол острить, не получивший список коллокаций в RuSkELL, будет иметь малые группы в ruskell 1.3.

Несмотря на отсутствие ворд-скетчей для низкочастотных слов, RuSkELL дает большие возможности для исследования развивающихся значений и коннотаций слов, не столь активно фиксирующихся в словарях. Далее будут представлены анализы нескольких слов на материале RuSkELL и традиционных словарей.

2.5.1 Агрессивный: смена оценки

Примером может послужить прилагательное агрессивный, у которого произошла смена оценки с негативной на позитивную (Левонтина 2010). В следующих примерах употребления коллокаций в значении агрессивный уже нет негативной оценки, в этих контекстах прилагательное обозначает, упрощенно говоря, интенсивность воздействия:

(19) Все больше молодежи страдает от пивного алкоголизма, агрессивная реклама которого ведется в средствах массовой информации и в кино.

(20) Такие ботинки используются в большом спорте и для скоростного агрессивного катания по подготовленным трассам.

В первом случае на первый план выходит значение «такой, в котором проявляется стремление какого-л. человека добиться своей цели, преодолев сопротивление других людей и навязав им свою волю» (Апресян и др. 2014: 53). Сюда же относятся сочетания с коллокатами воздействие, политика, стратегия. Во втором же случае сочетание агрессивное катание обозначает особую манеру катания на коньках с исполнением акробатических трюков в процессе См. подробнее - Википедия Агрессивное катание на коньках: https://ru.wikipedia.org/wiki/%D0%90%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D0%B2%D0%BD%D0%BE%D0%B5_%D0%BA%D0%B0%D1%82%D0%B0%D0%BD%D0%B8%D0%B5_%D0%BD%D0%B0_%D1%80%D0%BE%D0%BB%D0%B8%D0%BA%D0%BE%D0%B2%D1%8B%D1%85_%D0%BA%D0%BE%D0%BD%D1%8C%D0%BA%D0%B0%D1%85, и в этом случае уже не идет речи о воздействии на какой-либо объект. Сочетание имеет профессиональную окраску и возникло, вероятно, по аналогии: агрессивное воздействие на людей - “агрессивное” воздействие коньков на поверхность. Здесь кстати вспомнить о полуидиоматическом выражении агрессивная езда, которое наивными носителями русского языка обычно воспринимается с негативным значением: некорректная езда водителя, не уважающего других участников движения и как правило нарушающего правила дорожного движения. Синоним - опасное вождение, которое включает «резкие перестроения, обгоны и торможения, несоблюдение безопасной дистанции». Однако если посмотреть на примеры по сочетаемости агрессивный и езда, то можно заметить, что во многих контекстах сочетание не имеет негативной окраски и, судя по контекстам, близко к описанному выше значению агрессивного катания = экстремальная езда с возможными трюками:

(21) 1. Они предназначены для агрессивной езды по бездорожью.

(22) 2. При этом шины хороши для агрессивной езды по бездорожью.

(23) 3. Теперь любовь к агрессивной езде приведет к трудовой повинности.

(24) 4. Система стабилизации не мешает агрессивной езде в разумных пределах и не зря входит уже в базовое оснащение автомобиля.

(25) 5. Подходит для семейного отдыха и не для агрессивной езды.

(26) 6. Подходит ли он для довольно таки агрессивной езды.

2.5.2 Нотка: расширение сочетаемости

RuSkELL позволяет наблюдать и развитие ещё незафиксированных значений, как например, в слове нотка. В МАС нотка во втором значении (первое - уменьшительное к нота (во 2 знач.), которое неважно в анализе) - «тон, интонация речи, в которых проскальзывает, слегка проявляется какое-л. чувство, отношение говорящего к предмету или теме разговора» (Евгеньева 1999). В “Сочетаемости слова” можно найти подобные примеры - нотка сожаления, нотка грусти, нотка юмора. Однако наряду с ними есть и нотка/нотки перца, аромат с нотками цитрусовых/имбиря/тропических фруктов/карамели, вкус с нотками корицы/имбиря/меда/черносливов. То есть нотка в данных примерах приобретает значения “легкое проявление запаха или вкуса”, которое могло развиться из указанного выше “легкого проявления чувства” с переносом из эмоционально-психологической плоскости в физиологическую. Что подтверждается примерами:

(27) Обладает ароматом спелых красных фруктов с нотками перца

(28) Эти кексики обладают выраженным лимонным ароматом с нотками имбиря. ИЛИ Вкус Коньяк имеет мягкий вкус с нотками ванили, шоколада, чернослива и долгим, насыщенным послевкусием.

(29) Вино обладает красивым насыщенным тёмно-красным цветом, тонким вкусом с фруктовыми нотками и элегантным насыщенным характерным ароматом.

(30) Слегка обжигающий свежий и чуть сладковатый вкус с нотками корицы и имбиря оставляет длительное пряное послевкусие.

2.5.3 Инструмент: развитие нового значения

Подобный предыдущему пример - существительное инструмент, которое в современном русском языке приобретает значение “способ, метод достижения какого-либо результата”, не зафиксированное в словарях (Таблица 6). При этом значение достаточно широко употребляется, как можно заметить, особенно в публицистике и учебно-научных текстах. Например, по запросу «инструмент на расстоянии от 1 до 2 от воздействие » НКРЯ дает микро-статистику: 65,38% употреблений в публицистике и 19,23% - в учебно-научной.

Таблица 6 - Новые значения существительного инструмент

инструмент

1) + требоваться (%wnom + глагол / %w + существительноеnom)

2) + воздействие (%w + существительноеgen / %wgen + существительное)

1) Поэтому требуются особые инструменты для управления всеми нужными

для работы приложениями.

2) Основным инструментом воздействия на ситуацию является государственное регулирование.

В этом значении важен переход существительного инструмент из разряда предметных существительных в разряд абстрактных.

2.5.4 Новый сленг в RuSkELL

К исследованию новых значений у слова в RuSkELL с некоторыми поправками можно отнести следующие слова: гнать, кинуть, косяк, завязанный, - у которых новые значения, как правило, действуют в области разговорной и даже сленговой речи (Таблица 7). Эти значения фиксируются RuSkELL по разным группам, однако стоит отметить, что это неуникальная фиксация: новые значения также отмечаются некоторыми современными словарями, например, “Активным словарем русского языка” (Апресян и др. 2014).

Таблица 7 - Новые значения слов в RuSkELL

Запрос-узел	Коллокат	Пример
завязанный	1) + контакты 2) + на	1) Хотелось бы завязать контакты с поставщиками из других регионов. 2) Их обещают сделать очень сложными, а потому частично сбор легендарки можно завязать на них.
кинуть	1) + ссылка 2) на + деньга 3) в + личка	1) А даже если и не обратит - может кинуть ссылку на ваш ресурс приятелю. 2) Рядом два парня рассказывали о том, как какого-то типа можно "кинуть на деньги". 3) Пожалуйста, киньте в личку свой телефон.
косяк	1) + исправлять 2) + серьезный	1) Оказывается, это помечены места, где следует исправить косяки. 2) Это самый серьезный косяк который когда либо приключался на моей памяти.
гнать	+ пурга	Так что нечего гнать пургу и писать о том, чего не знаете.

2.5.5 Идиомы и фразеологизмы: лебединая верность и ранняя пташка

RuSkELL также дает возможность для исследования фразеологических и идиоматических сочетаний, которые могут быть неакцентированы или упущены в словарях. Так, обращаясь к толкованию прилагательного лебединый в словарях, из полу/идиоматических сочетаний можно встретить: лебединая шея/грудь, лебединая походка, лебединая песня. Но нет выявленной в RuSkELL коллокации лебединая верность, означающей преданность любящей пары друг другу до самой смерти:

(31) Лебединая верность дарит молодоженам возможность решить сразу несколько важных вопросов в одном месте.

(32) И убедиться, что лебединая верность - не вымысел.

(33) Правда ли, что существует лебединая верность?

(34) И возможно, именно благодаря ему в животном мире есть такие явления, как собачья преданность и лебединая верность.

Эта коллокация, по-видимому, появилась недавно: в НКРЯ можно найти только по одному вхождению в основном и устном корпусах и 9 вхождений в газетном корпусе (при этом 4 из них - название песни) и все употребления приходятся на 2000-е годы. Возможно, ранее этого понятия даже не существовало (в отличие от собачьей преданности) или не было так популярно. Есть также предположение, что “открытие” лебединой верности - недавний факт в орнитологии. В любом случае, так как корпус ruskell 1.3 был загружен в 2011 году из Интернета, можно заключить, что это сочетание - достояние современного развития фразеологии, ещё не зафиксированное словарями.

Похожая ситуация происходит с существительным пташка, которое в RuSkELL получает только одну коллокацию - ранняя:

(35) Вы ранняя пташка? - Встаю обычно в 10 часов - самое лучшее время для подъема!

Метафорический перенос со старого денотата позволяет говорить о фразеологическом сочетании, которое не отмечается, например, в МАС, где это слово является синонимом птички Но отмечается, например, в “Русском семантическом словаре” Шведовой (Шведова 1998).. Эти парадигматические отношения, как и отношения со словом птица, в свою очередь, никак не проявляются в ворд-скетче или в списке похожих слов RuSkELL, что позволяет говорить, что в корпусе ruskell 1.3 эти синонимы фактически не встречаются в сходных контекстах (что объясняет отсутствие в “Похожих словах”) или в одних контекстах (отсутствие группы “и/или”).

2.5.6 Однокоренные слова в RuSkELL

“Сочетаемость слова” позволяет увидеть и различия в однокоренных, семантически близких словах. Например, в случае с топовой парой из “Похожих слов” стол-столик можно было бы предположить большую схожесть ворд-скетчей. Однако анализ выдачи показывает, что диминутив расширяет значения и потому не имеет такого количества схожих контекстов с производным словом стол, как можно бы того ожидать. Большое количество управляющих словом столик переходных глаголов требуют значения “стол, место в кафе, ресторане” при отношении поссесивности и образуют с узлом полуидиоматические коллокации: забронировать, зарезервировать, заказать, заказывать, занять, выбрать, занимать, выбирать. В то же время с этими глаголами практически невозможно употребление слова стол (например, на запрос «заказать на расстоянии от 1 до 2 от стол» НКРЯ находит только 4 вхождения), для которого более частотны глаголы: накрывать, накрыть, сервировать, украшать, украсить, разнообразить и обходить, обогнуть, пройти. Та же абсолютная разница в контекстах - в группе согласованных прилагательных, например: круглый стол (мероприятие), шведский стол, праздничный стол, паспортный стол, операционный стол, новогодний стол - при замене стола на столик в данных контекстах полностью поменяется значение (к примеру, останется только физическая характеристика, круглый столик = “маленький стол круглой формы”, но никак не “мероприятие, встреча по обсуждению важных проблем”). Те же незаменяемые контексты есть и у слова столик: журнальный столик, туалетный столик, кофейный столик, пеленальный столик.

Все эти коллокации при очень высокой семантической схожести слов дают основание отнести слова стол-столик к квазисинонимам - близким по значению словам с нейтрализацией семантического сопоставления при определенном расширении/изменении контекста (Апресян 1995).

Таким образом “Сочетаемость слова” предоставляет сильную базу для лексикографического описания слова, составления лексико-семантического описания слова и исследования синтагматических связей слова, а также для изучения сочетаемостных характеристик слова для студентов и преподавателей.

3. Выдача примеров

“Примеры” работают как отдельная функция и имеют переходы со страницы “Сочетаемость слова”. Максимальное количество примеров на коллокацию - 40 предложений средней длины. При этом, если в RuSkELL в выдаче меньше 40 примеров, это автоматически означает, что это максимальное количество и в самом ruTenTen11 (пример - сленговое слово милота, которое имеет только 10 контекстов). Все примеры получены благодаря корпусной обработке при помощи алгоритма GDEX в корпусе ruTenTen11. Это механизм работает следующим образом:

The mechanics of the method were this: for each of the 8000 collocations, GDEX put the twenty highest-scoring examples into a spreadsheet. The lexicographer then worked on the spreadsheet, putting a tick beside the one they considered best, editing it if necessary. (Kilgarriff et al 2008: 425)

Примеры, загруженные из Рунета, отличаются разнообразием: нейтральные, официальные, научные, сленговые. Благодаря многообразию документов, составивших корпус ruskell 1.3, и механизму их обработки (были исключены контексты с обсценной лексикой), пользователь ресурса может ознакомиться как с привычно-нейтральными контекстами, так и специальными терминологическими, жаргонными или сленговыми, ср.:

(1) Не бойтесь экспериментировать в создании уюта в вашем доме!

(2) Центральный банк часто провоцирует валютные кризисы при склонности к девальвации.

(3) Профиль пользователя и личка тоже не помешают

Важно отметить, что примеры не дают понимания различных значений слова и не отделяют омонимы. Например, если пользователь введет в поиск по примерам печь, то получит контексты как для существительного, так и для инфинитива, хотя примеры с последним буду гораздо более редкими:

(4) Это позволяет многим людям выбрать печь именно этого типа.

(5) Будем печь пироги из «топора».

Но интересно, что хотя нельзя конкретизировать частеречную принадлежность в запросе, RuSkELL всё же дает возможность посмотреть на две Если пользователь пройдет по цепочке анализа лексемы печь в следующем порядке: запрос печь (примеры) (сочетаемость слова) (похожие слова) - он ожидаемо получит все выдачи по существительному и смешанную - по примерам (Рисунок 1).

Рисунок 1. Выдача сочетаемости по запросу печь (существительное)

Но если изменить отправную точку этого алгоритма: запрос испечь (как видовая пара глагола печь) похожие слова выбор похожего слова печь сочетаемость слова - то во вкладке “Сочетаемость слова” пользователь увидит ворд-скетч для глагола (Рисунок 2).

Рисунок 2. Выдача сочетаемости по запросу печь (глагола)

Но при этом во вкладке “Примеры” по-прежнему будут даны те же 40 примеров, что и для запроса-существительного печь, так как они остаются высокочастотными, а ворд-скетчи для слов помогает скорректировать скетч-грамматика. RuSkELL не позволяет корректировать частеречную отнесенность запроса прямо на странице “Примеры”, а только на двух других.

В некоторых других случаях работа с “Примерами” также невозможна без обращения к другим функциям из-за ошибок тегирования. Например, на запрос подводной RuSkELL из 39 высокочастотных примеров только в одном употреблено действительное прилагательное подводной, а не подводный:

(6) В целях обеспечения проектного положения подводной части трубопровода к нему были прикреплены чугунные грузы массой по 50 кг.

Однако и у функции “Примеры” есть свои преимущества - наличие примеров даже при отсутствии ворд-скетча или списка похожих слов. Например, для упомянутого уже выше глагола острить RuSkELL выдает привычную порцию в 40 примеров, в которых большинство составляет глагол острить в значении “говорить остроты” и только один пример с глаголом в значении “делать острым”:

(7) Однако таких шуток много, и острят на эту тему люди, как правило, от первого лица.

(8) Варги пошли в школу, а значит наступила осень и пора вновь точить мечи и острить стрелы.

На основе такой выдачи можно заключить, что изначальное значение глагола “делать острым” стало устаревшим в современном русском языке.

Более подробно об использовании примеров будет сказано в главе “Возможности ресурса в преподавании РКИ”.

4. Похожие слова

Третьей функцией RuSkELL являются “Похожие слова” (в системе Sketch Engine - Thesaurus), которые позволяют пользователю посмотреть близкие по семантическим характеристикам слова. Слова представлены как списком, так и в облачном формате и распределены по величине (дистрибутивной) схожести (Score similarity) и частоте появления в корпусе. Величина схожести высчитывается по проценту контекстов, в которых могут встречаться лексические единицы: чем больше схожих контекстов, тем выше схожесть слов и больше вероятность попасть в топ-похожих слов (которые потом, в свою очередь, можно попарно сравнить в самом корпусе ruskell 1.3 на предмет схожести скетчей). Этот принцип в целом отвечает постулатам дистрибутивной гипотезы Харриса и Фёрса, однако с поправкой, что в определении пар семантически близких слов в RuSkELL принимается во внимание также и грамматические отношения, зафиксированные в скетч-грамматике и отраженные в ворд-скетче. Упрощенно говоря, высокая дистрибутивная схожесть в корпусе RuSkELL - это высокий процент схожих контекстов плюс схожие (или идентичные) сочетаемости слова (отобранные с учетом грамматических характеристик слова).

Например, прилагательные умный и добрый оказываются первыми похожими словами друг для друга, хотя, например, на RusVectфrзs самым семантическим близким словом для прилагательного умный оказывается неглупый, а для добрый - милый, что с семантической точки зрения интуитивно естественно. Однако если взглянуть на ворд-скетчи для этих прилагательных в RuSkELL, то становится ясным, что умный-добрый более близки по своим синтагматическим свойствам - группы коллокаций на 80% идентичны (Таблица 1). 1-4 группы по запросам умный и добрый в таблице совпадают, совпадения же групп по парам умный-неглупый и добрый-милый только две и три группы соответственно.

Таблица 1 - Группы коллокаций для похожих прилагательных

Умный

Добрый

Неглупый

Милый

Группы коллокаций

1) и/или

2) глагол + %winst

3) %w + существительное

4) наречие + %w

1) и/или

2) глагол + %winst

3) %w + существительное

4) наречие + %w

5) инфинитив + %w

1) %w + существительное

2) наречие + %w

1) и/или

2) %w + существительное

3) наречие + %w

При высоком совпадении грамматических отношений важно наличие одинаковых коллокатов в группах сочетаемости, которые имеют высокие частотности появления в сочетаемости каждого запроса. В Таблице 2 эти коллокаты представлены списком и найдены при помощи функции Sketch diff в корпусе ruskell 1.3, которая доступна только в системе Sketch Engine, поэтому не все совпадающие коллокаты попадают в индивидуальные выдачи по запросам умный и добрый RuSkELL.

Так как многие расчеты производятся только внутри системы Sketch Engine и не проявляются в ресурсе RuSkELL, пользователь не может самостоятельно понять принципы определения похожих слов. Поэтому, видя только результат расчетов похожести слов, он может быть озадачен тем фактом, что умный и добрый (первая пара в “Похожих словах”) более близки, чем, например, умный и мудрый в той же выдаче. Но пользователь может обнаружить те одинаковые принятые в расчет системы коллокаты, которые имеют высокую частотность со словом-запросом (например, добрый и наречие очень) и небольшую разницу между частотностью похожего слова (умный) и тем же коллокатом. Чем выше частотности коллокации с похожим коллокатом и чем меньше разрыв между частотностью одной коллокации (очень умный) и другой (очень добрый), тем больше вероятность, что она входит в “видимую” выдачу каждого запроса. Например, для обоих запросов одинаковыми коллокатами в группе “и/или” являются сильный и честный. Однако разрыв между частотностями коллокаций умный-сильный (641) и добрый-сильный (192) составляет 449 единиц, и сильный появляется только в выдаче по запросу умный, скрывая тем самым свое участие во внутреннем расчете похожести слов умный и добрый. В это же время разница частотностей умный и/или честный (236) и добрый и/или честный (372) составляет только 136, и для обоих прилагательных коллокат честный оказывается достаточно распространенным, поэтому он и попадает в обе выдачи, и участвует в расчетах похожести.

В общем, на основе семантико-синтагматической близости умный и добрый система Sketch Engine показывает 26 общих коллокатов (ср. умный-мудрый - только 17 совпадающих коллокатов), из которых “видимыми” в выдаче в RuSkELL являются только 10. На основе этих 26 одинаковых коллокаций добрый и становится первым самым близким похожим словом умного.

Таблица 2 -Совпадающие коллокации прилагательных умный и добрый

Группа коллокаций	Коллокаты
и/или	Сильный, красивый, честный, мудрый, веселый, внимательный, ласковый, хороший, заботливый
существительное с %w в роли определения	Женщина, девушка, глаз, человек
обстоятельство при %w	Чрезвычайно, слишком, чересчур, настолько, жутко, необычайно, невероятно, очень, по-настоящему, необыкновенный, чуточку, удивительно
глаголы с %w в роли дополнения в творительном падеже	Быть

Исходя из принципов расчета похожести показатели величины схожести (ВС) по паре умный-добрый выше, чем умный-неглупый, добрый-милый (Таблица 3). Для сравнения также приведены подсчеты семантической близости между словами (СБ), которая, в свою очередь, указывает на логичность соединения умный-неглупый и добрый-милый на основе исключительно семантической близости.

Таблица 3 - Дистрибутивная схожесть в RuSkELL vs RusVectores

Пара	RuSkELL (ВС)	RusVectores (СБ)
умный/добрый	0,523	0,577
умный/неглупый	?	0,763
добрый/милый	0, 464	0,658

Таким образом, приходим к заключению, что RusVectores, рассчитывая семантическую близость без особого акцента на грамматические отношения похожих слов, в результате получает пару близких синонимов умный-неглупый, то есть слов, характеризующих одно и то же свойство человека (интеллект) в разной степени: умный - высокая степень интеллекта, неглупый - более низкая степень интеллекта, чем умный. У RuSkELL другой поход: принимая во внимание также и синтагматическую близость слов, он обнаруживает как наиболее семантически похожие слова умный и добрый, характеристики разных положительных свойств человека, которые могут выступать в роли далеких аналогов. Также они нередко встречаются рядом в контексте (co-occur), что отражается и в выдаче прилагательных по группе “и/или”:

(1) Вы наверное умнее и добрее всех остальных?

(2) Добрые умные животные жили вместе с ними.

(3) А в комиссии сидит незнакомый старый человек с умными и добрыми маленькими глазками.

(4) Катя росла доброй и умной девочкой и по характеру очень похожа на мою маму.

(5) Умный и добрый Жуковский не умел относиться к людям равнодушно.

Все пары в списке похожих слов в RuSkELL выстроены по убыванию дистрибутивной схожести, которая вычисляется по ворд-скетчам для w1 и w2 (подробнее о статистических расчетах модели можно прочитать: https://www.sketchengine.co.uk/documentation/statistics-used-in-sketch-engine/).

4.1 Похожие слова: отношения внутри группы

Итак, механизм отбора похожих слов работает таким образом, что в выдачу “Похожих слов” попадают в основном лексемы, находящиеся в парадигматических отношениях и имеющие общий интегральный семантический признак. Хотя надо отметить, что этот признак может быть общим не сразу для всех слов в списке, а только для части слов и слова-запроса или вообще только для пары запрос-похожее слово. Поэтому говорить о каком-либо общем обозначении для всех похожих слов в списке невозможно - каждую пару или несколько пар, за редкими исключениями, нужно анализировать отдельно. Также отдельного рассмотрения заслуживает вопрос обозначения множества слов в группе “Похожих слов”, и на мой взгляд, он не имеет универсального однозначного ответа.

Анализ большинства групп похожих слов дает основание говорить о принадлежности слов к определенному/определенным семантическим полям, составленным из «множества значений, которые имеют хотя бы один общий семантический компонент» (Апресян 1995). Однако несмотря на то, что системный характер связи между похожими словами не вызывает особых сомнений, нельзя говорить об интуитивной понятности для носителей всех групп похожих слов. Например, глаголы и прилагательные не всегда имеют так называемую психологическую реальность (достаточно сложно усмотреть актуальную связь между говорить и играть или красивый и мягкий). Такие “отдаленные” друг от друга похожие слова, как правило, попадают в низ тезауруса и имеют меньшее количество схожих контекстов. Однако при рассмотрении схожих коллокаций и одинаковых коллокатов связь похожих слов можно восстановить. Например, для пары говорить-играть объединяющим элементом станут высокочастотные коллокации глагол + с при контекстах со схожей ролевой структурой играть с ребенком - говорить с ребенком. Или же пересечения могут быть обнаружены в контекстах, где при обращении к определенным коллокатам играть-говорить получают статус окказиональных синонимов играть словами - говорить словами. То есть получается, что связь между похожим словом и словом-запросом может быть найдена при обращении к конкретным узким контекстам. Однако между собой все похожие слова могут не иметь связи (как для похожих слов играть и свидетельствовать к запросу говорить).

Кроме того как показывает анализ, на выдачу похожих слов в некоторых случаях оказывает влияние частотность коллокаций конкретных малоупотребительных слов. В этом случае возможны неожиданные пары. Так, это предположение может объяснить, почему самым близким похожим словом для глагола подмести становится не видовая пара мести (как для большинства глаголов), а забетонировать: по этим глаголам единственная общая коллокация с наречием старательно с частотность 1 раз для каждого глагола (одинаковая частотность с нулевым разрывом). Для пары подмести-мести Sketch diff обнаруживает одинаковые коллокаты дворник (подлежащее при %w), пол и тротуар (дополнение в винительном падеже при %w), дружно (обстоятельство при %w). Однако разрыв между частотностями коллокаций (например, между мести-пол и подмести-пол) слишком большой, а единственный коллокат с нулевым разрывом (дружно) оказывается релевантным в выдаче только глагола подмести. Поэтому система не определяет подмести и мести как похожие слова.

Для понимания того, какие виды парадигматических отношений RuSkELL чаще выделяет для определенных частей речи, была подсчитана статистика на микро-выборке из 84 запроса: по 21 лексеме на часть речи - глагол, наречие, прилагательное, существительное (список можно найти в Приложениях к главе). Самые частые лексико-семантические отношения для первых похожих слов в списке - квазисинонимия, видовые глагольные отношения (видовой коррелят - ВК) и антонимия (Таблица 4). Также одна из пар была определена мною как ассоциативная: любимый - замечательный. В данном случае под ассоциатом понимается эмоционально окрашенная лексическая реакция (замечательный) на слово-стимул (любимый), общая семантика похожих слов - положительная оценка “самый лучший”.

Под вопросительным знаком - сложно определяемые парадигматические отношения, о которых будет сказано чуть ниже.

Таблица 4 - Соотношение похожих слов по парадигматическим отношениям.

Похожее слово	ГЛ	НАР	ПРИЛ	СУЩ	Общий итог
?	3	1	3	1	8
аналог				1
антоним	1	7	8	2	18
ассоциат			1		1
гипероним				2	2
гипоним				1	1
квазисиноним	3	9	8	3	21
когипоним		2	1	9	8
конверсив	1				1
мероним				2	2
синоним		2		1	8
ВК	13				14
Общий итог	21	21	21	21	84

Но эти цифры касаются только общей статистики по всей выборке. Если обратиться к частеречному распределению, то картина по каждой части речи имеет свои нюансы (Схема 1) и преобладание синонимических, антонимических и других парадигматических отношений зависит от части речи (Апресян 1995, Падучева 2004).

Схема 1. Парадигматические отношения похожих слов.

Для глаголов самыми близкими похожими словами с преимущественным отрывом становятся видовые корреляты, так как RuSkELL в большом количестве случаев выдает первой парой похожих слов видовую пару: видеть-увидеть, гаснуть-погаснуть, приезжать-приехать (х2), класть-положить, купить-покупать, посмотреть-посмотреть, уезжать-уехать (х2), продать-продавать, платить-заплатить, понижать-снизить, просить-попросить. При этом ближайший похожий глагол, видовой коррелят, может отличать от глагола-запроса только значение результативности (гаснуть-погаснуть), значение однократности действия (просить-попросить) или значение ограничения действия по длительности (смотреть-посмотреть).

Для наречий и прилагательных самыми распространенными становятся квазисинонимы, семантическое сопоставление с которыми перестает существовать при перефразировании (Апресян 1995): красивый-прекрасный, мобильный-электронный, хороший-отличный, маленький-небольшой, большой-огромный, средний-высокий, злой-злобный, сладкий-вкусный и очень-весьма, хорошо-отлично, слишком-очень, уже-давно (х2), скоро-вскоре, завтра-скоро, вчера-недавно, быстро-сразу. Также для прилагательных часты антонимы (8 антонимов на 8 квазисинонимов в выборке): далекий-близкий, дальний-ближний, плохой-хороший, белый-черный, холодный-теплый (х2), горячий-холодный, кислый-сладкий. Пара горячий-холодный из-за различия степени (горячий-ледяной, холодный-теплый) может быть также отнесена к квазиантонимии, однако в работе я решила не заострять на этом внимание.

Самое большое разнообразие парадигматических отношений показали похожие существительные. Для выбранных существительных более распространенными стали когипонимические отношения, что объясняется выбором многих конкретных существительных: рубль-доллар, стул-кресло, фрукт-овощ, апельсин-лимон (х2), мандарин-грейпфрут, овощ-фрукт, минута-час, шея-плечо.

Также остается часть слов, отношения между которыми сложно определить однозначно и семантическая близость которых не так очевидна и определяема (Таблица 5). Связь в паре подмести-забетонировать уже была объяснена выше - это общность коллокаций малочастотных слов (коллокат - старательно), для которых RuSkELL даже не строит ворд-скетчи. Пара стоить-стоять вероятнее всего образовалась из-за ошибки лемматизации по омонимичной форме:

(6) Или вообще вопрос не стоит длительного обсуждения… (запрос стоить)

(7) Этот же вопрос стоит и перед Эко (запрос стоить)

(8) Они стоят копейки… (запрос стоять)

Пара уступать-соответствовать имеет похожие грамматические отношения по коллокациям “подлежащее при %w”(характеристика, качество, модель) , “дополнение в дательном падеже при %w” (оригинал, показатель, качество), “обстоятельство при %w” (мало) и “модальное слово при %w” (способный, обязанный). В группе коллокации с дативом могут быть обнаружены контексты вроде “(не) уступают оригиналу” и “(не) соответствуют оригиналу”, из чего можно определить парадигматические отношения квазиантонимии (уступать - соответствовать оригиналу) или аналогии (не уступать - соответствовать).

Пара слов сегодня-уже часто встречаются в схожих обстоятельственных ролях при схожих глаголах (состояться, существовать, находиться, мочь, стать, работать, пройти, иметь, сделать, говорить):

(9) Сегодня состоялась новая встреча лидеров эсеров…

(10) Уже состоялась встреча глав правительств Азии и Европы в Пекине.

В приведенных примерах, коллокации в которых имеют для каждого наречия частотность выше 1000 с небольшой разницей между сегодня состояться и уже состояться, контексты относят событие к недавнему результативному прошлому и в них сегодня-уже напоминают окказиональные синонимы. Разобранные в предыдущей подглаве прилагательные добрый и умный будут выступать в роли далеких аналогов - слов, имеющих общий интегральный признак “положительная оценка” разных психических качеств человека (то есть оба слова обозначают положительное свойство на разных шкалах). Соленый и жареный оказываются когипонимами по способу приготовления, часто выступая в одинаковых равноправных отношениях с прилагательными вяленый, острый, пряный, копченый, консервированный, свиной, мучной, жирный (“и/или”) и в роли определений при существительных орешек, гриб, пища, рыба, арахис (“существительное с %w в роли определения”).

Горький и печальный, имея несколько пересечений в коллокационных группах, становятся синонимами в неосновном значении, где горький получает метафорический перенос: горький (печальный) опыт, горькая (печальная) судьба, горькая (печальная) участь.

Сложнее всего определяются отношения орех-перец, которые, однако, имеют ряд общих коллокаций, тематически связанных с приготовлением пищи, например: гриб, имбирь, чеснок (“и/или”), класть, добавляться (“глагол с %w в роли подлежащего”), смешивать, обжаривать, добавлять (“глаголы с %w в роли дополнения в винительном падеже”), обсыпать, посыпать (“глаголы с %w в роли дополнения в творительном падеже”) и др. Поэтому есть предположение, что в рамках этой тематической группы орех и перец имеют экстралингвистческую близость.

Таблица 5 - “Неочевидные” пары похожих слов

Слово	ЧР	ПС1	Объяснение
Подмести	ГЛ	забетонировать	малочастотные слова и коллокаты
Стоить	ГЛ	стоять	ошибка в лемматизации
Уступать	ГЛ	соответствовать	квазиантонимы / аналоги
Сегодня	НАР	уже	схожие контексты (квазисинонимы)
Добрый	ПРИЛ	умный	далекие аналоги
Соленый	ПРИЛ	жареный	когипонимы
Горький	ПРИЛ	печальный	синонимы (горький - метаф.)
Орех	СУЩ	перец	экстралингвистическая близость

Исходя из этого анализа, получаем важное методическое замечание по использованию функции “Похожие слова” в образовательных целях. Нельзя воспринимать “Похожие слова” как однозначную альтернативу словарю синонимов для студентов РКИ, тем более, что в список похожих слов могут попадать также антонимы, гипонимы и гиперонимы, меронимы, конверсивы - в зависимости от самих слов. При обращении к этой функции в образовательных целях требуются спецификации задания. Но зато “Похожие слова” дают материал для профессионального исследователя, интересующегося вопросами всех возможных парадигматических отношений при общности контекстов и синтагматических свойств в парах. Можно говорить, что “Похожие слова” в RuSkELL очень разнообразны в плане отношений, связывающих их с запросом, и, благодаря скетч-грамматике, не всегда очевидны и актуализируют дополнительные семантические отношения.

4.2 Похожие слова: возможности анализа

Для понимания работы распределения похожих слов в RuSkELL сначала логичнее всего было рассмотреть выдачу по предметным существительным, образующих гиперогипонимические группы в русском языке и с наибольшей вероятностью связанных семантически в контекстах.

Первый пример касается лексико-семантической группы “плоды”, а в частности - “фрукт” (Таблица 6). Считается, что традиционно наилучшим прототипическим примером, типичным представителем (Лакофф 2011, Wikipedia contributors 2017), категории фрукт в каждой культуре выступает свой фрукт, в русской - яблоко, который является и гипонимом. И изначальное предложение состояло в том, что в топовых похожих словах окажутся яблоко, апельсин, банан. Однако ближайшим аналогом оказался гипероним другой группы - овощ (что справедливо и в противоположном случае), вместе с которыми фрукт входит в семантическое поле “плоды” (лексико-семантический класс “растения”). Связь же с гипонимами оказалось не столь сильный - из 10 похожих слов только два яблоко и банан, а остальные объединены с запросом семой “предназначенный для употребления в пищу” (таксономический класс “еда и напитки”).

Таблица 6 - Похожие слова по гиперогипонимической группе “фрукты”

Фрукт

Яблоко

Апельсин

Лимон

Мандарин

Овощ

Яблоко

Ягода

Сыр

Орех

Картофель

Гриб

Банан

Шоколад

Помидор

Фрукт

Помидор

Орех

Ягода

Овощ

Огурец

Банан

Апельсин

Картофель

Морковь

Лимон

Мандарин

Персик

Грейпфрут

Банан

Ананас

Абрикос

Клубника

Груша

Арбуз

Апельсин

Мандарин

Имбирь

Мята

Перец

Грейпфрут

Персик

Петрушка

Чеснок

Помидор

Грейпфрут

Апельсин

Бергамот

Персик

Лимон

Абрикос

Лаванда

Ваниль

Жасмин

Сандал

Фрукт

Картофель

Мясо

Гриб

Капуста

Помидор

Лук

Сыр

Рис

Огурец

В отношении же конкретных видов фруктов, на мой взгляд, RuSkELL отражает картину наивного носителя: яблоко принимает в похожие слова гипероним, два самых популярных когипонима (банан и апельсин), а остальные - названия плодов из класса “растения”. В это же время для апельсина ближе оказываются другие цитрусовые фрукты (что работает и для тезаурусов лимона и мандарина) и другие фрукты, которые наивный носитель с разной степенью уверенности может отнести к группе экзотических (т.е. неместных) фруктов. Кроме того, анализ оставшихся за пределами описания фруктов (персик, груша, банан) и некоторых ягод, которые часто принимают за фрукты (ананас, арбуз, дыня), показывает, что яблоко не присутствует ни в одном топ-10. Что говорит о том, что семантически яблоко ближе к гиперониму фрукт, но оказывается дальше от группы экзотических фруктов (банан, персик, апельсин), а те в свою очередь выделяют семантически крепко связанную подгруппу цитрусовых (мандарин, апельсин, лимон, грейпфрут). То есть яблоко оказывается самым типичным фруктом при том, что остается в большой изоляции от остальных примеров фруктов.

При этом остальные можно предположить, что в каждом частном случае фрукты схожи с не-фруктами по признакам: яблоко - типичный фрукт и другой типичный плод/типичный вид еды, апельсин - экзотический (тропический) фрукт и другие экзотические плоды, лимон - использование в качестве добавления к еде для изменения вкуса, а не отдельный продукт (как и имбирь, мята, перец, петрушка, чеснок), мандарин - растение с ярко выраженными запахом и растение или вещество с ярким ароматом (бергамот, лаванда, ваниль, жасмин, сандал). Именно эти функциональные интегральные признаки могли стать основой для общих контекстов и, следовательно, семантической близости.

Другой интересной задачей было проанализровать результаты выдачи RuSkELL по обсуждавшейся ранее в литературе (Иомдин 2015) тематической группе орехи.

Были взяты только те орехи, которые в результате анализа Б.Л. Иомдина были признаны таковыми (Таблица 7).

Таблица 7 - Орехи

Орех

Фундук

Кешью

Арахис

Миндаль

Фисташка

Перец

Чеснок

Фрукт

Ягода

Яблоко

Лимон

Морковь

Апельсин

Помидор

Банан

Фисташка

Арахис

Урюк

Финик

Миндаль

Цитрусовый

Курага

Грецкий

Инжир

Пекан

Грецкий

Пекан

Фисташка

Фундком

Фундук

Фундуке

Сардинах

Гречей

Моцареллой

Баклажаном

Финик

Миндаль

Дыня

Фундук

Кунжут

Сухофрукты

Инжир

Соя

Шпинат

Чечевица

Изюм

Корица

Клубника

Абрикос

Арахис

Персик

Имбирь

Орех

Ваниль

Кунжут

Фундук

Кешью

Арахис

Миндаль

Финик

Курага

Кунжут

Цитрусовый

Инжир

Цукат

Только миндаль из всех видов орехов имеет достаточный ворд-скетч, остальные имеют очень мало коллокаций, и в этом кроется причина, почему нет пересечения контекстов с гиперонимом орех (та же ситуация была и с фруктами). Хотя во всех выдачах, кроме выдачи кешью, орех присутствует как коллокат в группе “и/или”. Причем в контекстах с арахисом и фисташкой оказываются как примеры с коллокатом орех в составе лексической единицы вроде: Обычно это грецкие орехи или фисташки, - так и примеры, где арахис и фисташка находятся в одном ряду или противопоставляются орехам как отдельные элементы:

(11) Также полезен хлеб с высоким содержанием злаков, орехи и арахис.

(12) Украсить дробленым миндалем, орехами или фисташками.

Получается, своеобразная шкала “отдаленности” орехов от определяющего категорию гиперонима: орех < миндаль < фундук < арахис/фисташка < кешью. Однако опять нужно принимать во внимание, что на такое распределение повлияли синтагматические особенности слов и схожие контексты (миндаль имеет большее количество сходных коллокаций со словом орех, чем другие), а также частотность появления каждого слова в корпусе (например, ср. орех freq = 23286, миндаль freq = 3733 и фисташка freq = 689). При этом миндаль становится своеобразным соединяющим звеном для всех орехов, попадая в группу “и/или” как общий коллокат для пар орех-фундук, орех-арахис, орех-фисташка, орех-кешью, фундук-арахис, фундук-кешью и т.д. Вероятно, на это влияет частотность появления миндаля в корпусе - “пограничная” частотность (freq = 3733) между орехом (максимальная частотность в группе) и другими видами орехов (freq = менее 1000) позволяет вступать в грамматические отношения со всеми представителями.

Касательно гиперонимов предметных существительных, вроде фрукта или ореха и ряда других, оставленных за пределами работы, можно сделать следующий вывод: в топовых похожих словах гиперонимы с большей частотой получают список других гиперонимов или слов, объединенных с гиперонимом в более крупное лексико-семантическое единство.

Другой вопрос касается глаголов-конверсивов, которые, организовывая перифрастические ряды, остаются ситуативно разнозначными друг другу (Апресян 1995) и, соответственно, семантически близкими. Но в результате того, что список похожих слов строится не только с учетом семантики, но и с учетом сочетаемостной способности слов, встал вопрос - какое место в списке займут конверсивы, не уйдут ли они вниз списка из-за разных грамматических отношений? Например, пары выиграть-проиграть предположительно могли бы получить меньшее количество общих коллокации, так как для выиграть более частотнотные контексты попадут в группу “ предлог у после %w” (выиграть у соперника), а для проиграть - “ дополнение в дательном падеже при %w” (проиграть конкуренту).

Как показывает анализ (Таблица 8), конверсивы остаются на первых местах, уступая только видовым кореллятам и близким антонимам-синонимам.

Таблица 8 - Пары конверсивов и их выдача похожих слов

Продать

Купить

Строить

Строиться

Спросить

Ответить

Продавать

Приобрести

Покупать

Отдать

Купить

Предоставить

Передать

Сдать

Забрать

Выдать

Покупать

Приобретать

Продавать

Заказывать

Брать

Взять

Приобрести

Выбирать

Найти

Предлагать

Страивать

Построить

Строиться

Создать

Выстраивать

Возводить

Формировать

Открыть

Посещать

Рассматривать

Строить

Базироваться

Основываться

Создаваться

Формироваться

Рассматриваться

Построить

Делаться

Вестись

Функционировать

Спрашивать

Ответить

Произнести

Заметить

Попросить

Улыбнуться

Поинтересоваться

Подумать

Кивнуть

Сказать

Спросить

Произнести

Отвечать

Заметить

Улыбнуться

Кивнуть

Заявить

Объяснить

Понять

Решить

В целом же “Похожие слова” для глаголов формируют списки похожих слов, таким образом, что на первом месте оказывается видовой коррелят или антоним (например, начать - начинать и повышать - снижать), реже - (квази)синоним (острить - ерничать) с определенными сдвигами в семантике (быть бытийная сфера - стать начало существования).

Но в некоторых случаях объяснением для самой близкой пары становятся практически исключительно совпадающие коллокации, например, в случае пары жадничать-скромничать. Жадничать в целом низкочастотный глагол (freq = 524 (0.42 per million)) и не имеет ворд-скетча на RuSkELL, но после корректировки настроек показывает тезаурус на ruskell 1.3. И этот ворд-скетч имеет 4 коллокации, пересекающиеся с коллокациями глагола скромничать - максимальное число по всему списку похожих слов: уж, стать, стоить, хватить. И здесь уже видна общая семантика и контексты пересечения коллокаций: для скромничать, так же как и для жадничать, характерно употребление в контексте с хватит (хватит жадничать, хватит скромничать) и в отрицательных контекстах, вроде не стоит жадничать и не стоит скромничать (Крылова 2003).

Можно было бы ожидать в пару глагол скупиться, который так же имеет 4 общие коллокации (по данным Sketch diff), но в этом случае глаголы жадничать и скупиться имеют слишком большой разрыв в частотности употребления коллокаций и в индивидуальных частотностях.

В отношении прилагательных выдача похожих слов RuSkELL достаточно однородна, и каждое слово в списке имеет семантически близкий (с разной дистанцией) признак. Достаточно очевидна выдача по относительным прилагательным, сочетающимся с предметными существительными. Качественные прилагательные, особенно те, которые сочетаются с непредметными существительными, имеют гораздо более сложный список похожих слов, в который часто могут входить прилагательные, не столько находящиеся в парадигматических отношениях или разделяющих общий интегральный признак, а определяющихся по сочетаемостным характеристикам. Такие прилагательные нередко стоят с запросом в коллокациях группы “и/или”.

Таблица 9 демонстрирует требующий комментария результат. До анализа выдачи предполагалось, что круглый и острый, которые в первых своих значениях относятся к физическим характеристикам предметных имен, получат однозначно разделяемые на лексико-семантические группы тезаурусы, в отличие от прилагательных вечный и умный. Однако судя по выдаче по прилагательному острый, можно сказать, что у него происходит сдвиг значения, который отражается на семантике: это уже не характеристика формы предмета, а его интенсивности или качества (острое/тяжелое заболевание и острый/резкая боль).

Страница:

дипломная работа "Ruskell: теория и практика" скачать

Подобные документы

Использование инновационных технологий в изучении иноязычной грамматики
Рассмотрение особенностей изучения грамматики в современных условиях в средней школе. Анализ сущности информационных технологий, их роли в учебном процессе, влияния на мотивацию обучения. Применение Интернет-ресурсов на уроках английского языка.

дипломная работа [249,5 K], добавлен 26.04.2015
Морфология как раздел грамматики
Понятие морфологии как науки и раздела грамматики, изучающей слово, его принадлежность к определенной части речи, структуру, формы изменения, способы выражения грамматических значений. Особенности семантического строя языка, правила изменения слов.

реферат [61,5 K], добавлен 09.12.2014
Роль предлога в конструкции вынужденного движения в английском и русском языке в аспекте грамматики
Место грамматики конструкций в научной лингвистике. Грамматика конструкций: истоки и теоретическое обоснование. Грамматика Ч. Филлмора и А. Голдберга. Сопоставительный анализ предлогов в конструкциях вынужденного движения в русском и английском языках.

дипломная работа [161,2 K], добавлен 30.10.2008
Философский и психолингвистический взгляд на проблемы языка и речи и на проблемы создания активной и пассивной грамматики
Активная и пассивная грамматика: философский и психологический подходы. Построение активной грамматики по принципу "от содержания к форме", пассивной - "от формы к содержанию". Языковое "предложение", его роль в разработке активной и пассивной грамматики.

реферат [22,9 K], добавлен 06.02.2011
Языки и грамматики Хомского
Сущность и цель лингвистической теории по Хомскому. История развития генеративной (порождающей) грамматики Хомского. Этапы существования генеративизма. Представление о конечном наборе правил (приемов), порождающих все правильные предложения языка.

реферат [151,0 K], добавлен 22.10.2011
Диалектная картина мира в зарубежных и русских исследованиях исторической диалектологии и исторической грамматики
Изучение диалекта как уникального гносеологического и культурного феномена. Определение универсальных составляющих исторической диалектологии и исторической грамматики. Создание модели обучения родному языку на основе концепции диалектной картины мира.

реферат [23,9 K], добавлен 29.08.2011
Грамматика "Пор-Рояля" и "Российская грамматика" М.В. Ломоносова
Исследование истории возникновения и содержания грамматики "Пор-Рояля" как первого фундаментального грамматического сочинения, относимого к универсальным грамматикам. Изучение основных положений и оценка значения "Российской грамматики" М.В. Ломоносова.

презентация [2,1 M], добавлен 29.04.2012
Универсальные грамматики нового времени. Грамматика Пор-Рояля
Особенности языковой ситуации в позднесредневековой Европе. Дедуктивный и индуктивный пути развития языкознания в XVII в. Содержание "Грамматики Пор-Рояля". Возникновение логико-менталистического и философско-психологического течений развития лингвистики.

курсовая работа [56,7 K], добавлен 13.10.2010
Грамматика английского языка
Изучение грамматики английского языка путем выполнения специальных заданий. Пути пополнения личного словарного запаса. Особенности использования специальной литературой для изучения грамматики английского языка. Написание топика на тему "Family".

контрольная работа [30,6 K], добавлен 05.10.2012
Правильность речи: нормы ударения и грамматики
Правильность речи как фундамент языковой культуры. Виды языковых норм, их сущностная характеристика. Словообразовательные, морфологические и синтаксические нормы грамматики. Фонетическая природа русского словесного ударения, его характерные признаки.

реферат [22,5 K], добавлен 10.12.2014

Другие документы, подобные "Ruskell: теория и практика"

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.