Стратегии релятивизации в русском языке
Моделирование выбора стратегии релятивизации подлежащего в русском языке. Построение дерева решений и мультиномиальной модели. Синтаксическая роль вершины в главной клаузе. Статистическая значимость факторов, влияющих на выбор стратегии релятивизации.
Рубрика | Иностранные языки и языкознание |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 02.09.2016 |
Размер файла | 507,0 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Оглавление
- Введение
- 1. Данные и предикторы
- 2. Построение и анализ моделей
- 2.1 Дерево решений
- 2.2 Мультиномиальная регрессия
- Заключение
- Список литературы
- Приложения
Введение
В этой работе на корпусном материале рассматривается конкуренция трёх стратегий релятивизации подлежащего в русском языке -- относительного придаточного предложения с местоимением который (1), причастного оборота в препозиции относительно вершины (2) и причастного оборота в постпозиции (3):
(1)Друзяев кивнул на Ширейко, который слушал внимательно, со строгим лицом. [Юрий Трифонов. Дом на набережной (1976)]
(2)Слушающий хорошую музыку человек не может оказаться плохим товарищем.
(3)Он оглянулся на седого мужика, молча слушавшего разговор, и сказал […] [Василий Гроссман. Все течет (1955-1963) // «Октябрь», 1989]
Под релятивизацией понимают формирование относительной конструкции, а различные способы её формирования называют стратегиями релятивизации (Comrie, Kuteva 2013). При этом в данной работе мы следуем определению относительной конструкции, данному в (Ландер 2012): будем считать, что относительная конструкция состоит из двух (или более) предикаций: главной (т.н. матричной) и относительной (релятива), “в той или иной мере подчиненной по отношению к первой”; при этом релятив описывает ситуацию, затрагивающую одного из участников (партиципанта) ситуации, описанной в главной предикации.
Принято считать, что причастный оборот функционально эквивалентен относительному придаточному предложению с местоимением который в том смысле, что это две различные стратегии релятивизации в русском языке (Никунласси 2008: 12).
Под вершиной относительной конструкции мы будем понимать синтаксическую вершину именной группы, образуемой относительной конструкцией. Синтаксическую роль партиципанта в зависимой предикации называют мишенью релятивизации.
Так, в примерах (4)-(5) мы будем называть вершиной системы; бесконечные же будем называть зависимым вершины слева, уравнений -- зависимым вершины справа; мишенью релятивизации является подлежащее зависимой предикации:
(4)Выведены бесконечные системы уравнений, описывающие эти конфигурации. [М. А. Зеликман. Линейные вихри в трехмерной упорядоченной джозефсоновской среде // «Журнал технической физики», 2005]
(5)Выведены бесконечные системы уравнений, которые описывают эти конфигурации.
В настоящее время имеется некоторое количество исследований различных стратегий релятивизации в русском языке с опорой на корпусные данные. В работе (Лютикова 2009) анализируются ограничения, связанные с функционированием конструкций с который. В статье (Янович, Грунтова 2007) описываются ограничения, определяющие выбор между местоимениями кто (что, там, тогда, где, когда) и который. В исследовании (Русакова, Сай 2009) рассматривается конкуренция причастий настоящего и прошедшего времени. Самыми близкими к нашему исследованию можно считать работы М. А. Холодиловой (Холодилова 2010), (Холодилова 2011), (Холодилова 2014), где выдвинуты гипотезы о влиянии на выбор стратегии релятивизации субъекта (Холодилова 2014), посессора (Холодилова 2010) и объекта (Холодилова 2011) таких факторов, как тип текста, падеж вершины, длина конструкции и её позиция в предложении, количество зависимых и т.д. В (Холодилова 2014), в частности, делается вывод, что «[в]ыбор стратегии релятивизации с местоимением которыи? коррелирует со следующими свои?ствами относительнои? клаузы..: нерестриктивность, бомльшая длина клаузы, большее количество (непосредственных) зависимых у глагола в относительнои? клаузе, наличие у глагола зависимых клаузального типа, в особенности деепричастных оборотов, наличие при глаголе отрицательнои? частицы, сочинение глаголов».
В работах М. А. Холодиловой оценивается статистическая значимость факторов, влияющих на выбор стратегии релятивизации. Однако задача количественной оценки степени влияния тех или иных факторов на выбор стратегии релятивизации в русском (в отличие от, например, английского) до сих пор не ставилась.
Эта работа -- попытка построить такую математическую модель, которая бы позволила сделать выводы, например, о том, насколько уменьшается вероятность причастной стратегии при увеличении длины зависимой предикации на одно слово.
Наша рабочая гипотеза состояла в том, что выбор стратегии релятивизации не является случайным и детерминирован внутриязыковыми факторами (такими как поверхностные признаки конструкции, грамматические характеристики её составляющих и пр.). В данной работе мы не рассматриваем зависимость выбора стратегии релятивизации от каких бы то ни было социолингвистических параметров, а также ограничиваем выборку примерами из письменных произведений современного (с 1950 г.) русского языка различных жанров (НКРЯ).
Для количественной оценки влияния факторов на выбор стратегии релятивизации мы используем различные статистические модели из библиотек partykit (Hothorn, Zeileis 2014), nnet (Ripley, Venables 2015) и VGAM (Yee 2010) языка R (R Development Core Team 2008). Статистические модели часто используются в социологических и психолингвистических исследованиях, посвящённых вариативности языковых единиц (см. обзоры в (Tagliamonte, Baayen 2012), (Levshina 2015), (Bresnan, Ford 2010), (Paolillo 2002)). С появлением новых методов и их реализаций сперва в виде специальных программ (Varbrul (Cedergren, Sankoff 1974), Goldvarb (Sankoff, Tagliamonte, Smith 2005), а затем в виде библиотек (например, Rbrul (Johnson 2009)) универсального для статистических исследований языка R применение статистических методов для моделирования вариативности стало повсеместной практикой. Структура нашей работы следующая. В разделе 2 мы описываем данные и предикторы, с помощью которых моделируем выбор стратегии. В разделе 3 мы кратко описываем выбранные математические методы и приводим полученные результаты. Последним разделом стало заключение.
1. Данные и предикторы
Для анализа мы использовали материал основного подкорпуса НКРЯ, ограничив поиск по произведениям, созданным после 1950 г., дабы избежать устаревших форм.
Мы не включали в выборку примеры, в которых альтернативная стратегия крайне маловероятна (об ограничениях см. (Холодилова 2014), (Русакова, Сай 2009)): в противном случае для адекватности математической модели мы должны были бы ввести довольно много дополнительных предикторов, характеризующих сработавшие в примерах ограничения.
Так, мы рассматривали примеры лишь с глагольной формой в изъявительном наклонении. В выборку не вошли:
· конструкции без существительного в вершине (6)-(7),
· примеры с глагольной формой будущего времени (8)-(9), а также с глаголами, причастные формы которых хотя и возможны, но редки в употреблении (10),
· случаи с «расщепленным» антецедентом (11) из-за сложностей, связанных с определением характеристик синтаксической вершины.
(6)В ближайшее время власти обещают проверить их состояние и ликвидировать те, которые обветшали. [Жизнь москвичей в вопросах и ответах (2001) // «Аргументы и факты», 2001.04.04],
(7)Хотел бы сердечно поздравить всех присутствующих с Днём Африки […] [С. В. Лавров. Выступление на приеме в честь празднования Дня Африки // «Дипломатический вестник», 2004]
(8)Например, студент затребовал учебное пособие, с которым проработает несколько часов. [А. Б. Барский. Применение SPMD-технологии при построении сетевых баз данных с циркулирующей информацией // «Информационные технологии», 2004]
(9)Венеция Ї город-мечта: великолепные дворцы, перламутровые церкви, разряжённые соборы, отражающиеся в зеркале каналов, Ї всё это кажется миражом, вот-вот растворящимся в воздухе. [Итальянское каприччио для путешественников (2000) // «Туризм и образование», 2000.06.15]
(10)Например, как быть вузу, который может зарабатывать деньги за счёт дополнительных услуг? [Оксана Карпова. Александр Починок: Концепция льготного государства бессмысленна (2003) // «Время МН», 2003.07.31]
(11)Антилопу и зебру, которые самостоятельно выбрались из воды, перевезли на вертолёте.
Изначально примеры набирались двумя разметчиками в равном количестве по уровням «сложности» текстов (см. ниже) и стратегии релятивизации (rel = который, part_pre = причастие в препозиции, part_post = причастие в постпозиции). При этом уровень сложности текста определялся по согласию между разметчиками с опорой на сферу функционирования текста. Всего было определено четыре уровня сложности:
1. «простыми» мы называли тексты, сфера функционирования которых размечена в корпусе как обиходно-бытовая или как электронная коммуникация (форумы, рецепты, блоги);
2. к категории «пресса» мы относили примеры из газет и журналов (сфера функционирования -- публицистика) за исключением узкоспециализированных журналов;
3. высокой мы признавали сложность текстов официально-деловой и учебно-научной литературы;
4. примеры из художественной литературы составили отдельную группу.
Затем набранные примеры размечались по параметрам, представленными в Таблице 1.
язык релятивизация предиктор синтаксический
Таблица 1. Предикторы и их значения
Предиктор |
Возможные значения |
|
Число вершины |
sg, mass |
|
Одушевлённость вершины |
animate, inanimate |
|
Синтаксическая роль вершины |
s, a, poss, o, pred, dat, pp |
|
Квантор перед вершиной |
каждый, любой, все, n=none |
|
Указатель перед вершиной |
тот, этот, такой, вот, n=none |
|
Количество других зависимых вершины слева от неё |
неотрицательное целое число |
|
Количество других зависимых вершины справа от неё |
неотрицательное целое число |
|
Количество других относительных конструкций с той же вершиной |
неотрицательное целое число |
|
Длина зависимой клаузы в словах |
неотрицательное целое число |
|
Референциальный статус вершины |
ref, nonref, name |
|
Вид глагола в зависимой клаузе |
perfect, imperfect |
|
Время глагола в зависимой клаузе |
present, past |
|
Залог глагола в зависимой клаузе |
active, passive |
|
Наличие отрицания в главной клаузе |
positive, negative |
|
Наличие отрицания в зависимой клаузе |
positive, negative |
|
Вопросительное ли предложение? |
yes, no |
Ниже мы разберём значения предикторов и опишем основные принципы, которыми мы руководствовались при разметке данных.
Значение числа вершины sg обозначает единственное число существительных, которые могут образовывать множественное число без изменения лексического значения (12). Значение pl указывает на множественное число, в том числе pluralia tantum (данные) (13). Помета mass использовалась для обозначения собирательных (молодёжь) и вещественных (воздух) существительных, а также существительных «с отвлеченным значением» (по (Шведова 1980)) (совесть), объединяющим признаком которых является либо несуществование формы множественного числа, либо изменение лексического значения при переходе от единственного числа ко множественному (снег) (14).
(12)Генка сидел у костра, обхвативши за шею овцу, которая бессмысленно пялилась в огонь. [Юрий Коваль. Гроза над картофельным полем (1974)]
(13)[…] Ї крикнул я желто-синим трусикам, бабочкой мелькавшим в орешнике. [Ю. М. Нагибин. Эхо (1960-1964)]
(14)[…] как тяжело прижимает их к спинам кресел воздух, который всегда казался невесомым, как тяжелеет голова, а руки кажутся многопудовыми Ї это вновь появилась тяжесть. [Марк Сергеев. Волшебная галоша, или Необыкновенные приключения Вадима Смирнова, его лучшего друга Паши Кашкина и 33 невидимок из 117-й школы (1971)]
Всего было набрано 500 примеров, включающих все значения числа. Однако впоследствии оказалось, что часть выборки, соответствующая стратегии с относительным местоимением, сильно «перекошена» в сторону единственного числа, поэтому после удаления примеров с вершиной во множественном числе из подмножества выборки, соответствующего причастной стратегии, таблица сопряжённости по параметрам “сложность текста -- стратегия” стала выглядеть как в Таблице 2.
Таблица 2. Итоговая таблица сопряжённости по параметрам “сложность текста -- стратегия”
strategy |
|||||
genre |
part_post |
part_pre |
rel |
total |
|
difficult |
22 |
4 |
60 |
86 |
|
fiction |
18 |
23 |
62 |
103 |
|
press |
22 |
17 |
61 |
100 |
|
simple |
28 |
11 |
60 |
99 |
|
total |
90 |
55 |
243 |
388 |
Таким образом, представленная ниже модель не описывает примеры с вершиной во множественном числе.
Одушевлённость вершины мы определяли, сравнивая формы генитива и аккузатива множественного числа (для одушевлённых формы совпадают, в отличие от неодушевлённых).
Таблица 3. Одушевлённость вершины относительной конструкции
anim |
inan |
||
part_post |
36 |
54 |
|
part_pre |
13 |
42 |
|
rel |
92 |
151 |
Рис. 1. Одушевлённость вершины при различных стратегиях релятивизации
В наших данных одушевлённость вершины больше характерна для постпозитивных стратегий (Animrel > Animpre, Animpost > Animpre), хотя этот результат может быть обусловлен малым объёмом выборки.
Наличие квантора или указательного местоимения. При наличии одного из слов каждый, любой, все при вершине записывалась его лемма, в противном случае мы ставили помету none. Указательное местоимения перед вершиной (тот, этот, такой) фиксировались аналогично.
Эти два предиктора не были включены в модель из-за недостаточного количества данных (см. Таблицу 4): иначе полное и почти полное разделение выборки (complete separation) ведёт к переобучению модели.
Таблица 4. Указательное местоимение перед вершиной
strategy |
такой |
тот |
этот |
|
part_post |
1 |
0 |
1 |
|
part_pre |
0 |
0 |
1 |
|
rel |
6 |
11 |
5 |
Синтаксическая роль вершины в главной клаузе выбиралась из следующих вариантов:
· s -- субъект при одноместном глаголе (15),
· a -- субъект при двухместном глаголе (16),
· poss -- приименный посессор (17),
· o -- прямое дополнение (18),
· pred -- именная часть предикации в предложениях с нулевой связкой (19) (конструкции «Y -- X» и «Y был X-ом») и в конструкциях «это (был) X» (20), а также «называть Y X-ом» (21), «сделать Y X-ом» (22), «казаться Y-у X-ом»;
· dat -- непрямое дополнение без предлога, выраженное дательным или творительным падежами (23),
· pp -- зависимое предлога (25), а также объект сравнения в конструкциях с как (26).
(15)Знаете, первое впечатление, которое складывается о колледже Brooke House, Ї это повсеместно дружелюбное отношение. [История успеха (2002) // «Домовой», 2002.04.04]
(16)И тишину нарушал только хохот, который нёсся откуда-то с подоконников, с совершенно пустых Ї в этом он был убежден! Ї подоконников… [Марк Сергеев. Волшебная галоша, или Необыкновенные приключения Вадима Смирнова, его лучшего друга Паши Кашкина и 33 невидимок из 117-й школы (1971)]
(17)Хотя Т. Фадеева ссылается на мемуары некоего путешественника, который отмечает, что встречаются в Готии целые замки, люди в которых говорят на готском языке. [коллективный. Форум: Римские дороги (2008)]
(18)Этого темнокожего американца, который только призовыми за спортивную карьеру заработал около 70 миллионов долларов, знают во всём мире. [Николай Зуев. Девчонки, которых клюшки не пугают (2002) // «100% здоровья», 2002.11.11]
(19)Вы Ї первый врач, который не сваливает всю вину на меня! [Из коллекции Юрия Дейнекина (2004) // Интернет-альманах «Лебедь», 2004.01.04]
(20)Говорили, что это очень злая картофельная собака, которая всех терзает, а тут я её вдруг глажу. [Юрий Коваль. Картофельная собака (1972)]
(21)Назовём M (H) модель теории T (H) структурным конструкторским решением, которое представляет собой древовидную структуру. [И. А. Барков. Автоматический синтез структурного описания конструкции // «Информационные технологии», 2004]
(22)"В этом году мы потратили много усилий на то, чтобы вместе сделать Volari XP 5 решением, которое отвечало бы потребностям заказчиков как Transmeta, так и XGI, Їотметил вице-президент XGI по маркетингу Роберт Фанг. [Вячеслав Соболев. Есть ли шансы у XGI // «Computerworld», 2004]
(23)Однако сколько времени уйдёт на это, и каких усилий может это стоить ИТ-отделу, не имеющему реального опыта подобных проектов? [Наталья Дубова. Вокруг ITsM // «Computerworld», 2004]
(24)Стеклянную трубку покрывают особым составом Ї люминофором, который светится под влиянием электричества. [Приручение света // «Трамвай», 1990]
(25)Волнение не покидало меня ни во время полёта, ни в такси, которое пришло за мной в аэропорт, чтобы отвезти в колледж. [История успеха (2002) // «Домовой», 2002.04.04]
(26)Как сыщик, который старается напасть на след, изучила пол у порога, напала на след и отправилась к столу. [Юрий Коваль. Белозубка (1979)]
Полученное распределение синтаксических ролей представлено в Таблице 5.
Таблица 5. Синтаксическая роль вершины
a |
dat |
o |
poss |
pp |
pred |
s |
total |
||
part_post |
16 |
5 |
18 |
6 |
16 |
11 |
18 |
90 |
|
part_pre |
10 |
0 |
12 |
11 |
14 |
0 |
8 |
55 |
|
rel |
17 |
9 |
45 |
21 |
74 |
30 |
47 |
243 |
|
388 |
Из-за малого объёма выборки в ней не оказалось примеров на dat и pred в причастных конструкциях в препозиции; все последующие выводы по той же причине можно считать лишь предположениями.
На диаграмме (Рис. 2) представлены эти значения, нормированные по стратегиям, т.к. классы эти сильно несбалансированны.
Рис. 2. Синтаксическая роль вершины. Данные на диаграмме нормированы по стратегиям
В этих данных для стратегии с который наиболее типична вершина -- зависимое предлога (PPrel > Srel > Predrel, попарное сравнение статистически значимо), причём роль pp более характерна для стратегии с который, чем для причастия в постпозиции (PPrel > PPpart_post, статистически значимо); для постпозитивных причастных оборотов (максимальные) равные доли имеют пропорции s и o, однако различие этих пропорций от пропорций pp и a статистически незначимо.
«Поверхностные» признаки
При подсчёте числа зависимых вершины, находящихся слева или справа, а также при определении длины релятива в словах, мы придерживались следующих принципов: слова считали преимущественно по пробелам (за исключением указанных ниже случаев), предлоги и частицы считали за отдельные слова, слова, написанные через дефис, считали за одно, имена собственные (в т.ч. в кавычках), аббревиатуры, единицы измерения, составные числительные считали за одно слово. Устойчивые выражения вроде учебное пособие мы считали за два слова.
При подсчёте зависимых вершины релятив мы не считали; кванторы и указатели в это число вошли. При подсчёте длины релятива вершину не учитывали, местоимение который считали.
Рассмотрим, например, (27).
(27) […] создавать барьеры для сохранения акватории как целостного хозяйственного и природного комплекса, используемого в интересах двух стран. [Ответы официального представителя МИД России на вопросы российских СМИ в связи с совместным заседанием коллегий МИД России и Украины // «Дипломатический вестник», 2004]
Здесь имеется три зависимых слева от вершины комплекса: целостного, хозяйственного, природного, нет зависимых справа (кроме причастного оборота), длина причастного оборота составляет пять слов.
Распределения «поверхностных» признаков представлены в Таблицах 6-7 и на Рис. 3-5.
Таблица 6. Распределения числа зависимых вершины слева и справа при разных стратегиях релятивизации
left_siblings |
right_siblings |
||||||||||
left_siblings |
0 |
1 |
2 |
3 |
total |
0 |
1 |
2 |
3 |
total |
|
part_post |
44 |
36 |
9 |
1 |
90 |
64 |
22 |
3 |
1 |
90 |
|
part_pre |
35 |
14 |
5 |
1 |
55 |
43 |
11 |
0 |
1 |
55 |
|
rel |
121 |
91 |
24 |
7 |
243 |
209 |
29 |
4 |
1 |
243 |
Таблица 7. Количество других релятивов с той же вершиной
relat_siblings |
part_post |
part_pre |
rel |
|
0 |
77 |
52 |
237 |
|
1 |
10 |
3 |
6 |
|
2 |
3 |
0 |
0 |
Рис. 3. Доверительные интервалы среднего количества зависимых вершины слева. Стратегии обозначены следующим образом: 1.0=part_post, 2.0=part_pre, 3.0=rel)
Рис. 4. Доверительные интервалы среднего количества зависимых вершины справа. Стратегии обозначены следующим образом: 1.0=part_post, 2.0=part_pre, 3.0=rel)
Рис. 5. Доверительные интервалы среднего количества релятивов с той же вершиной. Стратегии обозначены следующим образом: 1.0=part_post, 2.0=part_pre, 3.0=rel)
Статистически значимым различие по этим диаграммам (нет пересечения доверительных интервалов) можно считать лишь по признаку relat_siblings (количество других релятивов с той же вершиной) для стратегий, связанных с причастием в постпозиции и релятивом с который, и, быть может, различие по количеству других релятивов с той же вершиной для той же пары стратегий. Остальные выводы могут быть случайными совпадениями:
· среднее число зависимых вершины слева для стратегий причастия в постпозиции и с который примерно равны и немногим больше, чем для причастия в препозиции;
· среднее количество зависимых у вершины справа максимально для постпозитивных причастных оборотов, немного меньше для причастий в препозиции и наименьшее для стратегии с который;
· среднее число других релятивов с той же вершиной для причастий в препозиции и зависимых с который примерно одинаково и меньше, чем для причастий в постпозиции.
Таблица 8. Параметры длины релятива для разных стратегий: среднее (MEAN), стандартное отклонение (SD), минимальное значение (MIN), максимальное значение (MAX)
strategy |
length.MEAN |
length.SD |
length.MIN |
length.MAX |
|
part_post |
6,47 |
4,57 |
1 |
26 |
|
part_pre |
2,02 |
1,35 |
1 |
7 |
|
rel |
8,56 |
4,96 |
3 |
32 |
По распределениям длин зависимой клаузы видно (Таблица 8, Рис. 6), что релятивы с местоимением который характеризуются большей длиной, чем причастные обороты, а зависимые предикации в препозиции короче постпозитивных. Мы ещё вернёмся к этому вопросу при обсуждении построенных моделей.
Рис 6. Распределение длины релятива в словах. Местоимение который в это число входит.
Референциальный статус вершины обозначен максимально общо: референтный (28), нереферентный (29) (Падучева 1985) или «имя» (для имён собственных) (30).
(28)Это что, кожа старой свиньи, грубо выделанная, та самая, из которой шили железные сапоги, что так мне в армии и не достались? [Булат Окуджава. Искусство кройки и житья (1985)]
(29)Каким образом в сознании ребёнка Ї ещё до способности его к членораздельной речи Ї вдруг возникают совсем ясные, словно вставленные кем-то слайды, Ї невидимые дотоле нигде, такие пугающе-понятные картинки из будущего? [Марина Палей. Поминовение (1987)]
(30)Так случилось, что вскоре после окончания войны судьба свела Лаврова с Сергеем Королевым,который пригласил молодого военного инженера принять участие в изучении немецкой трофейной ракетной техники. [Наталья Дубова. Орбита Лаврова // «Computerworld», 2004]
В число предикторов также вошли вид, время и залог глагольной формы в релятиве (Таблицы 9-11), наличие при ней отрицания, а также наличие отрицания при предикате главной клаузы. Отдельно мы отмечали вопросительные предложения, однако в итоговой выборке их оказалось всего 9 из 388.
Таблица 9. Таблица сопряжённости по параметрам “время -- вид -- стратегия”
time |
aspect |
part_post |
part_pre |
rel |
total (aspect) |
total (time) |
|
past |
imp |
15 |
6 |
64 |
85 |
176 |
|
perf |
21 |
20 |
50 |
91 |
|||
pres |
imp |
54 |
29 |
129 |
212 |
212 |
|
perf |
0 |
0 |
0 |
0 |
|||
total (strategy) |
90 |
55 |
243 |
388 |
388 |
Таблица 10. Наличие отрицания в главной клаузе
outer_negation |
part_post |
part_pre |
rel |
|
negative |
3 |
3 |
16 |
|
positive |
87 |
52 |
227 |
Таблица 11. Наличие отрицание в релятиве
inner_negation |
part_post |
part_pre |
rel |
|
negative |
5 |
1 |
18 |
|
positive |
85 |
54 |
225 |
Как видно из Таблиц 9-11, для анализа влияния на выбор стратегии факторов, связанных с наличием отрицания, также требуется больше данных.
2. Построение и анализ моделей
Итак, данные мы не разделяем по сложности текста (считая только, что в выборке представлены примеры различной сложности), в примерах нет релятивов с глагольной формой будущего времени, с вершиной множественного числа, мишень релятивизации ограничена лишь подлежащим. Каждому примеру-наблюдению поставлен в соответствие вектор значений 14 предикторов (часть предикторов категориальные, другие -- числовые); приведённые ниже модели относят примеры к одному из трёх классов: причастие в препозиции (part_pre), причастие в постпозиции (part_post), относительная клауза с который (rel).
В этом разделе мы опишем модели, построенные на описанных выше данных.
2.1 Дерево решений
Для построения дерева мы воспользовались функцией ctree R-библиотеки partykit (Hothorn, Hornik, Zeileis 2006), в которой воплощён улучшенный алгоритм построения решающих деревьев (conditional inference trees).
Различные методы решающих деревьев (C4.5, CART и т. д.) объединяет подход рекурсивного деления множества данных на такие подмножества, для всех наблюдений в которых выполняется условие на значение некоторого предиктора. Эти методы привлекают а) простотой подачи результата -- дерево решений легко интерпретировать, б) возможностью работать с данными разных типов (как количественными, так и категориальными; допускаются даже данные с пропусками), которые нет необходимости нормализовывать или приводить к специальному виду, в) возможностью оценить качество модели. Однако традиционно их недостатками называют (Воронцов 2009) вычислительную сложность обучения, высокие шансы переобучения, чувствительность к шуму и составу выборки, а также проблему высокого веса, который модель присваивает категориальному предиктору с большим числом значений или пропусков данных.
В процессе обучения решающего дерева встают следующие вопросы: 1) как выбрать следующий предиктор, по которому делить обучающее множество; 2) как выбрать пороговое значение предиктора для разделения; 3) до каких пор продолжать рекурсивно строить дерево (чтобы избежать переобучения). Первый вопрос традиционно решается максимизацией т.н. критерия информативности (Воронцов 2009) (индекс Джини, прирост информации и др.), второй -- перебором всех возможных вариантов. Третий вопрос связан с выбором критерия останова и решается, как правило, различными методами отсечения ветвей (Воронцов 2009).
В работе (Hothorn, Hornik, Zeileis 2006) описан метод, предлагающий новые ответы на эти вопросы. Оптимальный предиктор на каждой итерации определяется с помощью статистических тестов (пермутационные тесты описаны в (Strasser, Weber 1999)): решается вопрос о том, есть ли среди предикторов такие, чтобы их связь с зависимой переменной была бы статистически значима, т.е. такие, что для них могла бы быть отвергнута нулевая гипотеза об отсутствии статистически значимой связи (зависимости) между всеми предикторами и зависимой переменной.
Таким образом, на каждой итерации алгоритма производится деление обучающей выборки по пороговому значению оптимального в смысле статистически значимой связи с зависимой переменной предиктора.
Алгоритм останавливается, если нет основания отвергнуть нулевую гипотезу на заранее заданном уровне значимости.
Получившееся дерево представлено на Рис. 7-8.
Размещено на http://www.allbest.ru/
Рис. 7. Предварительное дерево решений: вывод функции partykit::ctree
Кроме того, функция sctest библиотеки strucchange (Kleiber et. al. 2002) даёт возможность узнать для каждого узла дерева значения p-value всех предикторов -- так, для узла [7] из таблицы (Приложение 1) становится ясно, почему на этом шаге для разделения выборки был выбран предиктор relat_siblings (количество других релятивов с той же вершиной).
Рассмотрим последовательно все узлы дерева.
Рис. 8. Предварительное дерево решений
Первым предиктором, по которому рассекается выборка -- самым значимым в корне дерева -- стала длина зависимой клаузы (без вершины). Релятивы не длиннее двух слов уже на этом шаге дерево относит к причастиям в препозиции, и дополнительные проверки на длину (length = 1 или length = 2) и синтаксическую роль оказываются нужны лишь для определения вероятности (или, наоборот, ошибки отнесения) отнесения примеров к классу part_pre.
По данным в Таблице 12 видно, что в терминальном узле [6] (length = 2) в действительности слишком мало данных, чтобы принимать решение о классе, к которому относить эти примеры. Примером past_post из узла [6] может служить предложение (31).
(31)На его круглой красной физиономии, напоминавшей блин, застыло вдохновенное выражение идиотической серьёзности. [Запись LiveJournal (2004)]
Таблица 12. Стратегия релятивизаци в примерах с релятивами не длиннее двух слов.
length |
part_post |
part_pre |
rel |
|
1 |
1 |
27 |
0 |
|
2 |
8 |
13 |
0 |
Также стоит отметить, что в эти восемь «неправильно» отнесённых примеров входят примеры из всех четырёх категорий «сложности» текста, так что их нельзя назвать «выбросами», связанными со сложностью текста.
В терминальном узле [4] (length = 1, syntactic_role = {a, s, pred}), состоящем лишь из восьми примеров, лишь один пример не относится к классу part_pre (32) (и только в нём вершина имеет синтаксическую роль pred), и, как видно, в нём позиция причастия относительно вершины была размечна неверно:
(32)Или шире Ї об истории Поднебесной, которая была Ї Государство Дракона, а стала Ї опустевший, опустившийся кинотеатр. [Запись LiveJournal (2004)]
Поэтому будем считать, что в узле [3] не происходит деления по синтаксической роли; по таблице значимости предикторов (Приложение 1) находим, что в этом узле значимым (помимо синтаксической роли) оказался лишь один предиктор -- relat_siblings. Однако среди 28 примеров, в которых длина релятива ограничена одним словом, лишь в одном есть ещё один релятив с той же вершиной -- и это пример (32). Следовательно, разделения выборки в этом узле не происходит. После исправления дерево выглядит так, как показано на Рис. 9.
Размещено на http://www.allbest.ru/
Рис. 9. Итоговое дерево решений
Примеры с релятивами длиной более двух слов разделяются в узле [7] по наличию других релятивов с той же вершиной: при наличии таковых примеры относятся к постпозитивным причастным оборотам: для других классов таких примеров всего 8 (см. Таблицу 13).
Таблица 13. Количество других релятивов с той же вершиной для примеров с относительной конструкцией длиннее двух слов.
relat_siblings |
part_post |
part_pre |
rel |
|
0 |
69 |
13 |
237 |
|
1 |
9 |
2 |
6 |
|
2 |
3 |
0 |
0 |
Наконец, примеры, в которых relat_siblings = 0, снова делятся в узле [8] (length = 3 или length > 3) в зависимости от длины релятива: релятивы длиннее трёх слов дерево относит к стратегии с местоимением который (с ошибками наподобие (33)-(34)), релятивы длиной в три слова дерево классифицирует как part_post, однако c большой ошибкой: состав примеров в терминальном листе -- пропорция part_post : rel : part_rel = 12 : 12 : 7, так что это решение классификатора, по-видимому, можно считать случайным.
(33)Даже привыкший ко всему на свете солнечный свет медлил, скользя по ее стройным, упругим ветвям, хотя ему-то, без всякого сомнения, не полагается медлить.
(34)Рок-певица Шерил Кроу проведёт в мае уникальный концерт: она будет выступать на борту самолёта авиакомпании United Airlines, совершающего перелёт между Западным и Восточным побережьем США. [Rendez-vous (2004) // «Экран и сцена», 2004.05.06]
Необходимо отметить, что в построении дерева решений участвовали лишь следующие признаки: длина релятива, синтаксическая роль вершины (не повлиявшая на решение классификатора) и наличие других релятивов с общей вершиной. Таблица p-value всех предикторов в каждом узле дерева (см. Приложение 1), иллюстрирующая выбор классификатора на каждом шаге алгоритма, показывает, что хотя и выбирался всегда самый значимый предиктор, но в число значимых (на уровне p < 0,05) переменных помимо упомянутых трёх вошёл лишь предиктор «вопросительное предложение» -- но для анализа его связи с зависимой переменной необходимо больше данных.
Итак, дерево решений (в основном из-за небольшого размера выборки) показало нам следующее:
1. Самым значимым фактором является длина релятива. Релятивы длины менее трёх слов в основном оформляются причастием в препозиции (говоря точнее, релятивы длиной в одно слово -- (очевидно) причастие в препозиции, при длине релятива, равной двум, наблюдается конкуренция причастий в пре- и постпозиции, и этот вопрос требует большей выборки). Для релятивов длиной более двух слов наблюдается конкуренция причастного оборота в постпозиции и стратегии с относительным местоимением.
Значимость длины релятива (распределение показано на Рис. 6) согласуется с интуитивным представлением о направлении ветвления в русском, а также предложенной в (Hawkins 2014:90) иерархией тяжести составляющих (Heaviness Hierarchy), то есть зависимостью между степенью тяжести зависимого именной группы и его положением относительно вершины. В работе (Холодилова 2014) представлены схожие результаты. Ещё один значимый фактор -- наличие у вершины других зависимых с причастием или местоимением который (распределение на всей выборке представлено на Рис. 5). При наличии таких релятивов релятив относится деревом к постпозитивным причастиям, в противном случае выбирается стратегия с который. Этот вывод требует дополнительной проверки на большей выборке и на экспериментальных данных.
2. Синтаксическая роль, хотя и оказалась в списке значимых предикторов, на построение дерева не повлияла. Повторим выводы, сделанные на основе распределения синтаксических ролей для различных стратегий (Таблица 5, Рис. 2):
· для стратегии с относительным местоимением наиболее типична вершина -- зависимое предлога (PPrel > Srel > Predrel);
· роль pp (зависимое предлога) более характерна для стратегии с который, чем для причастия в постпозиции (PPrel > PPpart_post);
· для постпозитивных причастных оборотов равные доли имеют пропорции s и o, однако различие этих пропорций от пропорций pp и a статистически незначимо.
Если бы данных было больше, можно было бы сравнить результаты с гипотезой (Холодилова 2014), где анализируется падеж вершины при релятивизации подлежащего и предлагается иерархия падежей, оценивающая (но не количественно) относительные шансы причастной стратегии по сравнению со стратегией, связанной с использованием местоимения который. Как пишет М. А. Холодилова (Холодилова 2014), «можно предварительно заключить, что вероятность использования причастнои? стратегии убывает по мере продвижения по иерархии Nom<Gen<др.<Ex », где Ex обозначает именительный падеж существительного после слова есть в значении `существует'. Холодилова связывает эту закономерность с принадлежностью именной группы относительной конструкции (вместе с вершиной) в левой части иерархии к теме, а не реме высказазывания: «именные группы в позиции подлежащего и приименного посессора, которые в большинстве случаев соответствуют номинативному и генитивному оформлению, часто относятся к даннои? информации, тогда как подлежащее экзистенциальнои? конструкции в большинстве случаев относится к новои? информации». В этой работе также сравнивались доли примеров с относительной конструкцией в реме в зависимости от стратегии релятивизации: доля примеров с конструкцией в реме (значимо) больше для стратегии с который, чем для причастных оборотов.
2.2 Мультиномиальная регрессия
Чтобы дать количественную оценку факторам, влияющим на выбор стратегии релятивизации, мы построили мультиномиальную регрессию на тех же данных.
Мультиномиальную модель можно назвать одним из самых известных методов многоклассовой классификации. Эта модель представляет собой обобщение логистической регрессии на случай нескольких (больше двух, в нашем случае -- трёх) возможных значений зависимой категориальной переменной. Задача оценки вероятности каждого из исходов в зависимости от значений независимых переменных ставится следующим образом: одно из значений зависимой переменной выбирается за эталонное, а для остальных логарифм отношения их вероятностей к вероятности эталонного значения (log odds, ) представляется как линейная функция от независимых переменных. Именно коэффициенты этой функции характеризуют влияние того или иного фактора на зависимую переменную. Эти коэффициенты находят с помощью итеративных процедур, в которых максимизируется некоторый функционал качества -- в простейшем случае функция правдоподобия.
Мультиномиальная модель получила широкое распространение благодаря простоте интерпретации результатов и минимальным допущениям относительно данных (требуется независимость значений зависимой переменной). Тем не менее, показано (Cordeiro, McCullagh 1991), что при оценке коэффициентов регрессии методом максимального правдоподобия сила эффекта представляется завышенной, если предикторов много, а данных недостаточно (велико отношение этих величин). В таких случаях в качестве одного из решений предлагаются (Bull, Lewinger, Lee 2005) штрафные функции для функционала качества.
Необходимо также отметить, что категориальные переменные в мультиномиальной модели приводятся к независимым бинарным. Поскольку количество предикторов в модели при этом увеличивается, то и наблюдений для модели необходимо больше.
Всё изложенное выше объясняет особенности применения мультиномиальной модели к нашим данным: с одной стороны, эта модель позволяет оценить вклад каждого из значений предикторов в выбор стратегии релятивизации; с другой стороны, при интерпретации модели необходимо иметь в виду малый объём нашей выборки.
Результаты логит-анализа представлены В Приложении 2.
Мы приводим два варианта этой модели (с разными эталонными стратегиями), чтобы упростить интерпретацию модели. В левой части таблицы даны коэффициенты регрессии и соответствующие им p-value для стратегий part_post и part_pre при референсной стратегии с который. В центре таблицы -- коэффициенты и p-value при референсной стратегии с причастием в препозиции. Эти значения были получены с помощью функции multinom пакета nnet (Ripley, Venables 2015), в котором коэффициенты регрессии находятся с помощью нейронной сети с одним скрытым слоем.
Мы также сравниваем результаты, полученные с помощью библиотеки nnet, с результатами аналогичной модели, но построенной средствами библиотеки VGAM (Yee 2010) (в правой части таблицы). В этой библиотеке применяется итерационный взвешенный метод наименьших квадратов (iteratively reweighted least squares, IRLS (Воронцов 2009)).
Прежде всего, отметим предикторы, которые оказались значимыми согласно этой модели. К предикторам relat_siblings и length, которые, как показано выше, стали важнейшими при построении дерева решений, добавились следующие:
· единственное число вершины при сравнении part_post с референсной стратегией rel: видимо, этот результат обусловлен малым количеством примеров на mass в стратегии part_post (для этой стратегии соотношение числа имеет вид mass : sg = 4 : 86);
· синтаксическая роль вершины dat и pred при сравнении part_pre с референсной rel: этот результат не имеет смысла из-за слишком малого объёма данных на стратегию part_pre (количество примеров на роль dat по стратегиям: part_pre : part_post : rel = 0 : 5 : 9; соотношение примеров на pred: 0 : 11 : 30);
· синтаксическая роль вершины pp при сравнении part_post с референсной rel (если считать объём выборки на стратегию part_post в 90 примеров достаточным); то же мы видели на распределении синтаксических ролей по стратегиям;
· значимым фактором согласно мультиномиальной модели стал референциальный статус вершины -- в решающем дереве он не фигурировал;
· мультиномиальная модель также признала значимым фактором пассивный залог, однако это обусловлено лишь крайне малым количеством примеров на пассив в выборке (описывающей релятивизацию подлежащего) (part_pre : part_post : rel = 1 : 0 : 18, снова наблюдаем полное разделение выборки). Далее, приведём интерпретацию значимых коэффициентов регрессии. Коэффициенты регрессии связаны с отношением вероятностей различных стратегий следующим образом:
где value_i и coeff_i -- значения предикторов и соответствующие предикторам коэффициенты.
Мультиномиальная регрессия дала следующие результаты.
По сравнению со стратегией rel:
· увеличение длины релятива на одно слово (при равенстве прочих параметров) уменьшает вероятность стратегии part_post на 10%, стратегии part_pre -- на 81%;
· добавление одного релятива с той же вершиной увеличивает вероятность стратегии part_post в 9,6 раз;
· синтаксическая роль вершины PP по отношению к A означает уменьшает вероятность стратегии part_post на 77%;
· нереферентная вершина уменьшает вероятность стратегии part_post на 77%, part_pre -- на 95%; референтная -- part_post на 71% и part_pre на 89% ;
Кроме того, увеличение длины релятива на одно слово увеличивает вероятность стратегии part_post по сравнению с part_pre на 55%.
Что касается сравнения результатов разных реализаций мультиномиальных моделей, функции разных библиотек (vglm и nnet) дают примерно одинаковые результаты (в смысле отношения соответствующих коэффициентов).
Заключение
В этой работе мы ставили своей целью моделирование выбора стратегии релятивизации подлежащего в русском. На корпусных данных мы построили модели двух типов: дерево решений и мультиномиальную модель. Зависимой переменной была стратегия релятивизации: относительное придаточное предложение с союзным словом который, причастный оборот в препозиции и в постпозиции. В качестве независимых переменных выступили различные характеристики вершины относительной конструкции, глагольной формы в релятиве и конструкции в целом. Несмотря на то, что модели были построены на небольшой выборке (всего 388 примеров), нам удалось выявить некоторые статистически значимые закономерности и описать влияние значимых факторов на выбор стратегии не только качественно, но и количественно.
Список литературы
Comrie, Kuteva 2013 -- Bernard Comrie, Tania Kuteva. Relativization Strategies. In: Dryer, Matthew S. & Haspelmath, Martin (eds.) The World Atlas of Language Structures Online. Leipzig: Max Planck Institute for Evolutionary Anthropology. 2013. (http://wals.info/chapter/s8, Accessed on 2016-06-07.)
Ландер 2012 -- Ю. А. Ландер. Релятивизация в полисинтетическом языке: адыгейские относительные конструкции в типологической перспективе Дисс. …... канд. филол. наук. М., 2012.
Никунласси 2008 -- А. Никунласси Приместоименно-относительные конструкции в современном русском языке. Хельсинки: Отделение славистики и балтистики. 2008.
Лютикова 2009 -- Е. А. Лютикова. Относительные предложения с союзным словом который: общая характеристика и свойства передвижения. Корпусные исследования по русской грамматике, 2009. С. 436-511.
Янович, Грунтова 2007 -- Е. С. Грунтова, И. С. Янович. Дистрибуция русских относительных местоимений кто (что) vs. который. Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог», 2007.
Русакова, Сай 2009 -- М. В. Русакова, С. С. Сай. Конкуренция действительных причастий прошедшего и настоящего времени. К. Л. Киселова, В. А. Плунгян, Е. В. Рахилина, С. Г. Татевосов (ред.), Корпусные исследования по русской грамматике. М., 2009. С. 245-282.
Холодилова 2014 -- М. А. Холодилова. Конкуренция основных стратегий релятивизации подлежащего в русском языке. Acta Linguistica Petropolitana. Труды Института лингвистических исследований РАН. ? ТXЧ 2. 2014. С. 478-509.
Холодилова 2011 -- М. А. Холодилова. Релятивизация O-участника при пассиве в русском языке. Выпускная квалификационная работа. СПб.: СПбГУ, 2011.
Холодилова 2010 -- М. А. Холодилова. Релятивизация позиции посессора в русском языке. Русский язык в научном освещении 21. 2010. С. 5-46.
Hothorn, Zeileis 2014 -- Torsten Hothorn, Achim Zeileis. partykit: A modular toolkit for recursive partytioning in R. Working Papers in Economics and Statistics, No. 2014-10. 2014.
Hothorn, Hornik, Zeileis 2006 -- Torsten Hothorn, Kurt Hornik, Achim Zeileis. Unbiased recursive partitioning: A conditional inference framework. Journal of Computational and Graphical statistics 15.3. 2006. P. 651-674.
Kleiber et. al. 2002 -- C. Kleiber, K. Hornik, F. Leisch, A. Zeileis. strucchange: An R Package for Testing for Structural Change in Linear Regression Models. Journal of Statistical Software, 7(2), 2002. 1-38.
Ripley, Venables 2015 -- Brian Ripley, William Venables, Maintainer Brian Ripley. Package `nnet'. 2015.
Yee 2010 -- Thomas W. Yee. "The VGAM package for categorical data analysis." Journal of Statistical Software 32.10. 2010. P. 1-34.
R Development Core Team 2008 -- R: A language and environment for statistical computing. R Foundation for Statistical Computing. Vienna, Austria. 2008. URL http://www.R-project.org.
Tagliamonte Baayen 2012 -- Sali A. Tagliamonte, R. Harald Baayen. Models, forests, and trees of York English: Was/were variation as a case study for statistical practice. Language Variation and Change 24.02. 2012. P. 135-178.
Levshina 2015 -- Natalia Levshina. How to do linguistics with R: Data exploration and statistical analysis. John Benjamins Publishing Company, 2015.
Bresnan, Ford 2010 -- Joan Bresnan, Marilyn Ford. Predicting syntax: Processing dative constructions in American and Australian varieties of English. Language 86.1. 2010.P. 168-213.
Paolillo 2002 -- John C. Paolillo. Analyzing linguistic variation: Statistical models and methods. Center for the Study of Language and Inf. 2002.
Cedergren, Sankoff 1974 -- Henrietta J. Cedergren, David Sankoff. Variable rules: Performance as a statistical reflection of competence. Language.1974.P. 333-355.
Sankoff, Tagliamonte, Smith 2005 -- David Sankoff, Sali A. Tagliamonte, Eric Smith. Goldvarb X: A multivariate analysis application. Toronto: Department of Linguistics. 2005.
Johnson 2009 -- Daniel Ezra Johnson. Getting off the GoldVarb standard: Introducing Rbrul for mixed?effects variable rule analysis. Language and linguistics compass 3.1. 2009. P. 359-383.
Воронцов 2009 -- К. В. Воронцов. Машинное обучение. Курс лекций на сайте http://www. machinelearning. ru (2009).
Strasser, Weber 1999 -- Helmut Strasser, Christian Weber. On the asymptotic theory of permutation statistics. 1999.
Hawkins 2014 -- John A. Hawkins. Word order universals. Elsevier, 2014.
Cordeiro, McCullagh 1991 -- Gauss M. Cordeiro, Peter McCullagh. Bias correction in generalized linear models. Journal of the Royal Statistical Society. Series B (Methodological).1991. P. 629-643.
Bull , Lewinger, Lee 2005 -- S. B. Bull, J. P. Lewinger, S. S. F. Lee. Penalized maximum likelihood estimation for multinomial logistic regression using the Jeffreys prior. No. 0505. Technical Report, 2005.
Шведова 1980 -- Русская грамматика. Т. 1 / Н. Ю. Шведова (гл. ред.). -- М., 1980. § 1150
НКРЯ -- Национальный корпус русского языка. URL http://ruscorpora.ru/
Приложения
Приложение 1
Значения p-values для каждого узла решающего дерева. Серым отмечены ячейки, в которых p-value < 0,05.
предиктор \ узел |
$`2` |
$`3` |
$`5` |
$`6` |
$`7` |
$`8` |
$`9` |
$`10` |
$`11` |
|
number |
0,8913 |
1,0000 |
1,0000 |
0,9838 |
0,1376 |
0,2395 |
0,9989 |
0,3728 |
0,9946 |
|
animacy |
1,0000 |
1,0000 |
1,0000 |
0,9973 |
0,8054 |
0,9694 |
1,0000 |
0,9178 |
0,9713 |
|
left_siblings |
0,9912 |
0,9998 |
1,0000 |
0,9474 |
1,0000 |
1,0000 |
1,0000 |
1,0000 |
1,0000 |
|
right_siblings |
1,0000 |
1,0000 |
1,0000 |
1,0000 |
0,1260 |
1,0000 |
1,0000 |
1,0000 |
0,3752 |
|
relat_siblings |
0,9797 |
0,0044 |
1,0000 |
1,0000 |
0,0006 |
1,0000 |
1,0000 |
1,0000 |
0,9961 |
|
length |
0,0309 |
1,0000 |
1,0000 |
1,0000 |
0,0021 |
0,0175 |
1,0000 |
0,8184 |
0,4886 |
|
syntactic_role |
0,0904 |
0,0008 |
1,0000 |
0,9986 |
0,2588 |
0,6123 |
0,9097 |
0,9999 |
1,0000 |
|
referentiality |
0,9261 |
1,0000 |
1,0000 |
0,2399 |
0,4172 |
0,1587 |
0,9990 |
0,6624 |
1,0000 |
|
aspect |
1,0000 |
0,9376 |
1,0000 |
0,9977 |
0,5885 |
0,2282 |
1,0000 |
0,3062 |
1,0000 |
|
time |
1,0000 |
0,9655 |
1,0000 |
0,9601 |
0,9970 |
0,9999 |
1,0000 |
0,9999 |
1,0000 |
|
voice |
1,0000 |
1,0000 |
1,0000 |
1,0000 |
0,4558 |
0,5454 |
0,9998 |
0,8042 |
0,6339 |
|
outer_negation |
0,9992 |
1,0000 |
1,0000 |
1,0000 |
0,9990 |
0,9054 |
0,9998 |
0,9925 |
0,9999 |
|
inner_negation |
1,0000 |
1,0000 |
1,0000 |
1,0000 |
1,0000 |
1,0000 |
0,9380 |
1,0000 |
1,0000 |
|
question |
1,0000 |
1,0000 |
1,0000 |
1,0000 |
1,0000 |
1,0000 |
1,0000 |
1,0000 |
1,0000 |
Приложение 2
Результаты мультиномиальной регрессии. Серым отмечены ячейки с p-value < 0,05.
nnet |
vglm |
vglm/nnet |
|||||||||||
ref=rel |
ref=part_pre |
ref=part_pre |
|||||||||||
part_post |
part_pre |
rel |
part_post |
rel |
part_post |
rel |
part_post |
||||||
coeff |
p-value |
coeff |
p-value |
coeff |
p-value |
coeff |
p-value |
coeff |
coeff |
coeff |
|||
(Intercept) |
-1,8137 |
0,2143 |
6,4023 |
0,0450 |
-6,4021 |
0,0450 |
-8,2157 |
0,0137 |
-6,4022 |
-8,2159 |
1,0000 |
1,0000 |
|
number sg |
1,3083 |
0,0268 |
-0,6527 |
0,4076 |
0,6527 |
0,4075 |
1,9610 |
0,0322 |
0,6527 |
1,9611 |
1,0000 |
1,0000 |
|
animacy inan |
0,4216 |
0,1884 |
1,2067 |
0,0899 |
-1,2073 |
0,0898 |
-0,7857 |
0,2773 |
-1,2069 |
-0,7853 |
0,9997 |
0,9995 |
|
left_siblings |
-0,2210 |
0,3214 |
0,2839 |
0,5625 |
-0,2838 |
0,5627 |
-0,5048 |
0,3132 |
-0,2839 |
-0,5049 |
1,0004 |
1,0002 |
|
right_siblings |
0,2023 |
0,4619 |
0,5678 |
0,2252 |
-0,5678 |
0,2252 |
-0,3654 |
0,4356 |
-0,5678 |
-0,3655 |
1,0000 |
1,0000 |
|
relat_siblings |
2,2658 |
0,0008 |
0,8376 |
0,4831 |
-0,8376 |
0,4832 |
1,4280 |
0,2022 |
-0,8375 |
1,4282 |
0,9999 |
1,0002 |
|
length |
-0,1016 |
0,0071 |
-1,6482 |
0,0000 |
1,6483 |
0,0000 |
1,5467 |
0,0000 |
1,6482 |
1,5467 |
1,0000 |
1,0000 |
|
syntactic_role dat |
-0,4029 |
0,6191 |
-12,5862 |
0,0000 |
11,6203 |
0,0000 |
11,2175 |
0,0000 |
14,8582 |
14,4553 |
1,2786 |
1,2886 |
|
syntactic_role o |
-0,8985 |
0,0814 |
-1,1427 |
0,2005 |
1,1431 |
0,2003 |
0,2445 |
0,7846 |
1,1429 |
0,2443 |
0,9998 |
0,9990 |
|
syntactic_role poss |
-1,2447 |
0,0627 |
-0,1559 |
0,8964 |
0,1569 |
0,8957 |
-1,0879 |
0,3799 |
0,1563 |
-1,0885 |
0,9964 |
1,0006 |
|
syntactic_role pp |
-1,4513 |
0,0046 |
-1,0412 |
0,2222 |
1,0417 |
0,2220 |
-0,4096 |
0,6381 |
1,0414 |
-0,4100 |
0,9997 |
1,0010 |
|
syntactic_role pred |
-0,8062 |
0,1622 |
-40,1918 |
0,0000 |
27,3535 |
0,0000 |
26,5473 |
0,0000 |
18,9784 |
18,1721 |
0,6938 |
0,6845 |
|
syntactic_role s |
-0,9723 |
0,0525 |
-1,7779 |
0,0509 |
1,7784 |
0,0509 |
0,8062 |
0,3717 |
1,7781 |
0,8058 |
0,9998 |
0,9995 |
|
referentiality nonref |
-1,4380 |
0,0044 |
-2,9227 |
0,0059 |
2,9226 |
0,0059 |
1,4845 |
0,1569 |
2,9225 |
1,4845 |
1,0000 |
1,0000 |
|
referentiality ref |
-1,2340 |
0,0093 |
-2,1630 |
0,0254 |
2,1633 |
0,0254 |
0,9292 |
0,3271 |
2,1631 |
0,9291 |
0,9999 |
0,9998 |
|
aspect perf |
0,2830 |
0,5149 |
1,1932 |
0,1392 |
-1,1927 |
0,1393 |
-0,9097 |
0,2784 |
-1,1932 |
-0,9102 |
1,0004 |
1,0006 |
|
time pres |
0,5557 |
0,1538 |
0,4706 |
0,5734 |
-0,4701 |
0,5737 |
0,0855 |
0,9210 |
-0,4706 |
0,0851 |
1,0009 |
0,9952 |
|
voice pass |
-16,7578 |
0,0000 |
-0,4447 |
0,8281 |
0,4430 |
0,8287 |
-20,9676 |
0,0000 |
0,4439 |
-18,6879 |
1,0019 |
0,8913 |
|
outer_negation p |
1,7272 |
0,1093 |
1,0523 |
0,6052 |
-1,0531 |
0,6049 |
0,6741 |
0,7576 |
-1,0525 |
0,6748 |
0,9994 |
1,0010 |
|
inner_negation p |
0,2248 |
0,7120 |
-0,3855 |
0,8202 |
0,3853 |
0,8203 |
0,6101 |
0,7293 |
0,3854 |
0,6102 |
1,0003 |
1,0002 |
|
question y |
0,7706 |
0,4691 |
-0,2175 |
0,8824 |
0,2190 |
0,8816 |
0,9894 |
0,4961 |
0,2179 |
0,9884 |
0,9950 |
0,9990 |
Размещено на Allbest.ru
Подобные документы
Национально-специфичное и заимствованное в языке. Окказиональные способы словообразования. Рост агглютинативных черт в процессе образования слов. Иноязычные аффиксы в русском языке и их продуктивность. Новые заимствования и их производные.
курсовая работа [46,8 K], добавлен 24.01.2007Природа неологизмов, пути их появления в современном русском языке. Экспериментальное исследование появления неологизмов иностранного происхождения в русском языке (за последнее десятилетие). Сферы употребления и источники иностранных неологизмов.
практическая работа [104,8 K], добавлен 15.10.2010Понятие о типах образования слов. Аффиксация как способ образования слов. Особенности современного словообразования в русском языке. Словообразовательные аффиксы в современном русском языке. Префиксально-суффиксальный (смешанный) способ словообразования.
курсовая работа [26,8 K], добавлен 27.06.2011Пути возникновения омонимов в русском языке. Типы формальных связей значений многозначных слов: радиальная, цепочечная и смешанная полисемия. Способы разграничения омонимии и полисемии в современном русском языке, их функционально-стилистическая роль.
курсовая работа [42,9 K], добавлен 01.12.2014Понятие эмоциональности в русском языке. Вопрос языкового выражения человеческих эмоций. Глаголы и междометия как средства выражения эмоций. Роль контекста в определении эмоциональности. Примеры позитивной и категоричность негативной оценки в контексте.
реферат [25,5 K], добавлен 17.10.2011Выявление основных признаков иноязычных слов. История распространения модных английских, французских и тюркских терминов, обозначающих предметы одежды в русском языке. Классификация заимствованных лексических единиц по степени их освоенности в языке.
курсовая работа [50,0 K], добавлен 20.04.2011Классификация заимствований и их исторические сферы употребления. Функциональные особенности англицизмов в русском языке. Модные слова: содержание и лексический состав. Языковые факторы, определяющие развитие словарного состава языка путем заимствования.
курсовая работа [101,8 K], добавлен 05.12.2016Предлог как служебная часть речи, его место в русском языке, классификация и разновидности, определение лексического значения. Общие сведения и специфические признаки предлогов современного немецкого языка, сравнительная характеристика с русским.
курсовая работа [50,9 K], добавлен 07.06.2010Числительные как наиболее консервативный класс слов. Анализ синтаксических и семантических свойств количественных числительных, деление их по составу. Разряды имен числительных: порядковые, собирательные. Место имен числительных в русском языке.
дипломная работа [101,5 K], добавлен 04.08.2012Объекты изучения в словообразовании. Сущность словообразовательной мотивации. Понятие и пример словообразовательного гнезда. Отличительные черты и особенности словообразования существительных, прилагательных и глаголов в болгарском и русском языке.
презентация [68,5 K], добавлен 18.01.2011