Универсальные морфосинтаксические маркеры стиля в задачах компьютерной стилометрии
Теоретические подходы к определению языковой личности. Методики анализа языковой личности в судебно-автороведческой экспертизе. Лингвистические модели представления текста. Использование морфосинтаксических моделей репрезентации письменного текста.
Рубрика | Иностранные языки и языкознание |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 09.09.2020 |
Размер файла | 871,5 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Рис. 3 Пример классификации английских текстов
Далее рассмотрим результаты классификации английских произведений с использованием CB-тренировки. В таблице 8 представлено сравнение трёх классификаторов и двух методов тестирования.
Таблица № 8
Классификация английских текстов, CB-тренировка
Тестирование BA |
Тестирование WA |
||||||
Logistic Regression |
Linear SVC |
Random Forest |
Logistic Regression |
Linear SVC |
Random Forest |
||
Doc2Vec |
0.77 (300) |
0.73 (300) |
0.53 (300) |
0.81 (300) |
0.73 (300) |
0.51 (300) |
|
SCMS |
0.77 (300) |
0.77 (300) |
0.58 (300) |
0.74 (300) |
0.8 (300) |
0.61 (300) |
|
Лучшая модель |
Doc2Vec + SCMS = 0.85 (300) |
Doc2Vec + SCMS = 0.84 (300) |
Doc2Vec + SCMS = 0.62 (300) |
Doc2Vec + SCMS = 0.96 (250) |
Doc2Vec + SCMS = 0.91 (300) |
Doc2Vec + SCMS = 0.71 (300) |
|
Doc2Vec^ + SCMS |
+ 0.08 |
+ 0.11 |
+ 0.09 |
+ 0.15 |
+ 0.18 |
+ 0.2 |
|
Лучший размер блока |
300 |
300 |
300 |
250 |
300 |
300 |
Как и в анализе классификации русских текстов, мы сравнивали результаты работы Doc2Vec модели с морфосинтаксическими признаками для того, чтобы выяснить их эффективность в задаче атрибуции. В CB-тренировке нам удалось превысить baseline пять раз из шести. В отличие от русского, Doc2Vec модель показала себя с лучшей стороны в WA-тестировании. В логистической регрессии WA-тестирования она достигла лучшей своей точности, а именно 81%. Высший результат всей CB-тренировки тоже был получен с использованием тестирования WA и составил 96%. Эту точность показала модель, комбинирующая Doc2Vec и морфосинтаксические признаки. В целом, морфосинтаксические модели показали себя неплохо. Их высшая точность (80%) отличается от лучшего результата Doc2Vec всего на 1%. А максимальный прирост качества к Doc2Vec модели с помощью морфосинтаксических признаков составил 18%.
Похожая картина наблюдается и в результатах BB-тренировки. Наша SCMS модель обошла Doc2Vec в пяти экспериментах из шести (см. Таблицу 9). Лучше морфосинтаксических признаков Doc2Vec выступил всё в той же логистической регрессии WA-тестирования (80%). Морфосинтаксические модели показали лучший свой результат, составивший 77%, одновременно в двух экспериментах: при использовании классификатора Linear SVC в BA- и WA-тестировании.
Таблица № 9
Классификация английских текстов, BB-тренировка
Тестирование BA |
Тестирование WA |
||||||
Logistic Regression |
Linear SVC |
Random Forest |
Logistic Regression |
Linear SVC |
Random Forest |
||
Doc2Vec |
0.74 (300) |
0.66 (300) |
0.4 (300) |
0.8 (300) |
0.71 (300) |
0.41 (300) |
|
SCMS |
0.76 (300) |
0.77 (300) |
0.58 (300) |
0.73 (300) |
0.77 (300) |
0.6 (300) |
|
Лучшая модель |
Doc2Vec + SCMS = 0.85 (300) |
Doc2Vec + SCMS = 0.82 (300) |
Doc2Vec + SCMS = 0.61 (300) |
Doc2Vec + SCMS = 0.9 (300) |
Doc2Vec + SCMS = 0.89 (300) |
Doc2Vec + SCMS = 0.71 (300) |
|
Doc2Vec^ + SCMS |
+ 0.11 |
+ 0.16 |
+ 0.21 |
+ 0.1 |
+ 0.18 |
+ 0.3 |
|
Лучший размер блока |
300 |
300 |
300 |
300 |
300 |
300 |
При комбинировании Doc2Vec и SCMS качество, как и в предыдущем методе тренировки, увеличивалось. Лучший результат за всю BB-тренировку (90%) был получен именно с помощью этой комбинированной модели в логистической регрессии WA-тестирования. Максимальный прирост качества к Doc2Vec составил 21%. Из этого мы можем сделать вывод, что наши модели хорошо справляются и с классификацией английских текстов.
Итак, по результатам анализа классификации английских произведений по авторам мы можем сделать следующие выводы:
1) Морфосинтаксические признаки сработали лучше baseline модели в 10 экспериментах из 12, что позволяет нам говорить об их успешности в решении задачи атрибуции английских текстов,
2) Лучшее качество, которое удалось получить с помощью морфосинтаксических моделей, составило 80%. При использовании нашей SCMS модели в комбинации с Doc2Vec качество возрастает до 96%.
3) Как и в русском языке, простые модели показывают лучший результат, чем усложнённые, что объясняется их большей полной и содержательностью.
4) Синтаксические модели по-прежнему лидируют в сравнении с морфологическими, так как они включают единицы и отношения предыдущих уровней языка.
5) Лучший размер блока для английских текстов составил 300 предложений.
6) Классификация текстов с использованием BB-тренировки даёт результат чуть хуже, чем при помощи CB-тренировки.
7) В отличие от русского языка, WA-метод оценки качества классификации для английских текстов показал лучшее качество.
3.5.3 Общие выводы по классификации
Подводя итоги классификации русских и английских текстов, мы можем сказать, что поставленная цель была достигнута: разработанные морфосинтаксические признаки успешно могут быть использованы для решения задач компьютерной стилометрии как самостоятельно, так и в комбинации с другими моделями. Несмотря на то, что лучшая точность Doc2Vec по итогам всей классификации оказалась немного выше, чем лучший результат морфосинтаксических моделей (на 2% для русского и на 1% для английского языка), они всё равно показывают хороший результат (см. Таблицу 10).
В 20 экспериментах из 24 при комбинировании разных классификаторов, а также методов тренировки и оценки наши морфосинтаксические модели показали результат лучше, чем baseline модель. Кроме того, морфосинтаксические признаки лучше справились с классификацией в тех случаях, когда общее качество классификации упало при применении другого метода тестирования. В русском языке хуже определялось авторство произведений целиком, в то время как части этих произведений классифицировались правильно. В английском наблюдается обратная ситуация: части произведений определялись хуже, чем полные варианты текстов. В обоих случаях при затруднении классификации морфосинтаксические признаки срабатывали лучше, чем Doc2Vec.
Таблица № 10
Лучшие результаты для двух языков
Тренировка CB |
Русский язык |
Английский язык |
||||
Тест BA |
Тест WA |
Тест BA |
Тест WA |
|||
Doc2Vec |
0.87 |
0.61 |
0.77 |
0.81 |
||
SC MorphoSyntax |
0.82 |
0.69 |
0.77 |
0.8 |
||
Лучшая модель |
Doc2Vec + SCMS |
Doc2Vec + SCMS |
Doc2Vec + SCMS |
Doc2Vec + SCMS |
||
Лучшее качество |
0.9 |
0.78 |
0.85 |
0.96 |
||
Максимальное улучшение Doc2Vec |
+ 0.15 |
+ 0.23 |
+ 0.11 |
+ 0.18 |
||
Тренировка BB |
Тест BA |
Тест WA |
Тест BA |
Тест WA |
||
Doc2Vec |
0.81 |
0.51 |
0.74 |
0.8 |
||
SC MorphoSyntax |
0.85 |
0.77 |
0.77 |
0.77 |
||
Лучшая модель |
Doc2Vec + SCMS |
SC Morpho Syntax |
Doc2Vec + SCMS |
Doc2Vec + SCMS |
||
Лучшее качество |
0.89 |
0.77 |
0.85 |
0.9 |
||
Максимальное улучшение Doc2Vec |
+ 0.16 |
SCMSv + Doc2Vec |
+ 0.21 |
+ 0.18 |
Ещё одним аргументом в пользу морфосинтаксических моделей является то, что они значительно улучшают качество при их совместном использовании с Doc2Vec. Самая высокая точность классификации, а если точнее: 90% - для русского и 96% - для английского, - была достигнута именно посредством этой комбинированной модели. Максимальный прирост качества к Doc2Vec с использованием наших признаков составил 23%. Всё это позволяет нам сделать вывод, что морфосинтаксические модели текстовой репрезентации могут быть успешно применены в задаче автоматического определения авторства.
3.6 Анализ ошибок классификации
Ещё одним этапом работы был анализ ошибок классификации. Мы исследовали те случаи, когда тексты одного автора закономерно присваивались другому. Есть основание полагать, что стили этих писателей, которых классификатор раз за разом не может отличить друг от друга, похожи. Мы анализировали матрицы ошибок, которые были получены в экспериментах, показавших высшее качество классификации. Для русского языка это эксперимент, в котором были использованы CB-тренировка, BA-тестирование, логистическая регрессия и 350 предложений в блоке, а для английского - эксперимент с CB-тренировкой, WA-тестированием, логистической регрессией и 300 предложениями в блоке. В рамках этих экспериментов изучались ошибки классификации во всех моделях текстовой репрезентации и их комбинациях. На рисунке 4 показан пример матрицы ошибок для русского языка. По диагонали в такой матрице зафиксировано количество блоков, которые были определены верно, а по горизонтали - число неверно определённых блоков.
Мы исследовали только закономерные ошибки, то есть те случаи, когда классификатор присваивал не менее 25% текстов одного автора другому. Например, если 5 блоков текста из 18, которые принадлежат Б.Л. Васильеву, приписывались другому автору, то эти писатели рассматривались как потенциально близкие по стилю. Такие пары авторов распределялись по моделям репрезентации и выписывались в общую таблицу (см. Приложение Ж).
Рис. 4 Ошибки классификации русских текстов в простой синтаксической модели
Далее мы определяли, какие пары авторов встретились хотя бы в двух моделях текстовой репрезентации, и анализировали их на наличие основания для неправильной классификации. Так как задачу атрибуции мы решали с использованием исключительно лингвистических моделей, можно предположить, что язык тех авторов, которых классификатор часто путает между собой, похож, то есть они используют одинаковые лексемы, морфологические единицы и синтаксические конструкции. Однако не стоит исключать той возможности, что эти ошибки могли возникнуть случайно или были обусловлены смещением выборки. Например, ошибки классификации текстов Л.Н. Андреева и Н.Г. Чернышевского часто попадали под разряд закономерных, что тем не менее нельзя считать признаком того, что эти авторы обладают размытым, сложно идентифицируемым стилем. Вероятно, эти ошибки возникли из-за того, что на классификацию был предоставлен небольшой объем текстов этих авторов, в результате чего даже случайные ошибки могли посчитаться закономерными по нашему алгоритму анализа. Для того чтобы избежать таких случаев, мы считали похожими по языку стили только тех авторов, которые встретились как минимум в 4 моделях текстовой репрезентации.
Кроме связи по языку, мы искали другие основания для неправильной классификации. Мы руководствовались тем, что стили разных писателей могут быть похожи по какой-то экстралингвистической причине. Итак, мы выделили четыре группы авторов, которые представлены в таблице 11.
Таблица № 11
Закономерные ошибки классификации русских текстов
Авторы |
Наличие ошибок в разных моделях |
Основание для неправильной классификации |
||
Житков/Бианки |
8 |
Влияние эпохи |
Житков (1882 - 1938)/ Бианки (1894 - 1959) |
|
Андреев/Толстой |
6 |
Андреев (1871 - 1919)/ Толстой (1828 - 1910) |
||
Лермонтов/Карамзин |
5 |
Лермонтов (1814 - 1841)/ Карамзин (1766 - 1826) |
||
Андреев/Чехов |
3 |
Андреев (1871 - 1919)/ Чехов (1860 - 1904) |
||
Чернышевский/ Достоевский |
3 |
Чернышевский (1828 - 1889)/ Достоевский (1821 - 1881) |
||
Бунин/Чехов |
2 |
Бунин (1870 - 1953)/ Чехов (1860 - 1904) |
||
Житков/Бианки |
8 |
Влияние жанра |
Детская литература |
|
Андреев/Скребицкий |
3 |
Рассказ |
||
Гоголь/Андреев |
2 |
Рассказ, повесть |
||
Пришвин/Бианки |
2 |
Детская литература |
||
Бунин/Чехов |
2 |
Рассказ |
||
Житков/Бианки |
8 |
Влияние идей, тем и проблематики |
Природа, жизнь и привычки животных |
|
Чернышевский/ Солженицын |
7 |
Утопия и антиутопия |
||
Андреев/Булгаков |
4 |
Религия, выживание людей в неблагополучном обществе |
||
Бунин/Бианки |
2 |
Природа, описание окружающего мира |
||
Гоголь/Андреев |
2 |
Описание города |
||
Пришвин/Бианки |
2 |
Природа, истории про животных |
||
Житков/Бианки |
8 |
Связь по языку |
Морфология, синтаксис, лексика |
|
Чернышевский/ Солженицын |
7 |
Морфология, синтаксис, лексика |
||
Андреев/Толстой |
6 |
Морфология, синтаксис, лексика |
||
Лермонтов/Карамзин |
5 |
Синтаксис, лексика |
||
Лермонтов/Толстой |
4 |
Морфология, синтаксис |
||
Чернышевский/ Шолохов |
4 |
Морфология, синтаксис, лексика |
||
Андреев/Булгаков |
4 |
Синтаксис, лексика |
||
Бунин/Набоков |
4 |
Морфология, синтаксис |
Кроме сходных языковых особенностей в стилях разных писателей, мы выявили также сходства произведений по жанру, темам, идеям и проблематике. Вероятно также, что сходство стилей некоторых авторов обусловлено влиянием эпохи: предшественников на последователей и современников друг на друга.
Подобной классификации мы придерживались и при разборе ошибок классификации английских произведений (см. Таблицу 12).
Таблица № 12
Закономерные ошибки классификации английских текстов
Авторы |
Наличие ошибок в разных моделях |
Основание для неправильной классификации |
||
Свифт/Дефо |
8 |
Влияние эпохи |
Свифт (1667 - 1745)/ Дефо (1660 - 1731) |
|
Метьюрин/Скотт |
6 |
Метьюрин (1780 - 1824)/ Скотт (1771 - 1832) |
||
Эджуорт/Теккерей |
4 |
Эджуорт (1768 - 1849)/ Теккерей (1811 - 1863) |
||
Голсуорси/Лоуренс |
3 |
Голсуорси (1867 - 1933)/ Лоуренс (1885 - 1930) |
||
Эджуорт/Диккенс |
3 |
Эджуорт (1768 - 1849)/ Диккенс (1812 - 1870) |
||
Уэллс/Лоуренс |
2 |
Уэллс (1866 - 1946)/ Лоуренс (1885 - 1930) |
||
Голсуорси/Харди |
2 |
Голсуорси (1867 - 1933)/ Харди (1840 - 1928) |
||
Свифт/Филдинг |
2 |
Свифт (1667 - 1745)/ Филдинг (1707 - 1754) |
||
Форстер/Лоуренс |
2 |
Форстер (1879 - 1970)/ Лоуренс (1885 - 1930) |
||
Гаскелл/Элиот |
2 |
Гаскелл (1810 - 1865)/ Элиот (1819 - 1880) |
||
Метьюрин/Бульвер-Литтон |
2 |
Метьюрин (1780 - 1824)/ Бульвер-Литтон (1803 - 1873) |
||
Троллоп/Остин |
4 |
Влияние жанра |
Роман |
|
Вулф/Коллинз |
3 |
Роман, рассказ |
||
Дефо/Скотт |
3 |
Исторический роман |
||
Свифт/Филдинг |
2 |
Сатирический роман |
||
Свифт/Дефо |
8 |
Влияние идей, тем и проблематики |
Путешествия, приключения |
|
Эджуорт/Теккерей |
4 |
Социальные конфликты |
||
Вулф/Коллинз |
3 |
Социальные проблемы, место женщин в обществе |
||
Кэрролл/Свифт |
3 |
Сказочное повествование |
||
Голсуорси/Харди |
2 |
Проблема социальных ролей |
||
Форстер/Лоуренс |
2 |
Конфликты разных социальных групп |
||
Гаскелл/Элиот |
2 |
О людях, изначально неплохих, которых обстановка в обществе толкает на совершение преступления |
||
Дефо/Хаггард |
2 |
Приключения, путешествия |
||
Марриет/Уайльд |
8 |
Связь по языку |
Морфология, синтаксис, лексика |
|
Свифт/Дефо |
8 |
Морфология, синтаксис, лексика |
||
Метьюрин/Скотт |
6 |
Морфология, синтаксис, лексика |
||
Джонсон/Шелли |
5 |
Морфология, синтаксис |
||
Троллоп/Остин |
4 |
Синтаксис |
||
Свифт/Скотт |
4 |
Морфология, синтаксис |
||
Эджуорт/Теккерей |
4 |
Морфология, синтаксис |
Итак, мы провели анализ ошибок классификации и выявили наиболее закономерные из них. Основанием для неправильной классификации послужила не только связь по языку, но и некоторые экстралингвистические факторы такие, как влияние эпохи, жанра, идей, тематики и проблематики. Мы полагаем, что результаты этого анализа могут быть использованы при литературоведческом исследовании языковой личности автора.
3.7 Выявление закономерных признаков стиля
Для того чтобы определить, какие языковые явления лучше всего позволяют отличить стиль одного автора от другого, мы проводили анализ важных атрибутов. Такие алгоритмы классификации, как логистическая регрессия и Random Forest предоставляют возможность узнать, на какие признаки классификатор ориентировался больше всего при отнесении текстов к тому или иному классу. Мы представим результаты для русского и английского языков на базе тренировочной выборки из непересекающихся блоков с использованием WA-тестирования. Размер блока возьмем оптимальный: для русского - 350 предложений, для английского - 300.
Рис. 5 Распределение простых морфосинтаксических признаков по степени важности для классификации
На рисунке 5 показан пример графика, на котором атрибуты упорядочены в соответствии со степенью важности для классификации. В данном примере проводилась классификация русских текстов с использованием алгоритма Random Forest. В каждой модели текстовой репрезентации мы определяли важные признаки как 25% от общего числа атрибутов (см. Приложение З). Примечательно, что большинство признаков, выделенных в разных моделях, оказались взаимосвязаны между собой. Элементы и отношения в простых моделях входят далее в состав более сложных и продолжают оцениваться как важные. Это позволяет сделать вывод о том, что важные атрибуты отражают композициональность языка и выделяются не случайно, а закономерно, что позволяет считать их маркерами стиля.
3.7.1 Стилистические признаки в русском языке
В таблице 13 приведены стилистические маркеры для русского языка, распределённые по четырём моделям текстовой репрезентации.
Таблица № 13
Морфосинтаксические маркеры стиля в русском языке
Простая морфология |
Усложнённая морфология |
Простой синтаксис |
Усложнённый синтаксис |
|
Наречие |
Описательность действия, признак действия |
Обстоятельство (advmod) |
Примыкание, наречное словосочетание |
|
Имя существительное |
Предметность, абстрактность |
Подлежащее (nsubj) |
Координация |
|
Местоимение |
Местоименная замена |
Указательное местоимение (det) |
- |
|
Сочинительный союз |
- |
Сочинительная связь (conj), связь с союзом или частицей (mark), связь однородного члена с союзом (cc) |
Однородные члены |
|
Частица |
- |
Связь с союзом или частицей (mark) |
- |
|
Подчинительный союз |
- |
Связь с союзом или частицей (mark), относительное придаточное предложение (acl:relcl) |
- |
|
Глагол |
- |
- |
Глагольное словосочетание, координация |
|
- |
- |
Деепричастие (advcl) |
Деепричастный оборот |
|
- |
- |
Вторичная предикация (acl), определение (amod) |
Адъективный оборот, причастный оборот |
|
- |
- |
- |
Вводная конструкция |
|
- |
- |
- |
Вставная конструкция |
Специфичной чертой для русского языка оказалось использование наречий и наречных словосочетаний. В усложнённой морфологической модели это явление нашло отражение в критериях описательности и признака действия, которые показывают насколько часто автор в своих произведениях даёт характеристику действиям и событиям. Наречия зачастую передают отношение говорящего к сказанному (например, «доблестно сражался», «грустно взглянул»), поэтому можно предположить, что индивидуальной чертой является выражение авторского мнения по поводу действий и поступков героев. У одних писателей субъективный взгляд на положение вещей в произведении ярче и заметнее, чем у других. Вероятно, это также связано с использованием несобственно-прямой речи, в которой сочетается речь автора и внутренний монолог героя.
Ещё одним стилистическим маркером для русского языка является использование имён существительных. Существительные, выделенные как важные признаки в модели простой морфологии, нашли отражение в усложнённой морфологической модели в коэффициентах предметности и абстрактности. Эти коэффициенты могут сообщить о том, рассуждает ли автор в своих произведениях больше о предметном мире или о мире абстрактных явлений. В простой и усложнённой синтаксических моделях существительные можно связать с такими признаками, как подлежащее и координация. Разумеется, в русском языке в качестве подлежащего могут выступать самые разные части речи, однако имена существительные выполняют эту роль чаще всего. Координация непосредственно связана с подлежащим, так как она называет тип связи между подлежащим и сказуемым. В роли сказуемого, в свою очередь, чаще всего выступает глагол, который тоже был определён как важный признак.
Использование местоимений также оказалось значимым для отделения стиля одного автора от другого. Мы предполагаем, что для стилей разных авторов может быть характерно использование каких-то определённых разрядов местоимений. Такие разряды, как личные, притяжательные, относительные местоимения, вероятнее всего, используются авторами в равной степени, а такие местоимения, как неопределённые, определительные, указательные, могут превалировать в речи одного писателя, а в речи другого - нет.
Одним из самых важных стилистических признаков является использование служебных частей речи, из которых больше всего авторский стиль характеризует сочинительный союз. Сочинительный союз нашёл отражение в простой и усложнённой синтаксических моделях в отношениях между однородными членами. Из этого следует, что для одних писателей однородные ряды более характерны, чем для других. Подчинительный союз и частица также играют большую роль в классификации, в то время как предлог оказался гораздо менее важным. Должно быть, это связано с тем, что союзы и частицы больше варьируются в языке. Автор использует их согласно своим предпочтениям, в то время как предлоги задают связи между словами и используются у всех авторов в равной степени.
В отдельную категорию важных признаков можно отнести различные виды осложнителей предложения. Среди них причастный, деепричастный, адъективный обороты, а также вставная и вводная конструкции. По своей функции данные конструкции похожи: они несут в предложении не основную, а дополнительную информацию, распространяют его. Можно предположить, что одни авторы используют сложные, многоуровневые конструкции, которые помимо основной включают много дополнительной информации, а другие предпочитают развертывать эти конструкции в несколько предложений.
3.7.2 Стилистические признаки в английском языке
В английском языке анализ важных для классификации атрибутов проводился таким же образом, как и для русского, но с использованием 300 предложений в блоке. В таблице 14 представлены морфосинтаксические признаки стиля, некоторые из которых оказались взаимосвязаны в разных моделях текстовой репрезентации.
Таблица № 14
Морфосинтаксические маркеры стиля в английском языке
Простая морфология |
Усложнённая морфология |
Простой синтаксис |
Усложнённый синтаксис |
|
Вспомогательный глагол |
Пассивный залог |
Вспомогательный глагол (aux) |
- |
|
Сочинительный союз |
- |
Связь с союзом или частицей (mark), сочинительная связь (conj), связь однородного члена с союзом (cc) |
Однородные члены |
|
Подчинительный союз |
- |
Связь с союзом или частицей (mark), относительное придаточное предложение (acl:relcl), обстоятельственное придаточное предложение (advcl) |
- |
|
Знак пунктуации |
- |
Связь со знаком пунктуации (punct), бессоюзное предложение (parataxis) |
Причастный, адъективный, герундиальный оборот, вставная конструкция, однородные члены |
|
Частица, стяжённая форма |
- |
Связь с союзом или частицей (mark) |
- |
|
- |
Реальная модальность |
- |
- |
|
- |
- |
Составная именованная сущность (flat) |
Синтаксические несвободное словосочетание |
|
- |
- |
Обстоятельство (advmod) |
Управление |
|
- |
- |
Посессор (nmod:poss) |
- |
|
- |
- |
Определение (amod) |
Причастный, адъективный, герундиальный оборот |
Как и в русском языке, в английском очень важными стилистическими маркерами являются средства связи. Они включают сочинительный союз, связывающий однородные члены предложения и части сложносочинённого предложения, и подчинительный союз, связывающий главную и придаточную части сложноподчинённого предложения (особо выделились относительное и обстоятельственное придаточные). Кроме того, в английском языке значимыми для классификации оказались знаки препинания, которые могут связывать предложения, части предложения, однородные члены и различные осложняющие конструкции. Картину авторского пунктуационного оформления многие исследователи считают важным стилеобразующим фактором, например, С.М. Вул Вул С. М. Судебно-автороведческая идентификационная экспертиза: методические основы: Методическое пособие. - Харьков: ХНИИСЭ, 2007. - C. 7..
Помимо служебных слов, выполняющих связующую роль, в качестве важных атрибутов выделились частицы. В силу того, что частицы выражают различные оттенки значения и придают высказыванию эмоциональную окрашенность, можно предположить, что они являются выразителями субъективного взгляда автора. В русском языке наблюдалась похожая тенденция: одни авторы в большей степени использовали наречия и частицы для выражения своего отношения к высказыванию, а другие - в меньшей. В английском языке субъективность выражается также в категории наклонения, которая передаёт реальную или ирреальную модальность.
Важную роль в классификации английских текстов сыграли вспомогательные глаголы. Есть основания полагать, что они связаны, прежде всего, с категорией залога, а не с временным планом. Времена глагола были обозначены как отдельный признак в усложнённой морфологической модели, однако в классификации оказались не так важны, как категория залога. В пассивном залоге, будь то настоящее, прошедшее или будущее время, всегда используются вспомогательные глаголы. Из этого следует, что они так же, как и признак залога, показывают, что чаще всего находится в фокусе повествования в произведениях того или иного автора: субъект действия или его объект.
Специфичной стилистической чертой для английского языка является использование составных именованных сущностей и несвободных синтаксических сочетаний. Суть этих явлений одинакова: несколькими словами они называют целостный объект речи (например, “Big Ben”, “phone book”). Можно было бы предположить, что в английском таких составных наименований больше, чем в русском, из-за фразовых глаголов, однако они выделяются в разметке UDPipe в отдельную категорию. Вероятно, причина кроется в том, что для английского языка лучше проведена разметка составных и несвободных наименований. Размытой также остаётся причина того, почему в английском языке важным признаком определился посессор. Посессор передаёт отношение между объектом обладания и притяжательным местоимением. Например, в предложении “The mother is proud of her child” отношением посессора связаны слова child и her. Предположительно такие отношения должны в равной степени встречаться в текстах разных авторов, однако статистика доказывает обратное.
Из видов связи внутри словосочетания значимым оказалось управление. Этот признак можно в некоторой степени связать с другим, а именно с обстоятельством. Управление чаще всего связывает дополнение, однако обстоятельство также может быть присоединено этой связью (например, “go to a shop”).
Как и в русском языке, в английском важную роль в классификации сыграли различные виды осложнения. Среди них причастный, адъективный, герундиальный обороты, а также вставные конструкции. Причина их выделения осталась прежней: введение дополнительной информации в предложение напрямую зависит от индивидуальных предпочтений автора.
3.7.3 Универсальные и специфичные стилистические маркеры
Итак, мы провели анализ важных атрибутов для того, чтобы определить, какие морфосинтаксические признаки лучше всего помогли при распределении русских и английских текстов по авторам. По результатам анализа стало понятно, что выделившиеся признаки выражают композициональность языка, то есть единицы и отношения на простом уровне находят отражение в явлениях на более сложном уровне языка и продолжают оцениваться как важные. Это позволило нам сделать вывод о том, что эти признаки выделяются не случайно, а действительно отражают какую-то закономерность, по которой стиль одного автора можно отличить от другого.
Все важные признаки можно разделить на две группы: универсальные, то есть характерные для обоих анализируемых языков, и специфичные, которые выделяются только в одном из них. Под категорию универсальных попали различные средства связи и служебные слова. Одним из самых важных признаков оказалось использование сочинительных союзов и рядов однородных членов. Подчинительные союзы, а также знаки препинания, связывающие любые части высказывания, тоже оказались важны для отнесения текста к тому или иному автору. Универсальной стилистической чертой для обоих языков является степень и способ выражения субъективного взгляда автора на положение вещей в произведении. В русском языке с этой целью используются наречия, наречные сочетания, эмоционально-оценочные частицы и вводные слова. В английском на эту роль подошли частицы и глаголы, выражающие реальную или ирреальную модальность с помощью категории наклонения. Также общей стилистической чертой для русского и английского языков является использование различных осложняющих конструкций, а именно: причастных, деепричастных, адъективных, герундиальных оборотов, а также вставных и вводных конструкций. Эти признаки показывают предпочтения автора к развёртыванию ситуации в несколько высказываний или к выражению мысли с помощью осложнённых конструкций.
Специфичными чертами для русского языка является использование имён существительных для описания предметных или абстрактных понятий, а также разных категорий местоимений. В английском языке специфичной стилеобразующей чертой является использование вспомогательных глаголов в пассивном залоге, составных наименований и посессивных конструкций.
3.8 Выводы
В этой главе мы решили задачу атрибуции с использованием лингвистических моделей текстовой репрезентации. В качестве baseline модели, с которой сравнивалось качество остальных моделей, была выбрана Doc2Vec модель. Кроме неё, мы использовали четыре морфосинтаксических модели, две из которых основаны на количественном подсчёте единиц и отношений, выделяемых в синтаксическом анализаторе UDPipe. Усложнённые морфосинтаксические модели мы разработали сами для того, чтобы представить некоторые особенности русской и английской грамматики в упорядоченном виде. В усложнённой морфологической модели мы предложили собственные критерии морфолого-семантического анализа, а в усложнённой синтаксической модели распределили языковые явления по двум уровням: словосочетания и предложения. Далее мы решали задачу автоматической классификации текстов по авторам, используя для этого разные методы тренировки алгоритма и оценивания результатов. Кроме того, мы настраивали количество предложений в блоках текста, которые использовались в качестве единиц для анализа. Оказалось, что как для русского, так и для английского языков лучшие результаты получаются при разбивании тренировочных текстов на непересекающиеся блоки фиксированного размера: для русского языка оптимальный размер блока - 350 предложений, а для английского - 300. Лучшие методы оценивания оказались разными для анализируемых языков: в русском языке лучше определялись части текстов, а в английском - произведения целиком. В целом, морфосинтаксические модели показали неплохой результат. В 20 экспериментах из 24 они опередили baseline модель. Кроме того, они значительно улучшили качество при их совместном использовании с Doc2Vec. Самая высокая точность классификации, а если точнее: 90% - для русского и 96% - для английского, - была достигнута именно посредством этой комбинированной модели. Максимальный прирост качества к Doc2Vec с использованием морфосинтаксических признаков составил 23%. Всё это позволяет сделать вывод о том, что морфосинтаксические модели текстовой репрезентации могут быть успешно применены в задаче автоматического определения авторства. Особенно, если учитывать тот факт, что они дают полностью интерпретируемый результат. Это подтверждается анализом ошибок, в котором нам удалось выявить закономерные основания для неправильной классификации, а также анализом важных атрибутов, который позволил нам определить универсальные и специфичные стилистические маркеры для русского и английского языков.
Заключение
В данном исследовании из задач компьютерной стилометрии решалась задача атрибуции, то есть определения автора письменного текста на основании набора текстов, принадлежащих авторам-кандидатам. Мы предлагаем к использованию для решения задачи атрибуции морфосинтаксические модели текстовой репрезентации для повышения интерпретируемости результатов и уровня доверия к ним.
Материалом для исследования послужили тексты русской и английской классики XVII - XX веков. Русский корпус состоит из 324 текстов 30 русских классиков, а английский корпус включает 207 текстов, принадлежащих 34 авторам английской классики. Материал отбирался вручную в соответствии со следующими принципами: 1) выбранные авторы являются знаковыми личностями в истории русской и английской литературы, привнёсшими в литературную традицию что-то новое и признанными мировым сообществом: их работы входят как минимум в пять национальных библиотек, английские авторы также относятся к западному канону, 2) произведения у каждого автора были подобраны таким образом, чтобы они, насколько это возможно, охватывали только один период творческой жизни писателя.
Для решения задачи классификации текстов по авторам использовались пять моделей текстовой репрезентации. В качестве baseline модели, с которой сравнивалось качество остальных моделей, была выбрана Doc2Vec модель, так как она показывает высокое качество в ряде задач текстовой классификации. Простые морфологическая и синтаксическая модели основаны на количественном подсчёте частей речи и синтаксических отношений, выделяемых в синтаксическом анализаторе UDPipe. Усложнённая морфологическая и синтаксическая модели были разработаны для того, чтобы представить особенности русской и английской грамматики в упорядоченном виде. В усложнённой морфологической модели разрабатывались критерии морфолого-семантического анализа, основанные на частях речи - для английского языка и на словах, объединённых по общему семантическому признаку, - для русского. В усложнённой синтаксической модели языковые явления были упорядочены по уровню словосочетания и предложения. Словосочетания объединялись в группы по типу связи, по количественно-структурному типу, по степени слитности компонентов и по лексико-грамматическому типу. На уровне предложения рассматривались членимые и нечленимые предложения, вокативы, генитивы, односоставные предложения, а также различные виды осложнённых предложений, которые включают междометие, обращение, однородные члены, вводную, вставную конструкции, а также причастный, деепричастный и адъективный обороты.
После формирования моделей решалась задача классификации с использованием различных методов тренировки алгоритма и оценивания результатов. В силу того, что длина произведений сильно различалась, они разбивались на части. Лучшие результаты как для русского, так и для английского языков получились при разбивании тренировочных текстов на непересекающиеся блоки фиксированного размера: для русского языка оптимальный размер блока - 350 предложений, а для английского - 300. При этом в русском языке лучше определялись части текстов, а в английском - произведения целиком. Ещё два важных наблюдения заключаются в том, что, во-первых, простые модели сработали лучше сложных, а во-вторых, синтаксические модели показали себя лучше морфологических. Возможно, это связано с композициональностью языка: синтаксис, как более сложная совокупность единиц предыдущих уровней, показывает индивидуальные предпочтения автора в использовании языковых единиц.
По результатам классификации можно сделать вывод, что морфосинтаксические модели справились с задачей атрибуции. В 20 экспериментах из 24 нам удалось превысить baseline комбинацией из морфосинтаксических признаков. Лучшее качество, полученное с помощью этой комбинированной модели, для русского языка составило 85%, а для английского - 80%. А при совместном использовании с Doc2Vec была получена самая высокая точность классификации, а если точнее: 90% - для русского и 96% - для английского. Максимальный прирост качества к Doc2Vec с использованием морфосинтаксических признаков составил 23%. Всё это доказывает право морфосинтаксических моделей быть использованными в задаче атрибуции. Особенно, если учитывать тот факт, что они дают полностью интерпретируемый результат. Это подтверждается анализом ошибок и важных атрибутов.
Анализ ошибок проводился для того, чтобы определить, есть ли закономерность в том, как классификатор раз за разом не может отличить тексты одного автора от другого, и есть ли основания полагать, что стили этих писателей похожи. Для анализа были взяты повторяющиеся ошибки, то есть те случаи, когда классификатор присваивал не менее 25% текстов одного автора другому. Такие пары авторов рассматривались в каждой модели текстовой репрезентации и их комбинациях. Если пара авторов встретилась больше, чем в 3 моделях, то стили авторов признавались похожими по языковым особенностям. Основания для такой стилистической близости были выявлены разные: влияние эпохи - предшественников на последователей и современников друг на друга, влияние жанра и влияние идей, тем, проблематики.
Анализ важных атрибутов проводился для того, чтобы определить, на какие морфосинтаксические признаки больше всего ориентировался классификатор при распределении русских и английских текстов по авторам. По результатам анализа стало понятно, что единицы и отношения на простом уровне находят отражение в явлениях на более сложном уровне языка и продолжают оцениваться как важные. Это позволило сделать вывод о том, что эти признаки выделяются не случайно, а действительно отражают какую-то закономерность, по которой стиль одного автора можно отличить от другого. Все важные признаки подразделяются на универсальные и специфичные. Под категорию универсальных попали различные средства связи: сочинительные, подчинительные союзы и знаки препинания. Универсальной чертой для обоих языков оказалось выражение субъективного взгляда автора на положение вещей в произведении. В русском языке с этой целью используются наречия, частицы и вводные слова, а в английском - частицы и глаголы, выражающие реальную или ирреальную модальность с помощью категории наклонения. Также общей стилистической чертой является использование различных осложняющих конструкций: причастных, деепричастных, адъективных, герундиальных оборотов, а также вставных и вводных конструкций.
Специфичной чертой для русского языка является использование имён существительных, которые нашли отражение в усложнённой морфологической модели в коэффициентах предметности и абстрактности. Эти коэффициенты могут сообщить о том, рассуждает ли автор в своих произведениях больше о предметном мире или о мире абстрактных явлений. Ещё одним специфичным стилистическим признаком для русского языка является использование местоимений. Мы предполагаем, что для стилей разных авторов может быть характерно использование каких-то определённых разрядов местоимений. Такие разряды, как личные, притяжательные, относительные местоимения, вероятнее всего, используются авторами в равной степени, а такие местоимения, как неопределённые, определительные, указательные, могут превалировать в речи одного писателя, а в речи другого - нет.
В английском языке специфичной стилеобразующей чертой является использование вспомогательных глаголов в пассивном залоге, которые показывают, что чаще всего находится в фокусе повествования в произведениях того или иного автора: субъект действия или его объект. Кроме этого, специфичным признаком для английского языка оказалось использование составных наименований и посессивных конструкций.
Таким образом, цель данного исследования была достигнута: разработанные лингвистические модели текстовой репрезентации позволяют не просто успешно решить задачу классификации текстов по авторам, но и проинтерпретировать полученный результат, что повышает уровень доверия к программам автоматического определения авторства.
Библиографический список
1. Барт Р. Избранные работы: Семиотика. Поэтика: пер. с фр. Сост., общ. ред. и вступ. ст. Г.К. Косикова - М.: Прогресс, 1989 - 616 с.
2. Блум Г. Западный канон. Книги и школа всех времен: пер. с англ. Д. Харитонова. М.: Новое литературное обозрение, 2017. 672 с.
3. Борисов Л.А., Орлов Ю.Н., Осминин К.П. Идентификация автора текста по распределению частот буквосочетаний // Препринты ИПМ им. М.В.Келдыша. 2013. № 27. 26 с.
4. Виноградов В.В. О теории художественной речи. М.: Высшая школа, 1971. 240 с.
5. Виноградов В.В. Проблемы авторства и теория стилей // StudFiles.net [Электронный ресурс] URL: http://www.studfiles.ru/preview/460724/page:2/ (дата обращения: 12.05.2020).
6. Виноградов В.В. О художественной прозе // books.e-heritage.ru [Электронный ресурс] URL: http://books.e-heritage.ru/book/10077359 (дата обращения: 12.05.2020).
7. Вул С. М. Судебно-автороведческая идентификационная экспертиза: методические основы: Методическое пособие. Харьков: ХНИИСЭ, 2007. 64 с.
8. Караулов Ю.Н. Русский язык и языковая личность. 7-е изд. М.: Издательство ЛКИ, 2010. 264 с.
9. Корман Б.О. Избранные труды по теории и истории литературы. Ижевск: Издательство Удмуртского университета, - 1992. 236 с.
10. Кухаренко В.А. Индивидуально-художественный стиль и его исследование. Киев-Одесса: Вища школа, 1980. 168 с.
11. Лансон Г. История французской литературы: пер. с фр. СПб.: Образование, 1899. 288 с.
12. Ли Хи Вон. Системно-субъектный метод Б.О. Кормана: Теория автора: автореф. дис.... канд. фил. наук: 10.01.08. М., 2000. 187 с.
13. Литус Е.В. Эволюция идиолекта писателя (на материале ранних произведений А.П. Чехова) // Человек и наука [Электронный ресурс] URL: http://cheloveknauka.com/evolyutsiya-idiolekta-pisatelya (дата обращения: 12.05.2020).
14. Плетнев Р.В. О методах изучения Достоевского: ответ на статью кн. Н. Трубецкого // Новый журнал. 1957. №51. С. 284-288.
15. Поддубный В.В., Шевелев О.Г., Кравцова А.С., Фатыхов А.А. Словарно-аналитический блок системы «Стилеанализатор»: материалы 14-ой Всероссийской научно-практической конференции, - Томск, 15-16 апреля 2010 г. Томск: Изд- во Том. ун-та, 2010. С. 138-140.
16. Рогов А.А., Сидоров Ю.В., Солопова А.И., Суровцова Т.Г. Информационно-аналитическая система «СМАЛТ» // Компьютерная лингвистика и интеллектуальные технологии: труды международной конференции «Диалог 2007», Бекасово, Россия, 30 мая - 3 июня 2007 г. / Под ред. Л.Л. Иомдина, Н.И. Лауфер, А.С. Нариньяни, В.П. Селегея. М.: Изд-во РГГУ, 2007. С. 470-474.
17. Сент-Бёв Ш. Литературные портреты. Критические очерки: пер. с фр. М.: Художественная литература, 1970. 585 с.
18. Сивкова А.В. Идиостиль Н.В. Гоголя в аспекте лингвокогнитивной поэтики: автореф. дис.... канд. фил. наук: 10.02.01. Калининград, 2007. 23 с.
19. Старкова Е.В. Проблема понимания феномена идиостиля в лингвистических исследованиях // Вестник ВятГУ. 2015. №5. С. 75-81.
20. Сухих С.А., Лузаков А.А. Психология взаимопонимания // Language, communication and social environment [Электронный ресурс] URL: http://lse2010.narod.ru/index/0-220 (дата обращения: 12.05.2020).
21. Тарасова И.А. Поэтический идиостиль в когнитивном аспекте (на материале поэзии Г. Иванова и И. Анненского): автореф. дис.... д-р. фил. наук: 10.02.01. Саратов, 2004. 52 с.
22. Тимофеев Л.И., Тураев С.В. Краткий словарь литературоведческих терминов. М.: Просвещение, 1985. 312 с.
23. Трубецкой Н.С. О методах изучения Достоевского // Новый журнал. 1956. №48. С. 109-121.
24. Фоменко Е.Г. Проблемы лингвотипологического описания идиостиля писателя // Вестник Северного (Арктического) федерального университета. Серия: Гуманитарные и социальные науки. 2006. №2. С. 95-102.
25. Хмелёв Д.В. Распознавание автора текста с использованием цепей А.А. Маркова // Вестник МГУ. Сер. 9: Филология. 2000. № 2. С. 115-126.
26. Шведова Н.Ю. Русский семантический словарь. Толковый словарь, систематизированный по классам слов и значений. Том 1: Слова указующие (местоимения). Слова именующие: Имена существительные (Всё живое. Земля. Космос). М.: Азбуковник, 2002. 807 c.
27. Шведова Н.Ю. Русский семантический словарь. Толковый словарь, систематизированный по классам слов и значений. Том 2: Имена существительные с конкретным значением. Всё создаваемое руками и умом человека. Названия предметов по форме, состоянию, составу, местонахождению, употреблению. М.: Азбуковник, 2002. 762 c.
28. Шведова Н.Ю. Русский семантический словарь. Толковый словарь, систематизированный по классам слов и значений. Том 3: Имена существительные с абстрактным значением. Бытие. Материя, пространство, время. Связи, отношения, зависимости. Духовный мир. Состояние природы, человека. Общество. М.: Азбуковник, 2003. 720 c.
29. Baayen R., Halteren H. van, Tweedie F. Outside the cave of shadows: Using syntactic annotation to enhance authorship attribution // Literary and Linguistic Computing. 1996. Vol. 11(3). P. 121-132.
30. Bacciu A., Morgia M. La, Mei A., Nemmi E.N., Neri V., Stefa J. Cross-Domain Authorship Attribution Combining Instance-Based and Profile-Based Features [Electronic resource] // CLEF 2019 Labs and Workshops, Notebook Papers, Lugano, Switzerland, 9-12 September 2019. Aachen: CEUR Workshop Proceedings, 2019. URL: http://ceur-ws.org/Vol-2380/paper_220.pdf
31. Custoмdio J.E., Paraboni I. EACH-USP Ensemble Cross-domain Authorship Attribution [Electronic resource] // Working Notes of CLEF 2018 - Conference and Labs of the Evaluation Forum, Avignon, France, 10-14 September 2018 / In: Cappellato L., Ferro N., Nie J.Y., Soulier L. (eds.). Aachen: CEUR Workshop Proceedings, 2018. URL: http://ceur-ws.org/Vol-2125/paper_76.pdf
32. Halvani O., Graner L. Cross-Domain Authorship Attribution Based on Compression [Electronic resource] // Working Notes of CLEF 2018 - Conference and Labs of the Evaluation Forum, Avignon, France, 10-14 September 2018 / In: Cappellato L., Ferro N., Nie J.Y., Soulier L. (eds.). Aachen: CEUR Workshop Proceedings, 2018. URL: http://ceur-ws.org/Vol-2125/paper_90.pdf
33. Hosseinia M., Mukherjee A. A Parallel Hierarchical Attention Network for Style Change Detection [Electronic resource] // Working Notes of CLEF 2018 - Conference and Labs of the Evaluation Forum, Avignon, France, 10-14 September 2018 / In: Cappellato L., Ferro N., Nie J.Y., Soulier L. (eds.). Aachen: CEUR Workshop Proceedings, 2018. URL: http://ceur-ws.org/Vol-2125/paper_91.pdf
34. Johannsen A., Hovy D., Sшgaard A.: Cross-lingual syntactic variation over age and gender // Proceedings of the Nineteenth Conference on Computational Natural Language Learning: CoNLL, Beijing, China, 30-31 July 2015. Cambridge: ACL, 2015. P. 103-112.
35. Kestemont M., Stamatatos E., Manjavacas E., Daelemans W., Potthast M., Stein B. Overview of the cross-domain authorship attribution task at {PAN} 2019 // CEUR Workshop Proceedings. 2019. Vol. 2380. P. 1-15.
36. Kestemont M., Tschuggnall M., Stamatatos E., Daelemans W., Specht G., Stein B., Potthast M. Overview of the author identification task at PAN-2018: cross-domain authorship attribution and style change detection // CEUR Workshop Proceedings. 2018. Vol. 2125. P. 1-25.
37. Korobov M. Morphological Analyzer and Generator for Russian and Ukrainian Languages // Analysis of Images, Social Networks and Texts. AIST 2015, Yekaterinburg, Russia, 9-11 April 2015 / In: Khachay M., Konstantinova N., Panchenko A., Ignatov D., Labunets V. (eds). Cham: Springer, 2015. P. 320-332.
38. Le Q., Mikolov T. Distributed representations of sentences and documents // ICML'14 Proceedings of the 31st International Conference on International Conference on Machine Learning, Beijing, China, 21-26 June 2014. JMLR, 2014. P. 1188-1196.
39. Litvinova T.A., Sboev A.G., Panicheva P.V. Profiling the Age of Russian Bloggers // Proceedings of the 7th International Conference, AINL 2018, St. Petersburg, Russia, 17-19 October 2018 / In: Ustalov D., Filchenkov A., Pivovarova L., Ћiћka J. (eds). Cham: Springer, 2018. P. 167-177.
40. Luyckx K., Daelemans W., Vanhoutte E. Stylogenetics: Clustering-based stylistic analysis of literary corpora // Proceedings of LREC-2006: The 5th International Language Resources and Evaluation Conference, Genoa, Italy, 22-28 May 2006 / In: Calzolari N., Choukri K., Gangemi A., Maegaard B., Mariani J., Odijk J., Tapias D. (eds.). Paris: ELRA, 2006. P. 30-35.
41. Murauer B., Tschuggnall M., Specht G. Dynamic Parameter Search for Cross-Domain Authorship Attribution [Electronic resource] // Working Notes of CLEF 2018 - Conference and Labs of the Evaluation Forum, Avignon, France, 10-14 September 2018 / In: Cappellato L., Ferro N., Nie J.Y., Soulier L. (eds.). Aachen: CEUR Workshop Proceedings, 2018. URL: http://ceur-ws.org/Vol-2125/paper_84.pdf
42. Muttenthaler L., Lucas G., Amann J. Authorship Attribution in Fan-Fictional Texts given variable length Character and Word N-Grams [Electronic resource] // CLEF 2019 Labs and Workshops, Notebook Papers, Lugano, Switzerland, 9-12 September 2019. Aachen: CEUR Workshop Proceedings, 2019. URL: http://ceur-ws.org/Vol-2380/paper_49.pdf
43. Panicheva P.V., Ledovaya Y.A., Bogolyubova O.N. Lexical, Morphological and Semantic Correlates of the Dark Triad Personality Traits in Russian Facebook Texts // Proceedings of the AINL FRUCT 2016 Conference, St. Petersburg, Russia, 10-12 November 2016. IEEE Xplore, 2016. P. 72-79.
44. Pimonova E.V., Durandin O.V., Malafeev A.Y. Authorship Attribution in Russian with New High-Performing and Fully Interpretable Morpho-Syntactic Features // Analysis of Images, Social Networks and Texts. AIST 2019. Lecture Notes in Computer Science / In: van der Aalst W. et al. (eds). Cham: Springer, 2019. Vol. 11832. P. 193-204.
45. Pimonova E.V., Durandin O.V., Malafeev A.Y. (in press). Doc2Vec or Better Interpretability? A Method Study for Authorship Attribution // Proceedings of the 26th International Conference “Dialogue 2020” - M.: Computational Linguistics and Intellectual Technologies, 2020.
46. Safin K., Ogaltsov A. Detecting a Change of Style Using Text Statistics [Electronic resource] // Working Notes of CLEF 2018 - Conference and Labs of the Evaluation Forum, Avignon, France, 10-14 September 2018 / In: Cappellato L., Ferro N., Nie J.Y., Soulier L. (eds.). Aachen: CEUR Workshop Proceedings, 2018. URL: http://ceur-ws.org/Vol-2125/paper_104.pdf
47. Sapkota U., Bethard S., Montes M., Solorio T. Not All Character N-grams Are Created Equal: A Study in Authorship Attribution // Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Denver, Colorado, 31 May - 5 June 2015. Cambridge: ACL, 2015. P. 93-102.
48. Stamatatos E. Authorship Attribution Using Text Distortion // Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics, Valencia, Spain, 3-7 April 2017. Cambridge: ACL, 2017. P. 1138-1149.
49. Straka M., Hajic J., Strakovб J. UDPipe: trainable pipeline for processing CoNLL-U files performing tokenization, morphological analysis, pos tagging and parsing // Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16), Portoroћ, Slovenia, 23-28 May 2016 / In: Calzolari N., Choukri K., Declerck T., Goggi S., Grobelnik M., Maegaard B., Mariani J., Mazo H., Moreno A., Odijk J., Piperidis S. (eds.). Paris: ELRA, 2016. P. 4290-4297.
50. Wellek R., Warren A. Theory of Literature // Harcourt, Brace and Company. 1949. P. 426.
51. Zheng R., Li J., Chen H., Huang Z. A Framework for Authorship Identification of Online Messages: Writing-Style Features and Classification Techniques // Journal of the American Society for Information Science and Technology. 2006. Vol. 57(3). P. 378-393.
Размещено на Allbest.ru
Подобные документы
История появления и общее понятие языкового портрета личности. Анализ способов речевых манипуляций. Разработка концепции языковой личности в отечественном языкознании. Реконструирование портрета личности. Роль речевых особенностей в языковой личности.
реферат [22,0 K], добавлен 10.04.2015Предпосылки создания теории языковой личности. Лексемы "мать" и "отец" как универсальные доминанты в дискурсе Н.А. Дуровой. Лексико-семантическое поле "мать" в дискурсе мемуарной прозы "Записки кавалерист-девицы". Особенности идиостиля писательницы.
курсовая работа [57,5 K], добавлен 15.05.2014Типы орфографической языковой личности, разработка методики ее исследования. Исследование портретов индивидуальных орфографических личностей на основе лингвистических и психологических тестов при помощи работ по русскому языку и дополнительным предметам.
курсовая работа [15,8 K], добавлен 02.10.2011Понятие языковой личности в отечественной лингвистике, уровни ее анализа. Категория комического дискурса как объекта лингвистического исследования. Характеристика вербально-семантического уровня языковой личности шута в поэме Шекспира "Король Лир".
курсовая работа [55,7 K], добавлен 25.01.2011Языковой портрет музыканта на примере певицы Adele, ее семантико-синтаксические, лексические и морфологические особенности. Отражение языковой личности в музыке. Анализ языковых особенностей современного музыканта в рамках воздействия на общество.
реферат [21,6 K], добавлен 21.05.2013Теоретические понятия языковой игры, политического текста и метафоры. Определение политической метафоры. Классификация примеров метафорического использования языковых единиц. Формирование негативного образа властных субъектов в сознании адресата.
курсовая работа [38,2 K], добавлен 23.08.2011Речевые параметры и особенности речеупотребления языковых личностей, могущих быть отнесенными к типу сильных. Высказывания советской актрисы театра и кино Фаины Георгиевны Раневской и современного писателя-сатирика Михаила Михайловича Жванецкого.
дипломная работа [155,2 K], добавлен 03.02.2015Определение понятия текста в лингвистике; его содержательная структура. Импликации в художественном произведении. Причины семантико-структурных отступлений перевода от оригинала. Анализ ценности информации и сообщения. Сущность языковой избыточности.
презентация [44,7 K], добавлен 30.10.2013Теоретические основы изучения текста. Разграничение текста и дискурса. Понятие текста и подходы к его анализу. Употребление терминов texte и discours во французском языке. Сравнительно-сопоставительное исследование текста астрологического прогноза.
дипломная работа [204,5 K], добавлен 03.07.2009Проблема языковой личности в гуманитарных науках. Языковая личность как объект лингвистических исследований. Структура языковой личности. Семантико - синтаксический уровень языковой личности ученого. Терминологическая система обозначения Гумилева.
курсовая работа [56,2 K], добавлен 08.07.2008