Универсальные морфосинтаксические маркеры стиля в задачах компьютерной стилометрии

Теоретические подходы к определению языковой личности. Методики анализа языковой личности в судебно-автороведческой экспертизе. Лингвистические модели представления текста. Использование морфосинтаксических моделей репрезентации письменного текста.

Рубрика Иностранные языки и языкознание
Вид дипломная работа
Язык русский
Дата добавления 09.09.2020
Размер файла 871,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Вторым в топе лучших стал алгоритм, разработанный группой итальянских исследователей с А. Баччу во главе Bacciu A., Morgia M. La, Mei A., Nemmi E.N., Neri V., Stefa J. Cross-Domain Authorship Attribution Combining Instance-Based and Profile-Based Features [Electronic resource] // CLEF 2019 Labs and Workshops, Notebook Papers, Lugano, Switzerland, 9-12 September 2019. - Aachen: CEUR Workshop Proceedings, 2019. URL: http://ceur-ws.org/Vol-2380/paper_220.pdf. В этой работе используются n-граммы слов, символов, частей речи, корней слов и искажённой версии текста. Выделение корней производилось с помощью инструмента SnowballStemmer, а частеречное тегирование - с помощью spaCy. Кроме того, проводилось tf-idf взвешивание. Материал для анализа авторы объединяли в два набора: 1) все тексты одного автора в тренировочной выборке складывались в один, 2) все тексты одного автора в тренировочной выборке рассматривались отдельно. В итоге, модель показала результаты, в среднем не сильно хуже лучшей модели: macro-F1 = 0.680, macro-precision = 0.688, macro-recall = 0.768.

2.1.4 Интерпретируемость n-граммов

Несмотря на то, что модель n-граммов показывает хорошие результаты, она мало интерпретируема. У. Сапкота, С. Бетард и М. Монтес-и-Гомец ищут в своём исследовании ответы на вопросы о том, все ли группы n-граммов одинаково важны для задачи атрибуции и с какими лингвистическими явлениями они соотносятся Sapkota U., Bethard S., Montes M., Solorio T. Not All Character N-grams Are Created Equal: A Study in Authorship Attribution // Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Denver, Colorado, 31 May - 5 June 2015. - Cambridge: ACL, 2015. - P. 93-102.. Авторы выделяют следующие типы n-граммов: морфосинтаксические, которые захватывают аффиксы и прилегающие к ним пробелы (например, провел-префикс), тематические, захватывающие корень слова или всё слово целиком, и стилистические, включающие в свой состав знаки пунктуации. В работе решаются две задачи: однодоменная и междоменная атрибуция. Однодоменная атрибуция заключается в том, что исследуемые тексты принадлежат одной конкретной области. Для этой задачи использовались новостные корпуса CCAT_10 (по 100 текстов на 10 авторов) и CCAT_50 (по 100 текстов на 50 авторов) на тему промышленности. Междоменная атрибуция проводится на текстах из разных предметных областей. Для этой задачи были использованы новостные корпуса из газеты «The Guardian» на следующие темы: «мир», «U.K.», «общество», «политика» (по 10 документов на 13 авторов для каждой темы). В задаче однодоменной атрибуции лучшую точность показали морфосинтаксические и тематические n-граммы, а в задаче междоменной атрибуции - морфосинтаксические и стилистические. Таким образом, несмотря на то, что n-граммы плохо поддаются интерпретации, они в какой-то мере отражают индивидуальные признаки грамматического навыка автора.

2.1.5 Компрессия текстов

Ещё одним формальным подходом к решению задачи атрибуции является компрессия текстов. Этот метод предложили О. Халвани и Л. Гранер в рамках конкурса PAN 2018 года Halvani O., Graner L. Cross-Domain Authorship Attribution Based on Compression [Electronic resource] // Working Notes of CLEF 2018 - Conference and Labs of the Evaluation Forum, Avignon, France, 10-14 September 2018 / In: Cappellato L., Ferro N., Nie J.Y., Soulier L. (eds.). - Aachen: CEUR Workshop Proceedings, 2018. URL: http://ceur-ws.org/Vol-2125/paper_90.pdf. Авторы использовали PPM алгоритм для построения модели, основанной на подсчёте употреблений символов. Классификатор делал предсказания без этапа тренировки на основе сходства вероятностного распределения частот символов в текстах. Результаты, которые выдала модель, получились следующие: macro-F1 = 0.629, macro-precision = 0.649, macro-recall = 0.729, micro-accuracy = 0.715. Компрессия текстов заняла третье место в топе алгоритмов 2018. В следующем году эта модель была предложена организаторами конкурса PAN 2019 в качестве исходной наряду с n-граммами символов Kestemont M., Stamatatos E., Manjavacas E., Daelemans W., Potthast M., Stein B. Overview of the cross-domain authorship attribution task at {PAN} 2019 // CEUR Workshop Proceedings. - 2019. - Vol. 2380. - P. 1-15..

2.2 Лингвистические модели представления текста

2.2.1 Частотный анализ слов

В работах по компьютерной стилометрии используются также лингвистические модели, которые отражают какие-либо языковые особенности. К исследованиям такого плана относится работа В.В. Поддубного, О.Г. Шевелева, А.С. Кравцовой и А.А. Фатыхова Поддубный В.В., Шевелев О.Г., Кравцова А.С., Фатыхов А.А. Словарно-аналитический блок системы «Стилеанализатор»: материалы 14-ой Всероссийской научно-практической конференции, - Томск, 15-16 апреля 2010 г. - Томск: Изд- во Том. ун-та, 2010. - С. 138-140.. Их моделью репрезентации была матрица частот встречаемости всех словоупотреблений, которая, по мнению учёных, могла бы позволить выявить наиболее перспективные с точки зрения различия стилей фразы и слова. Однако по результатам исследования стала наблюдаться тенденция к разделению текстов по функциональным стилям речи, что подтверждает недостаточность частотного анализа слов для выделения стиля конкретного автора.

2.2.2 Морфосинтаксическая модель

А.А. Рогов, Ю.В. Сидоров, А.И. Солопова и Т.Г. Суровцова разработали информационно-аналитическую систему «СМАЛТ», в основе которой лежат морфосинтаксические особенности русского языка. Морфологические признаки состоят в частотном анализе частей речи и их морфологических характеристик: времени, вида - у глагола, рода, числа - у имени существительного и так далее. Синтаксические признаки основываются на частотном анализе синтаксических единиц (словосочетаний, предложений) и отношений между ними, например, связи слов в словосочетании. Из двух видов анализа - морфологического и синтаксического - авторы статьи отдают предпочтение последнему, утверждая, что «на уровне морфологического разбора средний показатель частоты функционирования в тексте основных грамматических категорий не может служить достаточно ярким показателем стилистической индивидуальности» Рогов А.А., Сидоров Ю.В., Солопова А.И., Суровцова Т.Г. Информационно-аналитическая система «СМАЛТ» // Компьютерная лингвистика и интеллектуальные технологии: труды международной конференции «Диалог 2007», Бекасово, Россия, 30 мая - 3 июня 2007 г. / Под ред. Л.Л. Иомдина, Н.И. Лауфер, А.С. Нариньяни, В.П. Селегея. - М.: Изд-во РГГУ, 2007. - С. 473..

Морфосинтаксическую модель для решения задачи атрибуции использовали также Х. Байен, Х. фон Хальтерен и Ф. Твиди Baayen R., Halteren H. van, Tweedie F. Outside the cave of shadows: Using syntactic annotation to enhance authorship attribution // Literary and Linguistic Computing. - 1996. - Vol. 11(3). - P. 121-132.. Из текстов, проаннотированных при помощи синтаксического анализатора CCPP и TOSCA, они вычленяли комплексы отношений, вычисленных на основе грамматики составляющих. Эти отношения представляют собой модель словосочетания, где в качестве основы берётся категория словосочетания, которая в свою очередь распадается на категории составляющих единиц (например, NP > DTP + N, где NP - это именная группа, DTP - это группа артикля, а N - это имя существительное). Затем добавлялись метки функций в предложении (например, SU - подлежащее) и метки морфологических характеристик (например, sing - единственное число). В результате получилось 4194 типов словосочетания. Их частотность в тексте была использована в задаче классификации в качестве атрибутов. Авторы сравнивали работу своего алгоритма с подходами, основанными на частотном анализе словоформ, и пришли к выводу, что морфосинтаксический метод показывает результаты не хуже и может быть новой полезной техникой для определения авторства.

М. Хоссейни и А. Мукерджи также взяли за основу грамматическую структуру текста для задачи обнаружения изменений в стиле в конкурсе PAN 2018 Hosseinia M., Mukherjee A. A Parallel Hierarchical Attention Network for Style Change Detection [Electronic resource] // Working Notes of CLEF 2018 - Conference and Labs of the Evaluation Forum, Avignon, France, 10-14 September 2018 / In: Cappellato L., Ferro N., Nie J.Y., Soulier L. (eds.). - Aachen: CEUR Workshop Proceedings, 2018. URL: http://ceur-ws.org/Vol-2125/paper_91.pdf. Они представляли документ в виде последовательности признаков синтаксического дерева, которые в качестве атрибутов передавались дальше рекуррентной нейронной сети. С помощью такого алгоритма авторам удалось достичь точности 83% и занять второе место в топе лучших работ по обнаружению изменений в стиле.

А. Иогансен, Д. Хови и А. Согард занимались определением пола и возраста автора на основе грамматической модели Johannsen A., Hovy D., Sшgaard A.: Cross-lingual syntactic variation over age and gender // Proceedings of the Nineteenth Conference on Computational Natural Language Learning: CoNLL, Beijing, China, 30-31 July 2015. - Cambridge: ACL, 2015. - P. 103-112.. Получив наборы частей речи и синтаксических отношений, авторы извлекли состоящие из трёх токенов поддеревья, которые они называют трилетами. Авторы различают три типа трилетов. Трилет из одного токена - это часть речи слова, трилет из двух токенов - отношения между главным и зависимым словами (например, глагол > (координация) > существительное). Трилет из трех слов бывает двух видов: когда два слова исходят от одного главного слова (например, существительное < глагол > существительное) и когда слова выстраиваются в цепочку последовательного подчинения (например, глагол > существительное > местоимение). Совокупности всех возможных трилетов послужили атрибутами для определения пола и возраста авторов представленных текстов. По результатам исследования авторы статьи сделали вывод, что синтаксис позволяет определять некоторые гендерные и возрастные различия, константно проявляющиеся в разных языках.

2.2.3 Семантическая модель

П.В. Паничева и Я.А. Ледовая для решения задачи профилирования использовали модель, передающую лексические, семантические и морфологические особенности русского языка Panicheva P.V., Ledovaya Y.A., Bogolyubova O.N. Lexical, Morphological and Semantic Correlates of the Dark Triad Personality Traits in Russian Facebook Texts // Proceedings of the AINL FRUCT 2016 Conference, St. Petersburg, Russia, 10-12 November 2016. - IEEE Xplore, 2016. - P. 72-79.. В постах Facebook на русском языке они определяли людей, принадлежащих так называемой тёмной триаде - людям с выраженной склонностью к макиавеллизму, нарциссизму и психопатии. Для этого они проводили частотный анализ слов, а также морфологический и семантический анализ при помощи библиотеки PyMorphy и векторного представления слов Word2Vec. Частотный анализ слов, как и в исследовании В.В. Поддубного, не дал статистически значимых результатов. Зато в результате морфологического и семантического анализа авторы выявили слова и морфологические характеристики, наиболее типичные для исследуемой категории людей.

2.3 Статистические модели представления текста

Распространённым подходом к определению авторства является метод, основанный на статистических параметрах текста. Этот метод стоит на границе между формальными и лингвистическими моделями, так как в работах по стилометрии зачастую используются модели, объединяющие как мало интерпретируемые параметры (например, средняя длина слова в символах), так и признаки, в большей степени связанные с языковыми особенностями (например, частота частей речи).

К. Сафин и О.В. Огальцов в рамках конкурса PAN 2018 года по обнаружению изменений в стиле, помимо символьных n-грамм, использовали 19 статистических параметров текста, например, количество предложений, длину текста, частоты слов, символов, пунктуации и так далее Safin K., Ogaltsov A. Detecting a Change of Style Using Text Statistics [Electronic resource] // Working Notes of CLEF 2018 - Conference and Labs of the Evaluation Forum, Avignon, France, 10-14 September 2018 / In: Cappellato L., Ferro N., Nie J.Y., Soulier L. (eds.). - Aachen: CEUR Workshop Proceedings, 2018. URL: http://ceur-ws.org/Vol-2125/paper_104.pdf. Построив ансамбль из трёх классификаторов, каждый из которых представлял отдельную модель: статистические параметры текста, n-граммы символов и выведенные в отдельную модель частоты слов, - авторы получили точность 80%.

К. Лёйкс, У. Делеман и Э. Вангутт в своей работе предлагают использовать в качестве атрибутов следующие параметры: 1) богатство словаря автора, которое высчитывается по формуле V, делённое на C, где V - это размер словаря, а C - размер корпуса, 2) длина слов, 3) читабельность - величина, полученная в результате усреднения длины слов и предложений, 4) частота частей речи, 5) частотные служебные слова и 6) частотные словосочетания Luyckx K., Daelemans W., Vanhoutte E. Stylogenetics: Clustering-based stylistic analysis of literary corpora // Proceedings of LREC-2006: The 5th International Language Resources and Evaluation Conference, Genoa, Italy, 22-28 May 2006 / In: Calzolari N., Choukri K., Gangemi A., Maegaard B., Mariani J., Odijk J., Tapias D. (eds.). - Paris: ELRA, 2006. - P. 30-35.. С помощью этих признаков авторы решали задачу кластеризации и распределяли авторов литературных текстов по полу.

Ещё более разнообразные признаки предлагают в своей работе Р. Чжэн, Ц. Ли, Н. Чэнь и Ц. Хуан Zheng R., Li J., Chen H., Huang Z. A Framework for Authorship Identification of Online Messages: Writing-Style Features and Classification Techniques // Journal of the American Society for Information Science and Technology. - 2006. - Vol. 57(3). - P. 378-393.. Авторы определяют пять групп статистических параметров текста. Первая группа признаков основана на подсчёте количества слов и смежных величин: например, количества слов короче четырёх символов, количества символов в словах, усредненной длины слова, усредненной длины предложения и так далее. Вторая группа признаков, предложенная исследователями, основана на символах. В ней подсчитываются частоты букв, цифр, пробелов, специальных символов и общее число символов. С помощью этих параметров авторство интернет-сообщений определялось с точностью 89%. Авторы взяли модель с этими признаками за основную. Следующая группа признаков состояла из частот знаков пунктуации и служебных слов. Она использовалась вместе со второй группой признаков, однако улучшила качество не сильно. Четвёртая группа состоит из слов, отличительных для какого-то типа текстов и передающих их специфическое содержание (например, слова «windows», «microsoft», «paypal»). Эти признаки позволили улучшить качество. И, наконец, последняя группа признаков передаёт структурные особенности текста: количество строк, предложений, параграфов, предложений в параграфе, символов в параграфе и другие. Эти признаки значительно улучшили качество, в связи с чем авторы статьи считают их хорошими признаками для решения задачи атрибуции.

2.4 Выводы

Итак, задачи компьютерной стилометрии решаются с помощью формальных и лингвистических моделей. Формальные модели не зависят от языковых особенностей и могут быть использованы для разных языков. Самой распространённой моделью в задаче определения авторства является модель n-граммов, которая была предложена ещё в самом начале XXI века. Изначальную модель n-граммов фиксированного размера авторы современных работ по стилометрии модифицировали, предложив к использованию модель n-граммов с переменной длиной. Кроме того, в современных исследованиях используются не только n-граммы символов, но и n-граммы слов и частей речи. Ещё одним успешным методом является компрессия текстов. Помимо формальных моделей, в задачах компьютерной стилометрии используются также лингвистические модели, основанные на языковых особенностях конкретного языка. Несмотря на то, что лингвистические модели не могут применяться универсально ко всем языкам, они в большей степени поддаются интерпретации и наиболее приближены к восприятию языка человеком. Лингвистические модели основываются на лексических, морфологических, синтаксических и семантических особенностях текста. На границе между формальными и лингвистическими моделями стоят статистические модели, суть которых заключается в количественном подсчёте всевозможных характеристик текста: как формальных (например, частоты символов), так и лингвистических (например, частоты частей речи и синтаксических отношений).

3. Решение задачи атрибуции с использованием морфосинтаксических моделей репрезентации письменного текста

3.1 Принципы сбора и объём материала

В текущем исследовании решается задача атрибуции, то есть определения авторства на основании набора текстов, принадлежащих авторам-кандидатам. В качестве материала для исследования мы использовали два корпуса на русском и английском языках. Русский корпус состоит из 324 текстов 30 русских классиков. Размер русского корпуса составляет 48 миллионов знаков и 7 миллионов токенов. Английский корпус включает 207 текстов, принадлежащих 34 авторам английской классики. Его размер составляет 120 миллионов знаков и 22 миллиона токенов. Материал отбирался вручную в соответствии со следующими принципами:

1) Выбранные авторы являются знаковыми личностями в истории русской и английской литературы. Это так называемые авторы первого ряда, пишущие богатым, литературным языком и привнесшие в литературную традицию что-то новое. Черты их уникального стиля заимствовались авторами второго ряда и вошли в традицию. Кроме того, эти авторы признаны мировым сообществом: их работы входят как минимум в пять национальных библиотек (см. Приложение А). Большинство английских авторов относятся к западному канону Блум Г. Западный канон. Книги и школа всех времен: пер. с англ. Д. Харитонова. - М.: Новое литературное обозрение, 2017. - 672 с..

2) Произведения, которые были взяты для анализа, написаны во временной период с середины XVII по конец XX века (см. Приложение Б). Исследуемые тексты охватывают разные исторические эпохи, раскрывают разные темы и идеи. Это значит, что мы решаем задачу междоменной атрибуции, то есть задачу определения авторства при условии, что тексты в тренировочной и тестовой выборке могут отличаться по жанрам и темам.

3) Произведения у каждого автора были подобраны таким образом, чтобы они, насколько это возможно, охватывали только один период творческой жизни писателя. Это сделано с той целью, чтобы минимизировать разницу стиля одного и того же писателя.

3.2 Инструментарий

В данном исследовании компьютерная обработка проводилась с помощью языка программирования Python с использованием дополнительных библиотек. Для обработки естественного языка был использован синтаксический анализатор UDPipe, разработанный авторами проекта Universal Dependencies Straka M., Hajic J., Strakovб J. UDPipe: trainable pipeline for processing CoNLL-U files performing tokenization, morphological analysis, pos tagging and parsing // Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16), Portoroћ, Slovenia, 23-28 May 2016 / In: Calzolari N., Choukri K., Declerck T., Goggi S., Grobelnik M., Maegaard B., Mariani J., Mazo H., Moreno A., Odijk J., Piperidis S. (eds.). - Paris: ELRA, 2016. - P. 4290-4297.

. Идея этого проекта заключается в создании универсального формата разметки для разноструктурных языков. Разметка для английского языка производилась на базе шести корпусов, которые различаются по дискурсу и по тематике. В синтаксическом анализаторе UDPipe используется самый большой английский корпус EWT (English Web Treebank) размером в 254 тысячи токенов, составленный на основе блогов, писем, постов и отзывов в социальных сетях. Разметка для русского языка в проекте Universal Dependencies производилась с использованием четырёх корпусов. В основу UDPipe заложен русский корпус SynTagRus размером в 1 107 тысяч токенов, составленный из литературных и новостных текстов. Качество обработки языка в русской и английской моделях представлено в таблице 1.

Библиотека UDPipe в текущем исследовании использовалась для токенизации (разбиения текста на слова и предложения), частеречной разметки и синтаксического анализа. Кроме того, в одной из русских моделей репрезентации текста для повышения качества разметки использовалась библиотека PyMorphy, так как в UDPipe не представлены некоторые части речи, специфичные для русского языка (например, слова категории состояния) Korobov M. Morphological Analyzer and Generator for Russian and Ukrainian Languages // Analysis of Images, Social Networks and Texts. AIST 2015, Yekaterinburg, Russia, 9-11 April 2015 / In: Khachay M., Konstantinova N., Panchenko A., Ignatov D., Labunets V. (eds). - Cham: Springer, 2015. - P. 320-332..

Таблица № 1

Характеристики языковых моделей в UDPipe

Название характеристики

Расшифровка характеристики

Точность в английской модели, %

Точность в русской модели, %

Word tokenization

Разбиение текста на слова

98.9

99.6

Sentence tokenization

Разбиение текста на предложения

77.4

98.8

UPOS

Разметка универсальных частей речи

93.3

97.8

XPOS

Разметка лингвоспецифичных частей речи

92.8

-

UFeats

Разметка универсальных морфологических характеристик

94.8

93.5

AllTag

Общее качество разметки

91.3

93.2

Lemma

Приведение к начальной форме

95.5

96.5

UAS

Разметка отношений между словами без учета семантики

80.2

87.6

LAS

Разметка отношений между словами с учетом семантики

77.0

85.0

MLAS

Разметка отношений между словами с учетом частей речи и морфологических характеристик

67.7

77.0

BLEX

Разметка отношений между словами после приведения к начальной форме

69.5

79.4

3.3 Модели текстовой репрезентации

3.3.1 Doc2Vec модель

Для решения задачи атрибуции мы используем лингвистические модели текстовой репрезентации, в основу которых заложены особенности русского и английского языков. В качестве baseline - исходной модели, с которой сравнивается качество остальных, - была выбрана модель Doc2Vec, представляющая слова, предложения, абзацы или документы целиком в виде векторов Le Q., Mikolov T. Distributed representations of sentences and documents // ICML'14 Proceedings of the 31st International Conference on International Conference on Machine Learning, Beijing, China, 21-26 June 2014. - JMLR, 2014. - P. 1188-1196.. Doc2Vec считается семантической моделью, так как её отличительной чертой является связывание слов в контексте. Для задачи атрибуции данная модель может быть полезна, так как, во-первых, она показывает высокое качество в разных задачах текстовой классификации, а во-вторых, с её помощью представляется возможным создать индивидуальное семантическое пространство автора. Для повышения качества baseline модели мы предлагаем собственные морфосинтаксические модели, отличающиеся по сложности репрезентации.

3.3.2 Простые морфологическая и синтаксическая модели

Простые морфологическая и синтаксическая модели основаны на частотном анализе частей речи и синтаксических отношений, представленных в тексте. Морфологическая модель включает 17 уникальных признаков. Их количество не отличается для русского и английского языков, так как части речи в библиотеке UDPipe определяются универсальным образом. Разумеется, грамматика этих двух языков различается, поэтому под одну и ту же категорию могли попасть разные явления. В таблице 2 части речи из библиотеки UDPipe сопоставлены с реальными, обозначаемыми ими русскими и английскими языковыми явлениями.

Таблица № 2

Соотношение морфологических признаков и языковых явлений в русском и английском языках

Название признака

Языковые явления в русском языке

Языковые явления в английском языке

ADJ

Имя прилагательное, порядковое числительное, причастие

Имя прилагательное

ADP

Предлог

Предлог

ADV

Наречие, местоименное наречие

Наречие

AUX

Вспомогательный глагол, глагол-связка, частица «бы» в сослагательном наклонении

Вспомогательный глагол

CCONJ

Сочинительный союз

Сочинительный союз

DET

Возвратное, притяжательное, указательное, вопросительное, относительное, неопределённое, определённое, отрицательное местоимение

Артикль, притяжательное, указательное местоимение, порядковое числительное

INTJ

Междометие

Междометие

NOUN

Имя существительное

Имя существительное

NUM

Арабские и римские цифры, порядковое, собирательное числительное, относительное, указательное местоимение

Арабские и римские цифры, порядковое числительное

PART

Частица

Частица, стяжённая форма

PRON

Личное, возвратное, указательное, вопросительное, относительное, неопределённое, определительное, отрицательное местоимение

Личное, притяжательное, указательное местоимение

PROPN

Имя собственное

Имя собственное

PUNCT

Знак пунктуации

Знак пунктуации

SCONJ

Подчинительный союз

Подчинительный союз

SYM

Символ, смайл

Символ, смайл

VERB

Глагол, герундий

Глагол, деепричастие, причастие

X

Сокращение, цифра, передающая звучание слова, адрес электронной почты

Иностранное слово, бессмысленный набор символов

Такие различия в содержании морфологических признаков оправданы, так как сведение грамматик разных языков к единому формату делает возможным создание универсальной лингвистической модели для решения задач текстовой классификации. Тем не менее на этапе интерпретации стоит помнить о том, что за одним и тем же признаком могут стоять разные явления, и, соответственно, делать выводы относительно того языка, который изучается.

В простой синтаксической модели, в отличие от морфологической, количество признаков для русского и английского языков различается. Это связано с тем, что синтаксическая разметка Universal Dependences поддерживает лингвоспецифичные отношения. В русском их пять. Например, субъектный инфинитивный оборот в пассивном залоге, как в предложении: «Объявили, что решено продлить испытания на сутки», - и эллипсис: «Длина острова составляла 14, а ширина - 5 километров». Не все специфичные отношения являются уникальными для языка. Некоторые из них связаны, скорее, со спецификой разметки. Например, признак составного имени (Андрей Васильевич Пастухов) и номера при числительном (Люда вошла в комнату номер 7). В английском языке наблюдается такая же тенденция: из 12 специфичных отношений только 3 являются лингвоспецифичными. Например, фразовые глаголы (We've grown up) и связь со словами both, either, neither. Всего синтаксических признаков в русском языке выделяется 38, а в английском - 45 (см. Приложение В).

3.3.3 Усложнённая морфологическая модель

Для повышения интерпретируемости результатов мы разработали усложнённые морфологическую и синтаксическую модели, которые охватывают языковые явления более высокого уровня. Причём для морфологической модели повышение интерпретируемости, по нашему мнению, в большей степени необходимо, так как единицы морфологии находятся уровнем ниже синтаксических, а значит, содержат в себе меньше информации и обладают меньшим объяснительным потенциалом.

В усложнённой морфологической модели для русского языка мы решили объединять слова на основе общих семантических признаков, а не общекатегориального значения, как в простой модели. Например, существительные «лимон», «голубизна», «бег» и «бодрость» имеют общекатегориальное значение предметности. При этом семантически они обозначают разное: лимон - предмет, голубизна - признак, бег - процесс, бодрость - состояние. Семантические признаки существительных определялись с помощью «Русского семантического словаря» Н.Ю. Шведовой, в котором все слова распределены по лексико-семантическим классам Шведова Н.Ю. Русский семантический словарь. Толковый словарь, систематизированный по классам слов и значений. - Том 2: Имена существительные с конкретным значением. Всё создаваемое руками и умом человека. Названия предметов по форме, состоянию, составу, местонахождению, употреблению. - М.: Азбуковник, 2002. - 762 c.. В первых двух томах «Русского семантического словаря» собраны конкретные имена существительные, к которым Н.Ю. Шведова относит все слова, которые имеют материально выраженный референт (к таким словам могут относиться конкретные, вещественные и собирательные существительные). В третьем томе представлены абстрактные существительные, не имеющие материального референта. Они представляют собой семантически размытую группу слов, из которой мы определили три больших категории существительных, обозначающих признак, процесс и состояние. Остальные, менее представленные категории такие, как количество, ситуация, среда, промежуток времени и так далее, были объединены в группу абстрактных имён существительных. Те существительные, которые не были найдены в «Русском семантическом словаре», объединялись в отдельную группу.

Остальные части речи тоже могли сгруппироваться по семантическому признаку. Например, глаголы, полные и краткие причастия, деепричастия и инфинитивы составили группу «процесс». Всего мы выделили 13 семантических признаков, которые представлены в таблице 3.

Таблица № 3

Объединение слов по семантическому признаку

Семантический признак

Части речи

Признак предмета

Полная и краткая форма имени прилагательного, сравнительная степень имени прилагательного

Признак-существительное

Имя существительное, обозначающее признак

Признак действия

Наречие

Процесс

Глагол, инфинитив, деепричастие, полная и краткая форма причастия

Процесс-существительное

Имя существительное, обозначающее процесс

Материальная сущность

Конкретное, вещественное, собирательное имя существительное

Абстрактная сущность

Абстрактное имя существительное

Отсылка

Местоимение

Категория состояния

Слово категории состояния

Состояние-существительное

Имя существительное, обозначающее состояние

Число

Имя числительное

Связь

Предлог, союз, частица, междометие

Прочее

Имена существительные, у которых не удалось определить семантический признак с помощью словаря

Части речи, на основе которых выделялись группы, в русском языке определялись с помощью библиотеки PyMorphy, так как она включает некоторые лингвоспецифичные категории такие, как деепричастия и слова категории состояния. В английском языке части речи, как и в простой модели, определялись с помощью библиотеки UDPipe. Дальнейшая работа с ними производилась на основе их общекатегориального значения.

После выделения семантических групп слов мы разработали 16 критериев морфолого-семантического анализа для русского языка, а именно: абстрактность, предметность, местоимённая замена, признак действия, обобщённость действия, описательность, описательность действия, численность, динамичность, состояние, реальная модальность, пассивный залог, настоящее время, прошедшее время, будущее время и завершённость действия. Формулы подсчёта данных критериев представлены в приложении Г. К примеру, критерий динамичности подсчитывался как отношение слов, обозначающих процесс, ко всем знаменательным частям речи:

, (1)

Данный критерий позволяет определить, насколько автор склонен в своих текстах к повествованию и активной смене действий. В английской модели те же самые морфолого-семантические критерии подсчитывались на основе частей речи. Так, критерий динамичности в английском языке выглядит следующим образом:

, (2)

где VERB - количество глаголов в тексте,

total - общее количество токенов в тексте,

ADP - количество предлогов в тексте,

CCONJ - количество сочинительных союзов в тексте,

PART - количество частиц в тексте,

PUNCT - количество знаков пунктуации в тексте,

SCONJ - количество подчинительных союзов в тексте,

SYM - количество символьных токенов в тексте.

Всего признаков для английского языка в усложнённой морфологической модели было выделено 10 с потерей некоторых лингвоспецифичных признаков, предназначенных для русского языка.

3.3.4 Усложнённая синтаксическая модель

Усложнённая синтаксическая модель была создана всё с той же целью повышения интерпретируемости результатов. Несмотря на то, что синтаксические признаки в простой модели относительно неплохо могут объяснить содержание стиля того или иного писателя, они представлены в этой модели не систематически. В усложнённой модели мы упорядочили синтаксические явления по двум уровням, а именно: по уровню словосочетания и по уровню предложения. Простое и сложное предложения были объединены в одну группу в связи с тем, что разметка в UDPipe не различает отношения в простом и сложном предложении.

На уровне словосочетания были разработаны признаки, которые объединялись в группы: по типу связи внутри словосочетания (координация, согласование, управление, примыкание), по количественно-структурному типу (простые и сложные словосочетания), по степени слитности компонентов (синтаксически свободные и несвободные словосочетания) и по лексико-грамматическому типу (именные, глагольные и наречные словосочетания). Каждый критерий представлен суммой синтаксических отношений из UDPipe, которая нормализуется по общему числу отношений. Например, доля словосочетаний, в которых слова связаны согласованием, подсчитывалась по формуле:

, (3)

где nmod - количество несогласованных определений в тексте,

appos - количество приложений в тексте,

acl - количество вторичной предикации в тексте,

amod - количество согласованных определений в тексте,

det - количество определяющих слов в тексте,

nummod - число количественных распространителей в тексте,

compound - количество несвободных сочетаний, сложных слов в тексте,

N - общее число синтаксических отношений в тексте.

На уровне предложения рассматривались членимые и нечленимые предложения, вокативы, генитивы, односоставные предложения (определённо-личные, неопределённо-личные, инфинитивные, безличные и номинативные), а также различные виды осложнённых предложений, которые содержат: вводную или вставную конструкции, междометие, обращение, однородные члены, приложение, причастный, деепричастный или адъективный обороты. Эти признаки подсчитывались по более сложным формулам, где учитывались не только синтаксические отношения, представляющие класс, но и морфологические характеристики слов, связанных этими синтаксическими отношениями. Например, к неопределённо-личным предложениям относятся те, у которых нет отношений nsubj и csubj (связи подлежащего со сказуемым), исходящих от корневого слова. При этом корневое слово должно быть глаголом либо в форме 3-ого лица, множественного числа, настоящего или будущего времени, либо в форме множественного числа, прошедшего времени.

Все признаки усложнённой синтаксической модели представлены в таблице 4. Формулы их подсчёта можно найти в приложении Д.

Таблица № 4

Признаки усложнённой синтаксической модели

Основание для классификации

Название

Пояснение

RU

EN

Уровень словосочетания

Классификация по типу связи

Coordination

координация

+

+

Agreement

согласование

+

+

Regimen

управление

+

+

Contiguity

примыкание

+

+

Количественно-структурные типы

Complex Phrase

сложное словосочетание

+

+

Simple Phrase

простое словосочетание

+

+

По слитности компонентов словосочетания

Syntactically Non-free Phrase

синтаксически несвободное словосочетание

+

+

Лексико-грамматические типы

Nominal Phrase

именное словосочетание

+

+

Verbal Phrase

глагольное словосочетание

+

+

Adverbial Phrase

наречное словосочетание

+

+

Уровень предложения

Членимые и нечленимые предложения

Contracted

Sentence

нечленимое предложение

+

+

Vocative

вокатив

+

+

Genitive

генитивное предложение

+

-

Односоставные предложения

One-member Sentence

односоставное предложение

+

-

Definitely Personal

определённо-личное предложение

+

-

Indefinitely Personal

неопределённо-личное предложение

+

-

Infinitive

инфинитивное предложение

+

-

Impersonal

безличное предложение

+

-

Nominative

номинативное предложение

+

+

Осложнения

Parenthetic Construction

вводная конструкция

+

+

Interjection

междометие

+

+

Appeal

обращение

+

+

Epenthetic Construction

вставная конструкция

+

+

Adjectival Construction

адъективный оборот

+

+

Adverbial Participle

деепричастный оборот

+

+

Participle Construction

причастный оборот

+

+

Homogeneous Construction

однородные члены

+

+

Apposition

приложение

+

+

Всего синтаксических признаков в усложнённой модели для русского языка было выделено 28, а для английского - 22. В английской модели мы опустили генитивные и односоставные предложения (за исключением номинативных), так как в английском подлежащее в предложении обязательно. Осложнители предложения, такие как адъективный и деепричастный обороты, были оставлены с учётом того, что в английской модели под этот параметр попадают причастные и герундиальные обороты.

3.4 Методы обучения и оценки

Мы проводили эксперименты, используя разные методы тренировки и тестирования данных. В силу того, что длина произведений сильно различается, мы разбивали тексты на блоки фиксированного размера в соответствии с гиперпараметром K, где K - это количество предложений в блоке. В работе прошлого года тренировочная и тестовая выборки формировались в ходе кросс-валидации уже после разбиения текстов на блоки (K = 350) и их перемешивания. Однако в этом случае результаты могли получиться с долей погрешности, так как в тренировочную и тестовую выборки могли попасть разные части одного и того же произведения и алгоритм мог производить классификацию не на основе стилистических признаков, а по каким-то другим параметрам, например, по именам персонажей. В текущем исследовании тренировочная и тестовая выборки были сформированы таким образом, чтобы произведения в них не повторялись. Тренировочная выборка в русском корпусе содержит 186 текстов (их размер составляет около 32 миллионов символов и 5 миллионов токенов), а тестовая - 138 (размер тестовой выборки - около 16 миллионов символов и 2,5 миллионов токенов). Английский корпус состоит из 137 тренировочных (около 80 миллионов символов и 15 миллионов токенов) и 70 тестовых текстов (около 40 миллионов символов и 7 миллионов токенов).

Обучение производилось с помощью двух методов, а именно:

1) Тренировочные тексты разбиваются на смежные, неперекрывающиеся блоки предложений. Размер блока задаётся гиперпараметром K (K - количество предложений в блоке), с помощью которого можно изучить зависимость качества классификации от длины текста.

2) Тренировочные тексты разбиваются на пересекающиеся блоки размером K. Этот метод в статистике получил название бутстрэп. С его помощью можно многократно генерировать выборки на базе имеющейся и искусственно увеличивать её размер. Таким образом можно повысить качество классификации небольших текстов. Тем не менее в длинных текстах количество блоков, сгенерированных бутстрэп-методом, может быть очень большим. Кроме того, эти блоки сильно перекрещиваются и повторяют друг друга. В связи с этим мы брали для обучения не все возможные блоки, а только их часть (50% случайно выбранных блоков).

Для тестирования и оценки мы также использовали два метода:

1) Тестовые тексты разбиваются на непересекающиеся блоки фиксированного размера K, которые классифицируются по авторам. Качество классификации определяется как доля верно проклассифицированных блоков.

2) Тестовые тексты разбиваются на пересекающиеся блоки фиксированного размера K. Из искусственно увеличенной бутстрэп-выборки для классификации берётся 20% случайно выбранных блоков. Каждый блок после предсказания возвращает ответ. Авторство текста определяется посредством мажоритарного голосования (то есть автором считается тот, за который отдали голос большинство блоков). Качество классификации определяется как доля верно проклассифицированных произведений.

3.5 Проведение классификации текстов по авторам

Мы проводили классификацию русских и английских текстов с учётом пяти параметров, которые включают:

1) Пять моделей текстовой репрезентации (Doc2Vec, простые и усложнённые морфосинтаксические модели),

2) Два метода тренировки алгоритма (с пересекающимися и непересекающимися блоками текста),

3) Два метода оценки качества работы алгоритма (классификация произведений и блоков текста),

4) Три алгоритма классификации (Logistic Regression, Linear SVC, Random Forest),

5) Настраиваемое количество предложений в блоке.

Получив результаты классификации, мы анализировали их следующим образом: для каждого метода тренировки и тестирования составлялись графики и таблицы, в которых показана точность классификации, полученная с помощью определённого алгоритма машинного обучения, и её зависимость от модели текстовой репрезентации и количества предложений в блоке (см. Приложение Е). Помимо пяти названных моделей - Doc2Vec-а и морфосинтаксических признаков - мы использовали также их комбинации: 1) простые морфосинтаксические модели, 2) сложные морфосинтаксические модели, 3) все морфосинтаксические признаки, 4) простые морфосинтаксические модели и Doc2Vec, 5) все морфосинтаксические признаки и Doc2Vec (см. Рисунок 1). По нашей гипотезе, комбинации признаков могут характеризовать стиль автора с разных сторон и тем самым повысить шансы на правильную классификацию.

Рис. 1 Пример классификации русских текстов

По получившимся графикам мы определяли, какая модель текстовой репрезентации (или их комбинация) показала лучший результат в рамках конкретного алгоритма, метода его тренировки и оценивания результатов. Например, в эксперименте, представленном на рисунке 1, лучшую точность показала комбинация из Doc2Vec и всех морфосинтаксических признаков (90%). Также мы сравнивали точность, полученную с помощью комбинации морфосинтаксических признаков (SC MorphoSyntax), с точностью Doc2Vec модели. Это было сделано для того, чтобы узнать, способны ли морфосинтаксические модели превысить baseline (качество Doc2Vec модели). Если это так, то мы имеем все основания утверждать, что эти модели могут успешно и эффективно применяться в задаче атрибуции. Второй, менее строгий критерий успешности морфосинтаксических признаков состоит в улучшении качества Doc2Vec при их добавлении. Например, на рисунке 1 лучшее качество Doc2Vec модели составляет 87%, а лучшая точность морфосинтаксических признаков - только 82%. Это означает, что в данном эксперименте мы не смогли превысить baseline нашими морфосинтаксическими моделями, однако при добавлении их к Doc2Vec точность возросла до 90%, то есть наши признаки позволили улучшить качество на 3%.

Итак, мы представим результаты следующим образом: сначала подведём итоги классификации русских произведений, которая проводилась с использованием тренировочной выборки из непересекающихся блоков. В рамках этого метода тренировки сравним результаты классификации блоков и произведений. Затем рассмотрим второй метод тренировки, заключающийся в составлении тренировочной выборки из пересекающихся блоков, и аналогично сравним два подхода к оцениванию. То же самое сделаем для английского языка. Далее для простоты будем обозначать методы тренировки и оценки, а также названия моделей с помощью сокращений, приведённых в таблице 5.

Таблица № 5

Сокращённые названия параметров для классификации

Сокращение

Расшифровка

Обозначаемое явление

Тренировка CB

Contiguous Blocks

Метод тренировки алгоритма, при котором тренировочная выборка разбивается на непересекающиеся блоки фиксированного размера

Тренировка BB

Bootstrapped Blocks

Метод тренировки алгоритма, при котором тренировочная выборка разбивается на пересекающиеся блоки фиксированного размера

Тестирование BA

Block Accuracy

Метод оценивания, при котором качество классификации определяется как доля верно проклассифицированных блоков

Тестирование WA

Work Accuracy

Метод оценивания, при котором качество классификации определяется как доля верно проклассифицированных произведений

SCMS

Simple and Complex Morphological and Syntactic Models

Комбинация из простых и усложнённых морфосинтаксических моделей

Simple MS

Simple Morphological and Syntactic Models

Комбинация из простых морфосинтаксических моделей

Doc2Vec^ + SCMS

Doc2Vec Improvement

Повышение качества Doc2Vec при добавлении морфосинтаксических моделей

SCMSv + Doc2Vec

Morpho-Syntactic Models Deterioration

Ухудшение качества морфосинтаксических моделей при добавлении к ним Doc2Vec

3.5.1 Результаты классификации русских произведений

При анализе результатов классификации русских текстов мы сделали два важных наблюдения. Во-первых, во всех экспериментах простые модели показали себя лучше сложных (см. Рисунок 2). Вероятно, это связано с тем, что усложнённые модели включают не все единицы и отношения из простых моделей, а значит, охватывают не так много стилевых особенностей. Этот результат был ожидаем, так как усложнённые модели мы разрабатывали специально для того, чтобы объяснить и интерпретировать важные для классификации признаки. Простые же модели в меньшей степени интерпретируемы, зато представляют собой хороший инструмент для классификации в силу полноты охватываемых ими языковых явлений.

Рис. 2 Пример преимущества простых и синтаксических моделей

Второе наблюдение заключается в том, что синтаксические модели закономерно показывали лучший результат, чем морфологические. Возможно, это объясняется тем, что с усложнением уровня языка лучше становятся видны индивидуальные особенности. Морфология передаёт в большей степени особенности языка в целом, а синтаксис, как более сложная совокупность единиц предыдущих уровней, показывает то, как авторы объединяют эти единицы в соответствии со своими индивидуальными предпочтениями.

Далее мы рассматривали результаты классификации с использованием тренировочной выборки из непересекающихся блоков размера K (значения K подбирались из 100, 150, 200, 300, 350, 400 и 500 предложений). В таблице 6 показаны значения метрики accuracy для двух методов тестирования и трех алгоритмов классификации (в круглых скобках указано количество предложений в блоке, при котором была достигнута та или иная точность). Для сравнения мы брали лучшие результаты Doc2Vec и комбинации из морфосинтаксических признаков.

Таблица № 6

Классификация русских текстов, CB-тренировка

Тестирование BA

Тестирование WA

Logistic Regression

Linear SVC

Random Forest

Logistic Regression

Linear SVC

Random Forest

Doc2Vec

0.87 (350)

0.75 (350)

0.65 (350)

0.61 (300)

0.54 (400)

0.45 (350)

SCMS

0.82 (350)

0.81 (350)

0.64 (350)

0.66 (400)

0.69 (200)

0.52 (400)

Лучшая модель

Doc2Vec + SCMS = 0.9 (500)

Doc2Vec + SCMS = 0.9 (350)

Doc2Vec + Simple MS = 0.71 (350)

Doc2Vec + SCMS = 0.78 (400)

Doc2Vec + SCMS = 0.77 (300)

Doc2Vec + SCMS = 0.54 (400)

Doc2Vec^ + SCMS

+ 0.03

+ 0.15

+ 0.06

+ 0.17

+ 0.23

+ 0.09

Лучший размер блока

500

350

350

400

300

400

В таблице показано, что в четырёх экспериментах из шести нам удалось превысить baseline морфосинтаксическими признаками. В двух остальных случаях Doc2Vec превзошёл нашу SCMS модель: в первом случае - на 5%, а во втором - всего лишь на 1%. При этом во всех экспериментах лучшей моделью оказалась комбинация из Doc2Vec и морфосинтаксических признаков. Самая высокая точность для русского языка в CB-тренировке, а именно 90%, была получена с использованием именно этой модели, а максимальный прирост качества к Doc2Vec составил 23%. Лучшая точность Doc2Vec модели, равная 87%, была достигнута с использованием логистической регрессии и BA-тестирования, как и лучшая точность SCMS модели, которая составила 82%.

В целом, BA-тестирование показало результаты выше, чем WA. Это значит, что классификаторы в проведённых экспериментах успешнее предсказывали авторство частей текста, а не произведений целиком. Так как чаще всего перед исследователями или экспертами стоит задача определения авторства именно целого текста, а не его части, то результаты WA-тестирования можно считать более объективными. При этом, несмотря на то, что в более строгом WA-тестировании качество упало примерно на 12%, во всех экспериментах в рамках этого метода оценки нам удалось преодолеть baseline морфосинтаксическими признаками. Это значит, что при более сложной постановке задачи наши морфосинтаксические признаки справляются с классификацией лучше, чем Doc2Vec.

Подобная тенденция наблюдается и в результатах классификации с использованием тренировочной выборки из пересекающихся блоков. Здесь, как и в CB-тренировке, тестирование BA показало результаты выше, чем WA. При этом в обоих методах оценки морфосинтаксические признаки сработали лучше, чем Doc2Vec. В WA-тестировании добавление Doc2Vec к морфосинтаксическим признакам даже ухудшило качество. Нам не только удалось превысить baseline во всех экспериментах, но и достигнуть лучшей точности одними морфосинтаксическими признаками в четырёх экспериментах из шести (см. Таблицу 7). Хотя самое высокое качество (89%) всей BB-тренировки по-прежнему осталось за комбинацией морфосинтаксических признаков и Doc2Vec модели.

Таблица № 7

Классификация русских текстов, BB-тренировка

Тестирование BA

Тестирование WA

Logistic Regression

Linear SVC

Random Forest

Logistic Regression

Linear SVC

Random Forest

Doc2Vec

0.81 (350)

0.73 (350)

0.51 (500)

0.49 (400)

0.51 (350)

0.33 (350)

SCMS

0.85 (350)

0.82 (350)

0.68 (350)

0.77 (400)

0.76 (300)

0.62 (500)

Лучшая модель

Doc2Vec + SCMS = 0.88 (400)

Doc2Vec + SCMS = 0.89 (400)

SCMS = 0.68 (350)

SCMS = 0.77 (400)

SCMS = 0.76 (300)

SCMS = 0.62 (500)

Doc2Vec^ + SCMS

+ 0.07

+ 0.16

SCMSv + Doc2Vec

SCMSv

+ Doc2Vec

SCMSv

+ Doc2Vec

SCMSv

+ Doc2Vec

Лучший размер блока

400

400

350

400

300

500

Итак, подводя итоги классификации русских произведений, мы можем сделать следующие выводы:

1) Нам удалось превысить baseline в 10 экспериментах из 12, что доказывает эффективность морфосинтаксических моделей в задаче атрибуции.

2) Морфосинтаксические признаки сами по себе дают хороший результат (лучшее качество - 85%), а при добавлении к Doc2Vec они показали самую высокую точность, равную 90%.

3) Простые модели сработали лучше, чем усложнённые, так как они охватывают больше языковых явлений и стилевых особенностей.

4) Синтаксические модели показали более высокий результат, чем морфологические, что может быть объяснено тем, что синтаксис включает в себя морфологические единицы и их связи и показывает индивидуальные предпочтения в их использовании.

5) Лучший размер блока, на которые разбивались русские произведения, лежит в диапазоне от 350 до 500 предложений.

6) Результаты классификации CB-тренировки оказались чуть лучше, чем BB-тренировки, но разница между ними невелика.

7) WA-тестирование показало результаты хуже, чем BA. Однако даже при ухудшении качества морфосинтаксические признаки справляются с классификацией лучше, чем Doc2Vec.

3.5.2 Результаты классификации английских произведений

Теперь перейдём к анализу результатов классификации английских текстов. В виду вычислительных ограничений мы выбирали размер блока, на которые делились английские произведения, из следующих значений: 100, 150, 250 и 300 предложений. На рисунке 3 приведён пример классификации английских текстов с использованием CB-тренировки. Как и для русского языка, для английского можно сделать два важных замечания относительно морфосинтаксических признаков. Во-первых, простые модели превосходят усложнённые. А во-вторых, синтаксические модели показывают лучший результат по сравнению с морфологическими. Объясняются эти явления точно так же, как и в русском языке. Синтаксические единицы и отношения по своей природе более содержательные и охватывают больший диапазон стилевых признаков, включая морфологические. Что касается усложнённых моделей, то они так же, как и в русском, предназначены в большей степени для интерпретации важных стилевых маркеров. Они описывают индивидуальный стиль не в полной мере, в особенности в английском языке, где усложнённые модели были сокращены в виду лингвоспецифичных особенностей русского языка.


Подобные документы

  • История появления и общее понятие языкового портрета личности. Анализ способов речевых манипуляций. Разработка концепции языковой личности в отечественном языкознании. Реконструирование портрета личности. Роль речевых особенностей в языковой личности.

    реферат [22,0 K], добавлен 10.04.2015

  • Предпосылки создания теории языковой личности. Лексемы "мать" и "отец" как универсальные доминанты в дискурсе Н.А. Дуровой. Лексико-семантическое поле "мать" в дискурсе мемуарной прозы "Записки кавалерист-девицы". Особенности идиостиля писательницы.

    курсовая работа [57,5 K], добавлен 15.05.2014

  • Типы орфографической языковой личности, разработка методики ее исследования. Исследование портретов индивидуальных орфографических личностей на основе лингвистических и психологических тестов при помощи работ по русскому языку и дополнительным предметам.

    курсовая работа [15,8 K], добавлен 02.10.2011

  • Понятие языковой личности в отечественной лингвистике, уровни ее анализа. Категория комического дискурса как объекта лингвистического исследования. Характеристика вербально-семантического уровня языковой личности шута в поэме Шекспира "Король Лир".

    курсовая работа [55,7 K], добавлен 25.01.2011

  • Языковой портрет музыканта на примере певицы Adele, ее семантико-синтаксические, лексические и морфологические особенности. Отражение языковой личности в музыке. Анализ языковых особенностей современного музыканта в рамках воздействия на общество.

    реферат [21,6 K], добавлен 21.05.2013

  • Теоретические понятия языковой игры, политического текста и метафоры. Определение политической метафоры. Классификация примеров метафорического использования языковых единиц. Формирование негативного образа властных субъектов в сознании адресата.

    курсовая работа [38,2 K], добавлен 23.08.2011

  • Речевые параметры и особенности речеупотребления языковых личностей, могущих быть отнесенными к типу сильных. Высказывания советской актрисы театра и кино Фаины Георгиевны Раневской и современного писателя-сатирика Михаила Михайловича Жванецкого.

    дипломная работа [155,2 K], добавлен 03.02.2015

  • Определение понятия текста в лингвистике; его содержательная структура. Импликации в художественном произведении. Причины семантико-структурных отступлений перевода от оригинала. Анализ ценности информации и сообщения. Сущность языковой избыточности.

    презентация [44,7 K], добавлен 30.10.2013

  • Теоретические основы изучения текста. Разграничение текста и дискурса. Понятие текста и подходы к его анализу. Употребление терминов texte и discours во французском языке. Сравнительно-сопоставительное исследование текста астрологического прогноза.

    дипломная работа [204,5 K], добавлен 03.07.2009

  • Проблема языковой личности в гуманитарных науках. Языковая личность как объект лингвистических исследований. Структура языковой личности. Семантико - синтаксический уровень языковой личности ученого. Терминологическая система обозначения Гумилева.

    курсовая работа [56,2 K], добавлен 08.07.2008

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.