Речевые маркеры интолерантности и компьютерные инструменты их выявления
Определение основных типов лексических маркеров интолерантного речевого поведения. Рассмотрение базовых словарей нейтральной и интолерантной лексики. Создание программы на основе словарей. Оценка качества выделения программами интолерантной лексики.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 17.09.2018 |
Размер файла | 260,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ
ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ
«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ
«ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»
Факультет гуманитарных наук
Программа подготовки бакалавров по направлению
45.03.03 «Фундаментальная и прикладная лингвистика»
ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА
Речевые маркеры интолерантности и компьютерные инструменты их выявления
Шакирова Карина Александровна
Рецензент к. филол. н., доц.
Научный руководитель д. филол. н., проф. Т.В. Романова
Нижний Новгород, 2018
Оглавление
Введение
Глава 1. Интолерантность речевого поведения; языковые маркеры интолерантного речевого поведения
1.1 Понятие «толерантность»: история становления
1.2 Интолерантность как тип речевого поведения
1.3 Языковые маркеры интолерантного речевого поведения
Глава 2. Компьютерные инструменты анализа текста
2.1 Анализ тональности (sentiment analysis)
2.1.1 Экспертный анализ тональности
2.1.2 Автоматический анализ тональности
2.2 Автоматическая классификация текстов
Глава 3. Автоматическое выявление маркеров интолерантности текста
3.1 Программа на основе словарей
3.1.1 Подготовка опорных словарей
3.1.2 Принцип работы алгоритма
3.1.3 Интерфейс программы
3.1.4 Тестирование и результаты работы
3.2 Классификаторы на основе методов машинного обучения
3.2.1 Тренировочные данные и процесс обучения
3.2.2 Принцип работы основного алгоритма
3.2.3 Тестирование и результаты
3.3 Итоги исследования
Заключение
Библиографический список
Приложения
Введение
В наше время глобализация, демократизация и межкультурная коммуникация на всех уровнях приводят к тому, что разные социальные, религиозные, политические группы с кардинально отличающимися убеждениями регулярно взаимодействуют и сталкиваются, а средства массовой информации освещают подобные случаи столкновений, дебатов и других форм взаимодействия. Информация, которую люди получают из открытых источников, в частности средств массовой информации, оказывает большое воздействие на их собственную точку зрения и, как следствие, на позицию всего общества. То, как подаётся тот или иной факт и связанные с ним обстоятельства, может значительно повлиять на общественное мнение, а определённые маркеры, определяющие тональность отношения автора к тому или иному компоненту события, могут кардинальным образом изменить восприятие описываемой проблемы. В таких ситуациях особенно важным становится вопрос о сохранении речевой толерантности, которой журналисты обязаны придерживаться в отношении всех участников ситуации. Однако средства массовой информации часто используют речевую манипуляцию для влияния на мнение своей аудитории, и в таких случаях инструментом манипуляции становится не только толерантность, но и её антипод - речевая интолерантность.
Множество исследователей посвятили свои работы изучению толерантности: истории происхождения и развития этого понятия (С.Д. Бакулина, К.Дж. Недерман, М.Б. Хомяков), её выражению в устной и письменной речи (В.Г. Красных, Т.В. Романова, И.А. Стернин, К.М. Шилихина), особенно в политическом дискурсе (Т.А. Шаповалова). Исследователи выявили, как толерантность связана с манипулятивными техниками (С.Г. Кара-Мурза, Т.В. Маркелова, Т.А. Шаповалова) и опровергли сложившееся мнение о «благости» и необходимости толерантности самой по себе (К.Дж. Недерман). Однако интолерантность, прямой антипод этого понятия, остаётся за рамками исследований и не обращает на себя такого же внимания учёных. Это может быть связано с тем, что в современном мире толерантность рассматривается как одно из необходимых качеств, именно поэтому её изучение считается более актуальным, чем изучение интолерантности, которой необходимо избегать. Особенно недостаточно изучены маркеры интолерантного речевого поведения. Это можно объяснить тем, что, в отличие от маркеров толерантности, маркеры интолерантности всегда заметны в тексте и кажутся очевидными. Однако их анализ может дать исследователю понимание того, какая именно интолерантность и по отношению к чему выражена в тексте, какова коммуникативная интенция автора. Такой анализ может использоваться как в лингвистической экспертизе, так и в работах по анализу толерантной и интолерантной лексики СМИ и любых других текстов, содержащих маркеры различных типов интолерантного речевого поведения.
Однако при работе с большими объёмами текстов выявление подобных маркеров вручную может быть достаточно трудоёмким и занимать много времени. Автоматическое выделение соответствующих маркеров могло бы помочь исследователям, сократив время обработки материала и упростив выявление интолерантной лексики. Разумеется, последнее слово, как и итоговый анализ, соответствующий поставленной задаче, всегда остаётся за экспертом, но программа может выдать ему готовый список маркеров гораздо быстрее, чем это было бы сделано вручную. Также при наличии конкретных словарей, можно было бы оптимизировать поиск необходимой лексики, что дало бы значительный прирост производительности на большом объёме данных, а значит, позволило бы исследователям анализировать больше материала и делать более объективные выводы, чем если бы они занимались выделением маркеров самостоятельно. Данная работа отличается от других похожих работ в данной области (создание лексикона Н.В. Лукашевич, автоматическое создание словаря оценочной лексики Н.В. Лукашевич и И.И. Четвёркина, создание корпуса текстов о толерантности А.Ю. Малафеева и Е.А. Ореховой) тем, что концентрируется не на создании словаря как такового и не на сборе корпуса текстов, а на разработке приложения, которое помогло бы другим исследователям быстро и удобно обрабатывать тексты и извлекать из них интолерантную и негативно-оценочную лексику, необходимую в рамках поставленной задачи, для дальнейшего анализа. Также стоит отметить, что данное исследование является продолжением моих курсовых работ 1-3 курсов.
В качестве материала исследования были выбраны тексты из корпуса Ю.В. Рубцовой Рубцова Ю. В. Построение корпуса текстов для настройки тонового классификатора // Программные продукты и системы, 2015, №1(109), - С.72-78, а также словари лексикона RuSentiLex 2017 года Loukachevitch N., Levchik A. Creating a General Russian Sentiment Lexicon. In Proceedings of Language Resources and Evaluation Conference LREC-2016, 2016., а также маркеры, обнаруженные в результате предыдущих исследований мною авторских статей газеты «Аргументы и Факты» Шакирова К.А. Языковые и речевые маркеры толерантности и интолерантности публицистического текста. Курсовая работа 3 курса., которые использовались для построения базовых словарей нейтральной и интолерантной лексики. Для тестирования были отобраны тексты новостных сводок, авторские статьи и статьи из свободной интернет-энциклопедии. Стоит заметить, что среди СМИ интолерантные маркеры в основном употребляются только в статьях из авторских колонок, в отличие от новостных сводок, которые состоят только из чётко обозначенных фактов и не содержат каких-либо манипулятивных компонентов, чётко выраженных показателей речевой толерантности или интолерантности. Также текстовые материалы СМИ не содержат экстремистской и/или обсценной лексики, в отличие от блогов и интернет-ресурсов, не причисленных к СМИ. Поэтому для тестирования выделения маркеров были отобраны как новостные сводки и авторские статьи, так и отрывки с других ресурсов, не подверженных цензуре и редактированию, что позволяет охватить разные степени выражения интолерантного речевого поведения. Общий объём словарей составил 22000 слов, объём корпусов текстов для тестирования - 10600 и 576 словоформ.
Объектом исследования являются речевые маркеры интолерантного речевого поведения.
Предмет исследования - компьютерные инструменты выявления интолерантных маркеров.
Цель работы - применить компьютерные инструменты, в частности классификаторы на базе машинного обучения и поиск на основе словарей, к задаче автоматического выделения маркеров интолерантности текста, проанализировать результаты работы обоих типов программ и определить, какой из них более пригоден к выполнению задачи.
Выдвигается следующая гипотеза: программные инструменты могут выделять из текста интолерантную лексику, при этом программа на базе словарей действует эффективнее, но программа на основе методов машинного обучения способна выявлять слова, не относящиеся напрямую к маркерам интолерантности, но влияющие на общий уровень толерантности текста. лексический маркер интолерантный программа
Цель и гипотеза определяют соответствующие задачи:
проанализировать имеющиеся подходы к определению толерантности и интолерантности речевого поведения;
определить типы лексических маркеров интолерантного речевого поведения;
отобрать материал для исследования;
собрать базовые словари нейтральной и интолерантной лексики;
написать программу на основе словарей;
написать классификатор на базе методов машинного обучения с использованием отобранного материала в качестве обучающей выборки;
оценить качество выделения программами интолерантной лексики.
Методологической основой исследования послужили теоретические работы Романовой Т.В., Шаповаловой Т.А. и Воронцовой Т.А. по толерантности, интолерантности и средствам их выражений в речи, а также Ричерта У. и Коэльо Л.П. по классификаторам на основе машинного обучения. При выполнении работы использовались следующие методы:
метод сплошной выборки при отборе текстов для выбора слов;
методы машинного обучения, на основе которых работают классификаторы;
метод лингвистического наблюдения и описания при ручном выделении маркеров и корректировке словарей;
анализ влияния определённых слов текста на уровень его интолерантности;
сравнение результатов работы программ с работой эксперта-человека.
Цель и задачи исследования определяют структуру работы, состоящей из введения, трёх глав, заключения, списка литературы и приложений. Введение содержит общую характеристику проблемы, обоснование её актуальности и практической значимости, формулировки гипотезы, цели и задач исследования, а также определение методологической основы и методов выполнения исследования.
Первая глава «Интолерантность речевого поведения; языковые маркеры интолерантного речевого поведения» посвящена определению необходимой для исследования теоретической платформы. На этом этапе проводится анализ разработанности проблемы, обзор имеющихся взглядов на проблему в целом и отдельные её аспекты: толерантность и интолерантность речевого поведения и их языковые маркеры. В главе подробно рассматривается история изучения понятий «толерантность» и «интолерантность», при этом делается акцент на характеристиках и особенностях последней. Также разбираются виды маркеров интолерантного речевого поведения и суммируются выводы предыдущих исследований, даётся обоснование возможности автоматического выявления маркеров.
Вторая глава «Компьютерные инструменты анализа текста» посвящена обзору существующих методов работы с текстом в рамках задач анализа тональности и автоматической классификации. Подробно разбираются подходы к анализу тональности и существующие инструменты для осуществления автоматического анализа. Также анализируются методы машинного обучения для автоматической классификации текстов и возможность совместного использования этих методов, делается вывод о том, какие инструменты лучше использовать для осуществления текущей задачи.
Третья глава «Автоматическое выявление маркеров интолерантности текста» включает в себя описание практической части работы. Обосновывается выбор обучающих данных и базовых словарей, объясняются принципы работы алгоритма на основе словарей и классификаторов на базе методов машинного обучения. Результаты работы программ анализируются и сравниваются друг с другом и с работой человека. Делаются выводы о преимуществах и недостатках каждого подхода, а также общие выводы о возможностях использования программ.
В заключении обобщаются результаты исследования, подтверждается выдвинутая гипотеза, делаются предположения о дальнейшем улучшении алгоритмов и их практическом применении. Приложения содержат набор текстов, использовавшихся для тестирования программ, а также коды написанных программ.
Глава 1. Интолерантность речевого поведения; языковые маркеры интолерантного речевого поведения
В данной работе исследуются языковые средства, маркирующие интолерантное речевое поведение автора публицистического текста, и компьютерные инструменты, которые могут применяться для их автоматического выявления. До рассмотрения собственно программных средств необходимо осветить два теоретических аспекта проблемы: что такое интолерантное речевое поведение и какими языковыми средствами и речевыми приёмами оно маркируется. Разные аспекты этой проблемы рассматривали многие исследователи: так, Т.А. Шаповалова, Т.А. Воронцова, И.А. Стернин, К.М. Шилихина, Т.Г. Винокур, Т.В. Романова изучали речевое поведение и связанную с ним проблему толерантности и интолерантности, С.Д. Бакулина, М.Б. Хомяков и К.Дж. Недерман изучали историю и типологию толерантности, а такие учёные, как В.В. Красных, Т.В. Маркелова, Т.А. Шаповалова исследовали различные феномены, маркирующие интолерантное речевое поведение.
1.1 Понятие «толерантность»: история становления
«Интолерантность» в рамках гуманитарных и социологических наук определяется как «нетерпимость, агрессивность, несклонность к компромиссу», противоположность толерантности https://dic.academic.ru/dic.nsf/enc_philosophy/2371, https://dic.academic.ru/dic.nsf/efremova/275407 (дата обращения - 08.04.18г). Она изучается в связи с толерантностью и через толерантность, как её антипод. Поэтому необходимо определить понятие толерантности в культурном и историческом аспектах.
Слово «толерантность» относительно недавно стало часто употребляться в СМИ и повседневной речи, что может быть объяснено тем, что понимание толерантности в сознании людей претерпело некоторые изменения. Согласно учебному пособию С. Д. Бакулиной http://www.universalinternetlibrary.ru/book/65385/chitat_knigu.shtml (дата обращения - 08.04.18г), в эпоху Античности “tolerantia” означало “пассивное терпение, добровольное перенесение страданий”. С XVI в., когда к существующим значениям добавляются значения “позволения” и “сдержанности”, толерантность начинает трактоваться как уступка в вопросе о религиозной свободе -- разрешение со стороны государства и официальной церкви отправления других религиозных культов. Веротерпимость является исторически первой и доминирующей формой проявления толерантности. Для деятелей эпохи Реформации (XVI-нач. XVII в.) было характерно осмысление толерантности как свободы совести верующего. В период конфессионального соперничества ради утверждения в обществе толерантности предлагалось забыть о догматических разногласиях и помнить об идентичности христианской моральной доктрины, основу которой составляет любовь к ближнему, милосердие, праведная жизнь. Отказ от насилия как от неприемлемого средства приобщения человека к вере и акцент на искренности убеждений, которая возможна только при условии добровольного вступления в общину верующих, -- вот два основных аргумента в пользу толерантности, которые сохранялись и в XVII, и в XVIII вв. Третьим аргументом была защита сильного централизованного государства, отсюда - неизбежность трактовки толерантности как средства избегания социальной нестабильности, а также всевозможные ограничения сферы действия данного принципа. Особая роль в теоретическом осмыслении и практическом воплощении принципа толерантности принадлежит эпохе Просвещения, провозгласившей свободу совести и слова. Благодаря просветителям, в особенности французским, понятие толерантность вошло в политический словарь.
Если XVIII в., возводя в высшую ценность ненасилие и свободу мысли и совести, способствует введению слова толерантность в политический словарь, то XIX в. возвращается к аргументам веротерпимости, постулирует неприкосновенность частной жизни как основной тезис жизнеустройства и даёт толерантности ещё больше привилегий. Она начинает пониматься как «выражение внешней и внутренней свободы, способность к продуманному выбору между разными точками зрения и возможными действиями» http://www.universalinternetlibrary.ru/book/65385/chitat_knigu.shtml (дата обращения - 28.04.18 г.). За основу берется учение И. Канта о доброй воле как автономной, самоопределяющейся, свободной способности морального субъекта. Деспотичная власть воспринимается как возможная угроза индивидуальности, многообразие опыта и мнений считается обязательным условием постижения истины.
В XX столетии толерантность в её противопоставлении и сопоставлении с интолерантностью становится самостоятельной проблемой. Современные направления, различающиеся в определении содержательных характеристик понятия, видя в толерантности, с одной стороны, жизненный принцип, способствующий выживанию человека в современной цивилизации (А.Г. Асмолов, С.К. Бондырева), а с другой стороны, прикрытие для безразличия, доминирующего в современном сообществе и тем самым характеризующего противоречивость толерантности, парадоксальность её как ценности (М.Б. Хомяков, П. Николсон). Такие разные взгляды на понятие толерантности дают повод выделить ряд подходов, определяющих толерантность и интолерантность в системе ценностей современного общества:
1. «Кажущаяся толерантность» мыслится как уклонение от разрешения конфликта исходя из соображений выгоды, лени или риска; истинная толерантность мотивируется признанием приоритета прав других над тем, что «я сам считаю благом».
2. Толерантность как принятая установка или умонастроение заключает в себе несколько значений:
а) религиозная терпимость предполагает отстраненно-смиренное отношение к различиям между социальными и религиозными группами во имя спасения мира;
б) толерантность как позиция пассивности, расслабленности вплоть до безразличия;
в) толерантное отношение как принципиальное признание права иного, «даже если такой способ пользования этими правами вызывает неприязнь»;
г) толерантность как возможность открытого отношения к другим, выражающаяся в проявлении интереса, любопытства, желания прислушаться и учиться;
д) толерантность как восторженное, эстетическое одобрение различий. Уолцер, М. О терпимости. Перевод с англ. яз. И. Мюрнберг. -- М.: Идея-Пресс, Дом интеллектуальной книги, 2000. 160 с. с. 25-27.
3. Толерантность как невозможность осуществления добродетели. Эта теория основана на внутренней противоречивости толерантности: призывая человека быть толерантным, его просят утратить что-то важное, ценное, но в то же время сохранять приверженность тем представлениям, которые подавляются. С одной стороны, имеется то, что кажется морально ошибочным, с другой же - существование этого «ошибочного» должно допускаться по соображениям общественной морали. Другими словами, толерантно можно относиться лишь к тому, к чему вообще нельзя относиться терпимо, поэтому объем этого понятия сжимается до нуля.
4. Толерантность как моральная характеристика личности, осознание уверенности в собственных позициях. В социокультурном контексте толерантность понимается как открытое идейное течение, которое не боится сравнения с другими точками зрения и не избегает духовной конкуренции, выражается в стремлении достигать взаимного уважения, понимания и согласования разнородных интересов и точек зрения без применения давления, преимущественно методами разъяснения и убеждения. http://www.universalinternetlibrary.ru/book/65385/chitat_knigu.shtml (дата обращения - 10.04.17г)
По мнению М.Б. Хомякова, есть три типа толерантности, в зависимости от которых определяются различные её границы. Первый тип - это прагматическая толерантность. Она необходима тогда, когда интолерантность неэффективна, и теряет свой смысл, как только плодотворная интолерантность становится возможной. Именно прагматически понимаются и границы толерантности в политической практике: толерантность необходима до тех пор, пока она эффективна, в противном случае закономерно использование различных мер интолерантного воздействия. Однако такое понимание толерантности ограничено своей принципиальной неустойчивостью, а принятые на основе концепции прагматической толерантности решения чаще всего оказываются недолговечными.
Второй тип, «благотворная» толерантность описывается Джоном Стюартом Миллем в эссе «О свободе». Согласно Миллю, толерантность ограничивается вредом, наносимым другим членам общества, и моральной зрелостью человека и общества. Однако это определение границ толерантности является весьма сложным, неопределённым и размытым.
Третий тип понимания толерантности - это толерантность как «благо-в-себе». На возможность такого понимания указывал Питер Николсон, который в то же время крайне мало упоминает о практической возможности существования толерантности как самостоятельного блага, не нуждающегося в каком-либо обосновании. Именно благость толерантности является наиболее дискуссионной характеристикой этого понятия. В связи с подобными сложностями в официальных документах (к примеру, в Декларации принципов толерантности ЮНЕСКО) используется замена понятия «толерантность» другим, хоть и близким по смыслу, но всё же другим понятием, к примеру, «уважение к личности человека» или «уважение к разнообразию культур».
Однако не все исследователи разделяют мнение о «благости» и добродетельности толерантности. Они ставят под сомнение определяющий понятие толерантности факт: утверждение, что необходимость примиряться с тем, что нам не нравится, может быть благом. К. Дж. Недерман даёт отрицательный ответ на вопрос о том, является ли толерантность добродетелью. Он считает, что она не является благом сама по себе и имеет значение лишь в том случае, когда содействует другим добродетелям человека Nederman, C. J. Toleration in a New Key: Historical and Global Perspectives // Critical Review of International Social and Political Philosophy, 2011. с. 349-361. В то же время многие исследователи (Е.В. Денисюк, Ю.В. Южакова и др.) отмечали манипулятивный потенциал толерантности, в наибольшей степени реализующийся в ситуациях политического дискурса Шаповалова, Т.А. По ту сторону толерантности // Вестник Челябинского государственного университета. 2012. - с. 144-146., а так как «манипуляция» не является добродетелью в современном понимании, то и толерантность, как что-то потенциально манипулирующее, благом быть не может.
Каждый из данных подходов к определению толерантности имеет свои достоинства и недостатки, и дискуссии об определении понятия «толерантность» и о толерантности как одной из ценностей современного общества всё ещё продолжаются.
1.2 Интолерантность как тип речевого поведения
Речевое поведение само по себе определяется как «совокупность конвенциональных (осуществляемых в соответствии с принятыми правилами) и неконвенциональных (осуществляемых по собственному произволу) речевых поступков, совершаемых индивидом или группой индивидов» Приводится по: Воронцова, Т.А. Типология речевого поведения (коммуникативно-прагматический аспект) // Cuadernos de Rusнstica Espaсola. 2009. №5. С. 21-31.. Основными характеристиками его являются осознанность и целенаправленность. Речевое поведение является индикатором эрудиции, особенностей интеллекта, мотивации и эмоционального состояния и проявляется в выборе слов и стилистическом построении высказывания. Если в контексте речевого поведения говорить о толерантности и интолерантности, то, согласно позиции Т.А. Воронцовой, изложенной в статье «Типология речевого поведения (коммуникативно-прагматический аспект)» Там же., толерантность наряду с вежливостью и агрессией является одним из трёх основных типов речевого поведения и характеризуется подавлением речевой агрессии, сохранением неприкосновенности коммуникативного пространства говорящих, сбалансированным диалогом с последовательной сменой коммуникативных ролей, направленностью на паритетный диалог и познание «чужого». Эта философия составляет план её содержания, социальный аспект, близко связанный с политической корректностью, или «языковой толерантностью». Реализация социального аспекта толерантности в языке и в речи посредством языковых средств составляет план её выражения, коммуникативный аспект, связанный с вежливостью и этикетом общения. Толерантность может выражаться через тактику ухода от конфликтных тем или через представление предмета речи с разных позиций, а также путём использования слов-амёб, которые С.Г. Кара-Мурза охарактеризовал так: «прозрачные, не связанные с контекстом реальной жизни. Они настолько не связаны с реальностью, что могут быть вставлены практически в любой контекст, сила их применения исключительно широка» Кара-Мурза С.Г. Манипуляция сознанием. 2001. URL: http://flibusta.is/b/68241 (дата обращения: 10.04.2017).. Реализации толерантности способствуют также снижение категоричности высказывания, метафоризация, эвфемизмы и перифразы, специфическая подача критики, при которой подчёркивается сочувствие и обеспокоенность говорящего ситуацией, а не его отрицательное отношение. В оценочных высказываниях показателями толерантного речевого поведения являются указания на субъективный характер, апелляция к авторитету как способ объективации оценки и другие средства.
Антипод толерантности, интолерантное речевое поведение, выражается через агрессию, если возвратиться к классификации Т.А. Воронцовой. В отличие от толерантности, речевая агрессия используется с целью оказать негативное эмоциональное воздействие, создать несбалансированный диалог, в котором коммуникативное пространство заполнено только говорящим. Она характеризуется вторжением в речевое и когнитивное пространство адресата, доминированием над адресатом и его подчинением, вовлечением его в конфликт, приводящий к затруднению или разрыву коммуникации.
Интолерантное речевое поведение реализуется также через навязывание собеседнику отрицательного отношения к предмету речи посредством некорректных коммуникативных приёмов, к примеру, представления субъективной оценки говорящего как объективной, единственно правильной и не требующей аргументации. При этом оценка говорящего демонстрирует нетерпимость к собеседнику и его точке зрения, несостоятельность его мнений и аргументов, разрушает сложенную систему ценностей и оценок, чтобы заменить её системой ценностей интолерантного говорящего. Подобный эффект может достигаться и в том случае, когда в роли адресата выступает группа лиц, например, члены социума, если соблюдается несколько условий: воздействие многократно повторяется; концепт обладает большой значимостью для данного социума, но не имеет жёсткой структуры и конкретного содержания; имеется сопутствующая экстралингвистическая ситуация, поддерживающая агрессивную систему ценностей. Воронцова, Т.А. Типология речевого поведения (коммуникативно-прагматический аспект) // Cuadernos de Rusнstica Espaсola. 2009. №5. с. 21-31. - С. 25. Таким образом, значимые для социума ситуация или событие, вызывающие отрицательную оценку общества, становятся поводом к началу распространения интолерантного речевого поведения в том числе через СМИ. В результате продолжительного воздействия восприятие связанных с ситуацией концептов в сознании людей изменяется на отрицательное, навязанное речевой агрессией, а значит, меняется и социальная оценка ситуации и её элементов меняется и в уже новом виде закрепляется в обществе.
Интолерантное речевое поведение характеризуется употреблением инвективной, жаргонной, негативной эмоционально-оценочной лексики, нарушением норм речевого общения. Кроме того, для выражения речевой агрессии используются не подлежащие аргументации обобщающие высказывания, основанные на стереотипах и устоявшихся негативно интерпретируемых концептах данного социума. Подобные языковые средства служат основной цели интолерантного речевого поведения: изменить оценку предметов речи в худшую сторону, навязать негативное восприятие расплывчатого концепта, связанного с неоднозначной ситуацией.
1.3 Языковые маркеры интолерантного речевого поведения
В публицистических текстах маркируются как толерантное, так и интолерантное речевое поведение, но маркеры интолерантности ввиду ярко выраженной отрицательной оценки, апелляции к стереотипам и использованию нелитературной лексики привлекают гораздо больше внимания потенциального читателя и характеризуют отношение автора к предмету статьи самим фактом своего наличия или отсутствия. Они употребляются в заголовках статей для привлечения аудитории и постулирования позиции автора для читателя ещё до начала чтения. Помимо этого, маркеры интолерантного отношения используются в тексте статьи для подчёркивания тех аспектов проблемы, к которым автор относится наиболее негативно. Это помогает автору лучше донести до читателя свою точку зрения, а также повлиять на мнение читателей за счёт апелляции к знакомым им прецедентным феноменам и использования разговорного (иногда нелитературного) языка.
В предыдущих исследованиях (курсовые работы, выполненные мною на 1,2,3 курсах Шакирова К.А. Языковые и речевые маркеры толерантности и интолерантности публицистического текста. Курсовая работа 3 курса.) было обнаружено, что множество различных лексических средств, способствующих выражению интолерантного речевого поведения, от клише и прецедентных феноменов до просторечных ругательств и оскорблений, употребляются авторами газетных статей на внешне- и внутреннеполитические, спортивные и социальные темы, причём интолерантное отношение может выражаться как к предмету статьи в целом, так и к отдельным его компонентам Шакирова К.А. Языковые и речевые маркеры толерантности и интолерантности публицистического текста // Материалы III Междисциплинарной студенческой конференции «Интеллектуальный город: учёный на перекрёстке наук», 2017. - с. 242-248.. Однако в основном мнение автора совпадало с предполагаемой позицией аудитории или подкрепляло её, поэтому интолерантно оценивались ситуации, оскорбляющие интересы России, дружественных ей стран или подвергающие критике её действия в других странах, а также внутрироссийские события, негативным образом отражающиеся на жизни простых россиян.
Стоит отметить, что различные лексические средства маркируют разную степень интолерантности. Так, штампы и клише сознания, употребляющиеся как в текстах статей, так и в заголовках, за счёт апелляции к прецедентным феноменам, например, фразеологизмам, маркируют завуалированную, скрытую за связью с прецедентным феноменов, интолерантность либо слабую степень её выраженности, некритичное неодобрение предмета статьи, неприязнь, выраженную через саркастическое сравнение с прецедентным текстом или высказыванием. Обычные литературные слова, несущие отрицательное оценочное значение, выражают интолерантное отношение автора более конкретно, не маскируя его за апелляциями к другим феноменам. Они употребляются наиболее часто, поскольку таких слов в русском языке достаточно много, а значит, их можно использовать для описания большого количества разнообразных тем и аспектов, при этом практически все коннотации передаваемой оценки автора понятны большинству читателей. Наконец, жаргонизмы, ругательства и другие подобные им средства, напрямую оскорбляющие предмет речи, маркируют самую категоричную степень интолерантного отношения и встречаются достаточно редко ввиду их принадлежности к нелитературному языку и нежелательности употребления в прессе.
Исходя из результатов предыдущих исследований и представленной классификации маркеров интолерантного речевого поведения, представляется логичным рассматривать уровень речевой интолерантности текста в зависимости от количества и типа обнаруженных в нём маркеров интолерантного речевого поведения. В ходе предыдущего исследования было обнаружено, что конкретные лексические единицы (слова и словосочетания) влияют на общую тональность текста больше, чем фразеосхемы и образованные на их основе синтаксические конструкции, так как последние в большинстве случаев не имеют собственного лексического значения. Также было выяснено, что наиболее часто предметом интолерантного речевого поведения и отрицательной оценки становятся описываемые события, люди и действия, следовательно, наиболее частый тип маркеров - существительные и именные группы, реже встречались прилагательные, глаголы и глагольные группы. К подобным маркерам относились слова с отрицательно-оценочным значением, жаргонизмы, инвективная лексика, метафоры с отрицательно-оценочными коннотациями. Был сформирован список маркеров, содержащий обнаруженные лексические маркеры, которые возможно использовать в качестве материала для программы автоматического выявления маркеров интолерантного речевого поведения и определения уровня текстовой интолерантности. Список маркеров представлен в таблице ниже.
Таблица 1 - Маркеры, обнаруженные в ходе предыдущего исследования
VP |
NP |
Adj/Adv |
|
плевать |
грязь |
вопиющий |
|
пилить |
спекуляция |
фальшивый |
|
презирать |
маразм |
имитационный |
|
миндальничать |
мясорубка |
кричащий |
|
смердеть |
бойня |
сумасшедший |
|
хапать |
резня |
обезумевший |
|
отмывать |
убийца |
безумный |
|
понаехать |
бандит |
засланный |
|
потрошить |
головорез |
заморский |
|
зализывать |
приговор |
пагубный |
|
чахнуть |
бесстыдство |
дьявольский |
|
обливать грязью |
клоун |
шизофренический |
|
цирк |
зажиревший |
||
апокалипсис |
заскорузлый |
||
издёвка |
разжиревший |
||
издевательство |
подлый |
||
катастрофа |
бесчеловечный |
||
мигрант |
нелегальный |
||
иммигрант |
слепой |
||
иностранные граждане |
продажный |
||
иностранцы |
|||
приезжие |
|||
бардак |
|||
раздрай |
|||
разброд |
|||
мракобесы |
|||
идиотизм |
|||
дерьмо |
|||
сволочь |
|||
фанатик |
|||
беженцы |
|||
нелегал |
|||
исчадие |
|||
переселенцы |
|||
трясина |
|||
презрение |
|||
гнев |
|||
агрессия |
|||
имитация |
|||
видимость |
|||
боевик |
|||
бомба |
|||
ад |
|||
распил |
|||
вакханалия |
|||
беспредельщик |
|||
беспредел |
|||
понаехавшие |
|||
гастарбайтер |
|||
пшик |
|||
иллюзия |
|||
экстремист |
Таким образом, данная работа посвящена выявлению в тексте лексических средств, маркирующих интолерантное речевое поведение, для дальнейшего их использования при определении уровня речевой интолерантности текста.
Глава 2. Компьютерные инструменты анализа текста
В настоящее время автоматическая обработка текстов естественного языка применяется во многих областях, в том числе в лингвистике, для выполнения различных научных исследований: синтаксического и морфологического анализов, извлечения информации, синтеза текста и звучащей речи и многих других. Для каждой задачи наиболее эффективными являются только некоторые методы исследования, поэтому в данной главе будут описаны методы, позволяющие выделить в тексте интолерантные маркеры и на их основе сделать вывод о степени интолерантности текста.
2.1 Анализ тональности (sentiment analysis)
Наиболее близким к стоящей задаче является задача анализа тональности или сентимент-анализа (англ. sentiment analysis). Анализ тональности относится к компьютерным методам контент-анализа и предназначен для автоматического выявления в тексте эмоционально окрашенной лексики и определения эмоциональной оценки всего текста в одномерном («позитив»-«негатив») или многомерном (различные виды эмоций) эмотивном пространстве. Выделяются ручной, или экспертный, и автоматический анализы тональности.
Экспертный анализ тональности
Первый тип анализа выполняется экспертом-лингвистом, в связи с чем является более точным, но гораздо более трудоёмким, чем автоматический анализ. Результатом такого анализа становятся готовые тезаурусы оценочной лексики, которые затем могут использоваться в качестве обучающей базы для программ автоматического определения тональности. К подобным тезаурусам относятся разработанный учёными Принстонского университета электронный тезаурус WordNet и созданные на его основе семантические тезаурусы WordNet-Affect, в котором эмоционально окрашенные слова вручную распределены по шести эмоциональным категориям, и SentiWordNet, аннотированный в трёхмерном пространстве (негатив - объективность - позитив). Позже, в 2010 году, был разработан тезаурус SenticNet, отличающийся от своих предшественников тем, что позволяет связывать эмоционально окрашенную лексику не на синтаксическом, а на семантическом уровне. Все эти тезаурусы доступны для загрузки, однако стоит отметить, что только SenticNet разработан для 40 языков, включая русский, в то время как для WordNet-Affect поддержка русского языка была создана сторонними разработчиками из Технического университета Молдовы, при этом тезаурус русского языка был построен на базе английского и румынского путём перевода имеющихся в этих тезаурусах слов. Однако оба этих тезауруса имеют основной целью многомерную классификацию эмоций и выявление семантических связей между словами, что не является целью настоящего исследования, к которой наиболее близок тезаурус SentiWordNet, разработанный только для английского языка.
Если говорить о тезаурусах русского языка, то самыми известными являются RussNet, переведённый тезаурус WordNet для русского языка, разработка и обновление которого в настоящий момент остановлены, и более современный Yet Another RussNet, находящийся в процессе активной разработки и слияния с тезаурусом RussNet. Также ведётся работа над проектом RuThes. Однако все эти тезаурусы направлены на отображение иерархических и синтаксических связей между словами, а не на выявление эмоционально-оценочных коннотаций. К последней цели наиболее приближен лексикон RuSentiLex, разработанный на базе тезауруса RuThes. Последняя версия этого инструмента содержит более 12 тысяч эмоционально-оценочных слов и выражений, размеченных по частям речи, трёхмерному пространству тональности (позитивная, нейтральная, негативная) и источнику (оценка, чувство или факт). Данный тезаурус наиболее приближен к поставленной задаче выявления интолерантных маркеров, поэтому возможно его дальнейшее использование в качестве базового словаря для программы обработки текста.
Нельзя не отметить, что экспертный анализ может применяться не только для ручного составления словарей оценочной лексики, но и для собственно анализа - определения тональности текста. Он является наиболее эффективным, так как эксперт-лингвист может определить различные оттенки тональности и выделить в тексте иронию или сарказм, всё ещё проблематичные для автоматизированного определения. Однако стоимость и трудозатратность такого анализа гораздо выше, чем у автоматического, который с каждым годом становится всё ближе по качеству к анализу профессионального лингвиста.
2.1.2 Автоматический анализ тональности
Методы автоматического анализа тональности можно разделить на несколько групп: основанные на правилах и словарях (rule-based); основанные на использовании машинного обучения с учителем или без учителя; основанные на графовых моделях.
Основанные на правилах программы используют заранее составленные словари тонально маркированной лексики и разработанные правила, определяющие тональность лексических единиц, причём в большинстве случаев созданием правил и словарей занимаются не программисты, а эксперты-лингвисты с помощью лингвистического анализа. Программа анализирует текст на наличие негативной и позитивной (или другой тональности, в зависимости от поставленной задачи) лексики, основываясь на значениях тональности отдельных слов, присвоенных в соответствии с правилами. Однако у такого метода есть ряд проблем, отчасти совпадающих с проблемами экспертного анализа тональности. Как и последний, такие методы нуждаются в объёмной предварительной работе по составлению словаря и разработке правил, которая требует больше трудозатрат и времени, чем при использовании других алгоритмов.
Машинное обучение с учителем (supervised machine learning) является наиболее часто используемым современным методом. Суть такого метода заключается в том, что сначала программа-классификатор (Наивный Байесовский классификатор, логистическая регрессия, КНН или другой) обучается на заранее размеченных экспертом текстах, а затем используется для анализа других текстов, не входивших в обучающую выборку. Такой метод также требует предварительной работы, которая состоит не только в сборе сбалансированного обучающего корпуса, но и в их корректной разметке по тональности и наличию или отсутствию отличительных признаков, если они должны учитываться при классификации. Использование алгоритма для последующей классификации уже неразмеченных текстов делает его проще и быстрее, чем методы, основанные на правилах, но всё же он остаётся более сложным и трудозатратным, чем обучение без учителя.
Методы машинного обучения без учителя (unsupervised machine learning) основываются на автоматическом выделении негативных ключевых слов (терминов) текста, то есть тех слов, которые часто встречаются в конкретном тексте, но при этом редки во всём корпусе текстов. Эти слова имеют наибольшую информационную значимость для текста и, определив их тональность на основе семантического свойства с некоторыми словами, тональность которых известна, программа высчитывает тональность всего текста. Плюсом такого подхода является тот факт, что он практически не требует предварительной работы, кроме подготовки слов с известной тональностью, что является гораздо менее трудозатратным, чем составление словарей и правил или разметка обучающего корпуса текстов.
Методы, использующие теоретико-графовые модели, основываются на гипотезе о неравнозначности слов текста. Как и при машинном обучении без учителя, считается, что определённые слова более информационно значимы и больше влияют на тональность всего текста, чем другие, информационно незначимые слова. При использовании таких методов анализируемый текст трансформируется в граф, в котором вершинами являются слова (или группы слов) текста, а рёбрами - семантические связи между ними. Вершины графа ранжируются, при этом наибольшие веса присваиваются ключевым словам или группам, которые затем классифицируются по тональности. На основе тональности ключевых вершин высчитывается тональность всего текста. Эти методы похожи на машинное обучение без учителя анализом ключевых слов, но отличаются в способе их определения. Кроме того, для них также необходим словарь тональности, по которому будет происходить итоговая классификация слов или групп слов.
Методы автоматического анализа тональности, как и другие алгоритмы, оцениваются по тому, насколько их результаты при тестировании совпадают с результатами экспертного анализа. Основными метриками качества считаются точность - отношение верно определённых текстов к их общему числу, полнота - отношение верно определённых текстов к общему числу текстов, выявленных программой, а также их взвешенное среднее F-мера.
2.2 Автоматическая классификация текстов
И задача анализа тональности, и задача данного исследования основываются на одной из основных задач машинного обучения - задаче классификации. Её суть заключается в том, чтобы на основе определённых признаков отнести анализируемый объект к одному из нескольких классов. В машинном обучении для решения задачи классификации (как бинарной, так и многоклассовой) используются специфические модели классификации.
Большинство классифицирующих алгоритмов относятся к линейным моделям. Они относительно быстро обучаются, легко корректируют свои предсказания в процессе обучения, могут использоваться в том числе для восстановления нелинейных зависимостей, однако ограничены количеством признаков, использующихся при обучении. Одна из самых известных и популярных моделей, наиболее часто использующаяся для классификации текстов - Наивный Байесовский классификатор (Naпve Bayes). Суть работы такого классификатора в том, чтобы отследить, наличие какого признака о каком классе свидетельствует и впоследствии по набору встреченных в тексте признаков отнести его к наиболее вероятному классу. Метод основывается на теореме Байеса по оценке вероятности события при условии наступления другого события:
,
из чего можно вывести формулу принадлежности объекта к определённому классу C при наличии у него признаков F1 и F2:
,
где в знаменателе находится вероятность одновременного наличия признаков F1 и F2, а в числителе - произведение вероятности класса и вероятности наличия признаков в объекте этого класса. Последнюю вероятность достаточно сложно посчитать, однако при использовании наивного предположения о том, что все признаки независимы друг от друга, формула значительно упрощается:
.
Несмотря на то, что такое наивное предположение теоретически неправильно, этот метод хорошо проявляет себя во многих реальных задача классификации, в том числе в задачах классификации текстов.
Другой распространённый метод классификации - логистическая регрессия (Logistic Regression), применимая только для бинарной классификации, так как в качестве результата она выдаёт только число от 0 до 1 - вероятность принадлежности объекта к одному из двух классов. При необходимости многоклассовой классификации при использовании логистической регрессии приходится использовать стратегию «один против всех» (`one vs all' classification), при которой для каждого из классов высчитывается вероятность принадлежности конкретно к этому классу или любому из двух других, и на основе вероятностей для каждого класса делается итоговый вывод. Одним из недостатков логистической регрессии является то, что она требует большой тренировочной выборки для лучшего вычисления вероятностей.
Ещё один метод, который требует меньше вычислительной мощности, чем логистическая регрессия, и проще интерпретируется - это метод ближайших соседей (k-Nearest-Neighbours, далее kNN). Он заключается в том, что новый анализируемый объект относится к тому же классу, что и большинство из k ближайший к нему из тренировочной выборки, при этом близость определяется по заранее заданной метрике расстояния. Особенностью kNN является большое количество параметров, которые нужно подбирать под каждую задачу методом проб и ошибок, тестируя каждый новый вариант на отдельной выборке. Среди таких параметров не только само число соседей, по которым будет приниматься решение о принадлежности тому или иному классу, но и веса этих соседей, если они необходимы, а также метрика расстояния, а в задачах классификации текстов - функция близости. Однако эти недостатки покрываются лёгкостью интерпретации выдаваемой оценки, а также быстротой обучения и компиляции алгоритма.
Также в качестве инструмента классификации используется алгоритм машины опорных векторов (Support Vector machine, далее SVM). Он основывается на значениях n заранее определённых признаков анализируемого объекта и представляет его как точку в n-мерном пространстве. На базе множества объектов обучающей выборки алгоритм ищет гиперплоскость, которая лучше всего разделила бы объекты двух классов. Любой новый объект, не входивший в тренировочную выборку, оценивается в координатах пространства и на основе того, с какой стороны от гиперплоскости он находится, делается вывод о принадлежности к тому или иному классу. У алгоритма SVM также достаточно много параметров, подбирающихся под конкретную задачу, таких как тип ядра, коэффициент ядра, от которого зависит точность обучения на тренировочных данных, а также параметр штрафа за неправильную классификацию, который влияет на корректность последующей классификации и гладкость разделяющей гиперплоскости. Алгоритм на опорных векторах достаточно эффективен при большом количестве признаков и при наличии чётких классов, однако при больших объёмах данных его обучение занимает очень долгое время, кроме того, он плох при работе с «зашумленными» данными, в которых разные классы значительно перекрываются, а также он не даёт явной оценки вероятности, в отличие от других алгоритмов.
Однако не все методы машинного обучения основываются на линейной классификации. Часть моделей берут за основу тот же принцип, которым руководствуются люди, когда классифицируют ту или иную вещь: они задают последовательность простых вопросов, которые в итоге приводят к одному из нескольких возможных ответов. Такие модели называются решающими деревьями или деревьями решений (Decision Trees). В процессе обучения они строят граф, внутренними вершинами которого являются максимально простые условия, а листами - определённые прогнозы, удовлетворяющие цепочке приводящих к ним условий. При классификации прогноз в листе обозначает либо класс, либо вероятности принадлежности к разным классам. Решающие деревья требуют достаточно мало вычислительной мощности, способны обрабатывать пропущенные значения и легки в интерпретации результатов, однако при работе с ними нужно быть крайне осторожным: такой алгоритм легко может переобучиться и дойти до того, что каждому объекту обучающей выборки будет соответствовать отдельный класс. От такого алгоритма не будет никакого толку при анализе новых данных.
Чтобы улучшить работу алгоритма, часто применяются ансамбльные методы (Ensemble Methods), дающие высокий прирост производительности в особенности тем моделям, которые основаны на решающих деревьях. Они поддерживают баланс между смещением и дисперсией и не позволяют модели переобучаться. Суть ансамбльного метода заключается в том, что он комбинирует несколько индивидуальных моделей, и на основе их результатов делают итоговое предсказание. Среди ансамбльных алгоритмов особенно выделяется метод случайного леса (Random Forest), способный решать как задачи классификации, так и регрессии. Он создаёт несколько деревьев решений вместо одного, классифицируемый объект даётся на вход каждому из этих деревьев, и каждое дерево делает предсказание. Затем алгоритм случайного леса выбирает итоговый результат по максимальному числу голосов в случае задачи классификации или по среднему значению в случае задачи регрессии. Такой алгоритм более точен и лучше обрабатывает данные, чем одно решающее дерево, сохраняет баланс в несбалансированных наборах данных, однако стоит заметить, что в задачах регрессии он показывает себя хуже, чем в задачах классификации.
Подводя итоги, можно сказать, что задача выявления лексических маркеров для определения интолерантности текста близка к классификации текстов для определения тональности, причём в качестве рассматриваемых признаков используются определённые лексические единицы, выделенные при обучении алгоритма или заранее. Новизна и сложность данной задачи заключаются в том, что пока что не существует общей базы тонально размеченных по толерантности/интолерантности текстов, в том числе публицистических (в отличие, к примеру, от текстов отзывов на фильмы и рестораны или твитов, базы которых используются для обучения многих алгоритмов). Кроме того, опора на конкретные лексические маркеры означает акцент на классификации не столько самого текста в целом, сколько отдельных фраз, слов и словосочетаний, и уже на основе этих результатов определение доли интолерантной лексики в тексте. Также, поскольку анализ будет основываться на лексических единицах, возможно использование как алгоритмов машинного обучения, так и программ на основе правил и словарей.
Подобные документы
Специализированные программы-переводчики. Возможности компьютерных словарей. Проблемы перевода многостраничной документации. Принципы, по которым построены компьютерные словари. Какие тексты нецелесообразно переводить с помощью компьютерных переводчиков.
презентация [9,2 K], добавлен 13.11.2010Решение проблемы автоматического упрощения текста на лексическом уровне: способы, методы, приложения и инструменты. Задача автоматической адаптации текста для изучающих иностранный язык. Выбор средств разработки, создание словарей замен и языковой модели.
дипломная работа [117,3 K], добавлен 28.08.2016Мировая история технологии машинного перевода как класса систем искусственного интеллекта. Классификация программ онлайн-переводчиков, поддержка функции контролируемого входного языка. Многоязычные браузеры в Интернете и перечень электронных словарей.
контрольная работа [21,6 K], добавлен 03.02.2011Проблема передачи речевого сигнала через Интернет и создание ISDN. Этапы развития технологии VoIP. Создатели программы Skype, принцип ее работы (Р2Р-архитектура) и преимущества перед другими программами. Развитие компании и спектр предоставляемых услуг.
презентация [1,7 M], добавлен 15.12.2011Проектирование программного обеспечения, позволяющего создавать и вести множество электронных словарей. Обоснование выбора программных средств решения задачи. Разработка формы входных и выходных данных. Описание модулей программы и процесса отладки.
дипломная работа [1007,7 K], добавлен 03.07.2015Рассмотрение понятия, признаков проявления (изменение размеров файлов, даты их модификации), видов (сетевые, файловые, резидентные, троянские программы) компьютерного вируса. Характеристика основных антивирусных программ: детекторов, докторов, ревизоров.
реферат [22,4 K], добавлен 05.06.2010Написание программы на языке Delphi - создание электронной записной книжки. Описание типов "запись", полей и массива, составление процедур. Создание приветствия и редактирование записи. Создание команды для вызова справки. Принцип работы программы.
контрольная работа [17,9 K], добавлен 23.09.2010Кто и почему пишет вирусы. Компьютерные вирусы, их свойства, классификация. Пути проникновения вирусов в компьютер, механизм распределения вирусных программ. Методы защиты от компьютерных вирусов. Антивирусные программы: Doctor Web, Microsoft Antivirus.
реферат [45,2 K], добавлен 27.09.2008Прикладное программное обеспечение компьютера, его классификация по назначению и применению. Управление прикладными программами. Антивирусные и коммуникационные программы. Приложения общего назначения. Мультимедиа приложения и компьютерные игры.
реферат [105,8 K], добавлен 05.06.2013Разработка программы автоматизации процесса проверки знаний учащихся. Использование языка программирования Borland Delphi 7.0, его свойства, компоненты для работы со строками. Создание обучающих тестов на знание лексики и грамматики английского языка.
курсовая работа [521,0 K], добавлен 06.03.2016