Главная Коллекция "Otherreferats" Программирование, компьютеры и кибернетика Речевые маркеры интолерантности и компьютерные инструменты их выявления

Речевые маркеры интолерантности и компьютерные инструменты их выявления

Определение основных типов лексических маркеров интолерантного речевого поведения. Рассмотрение базовых словарей нейтральной и интолерантной лексики. Создание программы на основе словарей. Оценка качества выделения программами интолерантной лексики.

Рубрика	Программирование, компьютеры и кибернетика
Вид	дипломная работа
Язык	русский
Дата добавления	17.09.2018
Размер файла	260,1 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

Таким образом, работа будет посвящена построению программы полуавтоматического выявления интолерантных маркеров на основе словарей соответствующей лексики, а также построению программ с использованием классифицирующих алгоритмов машинного обучения, в частности Наивного Байесовского классификатора, логистической регрессии, метода ближайших соседей и случайного леса.

Глава 3. Автоматическое выявление маркеров интолерантности текста

Как было выведено выше, данную задачу можно реализовать двумя различными путями с использованием двух разных подходов. Первый, словарный подход, станет основной для приложения по выделению из текста интолерантных маркеров с возможной корректировкой пользователем и подсчётом процента интолерантной лексики. Второй, классификация на базе методов машинного обучения, будет основываться на предположении, что слова, наиболее сильно влияющие на подсчитанную программой вероятность, и являются маркерами интолерантности. Обе программы были написаны на языке программирования Python версии 3.6.0.

3.1 Программа на основе словарей

3.1.1 Подготовка опорных словарей

Программа основывается на сопоставлении слов текста с двумя словарями - нейтральной и интолерантной лексики, - которые предоставляет ей пользователь. Такой подход похож на традиционный экспертный анализ, который проводит сам человек, однако его автоматизация всё же упрощает работу эксперта при наличии большого корпуса текстов. Пользовательская загрузка словарей привлекательная по нескольким причинам: во-первых, это даёт и программе, и самому пользователю изменять словари в процессе работы, что при продолжительном использовании будет приводить к улучшению работы алгоритма.

Для наполнения начальных словарей были взяты слова из лексикона RuSentiLex 2017 года, созданного Н.В. Лукашевич и содержащего более 16 тысяч позиций. Сам лексикон состоит из упорядоченных по алфавиту слов и выражений, имеющих компонент оценки тональности в своём значении. Слова для лексикона были извлечены автоматически и проанализированы экспертами, тональность слову присваивалась на основе его употребления в новостных текстах. При этом все слова разделены на три группы: позитивная оценка, нейтральная и негативная, не содержащие обсценной лексики. Стоит отметить, что для каждого слова в лексиконе указан также источник тональности: оценка, чувство или факт, а также перечисляются разные варианты тональности для многозначных слов. Для удобства использования в данной задаче позитивные и нейтральные слова были объединены в один словарь, противопоставленный словарю негативно-оценочной лексики, кроме того, слова, занесённые в лексикон как констатации факта, не относились к интолерантной лексике, так как у них отсутствовал негативный эмоционально-оценочный компонент значения.

Однако объёма лексикона оказалось недостаточно для создания начальных словарей, поэтому к нему были добавлены слова из текстов, собранных в процессе других исследований. Были собраны тексты новостных сводок с сайтов изданий «РИА Новости», «Аргументы и Факты», «Газета.Ru», «Lenta.Ru» для выборки нейтральной лексики и авторские статьи оппозиционного издания «Грани» для выборки интолерантной лексики. Новостные тексты были выбраны из-за их ориентирования на широкую аудиторию, соблюдение норм современного русского языка и отсутствие эксплицированной авторской оценки, которая могла бы маркироваться интолерантной лексикой. В то же время, авторские статьи оппозиционных изданий отличаются эксплицированной негативной оценкой, выражающейся в жаргонизмах, ругательствах и других типах интолерантной лексики. Также к словарю интолерантной лексики были добавлены слова, отобранные в ходе предыдущего исследования из текстов авторских статей газеты «Аргументы и Факты». Всего было обработано 470 текстов и добавлено в словари 30000 слов для нейтрального словаря и 80 слов для интолерантного словаря (с учётом повторяющихся нелемматизированных единиц).

Ввиду флективности русского языка, хранить в словарях полные формы слов представляется не самым оптимальным решением, так как в таких случаях для одного слова может храниться несколько форм, что будет увеличивать время работы алгоритма и усложнять работу пользователю, так как при встрече не имеющейся в словаре формы того же слова программа не сможет её опознать. Однако использование N-грамм также представляется спорным решением по нескольким причинам. Так, использование начальных N-грамм слов может привести к тому, что программа будет путать разные слова с разной тональностью, но начинающиеся с одного набора символов, а сохранение длинных N-грамм приведёт к сохранению большинства слов в исходном виде. Если же разбивать слова на наборы из всех возможных N-грамм, это затруднит работу программы по выделению определённой лексики, так как будут возможны случаи, в которых программа будет опознавать слово как интолерантное по одной составляющей, к примеру, по окончанию. Оптимальным вариантом можно считать использование леммы слова, которую можно получить с помощью морфологического анализатора MorphAnalyzer и его реализации для языка Python - библиотеки pymorphy2. Это позволит сократить размер внутренних словарей и упростить обработку текста для итоговой программы.

После объединения словарей лексикона RuSentiLex, маркеров, полученных в результате предыдущих исследований, маркеров, извлечённых из текстов новостных сводок, и итоговой лемматизации размер начальных словарей составил 15500 слов для нейтрального словаря и 6500 слов для интолерантного словаря.

3.1.2 Принцип работы алгоритма

Интерфейс программы был написан с использованием библиотеки tkinter и скомпилирован в исполняемое приложение с помощью библиотеки pyinstaller.

Для работы программе необходимы три основных файла: текст для анализа, словарь нейтральной лексики и словарь интолерантной лексики. Все файлы загружаются пользователем в формате .txt (простой текстовый файл), файлы словарей содержат списки слов, разделённые символом новой строки и/или пробелами. Программа разбивает файлы на подстроки, а затем на отдельные слова, из которых формируются списки маркеров, с которыми она будет работать в дальнейшем. Начальные словари даются уже с лемматизированными словами, что позволяет упростить работу алгоритма.

Текст для анализа приводится к нижнему регистру и очищается от пунктуационных и непечатаемых знаков, а также слов на иностранных языках. Очищенный текст в виде списка слов передаётся обрабатывающему скрипту, который проходит по каждому слову в списке. Слово приводится к лемме (при возможности анализатора, в противном случае оставляется в той форме, в которой оно находится в тексте). Затем проверяется наличие его леммы в каждом из словарей. Если слово обнаружено в одном из них, то счётчик нейтральных или интолерантных слов увеличивается (в зависимости от того, в каком словаре оно обнаружено), если слово относится к интолерантным маркерам, оно сохраняется в отдельном списке, а скрипт переходит к следующему слову. Если же слово не обнаружено ни в одном из словарей, то в режиме «ручного корректирования» программа обращается к пользователю, используя окна сообщений с вариантами ответов «да» или «нет» (tkinter.messagebox.askyesno). При этом неизвестное программе слово проходит два этапа проверки. На первом этапе программа спрашивает пользователя, реально ли данное слово. Это помогает избежать занесения в словари результатов опечаток и авторских окказионализмов, которые могут иметь значение в данном тексте, но не встретятся в других, а потому нет смысла сохранять их в основном словаре маркеров. На втором этапе программа спрашивает пользователя о тональности данного слова. При любом ответе счётчик соответствующих слов увеличивается, а интолерантное слово заносится во внутренний список, но только реальное по результатам первой проверки слово заносится в соответствующий словарь, тем самым по мере использования программа увеличивает размер базовых словарей и уменьшает частоту обращений к пользователю при каждом последующем использовании. При выключенном режиме «ручного корректирования» программа автоматически причисляет все неизвестные слова к нейтральным и ведёт поиск только по списку маркеров, предоставленному пользователем.

Проанализировав все слова текста, алгоритм уточняет у пользователя, нужно ли обновить базовые словари в соответствии с результатами работы, и перезаписывает файлы в случае положительного ответа. Затем он высчитывает долю интолерантной лексики, выводит с помощью нового диалогового окна сообщения (tkinter.messagebox.showinfo) процент интолерантной лексики и список обнаруженных маркеров, и в конце спрашивает у пользователя, необходимо ли сохранить этот список. При положительном ответе, программа сохраняет все обнаруженные в конкретном тексте маркеры как текстовый файл, доступный пользователю для дальнейшего исследования.

3.1.3 Интерфейс программы

Меню программы предоставляет пользователю возможность загрузки файла для анализа с помощью команды «Открыть файл» и анализа текста командой «Проверить текст». Отдельный пункт меню отвечает за работу со словарями: загрузку нейтрального и интолерантного словарей, а также их пересохранения в случае ручного редактирования пользователем. Также в меню содержатся информация о программе и команда закрытия интерфейса.

Рисунок. Главное окно программы

Центральная область предназначена для работы с текстом и разделена на три части: окно для анализируемого текста и два окна для словарей. Отдельно расположена ячейка включения/выключения режима «ручного корректирования», при котором программа будет обращаться к пользователю при встрече неизвестного слова. Тексты загружаются через соответствующие пункты меню, однако могут редактироваться вручную в главном окне, что позволяет пользователю изменять словари по мере необходимости и в зависимости от задачи. На рисунках ниже показаны вспомогательные диалоговые окна проверки новых слов и итоговый вывод процента интолерантной лексики и списка обнаруженных маркеров.

3.1.4 Тестирование и результаты работы

Для проверки качества работы алгоритма им были проанализирован тренировочный корпус новостных статей издания «Лента.Ру» объёмом 10660 словоформ, после чего маркеры, выделенные программой, были проверены вручную, а тексты подробно проанализированы. Маркеры, выделенные лингвистом, были сравнены с теми, которые выделила программа. Также учитывалось, как часто программа обращалась к пользователю.

При обработке тренировочного корпуса и при заданных начальных словарях программа обращалась к пользователю 1800 раз и выделила 260 единиц интолерантной лексики. Стоит отметить, что большинство обращений к пользователю совершались в начале проверки, кроме того, проблемы у программы возникали с именами собственными - людей, мест, организаций, - а также с сокращениями. В некоторых случаях программа спрашивает пользователя о словах, другая форма которых уже есть в словаре. Такое возможно из-за неидеальной работы лемматизатора.

Затем в рамках основного теста программой были обработаны 10 текстов: по два отрывка из авторских статей изданий «Аргументы и Факты» и «Грани», по два отрывка новостных статей с сайтов изданий «Газета. Ru» и «РИА Новости», а также два отрывка статьи отрытой интернет-энциклопедии «Луркоморье». Все отрывки представлены в Приложении 2. Сводные результаты работы программы в сравнении с работой человека представлены в таблице ниже:

Таблица 2 - Соответствие маркеров, выделенных программой и выделенных человеком

Текст №	Обращений к пользователю / объём текста (сл)	Список маркеров	Список маркеров, обнаруженных человеком
1 (АиФ)	21 / 102 (20%)	антирусский, уничтожение, распадаться, агрессивный, ненавидеть	антирусским, уничтожения, разрушение, распадается, агрессивную
2 (АиФ)	25/262 (9%)	фига, незалежный, нелегально, бесправный, наживаться, криминалитет, обеднеть, слыть, матерный	фигу, Незалежной, наживается, криминалитет, флирта
3 (Грани)	46 / 183 (25%)	скандалить, титул, ненавистник, эдак, завистник, обзывать, невежда, норовить, наотмашь, сгубить, мразь, конченый, униматься, схватить, клеветник, голосовать, распоследний, плагиатор, плагиат, враг, свеженаколоть	скандалит, ненавистники, эдак, завистники, обзывая, невеждой, норовят, наотмашь, сгубившие, мрази, конченые, унимаются, схвачено, клеветникам, распоследней, плагиатором, плагиате, враги, свеженаколотую
4 (Грани)	15/194 (7%)	начистоту, сомнение, юлита(юлить), неявка, неясный, приговаривать, сажать	юлит, (не)явки, корзиночке, приговаривайте, ерундой
5 (Газета)	14 / 92 (15%)	шпионаж, шпионаж	шпионаж, шпионаже
6 (Газета)	10/220 (4%)	-	-
7 (РИА)	15 / 67 (22%)	-	-
8 (РИА)	4/175 (2%)	-	-
9 (Лурк)	36 / 132 (27%)	школота, невольный, блджад, иудаизм, круглоголовый, арменоид, фошыст, срать, западло, похуй	школота, блджад, круглоголовыми, арменоидами, фошысты, срать, западло, похуй, ЕРЖ, маргинальной
10 (Лурк)	36/193(18%)	алконавт, халявный, жрачок(жрачка), корпоративчик, поцреот, мизантроп, скатерть, бухло, нажираться, трещать, невзначай, скормить, завалять, зохавать, просрать, деньга(деньги), просираться, выблёвываться	алконавт, планктон, халявной, жрачки, корпоративчике, поцреоты, ТП, бухлом, нажираться, невзначай, скормить, завалявшие, талым, зохавать, просрать, просираются, выблёвываются

Как можно видеть из таблицы 2, в среднем программа обращается к пользователю менее чем в четверти случаев, причём основные трудности, как уже сказано выше, связаны с именами собственными, их производными и сокращениями, а также с редкими и/или специфическими для конкретной области словами, обсценной лексикой и намеренным искажением написания слова (такие слова по решению пользователя могут не заноситься в словарь, но всё равно учитываются в общем подсчёте).

Стоит обратить внимание на метрики точности программы, полученные по результатам тестирования. Они представлены в таблице ниже:

Таблица 3 - Метрики точности программы, основанной на словарях

Текст	Accuracy	Precision	Recall	F-measure
1	0,97	0,6	0,75	0,66
2	0,97	0,4	0,8	0,53
3	0,98	0,9	1,0	0,94
4	0,97	0,57	0,8	0,66
5	1,0	1,0	1,0	1,0
6	1,0	1,0	1,0	1,0
7	1,0	1,0	1,0	1,0
8	1,0	1,0	1,0	1,0
9	0,96	0,8	0,8	0,8
10	0,97	0,9	0,8	0,85
Среднее	0,98	0,82	0,89	0,84

Из таблицы 3 можно видеть, что программа показывает достаточно высокие результаты, особенно на текстах из новостных сводок (№№ 5-8), которые содержат исключительно фактическую информацию без авторской оценки. Ошибки могут быть связаны с несколькими факторами. Так, программа не может разрешать семантическую неоднозначность, а также иронию, сарказм и другие приёмы, которые не маркируются специфической лексикой. Однако алгоритм чаще маркирует нейтральные слова как интолерантные, а не наоборот, и оба типа ошибок могут исправляться пользователем путём редактирования словарей, что также позволит уменьшить число случаев обращения программы к пользователю при длительном использовании. Хотя стоит заметить, что снизить это число до абсолютного нуля не представляется возможным, так как в большинстве текстов найдутся неизвестные программе имена, фамилии или названия, а также во многих текстах авторы будут специально искажать слова, что также не будет входить в поле распознавания программы. Однако, если пользователю необходим только поиск определённых маркеров, он может пользоваться программой без режима «ручного корректирования», что значительно упростит работу тем исследователям, кто уже знает, маркеры какого типа хочет найти в тексте.

3.2 Классификаторы на основе методов машинного обучения

В ходе данной работы были опробованы 3 алгоритма: Наивный Байесовский классификатор, логистическая регрессия и случайный лес. Все классификаторы были обучены и протестированы на одних и тех же данных.

3.2.1 Тренировочные данные и процесс обучения

Для корректной работы алгоритмы должны быть обучены на большом количестве правильно размеченных данных - текстах с указанием их тональности (положительная/нейтральная или отрицательная). Так как собрать корпус достаточного размера с равным количеством положительных и отрицательных примеров не представляется возможным, было решено использовать готовый корпус коротких текстов на русском языке, собранный на основе постов микроблоггинговой платформы twitter Ю.В. Рубцовой Рубцова Ю. В. Построение корпуса текстов для настройки тонового классификатора // Программные продукты и системы, 2015, №1(109), - С.72-78. От тренировочных корпусов отзывов эту коллекцию отличает то, что микроблоги более общетематические, они охватывают больше предметных областей, менее структурированы, а значит, классификатор обучится нескольким разнообразным паттернам, в них более сильно выражены эмоционально-оценочные коннотации. От корпусов новостей они отличны более широкой охватываемой тематикой, а также тем, что их возможно разделить по полярности, в то время как новости более нейтральны и более узкоспециализированы.

Кроме того, основное назначение алгоритмов в рамках данной задачи - не классификация сама по себе, а анализ того, как определённые слова влияют на результаты классификации, что также обосновывает использование корпуса твитов для обучения, так как в результате алгоритмы будут получать конкретные вероятности того, что текст положителен или отрицателен. При этом итоговый результат классификации не настолько важен, хотя, как показала проверка классификаторов, они корректно определяют новостные тексты как «неотрицательные».

Таким образом, обучающая выборка состояла из 114 991 позитивной и 111 923 негативных записей, при этом из 12 атрибутов были выделены 2, необходимых для классификации: класс сообщения и его текст. Все тексты были лемматизированы при помощи инструмента MorphAnalyzer библиотеки pymorhy2 Korobov M.: Morphological Analyzer and Generator for Russian and Ukrainian Languages // Analysis of Images, Social Networks and Texts, pp 320-332 (2015). и преобразованы в матрицы, где каждое слово представлено как его метрика Tf-Idf (произведение отношения числа вхождений слова к числу слов в документе и обратной частоты документа, используется для оценки важности слова в тексте) с помощью инструмента TfIdfVectorizer библиотеки sklearn, применённого с параметрами по умолчанию. Затем преобразованные тексты были разделены для применения кросс-валидации с помощью метода KFold. Классификаторы также применялись с параметрами по умолчанию.

Для оценки качества обучения использовались следующие метрики качества:

Accuracy - доля правильно классифицированных объектов;

Precision - доля истинно положительных объектов;

Recall - доля всех найденных положительных объектов;

F-measure -

Результаты всех классификаторов даны в таблице ниже:

Таблица 4 - Значения метрик качества обученных классификаторов

Классификатор	Accuracy	Precision	Recall	F-measure
Наивный Байес	0.74	0.76	0.72	0.74
Логистическая регрессия	0.75	0.74	0.69	0.76
Случайный лес (100 деревьев)	0.72	0.73	0.69	0.71

3.2.2 Принцип работы основного алгоритма

Так как классификаторы обучены на коротких текстах, решено использовать два вида классификации: на уровне абзаца и на уровне предложения. Для этого текст первоначально разбивается на абзацы либо предложения, затем каждая часть лемматизируется и очищается от пунктуационных знаков и заимствований на иностранных языках. Затем алгоритм проходит по множеству слов текста и для каждого слова создаёт новый объект, получающийся из старого путём удаления всех вхождений данного слова. Все полученные объекты (основной текст и его варианты) трансформируются аналогично объектам тренировочной выборки. Для основного объекта делается предсказание выбранным классификатором, в результате чего алгоритм получает вероятности принадлежности объекта к негативному и позитивному классам. Затем такие же предсказания делаются для каждого из полученных вариантов, и в отдельный словарь для конкретного слова записывается разница вероятностей по типу: {w: pmain(-1) - pnew(-1)}, где w - удаляемое из текста слово, pmain(-1) - вероятность основного текста принадлежать к негативному классу, pnew(-1) - вероятность варианта текста без данного слова принадлежать к негативному классу.

После записи разниц вероятностей для всего множества слов текста алгоритм сортирует их по убыванию и извлекает слова, для которых эта разница больше определённого порогового значения threshold, установленного 0.1. Эти слова, как наиболее влияющие на вероятность текста принадлежать к негативно-оценочному классу, считаются принадлежащими к интолерантной лексике.

3.2.3 Тестирование и результаты

Все классификаторы были протестированы на тех же десяти текстах, на которых тестировалась программа на основе словарей. Результаты тестирования представлены в таблицах ниже:

Таблица 5 - Результат тестирования Наивного Байесовского классификатора

Текст №	Список маркеров на уровне абзаца	Список маркеров на уровне предложения	Список маркеров, обнаруженных человеком
1 (АиФ)	разрушение, присягнуть	который, разрушение, река, польша, ненавидеть, удаться, с, увидеть, куски, агрессивный, уничтожение, превращаться	антирусским, уничтожения, разрушение, распадается, агрессивную
2 (АиФ)	ограничения, сразу, страдать, европеец, жаловаться, стран, италии, от, то, гопак, в, частый, танцевать, отказ, работник, не	фига, для, же, дело, самый, о, забывают, на, уехать, италии, что, обвинять, всё, украинец, власть, насколько, считают, ближний	фигу, Незалежной, наживается, криминалитет, флирта
3 (Грани)	хотя, плагиат, предпоследний, россии, этот, вак, награждать, хозяин, являться, образование, а, весь, цензор, даже, скандалит, ненавистник, итальянский, васильевой, инстанция, уже, открывается, к, автореферат, тоже свеженаколоть, такой, двое, из, однако, с, вдруг, неприятелями, министр, умереть	министр, выписывать, награждать, этот, венеция, а, хозяин, мразь, на, конченый, за, отказываться, уже, недоумение, происходящим, коллега, сообщив, распоследней, образование, лицо, что, плагиатор, хотя, в, не, он, обвинять, открывается, к, автореферат, такой, двое, тоже, однако, из, карту, рукав, свеженаколоть, козырный	скандалит, ненавистники, эдак, завистники, обзывая, невеждой, норовят, наотмашь, сгубившие, мрази, конченые, унимаются, схвачено, клеветникам, распоследней, плагиатором, плагиате, враги, свеженаколотую
4 (Грани)	сажать, письменный, показания, совпадают, загрузить	не, сомнение, тут, может, юлита(юлит), он, человек, загрузить, что, а, делами, районный, и, другой, какой-то, ужасно	юлит, (не)явки, корзиночке, приговаривайте, ерундой
5 (Газета)	данный, госбезопасность, шпионаже, что, шаройко	что, шаройко, данный, госбезопасность, шпионаже, задержать, разведывательный, сам, под, минск, покинуть, же	шпионаж, шпионаже
6 (Газета)	правда, страна, год, дональд, ли, ни	всему, в, противовес, срок, сдержка, американский	-
7 (РИА)	-	по, сирийский, проходить, женеве, уже, состояться	-
8 (РИА)	-	ранний, абзалов, он, в, очень, понятно, до	-
9 (Лурк)	-	западло, но, по, так, и, только, треть, принять, общий, упоминание, похуй, арменоидами	школота, блджад, круглоголовыми, арменоидами, фошысты, срать, западло, похуй, ЕРЖ, маргинальной
10 (Лурк)	буквальный, фразеологизм, праздник, унитаз, самый, праздничный, и, потому, выблёвываются, просираются, только, не, использовать, деньги, значении,	основной, условный, при, включаться, телевизору, чуда, тп, водки, офисный, путин, жрачок, закончится, терять, одной, а, трещать, деньга, и, значении, потому, праздник, следующий, атрибут, на, поцреот, халявный, корпоративчике, планктон	алконавт, планктон, халявной, жрачки, корпоративчике, поцреоты, ТП, бухлом, нажираться, невзначай, скормить, завалявшие, талым, зохавать, просрать, просираются, выблёвываются

Таблица 6 - Результат тестирования логистической регрессии

Текст №	Список маркеров на уровне абзаца	Список маркеров на уровне предложения	Список маркеров, обнаруженных человеком
1 (АиФ)	разрушение, присягнуть, служба, польша, рука, гражданин, как, куски, на, значительный, собственный, сам, часть, не, большинство, форму, русский, бжезинский, ненавидеть	польша, удаться, служба, на, собственный, бжезинский, который, разрушение, присягнуть, как, с, ненавидеть, куски, сам, вновь, правда, уже, увидеть, детства	антирусским, уничтожения, разрушение, распадается, агрессивную
2 (АиФ)	европеец, страдать, уже, динамику, голоса, продовольствия, международный, опрос, рыба, савченко, стране, оказывать, флирт, обвинять, институт, состав, национальный, фактами, ухудшится, сельский, слов, данные, насколько, аналитик, сократиться, политика, страна, украинец, направления, слыть	фига, мотив, для, же, самый, о, уехать, что, жаловаться, продать, обвинять, том, всё, власть, украинец, насколько, республика, свой, в, слов, савченко, слыть, другой, ситуация, считают, лишь, ухудшится, ближний	фигу, Незалежной, наживается, криминалитет, флирта
3 (Грани)	обзывать, он, венеция, титул, от, гордо, ход, с, предпоследний, лишить, за, доктора, почётный, распоследней, cовет, россии, истфак, лицо, не, клеветник, отпор, открывается, к, автореферат, такой, двое, однако, из, тоже, свеженаколоть, вдруг, неприятелями, министр, диссертация, наверняка, в, схватка, не, умереть, а, читали, доставать, и, поворот	министр, выписывать, награждать, этот, хозяин, итальянский, мразь, за, хотя, открывается, к, автореферат, такой, двое, однако, с, из, он, не, карту, тоже, вдруг, себя, ход, доктора, наверняка, неприятелями	скандалит, ненавистники, эдак, завистники, обзывая, невеждой, норовят, наотмашь, сгубившие, мрази, конченые, унимаются, схвачено, клеветникам, распоследней, плагиатором, плагиате, враги, свеженаколотую
4 (Грани)	публичный, железобетонная, что, и, отразить, ужасно, на, полный, роснефть, говорить, может, придёт, нет-нет, человек, обязать, делами, о, вызвать, рандеву, районный, совпадают, корзиночке, юлита(юлит)	ужасно, не, тут, юлита(юлит), суд, общественный, нет-нет, в, он, иванович, но, человек, делами, всякий, что, игорь, отстать, от	юлит, (не)явки, корзиночке, приговаривайте, ерундой
5 (Газета)	-	задержать, разведывательный, что, журналист, покинуть, минск, же, шпионаж	шпионаж, шпионаже
6 (Газета)	система, встреча, год, дональд, страна, что, и, на, ли, второй, отложить, случай, противовес, за, пост, всего, гармонизация, нет, политика, сей, в, высказывать, или, избрание	год, дональд, пост, россия, случай, высказывать, срок, сдержка, всему, в, смочь, они, нет, что, до, встретиться, правда, ни, официальный	-
7 (РИА)	-	сирийский, уже, состояться, января, военный	-
8 (РИА)	-	-	-
9 (Лурк)	часть, метисами, так, быть, самый, ашкеназов, из, о, весь, ерж, а, долгих, сефард, версия, векслером, но, генетический, происхождение, при, треть, только	мочь, по, из, некоторых, только, принять, озвучить, а, же, маргинальной, ерж, но, западло, упоминание, как, школотый, генетический, знать	школота, блджад, круглоголовыми, арменоидами, фошысты, срать, западло, похуй, ЕРЖ, маргинальной
10 (Лурк)	закончится, потому, выблёвываются, просираются, только, унитаз, в, праздничный, и, буквальный, фразеологизм, самый, деньга, следующий, праздник, не	граф, у, даже, закончится, стола, терять, талый, в, сгодиться, продукт, мочь, хозяин, еда, завалять, но, деньга, и, значении, потому, праздник, следующий, атрибут	алконавт, планктон, халявной, жрачки, корпоративчике, поцреоты, ТП, бухлом, нажираться, невзначай, скормить, завалявшие, талым, зохавать, просрать, просираются, выблёвываются

Таблица 7 - Результат тестирования случайного леса

Текст №	Список маркеров на уровне абзаца	Список маркеров на уровне предложения	Список маркеров, обнаруженных человеком
1 (АиФ)	ненавидеть, воплощаться, как, магнатов, служба, приближаться, рука, европейский, америки, то, который, антирусский, и	он, не, ненавидеть, значительный, куски, уже, оружие, в, как, магнатов, сам, служба	антирусским, уничтожения, разрушение, распадается, агрессивную
2 (АиФ)	не, выявлять, формироваться	на, страна, и, учиться, дело, же, работник, что	фигу, Незалежной, наживается, криминалитет, флирта
3 (Грани)	лицо, за, титул, советские, награждать, мантия, пытаться, хозяин, самый, домой, вак, не, на, радушный, скандалит, она, он, из, теперь, свеженаколоть, не, доставать, такой, открывается, министр, козырный, читали, а, неприятелями	мразь, клеветник, и, унимаются, диссертационный, совет, то, весь, лицо, уже, в, выразить, ольга, являться, распоследней, сообщив, министр, который, не, даже, плагиат, он, враги, она, теперь, из, двое, открывается, что, с, неприятелями, козырный	скандалит, ненавистники, эдак, завистники, обзывая, невеждой, норовят, наотмашь, сгубившие, мрази, конченые, унимаются, схвачено, клеветникам, распоследней, плагиатором, плагиате, враги, свеженаколотую
4 (Грани)	поскольку, у, согласовывать, может, что, и, компания, полный, совместить, там, он, роснефть, отразить, ведь, публичный, железобетонная, если, не	поскольку, роснефть, ведь, публичный, он, позиция, говорить	юлит, (не)явки, корзиночке, приговаривайте, ерундой
5 (Газета)	украина, вести, подозреваться, покинуть, данный, полковник, а, минск, первый, собственный	же, что, вести, покинуть, посольство, собственный, украина, том	шпионаж, шпионаже
6 (Газета)	встреча, что, и	что, американский, всему, в, противовес, политика, срок, сдержка, потепление, по, не, двусторонний	-
7 (РИА)	состоятся, семь, сирия, россией, на, страна-гарант, января, раунд, прекращение	продолжаться, военный, встреч, января, года	-
8 (РИА)	институт, заявления, путин, пост, россия, свой, в, предновогодний, но, исключить	институт, заявления, пост, путин, россия, исключить, не, очень, под, что, потому, декабрь, послание, общественный, вероятно	-
9 (Лурк)	весь, время, правдоподобная, ашкеназ, принять	какой, оный, народом, весь, испанцев, например, нормальный, официальный, школотый, ашкеназов, похуй	школота, блджад, круглоголовыми, арменоидами, фошысты, срать, западло, похуй, ЕРЖ, маргинальной
10 (Лурк)	чего-то, мизантроп, офисный, даже, от, тп, потому, выблевываются, просираются, только, в	включаться, часть, набор, по, это, одной, а	алконавт, планктон, халявной, жрачки, корпоративчике, поцреоты, ТП, бухлом, нажираться, невзначай, скормить, завалявшие, талым, зохавать, просрать, просираются, выблёвываются

Как можно видеть из таблиц 5-7, выбранные классификаторами слова заметно отличаются как от человеческой оценки, так и от выбора программы на базе словарей. Они не справляются с задачей выделения редких слов, особенно когда такие слова характеризуют лишь какой-то аспект предмета речи и потому не являются важными для текста. Однако они могут выделять отрицательные и усилительные частицы, союзы противопоставления, которые хоть и не являются маркерами сами по себе, но значительно влияют на общую тональность текста.

Таблица 8 - Сводные результаты работы алгоритмов

Алгоритм	Accuracy	Precision	Recall	F-measure
Словарный	0,98	0,82	0,89	0,84
Наивный Байесовский	0,92/0,89	0,39/0,1	0,4/0,5	0,33/0,15
Логистическая регрессия	0,87/0,87	0,35/0,16	0,42/0,47	0,31/0,2
Случайный лес	0,88/0,89	0,04/0,03	0,24/0,25	0,03/0,03

Из таблицы 8 видно, что в целом классификаторы справились с задачей извлечения маркеров хуже, чем программа на основе словарей. Лучше всего показал себя Наивный Байесовский классификатор, а худшие результаты оказались у случайного леса. Так, случайный лес не выделил ни одного верного маркера у трёх текстов из пяти и часто выделял нейтральные слова в качестве маркеров, что снизило показатели качества, в то время как Наивный Байесовский классификатор выделял меньше некорректных слов и отмечал правильные маркеры почти во всех текстах. Стоит отметить, что у всех классификаторов затруднения вызвали тексты №5 и №10, изобилующие неправильным написанием слов, жаргонной лексикой и авторскими окказионализмами.

Так же, как и программа на основе словарей, классификаторы испытывают затруднения с искажёнными словами, именами собственными и редкими терминами, однако если программа на базе словарей может уточнить тональность такого слова у пользователя, алгоритм классификации исходит из важности слова в тексте, что приводит к разным результатам - в некоторых случаях нейтральные слова сильно влияют на интолерантность текста, в других алгоритм «не замечает» удаления негативно-оценочной лексики. Также стоит отметить случаи неверной лемматизации (школота - школотый), которые являются скорее недостатком алгоритма pymorphy и теоретически могут помешать основному алгоритму правильно определить важность слова.

Классификация по абзацам оказалась более эффективной, чем классификация по предложениям, что подтверждается метриками в таблице 8, хотя классификация по предложениям показывает лучшее значение полноты. Однако по всем трём алгоритмам сохраняется одна тенденция: маркеры, выделенные на двух уровнях, различаются, и в обоих списках находятся те, которые были отмечены экспертом как интолерантные. Это может быть объяснено тем, что абзацы в новостных статьях и блогах состоят из нескольких предложений и могут заключать в себе несколько разных идей и ключевых компонентов, что с одной стороны мешает программе правильно определить важность слова и занижает влияние определённых слов на тональность всей совокупности предложений, а с другой - помогает выделить слова, незначительные в рамках конкретного предложения, но влияющие на тональность всего абзаца. В связи с этим наиболее выгодным вариантом выглядит объединение двух типов классификации в сочетании с удалением наименее вероятных слов и последующим анализом, что позволит выделить наибольшее количество интолерантных маркеров, однако, опять же, не даст абсолютно точного результата.

Хотя алгоритм выделяет оценочно-нейтральные слова в списках интолерантных маркеров, его результаты могут быть также полезны при исследовании маркеров конкретного текста и той тональности, которую приобретают слова в зависимости от контекста. Полученные данные показывают, как воздействие на тональность всего сообщения зависит от встречаемости слова, его позиции в тексте и текстовых метрик (сообщение об украинском шпионе классифицируется как более положительное без употребления слова «Украина»). Это даёт основания полагать, что программа по-своему расценивает понятие «интолерантности» и «негативной оценки», что может быть предметом дальнейшего, более глубокого анализа.

3.3 Итоги исследования

Из результатов проведённого исследования можно сделать следующие выводы:

В целом программа на основе словарей справилась с задачей выделения интолерантной лексики лучше, чем классификаторы на основе машинного обучения. Этот результат объясним возможностью обращения к пользователю, что замедляет время работы с программой, но повышает точность, а также наличием двух базовых словарей, что позволяло программе анализировать текст, опираясь на конкретные слова, а не на общую тональность предложения, как это происходило в случае обучения классификаторов.

Как программа на основе словарей, так и классификаторы, основанные на машинном обучении, не могут выделить всех маркеров, которые выделил бы эксперт. Для программы на основе словарей средняя точность составила 82%, а полнота - 89%, в основном неправильно определялась специфическая лексика, нецензурные ругательства и намеренные искажения слов. У классификаторов значения соответствующих метрик колебались от 3 до 39% и от 24 до 50% соответственно, причём в качестве интолерантных маркеров выделялись служебные слова, которые не принадлежат к маркерам сами по себе, но влияют на тональность текста.

Программа на основе словарей вынуждена обращаться к пользователю в 25% случаев, при этом затруднения возникают с именами собственными, редкими словами, сокращениями и авторскими окказионализмами. Частоту таких обращений возможно уменьшить по мере использования программы и пополнения словарей, но полное избавление от них маловероятно.

Обученные классификаторы определяют интолерантную лексику на основе важности каждого слова в конкретном тексте и того, насколько оно влияет на общую тональность сообщения. Несмотря на то, что эти слова не всегда отрицательно-оценочны сами по себе, они могут влиять на конкретный текст, что может стать предметом дальнейших исследований.

Так как у каждого классификатора свой алгоритм и, как следствие, свой результат в виде отдельного набора маркеров, лучшим решением представляется использование одновременно нескольких классификаторов с последующим анализом и отбором итогового списка маркеров. Также разные результаты дают классификация на уровне предложения и классификация на уровне абзаца, поэтому их целесообразно использовать совместно с отбором наиболее влияющих слов для получения лучшего результата.

Заключение

По результатам проведённого исследования гипотеза была подтверждена: программные инструменты способны выделять из текста интолерантную лексику, однако классификаторы на основе методов машинного обучения выделяют не только собственно интолерантные маркеры, но и нейтральные слова, влияющие на тональность текста, поэтому программа на основе словарей является более приемлемым вариантом при необходимости выделения определённого списка маркеров, особенно когда этот список известен пользователю.

Ни одна из программ не может в совершенстве выделить абсолютно все маркеры из-за наличия в текстах имён собственных, редких слов, специфических для конкретной области, намеренных искажений слов и авторских окказионализмов, которые нельзя дать закрытым списком и нельзя предусмотреть заранее. Программа на основе словарей справляется с этой проблемой путём обращения к мнению пользователя и последующего запоминания. Классификаторы же нельзя дообучить подобным образом, и слова такого рода могут оказаться в списке выбранных маркеров, а могут и не оказаться, поэтому такие проблемы пользователю придётся решать с помощью последующего анализа текста.

Также обе программы в определённых случаях выделяют нейтральные слова как интолерантные маркеры и наоборот. У программы на основе словарей это происходит из-за совпадений слов, а также из-за семантической неоднозначности, которую программа не может разрешить, и решается ручной корректировкой и пополнением словарей в процессе использования. У классификаторов на базе машинного обучения подобные случаи обусловлены тем, что алгоритм оценивает важность слова и его влияние на общую тональность текста, а нейтральные частые слова в некоторых случаях влияют на тональность больше, чем один раз встретившееся интолерантное слово. Это может быть скорректировано с помощью более масштабной обучающей выборки и сужения действия классификаторов до одной предметной области, но в целом такие результаты могут быть предметом отдельного исследования того, какие коннотации приобретают нейтральные слова в контексте и как они могут влиять на общую тональность сообщения.

Стоит отметить, что в случае классификаторов на базе машинного обучения самым эффективным вариантов выглядит сочетание классификаций на уровнях абзаца и предложения, так как на каждом уровне классификаторы выделяют разные маркеры, что также может стать предметом отдельного изучения. Кроме того, так как разные модели классификаторов выделяют разные списки маркеров, возможно их использование в совокупности для получения лучшего результата. Однако в целом в полученных от классификаторов списках достаточно много нейтральной лексики, поэтому они меньше подходят для узкой задачи выделения интолерантных маркеров, чем программа на основе словарей.

Результаты, полученные при работе с классификаторами на базе машинного обучения, могут стать предметами исследования о приобретаемых словами в тексте коннотациях, а также о влиянии слова на тональность сообщённого в предложении, в абзаце или во всём тексте. Также возможно проведение подобного исследования с моделями классификаций, не рассмотренных в данной работе, и/или в узкой предметной области при наличии соответствующей обучающей выборки. По результатам работы с программой на базе словарей было создано приложение, которое возможно использовать в качестве вспомогательного инструмента при проведении других работ, связанных с анализом выделенных из текста маркеров, особенно при работе с большими объёмами текстов. Оно может быть использовано для различных узкоспециализированных задач при условии предоставления словарей пользователем или для широкой задачи выделения интолерантной лексики с использованием уже предоставленных словарей.

Библиография

1. Асмолов А. Г. Слово о толерантности // Век толерантности. 2001. № 1. С. 4-7.

2. Асмолов А. Г. На пути к толерантному сознанию. - М.: Смысл, 2000. - 255 с.

3. Бакулина С. Д. Толерантность. От истории понятия к современным социокультурным смыслам: учебное пособие. 2014. URL: http://www.universalinternetlibrary.ru/book/65385/chitat_knigu.shtml (дата обращения - 20.03.2017)

4. Баранов, А.Н. Введение в прикладную лингвистику. - Введение в прикладную лингвистику: Учебное пособие. -- М.: Эдиториал УРСС, 2001. -- 360 с.

5. Болдырев Н.Н. Основы и принципы научных лингвистических исследований: курсовые и дипломные работы: учебно-методическое пособие - Тамбов: Изд-во ТГУ имени Г.Р. Державина, 1997. 87 с. С. 20-24.

6. Винокур Т.Г. Говорящий и слушающий. Варианты речевого поведения. - М.: Наука, 1993. 172 с.

7. Воронцов К.В. Математические методы обучения по прецедентам (теория обучения машин). URL: http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf (дата обращения - 29.04.2018)

8. Воронцова Т.А. Типология речевого поведения (коммуникативно-прагматический аспект) // Cuadernos de Rusнstica Espaсola. 2009. №5. С. 21-31.

9. Кара-Мурза С.Г. Манипуляция сознанием. 2001. URL: http://flibusta.is/b/68241 (дата обращения: 20.03.2017).

10. Клековкина, М.В., Котельников, Е.В. Метод автоматической классификации текстов по тональности, основанный на словаре эмоциональной лексики // Труды 14-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции», 2012. - с. 81-86.

11. Клюев Е.В. Речевая коммуникация: учебное пособие для университетов и институтов. - М.: РИПОЛ КЛАССИК, 2002. 320 с.

12. Красных В.В. Виртуальная реальность или виртуальная реальность? (Человек. Сознание. Коммуникация): монография. - М.: Диалог-МГУ, 1998. 352 с. С. 102-127.

13. Локк Дж. Опыт о веротерпимости // Локк Дж. Сочинения: в 3 т. - М., 1988. - Т. 3. - С. 66-90.

14. Локк Дж. Послание о веротерпимости // Локк Дж. Сочинения: в 3 т. - М., 1988. - Т. 3. - С. 91-134.

15. Маркелова Т.В. Семантика оценки и средства её выражения в русском языке: учебное пособие по спецкурсу. - М.: МПУ, 1993. 125 с.

16. Николсон П. Толерантность как моральный идеал // Вестник Уральского межрегионального института общественных отношений: Толерантность. - 2002. - № 1. - С. 97-111.

17. Пазельская А.Г., Соловьев А.Н. Метод определения эмоций в текстах на русском языке // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции Диалог, 2011. - C. 510-522.

18. Романова Т.В. Модальность. Оценка. Эмоциональность: монография. - Нижний Новгород: НГЛУ им. Н.А. Добролюбова, 2008. 308 с.

19. Рубцова, Ю.В. Построение корпуса текстов для настройки тонового классификатора // Программные продукты и системы, 2015, №1(109), - С.72-78.

20. Стернин И.А., Шилихина К.М. Коммуникативные аспекты толерантности. - Воронеж, 2000. 110 с.

21. Толерантность в современной цивилизации: сборник методических материалов [разработчики М.Б. Хомяков и И.Г. Полякова]. - Екатеринбург, 2007. - 180 с. - С. 11-68

22. Толерантность как культурная, политическая, лингвистическая проблема: коллективная монография [отв. ред. Т.В. Романова, А.Ю. Малафеев]. - Нижний Новгород: ДЕКОМ, 2017. - 304 с.

23. Уолцер, М. О терпимости. Перевод с англ. яз. И. Мюрнберг. -- М.: Идея-Пресс, Дом интеллектуальной книги, 2000. -- 160 с.

24. Философские и лингвокультурологические проблемы толерантности: коллективная монография [отв. ред. Н.А. Купина и М.Б. Хомяков]. - М.: ОЛМА-ПРЕСС, 2005. 542 с.

25. Хруненкова А.В. Антиэтикетные формы речевого поведения в интолерантных ситуациях общения // Известия Российского государственного педагогического университета им. А.И. Герцена. 2008. №82-1. C. 381-387.

26. Четверкин И. И., Лукашевич Н. В. Тестирование систем анализа тональности на семинаре РОМИП-2012 // Т. 2: Доклады специальных секций РОМИП -- М.: Изд-во РГГУ, 2013.

27. Шакирова К.А. Языковые и речевые маркеры толерантности и интолерантности публицистического текста // Материалы III Междисциплинарной студенческой конференции «Интеллектуальный город: учёный на перекрёстке наук», 2017. - с. 242-248.

28. Шакирова К.А. Штампы и клише сознания при оценке «своего»-«чужого» как показатель толерантности/интолерантности речевого поведения // Материалы II Междисциплинарной студенческой конференции «Интеллектуальный город: взгляд в будущее», 2016. - с. 223-226.

29. Шаповалова Т.А. Коммуникативная категория толерантности и её реализация в современном политическом дискурсе: автореф. дис. … канд. филол. наук. - Саратов, 2013. 22 с.

30. Шаповалова Т.А. По ту сторону толерантности // Вестник Челябинского государственного университета. 2012. № 13 (267). - с. 144-146.

31. Шаповалова Т.А. Социальный и коммуникативный аспекты понятия «толерантность» // Известия Саратовского университета. 2012. № 12. - с. 64-67.

32. Шмелев Д.Н. Современный русский язык. Лексика. - М.: Просвещение, 1977. 335 с. C. 327-330.

33. Язык средств массовой информации: Учебное пособие для вузов [гл. ред. М.Н. Володина]. -- М.: Академический Проект, 2008. -- 760 с.

34. Agarwal A., Xie B., Vovsha I., Rambow O., Passonneau R. Sentiment analysis of twitter data // Proceedings of the Workshop on Language in Social Media, 2011. - c. 30-38.

35. Bobicev V., Maxim, V., Tatiana Prodan, Burciu, N., Anghelus, V. Emotions in words: developing a multilingual WordNet-Affect // Proceedings of Computational Linguistics and Intelligent Text Processing: 11th International Conference, 2010. - с. 375-384.

36. Boiy E., Moens M-F. A Machine Learning Approach to Sentiment Analysis in Multilingual Web Texts // Information Retrieval, 2009 Volume 12, Number 5. - С. 526-558.

37. Chetviorkin I., Loukachevitch, N. Extraction of Russian Sentiment Lexicon for Product Meta-Domain // Proceedings of COLING 2012: Technical Papers, 2012. - с. 593-610.

38. Coelho L.P., Richert, W. Building Machine Learning Systems with Python. Second Edition. - Birmingham: Packt Publishing Ltd, 2015. - 326 с.

39. Hamouda A., Marei M., Rohaim M. Building Machine Learning Based Senti-word Lexicon for Sentiment Analysis // Journal of Advances in Information Technology, 2011, №4. - С. 199-203.

40. Korobov M. Morphological Analyzer and Generator for Russian and Ukrainian Languages // Analysis of Images, Social Networks and Texts, 2015. - с. 320-332.

41. Loukachevitch N., Levchik A. Creating a General Russian Sentiment Lexicon // Proceedings of Language Resources and Evaluation Conference LREC-2016, 2016.

42. Meier B.A. Python GUI Programming Cookbook. Second Edition. - Birmingham: Packt Publishing Ltd, 2017. - 436 с.

43. Nederman C. J. Toleration in a New Key: Historical and Global Perspectives // Critical Review of International Social and Political Philosophy, 2011. - с. 349-361.

44. Pang B., Lee L. Thumbs up? Sentiment classification using machine learning techniques // Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), 2002. - С. 79-86

45. Prabowo R., Thelwall M. Sentiment analysis: A combined approach // Journal of Informetrics, 2009, №3(2).

46. Taboada M., Brooke J., Tofiloski M., Voll K., Stede M. Lexicon-based methods for sentiment analysis // Computational Linguistic, Volume 37 Issue 2, 2011. - с. 267-307.

47. Tsujii J. History of Natural Language Processing // Monthly Issue “Language & Computer”. 2000.

48. Turney P.D. Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews // Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, 2002. - С. 417-424.

49. Yi J., Nasukawa T., Bunescu R., Niblak, W. Sentiment Analyzer: Extracting Sentiments about a Given Topic using Natural Language Processing Techniques // Proceedings of the 3rd IEEE international conference on data mining (ICDM), 2003. -- С. 427-434.

Приложение 1

Тексты для тестирования программ

Текст 1 (Аргументы и Факты):

Ему удалось увидеть разрушение европейской части социализма, который он ненавидел. Ему удалось увидеть, как его родная Польша вновь становится антирусским оружием - правда, уже не в руках собственных магнатов, а в руках Америки, которой и сам Бжезинский присягнул на службу с юности. Ему удалось увидеть, как Россия, которую он ненавидел с детства, распадается на куски. Как воплощается в жизнь придуманный его соотечественниками лозунг «Украина - не Россия». И не просто воплощается в жизнь, а приобретает всё более агрессивную форму, превращаясь в инструмент уничтожения и рассеяния значительной части русского большинства украинских граждан - то есть Бжезинский видел, как Украина приближается к его идеалу. http://www.aif.ru/politics/opinion/kak_luchshe_pochtit_pamyat_bzhezinskogo

Текст 2 (Аргументы и Факты):

Одним из мотивов предоставления украинцам безвизового режима для европейских политиков было «показать фигу Москве». Сегодня настроения меняются. Надеясь обезопасить себя от чрезмерного притока работников из Незалежной, европейцы стали вводить ограничения. Главное из них - отсутствие права на трудоустройство. Однако украинцы легко обходят это правило и устраиваются на работу нелегально. Местных (особенно мелких) бизнесменов это даже устраивает. Они получают недорогую и бесправную рабочую силу. Наживается и украинский криминалитет. По всей стране возникли нелегальные конторы, которые «гарантируют быстрый выезд и трудоустройство». На самом деле об уехавших сразу же забывают.

Украинцы всё чаще жалуются на то, что получают отказ во въезде. В ряде стран, например в некоторых городах Италии, страдающих от безработицы, формируются «отряды сознательных граждан», которые выявляют нелегальных работников и сообщают в полицию. Европейцы явно не спешат учиться танцевать гопак.

Ситуация с «безвизом» уже начинает оказывать влияние и на внутреннюю политику Украины. Всё чаще слышатся голоса, обвиняющие власть в том, что украинцев продали за европейские «круассаны». Аналитики подсчитывают, насколько обеднели жители страны за годы флирта с Евросоюзом. Будучи республикой в составе СССР, Украина славилась своим сельским хозяйством и обилием продовольствия. Сегодня, по данным Госстата Украины, потребление мяса в стране сократилось на 7%, рыбы - на 33%, ягод и фруктов - на 19%. Недавно слывшая на Украине национальной героиней Н. Савченко, описывая нынешнюю ситуацию в стране, не нашла других слов, кроме матерных. Социологи, в отличие от Савченко, оперируют не матом, а цифрами и фактами. Недавний опрос Киевского международного института социологии выявил удручающую динамику: уже более 70% граждан считают, что руководство Украины ведёт страну в неправильном направлении. 40% считают, что в ближайшие годы ситуация лишь ухудшится. http://www.aif.ru/politics/opinion/pochemu_evropa_ne_plyashet_gopak

Страница:

дипломная работа "Речевые маркеры интолерантности и компьютерные инструменты их выявления" скачать

Подобные документы

Компьютерные переводчики
Специализированные программы-переводчики. Возможности компьютерных словарей. Проблемы перевода многостраничной документации. Принципы, по которым построены компьютерные словари. Какие тексты нецелесообразно переводить с помощью компьютерных переводчиков.

презентация [9,2 K], добавлен 13.11.2010
Автоматическая адаптации учебных текстов для изучающих русский язык, её решение на лексическом уровне
Решение проблемы автоматического упрощения текста на лексическом уровне: способы, методы, приложения и инструменты. Задача автоматической адаптации текста для изучающих иностранный язык. Выбор средств разработки, создание словарей замен и языковой модели.

дипломная работа [117,3 K], добавлен 28.08.2016
Программы переводчики
Мировая история технологии машинного перевода как класса систем искусственного интеллекта. Классификация программ онлайн-переводчиков, поддержка функции контролируемого входного языка. Многоязычные браузеры в Интернете и перечень электронных словарей.

контрольная работа [21,6 K], добавлен 03.02.2011
Программа Skype
Проблема передачи речевого сигнала через Интернет и создание ISDN. Этапы развития технологии VoIP. Создатели программы Skype, принцип ее работы (Р2Р-архитектура) и преимущества перед другими программами. Развитие компании и спектр предоставляемых услуг.

презентация [1,7 M], добавлен 15.12.2011
Разработка информационной системы "Обработка текста на естественном языке"
Проектирование программного обеспечения, позволяющего создавать и вести множество электронных словарей. Обоснование выбора программных средств решения задачи. Разработка формы входных и выходных данных. Описание модулей программы и процесса отладки.

дипломная работа [1007,7 K], добавлен 03.07.2015
Компьютерные вирусы и антивирусные программы
Рассмотрение понятия, признаков проявления (изменение размеров файлов, даты их модификации), видов (сетевые, файловые, резидентные, троянские программы) компьютерного вируса. Характеристика основных антивирусных программ: детекторов, докторов, ревизоров.

реферат [22,4 K], добавлен 05.06.2010
Создание электронной записной книжки
Написание программы на языке Delphi - создание электронной записной книжки. Описание типов "запись", полей и массива, составление процедур. Создание приветствия и редактирование записи. Создание команды для вызова справки. Принцип работы программы.

контрольная работа [17,9 K], добавлен 23.09.2010
Компьютерные вирусы и антивирусы
Кто и почему пишет вирусы. Компьютерные вирусы, их свойства, классификация. Пути проникновения вирусов в компьютер, механизм распределения вирусных программ. Методы защиты от компьютерных вирусов. Антивирусные программы: Doctor Web, Microsoft Antivirus.

реферат [45,2 K], добавлен 27.09.2008
Классификация прикладного программного обеспечения и назначение важнейших классов прикладных программ
Прикладное программное обеспечение компьютера, его классификация по назначению и применению. Управление прикладными программами. Антивирусные и коммуникационные программы. Приложения общего назначения. Мультимедиа приложения и компьютерные игры.

реферат [105,8 K], добавлен 05.06.2013
Разработка тестовых заданий по теме "Лексика и грамматика английского языка" на языке программирования Delphi
Разработка программы автоматизации процесса проверки знаний учащихся. Использование языка программирования Borland Delphi 7.0, его свойства, компоненты для работы со строками. Создание обучающих тестов на знание лексики и грамматики английского языка.

курсовая работа [521,0 K], добавлен 06.03.2016

Другие документы, подобные "Речевые маркеры интолерантности и компьютерные инструменты их выявления"

весь список подобных работ

скачать работу можно здесь

сколько стоит заказать работу?

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.