Методы оценки эмоциональной окраски текста
Методы построения интегральной оценки на основе коллекции документов, содержащих большое количество избыточной и противоречивой информации. Выделение оценочных суждений. Бинарная, тринарная и ранжированная классификация эмоциональной окраски текста.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | русский |
Дата добавления | 26.04.2019 |
Размер файла | 44,2 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Методы оценки эмоциональной окраски текста
С. А. Ермаков, Л. М. Ермакова
Пермский государственный национальный исследовательский университет
Россия, 614990, Пермь, ул. Букирева, 15
liana87@mail.ru; +7 (342) 239-62-98
Проводится обзор существующих методов определения эмоциональной окраски текста. Особое внимание уделяется методам построения интегральной оценки на основе коллекции документов, содержащих большое количество избыточной и противоречивой информации.
Ключевые слова: сентимент-анализ; анализ тональности текста; машинное обучение; графовые модели; WordNet; эмотивная лексика.
Overview of sentiment analysis methods
S. A. Ermakov, L. M. Ermakova
Perm State National Research University, Russia, 614990, Perm, Bukireva st., 15
liana87@mail.ru; +7 (342) 239-62-98.
Authors present an overview of traditional approaches and recent advantages in sentiment analysis techniques, focusing on multi document processing and redundancy removal.
Key words: sentiment analysis; opinion mining; machine learning; WordNet; graph models.
Введение
Одним из ключевых аспектов успешного построения бизнеса является анализ обратной связи с потребителями. Однако структурированная информация, обычно представленная в виде опросов, является труднодоступной и дорогостоящей. Кроме того, она ограничивает пользователей в выражении мнений, а оцениваемые характеристики задаются заранее экспертами [1]. Преобразование неструктурированной информации в структурированную является крайне времязатратным и дорогостоящим процессом, поэтому целесообразна разработка систем автоматической обработки текстов на естественном языке [1]. Кроме того, в последнее время возрос интерес к автоматическому определению и извлечению эмоций в тексте в связи с потребностью в средствах анализа информации со стороны правительства, которому необходимо определять отношение людей к тем или иным событиям, реформам или законам [2].
Сентимент-анализ, или анализ тональности текста, - это развивающееся направление компьютерной лингвистики, основной задачей которого является выявление в документе эмоционально окрашенной лексики и эмоциональной оценки объектов автором. "Эмоциональная оценка, выраженная в тексте, также называется тональностью, или сентиментом текста" [3]. Лексическая тональность (или лексический сентимент) - эмоциональная составляющая, выраженная на уровне лексемы [3]. Эмоциональная окраска текста определяется тональностью его составляющих, а также их взаимосвязями [3].
Классификация эмоциональной окраски может быть бинарной (положительный / отрицательный), тринарной (положительный / отрицательный / нейтральный) или ранжированной [1, 4]. Таким образом, оценка может включать в себя не только валентность, но и интенсивность высказывания [5, 6]. Интегральная оценка может быть произведена как с точки зрения отдельных характеристик [7-11], так и общей тональности [12-14]. Анализ эмоциональной окраски всего текста затруднителен, т.к. чаще всего в отзывах встречаются противоположные оценки, поэтому целесообразно оценивать отдельные предложения [1, 15].
1. Выделение оценочных суждений
эмоциональный окраска текст оценочный
Оценочное суждение представляет собой тройку (валентность, объект высказывания, субъект).
Объектом тональности является объект или лицо, в отношении которого производится эмоциональное высказывание [3]. Под субъектом понимают автора высказывания (текста, цитаты, прямой или косвенной речи), а под валентностью - эмоциональное отношение автора к объекту [3].
При этом перед тем, как определить каждый компонент этой тройки, необходимо выделить оценочные суждения. Нередко при аннотировании эмотивных высказываний мнения экспертов расходятся [16].
Для отделения текстов, содержащих суждения, от документов, преимущественно описывающих факты, используются стандартные методы классификации, например, байесовский классификатор [17], графовый подход [18], анализ словосочетаний [14, 19].
Некоторые исследователи также опираются на гипотезу, что оценочные предложения в рамках одной темы больше похожи на другие оценочные предложения, чем на фактографические. Сходство может вычисляться на основе общности словаря, словосочетаний, биграмм, триграмм, а также наличия синонимов (синсеты WordNet). Признаком может служить наличие или отсутствие эмотивных слов определенной части речи [17].
Одним из распространенных методов выделения эмоционально окрашенных предложений является анализ словосочетаний. Для того чтобы воспользоваться этим методом, необходимо синтаксически разметить текст. После этого на основе шаблонов [14], например "прилагательное + др. часть речи" или "наречие + др. часть речи", выделяются те словосочетания, которые потенциально несут оценочный характер. При этом прилагательное или наречие обеспечивает субъектность, а другой член словосочетания определяет контекст оценки - объект или субъект. После этого определяется эмоциальная валентность сочетания на основе определения семантической близости прилагательного или наречия к эталонным оценочным словам вроде "плохо" и "хорошо". Итоговая оценка - отношение этих полученных оценок друг к другу [14].
Кроме непосредственно слов, выражающих эмоции, существуют словосочетания, которые также содержат эмоциональную оценку [19]. Для выявления таких случаев последовательно анализируются отдельные слова, биграммы, триграммы и т.д., оценивается их "точность". Точность n-словесной цепочки - это число субъективных выражений этой цепочки, поделенное на общее число употребления этой цепочки. Употребление n-словесной (n - количество слов) цепочки передаёт субъективность, если каждое слово этой фразы попадает в субъективный элемент. После того, как была получена оценка точности для отдельных слов и сочетаний, авторы [19] предложили следующий вариант выделения эмоционально окрашенных сочетаний: отсекать все словосочетания, точность которых ниже установленного порога 0,1. Затем авторы предлагают отсеивать сочетания с точностью ниже максимальной точности слов, входящих в эти сочетания.
Можно рассматривать каждое предложение по отдельности, применяя к нему стандартный алгоритм классификации, однако можно воспользоваться близостью предложений для усиления согласованности: соседние предложения, скорее всего, имеют схожий уровень субъективности. Это используется при определении валентности: можно утверждать, что оба схожих предложения имеют одинаковый уровень валентности, не уточняя, какой именно.
Простые способы классификации не могут учитывать взаимосвязи, поэтому авторы [18] используют графовый подход: каждая вершина - предложение.
Пусть у нас есть набор из n элементов: , который необходимо разбить на два класса , используя следующую информацию:
· Вес вершины - индивидуальная оценка принадлежности каждого предложения классу .
· Вес связи между вершинами означает степень важности нахождения обоих предложений в одном классе (объективных или субъективных).
Для этого решается оптимизационная задача минимизации функции:
Вариантов решений , но есть более простой алгоритм - алгоритм нахождения минимального разреза графа. Разрез графа - множество рёбер, удаление которых делит граф на два изолированных подграфа. Минимальный разрез графа в данном случае означает разрез, при котором значение вышеупомянутой функции минимально.
2. Определение тональности
Традиционно анализ эмоциональной окраски текста осуществляется при помощи методов машинного обучения с учителем: наивный байесовский классификатор, машина опорных векторов, EM-алгоритм [1, 13]. В качестве признаков могут использоваться как отдельные слова, так и биграммы [13]. Байесовские вероятности позволяют применить скрытое распределение Дирихле (LDA), согласно которому существует ограниченное число тематик, каждая из которых определяется вероятностью порождения слов из словаря. Слово порождается вероятностью, отличной от нуля, в различных тематиках. Документу соответствует вектор вероятностей тематик, но слово в документе порождается только одной тематикой [20, 21].
В качестве признаков могут использоваться грамматические классы, например, части речи [15], структурные особенности, а также знаки препинания [22].
Обычно коллекции текстов (форумы, отзывы в интернет-магазинах и т.д.) содержат крайне много избыточной информации [23]. Традиционно системы реферирования опираются либо на знания предметной области [24, 25], либо на глубинный лингвистический анализ [26, 27]. Оба подхода являются либо трудоемкими, либо предметно-зависимыми [23]. В системе Opinosis текст представляется в виде ориентированного графа, вершинами которого являются словосочетания, а ребра отражают структуру предложений [23]. Граф в Opinosis напоминает граф, использованный для перефразирования в [28], но в последнем вершиной графа было отдельное слово. Подобное представление позволяет определить общую и различную информацию [23]. Построение графа начинается с выбора множества предложений, релевантных теме. Предложения разбиваются на слова, и каждому слову приписывается часть речи и позиция в предложении. Если один и тот же путь соответствует нескольким предложениям, эта информация считается избыточной. Если существует путь , то путь также является избыточным. Если вершина связана со многими другими вершинами, то можно стянуть граф (обычно такими вершинами являются глаголы). При этом якорем является повторяющаяся последовательность вершин, стоящая до глагола, а "хвосты" объединяются при помощи союзов "и" или "но", если они имеют одинаковую или различную эмоциональную окраску соответственно.
Реферат строится по правильным предложениям, которые имеют высокую степень повторяемости в графе. Правильное предложение должно обладать следующими свойствами:
1. Оно должно начинаться со слова, которое может быть в начале предложения.
2. Предложение должно заканчиваться словом, которое может находиться в конце предложения.
3. Последовательность слов в предложении должна удовлетворять синтаксическим правилам [23].
3. Адаптация к предметной области
Немаловажным является адаптация классификаторов мнений к новым предметным областям [29]. Обученные на выборке отзывов о видеокамерах классификаторы показывают очень скромные результаты на текстах про автомобили. Существует несколько вариантов решения данной проблемы:
Обучать классификатор на всех доступных наборах данных сразу - самый очевидный вариант. Данный метод показывает результаты хуже, чем классификатор для отдельного домена, он используется в качестве основы для других методов.
Разграничивать использование признаков для разных доменов. Другими словами, для каждого домена создается специализированный словарь. Таким образом, мы исключаем специфические высказывания для данной предметной области, но оставляем общие для всех областей эмоционально окрашенные тексты.
Использовать наборы классификаторов: разные классификаторы можно объединять в наборы [30]. При классификации в этом случае каждый из классификаторов участвует в итоговом решении с некоторым весом. Существуют различные варианты использования и обучения данных наборов, в том числе использование мета-классификатора [31] (который калибрует веса составляющих его классификаторов).
Использование внутридоменных неразмеченных данных [32]. В данном подходе требуется (несмотря на название) небольшая часть размеченных данных, для того чтобы определить параметры для наивного байесовского классификатора, используя EM-алгоритм.
Заключение
За последние десять лет интерес к области анализа эмоциональной тональности текстов сильно возрос. Мы рассмотрели лишь основные направления развития в этой области. Однако стоит отметить, что на текущем этапе развития в данной области существует много нерешенных проблем.
Анализ эмоциональной окраски текста затруднителен не только в связи с проблемой выделения единиц оценки тональности, но и ввиду неоднозначности эмоциональной составляющей лексических компонент [3]. Например, в рамках одной и той же предметной области "высокая цена" - отрицательный аспект товара, в то время как "высокое качество" - положительный.
Для анализа тональности текста широко используются статистические методы благодаря своей простоте, но их основной недостаток в том, что требуется размеченный корпус, что в свою очередь является крайне трудоемкой и дорогостоящей задачей. С другой стороны, методы, основанные на поиске эмотивной лексики на базе тональных словарей, напрямую зависят от полноты представленной лексики и с их помощью не всегда можно дать количественную оценку эмоциональной окраски текста. Кроме того, эти подходы предметно зависимы, т.е. для различных предметных областей необходимо составлять различные словари.
Для английского языка разработаны системы, которые позволяют выполнить анализ эмоциональной окраски (TwitterSentiment, IDOL, AlchemyAPI, и др.), но для русского языка такой анализ затруднителен, поэтому на данный момент нет систем, работающих на приемлемом уровне. Помимо этого, для русского языка до сих пор не решены задачи синтаксического анализа и разрешения анафорических связей, что в значительной мере осложняет более тонкий анализ.
Список литературы
1. Gamon M., et al. Pulse: Mining Customer Opinions from Free Text // Proceedings of the 6th International Symposium on Intelligent Data Analysis (IDA). 2005. P.121-132.
2. Wiebe J., Wilson T., Cardie C. Annotating Expressions of Opinions and Emotions in Language // Proceedings of Language Resources and Evaluation, LRE. 2005. Vol. 39. P. 165-210.
3. Пазельская А., Соловьев А. Метод определения эмоций в текстах на русском языке: труды международной конференции "Диалог, 2011". P.510-522.
4. "Дорожки РОМИП'2011" Available: http://romip.ru/ru/2011/tracks.html. [Дата обращения: 15.11.2011].
5. Ng R., Pauls A. Multi-document summarization of evaluative text // Proceedings of the 11st Conference of the European Chapter of the Association for Computational Linguistics. 2006. P.305-312.
6. Carenini G., Ng R. Zwart E. Extracting knowledge from evaluative text // Proceedings of the 3rd international conference on Knowledge capture. 2005. P.11-18.
7. Hu M., Liu B. Mining and summarizing customer reviews // Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining. 2004. P. 168-177.
8. Snyder B., Barzilay R. Multiple Aspect Ranking using the Good Grief Algorithm // Proceedings of the Joint Human Language Technology / North American Chapter of the ACL Conference HLT-NAACL. 2007. P. 300-307.
9. Lerman K., Blair-Goldensohn S., Mcdonald R. Sentiment summarization: evaluating and learning user preferences // Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics. 2009.
10. Lu Y., Zhai C., Sundaresan N. Rated aspect summarization of short comments // Proceedings of the 18th international conference on World wide web. 2009. P.131-140.
11. Titov I., Mcdonald R. A Joint Model of Text and Aspect Ratings for Sentiment Summarization // Proceedings of ACL-08: HLT. 2008. P. 308-316.
12. Pang B., Lee L. Opinion Mining and Sentiment Analysis. 2008. P. 1-135.
13. Pang B., Lee L., Vaithyanathan S. Thumbs up? Sentiment Classification using Machine Learning Techniques // Proceedings of the Conference on Empirical Methods in Natural Language Processing. 2002. P. 79-86.
14. Turney P. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews // Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. 2002. P. 417-424.
15. Wiebe J., Bruce R., O'Hara T. Development and use of a gold-standard data set for subjectivity classifications // Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics. 1999. P. 246-253.
16. Kim S.-M., Hovy E. Identifying and Analyzing Judgment Opinions // Proceedings of the Human Language Technology Conference of the North American Chapter of the ACL, 2006, P. 200-207.
17. Yu H., Hatzivassiloglou V., Towards answering opinion questions: separating facts from opinions and identifying the polarity of opinion sentences // Proceedings of the 2003 conference on Empirical methods in natural language processing, 2003, P. 79-86.
18. Pang B., Lee L. A Sentimental Education: Sentiment Analysis Using Subjectivity // Proceedings of the ACL, 2004, P. 271-278.
19. Wiebe J., Wilson T., Bell M. Identifying Collocations for Recognizing Opinions // Proc. ACL/EACL 01 Workshop on Collocation, 2001.
20. Павлов А., Добров Б. Метод обнаружения массово порожденных неестественных текстов на основе анализа тематической структуры // Вычислительные методы и программирование, 2011, T. 12, P. 58-72,.
21. Blei D., Ng A., Jordan M. Latent Dirichlet Allocation // Journal of Machine Learning Research, 2003, № 3, P. 993-1022.
22. Chetviorkin I., Loukachevitch N. Three-way movie review classification // Proceedings of international conference Dialog, 2011, P. 168-177.
23. Ganesan K., Zhai C., Han J. Opinosis: A Graph Based Approach to Abstractive Summarization of Highly Redundant Opinions // Proceedings of the 23rd International Conference on Computational Linguistics. 2010. P.340-348.
24. Radev D., McKeown K. Generating natural language summaries from multiple on-line sources // Computational Linguistics - Special issue on natural language generation. 1998. Vol. 24. №3. P.469-500.
25. Harabagiu S., Lacatusu F. Generating Single and Multi-Document Summaries with GISTEXTER // Document Understanding Conference. 2002.
26. Saggion H., Lapalme G. Generating Indicative-Informative Summaries with SumUM // Association for Computational Linguistics. 2002.
27. Jing H., McKeow K. Cut and paste based text summarization // Proceedings of the 1st North American chapter of the Association for Computational Linguistics conference, 2002, P. 178-185.
28. Barzilay R., Lee L. Learning to Paraphrase: An Unsupervised Approach Using Multiple-Sequence Alignment // NAACL-HLT. 2003. P. 16-23.
29. Aue A., Gamon M., Customizing Sentiment Classifiers to New Domains: a Case Study // Proceedings of Recent Advances in Natural Language Processing (RANLP-2005), 2005, T. 49, N 2.
30. Dietterich T. Macine learning research: Four current directions // AI Magazine, 1997, T. 18, № 4, P. 97-136.
31. Todorovski L., Dzeroski S., Combining classifiers with meta decision trees // Machine Learning, 2003, T. 50, N 3, P. 223-249.
32. Nigam C., McCallum A., Thrun. S. Text classification from labeled and unlabeled documents // Machine Learning, , 2000, T. 39, N 2, P. 103-134.
Подобные документы
Формирование новых слов или добавление оттеночных значений к исходному слову. Классификация суффиксов субъективной оценки в итальянском и русском языках. Художественный перевод слов с суффиксами субъективной оценки. Создание эмоциональной окраски текста.
курсовая работа [40,2 K], добавлен 21.10.2011Анализ логической основы текста информационной заметки "Украинцы мало читают". Выделение логических единиц текста (имен, суждений и связок) и приведение суждений к возможно более простой форме. Соотнесение логических единиц между собой и с контекстом.
доклад [15,6 K], добавлен 07.08.2013Определение эмоционально-экспрессивной и функционально-стилевой окраски понятий, подбор к ним нейтральных синонимов. Исправление стилистических ошибок в предложениях. Исследование функционального стиля текста, его лексических, и синтаксических отличий.
контрольная работа [26,2 K], добавлен 02.02.2010Работа с текстом на английском языке. Чтение и устный перевод текста, усправление неверных утверждений. Ответы на вопросы по содержанию текста. Образование словосочетаний, обозначающих методы тестирования и оценки, используемые при отборе кандидатов.
контрольная работа [20,9 K], добавлен 08.03.2015Изучение фразеологических единиц в современной отечественной лингвистике. Классификация фразеологических единиц. Фразеологизмы с точки зрения стилистической принадлежности и эмоциональной окраски. Структура фразеологизмов компьютерного подъязыка.
курсовая работа [55,7 K], добавлен 15.01.2017Пособия по нормативной стилистике национальных языков. Попытки определить понятие нормативности, языковой (и стилистической) нормы. Сведения о языковых стилях. Оценка экспрессивно-эмоциональной окраски средств языка. Синонимия языковых средств.
реферат [13,6 K], добавлен 17.10.2003Структура текста, морфологический уровень. Исследование текста с лингвистической точки зрения. Прямонаправленная и непрямонаправленная связность текста. Важность морфологического уровня текста в понимании структуры текста и для понимания интенции автора.
реферат [30,4 K], добавлен 05.01.2013Выделение единиц перевода на уровне фонем, графем, морфем, слов, словосочетаний, предложений и текста. Выявление текстовой функции исходной единицы перевода. Пространственно-временные и причинно-следственные характеристики словесного состава текста.
презентация [38,7 K], добавлен 29.07.2013Порядок логического построения текста – синтаксической единицы с последовательностью предложений. Анализ классификации текста, отличающейся по форме материала (устный, письменный), по социальному предназначению (учебные, научные, художественные, деловые).
творческая работа [15,9 K], добавлен 27.03.2010Англоязычные тексты инструкций, контрактов и рекламные тексты, их типологические характеристики. Коммуникативное задание текста, источник текста, получатель текста, тип информации (когнитивная, эмоциональная, эстетическая) и доминанты перевода.
учебное пособие [1,8 M], добавлен 12.12.2010