Обзор методов искусственного интеллекта для решения задач классификации текстов

Современные технологии обработки естественного языка. Применение интернет ресурсов и искусственного интеллекта для обработки лингвистической информации. Преимущества эмбеддинговых моделей при классификации текстов. Методы распознавания и синтеза речи.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 16.07.2021
Размер файла 27,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://allbest.ru

Байкальский государственный университет

Обзор методов искусственного интеллекта для решения задач классификации текстов

Е.Е.Раковская

г. Иркутск, Российская Федерация

Аннотация

В настоящее время наблюдается экспоненциальный рост объемов естественно-языковой информации, доступной в сети Интернет. Имеется необходимость автоматической обработки текстовых данных, чтобы применить лингвистические ресурсы для решения практических задач. В статье дается краткий обзор алгоритмов классификации текстов, рассматриваются различные варианты определения признаков текста для классификации, методы предобработки текстов, методы уменьшения размерности. Уделяется внимание перспективным направления развития технологий обработки естественного языка.

Ключевые слова. Классификация текстов, обработка естественного языка, модель векторного пространства, взвешивание терминов, эмбеддлинговые модели, классификация коротких текстов.

Abstract

Review of artificial intelligence methods for solving problems of text classification

Е.Е. Rakovskaya Baikal State University, Irkutsk, the Russian Federation

Currently, there is an exponential increase in the volume of natural language information available on the Internet. There is a need for automatic processing of text data in order to use linguistic resources for solving practical problems. The article provides a brief overview of text classification algorithms, discusses various options for determining text features for classification, methods for preprocessing texts, and methods for reducing dimension. The article focuses on promising areas of development of natural language processing technologies.

Keywords. Text classification, natural language processing, term weighting, embedding models, linguistic vector models, classification of short texts.

Введение

В настоящее время технологии искусственного интеллекта широко применяется во всем мире. Под искусственным интеллектом в России понимается комплекс технологических решений, позволяющий имитировать когнитивные функции человека (включая самообучение и поиск решений без заранее заданного алгоритма) и получать при выполнении конкретных задач результаты, сопоставимые, как минимум, с результатами интеллектуальной деятельности человека.

Одним из перспективных направлений развития и применения технологий искусственного интеллекта является обработка естественно-языковой информации (NLP, natural language processing), распознавание и синтез речи.

Классификация текстов

Текстовая классификация определяется как отнесение текста к одному или нескольким категориям на основании содержания документа. Формально задача текстовой классификации формулируется следующим образом. По заданному набору текстов и набору категорий необходимо построить модель Y = f(X, 0) + Ј из набора документов с известными категориями. X -- это подходящим образом выбранное представление текстов, например, векторное представление, 0 -- набор неизвестных параметров, связанных с функцией f (также называемой классификатором или моделью классификации), которые необходимо обучить при помощи обучающих данных и є является ошибкой классификации. Y -- величина, которая обычно принимает числовое значения, указывающая на принадлежность текста к той или иной категории. Например, когда имеется только две категории -- положительный или отрицательный, присутствие или отсутствие, Y может принимать значения +1 и -1.

Естественные языки содержат семантику высокого уровня и абстрактные концепции [1; 2], которые сложно учитывать при математическом моделировании естественного языка. Значение слова может меняться в зависимости от контекста, в котором оно используется. В текстах на естественном языке присутствует лексическая, синтаксическая, структурная неоднозначность [2; 3]. Другая проблема обработки естественного языка связана с опечатками и орфографическими ошибками, сокращениями и новой лексикой.

Классификация текстов состоит из следующих этапов: предварительная обработка текстов, преобразование текстов, уменьшение размерности входных данных классификатора, выбор и применение методов классификации, оценка работы классификатора.

Предварительная обработка текстов для классификации

Цель предварительной обработки -- удалить нерелевантные элементы текста. Во время предварительной обработки сначала применяется токенизация к отдельным терминам. Терминами, или элементами текста, могут быть слова, знаки препинания, числа, теги и другие символы, например, смайлики. В письменной речи термины обычно разделяются пробелами. Знаки пунктуации и числа, если они несущественны для рассматриваемой задачи классификации, удаляются, хотя, в некоторых случаях, они могут быть информативными и сохраняются. Например, восклицательные знаки или смайлики могут указывать на эмоциональную окраску текста. Словари, или лексиконы, используются для исправления орфографических ошибок, а также для устранения опечаток и сокращений. Слова, которые, как известно, содержат мало семантической информации (предлоги, союзы), удаляются. Если регистр букв не имеет значения, рекомендуется преобразовывать все буквы в нижний регистр.

Во время предобработки широко применяется стемминг, который определяется как процесс получения основ слов. Практический вопрос о том, какие применить методы предварительной обработки, во многом определяется характером текста, например, языком текста или жанром, а также задачей, которую необходимо решить при помощи классификации. Любая специфическая предварительная подготовка может быть полезна для определенной предметной области или языка текста, и может быть ненужной для других задач исследования.

Преобразование текста

В большинстве алгоритмов классификации в качестве входных данных используются векторы или матрицы. Наиболее распространенный способ представления текста -- применение модели векторного пространства (VSM, vector space model) [4; 5]. Элементы в этом представлении -- это термины, содержащиеся в корпусе. Из предположения, что слова -- это наименьшие значимые единицы языка, следует, что размеры векторов равны размеру словаря, т.е. набору уникальных терминов в корпусе. Таким образом, можно представить документj как Yj = (xf, xf, xf ... x^), где M- размер словаря, а xj -- вес термина i. Весом может быть количество терминов в документе xj = 1 (TF,term frequency) или, при использовании двоичного взвешивания, Xj = 1 (присутствие элемента) и х] = 0 0(отсутствие элемента). Преобразованные данные весов включаются в матрицу «документ -- термин», где строки - это документы, а столбцы- термины.

Существуют разные варианты взвешивания. Можно использовать логарифмы значений частот, чтобы уменьшить влияние часто встречающихся терминов. В этом случае нужно добавить 1 к величинам частот слов, чтобы избежать логарифмирования нулевых значений. Также можно нормализовать длину документа, разделив каждую величину на максимальное количество терминов в данном документе. Веса терминов могут быть нормализованы по отношению ко всему корпусу. Веса на основе корпуса включают в себя обратную частоту документа (IDF, inverse document frequency), которая оценивает специфичность термина в корпусе [6]. Термины, которые встречаются в слишком малом (большое значение IDF), или в слишком большом (значение IDF, близкое к нулю) количестве документов, имеют низкую дискриминирующую способность и поэтому не влияют на результат классификации (IDF = log--, где dfi -- количество документов, содержащих термин tj). Веса на основе документа и корпуса можно комбинировать, чтобы веса одновременно отражали важность термина в документе и его специфику для корпуса. Самым популярным комбинированным показателем является произведение частоты термина в документе TF и обратной частоты документов IDF [7]. Несмотря на то, что VSM-модель не учитывает информацию о порядке слов, она широко используется благодаря своей эффективности. Игнорирование порядка слов предполагает потерю некоторой информации о семантических отношениях между словами. Кроме того, один термин не всегда может выражать истинные элементарные значения языковой единицы. Часто модели VSM улучшают за счет добавления слов контекста -- биграмм или триграмм как признаков текста. N-граммы представляют собой несколько подряд встречающихся слов, или других элементов текста, например, букв или слогов. В работе [8] обсуждаются синтаксические N-граммы, которые получены с применением синтаксических зависимостей (синтаксических деревьев) в предложении, а не последовательной обработки структуры текста.

Первичное преобразование текста играет важную роль в функционировании классификаторов. Для улучшения качества классификации можно реализовать возможность разработки признаков текста, полученных из лингвистической информации, например, частей речи [9; 10]

Эмбеддинговые модели

Т. Миколов с соавторами [11; 12] предложили подход Word2vec с применением нейронных сетей, что дает возможность построить эмбеддинговые модели, в которых каждое слово из словаря представлено в виде вектора действительных чисел. Метод основан на идее дистрибутивной семантики, т.е. слова, которые встречаются в похожих контекстах, семантически близки и имеют похожие лексические значения. Контекст в этом случае -- несколько окружающих слов. В модели Word2vec рассчитывается вероятностная оценка совместного употребления групп слов и на основе полученных данных формируются n-мерные векторы для каждого слова. В технологии Word2Vec используются методы: «непрерывный мешок слов» (CBOW, Continuous Bag of Words) и Skip-gram. CBOW предсказывает вероятность слова в заданном контексте, т.е. учитывая контекст, модель предсказывает целевое слово. В модели Skip-gram на вход нейронной сети подается вектор целевого слова, а на выходе формируются векторы контекстных слов.

Уменьшение размерности

После предварительной обработки преобразование с помощью VSM может привести к большому набору данных. По возможности, следует уменьшить размерность векторов документов путем выборочного исключения признаков, либо путем создания скрытых признаков из существующих без ущерба качества анализа [13]. Методы уменьшения признакового пространства текстов -- анализ главных компонент (PCA, principal component analysis) [14], латентно-семантический анализ (LSA, latentsemantic analysis) [15], неотрицательная матричная факторизация [16].

Выбор и применение алгоритмов текстовой классификации

Преобразованный текст, или матрица «документ -- термин» является входными данными для классификации. Существуют следующие виды методов классификации: геометрические, вероятностные и логические. Геометрические алгоритмы основываются на том, что документы могут быть представлены в виде точек в гиперпространстве. Можно определить расстояние между документами и длину документов. В этом представлении геометрическая близость обозначает сходство документов. Примером геометрического классификатора является метод K ближайших соседей, в котором классификация выполняется посредством поиска ближайших K документов с использованием меры расстояния из обучающих данных [17]. Большинство классов K ближайших документов является классом, который присваивается новому документу. Другой геометрический классификатор использует метод опорных векторов (SVM, support vector machine) [18], в котором строится гиперплоскость, обеспечивающая наилучшее разделение текстов для каждого класса. Вероятностные алгоритмы вычисляют совместное распределение вероятностей между наблюдениями (текстами) и их классами. Предполагается, что каждый документ представляет собой независимую случайную выборку из совместного распределения вероятностей. Ключевым моментом является оценка апостериорной вероятности Р = ( Ym Х). Классификация выполняется при определении класса, который дает максимальную апостериорную вероятность для данного документа. Примером вероятностного классификатора является наивный байесовский классификатор и логистическая регрессия. Третий тип алгоритмов - это логические классификаторы, которые выполняют классификацию с помощью логических правил, например, деревья решений (DT, decisiontree).

Для повышения эффективности в настоящее время применяются комбинированные методы, объединяющие несколько классификаторов (ансамбли классификаторов) [19-21]. Такая классификация может быть достигнута разными способами. Можно использовать один метод классификации и провести обучение на разных подмножествах данных. Примером такого вида обучения является «случайный лес» (RF, Random forest) -- метод машинного обучения, заключающийся в использовании ансамбля решающих деревьев.

Алгоритм сочетает в себе случайный выбор подпространств для каждого дерева решений и усреднение результатов классификации [22]. В искусственных нейронных сетях применяется один метод обучения, но многократно изменяются параметры обучения. Можно использовать различные методы классификации -- наивный байесовский классификатор, деревья решений или метод опорных векторов и объединить прогнозы с использованием большинства голосов [23].

Классификация текстов для решения практических задач

В ранней истории машинного обучения и искусственного интеллекта методы классификации текста, в основном, использовались для систем поиска информации. Однако, по мере развития технологий, классификация текстов и категоризация документов стали повсеместно использоваться во многих областях -- медицине, социологических исследованиях, психологии, юриспруденции, технических науках.

Классификация медицинских текстов

Большая часть текстовой информации в области медицины представлена в неструктурированном виде, в повествовательной форме, со специфическими терминами и со множеством опечаток. Классификация медицинской информации, включающая в себя большой набор категорий, является важной частью работы для обобщения и структурирования медицинских данных, что является необходимостью для планирования и развития медицины, прогнозирования заболеваемости. В исследовании «Сравнительный анализ статистических методов классификации научных публикаций в области медицины» Г.В. Данилов с соавторами для классификации медицинских документов применили методы наивного байесовского классификатора, опорных векторов, распределения n-грамм [24]. Ошибка классификации составила для разных методов 5-20 %.

Также перечисленные методы были применены для классификации аннотаций к текстам, т.е. текстам, имеющим небольшую длину. Zhang и др. представили программу Patient2vec для изучения данных электронных историй болезней, персонализированных для каждого пациента [25]. Patient2vec -- метод встраивания признаков набора текстовых данных медицинских документов на основе нейронных сетей - был использован для прогнозирования риска госпитализации пациентов. Экспериментальные результаты показывают, что алгоритм Patient2vec позволяет достичь более точного прогноза, чем классические подходы, например, логистическая регрессия. Классификация текстов и категоризация документов применяется для понимания человеческого поведения. Исследования в области социального мониторинга сосредоточены на изучении общедоступных текстов, содержащихся в СМС, социальных сетях [26; 27]. Основные методы классификации, применяемые в социологических исследованиях -- методы, основанные на подсчете частот встречаемости терминов с психологической значимостью [27].

Контекстно-зависимые алгоритмы классификации текстов были адаптированы для задач классификации химических веществ и протеинов по их свойствам. Молекулярные данные были векторизованы с применением эмбеддинговых моделей Mol2vec и Protvec [28], где химические соединения (модель Mol2vec) и белковые последовательности (модель Protvec) абстрактно представлялись в виде «предложений», а функциональные группы и сочетания функциональных групп как «слова». На основе этих псевдотекстов проводилось машинное обучение с применением различных методов -- случайные леса (Random forest), метод опорных векторов (SVM), методы глубинного обучения, и выполнялись задачи классификации по характерным химическим и физическим свойствам веществ (растворимость, биологическая активность и т.д.).

Классификация коротких текстов

В связи с развитием информационных технологий, применением Интернета как средство коммуникации, документооборота и обмена данными, в настоящее время наблюдается постоянный рост объема оцифрованной лингвистической информации. Короткие тексты генерируются в больших количествах из различных источников: социальных сетей, новостных и тематических сайтов, рекламы, технических и научных обзоров, баз данных. Большое количество разнообразных интернет-ресурсов, содержащих короткие тексты, обусловливает необходимость их классификации, например, для создания тематических подборок, рубрикации документов, выявления трендов. Классификация коротких текстов имеет свои особенности. Короткие тексты обычно имеют упрощенную синтаксическую структуру и, в отличие от полноразмерных документов, в коротких текстах не хватает статистической информации для интеллектуального анализа данных. Кроме того, тексты с похожими темами могут не иметь общих слов.

Для категоризации коротких текстов применяются технологии глубокого обучения [29; 30], случайные леса [31], вероятностные методы [27], дискриминантный анализ [32]. Для обогащения признакового пространства коротких текстов применяется концептуализация терминов, т.е. обогащение словарного запаса текстов за счет терминов аналогичных тем [29] или Wikipedia [33]. Один из подходов, направленных на расширение признакового пространства, состоит в том, что короткий текст можно рассматривать как веб-запрос и дополнить данный текст результатами работы поисковой системы (например, заголовками веб-страниц) [34].

Перспективы развития в области обработки естественного языка

В настоящее время приоритетным направлением развития в сфере обработки естественного языка является применение технологий на основе искусственных нейронных сетей и эмбеддинговых моделей [35]. Применение этих методов позволяет значительно увеличить производительность классификаторов и улучшить качество анализа.

Основным преимуществом эмбеддинговых моделей является возможность генерировать векторное представление слов, которые коррелирует со смысловым значением и отражает контекст слова в документе, семантическое и синтаксическое сродство, связи с другими словами. Каждый вектор имеет несколько сотен измерений, и каждому слову в корпусе присваивается уникальный вектор в векторном пространстве. Эмбеддинговые модели успешно реализуются для решения многих задач NLP, в частности, требующих трудоемкой предварительной обработки текста (морфологический, синтаксический анализ, распознавание именованных сущностей, сентимент-анализ, классификация). Моделирование на основе вложений слов позволяет значительно упростить проведение исследований в области математической лингвистики, т.к. имеется возможность использовать языковые модели, предварительно обученные на большом корпусе текстов (например, на основе русской Википедии, Национальном корпусе русского языка). интеллект эмбеддинговый речь текст язык

Существует потребность разработки методов для совместной классификации разнородной лингвистической информации, полученной из разнообразных источников и состоящей из текстов, графиков, аудиозаписей, статистических данных. Перспективным направлением обработки лингвистической информации является онтологическое моделирование -- составление информационных моделей в виде концептуальных описаний предметных областей, их взаимосвязей и свойств. Применение онтологий предполагает выдачу конкретных рекомендаций для решения практических управленческих, экспертных, инженерных задач.

Автор статьи благодарит доктора физико-математических наук, профессора кафедры математических методов и цифровых технологий Байкальского государственного университета А.В. Боровского за обсуждение статьи, ценные отзывы и комментарии.

Список использованной литературы

1. Harish B.S. Representation and Classification of Text Documents: A Brief Review / B.S. Harish, D.S. Guru, S. Manjunath // International Journal of Computer Applications. -- 2010. -- No. 1. -- P. 110-119.

2. Popping R. Qualitative Decisions in quantitative Text Analysis Research / R. Popping // Sociological Methodology. -- 2012. -- Vol. 42, no. 1. -- P. 88-90.

3. Hindle D. Structural Ambiguity and Lexical Relations / D. Hindle, M. Rooth // Computational Linguistics. -- 1993. -- Vol. 19, no. 1. -- P. 103-120.

4. Raghavan V.V. A Critical Analysis of Vector Space Model for Information Retrieval / V.V. Raghavan, S.K.M. Wong // Journal of the American Society for Information Science. -- 1986. -- Vol. 37, no. 5. -- P. 279-287.

5. Salton G. A Vector Space Model for Automatic Indexing / G. Salton, A. Wong, C.S. Yang // Communications of the ACM. -- 1975. -- Vol. 18, no. 11. -- P. 613-620.

6. Algarni A. Feature Selection and Term Weighting / A. Algarni, N. Tairan // International Joint Conferences on Web Intelligence and Intelligent Agent Technologies. -- 2014. -- Vol. 1. -- P. 336-339.

7. Aizawa A. An Information-Theoretic Perspective of TF-IDF Measures / A. Aizawa // Information Processing & Management. -- 2003. -- Vol. 39, no. 1. -- P. 45-65.

8. Syntactic Dependency-Based N-grams as Classification Features / G. Sidorov, Velasquez, E. Stamatatos [et al.] // Mexican International Conference on Artificial Intelligence. -- Berlin, 2012. -- P. 1-11.

9. Goncalves T. Is Linguistic Information Relevant for the Classification of Legal Texts? / T. Goncalves, P. Quaresma // Proceedings of the 10th International Conference on Artificial Intelligence and Law. -- 2005. -- P. 168-176.

10. Moschitti A. Complex Linguistic Features for Text Classification: A Comprehensive Study / A. Moschitti, R. Basili // European Conference on Information Retrieval. -- Berlin, 2004. -- P. 181-196.

11. Efficient Estimation of Word Representations in Vector Space / T. Mikolov, K. Chen, G. Corrado, J. Dean // International Conference on Learning Representations. -- Scottsdale, 2013. -- URL: https://arxiv.org/abs/1301.3781.

12. Goldberg Y. Word2vec Explained: Deriving Mikolov et al.'s Negative-sampling Word-Embedding Method / Y. Goldberg, O. Levy // ArXiv. -- 2014. -- Vol. 1402.3722.

13. Burges C.J.C. Dimension Reduction: A Guided Tour / C.J.C. Burges // Foundations and Trends in Machine Learning. -- 2009. -- Vol. 2, no. 4. P. 275-365.

14. Extracting Gamers' Opinions from Reviews / D. Dascalu, M. Dascalu, A. Secui, S.A. Crossley // 18th International Symposium on Symbolic and Numeric Algorithms for Scientific Computing. -- 2016. -- P. 227-232.

15. Landauer T.K. An Introduction to Latent Semantic Analysis / T.K. Landauer, P.W. Foltz, D. Laham // Discourse Processes. -- 1998. -- Vol. 25, no. 2-3. -- P. 259-284.

16. Nonnegative Matrix Factorization and its Application to Pattern Analysis and Text Mining / J.M. Zurada, T. Ensari, E. Hosseini, J. Chorowski // Federated Conference on Computer Science and Information Systems. -- 2013. -- P. 11-16.

17. An Improved K-Nearest-Neighbor Algorithm for Text Categorization /S. Jiang, G. Pang, M. Wu, L. Kuang // Expert Systems with Applications. -- 2012. -- Vol. 39, no. 1. -- P. 1503-1509.

18. Joachims T. Text Categorization with Support Vector Machines: Learning with Many Relevant Features / T. Joachims // European Conference on Machine Learning. -- Berlin, 1998. -- P. 137-142.

19. Breiman L. Bagging Predictors / L. Breiman // Machine Learning. -- 1996. -- Vol. 24, no. 2. -- P. 123-140.

20. Dong Y.S. A Comparison of Several Ensemble Methods for Text Categorization / Y.S. Dong, K.S. Han // International Conference on Services Computing. -- 2004. -- P. 419-422.

21. Polikar R. Ensemble Learning // Ensemble Machine Learning / ed. C. Zhang, Y. Ma. -- Boston : Springer, 2012. -- P. 1-34.

22. Ferreira A.J. Boosting Algorithms: A Review of Methods, Theory and Applications / A.J. Ferreira, M.A.T. Figueiredo // Ensemble Machine Learning / ed. C. Zhang, Y. Ma. -- Boston : Springer, 2012. -- P. 35-85.

23. Li Y.H. Classification of Text Documents / Y.H. Li, A.K. Jain // The Computer Journal. -- 1998. -- Vol. 41, no. 8. -- P. 537-546.

24. Сравнительный анализ статистических методов классификации научных публикаций в области медицины / Г.В. Данилов, В.В. Жуков, А.С. Куликов [и др.] // Компьютерные исследования и моделирование. -- 2020. -- Т. 12, № 4. -- С. 921-933.

25. Patient2vec: A Personalized Interpretable Deep Representation of the Longitudinal Electronic Health Record / J. Zhang, K. Kowsari, J.H. Harrison [et al.] // IEEE Access. -- 2018. -- Vol. 6. -- P. 65333-65346.

26. Ofoghi B. Textual Emotion Classification: An Interoperability Study on Cross-Genre Data Sets / B. Ofoghi, K. Verspoor // Australasian Joint Conference on Artificial Intelligence. -- Cham : Springer, 2017. -- P. 262-273.

27. Paul M.J. Social Monitoring for Public Health / M.J. Paul, M. Dredze // Synthesis Lectures on Information Concepts, Retrieval and Services. -- 2017. -- Vol. 9, no. 5. -- P. 1-183.

28. Jaeger S. Mol2vec: Unsupervised Machine Learning Approach with Chemical Intuition / S. Jaeger, S. Fulle, S. Turk // Journal of Chemical Information and Modeling. -- 2018. -- Vol. 58, no. 1. -- P. 27-35.

29. Zhan J. Using Deep Learning for Short Text Understanding / J. Zhan, B. Da- hal // Journal of Big Data. -- 2017. -- Vol. 4, no. 1. -- P. 34.

30. Zhang X. Character-level Convolutional Networks for Text Classification / X. Zhang, J. Zhao, Y. LeCun // Advances in Neural Information Processing Systems. -- Montreal, 2015. -- P. 649-657.

31. Da Silva N.F.F. Tweet Sentiment Analysis with Classifier Ensembles / N.F.F. Da Silva, E.R. Hruschka, J.E.R. Hruschka // Decision Support Systems. -- 2014. -- Vol. 66. -- P. 170-179.

32. Боровский А.В. Дискриминантный анализ технических коротких текстов / А.В. Боровский, Е.Е. Раковская, А.Л. Бисикало // Вестник Астраханского государственного технического университета. Серия: Управление, вычислительная техника и информатика. -- 2018. -- №. 2. -- С. 53-60.

33. Gabrilovich E. Computing Semantic Relatedness Using Wikipedia-Based Explicit Semantic Analysis // E. Gabrilovich, S. Markovitch // Proceedings of the 20th International Joint Conference on Artificial Intelligence. -- 2007. -- P. 1606-1611.

34. Query Enrichment for Web-query Classification / D. Shen, R. Pan, J.T. Sun [et al.] // ACM Transactions on Information Systems. -- 2006. -- Vol. 24, no. 3. -- P. 320-352.

35. Современные технологии обработки естественного языка для решения задач стратегической аналитики / И.Ф. Кузьминов, П.Д. Бахтин, А.А. Тимофеев [и др.] // Искусственный интеллект и принятие решений. -- 2020. -- № 1. -- С. 3-16.

References

1. Harish B.S., Guru D.S., Manjunath S. Representation and Classification of Text Documents: A Brief Review. International Journal of Computer Applications, 2010, no. 1, pp. 110-119.

2. Popping R. Qualitative Decisions in quantitative Text Analysis Research. Sociological Methodology, 2012, vol. 42, no. 1, pp. 88-90.

3. Hindle D., Rooth M. Structural Ambiguity and Lexical Relations. Computational Linguistics, 1993, vol. 19, no. 1, pp. 103-120.

4. Raghavan V.V., Wong S.K.M. A Critical Analysis of Vector Space Model for Information Retrieval. Journal of the American Society for Information Science, 1986, vol. 37, no. 5, pp. 279-287.

5. Salton G., Wong A., Yang C.S. A Vector Space Model for Automatic Indexing // Communications of the ACM. -- 1975. -- Vol. 18, no. 11. -- P. 613-620.

6. Algarni A., Tairan N. Feature Selection and Term Weighting. In International Joint Conferences on Web Intelligence and Intelligent Agent Technologies, 2014, vol. 1, pp. 336-339.

7. Aizawa A. An Information-Theoretic Perspective of TF-IDF Measures. Information Processing & Management, 2003, vol. 39, no. 1, pp. 45-65.

8. Sidorov G., Velasquez F., Stamatatos E., Gelbukh A., Chanona-Hernan- dez L. Syntactic Dependency-Based N-grams as Classification Features. In Mexican International Conference on Artificial Intelligence, Berlin, 2012, pp. 1-11.

9. Goncalves T., Quaresma P. Is Linguistic Information Relevant for the Classification of Legal Texts? In Proceedings of the 10th International Conference on Artificial Intelligence and Law, 2005, pp. 168-176.

10. Moschitti A., Basili R. Complex Linguistic Features for Text Classification: A Comprehensive Study. In European Conference on Information Retrieval, Berlin, 2004, pp. 181-196.

11. Mikolov T., Chen K., Corrado G., Dean J. Efficient Estimation of Word Representations in Vector Space. In International Conference on Learning Representations. Scottsdale, 2013. Available at: https://arxiv.org/abs/1301.3781.

12. Goldberg Y., Levy O. Word2vec Explained: Deriving Mikolov et al.'s Negative-sampling Word-Embedding Method. ArXiv, 2014, vol. 1402.3722.

13. Burges C.J.C. Dimension Reduction: A Guided Tour. Foundations and Trends in Machine Learning, 2009, vol. 2, no. 4, pp. 275-365.

14. Dascalu D., M. Dascalu, A. Secui, S.A. Crossley Extracting Gamers' Opinions from Reviews. In 18thInternational Symposium on Symbolic and Numeric Algorithms for Scientific Computing, 2016, pp. 227-232.

15. Landauer T.K., Foltz P.W., Laham D. An Introduction to Latent Semantic Analysis. Discourse Processes, 1998, vol. 25, no. 2-3, pp. 259-284.

16. Zurada J.M., Ensari T., Hosseini E., Chorowski J. Nonnegative Matrix Factorization and its Application to Pattern Analysis and Text Mining. In Federated Conference on Computer Science and Information Systems, 2013, pp. 11-16.

17. Jiang S., Pang G., Wu M., Kuang L. An Improved K-Nearest-Neighbor Algorithm for Text Categorization. Expert Systems with Applications, 2012, vol. 39, no. 1, pp. 1503-1509.

18. Joachims T. Text Categorization with Support Vector Machines: Learning with Many Relevant Features. In European Conference on Machine Learning, Berlin, 1998, pp. 137-142.

19. Breiman L. Bagging Predictors. Machine Learning, 1996, vol. 24, no. 2, pp. 123-140.

20. Dong Y.S., Han K.S. A Comparison of Several Ensemble Methods for Text Categorization. In International Conference on Services Computing, 2004, pp. 419-422.

21. Polikar R. Ensemble Learning. In Zhang C., Ma Y. (eds). Ensemble Machine Learning. Boston, Springer, 2012, pp. 1-34.

22. Ferreira A.J., Figueiredo M.A.T. Boosting Algorithms: A Review of Methods, Theory and Applications. In Zhang C., Ma Y. (eds). Ensemble Machine Learning. Boston, Springer, 2012, pp. 35-85.

23. Li Y.H., Jain A.K. Classification of Text Documents. The Computer Journal, 1998, vol. 41, no. 8, pp. 537-546.

24. Danilov G.V., Zhukov V.V., Kulikov A.S., Makashova E.S., Mitin N.A., Orlov Yu.N. Comparative Analysis of Statistical Methods of Scientific Publications Classification in Medicine. Komp'juternye issledovanija i modelirovanie =Computer Research and Modeling, 2020, vol. 12, no. 4, pp. 921-933. (In Russian).

25. Zhang J., Kowsari K., Harrison J.H., Lobo J.M., Barnes L.E. Patient2vec: A Personalized Interpretable Deep Representation of the Longitudinal Electronic Health Record. IEEE Access, 2018, vol. 6, pp. 65333-65346.

26. Ofoghi B., Verspoor K. Textual Emotion Classification: An Interoperability Study on Cross-Genre Data Sets. In Australasian Joint Conference on Artificial Intelligence. Cham, Springer, 2017, pp. 262-273.

27. Paul M.J., Dredze M. Social Monitoring for Public Health. Synthesis Lectures on Information Concepts, Retrieval and Services, 2017, vol. 9, no. 5, pp. 1-183.

28. Jaeger S., Fulle S., Turk S. Mol2vec: Unsupervised Machine Learning Approach with Chemical Intuition. Journal of Chemical Information and Modeling, 2018, vol. 58, no. 1, pp. 27-35.

29. Zhan J., Dahal B. Using Deep Learning for Short Text Understanding. Journal of Big Data, 2017, vol. 4, no. 1, pp. 34.

30. Zhang X., Zhao J., LeCun Y. Character-level Convolutional Networks for Text Classification. In Advances in Neural Information Processing Systems. Montreal, 2015, pp. 649-657.

31. Da Silva N.F.F., Hruschka E.R., Hruschka J.E.R. Tweet Sentiment Analysis with Classifier Ensembles. Decision Support Systems, 2014, vol. 66, pp. 170-179.

32. Borovsky A.V., Rakovskaya E.E., Bisikalo A.L. Discriminant Analysis of the Technical Short Texts. Vestnik Astrakhanskogo gosudarstvennogo tekhnichesko- go universiteta. Seriya: Upravlenie, vychislitel'naya tekhnika i informatika = Vestnik of Astrakhan State Technical University. Series: Management, Computer Science and Informatics, 2018, no. 2, pp. 53-60. (In Russian).

33. Gabrilovich E., Markovitch S. Computing Semantic Relatedness Using Wikipedia-Based Explicit Semantic Analysis. In Proceedings of the 20th International Joint Conference on Artificial Intelligence, 2007, pp. 1606-1611.

34. Shen D., Pan R., Sun J.T., Pan J.J., Wu K. Query Enrichment for Web-query Classification. ACM Transactions on Information Systems, 2006, vol. 24, pp. 320-352.

35. Kuzminov I.F., Bakhtin P.D., Timofeev A.A., Khabirova E.E., Lobanova P.A., Zurabyan N. I. Modern Natural Language Processing Technologies for Solving Strategic Analytics Tasks. Iskusstvennyi intellekt i prinyatie reshenii = Artificial Intelligence and Decision Making, 2020, no. 1, pp. 3-16. (In Russian).

Размещено на Allbest.ru


Подобные документы

  • Применение методов искусственного интеллекта и современных компьютерных технологий для обработки табличных данных. Алгоритм муравья, его начальное размещение и перемещение. Правила соединения UFO-компонентов при моделировании шахтной транспортной системы.

    дипломная работа [860,8 K], добавлен 23.04.2011

  • Сущность и проблемы определения искусственного интеллекта, его основных задач и функций. Философские проблемы создания искусственного интеллекта и обеспечения безопасности человека при работе с роботом. Выбор пути создания искусственного интеллекта.

    контрольная работа [27,9 K], добавлен 07.12.2009

  • Современные разработки в области искусственного интеллекта: составление расписаний, принципы автономного планирования и управления, диагностика, понимание естественного языка, ведение игр, автономное управление, робототехника. Направления исследований.

    реферат [24,0 K], добавлен 11.03.2014

  • Понятие искусственного интеллекта как свойства автоматических систем брать на себя отдельные функции интеллекта человека. Экспертные системы в области медицины. Различные подходы к построению систем искусственного интеллекта. Создание нейронных сетей.

    презентация [3,0 M], добавлен 28.05.2015

  • Обзор образовательных стандартов педагогического образования в области искусственного интеллекта. Построение модели предметной области в виде семантических сетей. Характеристика проблемного обучения. Основные средства языка программирования Пролог.

    дипломная работа [387,8 K], добавлен 01.10.2013

  • Искусственный интеллект – научное направление, связанное с машинным моделированием человеческих интеллектуальных функций. Черты искусственного интеллекта Развитие искусственного интеллекта, перспективные направления в его исследовании и моделировании.

    реферат [70,7 K], добавлен 18.11.2010

  • Сущность искусственного интеллекта, сферы человеческой деятельности, в которых он распространен. История и этапы развития данного явления. Первые идеи и их воплощение. Законы робототехники. Использование искусственного интеллекта в коммерческих целях.

    реферат [40,8 K], добавлен 17.08.2015

  • Эволюция систем искусственного интеллекта. Направления развития систем искусственного интеллекта. Представление знаний - основная проблема систем искусственного интеллекта. Что такое функция принадлежности и где она используется?

    реферат [49,0 K], добавлен 19.05.2006

  • Исторический обзор развития работ в области искусственного интеллекта. Создание алгоритмического и программного обеспечения вычислительных машин, позволяющего решать интеллектуальные задачи не хуже человека. От логических игр до медицинской диагностики.

    реферат [29,1 K], добавлен 26.10.2009

  • Может ли искусственный интеллект на данном уровне развития техники и технологий превзойти интеллект человека. Может ли человек при контакте распознать искусственный интеллект. Основные возможности практического применения искусственного интеллекта.

    презентация [511,2 K], добавлен 04.03.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.