Выбор оптимальной архитектуры искусственной нейронной сети для задачи классификации текстов
Анализ процесса выбора оптимальной архитектуры нейронной сети, которая способна наиболее эффективно определять тональность сообщений на интернет-форумах. Рассмотрение применения искусственных нейронных сетей для решения социально значимых проблем.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 14.04.2022 |
Размер файла | 159,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Кубанский государственный технологический университет
Выбор оптимальной архитектуры искусственной нейронной сети для задачи классификации текстов
Черкасов А.Н.
Туркин Е.А.
Краснодар, Россия
Аннотация
В связи с растущей потребностью изучения роли человеческого фактора в рамках информационной безопасности была предпринята попытка применить искусственные нейронные сети для решения социально значимых проблем, связанных с информационными рисками. Основная цель исследования заключается в выборе оптимальной архитектуры нейронной сети, которая способна наиболее эффективно определять тональность сообщений на Интернет-форумах. В статье проведен обзор ряда архитектур искусственных нейронных сетей, которые применяются для определения эмоциональной окраски текстов. Рассматриваемые модели были подвергнуты анализу на предмет качества определения тона текстов. Применение модели сверточной нейронной сети, совмещенной с элементами рекуррентной нейронной сети, позволило получить точность определения окраски текста, равную 87,77%. В дальнейшем отобранная модель станет базисом для комплексной аналитической платформы в виде программного обеспечения, которое нацелено на идентификацию особенностей лексических форм, входящих в основу вербальной модели потенциального злоумышленника в рамках информационной безопасности.
Ключевые слова: рекуррентные нейронные сети, сверточные нейронные сети, анализ тональности текста, автоматизированные анализ текстов
Abstract
Cherkasov A.N.
Kuban State University of Technology, Krasnodar, Russia,
Turkin E.A.
Kuban State University of Technology, Krasnodar, Russia,
Choosing the appropriate artificial neural network architecture for text classification
In the context of the growing need to study the role of the human factor in information security, we made an attempt to apply artificial neural networks to solve socially significant problems related to information risks. The main purpose of the study is to choose the optimal neural network architecture, which is able to most effectively determine the tone of messages in Internet forums. This article provides an overview of a number of artificial neural network architectures that are used to determine the emotional tone of texts. The models discussed in this paper were analyzed for the quality of the text tone definition. Application of a model of a convolutional neural network combined with elements of a recurrent neural network made it possible to obtain accuracy of determination of text shadow equal to 87.77%. In the future, the selected model will become the basis for an integrated analytical platform in the form of software, which is aimed at identifying the features of lexical forms that form the basis of the verbal model of a potential cybercriminal within the framework of information security.
Keywords: recurrent neural networks, convolutional neural networks, text sentiment analysis, automated text analysis
Введение
Развитие технологии искусственного интеллекта и машинного обучения началось с 40-х годов прошлого столетия [1]. Однако из-за высоких требований к вычислительным ресурсам для обучения и работы нейронных сетей они применялись достаточно редко.
Современный уровень скорости вычисления и появление многих архитектур нейронных сетей позволили значительно расширить область их применения. Отдельного внимания заслуживает область обработки и анализа текстов в целях оценки поведения пользователя. Например, такая информация позволяет адаптировать систему поддержки принятия решений для различных задач в рамках ситуационного центра [2].
Анализ тональности текста используется для выявления эмоционально окрашенной лексики [3]. Распознавание эмоциональной окраски сообщений пользователей позволяет определять их отношение к тем или иным объектам, темам и субъектам. Сегодня анализ тональности текстов актуален во многих сферах - экономика, политика, социология, маркетинг и менеджмент. В описанных выше областях использование NN (Neural Network) уже становится повсеместным явлением. Много реже NN используют в управленческих решениях, касающихся безопасности.
Искусственные нейронные сети могут быть использованы в качестве инструмента анализа текстов с целью определения лексических форм и общей семантики [4]. Впоследствии результаты анализа могут быть использованы экспертами для выявления склонности человека к определенным действиям, нарушениям в области информационной безопасности.
Несмотря на большое количество проведенных исследований, в области применения нейронных сетей обработки текстов существует ряд пробелов:
• Анализ тональности текстов применяется в области управления довольно часто, но применение его огранивается распределением данных на положительно окрашенные и отрицательно окрашенные;
• Лексические аспекты и общее настроение сообщений по конкретной теме могут быть использованы для определения поведенческих особенностей человека и выявления склонности к злонамеренным действиям;
• Проводится множество аналитических операций без практического применения результатов [5, 6], таких как сокращение преступлений в области информационной безопасности.
Методы и материалы исследования
В ходе выполнения данной работы были обучены несколько моделей нейронных сетей. Среди архитектур искусственных нейронных сетей, применяемых для обработки текстов, следует выделить сверточные нейронные сети - CNN (Convolutional Neural Network) [7] и рекуррентные нейронные сети - RNN (Recurrent Neural Network) [8], а также различные их комбинации. Изначально сверточные нейронные сети были предложены для обработки изображений [1, 9], однако со временем эта модель стала применяться и для задач обработки текстов. Использование CNN позволяет ускорить процесс обучения, поскольку их архитектура подразумевает возможность параллельных вычислений большого количества данных.
Были выбраны следующие варианты архитектур моделей для обработки текстов с помощью искусственных нейронных сетей:
1. Рекуррентная нейронная сеть из одного слоя LSTM. Далее эта архитектура будет наименоваться LSTM;
2. Рекуррентная нейронная сеть из двух слоев LSTM. Этой архитектуре будет дано название LSTM-2;
3. Сверточная нейронная сеть и рекуррентная нейронная сеть из одного слоя LSTM. Данная архитектура будет наименоваться CNN-LSTM.
Стоит отметить, что зачастую рекуррентная архитектура нейронной сети является более предпочтительной. Связано это с тем, что анализ каждого слова основан не только на значении его эмоциональной окраски, но и на значении предыдущих слов. Этот факт позволяет анализировать эмоциональную семантику отдельных слов, а также и эмоциональное значение цельного предложения.
Для выбранных архитектур моделей классификации были выделены следующие гиперпараметры:
1. Размерность словаря. Были опробованы словари размерности 10000 и 15000 слов;
2. Размерность фрагмента текста 128, 196 символов;
3. Максимальная длина текста 250 символов.
Набор данных для обучения содержал равное количество фрагментов текстов, помеченных как «положительные» и «отрицательные». Для оценки качества обучения была выбрана метрика Accuracy (точность). При прекращении роста параметра точности на валидационной выборке процесс обучения приостанавливался, поскольку далее имеет место переобучение модели. нейронный сеть интернет
Обучение выбранных моделей происходило по схеме обучения с учителем. Процент валидационной выборки данных составлял 10% от общего количества данных для обучения.
Тексты прошли предварительную подготовку к обработке:
• Все спец. символы были удалены;
• Из слов были выделены их стеммы (основы для заданных слов);
• Буква «ё» была заменена на букву «е».
Для борьбы с переобучением моделей была применена Dropout регуляция [10].
Алгоритм анализа моделей нейронных сетей может быть представлен следующей схемой (рис. 1).
Рис. 1. Алгоритм проведения анализа нейронных сетей
На основании описанных ранее условий было проведено обучение моделей с заданными архитектурами и гиперпараметрами. Результаты обучения приведены в таблице 1.
Таблица 1 Результаты обучения моделей
Наименование архитектуры |
Максимальная длина текста |
Длина обрабатываемого фрагмента |
Размер словаря |
Точность валидации |
Точность тестового просчета |
|
LSTM |
250 |
128 |
10000 |
87,60% |
86,67% |
|
128 |
15000 |
86,96% |
85,42% |
|||
196 |
10000 |
86,96% |
85,42% |
|||
196 |
15000 |
87,72% |
87,08% |
|||
LSTM-2 |
250 |
128 |
10000 |
87,64% |
86,69% |
|
128 |
15000 |
88,28% |
87,13% |
|||
196 |
10000 |
87,40% |
86,43% |
|||
196 |
15000 |
88,56% |
87,40% |
|||
CNN-LSTM |
250 |
128 |
10000 |
88,48% |
87,22% |
|
128 |
15000 |
89,00% |
87,77% |
|||
196 |
10000 |
88,40% |
87,05% |
|||
196 |
15000 |
88,72% |
86,57% |
Лучшее значение метрики Accuracy на валидационном наборе данных показала модель CNN-LSTM с размерностью словаря 15000, длиной текста 250 и размером фрагмента 128.
Стоит заметить, что на тестовом наборе данных значение метрики Accuracy составило 87,77%.
Данная модель может быть представлена следующей схемой (рис. 2).
Выбранная модель искусственной нейронной сети использована как одна из технологий автоматизации анализа текстов и определения лексики, наиболее характерной для субъектов, склонных к тем или иным действиям в определенной ситуации. В качестве эксперимента рассматривались лексика и смысловые фразы в области информационной безопасности. Результаты эксперимента показали, что выбранная модель позволяет с достаточной точностью анализировать текст, определять лексику и действия субъекта.
Заключение
Проведены реализация и обучение нескольким моделям искусственных сетей с различными комбинациями настраиваемых параметров. По итогам обучения и последующего тестирования была выбрана CNN-LSTM сеть, позволяющая составлять наиболее точные заключения об эмоционально-семантической окраске текста.
Данная модель может быть взята за основу в качестве многокритериального классификатора. Каждый текст будет подвергнут анализу, итогом которого будет заключение о склонности автора текста к определенным поведенческим паттернам.
Список литературы
1. McCulloch Warren S., Walter Pitts. A logical calculus of the ideas immanent in nervous activity // Springer New York. 1943. P. 115-133.
2. Симанков В.С., Черкасов А.Н. Анализ и синтез системы поддержки принятия решений на основе интеллектуальных систем ситуационного центра // Глобальный научный потенциал. 2014. № 12 (45). С. 114-122.
3. Рубцова Ю. Автоматическое построение и анализ коротких текстов (постов микроблогов) для задачи разработки и тренировки тонового классификатора // Инженерия знаний и технологии семантического веба. СПб.: Университет ИТ- МО, 2012. Т. 1. С. 109-116.
4. Тарасов Е.С. Разработка лингвосемантических методов обработки экспертной информации для ситуационных центров органов государственной власти: дис. ... канд. техн. наук. Краснодар: КубГТУ, 2011. 198 c.
5. Краснов Ф.В. Анализ тональности текста научно-практических статей по нефтегазовой тематике с помощью искусственных нейронных сетей // Вестник Евразийской науки. 2018. Т. 10, № 3. 10 с. URL: https://esj.today/PDF/43ITVN318.pdf (дата обращения: 07.02.2020).
6. Смирнова О.С., Шишков В.В. Выбор топологии нейронных сетей и их применение для классификации коротких текстов // International Journal of Open Information Technologies. 2016. Т. 4, № 8. С. 50-54.
7. Kim Y. Convolutional neural networks for sentence classification // arXivpreprintarXiv: 1408.5882. 2014. P. 1746-1751.
8. Recurrent neural network based language model / T. Mikolov, M. Karafiat, L. Burget, J. Cernocky, S. Khudanpur // Eleventh Annual Conference of the International Speech Communication Association. 2010. P. 1045-1048.
9. Gradient-based learning applied to document recognition / Yoshua Bengio, Yann LeCun, Leon Bot- tou, Patrick Haner // IEEE. 1998. No. 86 (11). P. 2278-2324.
10. Воронцов К.В. Курс лекций по машинному обучению. 2015. URL: https://ya-r.ru/2020/05/07/vorontsov-kurs-mashinnoe- obuchenie-2019-shkola-analiza-dannyh/
References
1. McCulloch Warren S., Walter Pitts. A logical calculus of the ideas immanent in nervous activity // Springer New York. 1943. P. 115-133.
2. Simankov V.S., Cherkasov A.N. Analysis and synthesis of a decision support system based on intelligent systems of the situational center // Global Scientific Potential. 2014. No. 12 (45). P. 114-122.
3. Rubtsova Yu. Automatic construction and analysis of short texts (microblogging posts) for the task of developing and training tone classifier // Engineering of knowledge and technologies of semantic web. St. Petersburg: Saint Petersburg State University of Information Technologies, Mechanics and Optics, 2012. Vol. 1. P. 109-116.
4. Tarasov E.S. Development of linguistic-semantic methods for processing expert information for situational centers of public authorities: Diss. for the Cand. of Techn. Sciences degree. Krasnodar: Kuban State Technological University, 2011. 198 p.
5. Krasnov F.V. Analysis of the tonality of the text of scientific and practical articles on oil and gas topics using artificial neural networks // Bulletin of Eurasian Science. 2018. Vol. 10, No. 3. 10 p. URL: https://esj.today/PDF/43ITVN318.pdf (access date: 07.02.2020).
6. Smirnova O.S., Shishkov V.V. The choice of the topology of neural networks and their application for the classification of short texts // International Journal of Open Information Technologies. 2016. Vol. 4, No. 8. P. 50-54.
7. Kim Y. Convolutional neural networks for sentence classification // arXivpreprintarXiv: 1408.5882. 2014. P. 1746-1751.
8. Recurrent neural network based language model / T. Mikolov, M. Karafiat, L. Burget, J. Cernocky, S. Khudanpur // Eleventh Annual Conference of the International Speech Communication Association. 2010. P. 1045-1048.
9. Gradient-based learning applied to document recognition / Yoshua Bengio, Yann LeCun, Leon Bot- tou, Patrick Haner // IEEE. 1998. No. 86 (11). P. 2278-2324.
10. Vorontsov K.V. Machine Learning Lecture Course. 2015. URL: https://ya- r.ru/2020/05/07/vorontsov-kurs-mashinnoe- obuchenie-2019-shkola-analiza-dannyh/
Размещено на Allbest.ru
Подобные документы
Математическая модель искусственной нейронной сети. Структура многослойного персептрона. Обучение без учителя, методом соревнования. Правило коррекции по ошибке. Метод Хэбба. Генетический алгоритм. Применение нейронных сетей для синтеза регуляторов.
дипломная работа [1,5 M], добавлен 17.09.2013Понятие искусственного нейрона и искусственных нейронных сетей. Сущность процесса обучения нейронной сети и аппроксимации функции. Смысл алгоритма обучения с учителем. Построение и обучение нейронной сети для аппроксимации функции в среде Matlab.
лабораторная работа [1,1 M], добавлен 05.10.2010Математическая модель нейронной сети. Однослойный и многослойный персептрон, рекуррентные сети. Обучение нейронных сетей с учителем и без него. Алгоритм обратного распространения ошибки. Подготовка данных, схема системы сети с динамическим объектом.
дипломная работа [2,6 M], добавлен 23.09.2013Прогнозирование валютных курсов с использованием искусственной нейронной сети. Общая характеристика среды программирования Delphi 7. Существующие методы прогнозирования. Характеристика нечетких нейронных сетей. Инструкция по работе с программой.
курсовая работа [2,2 M], добавлен 12.11.2010Математические модели, построенные по принципу организации и функционирования биологических нейронных сетей, их программные или аппаратные реализации. Разработка нейронной сети типа "многослойный персептрон" для прогнозирования выбора токарного станка.
курсовая работа [549,7 K], добавлен 03.03.2015Разработка алгоритма и программы для распознавания пола по фотографии с использованием искусственной нейронной сети. Создание алгоритмов: математического, работы с приложением, установки весов, реализации функции активации и обучения нейронной сети.
курсовая работа [1,0 M], добавлен 05.01.2013Различные методы решения задачи классификации. Нейросетевые парадигмы, методы обучения нейронных сетей, возникающие при этом проблемы и пути их решения. Описание программной реализации классификатора, его функциональные возможности и результаты обучения.
дипломная работа [1,0 M], добавлен 28.12.2015Прогнозирование на фондовом рынке с помощью нейронных сетей. Описание типа нейронной сети. Определение входных данных и их обработка. Архитектура нейронной сети. Точность результата. Моделирование торговли. Нейронная сеть прямого распространения сигнала.
дипломная работа [2,7 M], добавлен 18.02.2017Базовые архитектуры компьютеров: последовательная обработка символов по заданной программе и параллельное распознавание образов по обучающим примерам. Искусственные нейронные сети. Прототип для создания нейрона. Поведение искусственной нейронной сети.
контрольная работа [229,5 K], добавлен 28.05.2010Этапы решения задачи классификации цифр арабского алфавита на основе нейронных сетей: выбор класса, структуры и пакета нейронной сети, ее обучение, требования к информационной и программной совместимости, составу и параметрам технических средств.
реферат [111,6 K], добавлен 19.10.2010