Метод фильтрации спама на основе искусственной нейронной сети

Рассмотрение задачи фильтрации спама и наиболее распространенных подходов к ее решению в сравнении с методами искусственного интеллекта. Развитие средств защиты от спама. Решение задачи защиты от спама на основе списка адресов, сигнатур, теоремы Байеса.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 19.05.2018
Размер файла 56,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Интернет-журнал «НАУКОВЕДЕНИЕ» Том 8, №3 (май - июнь 2016) http://naukovedenie.ru publishing@naukovedenie.ru

Размещено на http://www.allbest.ru/

1

http://naukovedenie.ru 04TVN316

Интернет-журнал «НАУКОВЕДЕНИЕ» Том 8, №3 (май - июнь 2016) http://naukovedenie.ru publishing@naukovedenie.ru

1

http://naukovedenie.ru 04TVN316

ФГБОУ ВО «Российский государственный социальный университет»

Метод фильтрации спама на основе искусственной нейронной сети

Ларионова Анна Владимировна Аспирант

Хорев Павел Борисович

Кандидат технических наук, доцент

Аннотация

В данной статье рассматривается задача фильтрации спама и наиболее распространенные подходы к ее решению: на основе списков адресов, сигнатур, теоремы Байеса в сравнении с методами искусственного интеллекта. Задача фильтрации спама является актуальной проблемой, так как технологии создания спама развиваются следом за средствами защиты от спама, что требует переосмысления подходов к задаче фильтрации спама и применения методов и средств искусственного интеллекта. В качестве решения проблемы предлагается использовать подход на основе методов искусственного интеллекта, в частности на основе искусственной нейронной сети. Данный подход требует подготовки обучающей и тестовой выборок сообщений для обучения классификатора, выделения значимых признаков сообщений, настройки параметров модели, оценки точности классификатора.

Ключевые слова: фильтрация спама; искусственные нейронные сети; искусственный интеллект; спам; классификация сообщений; выделение признаков сообщений; персептрон; теорема Байеса; машинное обучение; информационная безопасность

Abstract

фильтрация спам искусственный интеллект

Spam filtering method based on artificial neural network

This article discusses the problem of spam filtering and the most common approaches to deal with it: based on address lists, signatures, Bayes' theorem in comparison with the methods of artificial intelligence. Spam filtering task is an actual problem, since the technology of spam are advancing together with spam, which requires a rethinking of approaches to the problem of spam filtering and application of artificial intelligence methods. As a solution is proposed to use techniques based on artificial intelligence approach, in particular based on an artificial neural network. This approach requires the preparation of the training and test samples of messages for training the classifier, extraction important features of messages, setting parameters of the model, evaluate the accuracy of the classifier.

Keywords: spam filtering; artificial neural network; artificial intelligence; spam; message classification; feature extraction of messages; perceptron; Bayes theorem; machine learning; information security

Основная часть

В современном мире, где реклама является двигателем торговли, с развитием сети Internet и средств общения, проблема нежелательной рекламы [6] и сообщений требует интеллектуального подхода для ее решения. Современные методы борьбы со спамом, основанные на лингвистических сигнатурах, правилах фильтрации сообщений, становятся все менее эффективными [6, 8], так как требуется увеличение трудозатрат специалистов по защите от спама на поддержание этих сигнатур и правил в актуальном состоянии. Таким образом, современные методы борьбы со спамом требуют постоянного участия человека для эффективного анализа текста, они не способны самостоятельно вырабатывать эти правила, то есть самообучаться. Если рассматривать человека как средство борьбы со спамом, то можно сказать, что он обладает способностью обнаружения признаков спама, основываясь на собственном опыте и предпочтениях, знаниях о добровольных новостных и рекламных подписках, обучаемостью, его работа не сводится к шаблонам и потому более эффективна. Именно поэтому задача создания средства борьбы со спамом сводится к наделению средства борьбы со спамом навыками и качествами, присущими человеку: способность к обучению, система предпочтений и исключений, анализ контекста, система принятия решений.

Предлагаемый автором статьи метод фильтрации спама основан на использовании нейронной сети, выступающей в качестве механизма принятия решений, давая на выходе вероятностную оценку «спамности» всего сообщения. Искусственная нейронная сеть обладает способностью обучаться (в том числе, обобщать свои знания, накапливать опыт), является наиболее приближенной моделью человеческого мозга, как по архитектуре, так и по принципам работы. Более подробно читатель может ознакомиться с свойствами искусственной нейронной сети и моделированию человеческой деятельности и мышления в [1, 2, 3, 4, 7, 9, 10].

Задача обеспечения информационной безопасности, куда входит и защита от спама, является нетривиальным ресурсоемким процессом. Для увеличения эффективности и повышения степени автоматизированности процесса защиты информации с целью освобождения человеческих ресурсов наиболее перспективным направлением является внедрение нейросетевых технологий в существующие системы защиты. Так, например, нейронные сети получили широкое распространение в системах обнаружения и отражения сетевых атак. В таких системах, как и в предлагаемом автором статьи методе, нейронные сети анализируют комплекс разнородных параметров сети (время ответа сервера, отклонение пакетов от стандартов RFC и прочее), выявляя аномальное поведение и способны опознавать даже те атак, которых не было в обучающей выборке благодаря способности нейронных сетей к обобщению и обучению. Предлагаемая автором статьи система фильтрации спама принципиальна схожа с подобными системами обнаружения и отражения атак, только обнаруживаются не сетевые атаки, а сообщения, чье содержание является нежелательной рекламой (спамом). Отличие состоит в том, что предлагаемая система фильтрации спама работает на уровне приложения, согласно модели OSI, а не на уровне сети, как системы обнаружения атак, и анализируются не флаги пакетов, а непосредственно данные, т.е. содержание сообщений.

Любая нейронная сеть имеет входы, выходы, собственно нейроны и связи между ними (синапсы, аксоны, дендриты) [4]. Схема простой нейронной сети изображена на рисунке 1.

Рисунок 1 Схема нейронной сети. 1 - нейроны входного слоя; 2 - нейроны скрытого слоя; 3 - нейрон выходного слоя

На примере человека рассмотрим процесс обнаружения спама в сообщении. Вопервых, существует ряд слов и словосочетаний, которые довольно часто встречаются в спаме (например, «buy something with 50% discount»). Однако, это не является достаточным основанием для отнесения такого сообщения к спаму. В этом случае человек дополнительно обращает внимание на контекст и смысл сообщения, его общую направленность, также он может обратить внимание на орфографические, синтаксические и морфологические особенности текста. Исходя из этой совокупности, с гораздо большей достоверностью можно принять решение о том, является ли данное сообщение спамом или нет. Поэтому входными параметрами нейронной сети в составе средства борьбы со спамом являются предварительно выявленные статистические признаки сообщения:

• удельное число слов с подозрением на спам в сообщении;

• удельное число словосочетаний и фраз с подозрением на спам в сообщении.

А также нестатистические входные параметры:

• семантические признаки;

• направленность текса;

• морфологические признаки - правильность построения предложения и установления связей между частями речи (формализм Бекуса-Наура) [4];

• орфографические признаки - правильность написания слова, наличие замены сходных по написанию символов (например, замена буквы «О» цифрой «0» для обмана сигнатурной (шаблонной) фильтрации).

Поскольку нейронная сеть оперирует численными значениями, необходимо сформировать из вышеописанных признаков числовой входной вектор значений [2].

Для получения статистических признаков используется специальный словарь, содержащий в себе слова, наиболее характерные для спама. В исходном сообщении производится поиск и подсчет слов, которые совпадают с содержимым данного словаря. Для улучшения точности принятия решений дополнительно производится подсчет наиболее часто употребляемых в спаме словосочетаний. Это уменьшает вероятность ложного срабатывания.

Анализ статистических признаков нейронной сетью напоминает байесовскую фильтрацию спама [8, 9], где для каждого слова или словосочетания можно установить коэффициент «спамности». Однако, в отличие от байесова фильтра, здесь коэффициенты - синаптические связи (веса) между нейронами, способные динамически изменяться в процессе обучения, что позволяет эффективно обнаруживать новый и ранее неизвестный спам за счет умения нейронной сети обобщать накопленный опыт. Таким образом, внешне нейронная сеть будет схожа с байесовым фильтром, однако, они различаются внутренней архитектурой, дополнительными функциями и свойствами нейронной сети: нейронная сеть не зависит от формы представления данных и способна обрабатывать семантические, фонетические и орфографические признаки, если представить их в виде числовых значений. Исходя из этого, можно оценивать текст на принадлежность к спаму комплексно, полагаясь на множество разнородных параметров, которые дополняют друг друга и уточняют оценку при принятии решения.

Данную нейронную сеть можно структурно реализовать в виде многослойного персептрона [7, 10] со скрытыми слоями или используя гибридную нейронную сеть на основе сети Кохонена [3] и персептрона [7]. Первый случай наиболее прост в реализации и представляет собой персептрон с числом входных параметров n, равных размерности входного вектора (в нашем случае n=5 или n=6, если учитывать словосочетания). Он будет иметь единственный выходной нейрон, выдающий значение вероятности обнаружения спама в тексте, принимающий значение от 0 до 1. Данная нейронная сеть будет выполнять единственную функцию - принятие решения о наличии спама. Во втором случае сеть Кохонена выполняет кластеризацию входных параметров [2], что позволит эффективнее определить направленность текста, в том числе отсеять текст, не являющийся спамом на этапе кластеризации. Карта Кохонена способна к обучению без учителя, что уменьшает временные затраты на обучение нейронной сети. Роль персептрона в данной гибридной нейронной сети также сводится к процессу принятия решения о наличии спама в сообщении. В первом случае в качестве активационной функции используется одна из сигмоидных функций [4], во втором случае, помимо сигмоидной функции активации, используется функция Гаусса [4].

Нейронная сеть неспособна непосредственно оценивать текст на наличие спама, поскольку оперирует числовыми значениями. Также надо учесть, что сам текст сообщения может содержать орфографические и синтаксические ошибки, которые затрудняют процесс анализа, поэтому их необходимо предварительно обнаружить и исправить, затем выделить из текста входные параметры нейронной сети. Для выделения этих параметров необходимо использовать синтаксический анализ предложений. Синтаксический анализ автор статьи предлагает производить, основываясь на формализме Бекуса-Наура, где в качестве инструментария используется база данных, которая представляет собой словарь с морфологической и орфографической оценками и общей семантикой.

Исходя из этого, можно выделить следующие сопутствующие технологии:

• синтаксический анализатор текста;

• база данных;

• статистический анализ текста.

Как уже было сказано, для увеличения точности метода, необходимо произвести первичную обработку текста, в ходе которой исправляются орфографические ошибки в словах, устраняются лишние пробелы и выделяются слова и предложения из текста, заменяются «обманные» символы (например, цифра «0» заменяется буквой «О»).

Далее производится вторичная обработка текста, на этапе которой осуществляется формализация текста с помощью правил Бекуса-Наура, выделение признаков спама, формирование входного вектора для нейронной сети.

В отличие от байесовой фильтрации спама, предложенный автором статьи метод учитывает наличие в сообщении «обманных» символов, которые обычные фильтры пропускают. В предложенном методе фильтрации спама используется множество разнородных параметров, то есть не только статистические (лексические), но и морфологические и синтаксические, наличие орфографических ошибок в словах и ошибок при построении предложений. Данная система способна к самообучению, обнаружению ранее неизвестных спам-сообщений, в то время как эффективность байесова фильтра зависит от постоянной коррекции коэффициентов на новых выборках [5], нет процесса самообучения. Для каждого нового спам-сообщения при использовании байесова фильтра необходимо корректировать коэффициенты «спамности», а при использовании фильтрации на основе шаблонов необходимо постоянно пополнять базу шаблонов, то есть содержать специалистов, которые будут поддерживать актуальность этой базы. Предложенный автором статьи метод избавлен от многих недостатков байесова фильтра, однако, эффективность метода зависит от обучающей выборки, используемой в процессе обучения. В итоге возникает задача правильного формирования обучающей выборки, обладающей репрезентативностью и достоверностью. Данная задача вполне выполнима, несмотря на свою сложность, но, будучи однажды выполненной, обеспечивает эффективную работу системы, не требующей постоянного дообучения.

Литература

1. Осовский Станислав. Нейронные сети для обработки информации = Sieci neuronowe do przetwarzania informacji (польск.) / Перевод И.Д. Рудинского. М.: Финансы и статистика, 2004. 344 с. ISBN 5-279-02567-4.

2. Савельев А.В. На пути к общей теории нейросетей. К вопросу о сложности // Нейрокомпьютеры: разработка, применение. 2006. №4-5. С. 4-14. Режим доступа http://www.radiotec.ru/catalog.php?cat=jr7 (открытый).

3. Хайкин С. Нейронные сети: полный курс = Neural Networks: A Comprehensive Foundation. 2-е изд. М.: Вильямс, 2006. 1104 с.

4. Ясницкий Л.Н. Введение в искусственный интеллект. М.: Издательский центр «Академия», 3-е издание, 2010. 176 с.

5. Demsar Janez. Statistical Comparisons of Classifiers over Multiple Data Sets - 2006. Access link: http://sci2s.ugr.es/sicidm/pdf/2006-Demsar-JMLR.pdf.

6. Mueller Scott Hazen. What is spam? Information about spam. Abuse.net. Retrieved 2007-01-05. Access link: http://spam.abuse.net/overview/whatisspam.shtml (open access).

7. Rosenblatt, Frank. Principles of Neurodynamic: Perceptrons and the Theory of Brain Mechanisms. М.: Мир, 1965. 480 с.

8. Vangelis Metsis, Ion Androutsopoulos, Georgios Paliouras. Spam Filtering with Naive Bayes - Which Naive Bayes? // Third Conference on Email and Anti-Spam (CEAS). 2006. 9 p.

9. Vapnik Vladimir N. The Nature of Statistical Learning Theory - 1999. Access link http://web.mit.edu/6.962/www/www_spring_2001/emin/slt.pdf (open access).

10. Warren S. McCulloch, Walter H. Pits. A logical calculus of the ideas immanent in nervous activity. Access link http://www.cse.chalmers.se/~coquand/AUTOMATA/ mcp.pdf (open access).

Размещено на Allbest.ru


Подобные документы

  • Проблема спама и его место в сети Интернет. Антивирусные программы и спам-фильтры. Типы массовых рассылок. Реклама незаконной продукции. Доля спама в почтовом трафике Рунета. Письма счастья, DoS и DDoS-атаки, "нигерийские письма" и другие виды спама.

    презентация [269,3 K], добавлен 21.03.2014

  • Сущность и история появления понятия "спам", его современная трактовка. Место и значение спама в Интернете, методы и пути борьбы с данным негативным явлением. Разновидности спама и определение их опасности для компьютера, способы избегания спамовых атак.

    реферат [17,4 K], добавлен 03.05.2010

  • История возникновения спама как одного из негативных последствий развития современных информационных технологий. Динамика его объёма в почтовом трафике за последние 15 лет. Виды спама и его тематический спектр, а также основные страны-источники.

    статья [29,9 K], добавлен 24.03.2014

  • Вред, наносимый спамом. Последний писк спамерской моды. Невеселые перспективы, естественные ограничители SMS-спама. Автоматизированные антиспам-системы. Спам от любимого оператора и друзей-абонентов. Интернет без спама. Электронные "почтовые марки".

    реферат [39,2 K], добавлен 30.04.2011

  • Понятие, история появления и распространенные виды спама. Профилактика и методы борьбы со спамом. Спам в России: статистика, законодательство, основные проблемы. Решения для борьбы со спамом на предприятии. Характеристика закона против спама в США.

    курсовая работа [55,2 K], добавлен 02.05.2011

  • Описание структурной схемы искусственного нейрона. Характеристика искусственной нейронной сети как математической модели и устройств параллельных вычислений на основе микропроцессоров. Применение нейронной сети для распознавания образов и сжатия данных.

    презентация [387,5 K], добавлен 11.12.2015

  • История появления электронной почты, современное состояние безопасности при работе с ней. Понятие "спама" и способы борьбы с ним. Общая характеристика антирекламных программ. Методы обеспечения конфиденциальности и приватности электронной переписки.

    реферат [64,8 K], добавлен 15.05.2010

  • Определение, достоинства и недостатки электронной почты. История и хронология ее развития. Современная архитектура (SMTP). Простейшая схема пересылки сообщений. Процедура маршрутизации почты между серверами, стандарты ее шифрования. Цель рассылки спама.

    презентация [1005,3 K], добавлен 19.04.2016

  • Спам - история появления и средство борьбы с ним. Мировая практика борьбы со спамом, выбор решения проблемы. Законодательство США в борьбе со спамом и спамерами. Международная классификация спама. Основные технологии, используемые спамерами при рассылках.

    контрольная работа [161,8 K], добавлен 15.05.2009

  • Математическая модель искусственной нейронной сети. Структура многослойного персептрона. Обучение без учителя, методом соревнования. Правило коррекции по ошибке. Метод Хэбба. Генетический алгоритм. Применение нейронных сетей для синтеза регуляторов.

    дипломная работа [1,5 M], добавлен 17.09.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.