Метод фільтрації вихідних повідомлень на основі визначення їх семантичного наповнення із застосуванням біциклічних груп

Проблема запобігання витоку конфіденційної інформації з інформаційної системи. Алгоритм контролю вихідних повідомлень. Аспекти реалізації фільтрації семантичного наповнення на основі біциклічних груп. Розробка методу для визначення тематики тексту.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык украинский
Дата добавления 02.02.2019
Размер файла 64,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Метод фільтрації вихідних повідомлень на основі визначення їх семантичного наповнення із застосуванням біциклічних груп

C.О. Гопанчук

Національний технічний університет України

“Київський політехнічний інститут”,

Т.П. Кирилюк

Волинський державний університет

імені Лесі Українки

В статті розглянуто проблема запобігання витоку конфіденційної інформації із ІС. Запропоновано алгоритм контролю вихідних повідомлень. Вказано теоретичні аспекти реалізації одного з його кроків на основі біциклічних груп. Розроблено метод для визначення тематики тексту.

Ключові слова: безпека, виток інформації, конфіденційність, семантика, біциклічна група.

S. Gopanchuk, T. Kyrylyk

THE FILTRATION OF OUTPUT MESSAGES METHOD ON THE BASE OF DETERMINATION OF THEIR SEMANTIC CONTENTS USING THE BICYCLIC GROUP

The problem of leak of confidential information from information systems is considered in the article. The algorithm of output messages control is suggested. The theoretical aspects for realization of one of its phases on the base of bicyclic group. The method for determination of the text themes is elaborated.

Key words: security, leak of information, confidence, semantic, bicyclic group.

Постановка наукової проблеми

Проблема визначення рівня захищеності інформаційної системи (ІС) є однією з основних як на етапі проектування, так і на етапі застосування системи. На сьогодні найбільш використовувані на практиці підходи, для оцінювання захищеності ІС, базуються на теорії ризиків [10]. Потрібно відмітити, що на основі аналізу ризиків можна визначити необхідну степінь захищеності, вибрати стратегію інформаційної структури організації, визначити найкращий підхід до її проектування. Одним із параметрів оцінки інтегрального ризику системи є рівень її уразливості, який в свою чергу залежить від степіня контролю витоку інформації [9].

Реалізувати ж цей контроль можливо лише завдяки засобам аналізу тексту [8].

В контексті запобігання витоку інформації нас цікавить проблема перевірки кожного пакету на наявність у ньому відомостей, які не дозволені для розголошення. Тобто задача фільтрації повідомлень за їх змістом..

Аналіз останніх досліджень

Не дивлячись на розвиток мультимедіа, текст залишається одним з найбільш розповсюджених видів інформації [6]. Документація, реклама, електрона пошта - це все текстова інформація, що передається із однієї ІС до іншої.

Задача фільтрації текстової інформації є однією із множини задач змістовної, або структурованої обробки текстів. В загальному випадку проблема полягає у розпізнаванні інформації визначеного класу в неструктурованому тексті [8]. Звично вона вирішується в загальному випадку не прив'язуючись до напрямку застосування, не враховуючи його специфіку. Розглянемо підходи до фільтрації текстових повідомлень на основі її семантичного наповнення, в контексті їх використання для запобігання витоку інформації.

Основні підходи до аналізу текстів можна класифікувати за способом обробки [7] та за способом представлення інформації [8].

За способом обробки виділяють клас простих методів, які не залежать від мови та предметної області, що базуються на статистичних даних. Другий клас формують достатньо складні методи, що залежать від предметної області та спираються на теорію лінгвістичних змінних [7]. Ефективним для запобігання витоку конфіденційної інформацій, з цієї точки зору, можна вважати метод, що поєднував би швидкість і незалежність від мови алгоритмів першого класу із точністю обробки другого.

За способом представлення - виділяють методи, які працюють з інформацією, що представлена декларативно, або процедурно [8]. До перших відноситься контекстний аналіз. Його суть полягає у порівнянні індекса (переліку ключових слів) тексту із попередньо сформованими тезарусами і семантичними мережами [6]. Другі - представлені атрибутивним аналізом. Його зміст полягає у тому, що в тексті відшукуються лексичні мітки заданого формату, чи відношення, що характеризують шукану інформацію. Для підвищення якості аналізу витоку, в даному випадку разом з переліком ключових слів слід задавати також рівень зв'язків між ними.

Розглянемо нові підходи до побудови таких методів із акцентом на запобігання витоку інформації.

Заслуговує на увагу напрямок створення експертних систем для аналізу тексту. Зокрема в [5] пропонується підхід, що базується на семантичному аналізаторі (СА). Для фільтрації інформації використовується поняття семантичної близькості (СБ). Його суть можна визначити правилом: чим ближче семантично слова, тим ближче семантично фрази яким належать ці слова. Аналогічне відношення задається між текстом і фразами.

В СА вводяться коефіцієнти СБ слів, що визначаються автоматично на основі семантичної мережі. Це дозволяє говорити про те, що система самонавчаюча.

Для отримання СБ текстів, чи фраз використовуються семантичні норми, що є функціями від СБ слів. Кінцева норма визначається за формулою

,

де дві фрази, що порівнюються; - коефіцієнт СБ семантів та .

В [3] розглядається модель виділення об'єктів в тексті на основі формального опису. В побудові цієї моделі можна виділити такі основні кроки:

Опис шаблонних конструкцій конфіденційної інформації за допомогою формальної мови (наприклад на об'єктно-орієнтованій мові програмування із використанням класів), та правил присвоєння цього класу конструкціям тексту;

Заданий текст розбивається на лексеми із отриманням їх граматичних атрибутів. Оскільки це розбиття є неоднозначним то розглядається граф описання об'єктів;

Лексеми порівнюються із правилами побудови заданих конструкцій, причому послідовність лексем залежить від довжини шляху у графі, що їх об'єднує. Чим менший шлях тим скоріш розглядається лексема;

У разі віднесення лексеми у певний клас всі інші варіанти із нею вилучаються з графа.

Критерієм фільтрації в такому випадку служить наявність недозволених конструкцій [6].

Цікавим також є підхід, що базується на лінгвістичних змінних. Суть його полягає у визначенні типовості тексту серед множини текстів. Типовість характеризується степіню достовірності [2].

Нехай кожен текст з вибірки представлений множиною висловлювань

,

де - індекс лінгвістичних змінних,

- індекс значень лінгвістичних змінних.

В цьому випадку для визначення степіня достовірності використаємо експертні оцінки

Нехай оцінка степіня відповідності повідомлення відносно інших виноситься К - експертами. Тоді сумарна оцінка відповідності повідомлення відносно інших характеризує типовість цього повідомлення для даного набору. Вона визначається так:

,

де - оцінка степіня відповідності експертом k повідомлень n,m. Тоді .

Таким чином задавши множину конфіденційних текстів стає можливим визначення степіня належності до неї будь-якого тексту.

На сьогодні великого розповсюджені набули методи фільтрації текстової інформації на основі нейромережевих алгоритмів [8]. Не вникаючи у подробиці визначимо послідовність побудови таких алгоритмів для контролю вихідного трафіку.

На навчаючій виборці, що складається із множини конфіденційних текстів, автоматично формується структурні портрети рубрик, на основі яких визначаються і їх індекси. Далі виділяються найбільш стійкі словосполучення(до восьми слів);

За допомогою повнотекстового пошуку знаходять степінь кореляції індексів рубрик з текстом;

Автоматично всі тексти, що проаналізовані ранжуються за степенем їх відповідності заданим рубрикам. [7]

Підсумовуючи сказане відмітимо труднощі, які виникають при реалізації даних методів, та мінімальні вимоги до методів фільтрації з метою запобігання витоку інформації. Основні труднощі пов'язані із складанням словника ключових слів, ранжуванням повідомлень на конфіденційність, що приводить до великої кількості хибних застережень [8]. У зв'язку з цим можна сформулювати мінімальні вимоги до алгоритмів аналізу текстів це швидкісне та якісне формування словника ключових слів та чітке ранжування результатів. Також слід відзначити потребу у чіткому теоретичному обґрунтуванні методів аналізу текстів.

фільтрація повідомлення семантичний біциклічний

Постановки мети та завдань

Метою даної роботи є розглянути ефективний підхід до визначення тематики повідомлень з метою їх фільтрації, для запобігання витоку конфіденційної інформації із ІС, а також теоретично обґрунтувати вибір ключових слів для створення конфіденційних рубрик. На основі мети сформульовані такі завдання:

визначити загальний алгоритм контролю вихідних повідомлень;

вказати теоретичний підхід до вибору ключових слів, що базується на теорії біциклічних груп;

розробити метод, що дозволяв би визначати тематику тексту з метою фільтрації;

розглянути алгоритм, що реалізовує цей метод.

Алгоритм контролю вихідних повідомлень з метою запобігання витоку конфіденційної інформації

Для ефективного контролю вихідного трафіка визначимо чотири основні кроки:

Визначення тематики вихідного повідомлення. Це дозволяє вибирати список тем, які варто розглядати на конфіденційність, а повідомлення з іншими темами відсіювати.

Віднесення повідомлення до однієї із конфіденційних рубрик. На даному кроці з'являється можливість вибору повідомлень із характерною для даної ІС конфіденційною темою, а інші відсіяти [5].

Ранжування вибраних повідомлень за степенем конфіденційності. Однією з основних задач на даному етапі є встановлення порогового значення, яке буде визначати допустимий ранг повідомлення [8].

Визначення змісту повідомлення на основі аналізу словників.

Спочатку вкажемо деякі теоретичні положення що дозволяють визначати конфіденційну рубрику тексту, а потім розглянемо підхід для реалізації першого кроку.

Застосування біциклічних груп до вибору ключових слів конфіденційних рубрик

Розглянемо повідомлення Х, як множину, і нехай Х складається із всіх скінчених послідовностей елементів, тобто словосполучень множини Х. Словосполучення можуть складатись і з одного слова. Якщо (х1, х2,..., хт) і (у1, у2,..., уп) - елементи множини Х, то їх добуток визначимо простим співвідношенням виду: (х1, х2,..., хт)(у1, у2,..., уп)= (х1, х2,..., хт, у1, у2,..., уп).

Тобто добуток - це злиття простих словосполучень у більш складні.

Тоді Х стає напівгрупою на множині Х. Елементи напівгрупи Х будемо називати словами. Будемо також позначати напівгрупу Х з приєднаною одиницею 1, яку можна вважати „порожнім словом” [4].

Тоді проблема вибору ключових слів чи конструкцій сформулюється: визначити мінімальну скінчену підмножину Х, що породжує напівгрупу на цій підмножині Х за допомогою співідношенням добутку визначеного раніше.

Таким чином ми забезпечимо відсутність конструкцій нехарактерних для даного повідомлення, адже у напівгрупі результат співвідношення належить множині. І отримаємо елементи які є ключовими, тобто на них базується повідомлення. В свою чергу ці елементи повинні бути незалежним, як елементи базису простору словосполучень, тобто їх добуток не повинен породжувати нове словосполучення.

Означення. Біциклічною напівгрупою називається напівгрупа з одиницею, породжена двоелементною множиною G={g1, g2} і задана одним визначальним співвідношенням g1g 2=1.

Напівгрупа породжується класами р і q, які задовольняють рівність рq=1 і будемо записувати =(р, q), де р - усі слова, які скорочуються до х1, q - усі слова, які скорочуються до х2 [4].

Отже задавши на множині Х, біциклічну напівгрупу ми отримаємо ключові слова даного повідомлення.

Біциклічну напівгрупу можна задавати такими способами:

1) за допомогою визначальних співвідношень;

2) за допомогою перетворення множин;

3) за допомогою впорядкованих пар.

Зауважимо, що для задання повідомлення, як множини його слід обробити методами контексного аналізу.

Метод визначення тематики тексту

Запропонуємо метод, що дозволяє визначати міру належності повідомлення до певної теми. Визначимо основні теоретичні положення методу.

В процесі дослідження було помічено, що частотні характеристики символів, біграм, триграм і т.д. різняться в залежності від теми тексту [1].

Нехай - випадкова величина,, що характеризує процентне відношення і-того символу відносно інших. Тоді проаналізувавши к-текстів отримуємо вибірку для кожного символу:

Таблиця 1. Частота зустрічань символів.

Де , - кількість текстів у яких і-тий символ має процентний вміст. . Було показано, що розподіл даної випадкової величини близький до нормального [6]. Визначимо точкові оцінки для математичного сподівання та дисперсії.

, (1)

, де - довжина алфавіту. Ця оцінка буде незміщеною та спроможною. За допомогою математичного сподівання ми визначили очікуване значення кількості зустрічаннь символу у певній темі [9].

Визначемо дисперсію

. (2)

Далі визначаємо середньоквадратичне відхилення . Його практичний зміст полягає у визначенні максимально можливого відхилення від очікуваного значення [9].

По суті ми отримаємо дві таблиці чи масиви. Для кожного символу алфавіту присвоїмо порядковий номер, що може і не відповідати алфавіту. Враховуючи це складаємо перший коефіцієнт теми тексту. Позначимо його

, де , (3)

де l - довжина алфавіту(наприклад для української мови l=32, для англійської l=26). Визначимо також перший коефіцієнт відхилення теми тексту. Позначимо його та обчислимо

. (4)

Розглянемо наступну випадкову величину,, яка є процентним вмістом біграм ij. Відмітимо, що загальна кількість біграм буде визначатись за формулою розміщень із повтореннями і буде рівна l2. Але враховуючи недопустимість деяких їх кількість буде менша. Наприклад в українській мові загальна кількість біграм буде 322, але враховуючи недопустимість біграм АЬ,ОЬ,ЬА,ЬЕ та інших кількість біграм зменшується.

Знову проаналізувавши к- текстів робимо вибірку

Таблиця 2. Частота зустрічань біграм().

Аналогічно для кожної біграми знаходимо , також знаходимо , та середньоквадратичне відхилення .

Присвоївши кожній біграмі порядковий номер, визначаємо другий коефіцієнт теми тексту. Позначимо його через Kt2, та обчислимо

, (5)

де l - допустима кількість біграм, h - порядковий номер біграми ij в таблиці. Далі визначаємо другий коефіцієнт відхилення теми, позначимо його Kv2, та обчислимо

. (6)

Розіб'ємо текст на речення, кожне з яких представимо у вигляді , де - лінгвістичні змінні, які є фіксованими по об'єму наборами [2]. Наприклад {пам'ять, пароль, рівень}.

Обчислюємо сумарну кількість співпадаючих значень , тобто

. (7)

Наприклад, n=1, то звіряється із , із і т.д. Якщо значення співпадають то додається 1. Зауважимо, що номери лінгвістичним змінним присвоюються не за порядком слідування їх у реченні а за роллю яку вони виконують у реченні. Цей порядок може встановлюватись довільно, наприклад, підмет - 1, присудок -2 і т.д. Тоді визначаємо степінь типовості лінгвістичної змінної

, де . (8)

Якщо прийняти , як випадкову величину, тоді за формулами (1), (2), (3), (4) визначаємо третій коефіцієнт теми тексту , та третій коефіцієнт відхилення теми тексту

Міру належності для теми позначимо через Mn і опишемо, як міру що визначає належність тексту до певної теми. Якщо Mn=0 - це означає що належність тексту, що розглядається до даної теми є неможливою подією. Якщо ж Mn=1, то належність тексту, що розглядається до даної теми є подією вірогідною.

, (9)

де визначаються за відповідними коефіцієнтами.

На основі введених означень та коефіцієнтів запропонуємо алгоритм визначення теми тексту.

Алгоритм.

1) Підраховуємо кількість зустрічань кожного символу тексту, та визначаємо перший коефіцієнт теми для даного тексту, позначаємо kt1,;

2) а) Якщо шукаємо належність тексту до наперед заданої теми то знаходимо різницю коефіцієнтів тексту та теми , а далі порівнюємо різницю rt1 із Kv1 даної теми;

b) Якщо ж тема наперед не задана то визначаємо модулі , де - перший коефіцієнт теми і.

3) а) Визначаємо

. (10)

b) При наперед незаданій темі резервуємо три теми із найменшим rt1 та переходимо до кроку 3 а), лише з тією різницею, що визначаємо ;

4) Підраховуємо кількість зустрічань кожної біграми тексту, та визначаємо другий коефіцієнт теми для даного тексту, позначаємо kt2,;

5) а) Аналогічно при відомій темі визначаємо , та порівнюємо rt2 та Kv2;

b) При невідомій аналогічно , де - другий коефіцієнт для і - тої теми;

6) Аналогічно визначаємо міру належності:

а)

; (11)

b) Резервуючи теми з найменшим , за правилом 6 а) визначаємо ;

7) Визначаємо , за формулами (7) та (8) для кожної лінгвістичної змінної;

Аналогічно попереднім крокам знаходимо для тексту;

8) Визначаємо міру належності

(12)

9) У випадку наперед заданої теми визначаємо міру належності тексту до теми за (9), де відповідні параметри визначаються за (10), (11), (12). У випадку незаданої наперед теми визначаємо їх за найбільшими мірами.

Висновки та перспективи подальших досліджень

В даній статі були отримані такі результати:

проаналізовано методи обробки текстів з точки зору контролю витоку інформації;

розглянуто алгоритм фільтрації вихідних повідомлень з метою запобігання витоку конфіденційних даних;

вказано теоретичний підхід на основі теорії біциклічних груп до визначення ключових слів повідомлення;

запропоновано метод для визначення тематики повідомлення. Він базується на частотних характеристиках;

розроблено алгоритм визначення міри належності теми тексту до наперед заданої, чи найбільш ймовірної теми.

Слід зауважити, що потребує удосконалення визначення коефіцієнта теми, що базується на властивості слів. Для цього зручно скористатись теорією формальних граматик. Також цікавим для подальшого розгляду є питання впливу зменшення витоку конфіденційної інформації на рівень уразливості ІС [9]. В цих напрямках і буде розвиватись подальше дослідження.

Література

Вербіцкий О.В. Вступ до криптології.- Львів.: ВНТЛ,1998.-247 с.

Гопанчук С.О., Широчин В.П. До питання фільтрації трафіка в міжмережевих екранах / Вісник НТУУ “КПІ”. Інформатика, управління та обчислювальна техніка, К.,2004, №41, с. 199-208

Ермаков А.Е., Плешко В.В., Митюхин В.А. Выделение объектов в тексте на основе формальных описаний // Информационные технологии.-2003.-№12.- С.2-6

Клиффорд А., Престон Т. Алгебраическая теория полугрупп. -М.:Мир, 1972. - 283 с.

Лисов О.И., Серегин А.Ю. Диагностическая советующая система на основе семантического анализатора // Информационные технологии.-2003.-№10.- С.60-63

Сомин Н.В., Соловьева Н.С., Соловьев С.В. Система рубрикации текстовых сообщений // Труды международного семинара Диалог'98 по компьютерной лингвистике и ее приложения / Под ред. А.С. Наринъяни. Т.2. Казань, 1998. С.574-581

Харламов А.А. Автоматический структурный анализ текстов // Открытые системы. - 2002. - №10. - С.10-16

Харламов А.А., Самаев Е.С., Джураев Э.Ш., Сухоносенко К.В. Фильтрация текстовой информации с помощью нейросетевых алгоритмов // Информационные технологии.-2003.-№3.- С.9-13

Христиановский В.В., Полшков Ю.Н., Щербина В.П. Экономический риск и методы его измерение. - Донецк. Донгу, 1999. - 250 с.

Щеглов Ю.А. Защита компьютерной информации от несанкционированного доступа. - СПб: Наука и Техника, 2004. - 384 с.

Размещено на Allbest.ru


Подобные документы

  • Визначення кількості інформації в повідомленні, ентропії повідомлень в каналі зв’язку, ентропії двох джерел повідомлень. Продуктивність джерела повідомлень, швидкість передачі інформації та пропускна здатність каналу зв’язку. Кодування, стиснення даних.

    контрольная работа [590,8 K], добавлен 07.06.2012

  • Забезпечення захисту інформації. Аналіз системи інформаційної безпеки ТОВ "Ясенсвіт", розробка моделі системи. Запобігання витоку, розкраданню, спотворенню, підробці інформації. Дослідження та оцінка ефективності системи інформаційної безпеки організації.

    курсовая работа [1,6 M], добавлен 27.04.2014

  • Коректність роботи системи при заданих початкових умовах. Мета - оцінка втрат повідомлень, відносної пропускної спроможності системи та визначення коефіцієнта завантаженості системи. Текст програми та результати її роботи.

    курсовая работа [34,3 K], добавлен 16.06.2007

  • Особливості створення та програмний код тестової системи для визначення професійної придатності програмістів на основі тестів IQ, розрахунок кошторису витрат на його розробку. Характеристика та порівняння основних засобів розробки інформаційної системи.

    дипломная работа [2,3 M], добавлен 13.10.2010

  • Опис вхідних та вихідних повідомлень, процедури перетворення даних. Розробка інфологічної моделі, інформаційні об’єкти та їх характеристика. Автоматизація даталогічного проектування. Опис структур таблиць бази даних на фізичному рівні, реалізація запитів.

    курсовая работа [2,5 M], добавлен 02.01.2014

  • Розробка бази даних для обробки інформації про діяльність туристичного агентства. Визначення предметної області, вхідних та вихідних даних, їх організації. Генерація схеми бази даних. Реалізація функціональних вимог. Інструкція з експлуатації системи.

    курсовая работа [5,3 M], добавлен 12.05.2015

  • Визначення найкращого режиму роботи системи обробки повідомлень. Представлення моделі у вигляді системи масового обслуговування. Визначення структури моделі. Обмеження на зміну величин. Програмна реалізація імітаційної моделі. Оцінка адекватності.

    курсовая работа [153,9 K], добавлен 29.01.2013

  • Можливі канали витоку інформації. Джерела виникнення електромагнітних полів. Основні параметри можливого витоку інформації каналами ПЕМВН. Розроблення системи захисту інформації. Захист інформації блокуванням загроз без використання засобів ТЗІ.

    дипломная работа [80,0 K], добавлен 13.03.2012

  • Огляд можливостей щодо витоку інформації та заходів по його запобіганню. Захист конфіденційної інформації при проведенні переговорів. Планування захисних заходів щодо видів дестабілізуючого впливу. Виявлення несанкціонованого доступу до ресурсів.

    дипломная работа [3,8 M], добавлен 17.11.2014

  • База даних - фундаментальний компонент інформаційної системи. Визначення технічного завдання для проекту. Підготовка певної додаткової інформації. Розробка та супровід стандартів. Стандарти - основа для навчання персоналу та організації контролю якості.

    презентация [535,8 K], добавлен 21.11.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.