Розробка методів аналізу та діагностики символьних інформаційних потоків
Розробка математичної моделі опису символьного повідомлення. Дослідження однорідності потоків предметної галузі. Характеристика основних методів та засобів ідентифікації прихованої в потоці інформації в залежності від задач подальшого перетворення.
Рубрика | Экономико-математическое моделирование |
Вид | автореферат |
Язык | украинский |
Дата добавления | 23.02.2014 |
Размер файла | 46,5 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Національна Академія наук України
Інститут проблем моделювання в енергетиці
УДК 681.325
Розробка методів аналізу та діагностики символьних інформаційних потоків
Спеціальність 01.05.02: Математичне моделювання та обчислювальні методи
Автореферат
дисертації на здобуття наукового ступеня кандидата технічних наук
Манухін Олександр Васильович
Київ 2000
Дисертацією є рукопис.
Робота виконана у Військовому інституті Національного технічного університету України “Київський Політехнічний інститут”.
Захист відбудеться “_2_” _листопада 2000 р. на засіданні спеціалізованої Вченої Ради Д 26.185.01 Інституту проблем моделювання в енергетиці НАН України за адресою: 03164, Київ-164, вул. Ген. Наумова, 15, о 14 00 год.
З дисертацією можна ознайомитись в бібліотеці Інституту проблем моделювання в енергетиці НАН України.
Автореферат розісланий “__2__” _____жовтня___ 2000 р.
Вчений секретар спеціалізованої Вченої Ради Д 26.185.01 доктор технічних наук Романцов В.П.
ідентифікація математичний повідомлення
АНОТАЦІЇ
Манухін О.В. Розробка методів аналізу та діагностики символьних інформаційних потоків. - Рукопис.
Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 01.05.02 - математичне моделювання та обчислювальні методи - Інститут проблем моделювання в енергетиці НАН України, Київ, 2000.
Дисертацію присвячено питанням проектування пошукових та кластерних систем. У дисертації розроблено новий напрямок у математичному моделюванні символьного потоку будь-якої складності, що базується на концепції використання ієрархічно упорядкованих граматичних правил алфавіту потоку. Встановлено, що об'єднання потоків повідомлень у категорії “клас” на етапі формування спектра (образа) потоку дає можливість здійснити гнучкий процес машинного дослідження складних лінгвістичних закономірностей мови потоку. Запропоновано конструктивні системні та числові методи аналізу подібних явищ у відкритих і закритих інформаційних потоках даних. Основні результати роботи знайшли застосування при проектуванні нових типів систем кластеризації.
Ключові слова: математичне моделювання, розпізнавання образів, потік, спектр, кластеризація, синтез.
Manukhin A.W. Development of methods of the analysis and diagnostics of character information streams. - Manuscript.
Thesis on competition of a scientific degree of the candidate of engineering science by specialty 01.05.02 - mathematical modeling and computing methods - Institute of simulation of problems in power engineering NA of Ukraine, Kiev, 2000.
Thesis is dedicated to problems of projection of retrieval and cluster systems. In a thesis the new direction in mathematical modeling of a character stream of any complexity designed which is founded on the concept of usage of hierarchically ranked grammar rules of the alphabet of a stream. Is established, that the join of communications traffics in a category "class" at a stage of shaping of a spectrum (image) of a stream enables to execute flexible process of a machine research of composite linguistic regularities of the language of a stream. The design system and numerical methods of the analysis of similar phenomena in the opened and enclosed information streams of the data are offered. The main outcomes of activity have found a use at projection of new types of systems of clusterization.
Keywords: mathematical modeling, image recognition, stream, spectrum, clusterization, synthesis.
Манухин А.В. Разработка методов анализа и диагностики символьных информационных потоков. - Рукопись.
Диссертация на соискание научной степени кандидата технических наук по специальности 01.05.02 - математическое моделирование и вычислительные методы - Институт проблем моделирования в энергетике НАН Украины, Киев, 2000.
Диссертация посвящена вопросам проектирования поисковых и кластерных систем. В диссертации разработано новое направление в математическом моделировании символьного потока любой сложности как объекта исследования, который базируется на концепции использования иерархически упорядоченных грамматических правил алфавита потока. Кванту символьного потока (сообщению) ставится в соответствие образ (портрет), построение которого объекта основано на семантических особенностях языка источника, частотной повторяемости элементарных составляющих потока и закономерностях человеческого восприятия объекта исследования. В рамках проведенного исследования изучены основные свойства образа.
Установлено, что объединение потоков сообщений в категории “класс” на этапе формирования спектра (образа) потока дает возможность осуществить гибкий процесс машинного исследования сложных лингвистических закономерностей языка потока. Алгоритм последовательной кластеризации основывается на сравнении спектра исследуемого потока с имеющими табличными прототипами. Методика сравнения спектров использует преломленный для специфики спектрального анализа аппарат математической статистики. Спектр, представляющий собой упорядоченное множество гармоник, описывается формульной зависимостью их огибающей. Предикат “поток данного класса” принимает истинное значение при превышении порогового значения формульной зависимости шаблона данного класса. Разделены методики спектрального изучения открытых и закрытых потоков данных для общего (перевод) и частного (преобразование) случаев. Рассмотрен вариант синтеза потока по его образу.
Основные результаты работы нашли применение при проектировании новых типов систем кластеризации. В результате синтезирована конвейерная структура автоматизированной обработки символьного потока источника любой сложности в виде набора информационных узлов. Обработка символьного потока проводится в два этапа (заполнения базы данных шаблонов и ее использование) по трем категориям исследования (анализ идентифицирующих свойств источника потока, анализ его трансформирующих свойств и возможности восстановления скрытых параметров потока).
В процессе исследования получены следующие результаты: модели, методики и алгоритмы анализа и диагностики образов потоков, которые обеспечивают возможность выявлять и локализовать неоднородности потока; методика анализа избранной пары потоков (динамики трансформации спектральных характеристик преобразующих алгоритмов); рекомендации по определению параметров нестандартных вычислительных систем специализированного назначения. Для открытых потоков данных получены идентифицирующие шаблоны потоков по следующим параметрам: форма потока (звуковой, литерный, видео), вид потока (для выбранной формы литерного потока - языковой модели - английской, русской, украинской), класс потока (для выбранной русской языковой модели - заданной предметной области), подкласс потока (стиль авторского изложения на примере А. Чехова). Для закрытых потоков данных получены идентифицирующие шаблоны некоторых распространенных криптографических и стеганографических инструментов.
Ключевые слова: математическое моделирование, распознавание образов, поток, спектр, кластеризация, синтез.
1. ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ
Актуальність теми. Існуючі моделі кластеризації інформації не ідентифікують символьний потік у достатній мірі. Це відбувається із-за того, що рішення кластеризації приймається на основі частини цілого об'єкта. Приміром, формати даних сортують по файлових розширеннях, маркерам приналежності й умовним атрибутам. Природно, що подібний підхід сприяє поширенню різноманітного роду помилок. Основним засобом боротьби з подібними явищами виступає ідея сигнатурного (або похідного від нього) аналізу закінченого відрізка потоку (повідомлення). У зв'язку з цим виникають наступні задачі:
формування описів (образів) потоків відповідно до необхідної точності (повноти);
дослідження однорідності потоків предметної галузі;
розробка методів ідентифікації потоку на основі аналізу складових його образів та методів ідентифікації потоків предметної галузі;
дослідження і формування критеріїв кластеризації потоків;
розробка методів та засобів ідентифікації прихованої в потоці інформації в залежності від задач подальшого перетворення потоку;
аналіз потокових перетворень, що призводять до втрати або спотворення інформації про предметну галузь.
Розробка нових, теоретично обгрунтованих методів і засобів аналізу та діагностики символьного потоку є винятково важливою задачею. Основою для таких методів може служити відповідна математична модель потоку. Маючи механізм її формування, можна розробити алгоритми автоматизованої обробки потоків та теоретично довести їх властивості.
Зв'язок роботи з науковими програмами, планами, темами. Запропоновані в дисертаційній роботі методи репрезентації та аналізу символьного потоку на основі теорії розпізнавання образів розроблялися в рамках науково-дослідних робіт, що проводилися з 1993 року в Київському вищому інженерному радіотехнічному училищі, Київському військовому інституті управління і зв'язку, Військовому інституті Національного технічного університету України “Київський політехнічний інститут”: НДР “Рубіж”, ”Обрій”, а також в наукових дослідженнях кафедри автоматизованих систем перетворення інформації і криптології КВІУЗ.
Мета і задачі дослідження. Метою роботи є розробка методів та засобів формування моделей опису потоків, а також рішення окремих задач їх аналізу та діагностики. Основні задачі дослідження:
розробка математичної моделі опису символьного повідомлення;
розробка методики аналізу та діагностики опису потоків з точки зору обраної цільової ознаки, обгрунтування її коректності;
розробка методів аналізу потокових перетворень для різноманітних рівнів його опису.
Об'єктом дослідження є символьний потік або окрема група символьних одиниць.
Предмет дослідження - аналіз поведінки об'єкта в залежності від цільової ознаки.
Методи дослідження - методи теорії розпізнання образів (уявлення об'єктів) та математичної статистики (введення простору образів).
Наукова новизна отриманих результатів. Сукупність проведених у роботі досліджень являє собою рішення нових задач по створенню образу символьного потоку (вид спектру), його аналізу та діагностики, перетворення його складових частин.
Досліджено основні властивості спектрального образу. Введено поняття шаблону стилю потоку та близькості його до шаблону. Знайдено уніфіковане уявлення повідомлення та розроблений апарат конвертування потоків різноманітних форм і видів на основі правил упаковки. Вироблено методику спектрального аналізу перекладу (загальний випадок) та перетворюючих властивостей алгоритмів (окремий випадок). Побудовано формульний вираз підпорядкування повідомлення семантиці обраної мови.
Забезпечення рішення таких проблем досягається завдяки вирішенню наступних задач:
досліджені функціональні можливості розроблених засобів опису потоків;
розроблені методи використання графових структур при упорядкуванні опису потоків різноманітних предметних галузей;
запропоновано критерії ідентифікації та аутентифікації потоків;
розроблені алгоритми виявлення та локалізації неоднорідностей у потоках по їхніх образах.
При формуванні образу потоку наукова новизна виявляється в наступному:
1. Частотний аналіз елементарних складових (алфавіту) символьного потоку, призначений в основу формування, піднято до рівня частотного аналізу обраних структурних одиниць потоку.
2. Зроблено ієрархічне упорядкування структурних одиниць потоку в понятті контексту.
3. Формування гістограмного вигляду образу потоку (спектру) використовує контекстно-залежні зв'язки словотворення структурних одиниць потоку.
Результати дисертаційної роботи з напрямків формування спектра (опису) потоку, одержання шаблону (еталона), методика проведення спектрального аналізу символьного потоку подаються на захист.
Практичне значення отриманих результатів. Практичне значення дисертаційної роботи виявляється в тому, що отримані результати використані при розробці комплексних систем аналізу та діагностики потоку, що циркулює у засобах телекомунікацій. Це дозволяє підвищити якість аналізу, автоматизувати і спростити процес обробки потоку та його кластеризації. Практичну цінність мають такі результати:
моделі, методики та алгоритми аналізу та діагностики образів потоків, що забезпечують можливість виявляти і локалізувати неоднорідності потоку;
методика аналізу обраної пари потоків (динаміки трансформації спектральних характеристик перетворюючих алгоритмів);
рекомендації по визначенню параметрів нестандартних обчислювальних систем спеціалізованого призначення.
Особистий внесок здобувача. У роботах [3-5, 7] здобувачем запропонована модель побудови системи цілісності даних у масштабі реального часу. В роботі [1] описана система логічних правил побудови образу потоку. Робота [2] розглядає рекомендації та критерії по визначенню параметрів обчислювальних пристроїв спеціалізованого призначення. У виконаних у співавторстві роботах [3-5, 7] авторові належить методика уявлення повідомлення спектральним образом та його обробки. Результати дисертаційних досліджень здобувача були використані при створенні автоматизованих систем обробки символьних повідомлень з інформаційних потоків великої потужності та в пошукових системах, а також використовуються в учбовому процесі Військового інституту НТУУ “КПІ”.
Апробація результатів дисертації. Основні наукові результати і положення дисертаційної роботи розглядалися й обговорювались на III міжнародній науково-технічній конференції “Методи управління системною ефективністю функціонування електрифікованих і пілотажно-навігаційних комплексів”, “Авіоніка-95” (Київський МУЦА, 1995), I українській науково-практичній конференції “Надійність. Сучасний стан, проблеми, перспективи” (Київський інститут автоматики, 1995), Міжнародній науково-технічній конференції “Підвищення ефективності систем захисту інформації”, “Захист-97” (КМУЦА, 1997), III науково-технічній конференції “Перспективні напрямки розвитку радіоелектронних засобів у системах зв'язку й АСУ” (КВІУЗ, 1997), науково-технічних конференціях КВІУЗ 1995-1999 р., семінарах Київського міжнародного університету цивільної авіації (КМУЦА) і Київського військового інституту управління і зв'язку (КВІУЗ) у 1998-1999 р.
Публікації. Результати дисертаційної роботи відображені в публікаціях: 6-ти статтях [1-5, 7] та 5-ти тезах [6, 8-11] конференцій у наукових журналах, збірниках наукових праць і матеріалів конференцій КМУЦА, КВІУЗ та ін.
Структура дисертації. Дисертація складається із вступу, чотирьох розділів, списку літератури та додатків. Обсяг основного тексту - 145 сторінок, список літератури включає 121 найменування. Обсяг ілюстрацій - 26, таблиць - 9, додатків - 12 сторінок.
2. ЗМІСТ РОБОТИ
У вступі обгрунтовується актуальність теми та необхідність проведення досліджень, сформульована мета, основні завдання, наукова новизна і практична цінність дисертаційної роботи, подається її загальна характеристика.
У першому розділі визначена предметна галузь дослідження та проаналізовані відомі методи представлення та обробки мультимедійного потоку. У зв'язку з цим розглянута система трансформації потоку споживачами (суб'єктами) у поняттях життєвого циклу інформації (об'єкта), а також відомі алгоритмічні засоби, які використані в типових системах передачі та обробки потоку.
Інформація розглядається як сукупність зведень, об'єднаних деякою логічною завершеністю. При розгляді процесу інформаційної взаємодії “суб'єкт - об'єкт”, відзначається його відмінна риса - доменна структура існування замкнутих циклів інформаційного простору, його природна структурованість.
Структурно кожен інформаційний домен розглядається множиною ієрархічно упорядкованих підсистем суб'єктів опрацювання. Стабільність домену породжує стабільність інформаційного потоку, що циркулює у середині нього. Це у свою чергу призводить до створення проблеми захисту інформації в тлумаченні зберігання якості та цілісності (однорідності) аналізованого домену. Визначені джерела однорідного обміну даними на рівні систем обробки: автоматичного запиту і відповіді, спеціального зв'язку, розподілені системи, комп'ютерні мережі різноманітного рангу, телекомунікаційні та пейджингові системи, системи телефонного і стільникового зв'язку, СУБД. Такі джерела мають відмінні риси:
1. Обмін даними між абонентами зв'язку здійснюється за допомогою сформованих пакетів (кадрів) у межах сеансу зв'язку.
2. Будь-який пакет має елементарні складові у порядку, що визначається його внутрішньою структурою.
3. Сеанс зв'язку між абонентами припускає деякий протокол обміну пакетами, композиція яких на виході визначає повідомлення.
Формалізація основних принципів механізму аналізу інформаційного потоку грунтується на визначенні джерела символьного потоку (суб'єкта) та його закономірностях.
Визначення 1. Джерелом вихідного повідомлення T називається суб'єкт інформаційного домену, що генерує кінцеву або безмежну послідовність змінних an з алфавіту A,N :
де - множина елементарних одиниць алфавіту (для символьного потоку - букв). При N символах потоку ця послідовність називається N-грамою.
Визначення 2. Закономірностями суб'єкта називаються характеристики які ним генеруються в інформаційній послідовності T, а саме: алфавітний склад A, множина правил структурування повідомлень S і множина правил композиції структурних одиниць повідомлень C:
Упорядкована трійка (2) надалі називається мовою (в окремому випадку - лексиконом) суб'єкта . В ході роботи розповсюджено поняття “формат” на поняття “мова”, а також “переклад” - на “перетворення”. Наприклад, файли BMP-формату розглянуті як потік одного джерела з мовою, яка описує закономірності трансляції малюнків BMP-графіки.
При розгляді інформаційного потоку розрізняють відкритий і закритий (модифікований) потоки. Відкритий потік виражений підпорядкуванням семантиці мови суб'єкта в поняттях частотної повторюваності елементарних одиниць мови. Закриття повідомлень здійснюється криптографічними чи стеганографічними перетвореннями.
Розглянуто особливості джерел даних, проведення аналізу потоку відомими методами в масштабі реального часу, а також методів закриття потоків даних. Наприклад, при дослідженні поведінки символьного потоку одного джерела будується система формул , що враховує індивідуальність його граматики, словотворення і структури повідомлень (2). На кінцевому етапі будь-яке повідомлення розглядається на предмет приналежності до даного джерела по отриманих формулах. Відзначено, що локалізація будь-якого джерела передбачає його апріорний аналіз.
Відповідно до висунутих критеріїв (часовий, вартісний) потокової обробці в роботі з'ясовано, що існуючі предметні галузі аналізу не цілком задовольняють поставленим вимогам. В якості базової для побудови моделі потоку вибрана теорія розпізнання образів (ТРО). У рамках ТРО проводиться аналіз існуючих моделей описів об'єктів, їх взаємозв'язків і виділяються найбільш перспективні аспекти. Уявлення символьного потоку розглянуто відповідно до наступних моделей: розділяючої, потенційної, моделі обчислення оцінок, статистичної, структурної та ігрової. У рамках кожної моделі розглянуті задачі специфічного подання об'єкта своїм описом та їхніми взаємозв'язками. Виділені найбільш перспективні сторони моделей розпізнавання.
Визначено задачу дослідження в наступному трактуванні. При наявному суб'єкті і множині об'єктів символьного (літерного) потоку Tq, що ним генеруються, необхідно в такий спосіб побудувати прототипи I(Tq), щоб надалі:
ідентифікувати джерело (класична постановка задачі ТРО);
визначити його закономірності (можливості суб'єктів, що трансформують потік);
побудувати ієрархічну систему взаємозв'язків суб'єктів із погляду критерію, названого цільовою ознакою.
Задача в ході комплексного дослідження розбивається на два етапи: етап R1 - побудова моделі образу повідомлення, та етап R2 - введення метричного простору образів для подальшого аналізу множини образів на базі порівняння з еталоном (шаблоном).
В другому розділі синтезується узагальнена методика представлення образу повідомлення у спектральному вигляді (етап R1) з точки зору особливостей предметної галузі.
Оскільки проведення аналізу символьного потоку обраної мови припускає наявність моделі повідомлення, дана модель повинна відбивати основні семантичні характеристики мови потоку в поняттях стилю повідомлення, можливості повторюваності окремих мовних структур, до яких відноситься словниковий склад із його особливостями морфології, орфографії, синтаксису і пунктуації. Продовжуючи ідею перебування загального знаменника основних форм інформаційного сприйняття, дана модель базується на образному уявленні символьного потоку. Основним принципом, призначеним в основу формування моделі потоку, є принцип “навчання з учителем”.
Запропоновано підхід щодо класифікації потоків відповідно до критеріїв і параметрів, перелік яких у контексті єдиного підходу до обробки має такий вигляд:
I. Стосовно засобів сприйняття;
II. Стосовно форми відображення потоку, незалежно від засобів сприйняття;
III. Стосовно засобів передачі образів.
Приведена систематизація потоків сформована відповідно до відомих підходів формального опису потоку. Критерії {Ki} та параметри {Pj} подані ієрархічною графовою структурою в класифікації “Тип. Форма. Вид. Клас. Підклас” (“P1. P2. P3. P4. P5”). Критерії використовуються для вибору рівня ієрархії, параметри - для поділу образів у межах одного рівня.
Рішення задачі розділу (R1) знайдено в структурі досліджуваного повідомлення та основних семантичних особливостей мови, що мають вигляд ієрархічно упорядкованих множин граматичних правил:
де A - кінцевий алфавіт (1) мови , A = (a1,. .,aN); an - елементарні текстові одиниці (символи, літери) ; - сукупність правил мови : правил орфографії O, фонетики F, морфології M, синтаксису S і пунктуації P даної мови.
Узагальнена методика побудови образного уявлення символьного потоку має такий вигляд:
1. Алфавітний склад A розподіляється на літерні групи відповідно до фонетичного наповнення (алфавітні неоднорідності);
2. До груп літер застосовується система правил мовного словотворення S;
3. Словниковий склад досліджуваного потоку кластеризується відповідно до композиційних правил побудови повідомлення C.
Формалізація правил фонетики має вигляд:
де {an}- множина одиничних векторів алфавіту джерела потоку в полярній системі координат.
Формалізація правил морфології:
де E - фраза з I ai-елементів; ji - поточна позиція ударної aj у відрізку E.
Для визначення елементарних операцій P введене поняття текстової одиниці b-рівня. Текстовою одиницею b-рівня є фраза T (складається з підфраз ab), яка розділена знаками пунктуації відповідного рівня [1, .. ,b-1]. Відповідно до цього текстова одиниця першого рівня - символ (літера), другого - слово, третього - відрізок речення, четвертого - речення, п'ятого - абзац мають власні коефіцієнти (kb), сукупний сумарний (k) коефіцієнт контексту елементарної текстової одиниці складає:
Формалізація правил P має вигляд:
Доводиться таке твердження: структурна одиниця повідомлення другого рівня (слово) має унікальний векторний напрямок, незалежно від контексту.
При наявному математичному апараті граматичних правил (3) - (8) обраної мови суб'єкта побудова опису об'єкта дослідження набула форми спектра повідомлення (рис.1).
Визначення 3. Спектром повідомлення T (його образом) - I(T) - називається одномірний масив (g1 , .. ,gH), I(T)=(g1 , .. , gH)={gh}, h?H, який формується в результаті перетворень:
де th2 - множина слів J індексу (відтінку) h.
Таким чином, елементарні структурні складові потоку (алфавіт) апріорно задаються одиничними векторами в полярній системі координат і згортаються згідно правил векторного додавання в межах установлених структурних одиниць потоку з наступним сортуванням відповідно до необхідної градусної наближеності (формування гармонік). Згідно рис.1: по осі абсцис - градусна міра (хвилини полярної системи координат), по осі ординат - амплітуда гармоніки (з розмахом домінанти). Досліджено основні властивості спектра (9) повідомлення.
Для випадку передачі повідомлення мови 1 мовою 2 розглянута можливість оцінки закономірностей одного мовного еквіваленту іншим з позиції векторної алгебри:
Запропоновано практичне рішення уніфікації будь-якої форми потоку та підхід до вирішення задачі одержання символьного потоку при наявності його образу.
У третьому розділі введено Євклідів метричний простір у вигляді системи взаємовідносин між об'єктами у вигляді близькості до шаблона (еталону) обраної стилістики (R2).
Навчальна інформація I0(K1,..,KL) в задачах кластеризації будується за принципом “навчання з учителем” і визначається введенням шаблона l-стилістичної спрямованості Оl, Оl=I0(K1). Припустимо, задана сукупність припустимих повідомлень Tl1,..,TlN одного l-класу стилістичної спрямованості та їхні спектри {I(Tln)}, n ? N.
Визначення 4. Шаблоном l-стилістичної спрямованості називається спектр Оl,, гармоніки gh якого є результатом середньостатистичного накладення гармонік ghn текстів:
Таким чином, інформація в рамках спектрального аналізу набуває форми шаблона стилістичної спрямованості Оl..
Виділено процеси грубої та точної спектральної обробки образу потоку.
Розгляд математичної моделі грубої обробки спектра відбувається по коефіцієнтах, що описують структуру спектру як сукупність сегментів обраних тонів. У якості таких коефіцієнтів обрані: потужність сегмента j-тону (Dj), коефіцієнт структури сегмента (kj), можливість появи гармоніки відтінку (Pij), ефективна ширина спектру повідомлення (Шeff ):
де Н - кількість гармонік образу, dj - домінанта (максимальна гармоніка) j-сегмента із межами [Hj-1 ,. .,Hj].
Математична модель точної обробки образу подає множину гармонік образу вибіркою та використовує інструментарій математичної статистики і теорії ймовірностей. Перенесення процесу складного лінгвістичного аналізу в галузь дослідження найпростіших кривих засновано на твердженні індивідуальності словарного індексу та двох очевидних слідствах.
Слідство 1. Сумарний образ I(Tq) об'єктивно відбиває закономірності досліджуваного повідомлення (потоку) Tq у поняттях постійності і рухливості його словникового складу {t2q}. Рухливість лексикона залежить від рівноймовірності частоти появи букви і, як наслідок, слова. Постійність словникового складу відбивається на постійності загальних закономірностей формування образу I(Tq).
Слідство 2. Закономірності досліджуваного потоку Tq можливо охарактеризувати огинаючою гармонік f(Tq), застосовуючи предметну галузь теорії ймовірностей і математичної статистики. Зміни параметрів огинаючої f(Tq) об'єктивно залежать від лінгвістичних закономірностей трансформації повідомлення Tq..
Огинаюча образу є носієм ідентифікаційної та модифікаційної складових джерел потоку (рис.2).
Точна обробка символьного потоку полягає в аналізі огинаючої f(Tq) спектра потоку. Модель точної обробки кванта потоку припускає знання формульної залежності огинаючої потоку f(Tq) - моделі побудови потоку - та основних характеристик її девіації.
У застосуванні до образу трансформовані загальновідомі формульні залежності регресії, кореляції, інтерполяції (сплайнової інтерполяції), апроксимації та згладжування. Введено систему близькості кривої до шаблона, B(T`/Tр, T/T), на основі апарату перевірки гіпотез і порівняння з граничною константою. Аналіз об'єктових взаємовідносин (перекладу) припускає урахування трансформації спектрів повідомлення, стилю та мови в цілому на основі параметра поправки T`/T. Вона розглядається далі в контексті властивостей джерела літерного потоку Т (мовна, стилістична й індивідуальна поправки).
Алгоритм спектрального аналізу взаємовідносин об'єктів заснований на введенні поняття поправки потоків T', T.
Визначення 5. Поправкою T'/T називається спектральна різниця вторинного (T') і первинного (T) текстів:
Алгоритм спектрального аналізу R2 реалізує концепцію “навчання з учителем”, параметром, якого навчають, у даному випадку виступає поправка, T`/T.
Методика (див. рис.3) аналізу R2 і якості перекладу (у загальному випадку) базується на закономірностях окремо взятого мовного еквіваленту, усталеності властивостей локалізованого джерела, що модифікують, потоку та наближеного відновлення спектра вихідного тексту I(T) при наявності спектрів вторинного повідомлення I(T') і шаблона T`/T джерела. Шаблони T`/Tp трансформації алгоритму p-рівнів ітерації вміщують у собі особливості формування пари “первинний - вторинний текст”, отже, індивідуальні особливості алгоритму джерела, що трансформує. Алгоритм відновлення вихідного повідомлення або згаданого перекладеного прототипу являє собою Ньютонівську різницю:
Рис. 3 Методика аналізу джерела символьного потоку
Пояснимо окремі етапи методики, яка зображена на рис.3. Відповідно до умови аналізу, маємо алгоритм А, T'=A(T).
Крок 1. Базові дані аналізу. Маємо N - множину первинних та вторинних текстів: Ti, T'i одного вигляду і (або) форми. Крім цього, маємо досліджуваний потік T`N+1 .
Крок 2. Ілюстрація дії спектрального формувача:
Ti I(Ti), T'i I(T'i), (i=1, 2,. .,N). T`N+1 I(T`N+1).
Крок 3. Одержання спектральної різниці (поправки) N - множини повідомлень першого (і т.д.) кроку ітераційного наближення (15), T'/T.
Крок 4. Процес переходу від множини до шаблона (10), T`/Tp.
Крок 5. Критерій виходу з циклу - формування трьох ітераційних шаблонів для алгоритму (p=3), що є об'єктом навчання. Вибір критерію рівного трьом розглянутий в контексті експоненціального зниження частки шаблона p-рівня ітерації.
Крок 6. Одержання спектра відкритого повідомлення на основі спектра закритого I(T`N+1) та ітераційних шаблонів T`/Tp.
Оцінка трансформуючих властивостей алгоритму джерела потоку проводиться на базі функціонала близькості шаблона трансформації р-рівнів ітерації T`/Tр і спектра окремої поправки T/T, B(T`/Tр,T/T). Оцінка якості відновлення спектра відкритого повідомлення (часткова задача) та спектра аналога іншої мови (загальна задача) проводиться на базі функціоналу близькості контрольного похідного від спектра I(T) і контрольного відновленого спектра I(T), B(I(T),I(T)).
Визначена загальна методика аналізу потоку містить у собі три категорії:
1. Аналіз ідентифікуючих властивостей досліджуваного джерела.
2. Аналіз трансформуючих властивостей джерела.
3. Аналіз можливості відновлення закритих параметрів.
Алгоритм послідовної кластерізації грунтується на порівнянні спектра досліджуваного потоку з табличними прототипами.
У четвертому розділі розглянуті задачі алгоритмічного забезпечення методів обробки символьних потоків та досліджені різноманітні види потокових форм з позиції введеної класифікації. Для математичної моделі спектрального уявлення та аналізу повідомлення обчислені показники точності, усталеності і вибірності в межах обраного інформаційного еквівалента. Запропонована структурна схема системи автоматичного аналізу та діагностики символьних інформаційних потоків. Наведено приклади спектрального аналізу деяких обраних програмних засобів криптографічного та стеганографічного перетворення, що використовують у якості носія інформації текстове середовище.
У висновках подані найбільш важливі наукові та практичні результати, які отримані в ході виконання дисертаційної роботи.
У додатку подані листінги програм та табличні результати спектрального аналізу повідомлень літерного потоку.
ВИСНОВКИ ПО РОБОТІ
У дисертаційній роботі вирішена актуальна наукова задача по розробці методів формування моделі повідомлення та її аналізу з метою побудови автоматизованої системи обробки та діагностики символьних потоків.
При виконанні роботи отримані такі результати.
1. Досліджені основні існуючі підходи та методи опису, обробки й аналізу символьних інформаційних потоків, що дозволило запропонувати найбільш ефективний підхід до організації системи їхнього обробки і діагностики.
2. Розроблено та досліджено типи опису моделей інформаційного потоку з використанням лінгвістичного підходу.
3. Розроблено методи використання графових структур при проведенні класифікації образів, що дозволило разом із граматичними правилами структурного уявлення об'єкта дослідження вирішити завдання аналізу однорідності потоків, а також сформувати описи суб'єктів дослідження з різноманітними рівнями деталізації.
4. Запропоновано критерії класифікації потоків та потокових перетворень, що дозволяє ідентифікувати алгоритми різноманітної складності.
5. Запропонована принципово нова система уявлення потоку у вигляді сукупності граматичних правил і лексикона суб'єкта, що породжує його, а також методика спектрального аналізу потокових перетворень з точки зору лінгвістичного перекладу.
6. Досліджені функціональні можливості розроблених засобів потокових перетворень, основні властивості сформованого образу об'єкта, а також закономірності трансформації образів, що підтверджує коректність та ефективність використання цих засобів при рішенні завдань діагностики.
7. Запропонована схема дослідження потоку конвеєрною структурою, сформульовані основні рекомендації до параметрів та методів організації автоматизованих систем обробки повідомлень.
ПУБЛІКАЦІЇ ЗА ТЕМОЮ ДИСЕРТАЦІЇ
1. Манухін О.В. Побудова спектральної текстової моделі. Основні питання // Збірник наукових праць. - К.:КВІУЗ.-1999.-№1.-С. 124-128.
2. Манухин А.В. Спектральный анализ сообщений. Критерий защищенности // Защита информации: Сборник научных трудов. - К.: КМУГА.-1999.-С.106-110.
3. Манухин А.В., Шелест М.Е. Идентификация лингвистических стеганограмм // Збірник наукових праць ІМПЕ НАНУ. - К.:ІМПЕ НАНУ.-1999.-№8.-С.129-134.
4. Осинский Л.М., Манухин А.В. Обработка текстовой информации. Портретный метод // Материалы Междунар. научно-технической конф. "Повышение эффективности систем защиты информации" (Защита-97). - К.:КМУГА.-1997.-С.51-53.
5. Четвериков И.А., Манухин А.В. Принципы криптоанализа с использованием портретно - образного метода // Материалы Междунар. научно-технической конф. "Повышение эффективности систем защиты информации" (Защита-97). - К.:КМУГА.-1997.-C. 66-68.
6. Манухін О.В. Можливість смислової обробці інформації за допомогою теорії розпізнання зразків // Збірник наукових праць. - К.:КВІУЗ.-1997.-№1.-С.169-171.
7. Осинський Л.М., Манухін О.В. Частковий підхід до питання суцільності даних // Збірник наукових праць. - К.:КВІУЗ.-1997. -№1.-С.47-48.
8. Манухин А.В. Программно - математический контур системы сохранности данных. Представление защищаемого объекта // Материалы III Междунар. научно-технической конф. "Методы управления системной эффективностью функционирования электрифицированных и пилотажно-навигационных комплексов" (Авионика-95). - К.:КМУГА.-1995.-С.55.
9. Осинский Л.М., Манухин А.В. Алгоритм работы системы сохранности данных // Материалы III Междунар. научно-технической конф. "Методы управления системной эффективностью функционирования электрифицированных и пилотажно-навигационных комплексов" (Авионика-95). - К.:КМУГА.-1995.-С.56.
10. Манухин А.В. Защита от несанкционированного копирования ключевой дискеты // Тезисы докладов I Укр. научно-практической конф. "Надежность. Современное состояние. Проблемы, перспективы". - К.:Киевский институт автоматики.-1995.-С.23.
11. Манухин А.В. Анализ надежности алгоритма системы сохранности данных // Тезисы докладов I Укр. научно-практической конф. "Надежность. Современное состояние. Проблемы, перспективы". - К.:Киевский институт автоматики.-1995.-С.23.
Размещено на Allbest.ru
Подобные документы
Загальна характеристика предметної області. Аналіз методів управління проектами. Розробка детермінованої моделі сітьового графіка. Розробка програмного забезпечення для моделювання детермінованої моделі. Моделювання сітьового графіка.
курсовая работа [1,0 M], добавлен 18.06.2007Предмет, об'єкт, метод та основні завдання економетрики. Розробка і дослідження эконометричних методів (методів прикладної статистики) з урахуванням специфіки економічних даних. Поняття економетричної моделі і її вибір. Типи економетричних моделей.
контрольная работа [32,8 K], добавлен 18.06.2010Техніко-економічний аналіз підприємства ЗАТ БМФ "Азовстальстрой". Аналіз існуючих методів оптимізації трудових ресурсів. Розробка економіко-математичної моделі та програмного продукту. Методика автоматизуванння розрахунків за даною обраною моделлю.
дипломная работа [2,0 M], добавлен 18.10.2010Визначення числових характеристик випадкових величин. Дослідження залежності розподілу об'ємності та щільності мотальних бобін від діаметру намотування. Визначення виду регресійної однофакторної математичної моделі з використанням методу Чебишева.
курсовая работа [173,6 K], добавлен 13.11.2013Теоретичні основи методів аналізу фінансових даних. Формалізований опис емпіричних закономірностей фінансових часових рядів. Розробка алгоритмів оцінювання параметрів волатильності і комплексу стохастичних моделей прогнозування фінансових індексів.
курсовая работа [1,4 M], добавлен 05.05.2015Математичні моделі послідовностей часових інтервалів між подіями у потоках Пуассона та Ерланга. Приклади різних моделей потоків подій в транспортних системах. Експоненціальний закон розподілу інтервалів між сусідніми подіями в пуассонівському потоці.
контрольная работа [345,0 K], добавлен 08.12.2014Основні цілі створення моделі, її властивості та функції. Поняття інформації. Класифікація моделей по способі моделювання, призначенню, типі мови опису, залежності від просторових координат та здатності використовувати інформацію. Етапи створення моделі.
реферат [37,8 K], добавлен 16.01.2011Керування транспортною системою. Задачі планування незалежних транспортних потоків. Модель нижнього рівня - оптимізація транспортних потоків на транспортних мережах окремих видів транспорту. Побудова імітаційної моделі та аналіз результатів прогону.
дипломная работа [1,3 M], добавлен 24.07.2009Розробка структури інформаційної системи. Характеристика економічних задач і функцій. Розробка математичного і машинного алгоритмів рішення задач. Інформаційне і організаційне забезпечення. Технічне і програмне забезпечення. Контрольний приклад.
курсовая работа [293,2 K], добавлен 08.11.2008Використання методів економетричного моделювання, аналізу і прогнозування на всіх напрямках економічних досліджень: мікро- та макроекономіка, міжнародна економіка, фінансові ринки. Розробка і використання адекватних статистичних (економетричних) моделей.
контрольная работа [330,4 K], добавлен 25.01.2015