Комп’ютерні методи підвищення достовірності та повноти інтегрованих баз даних

Розробка методів і засобів, впровадження яких дозволить підвищувати достовірність і повноту баз даних в автоматизованих системах управління в процесі їх інтеграції. Удосконалення методу злиття записів та методу пошуку природної інформаційної надмірності.

Рубрика Программирование, компьютеры и кибернетика
Вид автореферат
Язык украинский
Дата добавления 26.07.2014
Размер файла 225,9 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Міністерство освіти і науки України

Національний аерокосмічний університет ім. М.Є. Жуковського “Харківський авіаційний інститут”

Автореферат

дисертації на здобуття наукового ступеня кандидата технічних наук

КОМП'ЮТЕРНІ МЕТОДИ ПІДВИЩЕННЯ ДОСТОВІРНОСТІ ТА ПОВНОТИ ІНТЕГРОВАНИХ БАЗ ДАНИХ

Завгородній Андрій Юрійович

УДК 004.65:681.3.01

05.13.06 - інформаційні технології

Харків 2008Дисертацією є рукопис.

Роботу виконано в Національному аерокосмічному університеті ім. М.Є. Жуковського “Харківський авіаційний інститут” Міністерства освіти і науки України.

Науковий керівник:

доктор технічних наук, професор, лауреат Державної премії України Кулік Анатолій Степанович, Національний аерокосмічний університет ім. М.Є. Жуковського “Харківський авіаційний інститут”, завідуючий кафедрою систем управління літальних апаратів.

Офіційні опоненти:

доктор технічних наук, професор

Безкоровайний Володимир Валентинович, Харківський національний університет радіоелектроніки, професор кафедри системотехніки;

кандидат технічних наук, доцент

Бабенко Тетяна Василівна, Національний гірничий університет, керівник інформаційно-комп'ютерного комплексу.

Захист відбудеться “11” квітня 2008 р. о 14 годині на засіданні спеціалізованої вченої ради Д64.062.01 у Національному аерокосмічному університеті ім. М.Є. Жуковського “Харківський авіаційний інститут” за адресою: 61070, Харків-70, вул. Чкалова, 17.

З дисертацією можна ознайомитися в науково-технічній бібліотеці Національного аерокосмічного університету ім. М.Є. Жуковського “Харківський авіаційний інститут” (61070, Харків-70, вул. Чкалова, 17).

Автореферат розісланий “7” березня 2008 р.

Вчений секретар

спеціалізованої вченої ради Латкін М.О.

ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ

Актуальність теми. Безперервне зростання вимог до функціональності автоматизованих систем управління (АСУ), використання програмних продуктів, які були створені неодночасно та різними колективами розробників, призвели до того, що сучасну АСУ можна охарактеризувати як сукупність неоднорідних і розподілених підсистем. Разом із тим подальший розвиток, зокрема впровадження систем підтримки прийняття рішень, потребує інтеграції таких підсистем у єдиний інформаційний простір. Необхідною умовою успішного вирішення цієї задачі є створення засобів, які б дозволили отримувати користувачам АСУ достовірні й повні дані. Але сучасні засоби інтеграції найчастіше нездатні виконати цю умову. Так, через наявність недостовірних і неповних даних в АСУ виконання 33% інтеграційних проектів прийшлось зупинити, більше того, організації щорічно втрачають від 8 до 60% свого прибутку. Аналіз практики використання АСУ дозволяє також визначити головну причину появи недостовірних та неповних даних - помилки оператора, зумовлені обмеженістю його психофізіологічних можливостей.

Значний внесок у пошук шляхів розв'язання зазначених проблем зробили такі вчені, як Л. Інгліш, Т. Редман, В. Кім, В.А. Литвинов, В.В. Крамаренко, Е. Рам, Х.Б. Ньюкомб, Д. Кнут, А. Монге, В.І. Левенштейн, А.С. Кулік, М. Хернандес, А. Маркус, Дж. Малетик, Дж. Хіпп, Р. Агравал та інші. Так, аналізуючи роботи різних авторів, можна зазначити, що відомі методи інтеграції баз даних дозволяють підвищувати достовірність і повноту лише даних, наведених у декількох джерелах інформації. Разом із тим такого обмеження позбавлені методи, в яких використано природну інформаційну надмірність даних, тобто знання про конкретні особливості даних та їх сполучення. Відзначаючи безумовну корисність упровадження згаданих методів, слід зауважити, що постійне зростання обсягів даних, що обробляються, зумовлює потребу в створенні більш ефективних за швидкодією методів.

У той же час навіть комбіноване використання згаданих методів не може гарантувати досягнення прийнятних показників достовірності й повноти. Тому єдиним шляхом для їх підвищення залишається введення тимчасової надмірності, тобто дублювання введення інформації. Але у цьому випадку суттєво збільшується трудомісткість операцій, що виконуються операторами. Тому актуальною науково-технічною задачею є розробка нових методів підвищення достовірності й повноти даних у процесі інтеграції неоднорідних баз даних, що дозволяють раціонально використовувати надмірність.

Зв'язок роботи з науковими програмами, планами, темами. Робота над дисертацією проводилася автором на кафедрі систем управління літальних апаратів Національного аерокосмічного університету ім. М. Є. Жуковського “Харківський авіаційний інститут” у 2000-2007 рр. відповідно до плану науково-дослідних робіт за держбюджетними темами Д301-30/00 “Теоретичні основи синтезу і математичне моделювання інтелектуальних систем управління аерокосмічними об'єктами за наявності збурень” (ДР № 0100U002191), Д301-6/03 «Розробка науково обґрунтованих методів та інструментальних засобів автоматизації прийняття рішень при управлінні адміністративно-господарчою діяльністю сучасного вищого навчального закладу» (ДР № 0103U004079) та за грантом Президента України “Розробка комп'ютерної системи інтелектуальної підтримки прийняття рішень при управлінні адміністративно-господарчою діяльністю сучасного вузу” (ДР № 0105U006872). Особисто автором, який був одним із співвиконавців робіт, у межах зазначених тем було проведено аналіз результатів, що було досягнуто при інтеграції даних, запропоновано новий метод злиття записів, створено модель даних про персонал університету для буфера сховища даних.

Мета і задачі дисертаційного дослідження. Дисертаційне дослідження проводилося з метою підвищення ефективності процесу інтеграції баз даних для корпоративного управління за допомогою використання надмірності, що дозволить підвищити достовірність і повноту даних. Для досягнення поставленої мети було визначено такі задачі:

1. Провести аналіз існуючих методів підвищення достовірності й повноти баз даних.

2. Розробити метод інтеграції баз даних, що враховує достовірність і повноту даних.

3. Удосконалити метод діагностування даних на основі природної інформаційної надмірності.

4. Створити модель схожості рядків та удосконалити метод злиття записів.

5. Удосконалити метод пошуку природної інформаційної надмірності.

6. Створити інформаційну технологію для підвищення достовірності й повноти інтегрованих баз даних.

7. Впровадити створену інформаційну технологію у реальні АСУ і оцінити ефективність її використання.

Об'єкт дослідження - процес інтеграції баз даних в автоматизованих системах управління.

Предмет дослідження - методи підвищення достовірності й повноти інтегрованих баз даних.

Методи дослідження. У дисертаційній роботі при дослідженні процесу інтеграції баз даних в АСУ використані методи системного аналізу, теорії ймовірності для оцінки показників достовірності й повноти, теорії сигнально-параметричного діагностування, методи теорії множин і числення предикатів для створення методу діагностування даних; методи теорії множин для ство-рення моделі схожості рядків; теорії скінченних автоматів для розробки процедури порівняння рядків; при розробці методу набуття знань про дані - методи аналізу даних, теорії алгоритмів і теорії перешкодостійкого кодування для створення компактного відображення відношення.

Наукова новизна одержаних результатів

1. Вперше розроблено метод інтеграції, оснований на злитті неоднорідних баз даних, в якому на відміну від існуючих ефективно використано структурну, інформаційну та тимчасову надмірності, що дозволяє підвищити достовірність і повноту інформації в корпоративних системах управління.

2. Удосконалено метод підвищення достовірності баз даних на основі інформаційної надмірності шляхом використання діагностичних моделей, що дозволяють послідовно знімати невизначеність щодо стану даних за допомогою непрямих ознак наявності помилок і дають можливість підвищити швидкодію методу.

3. Удосконалено метод пошуку природної інформаційної надмірності шляхом введення компактного відображення вихідного відношення та пошуку рішення у відображенні, що дозволило підвищити швидкодію методу.

4. Дістало подальшого розвитку метод злиття записів за допомогою побудованої доменно-незалежної моделі схожості рядків, що враховує специфіку введення даних людиною-оператором і передбачає можливість використання скорочень та абревіатур.

Практичне значення отриманих результатів. У результаті впровадження розроблених методів і засобів у складі підсистеми підвищення достовірності й повноти даних автоматизованої системи управління персоналом університету «ХАІ» (АСУ ПУ «ХАІ») достовірність і повнота даних системи підвищилися на 8 і 5% відповідно. Для забезпечення показників достовірності й повноти на рівні 99,35 та 98,08% було розроблено рекомендації, що передбачають додаткове введення семи (16,3% від загальної кількості) атрибутів, у той час як організація подвійного введення усіх атрибутів АСУ ПУ «ХАІ» без застосування запропонованих методів дозволила б забезпечити достовірність і повноту даних на рівні 98,73 та 98,06% відповідно. Впровадження цієї ж системи для підвищення достовірності й повноти даних автоматизованої системи документообігу, що супроводжує збут готової продукції НВП «Хартрон-Плант» (АСУ ЗГП «Плант»), дало можливість підвищити відповідні показники на 9,2 та 1,5%. Для подальшого підвищення показників розроблено рекомендації, згідно з якими потрібно організувати додаткове введення дев'яти атрибутів (12%), що дозволить підвищити відповідні показники в АСУ ЗГП «Плант» на 10,3 та 5,9%.

Теоретичні результати дисертаційної роботи у вигляді методів пошуку знань і діагностування даних упроваджено в навчальний процес університету «ХАІ» на кафедрі систем управління літальними апаратами.

Результати наведених вище впроваджень засвідчено відповідними актами.

Особистий внесок здобувача. У працях, опублікованих разом із співавторами, особисто здобувачу належать такі результати, як математичне забезпечення методу пошуку схожих рядків [1], математичне забезпечення методу діагностування даних [2], функціональна декомпозиція підсистеми інтеграції даних [4], структурна декомпозиція підсистеми підвищення якості даних [5,17], реалізація перевірки необхідних умов схожості при використанні відстані Левенштейна як критерію схожості двох рядків [7], аналіз шляхів підвищення якості даних АСУ ПУ «ХАІ» на етапі її впровадження у діяльність університету [8], доказ запропонованих необхідних умов схожості рядків при використанні відстані редагування абревіатур як критерію схожості [9], доказ діагностованості запропонованих діагностичних моделей даних [10], виявлення місця процедур діагностування даних [11], аналіз можливих джерел набуття знань про дані [12], опис існуючих методів пошуку схожих рядків [13], формалізація понять скорочення і абревіатура [14], процедура обчислення відстані редагування абревіатур [15], математичне забезпечення методу пошуку асоціативних правил [16]. Роботи [3,6] виконані без співавторів.

Апробація результатів дослідження. Основні положення і результати дисертації доповідалися і обговорювалися на засіданнях кафедри систем управління літальних апаратів Національного аерокосмічного університету ім. М. Є. Жуковського “Харківський авіаційний інститут”. Деякі положення та результати викладалися на науково-технічних конференціях: “Автоматика-2002”, Донецьк, 2002 р.; “Інформаційні комп'ютерні технології в машинобудуванні”, Харків, 2002, 2004, 2005 рр.; “Інформаційні технології в системі керування вищою освітою України”, Херсон, 2004 р.; “Автоматизація, технологія та якість в машинобудуванні”, Донецьк, 2004 р.; “Дні науки `2005”, Дніпропетровськ, 2005 р.; «East-West Fuzzy Colloquium», Ціттау, Німеччина, 2005-2006 рр.; «Гарантоздатні (надійні та безпечні) системи, сервіси та технології», Полтава, 2006 р.

Публікації. Результати дисертаційної роботи відображено в 17 публікаціях. Серед них: 1 свідоцтво про реєстрацію авторського права на твір, 3 статті у наукових журналах, 2 статті у збірниках наукових праць, що включені в список видань ВАК України, 1 стаття у науково-технічному журналі і 10 тез доповідей, які опубліковано за матеріалами науково-технічних конференцій, симпозіуму та семінару.

Структура і обсяг роботи. Дисертаційна робота має у своєму складі вступ, чотири розділи, висновки і три додатки, викладена на 176 сторінках, у тому числі 32 рисунки по тексту, 1 рисунок на окремій сторінці, 5 таблиць по тексту, список літературних джерел із 135 найменувань на 13 сторінках, 3 додатки на 31 сторінці.

ОСНОВНИЙ ЗМІСТ РОБОТИ

база даних достовірність комп'ютерний

У вступі обґрунтовано актуальність вибраної теми. Висвітлено ії зв'язок із науковими програмами, планами і темами. Сформульовано мету й задачі дисертаційного дослідження. Показано наукову новизну та практичне значення отриманих результатів. Відображено особистий внесок здобувача й наведено дані про апробацію та публікації результатів дисертації.

У першому розділі проаналізовано сучасний стан проблеми інтеграції розподілених АСУ. Показано, що у випадку наявності успадкованих систем, внесення змін до яких дуже ускладнено, слід вибрати підхід, що базується на інтеграції даних організації шляхом створення єдиного сховища даних. Виходячи з аналізу літературних джерел виділено проблему «брудних» або неякісних даних, як таку, що заважає успішному впровадженню та функціонуванню проектів орієнтованих на побудову сховищ даних. Розглянуто існуючі підходи до оцінки якості даних і проаналізовано ситуації, коли використання неякісних даних призводило до істотних матеріальних втрат, неможливості впровадження нових прогресивних інформаційних технологій, провалу окремих проектів або навіть до загибелі людей. Результат аналізу таких ситуацій дозволяє відокремити показники достовірності й повноти даних як ключові показники якості даних, підвищення яких дозволить уникнути таких ситуацій. На базі критичного аналізу існуючих методів підвищення достовірності й повноти даних сформульовано задачі, розв'язання яких необхідно для досягнення мети дослідження.

Основний зміст розділу опубліковано у роботах [1,2,4-6, 9,10,13].

Другий розділ присвячено розробці методу інтеграції даних в АСУ та розбито на чотири підрозділи.

У першому підрозділі з точки зору даного дослідження розглянуто загальний процес функціонування організації з впровадженою АСУ. Відповідно до робіт А. Мотро достовірність і повноту даних кожного джерела даних Sch, що входить до складу АСУ, можна оцінити як

, , (1)

де джерело Sch визначається як сукупність реляційних відношень Sch={R1,R2,…,Rq}; SSch, CSch -показники достовірності й повноти джерела Sch; q - кількість відношень у Sch; , - показники достовірності й повноти і-го відношення з Sch. Згідно зі згаданими вище роботами, кожен доданок з (1) обчислюється за допомогою процедури, суттю якої є порівняння реального відношення з еталонним. Оскільки одержання еталону не завжди є можливим, була запропонована процедура обчислення достовірності й повноти даних відношення, яка базується на ймовірностях виникнення неякісних даних і може бути визначена за допомогою таких рівнянь:

,, (2)

(3)

(4)

де Ri - i-те відношення Sch із заголовком {A0:T0, A1:T1, …, Ah:Th}, Aj - ім'я атрибута, Tj - домен, на якому визначено атрибут; A0 - ключовий атрибут; jR - відношення, отримане як проекція відношення Ri за ключовим та j-м атрибутами; (h+1) - кількість атрибутів у Ri; pim - ймовірність того, що кортеж з ідеального відношення буде пропущено при введенні даних; pid - ймовірність того, що кортеж з ідеального відношення буде продубльовано в реальному відношенні; pjRi - ймовірність того, що після усунення кортежів, що дублюються, j-й атрибут випадково вибраного кортежу буде помилковим.

Таким чином, отримавши експериментально або за допомогою експерта оцінки pim, pid, pjRi для кожного відношення джерела та використавши залежності (1)-(4), можна отримати показники достовірності й повноти даних у кожному джерелі.

У другому підрозділі проаналізовано результати, яких можна досягти за допомогою впровадження традиційного процесу інтеграції даних. Використання нових методів злиття записів, в яких враховано специфіку введення даних людиною-оператором, дозволить отримати такі результати. По-перше, в усіх відношеннях буфера сховища даних Schbuf ={Rbuf_1,Rbuf_2,…,Rbuf_l} виявляються і, отже, усуваються кортежі, що дублюються, тобто . По-друге, кортеж може бути пропущено тільки тоді, коли цей кортеж пропущено в кожному з джерел, отже, , де u - кількість джерел, в яких наведено і-те відношення; - ймовірність того, що кортеж з ідеального і-го відношення буде пропущено в g-му джерелі. По-трете, для того, щоб в атрибутах, що дублюються в різних джерелах, не було виявлено помилку, потрібно, щоб у кожному атрибуті було припущено однакову помилку, тому , де u - кількість джерел, в яких наведено j-й атрибут і-го відношення; - ймовірність того, що j-й атрибут i-го відношення буде помилковим у g-му джерелі.

Таким чином, проаналізувавши джерела, що є складовими АСУ, можна отримати нижню межу відповідних показників, які забезпечуються впровадженням традиційної системи інтеграції даних. Але, оскільки на практиці значення таких показників залишається незадовільним, є доцільним змінити процес інтеграції даних додаванням помічених на рис. 1 операцій.

Рис. 1. Схема процесу інтеграції неоднорідних даних у сховище даних

Результат, що отримується після застосування методу злиття записів у деякий момент часу, можна уявити як деяке універсальне відношення зі структурою, що визначається предмет-ною областю. Для спрощення математичних міркувань у дисертації на бінарному домені T01={0,1} визначено відношення , яке отримується з по аналогії з роботами щодо аналізу даних.

У третьому підрозділі розглянуто метод підвищення достовірності даних на основі природної надмірності. На цьому етапі виникає задача аналізу відношення з метою виявлення помилкових атрибутів, що не були виявлені впродовж витягу та злиття записів, знаходження передбачуваного правильного значення для того, щоб повернути дані в операційні підсистеми для виправлення. Крім того, для спрощення виправлення бажано сформувати пояснення, де саме зроблено помилку. Отже, задачею системи підвищення якості даних на основі природної інформаційної надмірності є діагностування даних із глибиною до виду помилки.

Інформаційним ресурсом, що дозволяє розв'язувати такі задачі, є знання про конкретні специфічні властивості даних та їх сполучень. У роботі знання щодо даних подано як сукупність правил F={f1, f2, …, fn}. Кожне правило уявляється у вигляді трійки f=(i,H,C), де i - номер правила в базі знань; H, С - множини атрибутів ( та ), що описують посилку та висновок правила відповідно. Відображаючи залежності між атрибутами, кожне правило дозволяє сформувати двозначний предикат, що відображає, чи суперечать атрибути кортежу r даному правилу: , де fi(r)=0 - атрибути r суперечать правилу fi , а fi(r)=1 - атрибути r відповідають правилу fi або не суперечать йому, оскільки не виконується умова в посилці правила; h1, h2, …, hHcnt, c1, c2, …, cCcnt - усі атрибути, що складають посилку та висновок правила.

Виникнення в будь-якої помилки є невизначеною подією з точки зору моменту k її появи, помилкового кортежу з , атрибута, в якому вона з'явиться, конкретного виду помилки. Тому є достатньо очевидним, що підхід, який використовується в існуючих системах і полягає в послідовній перевірці кожного кортежу з на відповідність кожному правилу з F, буде неефективним. Разом із тим подібна проблема ефективно вирішується в рамках системного підходу до діагностування систем управління (СУ) та інших об'єктів, запропонованого професором Куліком А.С., де створюється ефективна процедура діагностування шляхом послідовного зняття невизначеності щодо стану СУ та використання концепції діагностичних моделей (ДМ), що дозволяють діагностувати за непрямими ознаками відмов та ін. Положення згаданого підходу було використано для створення ефективного методу діагностування даних. Так, згідно з принципом послідовного зняття невизначеності щодо стану даних було розроблено послідовність діагностування, яка складається із задач виявлення помилок, пошуку кортежів із помилками, пошуку помилкових атрибутів і визначення виду помилки. Розглянемо вирішення кожної з них.

Результатом вирішення задачі виявлення помилок є встановлення факту, чи є хоча б один кортеж у , який суперечить хоча б одному правилу з F, тобто

. (5)

Визначимо допоміжні функції Qsupp(R,Z) (підтримка множини атрибутів Z у відношенні R) та ddet(R,F): , , де R - відношення, визначене на бінарному домені; z1,z2,…,zn - множина атрибутів відношення R, що складає у сукупності вихідний набір Z; - оператор реляційної алгебри, що позначає вибірку з R за заданою умовою; Fruleset і Fhyp - множини наборів атрибутів, що визначаються на основі множини правил таким чином: , , де - оператор реляційної алгебри, що позначає проекцію з R за заданою множиною атрибутів; EXT R ADD (вираз) AS Ім'яАтрибута - оператор розширення відношення R, що додає новий атрибут Ім'яАтрибута, обчислюючи його для кожного кортежу, як указано у виразі; - i-та множина атрибутів із Fruleset та Fhyp відповідно. За допомогою таких функцій було визначено ДМ виявлення помилок: , де - еталонне відношення; - непряма ознака наявності помилки.

Окрім формування ДМ у процесі вирішення задачі було строго доведено такі твердження.

Твердження 1. Якщо R1 - відношення, що містить тільки один кортеж r, а F - множина правил, то значення функції ddet(R1,F) буде дорівнювати нулю тоді й тільки тоді, коли кортеж r не суперечить жодному з правил F, та буде меншим за нуль тоді й тільки тоді, коли кортеж r суперечить хоча б одному з правил F, тобто і . Твердження 2. Відношення R є безпомилковим, тобто жоден із кортежів R не суперечить жодному з правил F тоді й тільки тоді, коли значення функції ddet(R,F) буде дорівнювати нулю, тобто .

Доведення цих тверджень, по-перше, дозволило при виявленні помилок не обчислювати еталонне відношення, оскільки , і, по-друге, засвідчило повну діагностованість побудованої ДМ.

На етапі пошуку кортежів із помилками треба знайти конкретні кортежі з , що суперечать хоча б одному правилу з F, тобто прямою ознакою наявності помилки в кортежі є

. (6)

Для побудови ДМ на цьому етапі потрібно було визначити такі допоміжні функції: , де - множина усіх атрибутів кортежу r, що дорівнюють одиниці; М - деяка множина, елементами якої, в свою чергу, є множини атрибутів; . Тоді ДМ пошуку помилкових кортежів , де - еталонний кортеж. Як і при вирішенні попередньої задачі, наведені вище твердження дозволили не обчислювати еталонний кортеж, оскільки , та засвідчити повну діагностованість ДМ. Результатом вирішення пошуку кортежів із помилками є розбиття вихідного відношення на безпомилкове відношення і відношення, яке містить усі кортежі з помилками . Слід також відмітити, що при використанні ДМ і відомого алгоритму обчислення підтримки наборів, який використовують при знаходженні асоціативних правил, алгоритмічна складність вирішення цієї та попередньої задачі становить , у той час як при використанні (5),(6) становить , що підтверджує тезу про ефективність діагностування за непрямими ознаками.

Вирішення задачі пошуку помилкових атрибутів здійснюється в два етапи. На першому з них для кожного кортежу за існуючими правилами виконують прямий логічний висновок. Результатом такого висновку стає кортеж , атрибути якого дорівнюють одиниці, якщо вони дорівнюють одиниці в або існують правила, згідно з якими вони мають дорівнювати одиниці. На другому етапі для кожного атрибута з вихідного неперетворюваного відношення формується множина відповідних значень Ai з . Тоді ДМ, що дозволяє виявити помилковість атрибута, можна визначити як , де - функція, що дорівнює кількості одиниць у підмножині атрибутів W кортежу r.

При визначенні виду помилки в дисертаційній роботі розглянуто найбільш поширений випадок, коли спосіб введення даних оператором дозволяє звузити множину можливих видів до однократних транскрипцій, додавання символу, пропуск символу, транспозиції суміжних символів і двократних транскрипцій. Після вирішення попередньої задачі є рядок , який був введений користувачем, та рядок , який ймовірно мав бути введеним. Показано, що так же, як і раніше, діагностування за прямими ознаками не є ефективним. Описано такі непрямі ознаки: , , , та , де Eq(v1,v2) - функція від двох рядків v1,v2 однакової довжини, значення якої дорівнює кількості позицій, у яких символи з v1 та v2 неоднакові; Cmp(v1,v2) - функція від двох рядків, значення якої дорівнює n-1, де n - номер першої позиції, в якій рядки неоднакові; - рядок, що є дзеркальним відображенням рядка v, тобто останній символ із v є першим у і т.д. Із використанням цих непрямих ознак було збудовано ДМ для кожного виду помилки з наведених вище: , , , і , де - істина, якщо була допущена однократна транскрипція; - додавання символу; - пропуск символу; - транспозиція суміжних символів; - двократна транскрипція. За результатами аналізу сформульованих ДМ було збудовано дихотомічне дерево, яке дозволяє виконувати операцію визначення виду в найгіршому випадку за час , у той час, коли діагностування за прямими ознаками знадобилося би .

Нарешті, у четвертому підрозділі другого розділу розглянуто методику оцінки показників достовірності й повноти після застосування наведеного методу діагностування даних. Так, правило, що надано у вигляді для тих кортежів, де воно має виконуватися, дозволяє стверджувати, що атрибут буде помилковим після використання методу діагностування тільки в тому разі, коли в систему діагностування цей кортеж потрапить із помилками, зробленими як у цьому атрибуті, так і одночасно хоча б в одному з атрибутів, що створюють посилку правила. Тоді, разом із додаванням ймовірностей появи у відношенні кортежів, що мають відповідати певному правилу або сполученням, задачу оцінки показників розв'язуємо за допомогою традиційних засобів теорії ймовірності. Так, якщо у множині правил F є тільки два правила, у посилці яких є значення атрибута відношення , то - ймовірність появи помилкового значення в атрибуті після застосування методу становить

(7)

де - ймовірність помилки у випадково вибраному серед атрибутів, що надійшли до методу діагностування; , - ймовірність помилки серед атрибутів, що складають посилку відповідно першого та другого правил;  - ймовірність появи кортежу, у якому мають виконуватися як правило f1, так й f2; - ймовірність появи кортежу, у якому має виконуватися правило f2, але не f1 і т.д.

Рівняння (7) дозволило також створити евристику, за допомогою якої можна зменшити кількість правил у системі діагностування даних. Дійсно, неважко переконатися, що якщо для двох правил з однаковим висновком виконується умова H1 H2, то друге правило можна без втрати в ефективності системи вилучити з множини правил.

Визначені у цьому та у другому підрозділі залежності, що дозволяють оцінити показники достовірності й повноти після виконання методів злиття й діагностування, дозволили сформулювати метод створення рекомендацій щодо введення тимчасової надмірності. Згідно з ним, якщо згадані вище процедури не дозволяють отримати потрібні показники, то необхідно додавати в АСУ атрибути, для яких забезпечується подвійне введення. Пошук конкретних атрибутів для подвійного введення здійснюється за принципом «жадібного» вибору, тобто на кожній ітерації ми вибираємо той атрибут, що максимально наближує систему до отримання потрібних показників.

Основний зміст розділу опубліковано у роботах [2, 4, 5, 10-12].

У третьому розділі викладено суть нового методу злиття записів, затребуваність якого полягає у неможливості за умови застосування існуючих методів урахування поширеної ситуації, коли оператором використовуються скорочення та абревіатури. Як і в інших методах злиття записів, ключовими частинами запропонованого методу є пошук схожих рядків і пошук схожих кортежів. Для пошуку схожих рядків на основі вербального опису було таким чином формалізовано поняття скорочень та абревіатур: F(p,w)=S2[p{,c1z, ..., c1c2...cmz}], a=p1…pk, piF(pi,wi), де - пустий символ; с1, …, сm - змістові символи, що належать алфавіту с, будь-який ланцюжок якого дозволяє сформувати слово;  - позначення операції конкатенації двох ланцюжків; z -ланцюжок над алфавітом del з довжиною, що дорівнює нулю або одиниці; del - алфавіт символів-роздільників, що використовуються для розділення слів у словосполученнях; F(p,w) - предикат, що є істинним, у випадку коли рядок p є скороченням слова w= c1c2...cm; а - абревіатура словосполучення, поданого рядком st=w1z1 w2z2…zk-1wk.

Далі по аналогії з відомою відстанню Левенштейна введено поняття відстані редагування абревіатур між двома рядками, що позначає мінімальну кількість операцій вставлення, видалення та транскрипції символу, необхідних для такого перетворення одного рядка, після якого він буде абревіатурою або скороченням другого рядка. Одночасно з введенням такого поняття було описано процедуру обчислення відстані редагування абревіатур, що базується на побудові недетермінованого скінченного автомата для одного з рядків, і таким чином формалізовано постановку моделі схожості рядків:

, (8)

де da(st1, st2) - відстань редагування абревіатур між рядками st1 і st2; л - деякий поріг схожості.

Тоді задачею пошуку схожих рядків буде пошук у деякому наборі рядків ST={st1, st2,...,stn}, усіх пар рядків st1, st2ST, для яких виконується умова (8). Одним з очевидних, але неефективних, шляхів вирішення цієї задачі є підхід, у рамках якого потрібно виконати (n*(n-1))/2 обчислень відстані редагування абревіатур для всіх можливих пар рядків із ST. Замість такого вирішення в роботі запропоновано швидкий метод пошуку схожих за моделлю (8) рядків суть полягає у виконанні таких двох етапів.

На першому етапі усі рядки з ST відображаються в - мірний евклідів простір , з осями якого асоціюються , - к випадково вибраних рядків із ST, тобто кожному рядку stiST ставиться у відповідність точка , координати якої дорівнюють простим відстаням Левенштейна до осей , де ' - позначення операції видалення з рядка усіх символів-роздільників.

Другий етап базується на таких, доведених у роботі необхідних умовах схожості.

Твердження 3. Відстань редагування абревіатур між рядками st1 і st2 не перевищує величини деякого порога тоді й тільки тоді, коли величини MyLCS(st1,st2) також не перевищують заданого порога, тобто da(st1, st2) MyLCS(st1,st2), де , lcs - найдовша спільна підпослідовність. Твердження 4. Якщо st1, st2 - рядки, відстань редагування абревіатур між якими не перевищує деякого порога , то точка P(st2) розміщується в Ek у межах гіперкуба із центром у P(st1) і стороною . Твердження 5. Якщо st1, st2 - рядки, відстань редагування абревіатур між якими не перевищує деякого порога , то абсолютне значення різниці відстаней від точок P(st1) і P(st2) до начала координат у Ek не перевищує , тобто .

Так, з урахуванням наведених тверджень другий етап методу пошуку схожих рядків може бути викладеним таким чином. Для кожної точки P(sti), варіюючи значення змінної len від мінімального значення довжини рядку до максимального відповідно до твердження 5, переглядають точки, для яких відстань до початку координат перебуває у діапазоні . . Кожна точка, що переглядається, у свою чергу, перевіряється відповідно до твердження 4 на влучення в межі гіперкуба із центром у точці P(sti). Далі для рядків, що є у межах гіперкуба, обчислюють величину MyLCS. І, нарешті, лише коли MyLCS не перевищує величини порога відповідно до твердження 3, виконується «дороге» обчислення відстані редагування абревіатур.

Вирішення задачі пошуку схожих кортежів було побудовано на базі попереднього методу. В роботі показано, що оскільки для злиття записів треба знаходити пари кортежів, які можуть містити пропущені атрибути або семантичні помилки, треба змінити традиційну модель схожості кортежів і сформулювати постановку задачі таким чином. Нехай дано відношення R, що містить n кортежів виду tpli=(sti1, sti2,...,stih), . Тоді рішенням задачі пошуку схожих кортежів будемо вважати усі пари кортежів tpl1, tpl2R, для яких виконуються умови: 1) , ; 2) , де Sim - набір індексів, що відповідають номерам реквізитів, які є схожими в кортежах tpl1 і tpl2; i - деякий поріг схожості, що використовують при порівнянні рядків, які відображають i-й реквізит кортежів; k - кількість схожих реквізитів; k - величина, що задає мінімальну кількість схожих реквізитів; - сума відстаней між схожими реквізитами; - поріг схожості, який використовують для оцінки суми відстаней. В роботі наведено ряд рекомендацій, що дозволяють підвищити швидкодію вирішення задачі в цій постановці.

Основний зміст розділу опубліковано у роботах [1, 3, 9, 13-15].

Четвертий розділ, що складається з чотирьох підрозділів, присвячений опису розробленої комп'ютерної системи підвищення достовірності й повноти даних в АСУ. Перший з них містить опис структури та функцій створеної комп'ютерної системи, що дозволяє підвищувати достовірність і повноту інтегрованих баз даних за допомогою методів, запропонованих у попередніх розділах.

Другий підрозділ містить опис запропонованого методу пошуку асоціативних правил, що дозволяє спростити впровадження системи в АСУ за допомогою автоматичного пошуку правил для підсистеми діагностування даних. Основна причина низької швидкодії таких методів - надзвичайно великий обсяг вихідних даних та, як наслідок, значна кількість операцій, що виконуються для робити з вторинною пам'яттю (I/O операції), протягом пошуку наборів, що часто зустрічаються.

З урахуванням того, що вихідне відношення R визначено на бінарному домені та густина одиниць на практиці надзвичайно невелика, було запропоновано відображення, що отримується з вихідного відношення R таким чином. На першому кроці вихідне відношення R довільно розбивається на v субвідношень так, щоб виконувалися умови

,

де - операції об'єднання та перетинання реляційної алгебри; - кардинальність відношення R; m - деяке ціле число.

На наступному кроці розглядається кожен атрибут кожного субвідношення ri. Такий атрибут можна подати як ланцюжок w довжиною u в бінарному алфавіті ={0,1}, в якому кожна j-та позиція визначає значення відповідного атрибута кортежу ri. Тоді результуюче відображення можна уявити як набір даних, в якому для кожного з таких ланцюжків міститься така інформація: а) кількість позицій, в яких w містить одиниці; б) значення геш-функції Н(w) від ланцюжка w, що визначається як перевірні розряди кодового слова коду Хеммінга, в якому інформаційні розряди відповідають ланцюжку w; в) відсортована послідовність значень функції h(j), де j - усі номери позицій w, що дорівнюють одиниці, h(j) - перевірні розряди вибраного коду Хеммінга, в якому тільки j-й інформаційний розряд дорівнює одиниці.

Обсяг пам'яті, необхідний для зберігання такого відображення, буде дорівнювати , де m - кількість перевірних розрядів у вибраному коді Хеммінга; u - кількість кортежів у v-1 субвідношеннях (u=2m-m-1); pR - кількість атрибутів у відношенні R; - густина одиниць у R. Неважко переконатися, що за умови низької густини одиниць таке відображення суттєво менше, ніж вихідне відношення.

Далі в другому підрозділі викладено метод пошуку асоціативних правил, що є аналогічним відомому методу Partition за тим винятком, що всі операції виконуються у відображенні. Зроблені аналітичні оцінки доводять, що шляхом введення відображення вихідного відношення метод, який пропонується, в разів ефективніший за Partition. Крім того, наведено результати експериментів, що доводять раніше зроблені аналітичні оцінки.

Наступні два підрозділи послідовно розкривають, яким чином впровадження розробленої системи у реальні АСУ дозволило підвищити достовірність і повноту відповідних баз даних.

Так, наприклад, достовірність та повнота даних в АСУ ПУ «ХАІ» до впровадження системи була оцінена як 89,63 та 89,6%. Використання структурної надмірності яка в ХАІ з'являється за рахунок існування успадкованих систем «Зарплата» та «Планування» дозволяє підвищити відповідні показники до 95,98 та 93%. Впровадження діагностування даних на основі природної інформаційної надмірності дало можливість забезпечувати достовірність та повноту даних на рівні 97,67 та 94,6%. За рахунок вимоги подвійного введення семи (16,3% від загальної кількості) атрибутів вдалося підвищити достовірність та повноту даних АСУ ПУ «ХАІ» до 99,35 та 98,08%.

Відсутність у системі АСУ ЗГП «Плант» структурної надмірності стала причиною того, що використання засобів злиття записів та діагностування даних дозволило підвищити повноту лише на 1,5% у той час, як достовірність була підвищена на 9,2%. Але, впровадження рекомендації, згідно з якими потрібно організувати додаткове введення дев'яти атрибутів, дозволило підвищити повноту 5,9%, а достовірність на 10,3%. Навіть за умов відсутності структурної надмірності отримані результати перевищили показники які можливо було отримати впровадженням подвійного введення усіх атрибутів АСУ ЗГП «Плант» без використання розробленої системи.

Крім того, для кожного з наведених методів дано приклади неякісних даних, що були усунені за їх допомогою, та проведено експерименти, які дозволили оцінити швидкодію методів на реальних даних. Наведені для даних АСУ ПУ «ХАІ» результати експериментів засвідчили для кожного методу підвищення швидкодії відносно аналогів або, як у випадку з методом злиття записів, істотне підвищення точності результатів при збереженні прийнятної швидкодії.

Основний зміст розділу опубліковано у роботах [1, 4-6, 8, 11, 12, 16, 17].

Висновки

У дисертації вирішено актуальну науково-технічну задачу розробки нових методів підвищення достовірності й повноти даних у процесі інтеграції неоднорідних баз даних, що дозволяють раціонально використовувати надмірність.

1. Запропоновано новий метод інтеграції даних, який на відміну від існуючих за рахунок наявності етапів «Злиття записів» і «Підвищення достовірності на основі природної інформаційної надмірності» дозволяє застосувати для підвищення достовірності й повноти даних усі види надмірності, характерні для розподілених та неоднорідних АСУ. Крім того, запропонований метод включає в себе етап «Формування рекомендацій щодо введення тимчасової надмірності», який за допомогою використання розроблених процедур оцінки показників достовірності й повноти до і після виконання вказаних раніше етапів дозволяє раціонально вводити в АСУ додаткову надмірність.

2. Виявлено схожість задач підвищення достовірності даних на основі природної інформаційної надмірності й діагностування об'єктів різної природи. На базі відомого системного сигнально-параметричного підходу до діагностування систем управління формалізовано задачу діагностування даних і сформульовано основні положення для створення ефективного методу підвищення достовірності даних. Використання принципів послідовного зняття невизначеності про стан даних і діагностування за непрямими ознаками наявності помилок дозволило створити швидкий метод підвищення достовірності на основі природної інформаційної надмірності. Перевагу розробленого методу над відомими аналогами доведено як аналітичними оцінками, так і експериментально.

3. Розроблено нову доменно-незалежну модель схожості рядків, що враховує поширену ситуацію використання операторами скорочень та абревіатур. Для побудованої моделі строго доведено ряд необхідних умов схожості, що дозволило створити швидкий метод пошуку схожих рядків, який став основою для створення методу злиття записів. Використання такого методу дозволило підвищити оперативність виконання етапу злиття записів, підвищивши, у свою чергу, ефективність запропонованого методу інтеграції даних.

4. Удосконалено метод пошуку асоціативних правил, що використовується для автоматичного пошуку природної інформаційної надмірності, удосконалено шляхом введення компактного відображення вихідного відношення та наступного пошуку шуканих правил у відображенні, що дозволило підвищити швидкодію методу. Проведені аналітичні та експериментальні оцінки ефективності запропонованого методу довели його перевагу над відомими аналогами.

5. На основі розроблених методів було створено інформаційну технологію за допомогою якої запропоновано систему підвищення достовірності й повноти інтегрованих баз даних в АСУ.

6. Впровадження в АСУ ПУ «ХАІ» такої системи дозволило підвищити показники достовірності й повноти даних на 8 і 5% відповідно. Задача забезпечення відповідних показників на рівні 99,35 та 98,08% може бути вирішена при додатковому введенні 16,3% атрибутів. Використання такою системою існуючої в АСУ ЗГП «Плант» надмірності дозволило підвищити показники достовірності й повноти на 9,2 і 1,5% відповідно. Забезпечення додаткового введення 12% атрибутів дозволить підвищити відповідні показники в АСУ ЗГП «Плант» на 10,3 та 5,9%.

Список опублікованих праць за темою дисертації

1. Кулик А.С., Чухрай А.Г., Завгородний А.Ю. Нечеткий поиск похожих строк в системах повышения качества данных автоматизированных систем организационного управления // Радіоелектронні і комп'ютерні системи.- 2006.- №7(19).- С. 17-22.

2. Кулик А.С., Завгородний А.Ю. Диагностирование данных корпоративных информационных систем на основе естественной избыточности // Радіоелектроніка. Інформатика. Управління. - 2006.- №2.- С. 120-128.

3. Завгородний А.Ю. Метод быстрого поиска ассоциативных правил // Системи обробки інформації. Харків: ХУПС, 2006.- Вип. 8.- С. 109 - 114.

4. Информационная технология организационного управления техническим высшим учебным заведением / В.С. Кривцов, Н.В. Нечипорук, А.С. Кулик, А.Г. Чухрай, Е.В. Мирная, О.А. Пищухина, А.Ю. Завгородний // Авиационно-космическая техника и технология.- 2005.- №7.- С. 304-316.

5. Информационная система управления административно-финансовой деятельностью университета «ХАИ» / В.С. Кривцов, А.С. Кулик, Н.В. Нечипорук, А.Г. Чухрай, А.Ю. Завгородний // Вісн. Харк. нац. ун-ту: «Математичне моделювання. Інформаційні технології. Автоматизовані системи управління».- Харків: ХНУ, 2004.- №629. Вип. 3.- С. 144-158.

6. Завгородний А.Ю. Задача поиска “похожих” наименований в атрибутах реляционного отношения // Инженер.- 2004.- №5.- С. 109 - 111.

7. Комп'ютерна програма “Утилита для обнаружения похожих кортежей в реляционном отношении”: А.с./ А.С. Кулик, А.Г. Чухрай, А.Ю. Завгородний, А.В. Гревцев.- №8712.- Зареєстр. 06.11.2003.

8. Автоматизированная подсистема управления персоналом вуза / А.С. Кулик, А.Г. Чухрай, Е.В. Мирная, А.Ю. Завгородний // Наука и предпринимательство: Сб. трудов междунар. симпозиума. Винница, 20 мая 2003г.- Винница; Каменец-Подольский, 2003. - С. 292-295.

9. Kulik A., Chukhray A., Zavgorodniy A. Similar strings detecting methods // 12th East-West Fuzzy Colloquium. Zittau, 21 - 23 sept. 2005.- Zittau, 2005.- P. 183-191.

10. Kulik А., Zavgorodniy A. Enterprise information systems data diagnosis based on native redundancy // 13th East-West Fuzzy Colloquium. Zittau, 13 - 15 sept. 2006.- Zittau, 2006.- P. 154-164.

11. Разработка подсистемы анализа данных административно-финансовой деятельности вуза / А.С. Кулик, А.Г. Чухрай, Е.В. Мирная, А.Ю. Завгородний // Автоматика-2002: Між. конф. з управління. Донецьк, 16-20 вересня 2002 р.- Донецьк, 2002.- Т.2.- С.55-56.

12. Кулик А.С., Завгородний А.Ю. Представление знаний в системе диагностирования данных университета «ХАИ» // Інтегровані комп'ютерні технології в машинобудуванні: Міжн. наук.-техн. конф. “ІКТМ-2002”. Харків, 26-29 листопада 2002 р.- Xарків, 2002. - С. 49.

13. Кулик А.С., Чухрай А.Г., Завгородний А.Ю. Методы нечеткого поиска данных // Наука и технологии против терроризма. Предотвращение угрозы и устранение последствий: Сб. трудов семинара. Харьков, июль 2006 г.- Харьков, 2006. - С. 38-40.

14. Чухрай А.Г., Завгородний А.Ю. Критерий похожести двух строк для обнаружения аббревиатур и сокращений // Інтегровані комп'ютерні технології в машинобудуванні: Міжн. наук.-техн. конф. “ІКТМ-2004”. Харків, 16-19 листопада 2004 р.- Xарків, 2004. - С. 198.

15. Кулик А.С., Чухрай А.Г., Завгородний А.Ю. Метод поиска похожих строковых наименований, содержащих аббревиатуры и сокращения // Дні науки «2005»: Міжн. наук.-практ. конф. Дніпропетровськ, 15-27 квітня 2005 р.-Дніпропетровськ, 2005.- Т. 34.- С.52-54.

16. Кулик А.С., Завгородний А.Ю. Использование промежуточных структур данных для создания быстрого метода поиска ассоциативных правил // Інтегровані комп'ютерні технології в машинобудуванні: Міжн. наук.-техн. конф. “ІКТМ-2005”. Харків, 22-25 листопада 2005 р.- Xарків, 2005. - С. 140.

17. Информационная система управления административно-финансовой деятельностью университета «ХАИ» / В.С. Кривцов, А.С. Кулик, Н.В. Нечипорук, А.Г. Чухрай, Е.В. Мирная, А.Ю. Завгородний // Інформаційні технології в системі керування вищою освітою України: Міжн. наук.-практ. конф. Херсон, 26-27 серпня 2004 р. - Херсон, 2004. - С. 7-8.

Анотація

Завгородній А.Ю. Комп'ютерні методи підвищення достовірності та повноти інтегрованих баз даних. - Рукопис.

Дисертація подана на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.06 - інформаційні технології. - Національний аерокосмічний університет ім. М.Є. Жуковського “Харківський авіаційний інститут”, Харків, 2008.

Дисертація присвячена розробці методів і засобів, впровадження яких дозволить підвищувати достовірність і повноту баз даних в автоматизованих системах управління в процесі їх інтеграції. Створено новий метод інтеграції даних, що окрім традиційних процедур включає в себе діагностування даних на основі природної надмірності, оцінку показників достовірності й повноти для формування множини атрибутів, що рекомендуються до подвійного введення. Вдосконалено за точністю й швидкодією методи злиття записів і пошуку асоціативних правил. Запропоновані методи стали головною частиною системи підвищення достовірності й повноти даних, ефективність якої було оцінено в результаті впроваджень у реальні АСУ.

Ключові слова: автоматизована система управління, достовірність і повнота даних, інтеграція баз даних.

Аннотация

Завгородний А.Ю. Компьютерные методы повышения достоверности и полноты интегрированных баз данных. - Рукопись.

Диссертацией представленная на соискание ученой степени кандидата технических наук по специальности 05.13.06 - информационные технологии. - Национальный аэрокосмический университет им. Н.Е. Жуковского “Харьковский авиационный институт”, Харьков, 2008.

Современные автоматизированные системы управления (АСУ) позволяют не только систематизировать труд персонала, сократить трудоемкость выполняемых операций, но и получить мощные инструменты анализа имеющихся данных в целях принятия управленческих решений. Однако такие инструменты оказываются неэффективными в случае использования ими недостоверных или неполных данных. Более того, решение, принятое на основании некачественных данных, может привести к катастрофическим последствиям. Особенно остро проблема недостоверных и неполных данных стоит в случае, когда АСУ включает в себя множество неоднородных и распределенных источников данных. Обеспечение двойного ввода данных хоть и является одним из возможных путей решения указанной проблемы, не может считаться эффективным в связи с неоправданно высоким увеличением трудоемкости выполняемых в АСУ операций. Вместе с тем данные АСУ зачастую содержат искусственную избыточность, когда одни и те же данные дублируются в различных источниках, и естественную, когда атрибуты связаны зависимостями, определяемыми предметной областью.

Наличие различных видов избыточности позволило создать новый метод интеграции данных, учитывающий необходимость повышения достоверности и полноты. Помимо традиционных составляющих предлагаемый метод содержит процедуры повышения достоверности данных на основе естественной избыточности и оценки показателей повышения достоверности и полноты. В случае, если методы повышения достоверности и полноты не позволяют получить удовлетворительные показатели, единственным возможным путем дальнейшего улучшения показателей остается двойной ввод атрибутов. В работе описана методика, основанная на принципе «жадного» выбора, позволяющая получить минимальное количество атрибутов, двойной ввод которых совместно с применением методов повышения достоверности и полноты данных даст возможность получать требуемые значения показателей.

В работе показано, что решение задачи повышения достоверности данных на основе естественной информационной избыточности должно базироваться на решении задачи диагностирования данных. Применение принципов сигнально-параметрического подхода, апробированного ранее при диагностировании объектов различной природы, позволило существенно повысить быстродействие созданного метода диагностирования данных АСУ.

Для повышения эффективности операции слияния записей предложена новая модель похожести строк, позволяющая учитывать распространенную ситуацию использования оператором сокращений и аббревиатур. Применение такой модели позволило последовательно создать быстрый метод поиска похожих строк, поиска похожих кортежей и слияния записей, точность результатов которого превышает точность результатов известных аналогов.

Поскольку традиционный процесс приобретения знаний в знаниеориентированных системах зачастую существенно осложняет процесс внедрения таких систем, был рассмотрен вопрос использования методов автоматического поиска правил для метода диагностирования данных. Критический анализ существующих методов показал их недостаточное быстродействие, что вызвано большим объемом данных. Введение компактного отображения исходных данных дало возможность усовершенствовать существующий метод поиска ассоциативных правил.

Эффективность разработанных методов была подтверждена в результате внедрений разработанной на их основе системы повышения достоверности и полноты данных в реальные АСУ. Внедрение в АСУ ПУ «ХАИ» такой системы позволило повысить показатели достоверности и полноты данных на 8 и 5% соответственно. Задача обеспечения соответствующих показателей на уровне 99,35 и 98,08% может быть решена при дополнительном вводе 16,3% атрибутов. Внедрение в АСУ СГП «Плант» такой системы дало возможность повысить показатели достоверности и полноты данных на 9,2 и 1,5% соответственно. Обеспечение дополнительного ввода 12% атрибутов позволит повысить соответствующие показатели в АСУ СГП «Плант» на 10,3 и 5,9%.


Подобные документы

  • Використання засобів обчислювальної техніки в автоматичних або автоматизованих інформаційних системах. Сутність централізованих систем управління файлами. Історія виникнення персональних комп'ютерів. Перспективи розвитку систем управління базами даних.

    реферат [26,8 K], добавлен 23.10.2009

  • Функції інформаційної системи. Аналіз функцій системи управління базами даних: управління транзакціями і паралельним доступом, підтримка цілісності даних. Аналіз системи MySQL. Елементи персонального комп’ютера: монітор, клавіатура, материнська плата.

    дипломная работа [1,2 M], добавлен 15.05.2012

  • Принципи інформаційної безпеки. Статистика атак в Інтернеті. Засоби захисту інформації у системах передачі даних. Загальні поняття та визначення в галузі проектування захищених автоматизованих систем. Захист телефонної лінії від прослуховування.

    магистерская работа [1,2 M], добавлен 07.03.2011

  • База даних як організована структура, призначена для зберігання інформації. Проектування та реалізація в СУБД MS Access інформаційної системи "База даних Internet-ресурсів тестів з психології". Розробка логічної системи даних, інструкції користувача.

    курсовая работа [5,3 M], добавлен 22.10.2012

  • Проблема інформаційної обробки геологічних даних. Методи побудови розрізу з відомих елементів залягання. Підготовка даних для аналізу. Ієрархія об'єктів, що беруть участь в побудовах. Розрахунок витрат на розробку та впровадження проектного рішення.

    магистерская работа [4,2 M], добавлен 17.12.2014

  • Електронна база даних як послідовність даних заданої структури, записана на магнітний диск комп'ютера, її типи, основні та невід'ємні властивості. Призначення та оцінка можливостей системи управління. Моделі даних та головні принципи їх функціонування.

    презентация [352,2 K], добавлен 04.12.2014

  • Нові методи та спеціалізовані обчислювальні пристрої зменшення обсягів даних тріангуляційного опису об’єктів комп’ютерної томографії. Розвиток методу розбиття тріангуляційних сіток на окремі елементи. VHDL-модель спеціалізованого апаратного прискорювача.

    автореферат [135,2 K], добавлен 13.04.2009

  • Проектування бази даних предметної області "Магазин будівельних матеріалів". Аналіз сукупності вхідних і вихідних даних, шляхи удосконалення інформаційної системи обліку товару. Організація інформаційної бази, розробка логічної і фізичної моделі.

    курсовая работа [559,2 K], добавлен 09.05.2016

  • Вибір методів та засобів створення інформаційної системи для обліку і перегляду продукції на складі. Розробка моделі даних для реляційної бази даних, прикладного програмного забезпечення. Тестування програмного додатку, виявлення можливих проблем.

    курсовая работа [1,1 M], добавлен 22.09.2015

  • Методи вчинення кібератак, їх вплив на комп'ютерні системи в цілому і на окремі комп'ютери. Найкращий спосіб захисту від черв'яка - вжиття заходів запобігання несанкціонованому доступу до мережі. Принцип функціонування DoS-атаки. Шифрування даних ключем.

    дипломная работа [1,2 M], добавлен 25.05.2016

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.