Засоби підвищення ефективності спеціального програмного забезпечення підготовки та редагування технічної документації
Аналіз і систематизація існуючих методів формалізації змістовних моделей текстових документів і визначення шляхів їх удосконалення. Розробка типової моделі текстового подання проблемної області, що забезпечує можливість семантичної класифікації.
Рубрика | Экономико-математическое моделирование |
Вид | автореферат |
Язык | украинский |
Дата добавления | 25.02.2015 |
Размер файла | 46,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru
НАЦIОНАЛЬНИЙ ТЕХНIЧНИЙ УНIВЕРСИТЕТ УКРАЇНИ
“Київський політехнічний інститут”
УДК 681.3.06
Засоби підвищення ефективності спеціального програмного забезпечення підготовки та редагування технічної документації
01.05.03 - Математичне та програмне забезпечення обчислювальних машин і систем
Автореферат дисертації на здобуття наукового ступеня
кандидата технічних наук
Стіренко Сергій Григорович
КИЇВ 2007
Дисертація є рукописом.
Робота виконана на кафедрі обчислювальної техніки Національного технічного університету України “КПI”.
Захист відбудеться “4” квітня 2007 р. о 14-30 годині на засіданні спеціалізованої Ради по присудженню наукового ступеня кандидата технічних наук (шифр Д26.002.02) у Національному технічному університеті України “КПI” (04056, Київ - 56, проспект Перемоги, 37), корп. 18, ауд. 306.
Відзиви на автореферат у двох екземплярах, завірені печаткою установи, просимо надсилати на адресу: 03056, м. Київ, пр. Перемоги, 37, вченому секретарю НТУУ "КПІ".
З дисертацією можна ознайомитись у бібліотеці Національного тех.нічного університету України “КПI” за адресою: 03056, Київ - 56, проспект Перемоги, 37.
Автореферат розісланий “2” березня 2007 р.
Вчений секретар спеціалізованої ради, кандидат технічних наук, доцент М.М. Орлова
семантичний текстовий формалізація
АНОТАЦIЇ
Стіренко С.Г. Засоби підвищення ефективності спеціального програмного забезпечення підготовки та редагування технічної документації. - Рукопис.
Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 01.05.03 - Математичне та програмне забезпечення обчислювальних машин та систем. - Національний технічний університет України “Київський політехнічний інститут”, Київ, 2007.
Дисертаційна робота присвячена розв'язанню актуальної наукової задачі - підвищення продуктивності та рівня автоматизації систем підготовки та редагування технічної документації за рахунок розробки проблемно-орієнтованої моделі представлення текстових документів, методів та алгоритмів їх використання при семантичній обробці технічних текстів.
На основі фреймовій мережі пропонується побудова проблемної області і форм-шаблонів документів, що мають властивість однаковості і будуються за принципом самоподоби, застосовуючи методи інженерії знань.
Використовуючи гнучку систему сценаріїв задається образ майбутнього (нормованого) технічного документа. Ця схема дозволяє орієнтуватися на досить широке коло споживачів кінцевого матеріалу.
Розроблений метод попарного порівняння, через знаходження відносного коефіцієнта подоби ключових слів і словосполучень, дозволяє проводити семантичну верифікацію відповідності (визначати семантичну близькість) фрагментів тексту, а також проводити оцінки приналежності тексту к відповідної проблемної області.
Ключові слова: семантичний рівень, проблемна область, нормовані технічні документи, сценарій, шаблон.
Стиренко С.Г. Средства повышения эффективности специального программного обеспечения подготовки и редактирования технической документации. - Рукопись.
Диссертация на соискание ученой степени кандидата технических наук по специальности 01.05.03 - Математическое и программное обеспечение вычислительных машин и систем. - Национальный технический университет Украины “Киевский политехнический институт”, Киев, 2007.
Диссертация посвящена решению актуальной научной задачи - повышение продуктивности и уровня автоматизации систем подготовки и редактирования технической документации за счет разработки проблемно-ориентированной модели представления текстовых документов, методов и алгоритмов их использования при семантической обработке технических текстов. А также использование этих формальных структур при проектировании автоматизированных систем обработки технических текстов с целью формирования комплекта нормированной технической документации, обучения, технического делопроизводства, издательской деятельности.
На основе фреймовой сети разработана структура предметной области и форм-шаблонов технических документов, которые обладают свойством единообразия и строятся по принципу самоподобия. Шаблоны являются жесткой структурой будущего документа. Конкретизация и наполнение шаблона производится пользователем в автоматизированном режиме, при помощи системы сценариев. Достигается это путем структурирования базы знаний, которая, в совокупности с семантическими признаками и является основой наполнения.
Используя гибкую систему сценариев, задается образ будущего (формируемого) технического документа, другими словами, осуществляется более тонкая настройка формируемого технического документа. В сценарии указывается текущая информация, а также параметры, на которых хотел бы сделать акцент пользователь системы. К их числу относятся такие установки как: уровень детализации информации, подробность описание основных (ключевых) понятий, количество уровней вложенности подзаголовков и т.п. Такая схема позволяет ориентироваться на довольно широкий круг потребителей конечного материала.
Для более детального анализа существующей информации в определенной предметной области база знаний структурно разделена на несколько составляющих, информация из которых используется для формирования технического документа. Одной из основных частей базы знаний является раздел образцов семантических конструкций, в котором заданы смысловые эталоны технических текстов. С помощью системы правил сопоставлений, сочетаний и др. производится набор текстовых фрагментов для формирования соответствующего раздела технического документа, при этом используются аппарат нечетких отношений и логического вывода.
Шаблоны технических документов имеют иерархическую структуру и формируются на основе анализа отечественных стандартов ГОСТ и мировых IEEE. Глубина вложенности подразделов документа определяет уровень детализации информации. Именно благодаря использованию такого подхода исключается этап нормоконтроля технических документов на этапе их разработки. И снижается уровень интеллектуальной нагрузки на пользователя.
Итерационно-поступательный процесс формирования текста документа заложен в основу восьмиуровневой модели, каждый уровень которой, используя соответствующий источник знаний, формирует и проверяет гипотезы о присоединении очередного текстового фрагмента к уже сформированным. Все гипотезы проверяются на предмет соответствия определенному семантическому уровню с выставлением значения степени уверенности. Использование алгебры нечетких отношений позволяет иметь градиентные значения из соответствующей области определения и позволяет использовать, по сравнению с детерминированными подходами, более гибкий механизм семагтических оценок текстовых фрагментов.
Разработанный метод попарного сравнения, через нахождение относительного коэффициента подобия ключевых слов и словосочетаний, позволяет проводить семантическую верификацию соответствия (определять семантическую близость) фрагментов текста, а также проводить оценки принадлежности текста к данной предметной области.
Ключевые слова: семантический уровень, предметная область, нормированные технические документы, сценарий, шаблон.
Stirenko S.G. Development and research of the special software for text analytical systems. - Manuscript.
Thesis for a Ph.D. degree by the specialty 01.05.03. - The mathematical both software of computers and systems. National Technical University of Ukraine “Kiev Polytechnic Institute”, Kiev, 2007.
The thesis is devoted to an actual problem - development and construction formal of structures for a various sort of text data, methods and algorithms of their processing, for creation, on their basis, every possible derivative blocks of documents. Uses of these structures in text analytical information systems with the purpose of learning, office-work, publishing.
Because of frame for the network the construction of knowledge domain and forms - templates of documents is offered which have a property of uniformity and are created on a principle of self-similarity, applying methods from area of knowledges.
Using the floppy system of the scripts, the image of the future document is set. Such scheme allows being oriented on a rather wide circle of customers of a finite material.
Key words: semantics level, knowledge domain, normed technical documents, script, template.
1. ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ
Актуальність теми. Сьогоденна кон'юнктура ринку значно впливає на скорочення часу життя сучасних програмних засобів. Стислий термін розробки програмних продуктів не дає досить часу на підготовку технічної документації (ТД) після готової версії основного продукту. Разом з тим обсяг такої ТД невпинно зростає, більш жорсткими стають вимоги щодо оперативності її формування. Для підготовки ТД відволікаються значні інтелектуальні ресурси, обсяг яких має тенденцію до зростання. В таких умовах виникає проблема пошуку резервів, за рахунок яких можна прискорити час розробки комплекту ТД. Оскільки природній мові властива багатозначність, яка полегшує спілкування, але ж ускладнює її автоматизацію, пошук необхідно зосередити на семантично-орієнтованої (змістовній) обробки тексту.
Аналіз показує, що значну частину процесу підготовки ТД становлять операції, в основі яких лежать формалізовані методи. Відповідно, існують потенційні можливості автоматизації таких операції, що може стати вагомим резервом підвищення ефективності підготовки ТД. Існуючі на сьогоднішній день розробки в цій області (системи AuthorIT, SoDA та ін.), реалізують змістовну обробку текстів технічних документів лише частково і не забезпечують можливостей автоматизованої побудови похідних текстових фрагментів. Реалізація таких можливостей, на основі нечітких відношень та правил доказових перетворень, дозволить підвищити рівень автоматизації систем підготовки та редагування ТД (СПРТД), розширити область їх ефективного застосування, а також зробити їх більш гнучкими з точки зору більш повного використання потенційних можливостей.
Розв'язанню проблеми підвищення ефективності інформаційних систем (в тому числі й спеціального призначення) приділяється постійна увага. Великий внесок у дану галузь внесли Н. Винер, Т. Виноград, Л. Заде, Н. Хомскій, Н. Амосов, В. Тоценко, Ю. Зайченко, В. Кузьмук, С. Теленик, й ін. Успіхи розвитку інженерії знань, досягнуті в останні роки, дозволяють реально наблизитись до вирішення цієї актуальної і практично важливої проблеми.
Дисертаційна робота присвячена розв'язанню актуальної наукової задачі - підвищення продуктивності та рівня автоматизації СПРТД за рахунок розробки проблемно-орієнтованих моделей представлення текстових документів та методів їх використання при змістовної обробці технічних текстів на основі нечітких відношень та правил доказових перетворень.
Зв'язок роботи з науковими програмами, планами, темами. Дисертаційна робота виконувалась у розвиток робіт за державною науково-технічною програмою “Сучасні інформаційні технології в створенні інтегрованих виробничих комплексів” за темою “Розробка, дослідження та застосування засобів інтелектуалізації в процесі проектування баз даних та прикладних програм в автоматизованих системах на базі ПЕОМ” (№ держреєстрації 0195u008180, 1994-96 рр.), в рамках робіт напрямку “Перспективні інформаційні технології, прилади, системи зв'язку”, що виконувались кафедрою обчислювальної техніки НТУУ “КПІ” в продовж 1997-99 рр, НДР № 0102U000333 “Побудова масштабованих ізоефективних комп'ютерних систем”, яка виконувалась на кафедрі обчислювальної техніки НТУУ „КПІ” в продовж 2002-2004 рр., та НДР № 0201U006269 “Побудова високопродуктивних паралельних обчислювальних систем з архітектурою на основі розподіленої загальної пам'яті”, яка виконувалась на кафедрі обчислювальної техніки НТУУ “КПІ” в продовж 2002-2006 рр.
Мета і задачі дослідження. Метою дисертаційної роботи є підвищення продуктивності та рівня автоматизації СПРТД за рахунок розширення змістовних операції обробки текстів з елементами верифікації, що реалізуються за допомогою програмних засобів логічного доведення та нечітких відношень.
Об'єктом дослідження є процес автоматизованого виготовлення нормованої технічної документації за допомогою спеціального програмного забезпечення (СПЗ).
Предметом дослідження є методи і засоби ефективного використання інженерії знань для поліпшення швидкісних характеристик СПЗ, а також зниження інтелектуальної навантаженості при роботе з СПРТД.
Основні задачі дослідження у відповідності з поставленою метою сформульовано наступним чином:
Аналіз і систематизація існуючих методів формалізації змістовних моделей текстових документів і визначення шляхів їх удосконалення відповідно особливостям використання у системах підтримки автоматизованої підготовки і редагування ТД.
Розробка типової моделі текстового подання проблемної області та окремих документів, що забезпечує можливість семантичної класифікації та накопичення змістовних характеристик елементів текстових документів.
Дослідження і вдосконалення структурно-параметричних методів оцінки семантичних характеристик в ієрархічних моделях текстових матеріалів.
Розробка структури і реалізація інформаційної бази, в рамках якої інтегруються різнорідні інформаційні та процедурні компоненти для забезпечення їх ефективної взаємодії в процесі комп'ютеризованої обробки ТД.
Розробка методики побудови шаблонів технічних документів та сценаріїв наповнення їх змістом з можливістю контролю відповідності іншим видам технічної документації на основі застосування апарата інженерії знань.
Методи дослідження базуються на використанні засобів штучного інтелекту і інженерії знань, семантичного аналізу, математичної логіки, лінійної та булевої алгебр, теорії ймовірностей, статистичного аналізу, програмування, основних положень теорій множин та графів. Для обробки та аналізу складних структурованих моделей використовується об'єктно-орієнтований підхід з застосуванням методів обмежень на базі евристик та логічних доведень. Верифікація БЗ та механізму логічного доведення проводилася на макетах програмних засобів.
Наукова новизна одержаних результатів визначається наступними положеннями:
Обґрунтовано та розроблено метод структурованого виготовлення нормованої ТД, що за рахунок розширення операцій змістовної обробки текстів і доказових перетворень на основі комбінації нечітких відношень та логічних доведень, дозволяє сформувати структуроване наповнення цільового технічного документу.
Запропоновано модель спеціалізованої інформаційної бази знань, яка об'єднує иєрархічно-семантичну модель формування фрагментів тексту та проблемно-орієнтовану базу шаблонів технічних документів, що за рахунок уніфікації і інтеграції різнорідних компонент в розробленій структурі, забезпечує можливість побудови похідних текстових фрагментів технічних документів.
Удосконалено структурно-параметричні методи оцінки семантичних характеристик в ієрархічних моделях текстових матеріалів, що дозволяє проводити верифікацію сформованих документів.
Удосконалено шаблоно-ієрархічну модель семантичного представлення знань стосовно задач підготовки ТД, яка дозволяє реалізувати багаторівневе семантичне представлення проблемної області з метою її використання для виготовлення нормованої ТД.
Запропоновано методи організації і вибору алгоритмів розробки типових нормованих технічних документів залежно від семантичного рівня аналізу моделі проблемної області.
Практичне значення одержаних результатів полягає в тому, що результати досліджень дозволяють підвищити ефективність функціонування СПРТД та знизити інтелектуальне навантаження на користувача за рахунок розробки структурованої цільовий проблемної області й використанню ефективного формального апарату нечітких множин та засобів логічного доведення. Все це, в свою чергу, забезпечує вищій рівень автоматизації при підготовці ТД, підвищує її погодженість, а також знижує трудомісткість; скорочує час підготовки до випуску комплекту технічної документації; виключає нормоконтроль технічних документів у частині їхнього оформлення.
Одержані в роботі результати реалізовані у виді методик побудови шаблонів технічних документів, організації сценаріїв, що забезпечують гнучкість процесу побудови текстового матеріалу. Крім того подана модель є квазіоптимальною і дає можливість доповнювати її необхідними модулями (робить систему з відкритою архітектурою). Практичні результати роботи були використані для побудови спеціального програмного забезпечення в навчальному процесі на кафедрі обчислювальної техніки НТУУ ”КПІ” в циклах лабораторних робіт за курсами “Проектування інтелектуальних систем” та “Технології системного програмування”.
Впровадження результатів наукової роботи здійснено для компаній ЗАО “ІНКОМ” при побудові систем планування ресурсів підприємства з функціями автоматизації технічного документообігу та системи підтримки прийняття рішень в фінансовій сфері на основі побудови семантично орієнтованих моделей бізнес-процесів (2006 р.), і ТОО “ВЕК +” при побудові орієнтованого на знання програмного забезпечення серверу корпоративної мережі з використанням правил семантичної обробки текстів, які структуровані експертами по проблемних областях (2003 р.), що підтверджено актами впровадження.
Особистий внесок здобувача полягає в теоретичному обґрунтуванні одержаних результатів, експериментальній їх перевірці та дослідженні, а також створенні програмних продуктів для практичного використання одержаних результатів. Основні наукові результати, подані в дисертації, отримані здобувачем особисто. У роботах, опублікованих у співавторстві, здобувачу належить: [2] - запропоновано метод структурованого формування та редагування нормованої технічної документації, [3] - запропоновано семантичні характеристики для оцінки технічної документації, [4] - запропонована методика адаптації формалізмів інженерії знань стосовно задач обробки технічних текстів, [5] - запропоновано структуру спеціалізованої інформаційної бази, а також правила їх аналізу і перетворення у фреймові структури, [6] - запропоновано методи оцінки структурно-параметричних семантичних характеристик в ієрархічних моделях текстових матеріалів, [11, 12, 13] - удосконалено метод організації шаблонів та методика удосконалення семантичної релевантності, [14, 15,] - запропоновано алгоритми формування технічного документу використовуючи при цьому модель проблемної області, [17, 18] - запропоновано підхід до підвищення рівня автоматизації аналітичних систем обробки технічних текстів.
Апробація результатів дисертації. Основні результати дісертаційної роботи доповідалися та обговорювались на:
1. 7-й Міжнародній науково-практичній конференції “Современные информационные и электронные технологии”, 22-26 травня 2006 р., Одеса.
2. Другому міжнародному форумі “Прикладная радиоэлектроника. Состояние и перспективы развития”, 18-23 вересня 2005 р., Харків.
3. Другої міжнародній науково-практичній конференції “Современные информационные и электронные технологии”, 2001р., Одеса.
4. Міжнародній науково-технічній конференції “Проблеми фізичної та біомедичної електроніки”, 2-4 червня 2000 р., Київ.
5. Міжнародній науково-технічній конференції “Проблеми фізичної та біомедичної електроніки”, 28-30 травня 1998 р., Київ.
6. Міжнародній науково-технічній конференції “Проблеми фізичної та біомедичної електроніки”, 27-29 травня 1997 р., Київ.
7. 3-й Міжнародній науково-методичній конференції “Стратегії та методики навчання мовам для спеціальних цілей”, 24-25 квітня 1997 р., Київ.
8. 2-й Міжнародній конференції "Теория и техника передачи приема и обработки информации", 1996 р, Туапсе.
Робота в повному об'ємі представлялась кафедрі обчислювальної техніки Національного технічного університету України “КПI”.
Публiкацiї. Основні результати дисертаційної роботи опубліковані в 18 наукових працях, серед яких 10 наукових статей в журналах, затверджених ВАК України, і 8 публікацій матеріалів конференцій.
Структура і обсяг роботи. Дисертаційна робота складається із введення, чотирьох розділів, висновків та додатків. Загальний обсяг роботи становить 120 сторінок друкованого тексту, 23 рисунків, 13 таблиць і списку використаної літератури з 138 найменувань. Робота містить список скорочень, прийнятих в роботі.
2. ОСНОВНИЙ ЗМIСТ РОБОТИ
У вступі обґрунтовується актуальність проблеми підвищення ефективності автоматизованих систем підготовки та редагування ТД, а також важливість підвищення рівня автоматизації таких систем в сучасних умовах. Формулюються мета дисертаційної роботи та задачі дослідження, визначаються наукова новизна та практичне значення отриманих результатів.
В першому розділі Виконано аналітичний огляд існуючих систем автоматизованої підготовки ТД. Запропоновано класифікацію систем цього класу та критерії їх ефективності. Проведений аналіз показав, що статичний характер підсистем семантичної обробки відомих систем (AuthorIT, SoDA, Lyx, WorkFlow та ін.) зумовлений традиційним, для систем обробки текстів, способом формалізації та представлення інформації з використанням механізмів реляційних баз даних. Відсутність можливості динамічного формування текстових фрагментів суттєво обмежує об'єм операцій, що реалізуються в автоматизованому режимі.
Крім цього показано, що існуючи системи не реалізують повною мірою потенційні можливості семантичної обробки з використанням сучасних досягнень інженерії знань. Тому адаптація цих можливостей може усунути недоліки, які пов'язані з більш прийнятної формою представлення знань, з точки зору проблемно-орієнтованої семантичної обробки.
Досліджені основні моделі представлення знань, а саме: 1) логіка предикатів першого порядку; 2) семантичні мережі; 3) фрейми; 4) продукційні системи і приведена схема відносного порівняння розглянутих моделей по ряду характеристик (відображення семантики проблемної області, формалізованість, нотаційна адекватність, можливість поповнення). Визначено, що при виборі фреймового способу представлення текстової інформації обґрунтовується квазіоптимальний варіант інтеграції та адаптації цих моделей для застосування з метою формування комплекту технічної документації.
Виконаний огляд існуючих систем автоматизованої підготовки ТД показав, що вони не в повній мірі відповідають сформульованим вище критеріям. Тому розвиток таких систем в напрямку використання методів інженерії знань, а також їх інтеграції з методами та алгоритмами семантичної обробки дає можливість підвищити ефективність використання СПРТД.
В другому розділі досліджено та обрано проблемно-орієнтовані моделі і методи для створення технічного документа, виконана формалізація проблемної області та вибір функцій і алгоритмів автоматизованої системи обробки технічних текстів. Для представлення (формалізації) проблемної області доцільно використовувати механізми інженерії знань, обробка яких являє собою обробку їх змісту правилами перетворення тих форм, якими вони описуються в машині. Таким чином, при обробки знань найбільш важливою проблемою є відображення змісту в потрібнім діапазоні, а також наявність такої форми представлення знань, яка гарантує їх коректну обробку формальними правилами перетворення.
На підставі цього запропонована загальна структура проблемної області (рис.1), яка будується виходячи з вимог оптимізації обсягу знань на основі принципу ієрархічної схожості (самоподібності).
База знань (БЗ) G і-тої проблемної області формується як множина складових:
Gi = i (Qci, Qti, Qei, Qvi) (1)
де Qc = i(Qci) - текстові шаблони; Qt = i(Qti) - ключові словосполучення;
Qe = i(Qei) зразки семантичних конструкцій; Qv = i(Qvi) актуальна (або поточна) інформація.
Правила сполучення Rsi = i(jOsji) визначають можливість комбінації множини текстових шаблонів Qc с ключовими словами та словосполученнями Qt: Dti=уi(Rsi(Qci,Qti)), та ступені їх релевантності: Dri=ji(Qcij, Qtij) відносно друг друга, де Osi = jOisj множина семантичних ознак.
За допомогою правил формування Rfi = i(jOfji) надається можливість сінтеза похідних текстових фрагментів Dder= гi(Rfi(Dti), Qei, Qvi), використовуючи правила, які в найпростішому випадку представляють собою булеві функції Rbi = i(iOsi), а в більш складних випадках використовуються правила Rki = i(iOsi) для обробки та корегування в форматі найближчого відомого зразка.
Підвищення зв'язності знань досягається за рахунок виконання правил асоціативних зв'язків Rai = i(jOaji), за допомогою яких будуються семантичні кущі Ski концептуальних понять. Кущі концептуальних понять Ski конкретизуються у відповідної проблемної області Gi. Семантико-синтаксична оцінка фрази будується з урахуванням сили парних асоціацій між словами. Кожна пара слів i, j має асоціативний коефіцієнт Aij з набору значень (1 - цілком можливо, 2 - припустимо, 3 - малоймовірно, 4 - неймовірно). Сукупність цих оцінок складає матрицю розміром h2, де h - розмір словника. Для аналізу фрази довжиною n отримуємо всіляких коефіцієнтів. Їх сума і є оцінкою асоціативної зв'язності фрази.
При булевих комбінаціях елементів множин Qc і Qt аналізується нечітке (fuzzy) відношення:
Rr=R(qci, qtj)/(qci, qtj), (2)
де Qc={qc1, qc2, …, qcl}, Qt={qt1, qt2, …, qtm}. Для цілеспрямованого формування текстових фрагментів використовуються знання-правила типа “якщо F, то H”. Тоді побудова нечіткого відношення F(Qc) і H(Qt) із відповідної області повної множини Qc в область повної множини Qt полягає в наступному:
Rr=FH=(F(qci)H(qtj))/( qci, qtj), (3)
де - операція обрання min.
На підставі правила F H будується наступна матриця відношення:
Rr=. (4)
Визначення основних аксіом для множин Qc, та Qt:
доповнення , або ;
обєднання FH=, або FH(qc)=F(qc)H(qc), де знак - операція обрання max;
перетину FH=, або FH(qc)=F(qc)H(qc)
дає можливість отримувати різні комбінації (згідно правил сполучення Rsi, та формувань Rfi) с метою побудови похідних фрагментів для кінцевого технічного документу.
Для взаємодії в рамках системи база знань Gi має відповідну структуру:
Gi = (RIin, Rla, Rsyn, Rsec, Ld, BkL, Bka), (5)
де RIin - правила вводу інформації, Rla - правила логічних доведень, Rsyn - правила синхронізації БЗ, Rsec - правила гарантування безпеки доступу до БЗ системи, Ld - опис природних мов які обробляються системою, BkL - мовонезалежна БЗ, Bka - аналітична частина БЗ.
Розроблені інтегральні критерії оцінки, в якіх множина ключових слів (КС) та словосполучень (СС) Qt визначає проблемну область. Далі формується послідовність, де порядковий номер елемента є категорія окремим випадком якої є відповідне КС або СС qti.
Використовуючи метод попарного порівняння знаходиться відносний коефіцієнт подоби КС для даного розділу з кожним базовим розділом. Наступним кроком визначається відповідність логічного доведення даному розділу за допомогою коефіцієнта відповідності логічного доведення (КВЛД), який має наступний вигляд:
, (6)
де kjik - КВЛД j відносно базового КС k рівня i;
drik - коефіцієнт подоби базового КС k рівня i з КС відповідного рівня розділу (підрозділу) який формується.
Коефіцієнти kjik знаходяться за допомогою трьох складових:
Vjik - КВЛД j відносно базового КС k рівня i за результатами оцінки експертом;
Ojik - КВЛД j відносно базового КС k рівня i як об'єктивна компонента;
Wjik - КВЛД j відносно базового КС k рівня i за результатами взаємооцінки.
В третьому розділі визначено принцип роботи системи та характеристики окремих блоків, що реалізують відповідні семантичні перетворення.
Система шаблонів Ti = j(Tij) являє собою жорстку структуру кінцевого технічного документу у виді фрейму, яка сформована з урахуванням вимог вітчизняних стандартів ДСТ, та світових IEEE. Кожен розділ (підрозділ) Ci такого шаблону Fi має вкладену структуру, яка формується по визначеним для цього розділу правилам Rk, виконуючи відповідний пункт сценарію Wi.
Сценарій Wi (Wizard) - це процедура, за допомогою якої користувач, розставляючи акценти, спрямовує процес формування текстового документу в потрібному йому руслі. При цьому наповнюється база актуальної (поточної) інформації (variable) Qv.
Загальна структура сценарію Wi у відповідної проблемної області Gi має вигляд функціонального фрейму , аналогічно будується фрейм для структур документа .
Для формування підрозділу Ci, або абзацу Pi передбачено вісім семантичних рівнів перетворення, починаючи від атомарної семантичної структури. На рис. 2 показано використання необхідних при цьому знань, а також їх розподіл по джерелам (знак вказує місце зіставлення даних в умовах, а кінець стрілки - місце занесення дії). Керування знаннями ведеться через окремі джерела знань у вигляді модулів (правил), які складають пари (блок умови - блок дії).
Семантичне перетворення робиться на основі даних нижчого рівня з переходом до інтерпретації на наступний рівень. Інтерпретації не завжди однозначні, і при цьому генерується декілька гіпотез, які оцінюються з використанням інформації з верхнього рівня. Залишається одна гіпотеза, яка вважається правильною. До гіпотез додається оцінка (від 0 до 100), яка вказує на їх вірогідність, але діє тільки на даний момент.
Розроблено загальну структуру програмного комплексу інтелектуальної інформаційної текстової системи (Рис. 3). Розглянуті її компоненти, їхнє призначення і взаємозв'язок. Розглядаються функції, що покладаються на кожну з компонент системи.
База знань, яка орієнтована на перетворення текстової інформації має структуру, близьку до структури природної мови користувача. Будується вона як дворівнева структура, що включає верхній рівень - концептуальну базу знань (структурована інформація на основі фреймових мереж) і нижній рівень - базу даних. У такий спосіб забезпечується ефективність представлення узагальнених знань на верхньому рівні і конкретної інформації - на нижньому.
Формування бази знань подібної структури саме по собі вже є частиною процесу рішення задачі, тобто включені в неї знання відбираються спрямовано і також спрямовано відбираються ті засоби її структурування, що забезпечують ефективну роботу з нею.
В четвертому розділі розглянуто питання практичної реалізації окремих модулів ТІС, описаних вище, та результати експериментів, які довели достовірність розроблених методик та оцінок.
Окрім базових цільових підсистем підказки для полегшення сприйняття процесу автоматизованої підготовки документів створюються підсистеми пояснень. Аналітичне дослідження дозволило на базі питомої ваги окремих операцій в системах генерації та розподілу, оцінити їх ефективність, а також області ефективного застосування аналітичних компонентів системи.
Експериментальна реалізація компонентів підтвердила ефективність методів та методик побудови програмних засобів та ефективність запропонованих процесів проектування аналітичних компонентів. Дослідження та моделювання визначили область ефективного використання при кількості елементарних операційних компонентів та шаблонів.
Проведено експерименти з використанням традиційних засобів автоматизації і виконано планування та оцінки витрат різноманітних ресурсів на розробку та настроювання програмного забезпечення з аналітичними компонентами, які показали достатньо високу ефективність розроблених методик.
Інтегрована оцінка відповідності логічного висновку відносно базового КС має вигляд:
Vjik (x1Ojik + x2Wjik), (7)
Wjk=. (8)
Значення об'єктивної компоненти коефіцієнту Ojk відповідності j-го експерта відносно k-го базового КС дорівнює оцінки j-го експерта за критерієм Cok, яким позначена коренева вершина графа ієрархії критеріїв, які описують k-е базове КС.
В ієрархії критеріїв - кожний з них має коефіцієнт значимості в рамках множини підкритеріїв відповідного критерію. Інтегрована оцінка u по критерію Cu яка має підкритерії Cu1 Cu2 ... Cun має вигляд:
u=, (9)
де Xul - відносний коефіцієнт значимості l-го підкритерія критерію Cu;
ul - інтегрована оцінка за l-м підкритерієм критерію Cu.
Результати досліджень використані в процесі об'єктно-орієнтованого проектування в середовищі Visual C++ та Delphi семантично орієнтованих моделей бізнес-процесів системи планування ресурсів з функціями автоматизації технічного документообігу в фінансовій сфері, а також при розробці орієнтованого на знання програмного забезпечення серверу корпоративної мережі з використанням правил семантичної обробки текстів, які структуровані експертами по проблемних областях.
У додатку приводяться тексти Delphi та С++ програм окремих компонентів систем підтримки прийняття рішень, орієнтованих на знання, а також документи, що підтверджують актуальність проведених досліджень.
ВИСНОВКИ
В дисертаційній роботі запропоновано й обґрунтовано нове вирішення задачи автоматизованої розробки спеціального програмного забезпечення семантичної обробки текстової інформації, яке використовується в СПРТД. Для розв'язання цієї задачи виявилося необхідним розробити моделі представлення знань й методики побудови шаблонів та сценаріїв, які використовуються з метою ефективного інтегрованого середовища накопичення знань.
Запропоноване рішення скорочує час розробки комплектів ТД за рахунок автоматизації семантичних операцій; сприяє скороченню програмного коду та вихідного ПЗ за рахунок вилучення близьких по змісту шаблонів документів на основі використання принципу схожості моделей на всіх рівнях ієрархії, а також зменшує обчислювальну складність за рахунок введення комбінаторних обмежень.
Основні наукові й практичні результати роботи полягають у наступному:
На основі аналізу існуючих СПРТД розроблено й формалізована модель інформаційної структури для відтворення бази знань довільної проблемної області з гнучким нижнім рівнем відтворення атомарних понять. Це дозволяє значно підвищити рівень інтелектуалізації, в порівнянні з відомими рішеннями.
Розроблено та реалізовано проблемно-орієнтовані формалізовані моделі шаблонів нормованих ТД, характерною особливістю яких є наявність вбудованих характеристик та критеріїв для оцінки якості документів, що за рахунок використання правил аналізу і доказових перетворень дозволяє прискорити структурне і змістовне наповнення похідного цільового технічного документу.
Розроблено алгоритмічні та програмні методи реструктуризації текстового документу і його адаптації до цільового призначення на основі представлення знань стосовно задач підготовки ТД, що за рахунок багаторівневого семантичного представлення проблемної області забезпечує можливість оптимізації структури БЗ та відповідних похідних ТД.
Запропоновано структурно-параметричні методи оцінки семантичних характеристик в ієрархічних моделях текстових матеріалів на основі шаблонів типових конкретизації і узагальнень об'єктів з використанням формальних механізмів та методів лінійної алгебри та статистичного аналізу, що дозволяє підвищити рівень відповідності та скоротити час верифікації сформованих технічних документів.
Розроблено методи формальної генерації документів, виходячи з наявної бази знань, яка має структуровані текстові джерела, за рахунок введення семантичних операцій формування похідних текстових фрагментів.
Запропоновано методику оцінки відповідності структурних одиниць текстів, на основі структурно-параметричних характеристик, що сприяє підвищенню автоматизації процесу побудови ТД, а також методику оцінки складності обчислювального процесу в залежності від кількості правил обробки, яка дозволяє підтримувати близькій до оптимального обсяг обчислень.
Запропоновано методи організації і вибору сценаріїв для формування розділів (підрозділів) ТД, орієнтованих на різні рівні підготовки і глибину викладення матеріалу, які в процесі розробки типових нормованих ТД дозволяють наповнювати їх змістом в автоматизованому режимі і більш ніж в 3 рази підвищити швидкість підготовки чорнових копій ТД для подальшого прийняття рішення щодо його використання.
Отримані в роботі результати, дозволили підвищити більш ніж в два рази ефективність функціонування СПРТД та знизити в півтора рази інтелектуальне навантаження за рахунок розробки оптимальної структури проблемної області й використанню ефективного формального апарату нечітких відношень та правил доказових перетворень.
СПИСОК ОПУБЛІКОВАНИХ ПРАЦЬ ЗА ТЕМОЮ ДИСЕРТАЦІЇ
1. Стиренко С.Г. Автоматизована розробка технічної документації з використанням засобів інтелектуальної підтримки // Вісник НТУУ “КПІ”. Інформатика, управління та обчислювальна техніка: Зб. наук. пр. - К.: Век+. - 2006. - № 45. - С. 173-179. (Автором запропоновано модель спеціалізованої інформаційної бази знань, яка об'єднує ієрархічну семантичну модель формування фрагментів тексту та проблемно-орієнтовану модель шаблонів технічних документів).
2. Пустоваров В.І., Кузнецов О.В., Стіренко С.Г. Супроводження аналітичних перетворень в системах семантичного аналізу текстів // Вісник НТУУ “КПІ”. Інформатика, управління та обчислювальна техніка: Зб. наук. пр. - К.: Век+. - 2005. - № 43. - С. 202-211. (Автором запропоновано метод структурованого формування та редагування нормованої технічної документації).
3. Стиренко С.Г., Пустоваров В.И. Программные методы поддержки семантико-целевого анализа текстових документов // Вісник НТУУ “КПІ”. Інформатика, управління та обчислювальна техніка: Зб. наук. пр. - К.: Век+. - 2004. - № 42. - С. 180-187. (Автором запропоновано семантичні характеристики для оцінки технічної документації).
4. Стиренко С.Г., Знайко О.М. Методы и средства используемые при проектировании текстовой информационно-аналитической системы // Вісник НТУУ “КПІ”. Інформатика, управління та обчислювальна техніка: Зб. наук. пр. - К.: Век+. - 2003. - № 40. - С. 101-105. (Автором запропонована методика адаптації формалізмів інженерії знань стосовно задач обробки технічних текстів).
5. Стіренко С. Г., Пустоваров В.І., Брагінський О.Л. Відтворення проблемної області у системі автоматизованної розробки текстової інформації // Наукові вісті НТУУ “КПІ”. - К.: ЕКМО. - 2000. - № 4. - С. 43-50. (Автором запропоновано структуру спеціалізованої інформаційної бази, а також правила їх аналізу і перетворення у фреймові структури).
6. Стиренко С.Г., Пикуза О.В. Оценка стилистических характеристик текстовой информации // Вісник НТУУ “КПІ”. Інформатика, управління та обчислювальна техніка: Зб. наук. пр. - К.: Век+. - 2000. - № 35. - С. 127-131. (Автором запропоновано методи оцінки структурно-параметричних семантичних характеристик в ієрархічних моделях текстових матеріалів).
7. Стиренко С.Г. Аналитическая оценка интеллектуальных возможностей фреймовых баз знаний // Вісник НТУУ “КПІ”. Інформатика, управління та обчислювальна техніка: Зб. наук. пр. - К.: Век+. - 2000. - № 34. - С. 131-135. (Автором запропонована методика оцінки рівня автоматизації фреймових баз знаний).
8. Стиренко С.Г. Представление знаний в системе интеллектуальной обработки издательской информации // Вісник НТУУ “КПІ”. Інформатика, управління та обчислювальна техніка: Зб. наук. пр. - К.: Век+. - 2000. - № 33. - С. 22-26. (Автором запропоновано методи організації сценаріїв для автоматизованих систем підготовки технічної документації).
9. Стиренко С.Г. Механизмы работы системы интеллектуальной обработки издательской информации // Вісник НТУУ “КПІ”. Інформатика, управління та обчислювальна техніка: Зб. наук. пр. - К.: Век+. - 1999. - № 32. - С. 157-162. (Автором запропоновано семантичну модель представлення змісту).
10. Стиренко С.Г. Выбор структуры представления текстовой информации для системы интеллектуальной обработки // Вісник НТУУ “КПІ”. Інформатика, управління та обчислювальна техніка: Зб. наук. пр. - К.: Век+. - 1998. - № 31. - С. 275-280. (Дисертантом запропоновано базову структуру відтворення текстової інформації з точки зору підготовки технічної документації).
11. Пустоваров В.И., Стиренко С.Г. Ровник А.В. Формализация грамматик для составления и анализа структуры технической документации // Труды 7-й международной научно-практической конференции “Современные информационные и электронные технологии”, Одесса, 2006. т. II. С. 49. (Автором запропоновано метод організації шаблонів для підтримки механізму наповнення їх змістом).
12. Кузнецов А.В., Пустоваров В.И., Стиренко С.Г. Поддержка семантической корректности естественно-языковой обработки на основе объектно-ориентированной модели логического программирования // Сборник научных трудов по материалам 2-го международного форума “Прикладная радиоэлектроника. Состояние и перспективы развития”, Т.ІІІ “Информационные системы и технологии” - Харьков, 2005, с.54-55. (Автором запропонована методика удосконалення семантичної релевантності фрази для відтворення фрагментів технічних текстів).
13. Брагинский О.Л., Исса А., Пустоваров В.И., Стиренко С.Г. Обобщенные инструменты для построения шаблонов моделей и баз знаний интеллектуальных компонент программного обеспечения // Труды второй международной научно-практической конференции “Современные информационные и электронные технологии”, Одесса, 2001. С. 50-51. (Автором запропоновано шаблоно-ієрархічну модель семантичного представлення знань).
14. Пустоваров В.И., Стиренко С.Г., Пустоваров А.В. Подсистема автоматизированного создания текстовых документов технических проектов. // Тематический сборник “Электроника и связь” по материалам Международной научно-технической конференции. - Київ. - 28-30 травня 1998 - ч. 3. С. 519-524. (Автором запропоновано алгоритм формування технічного документу використовуючи при цьому модель проблемної області).
15. Клещевников А.В., Пустоваров В.И., Стиренко С.Г. Подсистема автоматизированного документирования диагностических экспериментов в медицине. // Тематический сборник “Электроника и связь” по материалам Международной научно-технической конференции. - Київ. - 27-29 травня 1997. - С. 355-358. (Автором запропоновано метод обробки текстів за рахунок програмних засобів інженерії знань).
16. Стиренко С.Г. Система интеллектуальной обработки медицинской информации. // Тематический сборник “Электроника и связь” по материалам Международной научно-технической конференции. - Київ. - 27-29 травня 1997. - С. 358-360. (Автором запропоновано правила аналізу і перетворення технічного документу у фреймові структури).
17. Коломиец В.Ф., Пустоваров А.В., Стиренко С.Г. Система автоматизированного анализа оформления текстовой документации и ее использование в подготовке специалистов // Тез. Докл. 3-ї Міжнародної науково-методичної конференції “Стратегії та методики навчання мовам для спеціальних цілей”. - Київ. - 24-25 квітня 1997. - С. 137-138. (Автором запропоновано основні структурні компоненти для автоматизованої системи обробки технічних текстів).
18. Пустоваров В.И., Стиренко С.Г. Семантически ориентированное кодирование для систем обработки текстов // Тез. докл. 2-й межд. Конф. "Теория и техника передачи приема и обработки информации". - Туапсе. - 1996. - С. 305. (Автором запропоновано підхід до підвищення рівня автоматизації аналітичних систем обробки технічних текстів).
Размещено на Allbest.ru
Подобные документы
Загальна характеристика предметної області. Аналіз методів управління проектами. Розробка детермінованої моделі сітьового графіка. Розробка програмного забезпечення для моделювання детермінованої моделі. Моделювання сітьового графіка.
курсовая работа [1,0 M], добавлен 18.06.2007Техніко-економічний аналіз підприємства ЗАТ БМФ "Азовстальстрой". Аналіз існуючих методів оптимізації трудових ресурсів. Розробка економіко-математичної моделі та програмного продукту. Методика автоматизуванння розрахунків за даною обраною моделлю.
дипломная работа [2,0 M], добавлен 18.10.2010Предмет, об'єкт, метод та основні завдання економетрики. Розробка і дослідження эконометричних методів (методів прикладної статистики) з урахуванням специфіки економічних даних. Поняття економетричної моделі і її вибір. Типи економетричних моделей.
контрольная работа [32,8 K], добавлен 18.06.2010Методи і методики визначення ефективності роботи підприємства, аналіз фінансового стану. Економіко-математичне моделювання взаємозв‘язку елементів собівартості та прибутку. Інформаційна система підтримки прийняття рішень. Інтерфейс інформаційної системи.
дипломная работа [1,7 M], добавлен 14.11.2009Розробка інформаційного та програмного забезпечення підприємства за допомогою методології IDEF1X та Borland C++ Builder. Розрахунок вихідного значення інтегрального показника конкурентоспроможності підприємства на основі техніко-економічних параметрів.
реферат [528,1 K], добавлен 12.01.2012Аналіз чутливості і інтервалу оптимальності при зміні коефіцієнтів цільової функції. Моделювання випадкових подій. Визначення оптимальної виробничої стратегії. Розробка моделі функціонування фірм на конкурентних ринках. Оцінка ризику інвестування.
контрольная работа [333,9 K], добавлен 09.07.2014Сутність лізингу, його об’єкти та суб’єкти, види, форми та функції. Основні етапи створення математичних моделей. Сутність та характеристика відповідних платежів. Вибір програмного забезпечення та розробка розрахунку лізингових платежів з його допомогою.
курсовая работа [589,4 K], добавлен 02.12.2015Аналіз методів функціонування логістичних систем та підвищення ефективності учасників. Математична модель системи ВАТ "Автодвір - Східна Україна" на основі чистої приведеної вартості проекту. Шляхи підвищення ефективності роботи транспортного учасника.
магистерская работа [387,7 K], добавлен 20.07.2012Поняття інвестування, цінних паперів і фондового ринку. Математичне та алгоритмічне вирішення задачі формування портфеля (розрахунок Марковіца та нечітка модель). Визначення архітектури програмного забезпечення та його інформаційно-логічної схеми.
дипломная работа [2,7 M], добавлен 11.03.2011Статистичні методи аналізу та обробки спостережень. Характерні ознаки типової і спеціалізованої звітності підприємств. Оцінка параметрів простої лінійної моделі методом найменших квадратів. Аналіз показників багатофакторної лінійної і нелінійної регресії.
контрольная работа [327,1 K], добавлен 23.02.2014