Подходы к оперативной идентификации формализованных электронных документов в автоматизированных делопроизводствах
Применение технологий автоматической обработки текстов при переходе на электронный документооборот. Рассмотрение подхода к представлению различных видов электронных документов, позволяющий создать унифицированный информационно-поисковый тезаурус.
Рубрика | Менеджмент и трудовые отношения |
Вид | статья |
Язык | русский |
Дата добавления | 12.05.2017 |
Размер файла | 456,3 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Филиал Военной академии связи
ПОДХОДЫ К ОПЕРАТИВНОЙ ИДЕНТИФИКАЦИИ ФОРМАЛИЗОВАННЫХ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ В АВТОМАТИЗИРОВАННЫХ ДЕЛОПРОИЗВОДСТВАХ
Королев Игорь Дмитриевич
д.т.н., профессор
Носенко Сергей Владимирович
Краснодар, Россия
В данной статье представлен подход к представлению различных видов электронных документов позволяющий создать унифицированный информационно-поисковый тезаурус
Ключевые слова: АВТОМАТИЗИРОВАННЫЕ СИСТЕМЫ ДЕЛОПРОИЗВОДСТВА, ЗОНЫ ДОКУМЕНТА, ПРЕДИКАТА УЗНАВАНИЯ ВИДА ДОКУМЕНТА
При переходе на электронный документооборот становится возможным применение технологий автоматической обработки текстов. На первый план в электронном документообороте выходят: автоматическое концептуальное индексирование, применение автоматических поисковых запросов, автоматическое рубрицирование и аннотирование отдельных документов их кластеризация. Актуальность работы состоит в том, что предложенный авторами способ позволяет проводить все вышеперечисленные операции с наименьшими временными затратами.
Формализованные документы, использующиеся в официальной переписке и обеспечении внутренней работы организаций, имеют определенную структуру, соответствующую виду документа и исполняются служебно-деловым стилем с соблюдением правил русской орфографии и пунктуации, обеспечивают точное и однозначное восприятие изложенной в нем информации. Применяемые термины должны соответствовать принятой терминологии и употребляться в одном и том же значении.
Поскольку язык для составления документов и сопутствующая деятельность, связанная с обеспечением функционирования делопроизводства лежит в области интеллектуальной деятельности человека, анализ сложности моделирования всевозможных видов документов, связанных с используемым в документах естественным языком привели к следующим выводам [1]:
1. Формальный язык документов, как и человеческий язык, явление дискретное, естественно, они должны описываться средствами дискретной математики. Причем выбор средств указанного типа ограничен: языки программирования, логические исчисления, языки теории алгоритмов, аппарат теории графов.
2. При анализе применения языков программирования или языков теории алгоритмов пришлось столкнуться со сложностью описания алгоритмов, то есть процедур с однозначным исходом по причине многозначности человеческого языка. Языки программирования и теории алгоритмов - это такие языки, которые могут описывать только однозначные функции.
3. Логические исчисления, а именно: исчисления высказываний и исчисления предикатов не имеют четкой и полной алгебраической системы. Это сделано только в исчислении высказываний. В результате мы имеем алгебру логики и аппарат булевых уравнений, который вызывает неудобство, заключающееся в том, что в алгебре логики используются лишь двоичные знаки, в то время как в естественном языке фигурируют буквенные, то есть многозначные символы.
4. Попытка устранения данного недостатка - обращение к аппарату многозначной логики, но многозначная логика развита только в описании однозначных функций, а не отношений. Развитие же в этом направлении многозначной логики принудительно приводит к алгебре конечных предикатов. Чтобы иметь возможность записывать самые общие уравнения многозначной логики, в правой их части нет необходимости ставить произвольные формулы, достаточно писать константы. Необязательно использовать все константы, достаточно взять всего два знака: 0 и 1. Но как только мы так поступим, немедленно приходим к понятию конечного предиката, а, следовательно, и к алгебре конечных предикатов.
5. Использование исчисления предикатов для целей математического описания человеческого языка также наталкивается на определенную трудность: исчисление очень слабо развито применительно к нуждам описания конечных объектов. Исчисление предикатов не располагает даже средствами для формульной записи любых индивидуальных конечных отношений. Вместе с тем, человеческий язык - явление сугубо конечное и он требует для своей формализации аппарата конечной математики. Пытаясь алгебраизировать конечный фрагмент исчисления предикатов, мы не сможем прийти ни к чему иному, как только к алгебре конечных предикатов.
6. Обратившись к аппарату теории графов, мы обнаружим, что, хотя он и используется для описания конечных отношений, однако совершенно не содержит в себе выразительных средств для записи этих отношений в виде уравнений некоторой алгебры. Если же мы захотим перевести информацию, содержащуюся в графах, на язык таблиц, то увидим, что с помощью графов выражаются именно конечные предикаты.
Таким образом, какой бы путь мы ни избрали при разработке приемлемых формальных средств для математического описания человеческого языка, мы неизбежно приходим к алгебре конечных предикатов. Вместе с тем установлено, что алгебра конечных предикатов полна [2], то есть на ее языке могут быть описаны любые конечные отношения. Поэтому любой другой математический аппарат, предназначенный для описания произвольных конечных отношений, в логическом смысле обязательно будет равносилен алгебре конечных предикатов. автоматический электронный документооборот тезаурус
Важнейшим вопросом для обеспечения оперативной работы автоматизированной системы делопроизводства на первом этапе обработки поступающего документа является извлечение метаданных, позволяющих максимально повысить оперативность всех последующих внутренних процессов обработки документов в автоматизированном делопроизводстве: для формализованного представления данных (учет), при выполнении запросов к данным, при работе механизмов обработки запросов.
С целью построения такой модели извлечения метаданных из документов необходимо определиться со всем разнообразием видов документов, определения их зон и списков метаданных, относящихся к той или иной зоне документа для их последующего выделения. Количество различных зон документа может расширяться, но так как количество видов формализованных документов, поступающих в систему конечно, соответственно количество типов зон документов конечно и много меньше количества документов. Примерами зон могут быть: заголовки, текст, списки и графика как содержимое текстов, обращения, зоны согласования и утверждения.
Используем следующий порядок определения вида документа и его зон. На рисунке 1 представлен пример документа, математическое описание вида которого в общем виде выразится конечным предикатом vj(Z, L), где V={v1, v2,…, vm} - множество видов документа, j={1, 2,…, m}; m - количество всех используемых видов документов,Z={z1, z2,…, zn} - множество конечных предикатов известных зон документа, n - количество всех зон документов,L={l1, l2,…, lq} - множество конечных предикатов узнавания ключевых слов, q - количество всех используемых ключевых слов.
Рис. 1 Пример документа, поступающего в автоматизированное Делопроизводство
В представленном примере документа для выделения зон документа используется характеристики содержимого, имеющего единую структуру. Например, в качестве зоны принимается содержимое одного (или большего количества) абзаца однотипно выделенного (курсив, подчеркивание и т.д.), или зона представляет собой содержимое строк, выровненных, например, по краю (правому, левому) или по центру.
Каждую зону возможно представить в виде конечного предиката zi(T, L), где T -множество конечных предикатов узнавания характеристик текста t, L={l1, l2,…, lq} - множество конечных предикатов узнавания ключевых слов, q - количество всех используемых ключевых слов.
Используя в дальнейшем алгебру конечных предикатов, возможно описание и построение математической модели определения вида документа по характеристикам текста.
Рассмотрим вышеописанные выражения применительно к некоторым видам документов: Приказ, Постановление, Регламент, Положение, Инструкция, Донесение, Заявление, Договор, Контракт, План, Отчет, Перечень, Протокол, Акт, Справка, Служебное письмо, Заявка.
Введем множество переменных t1, t2, t3, t4 - множество характеристик текста - 4 переменные с соответствующими алфавитами величиной 3, 4, 4, 3 (Таб. 1). Показателями характеристики текста необходимыми при определении зоны текста являются:
t1 - месторасположение в документе: начало, середина, конец;
t2 - месторасположение на строке: слева, по центру, справа, по ширине;
t3 - выделение текста: нет, жирным, курсивом, подчеркивание;
t4 - размерность шрифта (можно задать промежутками): 0-10, 11-14, 15-?.
Таблица 1
Положение и характеристики зон в документах (пример)
Характеристики текста Зона документа Z={z1, z2,…, zn} |
t1 - месторасположение в документе |
t2 - месторасположение на строке |
t3 - выделение текста |
t4 - размерность шрифта |
|||||||||||
начало |
середина |
конец |
По левому |
по центру |
По правому |
По ширине |
нет |
жирным |
курсивом |
подчеркивание |
0-10 |
11-14 |
15-? |
||
Переменные |
1 |
2 |
3 |
1 |
2 |
3 |
4 |
1 |
2 |
3 |
4 |
1 |
2 |
3 |
|
Угловой штамп |
+ |
+ |
+ |
+ |
+ |
||||||||||
Согласование |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
||||||||
Утверждение |
+ |
+ |
+ |
+ |
|||||||||||
Заголовок документа |
+ |
+ |
+ |
+ |
+ |
+ |
|||||||||
Адресат |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
||||||||
Содержание |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
|||||||
Подпись документа |
+ |
+ |
+ |
+ |
+ |
+ |
|||||||||
Отметка об исполнителе |
+ |
+ |
+ |
+ |
Правило построения предиката узнавания зоны документа по характеристикам текста, выразиться следующей формулой:
где - предикат узнавания значения ah-той переменной текста; m - количество переменных текста, n - величина алфавита h-той переменной текста.
Выражение предикатов зон документов через переменные текста t1, t2, t3, t4:
Внешне предикаты зон документа различны, но необходима проверка их уникальность, т.е. однозначность определения зоны в документе, что позволяет нам сделать алгебра конечных предикатов путем приведения наших предикатов к совершенной дизъюнктивной нормальной форме (далее - СДНФ) и проведем анализ используемых в них конституэнт единицы.
Выявлены повторяющиеся конституэнты единицы:
в , , ;
в , , ;
в , , ;
в , ;
в , .
Из полученного анализа конституэнт единицы СДНФ предикатов видно, что однозначно с использованием только текстуальных характеристик определяется (угловой штамп и содержание). Остальные предикаты однозначного определения зоны не дают.
Устранить неоднозначность можно, по крайней мере, двумя способами:
А) Организационно - большей формализацией используемых документов. В представленном случае выявить необходимые ограничения возможно путем удаления повторяющихся конституэнт единицы в предикатах, где их наличие необязательно, в итоге получится:
Соответственно новые требования к расположению и характеристикам зон в документах в отличие от Таблицы 1 для однозначного их определения отражены в таблице 2:
Таблица 2
Новые требования к расположению и характеристикам зон в документах
Характеристики текста Зона документа Z={z1, z2,…, zn} |
t1 - месторасположение в документе |
t2 - месторасположение на строке |
t3 - выделение текста |
t4 - размерность шрифта |
|||||||||||
начало |
середина |
конец |
По левому |
по центру |
По правому |
По ширине |
нет |
жирным |
курсивом |
подчеркивание |
0-10 |
11-14 |
15-? |
||
Переменные |
1 |
2 |
3 |
1 |
2 |
3 |
4 |
1 |
2 |
3 |
4 |
1 |
2 |
3 |
|
Угловой штамп |
+ |
+ |
+ |
+ |
+ |
||||||||||
Согласование |
+ |
+ |
+ |
+ |
+ |
||||||||||
Утверждение |
+ |
+ |
+ |
+ |
|||||||||||
Заголовок документа |
+ |
+ |
+ |
+ |
+ |
+ |
|||||||||
Адресат |
+ |
+ |
+ |
+ |
+ |
+ |
|||||||||
Содержание |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
|||||||
Подпись документа |
+ |
+ |
+ |
+ |
+ |
+ |
|||||||||
Отметка об исполнителе |
+ |
+ |
+ |
+ |
т.е. необходимо дополнительно:
запретить располагать в конце документа и справа на строке согласование;
адресата в обязательном порядке выделять жирным или подчеркиванием.
Б) Введением дополнительной переменной l - узнавания ключевых слов из множества L, которое заранее предусмотрено в предикате зоны описанного выше zi(T, L).
Зоны «Угловой штамп» и «Содержание» однозначно определяются по переменным текста. Для них нет необходимости вводить переменные L.
Таблица 3
Ключевые слова (пример)
Значения переменных и их номера Зона документа Z={z1, z2,…, zn} |
экз.№ |
Согласовано |
Утверждаю |
Название документа4-Приказ, 5-Постановление, 6-Регламент, 7-Положение, 8-Инструкция, 9-Донесение, 10-Заявление, 11-Договор, 12-Контракт, 13-План, 14-Отчет, 15-Перечень, 16-Протокол, 17-Акт, 18-Справка, 19-Заявка. |
Копия: |
Директор |
Начальник |
Исп. |
Тел. |
|
1 |
2 |
3 |
4-19 |
20 |
21 |
22 |
23 |
24 |
||
Согласование |
+ |
|||||||||
Утверждение |
+ |
|||||||||
Заголовок документа |
+ |
|||||||||
Адресат |
+ |
+ |
+ |
|||||||
Подпись документа |
+ |
+ |
||||||||
Отметка об исполнителе |
+ |
+ |
+ |
Правило построения предиката узнавания зоны документа по ключевым словам текста, выразятся следующей формулой:
где - предикат узнавания значения bключевого слова соответствующего i-той зоне.
Из примера видно, что после ввода дополнительной переменной однозначно определились зоны «Согласование», «Утверждение», «Заголовок документа»,«Отметка об исполнителе» имеющий свой уникальный идентификатор. Пара зон «Адресат» и «Подпись документа» несмотря на наличие двух общих переменных соответственно, также однозначно определены т.к. по переменным характеристик текста общих конституэнт у них не было.
Правило построения предиката узнавания зоны документа, выразиться следующей формулой:
где - предикат узнавания значения ah-той переменной текста; m - количество переменных текста, n - величина алфавита h-той переменной текста; - предикат узнавания значения bключевого слова соответствующего i-той зоне.
Следовательно, система предикатов позволяющая определить набор имеющихся зон документа будет выглядеть следующим образом:
Для определения видов документов проведем анализ их структур по содержащимся в них зонам Таблица 4.
Таблица 4
Структура построения зон документов (пример)
Зона документа Вид документа |
Угловой штамп |
Подпись документа |
Заголовок документа |
Адресат |
Содержание |
Согласование |
Утверждение |
Отметка об исполнителе |
|
Приказ |
+ |
+ |
+ |
+ |
|||||
Постановление |
+ |
+ |
+ |
+ |
+ |
||||
Регламент |
+ |
+ |
+ |
+ |
+ |
+ |
|||
Положение |
+ |
+ |
+ |
+ |
+ |
||||
Инструкция |
+ |
+ |
+ |
+ |
+ |
+ |
|||
Донесение |
+ |
+ |
+ |
+ |
+ |
+ |
|||
Заявление |
+ |
+ |
+ |
+ |
|||||
Договор |
+ |
+ |
+ |
||||||
Контракт |
+ |
+ |
+ |
||||||
План |
+ |
+ |
+ |
+ |
+ |
+ |
|||
Отчет |
+ |
+ |
+ |
+ |
+ |
+ |
|||
Перечень |
+ |
+ |
+ |
+ |
+ |
+ |
|||
Протокол |
+ |
+ |
+ |
||||||
Акт |
+ |
+ |
+ |
+ |
+ |
||||
Справка |
+ |
+ |
+ |
+ |
|||||
Служебное письмо |
+ |
+ |
+ |
+ |
+ |
||||
Заявка |
+ |
+ |
+ |
+ |
+ |
+ |
Для удобства восприятия структур документа проведем классификацию документов по группам структур и исключим зону документов «содержание», которое присутствует во всех видах документа и определяющей роли не несет Таблица 5.
Для документов с повторяющимися структурами необходимо вводить дополнительные уникальные переменные (например: наименование документа и т.п.).
В общем случае правило построения предиката узнавания вида документа опишем формулой:
где - предикат узнавания требуемой зоны для j-того вида документа; - предикат узнавания уникального значения ключевого слова -того вида документа.
Таблица 5
Структура используемых зон документов
Зона документа Вид документа |
Угловой штамп |
Подпись документа |
Заголовок документа |
Адресат |
Согласование |
Утверждение |
Отметка об исполнителе |
Предикат, описывающий структуру документа vj(Z, L) |
|
С однозначно определенной структурой |
|||||||||
Приказ |
+ |
+ |
+ |
||||||
Заявление |
+ |
+ |
+ |
||||||
Справка |
+ |
+ |
+ |
||||||
Постановление |
+ |
+ |
+ |
+ |
|||||
Служебное письмо |
+ |
+ |
+ |
+ |
|||||
С повторяющимися структурами |
|||||||||
Договор |
+ |
+ |
|||||||
Контракт |
+ |
+ |
|||||||
Протокол |
+ |
+ |
|||||||
Положение |
+ |
+ |
+ |
+ |
|||||
Акт |
+ |
+ |
+ |
+ |
|||||
Регламент |
+ |
+ |
+ |
+ |
+ |
||||
Инструкция |
+ |
+ |
+ |
+ |
+ |
||||
План |
+ |
+ |
+ |
+ |
+ |
||||
Перечень |
+ |
+ |
+ |
+ |
+ |
||||
Донесение |
+ |
+ |
+ |
+ |
+ |
||||
Отчет |
+ |
+ |
+ |
+ |
+ |
||||
Заявка |
+ |
+ |
+ |
+ |
+ |
Вид документа однозначно определяет его структуру и поиск метаданных необходимо производить не по всему телу документа, а только по зоне, которой в соответствие определен набор метаданных, что значительно сократит время их поиска.
Используя данный подход видно, что возможно описание любого вида документа и создание для любой автоматизированной системы своей уникальной базы знаний для автоматического определения вида документа. Выражения (1) и (2) можно называть правилами формирования формализованных баз знаний автоматизированной системы.
Итак, электронный документ, разработанный согласно ГОСТ Р 6.30 - 2003 и ГОСТ Р ИСО 15489-1-- 2007, идентифицируется по множеству реквизитов без введения дополнительных метаданных и методов кластеризации документа. Предложенная электронная модель документа позволяет провести кластеризацию с учетом разработанной системы обеспечения безопасности информации в автоматизированных системах.
Список литературы
1. М.Ф. Бондаренко, Ю.П. Шабанов-Кушнаренко. Нормальные формы формул алгебры конечных предикатов [Текст]//Научно-технический журнал «Бионика интеллекта». ХНУРЭ, г. Харьков, Украина. 2011 № 3(77).
2. М.Ф. Бондаренко, Ю.П. Шабанов-Кушнаренко. Об алгебре конечных предикатов. [Текст]// Научно-технический журнал «Бионика интеллекта». ХНУРЭ, г. Харьков, Украина. 2011 № 3(77).
3. В.В. Девятков. Системы искусственного интеллекта: Учеб. Пособие для вузов. М.: Изд-во МГТУ им. Н.Э. Баумана, 2001.
4. Люгер, Джордж, Ф. Искусственный интеллект: стратегия и методы решения сложных проблем, 4-е издание.: Пер. с англ. М.: Издательский дом «Вильямс», 2003.
Размещено на Allbest.ru
Подобные документы
Основные понятия и принципы электронного документооборота, преимущества его внедрения. Portable Document Format (PDF) как переносимый платформонезависимый портативный формат электронных документов. Электронная цифровая подпись: назначение и применение.
презентация [135,8 K], добавлен 31.01.2016Понятия электронного документа. Системы электронного документооборота. Рассмотрение основных систем электронного документооборота, представленных на российском рынке. Технологии регистрации и согласования конфиденциальных электронных документов.
курсовая работа [279,8 K], добавлен 16.02.2015Аспекты создания, организации и функционирования архивов электронных документов. Роль Концепции формирования в Российской Федерации электронного правительства, условия ее функционирования. Методология и принципы архивного хранения электронных документов.
реферат [22,4 K], добавлен 21.10.2011Правовая и нормативная база, регулирующая делопроизводство и документооборот в организации. Порядок приема и первоначальной обработки корреспонденции. Типовые и индивидуальные сроки исполнения документов. Делопроизводственная обработка документов.
курсовая работа [55,0 K], добавлен 08.11.2013Определение состава и установление сроков хранения документов. Подготовка электронных документов к передаче в архив организации. Внесение необходимых уточнений в реквизиты обложки. Составление для наиболее ценных дел внутренней описи документов дела.
презентация [160,4 K], добавлен 01.03.2014Работа с входящими, исходящими и внутренними документами. Составление организационно-распорядительных и информационно-справочных документов. Передача документов на исполнение, контроль исполнительской дисциплины. Система электронного документооборота.
отчет по практике [37,0 K], добавлен 11.08.2015Нормативно–правовая база экспертизы ценности документов. Особенности становления экспертизы ценности документов в делопроизводстве России. Оформление результатов работы экспертной комиссии. Перспективы развития экспертизы ценности электронных документов.
курсовая работа [44,1 K], добавлен 16.04.2015Описание технологических процессов обработки документной информации. Исследование правил и форм регистрации документов. Контроль за исполнением документов. Информационно-справочная работа. Специализированные программы автоматизации документооборота.
контрольная работа [29,8 K], добавлен 25.06.2014Основные виды документооборота. Безбумажный обмен неюридическими документами. Дублирование электронных документов бумажными. Организация бизнес-процессов на современном предприятии. Документопотоки компании с территориально-распределенной структурой.
доклад [361,9 K], добавлен 18.11.2009Анализ организационной структуры национальной библиотеки Республики Башкортостан. Описание обязанностей библиотекаря. Формирование универсального фонда документов на различных носителях информации. Использование в учреждении электронных технологий.
курсовая работа [215,3 K], добавлен 08.10.2015