Математическое обеспечение комплекса задач "Автоматизированная система документооборота учреждения"

Анализ замысла, целей, направлений и этапов разработки системы. Министерство торговли как объект информатизации. Общие требования к системе документооборота. Деловая игра по курсу "Гражданская оборона". Автоматизированная система по курсу "Экономика".

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 09.04.2015
Размер файла 166,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Exchange Server компании Microsoft

Exchange Server подвергся такому же тщательному бета-тестированию, что и Windows 95. Поэтому, несмотря на новизну продукта, от него можно ожидать стабильности и надежности, которые так необходимы серверу электронной почты масштаба предприятия. Exchange Server поддерживает только серверную ОС Windows NT Server 3.51 (или более старшую версию), что ограничивает сферу его применения. Но есть у него и существенное преимущество - возможность работы на всех аппаратных платформах, поддерживаемых системой Windows NT, включая микропроцессоры i486 и Pentium фирмы Intel и Alpha корпорации Digital Equipment. Перечень клиентских платформ более широк: в него входят DOS, все версии Windows и Macintosh. Продукт совместим с сетевыми протоколами TCP/IP, NetBEUI и NetWare SPX (Sequenced Packet Exchange).

Exchange Server был разработан компанией Microsoft взамен почтовой системы Mail, основанной на совместном использовании файлов. Новый продукт поддерживает более надежный интерфейс для архитектуры клиент/сервер на базе MAPI, который реализован и в последней клиентской версии Exchange, входящей в базовый комплект Windows 95. Однако вместе с Exchange Server поставляется новая клиентская версия, обеспечивающая доступ ко всем функциям сервера. Фактически любое клиентское ПО, совместимое с МАРI, может применять Exchange Server для работы с такими приложениями, поддерживающими электронную почту, как Excel и Word.

Для удаленного доступа к Exchange Server служит утилита RAS (Remote Access Server) системы Windows NT, используемая для модемной связи и подключения через Internet. Правда, в последнем случае поддерживается только соединение машины- клиента со службами Exchange Server, а Remote Access Server дает возможность удаленной рабочей станции получить доступ к любой службе Windows NT и даже обеспечивает совместное использование дисков и принтеров. Кроме того, Exchange Server поддерживает автономные адресные книги удаленных пользователей, которые содержат подмножества адресов всех пользователей данного сервера.

В адресные книги этого пакета могут входить записи в различных форматах, например в принятых в сетях X.400 или Internet. Для передачи почтовых сообщений по таким адресам Exchange Server использует шлюзы.

Клиентская часть Exchange поддерживает стандарт OLE 2.0 в почтовых сообщениях. Кроме того, имеются специальные объекты OLE для доступа к почтовым службам. Технология OLE Automation позволяет приложениям, написанным на языке VBA (Visual Basic for Applications) и работающим в среде Excel, пересылать диаграммы и графики Excel средствами электронной почты. Это может пригодиться и при составлении расписаний совещаний или встреч.

Общедоступные папки обеспечивают поддержку телеконференций, аналогичных тем, которые применяются во многих коммерческих информационных службах, таких как CompuServe. Хотя папки содержат только сообщения, поддержка присоединенных файлов позволяет хранить в папках документы любого типа. В папках поддерживаются связанные сообщения, что весьма удобно для отслеживания источника общедоступных аннотаций или при обмене частными сообщениями.

Несмотря на то что клиентская часть Exchange не выполняет всех функций броузера Web, она распознает адреса URL (Universal Resource Locator) в почтовых сообщениях и может запустить броузер Web. Это, например, позволяет сначала передать адрес Web-страницы в составе сообщения, а затем с помощью броузера отобразить эту страницу на экране.

Для мобильных пользователей предусмотрен широкий набор средств для загрузки сообщений, включая фильтрацию сообщений по размеру или по адресу отправителя, возможность загрузить только краткое содержание сообщения, а полный текст считать позднее. Кроме того, Exchange Server поддерживает тиражирование и синхронизацию автономных папок, которые хранятся на локальных дисках, в частности на переносном ПК. С помощью процедуры синхронизации можно автоматически обновлять папки и приводить их в соответствие с содержимым папок, записанных на Exchange Server.

Продукт поддерживает более 22 тыс. пользователей, используя для этого несколько серверов, организованных в виде двухуровневой иерархической структуры, когда главный сервер обеспечивает управление связями с серверами нижнего уровня. Управление всеми серверами Exchange Server может осуществляться с одной рабочей станции. За счет интеграции архитектур Exchange Server и сервера Windows NT доменная система защиты системы NT позволяет управлять администрированием серверов. Интеграция Exchange Server и Windows NT распространяется и на другие средства. Регистрация событий, мониторинг и даже контроль производительности объединены с аналогичными программами NT. Особенно важно то, что все сведения об Exchange Server доступны этим средствам NT. Поэтому данные, относящиеся к Exchange Server, отображаются на экране вместе с соответствующей информацией по Windows NT Server, что значительно облегчает контроль за взаимодействием Exchange Server и Windows NT Server.

В состав Exchange Server входит программа моделирования нагрузки, которая служит для оценки производительности определенной конфигурации системы без подключения к серверу большого числа рабочих станций. Эта же утилита может применяться вместе со средствами мониторинга событий и контроля производительности. Функции резервного копирования пакета Exchange Server позволяют осуществлять эту процедуру без отключения системы. Стандартные программы резервного копирования, используемые многими средствами электронной почты предыдущего поколения, требовали отключения почтового сервера. Процедура резервного копирования Exchange Server допускает полное и частичное копирование, а также создание резервных копий только для измененных данных аналогично обычным утилитам этого класса. Кроме того, мы протестировали ряд программ резервного копирования независимых разработчиков, которые могут быть интегрированы в Exchange Server. Необходимо отметить, что многие из них обладают более широкими возможностями, чем утилита, созданная Microsoft: в частности, они позволяют осуществлять дистанционное резервное копирование и предоставляют более совершенные средства планирования этой процедуры.

Защита доступа к данным в Exchange Server обеспечивается стандартными способами, наибольший интерес из которых представляют шифрование и электронная подпись. С помощью Exchange Server можно шифровать сообщения и дополнять их цифровыми подписями. Кроме того, он дает возможность использовать специальные средства управления цифровыми ключами, обеспечивающими распределение по рабочим станциям открытых ключей шифрования и даже отмену ключей, применяемых пользователями.

"Экспертные подсказки" (wizard) значительно упрощают установку Exchange Server. Сложнее оказалось реализовать процедуры перехода с других почтовых систем или добавления почтовых ящиков пользователей, а также конфигурирование этого сервера для совместной работы с другими серверами локальной или глобальной сети. Средства перехода, входящие в базовый комплект Exchange Server, позволяют переносить из других почтовых служб типа MS Mail только списки пользователей, но они не поддерживают перенос сообщений или присоединенных файлов. Вместо полного переноса почтовых ящиков пользователей используется шлюз, который обеспечит связь существующего почтового отделения с сервером Exchange.

Средства планирования и составления расписаний также интегрированы в Exchange Server. Помимо этого, пакет совместим с другим продуктом Microsoft - Schedule+. С помощью почтовых сообщений можно проверять время совещаний, а Schedule+ будет поддерживать ваш план работы в соответствии с этими данными.

В комплект поставки Exchange Server входят средства разработки, управления и распространения форм, предназначенных для работы с автономными приложениями на базе форм или для объединения с сообщениями и папками. Поддержка стандарта MAPI дает возможность продуктам независимых разработчиков взаимодействовать с Exchange Server.

Средство разработки форм пакета Exchange Server, созданное на базе Visual Basic (VB) 4.0, использует графический интерфейс, применяемый в VB. Этот "дизайнер форм" также поддерживает код формы и диалоговые окна с закладками. Опытные программисты могут настраивать это приложение в соответствии со своими требованиями, однако можно строить сложные приложения и с минимальным количеством программных кодов или вообще без ручного программирования. Хотя Exchange Server не имеет собственной базы данных (как, например, Notes), эта система включает мощные средства для работы с папками и для передачи почтовых сообщений.

Средства поддержки множества серверов выполняют обмен сообщениями электронной почты, тиражирование и синхронизацию папок, а также распространение форм. Тиражирование папок обмена можно производить либо после каждого внесения изменений, либо в соответствии с предварительно установленным графиком. В Exchange Server предусмотрены средства разрешения конфликтов при тиражировании, которые следят за внесением изменений на различных серверах. Обычно при возникновении конфликта с какой-либо папкой в нее добавляется сообщение, указывающее тип ошибки. Для передачи этих сообщений в средства регулирования работы с папками можно использовать набор правил.

Exchange Server поддерживает работу с Internet. Сообщения групп новостей считываются из Internet и хранятся в папках, которые, в свою очередь, могут тиражироваться по всему домену Exchange. Пока этот продукт не поддерживает прямого доступа к Web-серверу, однако вскоре Web-сервер компании Microsoft и соответствующие средства поддержки будут интегрированы в Windows NT. Прямой доступ к Exchange Server через Internet особенно удобен для удаленных пользователей, поскольку средства подключения к Internet сейчас широко доступны.

Продукт GroupWise компании Novell

Этот продукт представляет собой оригинальное сочетание электронной почты на базе технологии совместного использования файлов и системы календарного планирования, поддерживающей архитектуру клиент/сервер для обмена почтовыми сообщениями между доменами. В последнюю версию GroupWise - XTD - не только включены все возможности этого продукта, они там значительно расширены, особенно поддержка интерфейсов прикладного программирования. XTD полностью совместима с предыдущими версиями и дополнительно предоставит пользователям электронную почту и функции планирования в среде клиент/сервер.

Хотя пакет GroupWise обеспечивает передачу почтовых сообщений и календарное планирование, он состоит из такого числа отдельных программ, что проверка всех возможностей продукта весьма затруднена. Например, модуль SoftSolutions, который является средством управления документами, использует для работы с Windows- приложениями стандарт ODMA (Open Document Management Architecture). Найти нужный документ можно по ключевым словам. Кроме того, SoftSolutions обеспечивает контроль версий и может использоваться при совместной работе с документами. Как и подсистема передачи сообщений пакета GroupWise, модуль SoftSolutions использует архитектуру клиент/сервер, но эти продукты абсолютно независимы друг от друга.

Модуль InForms поддерживает подготовку форм и автоматизацию деловых процедур, применяется для управления базой данных и может работать как со службой электронной почты пакета GroupWise, так и с другими почтовыми системами, например с Notes фирмы Lotus.

Стандартные средства администрирования пакета GroupWise, как и другие аналогичные изделия Novell, ориентированы только на текстовое представление информации на экране. В GroupWise также входит продукт NetWare Admin Integration Snap-in for GroupWise, который позволяет осуществлять системное администрирование для серверов NetWare 4.x и GroupWise с одной консоли. Благодаря использованию службы каталогов NDS он особенно эффективен в крупных сетях с большим количеством серверов.

Если в сети имеется одно почтовое отделение, клиентские приложения GroupWise пользуются только режимом совместного использования файлов. Если почтовых отделений в сети больше одного, целесообразно представить GroupWise в виде загружаемых модулей NLM. В этом случае применяются серверы четырех типов - сообщений, администрирования, почтового отделения и синхронизации базы данных для сетевых ресурсов.

Сервер сообщений распределяет сообщения по почтовым отделениям и доменам (домен - базовая административная единица, состоящая из почтовых отделений и шлюзов, непосредственно обслуживаемых сервером сообщений). Он применяется в сетях, содержащих множество почтовых отделений, доменов и шлюзов или поддерживающих прямое подключение удаленных почтовых служб. Сервер администрирования получает управляющие сообщения и использует эту информацию для обновления баз данных доменов и почтовых отделений, которые он обслуживает. Сервер почтового отделения распределяет сообщения по почтовым ящикам своих отделений. Клиент почтовой службы может передать сообщение только через собственное почтовое отделение. Сервер синхронизации базы данных для сетевых ресурсов обновляет перечень пользователей GroupWise, когда в БД сетевых ресурсов вносятся изменения.

Шлюзы

Шлюзы - это тоже загружаемые модули NLM, которые взаимодействуют с серверными NLM-модулями GroupWise. Некоторые из шлюзов поддерживают доступ к другим почтовым системам, например к использующим протоколы Х.400 и SMTP, а также к системам на базе совместной работы с файлами, в частности к службе Message Handling Service компании Novell. Адресные книги могут содержать адреса, передаваемые через эти шлюзы. Удаленный доступ через модемную связь тоже обеспечивается с помощью шлюзов.

Так как базы данных GroupWise хранятся как обычные файлы, их резервное копирование выполняют соответствующие приложения NetWare. К сожалению, при восстановлении БД необходимо временно отключить связанные с ней серверы.

Пакет GroupWise, в отличие от Notes и Exchange Server, хотя и обеспечивает передачу почты и составление расписаний, но не поддерживает совместно используемой базы данных и общих папок обмена. Поэтому в продукте GroupWise не применяются службы тиражирования и синхронизации данных. Что касается автоматизации деловых процедур, то соответствующие клиентские средства отличаются более широкими функциональными возможностями, чем серверные.

Клиентская часть GroupWise обеспечивает доступ к электронной почте, составлению планов и расписаний, несмотря на то что возможности клиентских средств по оформлению текста почтовых сообщений весьма ограниченны; поддерживаются такие атрибуты, как выделенные символы и курсив. К сообщению можно присоединять любые файлы и объекты OLE. Кроме того, личные сообщения можно помечать, но система защиты не поддерживает ни шифрования, ни цифровых подписей.

GroupWise обеспечивает доступ к Internet только через шлюзовое ПО в стандарте SNMP (Simple Network Management Protocol). Поэтому единственным средством доступа к группам новостей и системе Web являются продукты независимых производителей.

Хотя GroupWise отстает от Notes и Exchange Server по многим показателям, этот пакет обеспечивает все функции системы электронной почты, поддерживает календарное планирование и управление документами, а также позволяет работать с формами и базами данных на целом ряде платформ, и прежде всего на NetWare.

КОРОТКО О ПРОДУКТЕ

Notes Поставщик: Lotus Development (Кембридж, шт. Массачусетс).

Цена по каталогу: Mail Notes (клиентская версия) - 55 дол.; Desktop (клиентская версия) - 69 дол.; Development Tools Client - 225 дол.; Notes Server - 495 дол.; SMP Server - 2295 дол.

Проверяемый продукт: Notes 4.0. Преимущества: развитые средства программирования, широкие возможности тиражирования баз данных. Имеется много приложений независимых компаний.

Недостатки: продукт сложен, клиентский интерфейс согласован с интерфейсами поддерживаемых платформ, но не совместим с другими платформами. Сложность конфигурирования затрудняет использование продукта для неопытных пользователей и небольших компаний.

Гарантия: 90 дней.

Техническая поддержка: бесплатно в течение 90 дней (с 8.00 до 20.00) с понедельника по пятницу.

Дополнительные продукты: InterNotes, Web Publisher и др.

XTD - новая версия GroupWise

Как обещает Novell, продукт XTD станет достойным преемником сервера GroupWise. Однако мы не смогли включить XTD в число проверяемых почтовых изделий, поскольку он еще не совсем готов. Мы получили только довольно надежную бета- версию продукта, обладающую всеми обещанными возможностями. Хотя, в отличие от GroupWise, сервер XTD полностью поддерживает архитектуру клиент/сервер, он сохраняет полную совместимость с GroupWise, поэтому его почтовые отделения поддерживают почтовое клиентское ПО, в котором применяется метод совместного использования файлов. Но помимо этого, XTD поддерживает и более современное клиентское ПО, основанное на архитектуре клиент/сервер, и применяет стандартные интерфейсы типа XTD или MAPI (Messaging Application Programming Interface) компании Microsoft.

Продукт построен на базе более развитой, чем у GroupWise, кроссплатформной многодоменной архитектуры и позволяет осуществлять администрирование всей системы с одного рабочего места. Среди новых возможностей XTD - тиражирование совместно используемых папок, более широкий набор правил для обработки сообщений, предназначенных как для клиента, так и для сервера. Процедуры автоматизации деловых процедур расширены за счет поддержки API-интерфейсов, которые дают возможность интегрировать в XTD высокопроизводительные приложения.

Благодаря новой функции Gummy Notes можно присоединить примечание к любому элементу, с которым работает XTD, включая сообщения и записи календарного плана, а также преобразовать это примечание в обычное сообщение или другой объект, используемый почтовой системой. Например, примечание, добавленное к расписанию совещаний, можно преобразовать в сообщение и разослать его всем приглашенным с просьбой подтвердить участие во встрече.

Кроме того, Novell постаралась воплотить в XTD технологию универсального почтового ящика, которая позволяет получать сообщения речевой и электронной почты, а также обрабатывать календарные планы через один почтовый ящик. Возможности удаленных пользователей тоже значительно расширены: теперь они могут получить доступ к основному почтовому ящику из любого узла сети.

По своим функциям этот продукт выходит далеко за рамки простого сервера электронной почты. Подобно своему предшественнику GroupWise, пакет XTD поддерживает службы управления документами и папки обмена сообщений, используемые при проведении телеконференций. Специальные приложения и навигационные средства обеспечивают доступ к огромному объему информации, которая может храниться в среде XTD. Несомненно, что, когда этот продукт поступит в продажу, в первую очередь он будет ориентирован на корпоративных покупателей. Однако, только протестировав коммерческую версию XTD, мы сможем узнать, насколько возможности реального продукта соответствуют обещаниям Novell и функциям бета-версии.

КОРОТКО О ПРОДУКТЕ

GroupWise

Поставщик: Novell (Орем, шт. Юта).

Цена по каталогу: GroupWise (клиентская версия) - 99 дол.; GroupWise NLM (серверная версия) - 2999 дол.; GroupWise Gateway - 1995 дол.

Проверяемый продукт: GroupWise 4.1. Преимущества: поддержка многоплатформного сервера, множества шлюзов для связи с другими системами электронной почты. Продукт интегрирован со средствами управления документами (SoftSolutions). Недостатки: отсутствует возможность централизованного управления в масштабах предприятия, средства управления работают только в текстовом экранном режиме, недостаточно высокий уровень автоматизации при работе с формами.

Гарантия: 90 дней.

Техническая поддержка: бесплатно с понедельника по пятницу.

Дополнительные продукты: SoftSolutions, InForms и др.

КОРОТКО О ПРОДУКТЕ

Exchange Поставщик: Microsoft (Редмонд, шт. Вашингтон).

Цена по каталогу: полная версия - 1970 дол.; почтовый сервер - 699 дол.; клиентское ПО - 50 - 70 дол.

Проверяемый продукт: Exchange Server.

Преимущества: предусмотрена поддержка доступа к Internet, а также надежные интегрированные средства для разработки и управления формами. Полная совместимость с архитектурой Windows NT. Имеются иерархические ср

Недостатки: Exchange сложен при переходе с других систем электронной почты или при добавлении новых почтовых ящиков пользователей, а также при конфигурировании для поддержки других серверов глобальной сети. Средства перехода позволяют перенести только перечень пользователей, но не переносят присоединенные файлы и почтовые сообщения.

Гарантия: не объявлена.

Техническая поддержка: бесплатное телефонное обслуживание с 9.00 до 17.00. Дополнительные модули: не объявлены.

Выводы по главе 1

Номинально достаточно обширная компьютерная база министерства незначительно повышает эффективность труда сотрудников министерства по следующим причинам:

большинство компьютеров не пригодно для работы с современными прикладными программами;

компьютеры используются автономно;

попытки создания подсистем (ДФБУ, ДГРВЭД, УКГС) ведутся без ориентации на единую системную идеологию (кусочно-лоскутная автоматизация);

информационные ресурсы министерства незначительны, доступны ограниченному кругу лиц;

современные информационные технологии, телекоммуникационные сети и мировые информационные ресурсы для обеспечения деятельности министерства, практически, не используются.

Проблема информатизации Минторга может быть решена путем создания Автоматизированной Информационной системы Министерства Торговли РФ (АИС МТ РФ) в соответствии с настоящим Техническим предложением.

ГЛАВА 2. МАТЕМАТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ КОМПЛЕКСА ЗАДАЧ "СИСТЕМА ДОКУМЕНТООБОРОТА УЧЕРЕЖДЕНИЯ”.

2.1 Постановка задачи и её спецификация

2.1.1 Общие требования к системе документооборота

Вначале рассмотрим общие требования к системе электронного документооборота.

Масштабируемость. Желательно, чтобы система документооборота могла поддерживать как пять, так и пять тысяч пользователей, и ее способность наращивать мощность определялась только мощностью аппаратного обеспечения, на котором она установлена. Выполнение этого требования может быть обеспечено с помощью поддержки индустриальных серверов баз данных, производства, например, компаний Sybase, Microsoft, Oracle, Informix, которые существуют практически на всех возможных программно-аппаратных платформах, обеспечивая тем самым максимально широкий спектр производительности.

Распределенность. Основные проблемы при работе с документами возникают в территориально-распределенных организациях, поэтому архитектура системы документооборота должна поддерживать взаимодействие распределенных площадок. Причем они могут быть объединены самыми разнообразными по скорости и качеству каналами связи. Также архитектура системы обязана обеспечивать взаимодействие с удаленными пользователями.

Модульность. Вполне возможно, что заказчику может не потребоваться сразу внедрение всех компонентов системы документооборота, а иногда круг решаемых заказчиком задач меньше всего спектра задач документооборота. Поэтому очевидно, что система должна состоять из отдельных модулей, интегрированных между собой.

Открытость. Система документооборота не может и не должна существовать в отрыве от других приложений, к примеру часто необходимо интегрировать систему с прикладной бухгалтерской программой. Следовательно, система документооборота должна иметь открытые интерфейсы для возможной доработки и интеграции.

2.1.2 Задачи, решаемые системами документооборота

Рассмотрим общий спектр задач электронного документооборота. Задачи и, соответственно, необходимая система автоматизации определяются стадией жизненного цикла документа, которую необходимо поддерживать. Вообще жизненный цикл состоит из двух основных стадий.

1. Разработка документа, которая может включать собственно разработку содержания документа, оформление документа, утверждение документа.

В том случае если документ находится на стадии разработки, он считается неопубликованным, и права на него определяются правами доступа конкретного пользователя.

2. Стадия опубликованного документа, которая может содержать: активный доступ, архивный документ краткосрочного и долгосрочного хранения, уничтожение документа.

Когда документ переходит на вторую стадию, он считается опубликованным, и на него остается только одно право - доступ на чтение. В качестве примера опубликованного документа приведем шаблон стандартного бланка предприятия. Кроме права доступа на чтение могут существовать права на перевод опубликованного документа в стадию разработки.

В зависимости от конкретной стадии жизненного цикла документа, с которым имеют дело архивные системы, они подразделяются на следующие типы.

Статические архивы документов (либо просто архивы) - системы, которые обрабатывают только опубликованные документы.

Динамические архивы (либо системы управления документами) работают как с опубликованными документами, так и с теми, которые находятся в разработке.

Подробнее задачи статических и динамических архивов будут рассмотрены в пунктах 2.1.6.1 и 2.1.6.2 соотевтственно.

2.1.3 Проблема поиска документов

Организация поиска документов

Наряду с организацией хранения документов, их необходимо также быстро и эффективно искать. Со скоростью поиска все относительно понятно - чем быстрее вы найдете необходимые документы, тем лучше. А вот с эффективностью поиска документа ситуация не так проста. Что считать эффективным поиском? Для того чтобы понять это, рассмотрим модели поиска. Здесь существует два подхода. Первый состоит в том, что в процессе поиска вы ищете документ, который точно существует в системе, и ваша задача - свести процесс к его нахождению. Этот метод применяется в 90% всех случаев. Второй подход состоит в том, что вы ищете все документы, которые могут относиться к интересующему вас вопросу. Очевидно, применение данного подхода целесообразно в аналитических и исследовательских задачах. Для него характерны такие термины, как полнота поиска - соответствие между найденными документами по данному запросу и действительному списку документов; шум при поиске - соотношение (соответствие) соответствующих и несоответствующих запросу документов.

Существует два основных типа поиска. Атрибутивный, когда каждому документу присваивается набор определенных атрибутов (полей). При сохранении документа в архив поля заполняются определенными значениями, в дальнейшем при поиске проверяется совпадение значений этих полей запросу. К атрибутам документа можно отнести имя документа, время создания, автора, машинистку, имя подраздаления, тип документа (факс, письмо, контракт, спецификация). Ясно, что cписок таких атрибутов должен быть расширяем. Их совокупность называется карточкой документа. Поля могут заполняться произвольно или из предопределенных справочников. Причем последнее наиболее предпочтительно, так как сужает области поиска.

Второй тип поиска носит название полнотекстовый. В этом случае автоматически обрабатывается все содержание, как правило предварительно проиндексированного, документа, и затем его можно найти по любому входящему в него слову.

Соответственно, существует зависимость между типами поиска и подходами к поиску. Для поиска известного документа более пригоден атрибутивный поиск, тогда как для исследовательского - полнотекстовый. Существует комбинация полнотекстового и атрибутивного поиска, когда атрибуты документа обрабатываются так же, как все содержание документа. Полнотекстовый поиск зависит от формата документа и языка, на котором он создан. Электронный документ любого формата необходимо предварительно преобразовывать в плоский текст для обработки системой полнотекстового поиска, следовательно, любая такая система должна содержать в своем составе конвертеры форматов.

Зависимость от языка выражается в следующих факторах:

Поиск документа более полный, если в результате запроса будут найдены не только документы, которые точно соответствуют слову в запросе, но и те, в которых присутствуют различные его словоформы. Данная технология носит название нормализации. Причем эффективность метода зависит от применяемого алгоритма. Для русского языка наиболее эффективен словарный метод, когда слово нормализуется на основе словарей, в которых содержатся словоформы. Кроме словарного может применяться эвристический метод нормализации, когда слово может быть приведено к нормальному виду путем выполнения определенных правил, описывающих алгоритм нормализации. Если для английского языка свод правил нормализации составляет 300 страниц машинописного текста, то для русского он на несколько порядков больше.

Аналогично нормализации было бы логично выполнять поиск не только по конкретному слову, но и его синонимам.

2.1.4 Проблема индексации документов

Процессом, аналогичным индексации, в бумажном делопроизводстве является регистрация.

Регистрация является "священной коровой" российского делопроизводства. Историческая неразвитость системы управления в сочетании с большими расстояниями и традиционно низкой ответственностью исполнителей породила своеобразный, скрупулезный подход к регистрации документов на всех уровнях управления.

Хрестоматийным примером может послужить журнал учета входящих документов, уникальный в мировой практике документ, являющийся российским "know-how".

Индексация электронных документов, осуществляемая системами автоматизации делопроизводства, преследует несколько иную цель - получить максимальное количество достоверной информации о формируемом документе и создать его регистрационную карточку. Процесс этот тем более важен, что в дальнейшем система управления документами имеет дело именно с этой карточкой, не затрагивая реальные объекты файловой системы. Далее мы в общих чертах рассмотрим известные методы индексации.

Индексация по ключевым словам

Метод индексации по ключевым словам широко использовался на начальном этапе развития СУД. Суть его заключается в выделении совокупности ключевых для работы с данным документом слов, вносимых в индексный файл. Недостатки данного метода очевидны - процесс индексирования требует дорогостоящего экспертного участия, результат индексации субъективен и не гарантирует надежного управления документом. Пользователь, например, при поиске документа вполне может использовать свой набор ключевых слов и, таким образом, не добьется результата.

В настоящее время метод индексации по ключевым словам в чистом виде не применяется.

Полнотекстовая индексация

Совершенствование и распространение систем оптического распознавания текста, обсуждавшееся нами в прошлый раз, а также совершенствование алгоритмов, основанных на элементах искусственного интеллекта, вывели на сцену метод автоматической полнотекстовой индексации (Full Text Retrieval). В этом случае весь текст подвергается автоматической обработке, основанной на морфологическом анализе (выделении грамматических классов, морфем и анализе формообразования слов). Обработанный текст заносится в индексный файл и используется при поиске документов.

Таким образом, с минимальными издержками формируется индексная база данных, обеспечивающая пользователям СУД возможности для быстрого и эффективного поиска. На сегодняшний день та или иная реализация метода полнотекстовой индексации используется практически во всех системах управления документами.

В этой связи хотелось бы рассмотреть "нечеткй поиск". Данное понятие в приложении к системам управления документами связано с продуктом компании Excalibur Technologies - системой Excalibur EFS. В основе системы лежит технология так называемого "адаптивного распознавания образов", позволяющая, с точки зрения разработчиков, обеспечить эффективный поиск в распознанных документах, непрошедших трудоемкий этап выявления и исправления ошибок. Таким образом, декларируется возможность работы с документами, заведомо содержащими ошибки.

Вопрос сравнения эффективности систем, использующих полнотекстовую индексацию и "нечеткий поиск", нетривиальный, требует исследования и здесь не рассматривается. Мы только позволим себе прокомментировать тезисы, с помощью которых принято обосновывать преимущества.

Тезис: "Удельная стоимость ввода одной страницы текста с использованием технологий оптического распознавания в системах с полнотекстовой индексацией высока (2 - 10 USD на страницу) за счет необходимости исправления ошибок ввода".

Комментарий: Применение встроенных средств проверки орфографии в сочетании с эффективными алгоритмами распознавания в современных OCR - системах существенно снижает заявленную выше стоимость обработки. Кроме того, использование описываемых технологий именно в делопроизводстве предъявляет определенные, достаточно жесткие требования к отсутствию фактических ошибок в документах.

Тезис: "Механизм четкого (полнотекстового) поиска не дает возможности найти информацию, если были допущены ошибки при вводе информации".

Комментарий: Определенная опасность, конечно же, существует. Однако современные системы предоставляют пользователю при составлении запроса ряд дополнительных возможностей для поиска: регулировка параметра "близости слов", поиск в диапазоне значений слов, поиск слов по введенному значению морфемы. Тезис: "Размер индексной базы в системах с полнотекстовым поиском составляет от 100 до 400% от объема проиндексированных файлов, то есть является недопустимо большим".

Комментарий: Тезис устарел. Применение качественного морфологического анализа и использование стоп-словарей, содержащих перечень слов языка, не эффективных для поиска, позволяет уменьшить объем индексной базы до 25-30% от общего объема файлов.

На сегодняшний день, очевидно, что системы, использующие полнотекстовую индексацию, отвечают требованиям абсолютного большинства пользователей.

Сейчас же мы рассмотрим наиболее старый и универсальный метод индексации - реквизитный.

Индексация по реквизитам

В самом деле, реквизиты исторически были первыми. В бумажном делопроизводстве им отводится принципиальная роль. Делопроизводитель выделяет из документа реквизиты, служащие основой для информационного наполнения карточки документа, помещаемой в специальную картотеку.

Тем не менее, реквизиты не потеряли своей значимости и после появления систем управления документами. Современная тенденция мультимедийного представления данных делает затруднительным управление электронными документами с помощью средств текстовой индексации. Графические, звуковые и видео файлы не содержат информации, обеспечивающей поиск.

В таких случаях на помощь пользователям приходит реквизитная разметка документов. Суть её состоит в том, что в регистрационной карточке документа определяются поля, в которые вводится информация, определяющая свойства документа.

Набор системных реквизитов определяется в соответствии с назначением системы и по умолчанию должен включать позиции, определяемые действующими нормативными актами по делопроизводству. Для пользователя также важно иметь возможность модифицировать набор и свойства реквизитов, что, к сожалению, встречается не во всех коммерческих продуктах.

Построение запросов

В данном разделе будет рассмотрена организация построения запросов при полнотекстовом и реквизитном поиске электронных документов.

Система управления документами должна предоставлять пользователю возможность поиска с применением естественного языка. Абсолютно необходимой является также возможность формулировать запрос без учета различных форм слова (например, игнорируя падеж и число для существительных).

Здесь прослеживается схожесть с работой поисковых машин, работающих в Интернете. Действительно, современные поисковые машины (например, Yandex, Alta Vista и др.) дают возможность построения запросов, максимально приближенных к естественному языку и активно используют лингвистические технологии. Разница, тем не менее, есть: в Интернете пользователь стремится к относительно высокой релевантности поиска, а при работе с документами зачастую требуется абсолютная, 100% вероятность нахождения проиндексированного документа.

При полнотекстовом поиске пользователь, формируя запрос, вводит (либо выбирает из словаря) одно или несколько слов, предположительно содержащихся в искомых документах. Вводимые ключевые слова могут быть связаны логическим оператором ("И" - по умолчанию, "ИЛИ", "НЕ"), что позволяет уточнить условия поиска и уменьшить количество документов, выдаваемых системой в ответ на запрос. Кроме того, в запросе, как правило, может быть применен оператор "*", традиционно обозначающий подстановку любого символа.

В предыдущем разделе, обсуждая "нечеткий" поиск, было сказано о том, что пользователь, манипулируя параметрами полнотекстового поиска, может повысить вероятность отыскания документов, содержащих неисправленные ошибки. Это возможно, например, за счет задания диапазона поиска указанием сколь угодно разнесенных пар слов (чисел, дат). В этом случае система применяет так называемое лексикографическое сравнение, опираясь на свойства используемого алфавита.

Упомянем еще об одном "подводном камне" при построении запросов. Как иногда бывает, один из недостатков поискового механизма является продолжением его достоинств. Система может не найти документы, обрабатывая введенный вручную запрос, содержащий глаголы и слова, входящие в стоп-словарь. Пользователь, на основе испытаний, должен отыскать компромисс между поисковыми возможностями и объемом индексной базы.

При применении системы управления документами в организациях и компаниях с развитым делопроизводством чрезвычайно эффективным может оказаться реквизитный поиск. Как правило, в этих случаях речь идет об обработке большого количества одинаковых по структуре стандартных документов (приказов, актов, писем и др.). Полнотекстовый поиск, конечно же, применим и здесь, но не всегда эффективен: пользователь в результате запроса может получить весь ассортимент изданных приказов, различающихся номером, датой и, может быть, фамилией исполнителя. Отыскание нужного приказа в этих условиях может стать затруднительным.

Однако такой документ, как правило, элементарно может быть найден по значению соответствующего реквизита - регистрационного номера, даты или имени исполнителя (возможны варианты).

Незаменим реквизитный поиск и при работе с корпоративным электронным архивом, содержащим нетекстовые документы.

В целом, комплексное и творческое применение двух вышеописанных методов поиска обеспечивает выполнение ключевой задачи управления электронными документами.

2.1.5 Методы индексирования документов

Итак, на основе вышесказанного становится очевидным то, что успешный поиск документа во многом зависит от реализованного в системе метода индексирования документов. Рассмотрим основные положения индексирования.

Индексирование документа обычно организуется через автоматическую обработку его текста и заполнение метаданных. Автоматическая обработка - полнотекстовое индексирование - заключается в преобразовании текста документа в набор слов. Причем обычно для слов сохраняется их позиция в документе, для обеспечения возможности поиска по словосочетаниям. Существуют два принципиально различных метода такого индексирования с учетом применяемых в дальнейшем методов поиска:

бинарное индексирование - не зависит от языка документа по причине бинарной или словарной индексации;

морфологическое индексирование - производится с учетом морфологии и семантики языка.

При бинарном индексировании поиск ведется на основе алгоритмов “нечеткого поиска”, т.е. поиска с ошибками. В этом случае допускается неполное (с заданным количеством ошибок в начале, середине и конце слова) совпадение слов с шаблоном. При втором методе индексации слова преобразуются в словоформы с отсечением суффиксов и окончаний, что позволяет искать склонения и спряжения шаблонов.

Стандарта на метаданные на текущий момент не существует, но обычно они включают по крайней мере дату создания документа, его размер, возможно, тип и автора, краткое содержание - аннотацию и ключевые слова. Стоит отметить, что последние поля (аннотация и ключевые слова) на сегодняшний день заполняются вручную. При этом, если формат документа их предусматривает и автор их заполнил, то все неплохо, но практически всегда в реальных документах они отсутствуют. Поэтому существующие сегодня системы документооборота их обычно игнорируют по причине крайне дорогого и медленного их заполнения оператором, вводящим документы в систему.

2.1.6 Архивирование документов

Как уже было упомянуто в пункте 2.1.1. существуют два вида архивов документов: статические архивы документов (либо просто архивы) - системы, которые обрабатывают только опубликованные документы и динамические архивы (либо системы управления документами), работающие как с опубликованными документами, так и с теми, которые находятся в разработке.

Ниже будут рассмотрены задачи статических и динамических архивов.

Задачи статических архивов

Архив предприятия - это комплекс программного и аппаратного обеспечения, предназначенный для решения перечисленных ниже задач.

Организация хранения электронных документов. Необходимо обеспечивать хранение произвольного количества электронных документов на разнообразных носителях информации. Носители электронных документов характеризуются двумя основными параметрами: стоимостью хранения мегабайта информации и скоростью доступа к информации. Причем эти два параметра обратно пропорциальны друг другу, и в зависимости от решаемых задач приходится выявлять их оптимальное соответствие и выбирать определенный носитель информации. На выбор носителя информации также влияет срок хранения информации на данном носителе.

Иногда для ряда задач нужны системы хранения, состоящие из разнотипных носителей информации. Например, для оперативного доступа требуется применение высоскоростных жестких дисков, а для архивного хранения достаточно роботизированных библиотек оптических дисков. Соответственно, для таких гетерогенных систем хранения необходимо решать задачи не только совместной работы носителей информации, но и обеспечивать миграцию документов между ними. Миграция может осуществляться либо путем настройки системы администратором (скажем, после истечения 90 дней со дня создания документ должен автоматически переместиться на более медленный и дешевый носитель), либо автоматически, в зависимости от частоты обращения пользователей к тому или иному документу. Программное обеспечение, которое ответственно за автоматическую миграцию документов, носит название Hierarchical Storage Management (HSM).

Организация учета бумажных и микрографических документов. Архивная система должна учитывать (в отличие от хранения и учета электронных документов) бумажные и микрографические документы. То есть система будет хранить только электронную карточку на документ данного типа и поддерживать контроль стандартных архивных операций, как-то: выдачи документа, его возврата и т. п.

Поддержка защиты документов от несанкционированного доступа и аудит работы. Архивной системе необходима защита на уровне документа, т. е. каждый документ должен иметь ассоцированный список пользователей, которые имеют право совершать с ним определенные операции. Для статических архивов этот список операций может представлять следующий набор: просмотр и печать документа, право изменять его карточку.

Поддержка просмотра документов без загрузки приложений, его породивших. Архивная система должна поддерживать специальные программы просмотра, которые позволяют получить доступ к документам разнообразных форматов без загрузки ресурсоемких приложений.

Поддержка аннотирования документа. Иногда для обеспечения коллективной работы с документом пользователям необходима возможность вносить в документ комментарии, не изменяя его основного содержания (в этом состоит отличие от редактирования самого документа). Комментарии (стрелки, знаки, текст, выделения цветом) хранятся в слоях, которые могут быть привязаны к автору, создавшему эти комментарии.

В качестве характерного примера реализации статического архива можно привести стандартную imaging-систему типа WaterMark, PaperWise, ImageWise.

Дополнительная функциональность динамических архивов

Для динамических архивов обязательны следующие функции:

Поддержка коллективной работы с документом, которая выражется в обеспечении целостности документов. Для этого должны быть реализованы библиотечные функции выписки и возврата документов на/c редактирование, что предотвращает одновременное редактирование одного и того же документа несколькими пользователями и, тем самым, возможные конфликты; предоставлении возможности в рамках одного документа работать одновременно нескольким пользователям. Для этого вводятся понятия версии и подверсии документа, т. е. один документ может содержать несколько версий, а каждая версия - несколько подверсий; наличии в рамках одного документа и одной версии (подверсии) нескольких его представлений в разных форматах.

Составные документы. Каждый документ может представлять собой совокупность других. В этом случае он носит название составного, или контейнера, а в делопроизводстве - «дела». По своим характеристикам он аналогичен простому. В него объединяют документы с помощью нескольких типов связей, определяющих, какие версии помещаются в контейнер (например последняя по дате, последняя отредактированная, старшая версия и т. п.). Заданные связи определяют, как будет осуществляться сборка документа в контейнер. Для составных документов должно существовать приложение, которое будет производить его окончательную сборку, оно зависит от конкретного формата.

Распространение опубликованных документов. Иногда, после публикации документа, его необходимо распространять. В основном это происходит двумя путями: или через систему электронной почты, рассылкой, или через Internet, публикацией на Web-сервере.

Расширенный спектр прав доступа к документу, а именно: на редактирование, на публикацию, на снятие публикации и на создание новой версии.

Структура архива данных

Принцип организации хранения документов в системе изолирует пользователя от физического хранилища документов по двум причинам:

1. При доступе к библиотеке, пользователь не знает, где располагается база данных, и не знает, где располагается сервер, который открывает доступ к базе. Вся эта информация находится под управлением специального приложения.

2. Внутри библиотеки, пользователи работают с логической организацией документов. Они ничего не знают о физической организации библиотеки.

Физическое хранилище скрыто от пользователей, но может в полной мере контролироваться разработчиками и администраторами. Система хранит объекты документов в реляционной базе данных. Содержание документа может храниться различными способами. Обычно это выглядит так: очень маленькие (меньше 2k) объекты хранятся прямо в базе данных; маленькие объекты (меньше 64k) хранятся в базе данных в виде 'Больших Бинарных Объектов' (Blobs); объекты большего объема хранятся в любом файловом виде, в месте, которое доступно серверу системы.

Для данных, хранящихся на внешних носителях, существует несколько уровней ссылок на объекты, которые помогают определить последнее местоположение файла с содержанием. Каждый объект содержания имеет параметр, который указывает на объект хранилища для конкретного объекта содержания. Обычные объекты хранения файлов имеют параметр, который делает ссылку на объект расположения. Объект расположения имеет параметр, который указывает полный путь к хранилищу файлов. Это дает верхний уровень каталога хранения файлов для объекта хранения. Четыре уровня подкаталогов автоматически создаются внутри него, основываясь на внутренних идентификаторах.

Не существует ограничения на количество объектов хранения, которые могут использоваться всеми базами данных.

Устройства хранения данных

Как уже отмечалось, все данные в системе могут находиться в двух видах: индекс документа и собственно сам документ. Из-за высоких требований к скорости доступа к индексу документа и его целостности, он должен храниться в высокоскоростных отказоустойчивых системах хранения, например RAID-массивах.

Для хранения самих документов использование магнитных дисковых носителей не представляется возможным вследствие их высокой стоимости. Наиболее подходящими носителями могут быть магнитооптические, фазоинверсные (PD/CD), компакт- (CD-R) и WORM-диски (таблица 2.1). Для автоматизации поиска информации, размещенной на этих дисках, ее извлечения и работе собственно с дисками используются автоматические библиотеки или, как их еще называют, оптические дисковые автоматы (JukeBox). Сегодня известны библиотеки, имеющие до 60-ти дисководов и до 3 тыс. гнезд для дисков, выбираемых механизированным способом. Автоматические библиотеки могут быть многофункциональными, например, одновременно поддерживать магнитооптические, фазоинверсные и компакт-диски.

Таблица 2.1 - Оптические и магнитооптические накопители

Тип диска

Емкость

Число циклов перезаписи

5.25"-магнитооптические диски

650 Мб, 1.3 Гб, 2.6 Гб

1млн.

PD/CD-диски фазоинверсной записи

650 Мб

1тыс.

WORM-диски

1-10 Гб

однократно

Компакт-диски CD-R

650 Мб

однократно

Преимущество магнитооптических дисков перед компакт-дисками основана на том, что первые позволяют перезаписывать информацию. Большинство технологических решений электронного архивирования поддерживает технологию миграции данных именно на магнитооптические диски, которые более устойчивы к ошибкам записи, имеют более высокую скорость чтения, однако уступают компакт-дискам в гарантийном сроке хранения информации и стоимости. Если магнитооптические диски, в лучшем случае, декларируют сохранность информации в течение 50 лет, то гарантия на компакт-диски может составлять 100 лет и более. Что касается стоимости систем хранения на базе магнитооптических и компакт-дисков, то она может отличаться в 4 раза. С учетом того, что большинство архивных документов, практически, не подлежат модификации и удалению, библиотеки на компакт-дисках могут быть предпочтительнее. Кроме того, компакт-диски удобнее в работе: их автономное чтение можно осуществлять на любом ПК, комплектуемом приводом CD-ROM.

Не вызывает сомнения, что вся информация в системе должна иметь резервные копии. Для графических образов сохранность информации может быть обеспечена созданием дублированных магнитооптических или компакт-дисков. Для хранения меняющейся поисковой информации в качестве сохранных накопителей удобнее использовать системы резервного копирования на магнитных лентах. Применяемые в персональных системах технологии (DC2000/Travan, DC6000, DAT) непригодны из-за ограничений в объеме. Возможным вариантом могут стать DLT-стримеры, восьмимиллиметровые библиотеки Exabyte (Mammoth) или специализированные катушечные системы. Наиболее распространены DLT-стримеры.


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.