О структурировании информации в информационных системах
Соединение тематического и алфавитного критериев в библиотечных каталогах. Особые требования к метаданным, выдвигаемые при структурировании информации. Значимость, степень секретности, достоверность и актуальность тематики как критерии информации.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 29.01.2019 |
Размер файла | 98,9 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
А. А. Рыженко
Размещено на http://www.allbest.ru//
Размещено на http://www.allbest.ru//
Институт проблем регистрации информации НАН Украины
О структурировании информации в информационных системах
А. А. Рыженко
Рассмотрены вопросы структурирования информации в информационных системах, уточнена терминология и задача структурирования, расширена классификация метаданных. Описано представление метаданных.
Ключевые слова: структурирование информации, информационная система, входные данные.
В современных реалиях решение любых задач требует мощной информационной поддержки. Эффективность получения информации влияет на оперативность и качество принятия решений. Поэтому задачу обработки и предоставления информации можно считать наиболее актуальной в условиях глобального влияния информационных технологий на все аспекты человеческой деятельности, которая протекает в информационном обществе [1].
В настоящее время информационные системы (ИС) развились до уровня, требующего принципиально новых подходов к обработке информации. Рост объемов информации и скорости ее распределения фактически обогнал развитие современного математического аппарата и инструментальных средств обработки.
Среди проблем, которые возникли в связи с резким ростом ИС, можно выделить:
-- рост информационного шума;
-- засилье паразитной информации, спама;
-- слабая структурированность информации;
-- многократное дублирование информации [2].
В информационную систему поступают различные информационные потоки, часть из них структурированы, остальные либо слабо структурированы, либо не структурированы. Причем объем неструктурированной и слабоструктурированной информации значительно превышают объем структурированной. На данный момент сбор структурированных входных данных в ИС часто связан с ручным вводом и корректированием информации. Структурированной для абстрактной
ИС назовем информацию, обработанную и упорядоченную в достаточной степени, для того, чтобы ИС могла выполнять свою целевую функцию.
Примером структурированной информации может служить каталог книг, продаваемых в книжном супермаркете. Неструктурированной информацией будут, например, накладные поступлений книг из всех издательств, данные о проданных книгах, запасах на складах и т.д.
При постоянном увеличении объемов входных данных в ИС все более сомнительной становится возможность коррекции, обработки и хранения всей информации при непосредственном участии человека. Как для решения принципиально новых задач, так и для более эффективного подхода к уже имеющимся, необходимо использовать системы максимально автоматизированные. Причем ограничения на обработку накладывают не вычислительные мощности ИС, а слабая структурированность входной информации. Последнее объясняется тем, что проблема наращивания вычислительных мощностей за счет параллельной обработки достаточно изучена, а задача структурирования информации, хотя и появилась практически одновременно с возникновением письменности, является довольно малоизученной для компьютерных ИС с постоянно растущими объемами входной информации [3,4].
Входная информация ИС характеризуется следующими признаками:
-- достоверностью;
-- временем жизни;
-- ценностью;
-- степенью структурированности;
-- источником.
Входные данные, которые, как правило, не структурированы, могут соответствовать основным критериям, построенным по признакам входной информации, в противном случае данные отбрасываются как некорректные.
Для ИС, в которой данные перед использованием обязательно помещаются в базы данных (БД), структурированной информацией будем называть информацию, которая находится в доступном для хранения в БД виде. То есть структурированными для конкретной задачи данными будем называть данные, которые без дополнительной коррекции могут быть внесены в существующие таблицы базы данных. Самым первым этапом создания системы структурирования будет создание модели баз данных, от правильности этой модели будет зависеть качество внесения данных в БД.
После внесения в базы данных информация становится доступной для использования. Выделим ряд признаков, которые характеризуют именно структурированную информацию:
-- наличие дополнительных данных для создания структуры данных (индексы, заголовки полей БД);
-- одинаковый или легкозаменяемый формат данных (таблица, выборка);
-- упорядоченность по каким-либо критериям (нумерация, упорядоченность по времени);
-- наличие общего признака в структуре у всех элементов.
Проанализируем предложенные признаки.
Дополнительные данные, обычно называемые метаданными, просто необходимы для структурирования информации. Само разделение на объективные данные и метаданные применимо лишь в конкретном случае. Например, карточки в каталоге библиотеки являются метаданными для данных, содержащихся в книгах, а для карточек метаданными могут быть коды на ящиках каталога, для надписей на ящиках -- надписи на шкафах и т.д. Физически и структурно метаданные могут как входить в состав основных документов, так и располагаться отдельно, вплоть до образования собственных БД. Подробнее о метаданных будет сказано далее [2].
Поддержка разноформатных данных является самым очевидным признаком. Число форматов данных постоянно растет, и система обработки данных должна уметь работать с самыми разнообразными типами данных. Но внутри самой ИС поддержка множества форматов лишена смысла и накладывает дополнительные ограничения на вычислительные способности. Кроме того, пользователь, работающий с уже обработанной информацией, может не иметь на своем компьютере поддержку всех форматов данных. Поэтому система должна преобразовывать входные данные в близкие, но поддерживаемые форматы.
Упорядоченность данных предполагает наличие метаданных, отвечающих за нумерацию, или какие-то временные показатели -- время создания или изменения документа. Большинство современных файловых систем при создании нового файла автоматически присваивают ему параметры -- время создания и последнего изменения. Кроме того, каждый файл характеризуется местом своего размещения.
Последний признак является самым трудным и неопределенным. С этим понятием тесно связаны две задачи структурирования: классификация и кластеризация, которые требуют более детального рассмотрения [5].
Для компьютерной ИС, которая обрабатывает большие массивы входной информации, структурирование -- это процесс обработки, приводящий входную информацию к виду, допустимому для помещения в БД и дальнейшего использования. Обработка информации -- довольно широкое понятие, требующее конкретизации. В рамках нашей задачи структурирование это:
преобразование данных к стандартным или используемых системой форматам данных;
выбор категории, класса в иерархии данных системы;
создание метаданных.
Преобразование форматов данных уже было в достаточной степени рассмотрено выше. Выбор места в иерархии данных системы -- это отнесение данных к той или иной группе. Любые входные данные можно представить в виде некоторых классов иерархии, которые образуют дерево или часть дерева, построенного на основании критерия классификации. Как наиболее общие критерии для построения деревьев можно предложить следующие.
1. Тип данных. В современных компьютерных ИС это чаще всего:
--данные Intranet;
-- карточки, заполненные операторами;
-- готовые архивы и базы данных, взятые из внешних источников;
-- электронная почта, группы новостей;
-- документы.
2. Тематика. Отнесение данных к группе по тематическому признаку -- самый часто используемый и логичный критерий.
3. Алфавитный указатель. Банальный, но довольно удобный для поиска способ представления данных. Очень часто используется как дополнительный критерий сортировки.
Соединение тематического и алфавитного критериев обычно применяется в библиотечных каталогах. Аналогом типов данных для библиотек выступают виды издания печатной продукции: журнал, газета, книга, подшивка, собрание сочинений и т.д. Принадлежность к какому-то тематическому разделу в ИС определяется, как правило, человеком-экспертом. Для компьютерной ИС с полуавтоматизированным процессом структурирования данных рубрика выбирается с помощью весовых критериев. Весовой критерий рубрики -- это качественный показатель, по которому определяется степень соответствия данных тематическим рубликам. В самом простом случае значение веса предлагается определять как:
, p=1,2,… (1)
где -- вес данных, определяющий принадлежность к конкретной рубрике; S -- вес источника информации; -- вес ключевого слова, найденного в документе; max () -- вес самого «признанного» автора; -- вес ссылки на другой источник информации. Коэффициенты , , зависят от тематики информационного ресурса. Все численные значения весов определяются экспертом при построении системы, потом дорабатываются при настройке системы за счет анализа результатов автоматической рубрикации. Диапазон значений каждого из весов определяется для конкретного типа системы. Например, для рубрикации смешанного веб-контента самым значимым будет вклад ключевых слов, а для анализа документов кабинета министров сравнительный вклад веса автора документа значительно возрастает.
Уточним предложенную формулу. Данные относятся к той или иной рубрике на основании таких факторов:
1) ключевых слов -- принадлежность по ключевым словам является самой адекватной из всех предложенных и оказывает самое большое влияние на принадлежность к рубрике. Крайне желательно наложить ограничение на число ключевых слов входящих в расчет, выбирая из всех вариантов ключевые слова с наибольшим весом;
2) автора -- из всех авторов, принимавших участие в создании материалов, выбирается автор с максимальным весом ;
3) источника -- сайта, базы данных, электронного хранилища и т.д., откуда взята информация. Каждый зарегистрированный источник имеет свой заданный экспертом вес, который может меняться. Незарегистрированный источник получает некий средний вес, характерный для источников определенного типа;
4) ссылок на другие источники информации -- очень часто кроме источника данные содержат ссылки на различные информационные ресурсы: список литературы, перекрестные ссылки на сайтах; из всех ссылок выбирается ссылка с максимальным весом.
В идеале варьируя , , можно настроить структурирование информации под конкретную прикладную задачу. А меняя значение параметра p можно выявить неточности построения модели в случае возникновения резких расхождений при сравнение результатов структурирования для различных p.
При структурировании информации выдвигаются особые требования к метаданным; выделим следующие виды основных метаданных:
-- название;
-- аннотация;
-- рубрика;
-- формат данных;
-- дата создания;
-- даты изменений;
-- время жизни в системе;
-- время жизни в архиве системы;
-- ключевые слова;
Кроме этого в аспекте специфики ориентации обработки информации на аналитической деятельности выделим вспомогательные метаданные:
-- список авторов;
-- актуальность и схема убывания актуальности;
-- степень секретности;
-- значимость;
-- достоверность;
-- ссылки на другие документы в системе;
-- ссылки на ресурсы вне системы;
-- ссылки на дублирующую информацию;
-- место в общей иерархии данных.
Обоснуем использование некоторых из предложенных метаданных за исключением самых очевидных:
Список авторов -- документ может меняться некоторое число раз; последовательность записей на форуме может изначально разрабатываться как коллективный труд, поэтому необходимо указывать список авторов, чтобы осуществлять возможность поиска и перехода ко всем работам указанного автора или наоборот находить авторов каких-то документов. В дальнейшем будет показано использование метаданных «авторы» для выбора места в общей иерархии данных.
Актуальность является сложным понятием для метаданных. Особенно, если качественный показатель актуальности вычисляет система, а не человек. Актуальность меняется со временем и целым рядом факторов.
Поскольку актуальность для каждой конкретной группы данных меняется по особому закону -- необходимо при создании метаданных вносить не только качественные показатели актуальности, но и указывать зависимость изменения актуальности в будущем. В простейшем случае актуальность является просто убывающей функцией от времени, с графиком, близким к ветке гиперболы. Например, для уже упоминаемых Интернет-систем сайтов знакомств актуальность персональной анкеты характеризуется числом просмотров анкеты. На основании проведенных исследований была изучена зависимость актуальности анкеты от времени при равномерной деятельности пользователя. При этом наблюдается довольно высокий показатель числа просмотров сразу после поступления данных в ИС и потом его равномерное убывание со стремлением к постоянной (уровень остаточной актуальности). Любые изменения в анкете приводят, как правило, к изменению числа просмотров.
Актуальность информации в такой системе - это число просмотров за фиксированный интервал времени, например час, и зависит от:
-- типа данных;
-- источника информации;
-- его достоверности;
-- устаревания информации с течением времени;
-- влияния других данных.
На основании статистических данных была замечено, что графически описанная зависимость выглядит приблизительно так:
Довольно удачно удалось подобрать функцию, описывающую актуальность, применив модель импульсной задачи [6]:
, (2)
причем ,
А(t) - функция актуальности, k - коэффициент естественного убывания актуальности, H(t) - управляющая функция, - интервалы времени, на которых происходит воздействие управляющей функции, - функция Дирака, и минимальный и максимальный интервал между воздействием управляющей функции.
Кроме того необходимо ввести понятие актуальности тематики , которая задается экспертом и характеризует актуальность группы данных . Под тематикой можно понимать группу данных, характеризующихся близкими значениями метаданных:
-- формат данных;
-- рубрика;
-- источник;
-- время жизни в системе;
функция актуальности A;
коэффициентом естественного убывания актуальности k.
При создании ИС эксперт определяет основные тематики. Для каждой из которых вычисляет k, возможные управляющие функции H(t) и в зависимости от спецфики ИС задает значение .
Актуальность тематики является исключительно субъективным параметром, который характеризует насколько данное направление информации востребовано пользователями системы. Например, чтение личной пользы может быть очень популярным занятием для сотрудников корпорации и тоже время крайне негативно восприниматься руководством. Актуальность же напротив является чисто качественным показателем. Например, для украинской части Интернета свойственен порядок просмотров уникальной информации до 10в течении месяца. Самым просматриваемым Интернет ресурсом в мире на данный момент являются сайты корпорации Microsoft - 500 млн. пользователей за ноябрь 2006 года.
Степень секретности -- накладывает отграничения на использование информации. информация секретность достоверность каталог
Значимость -- качественный показатель, например от 1 до 100 единиц, определяющий степень важности документа. Например, конституция Украины может иметь значимость 100, а описание особенностей атмосферных бурь Сатурна -- 10. В тоже время, для систем какой-то особой тематики, возможно, допустима и обратная оценка.
Достоверность -- показывает достоверность источника информации. Например, закон, принятый Верховной Радой Украины (ВРУ), взятый с сайта ВРУ, обладает большей достоверностью, чем тот же документ, скачанный с персонального блога [7, 8].
«Ссылки на…» -- этот тип метаданных просто необходим для создания полноценной структуры данных. Через понятие связанности данных между собой определяется степень структурированности информации.
Учитывая все вышесказанное, можно сделать такие выводы и предложения, а также очертить следующие перспективы.
1. Рост объемов входных .данных в ИС повышает актуальность задачи структурирования информации и способствует увеличению степени автоматизации ИС.
2. Задача структурирования информации в компьютерной ИС представляется как комплекс:
-- задача преобразования данных к стандартным или используемых системой форматам данных;
-- задача выбора категории, класса в иерархии данных системы;
-- задача создания метаданных.
3. Предложен подход отнесения данных к рубрике на основании весовых критериев (1), что позволяет увеличить автоматизированность процесса структурирования.
4. Задачу создания метаданных следует рассматривать как ряд комплексных подзадач для каждого из предложенных выше типов метаданных. При создании такого вида метаданных как актуальность предложено задавать не только текущее значение актуальности данных, но и функцию изменения их в дальнейшем (2). Функция актуальности зависит от:
-- типа данных;
-- источника информации;
-- его достоверности;
-- устаревания информации с течением времени;
-- влияния других данных.
Предлагается использовать понятие актуальности тематики.
Литература
Ландэ Д.В. Основы интеграции информационных потоков: Монография. -- К.: Инжиниринг, 2006. -- 240 с.ITC online (http://www.itc.ua)
Конев В.В., Гареев А.Ф., Васютин С.В., Райх В.В. Базы данных. Интеллектуальная обработка информации. -- М.: Нолидж, 2000. -- 352 с.
Воройский Ф.С. Информатика. Новый систематизированный толковый словарь справочник. -- М.: Физматлит, 2003. -- 760 с.
Самойленко А.М., Перестюк Н.А. Дифференциальные уравнения с импульсным воздействием. -- К.: Вища школа, 1989.
Википедия (www.wikipedia.org)
Блоги-дневники (http://www.ucoz.ru/service/blog.html)
Размещено на Allbest.ru
Подобные документы
Механизм передачи информации, ее количество и критерии измерения. Единицы информации в зависимости от основания логарифма. Основные свойства и характеристики количества информации, ее энтропия. Определение энтропии, избыточности информационных сообщений.
реферат [33,9 K], добавлен 10.08.2009Факторы угроз сохранности информации в информационных системах. Требования к защите информационных систем. Классификация схем защиты информационных систем. Анализ сохранности информационных систем. Комплексная защита информации в ЭВМ.
курсовая работа [30,8 K], добавлен 04.12.2003Информация как объект хранения, преобразования и передачи. Объединение источников и получателей информации в информационную систему. Синтаксический, семантический и прагматический аспекты информации. Степень структуризации информационных данных.
презентация [36,5 K], добавлен 14.10.2013Виды угроз безопасности в экономических информационных системах: цель, источники, средства реализации. Основные пути несанкционированного доступа к информации. Методы и средства защиты, используемые в АИТ маркетинговой деятельности, их классификация.
реферат [30,1 K], добавлен 12.03.2011Методы и средства защиты информационных данных. Защита от несанкционированного доступа к информации. Особенности защиты компьютерных систем методами криптографии. Критерии оценки безопасности информационных компьютерных технологий в европейских странах.
контрольная работа [40,2 K], добавлен 06.08.2010Актуальность (своевременность) информации. Информационные ресурсы и информационные технологии. Подходы к определению количества информации. Свойства информации, ее качественные признаки. Роль информатики в развитии общества. Бит в теории информации.
презентация [200,9 K], добавлен 06.11.2011Содержательный и кибернетический подходы к определению и измерению информации. Кодирование символьной информации в компьютере. Линия информации и информационных процессов. Обзор процесса передачи информации по техническим каналам связи. Языки информатики.
презентация [173,0 K], добавлен 19.10.2014Технология сбора информации традиционными методами. Правила сбора оффлайновой информации. Технические средства сбора информации. Операции для быстрого восстановления данных в системах хранения. Технологический процесс и процедуры обработки информации.
курсовая работа [304,5 K], добавлен 02.04.2013Классификация информации как неотъемлемая часть информационного обеспечения управления, без которой невозможно эффективно и оперативно осуществлять управленческую деятельность. Категории классификаторов ТЭСИ и их статус (международные, общероссийские).
курсовая работа [57,2 K], добавлен 14.12.2010Препятствие, управление доступом, маскировка и регламентация как меры защиты информации в автоматизированных информационных системах. Особенности криптографического метода защиты информации. Изучение системы управления электронным документооборотом.
контрольная работа [38,4 K], добавлен 20.05.2019