Проблемы развития баз данных в концепции управления информацией

Модели, используемые большинством операционных систем для доступа к файлам и их блокирования как причина ненадежности технологий одновременного использования приложений. Методика определения среднего значения частоты терма в тематической коллекции.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 24.08.2020
Размер файла 15,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru

Размещено на http://www.allbest.ru

Проблемы развития баз данных в концепции управления информацией

Глаголев В.В., Никитин В.И.

Область применения БД достаточно обширна. Очевидно, что БД не могут существовать автономно, так как наличие данных само по себе не представляет большого интереса без необходимых функциональных возможностей, таких как, например, представление информации для пользователей и обеспечение взаимодействия в среде распределенных систем. На данный момент развития информационных технологий базы данных плодотворно и достаточно тесно контактируют c различными областями, в частности наука и образование.

Таким образом, можно сделать заключение о том, что распределенные БД требуют развитие сетевых сервисов.

Какие же существуют модели управления распределенной информацией в БД?

На ранней стадии использования информационных систем доминировала файловая модель обработки данных. Однако со средами приложений, основанных на файлах, был связан ряд очевидных проблем, заключались они в том, что данные повторялись в файлах, причем часто имели место противоречивые ситуации. Модели, используемые большинством операционных систем для доступа к файлам данных и их блокирования, делали одновременное использование приложений в лучшем случае ненадежным, а во многих случаях почти невозможным.

Различные архитектуры моделей данных конкурировали за превосходство на ранней стадии развития баз данных, иерархическая модель данных заняла достаточно высокое место благодаря системе IMS (Information Management System) компании IBM и ее языку баз данных DL/1 (Data Language/1). Иерархическая модель вообще и базы данных DL/1 в частности реализовались средствами древовидных структур с корневыми сегментами, имеющими физический указатель на другие сегменты. Одно из неудобств такой модели данных заключается в том, что реальный мир не может быть так легко представлен в виде древовидной структуры с единственным корневым сегментом. Иерархические базы данных обеспечивали указатели между различными деревьями БД, но обработка данных с использованием таких связей иногда могла оказаться неудобной [1].

Приблизительно в это же время сформировалась конкурирующая модель данных - сетевая модель данных была реализована в системе IDS (Integratet Data Store) компанией General Electric. В отличие от иерархических баз данных в сетевой модели данных нет необходимости в корневой записи, поскольку между типами записей могут быть созданы наборы без искусственных ограничений, свойственных иерархии. Вместе с тем и сетевая модель, так же как и иерархическая поддерживается с помощью физических указателей [1].

Однако исследования постоянно продвигаются в поисках лучшей модели, и наиболее популярной становится кардинально новая, независящая от физически реализуемых указателей - реляционная модель баз данных. Эта модель обеспечивает ряд возможностей, которые облегчают управленческие задачи [1].

Индустрия БД и управления информацией добилась значительных успехов не только во многих областях базовых технологий. Достигнуто также лучшее понимание потребностей пользователей в управлении распределенной информацией. Очевидно, что решены еще не все проблемы. Каковы же наиболее актуальные вопросы для исследования? Основными вопросами для разработки являются проблемы поддержки целостности баз данных, безопасности, масштабирования распределенных СУБД.

Проблемы целостности заключаются в том, что существуют несоответствия между представлениями и форматами данных, поступающих из разных источников. То есть, наблюдаются различия в способах кодирования, типах, размерах и семантики данных [2].

Таким образом, можно сделать вывод, что проблема семантической целостности носит более глубокий характер, нежели простое несоответствие в типизации данных, которое можно решить при помощи алгоритмов отображения. Необходимо ясно выявить способы разрешения семантических конфликтов и передачи этой информации между базами данных, с целью определения действий для достижения семантической целостности.

Что же можно предпринять для решения проблем связанных с управлением информации?

Для решения поставленных задач необходимо определить критерии, по которым осуществляется доступ к информации, так как основным параметром являются - ее достоверность.

Эти критерии могут способствовать эффективному управлению информацией. В настоящее время данными параметрами является релевантность, которая оценивает степень соответствия запросов пользователя, в соответствие с информацией, которая имеется и информационных системах. Поэтому на данный момент основными задачами являются не методы хранения информации, а методы и алгоритмы, которые позволяют производить быстрый и точный информационный поиск.

Каждая информационная система обладает собственными критериями, позволяющими осуществлять релевантный поиск. Для решения поставленной задачи можно использовать следующие критерии, которые позволят осуществлять поиск информации в информационной системе.

Для того чтобы определить насколько будет эффективен запрос к базе данных, необходимо определить коэффициент эффективности запроса. Этот коэффициент характеризует, насколько запрос пользователя будет эффективен по отношению к набору данных, над которыми должен производиться поиск.

Численно данный коэффициент определяется как сумма средних частот термов запроса, характеризуемых термами коллекции. Под термами мы понимаем набор ключевых слов, выбранных из документов, выборка которых соответствует тематике документа. Для решения данной задачи необходимо определить средние частоты термов, характеризующие коллекцию.

На основе тематических таблиц документов определяется среднее значение частоты терма в тематической коллекции:

,

где - частота вхождения терма в документ ;

- терм, характеризующий запрос;

- множество термов, характеризующих документы коллекции.

Таким образом, критерий оценки эффективности запроса определяется суммой средних частот термов коллекции.

терм файл приложение

.

В зависимости от полученной суммы, поиск начинается с той коллекции, которая характеризуется максимальным значением.

Например, имеется две базы данных содержащие по 1000 документов. Каждая из них характеризуется набором из 100 термов, характеризующих коллекцию. Пользователь формирует запрос на поиск данных, который состоит из трех термов t1, t2, t3. В первой коллекции данные термы характеризуются набором частот (0.01,0.01,0), а во второй - (0.01, 0.02, 0.005). Таким образом, эффективность запроса к первой коллекции равна 0,02, а ко второй 0,035. На основании данных чисел можно утверждать, что запрос ко второй коллекции будет более эффективным, чем к первой. Следовательно, поиск необходимо начинать с первой коллекции. То есть данный параметр не отражает объемы исходных документов, а характеризует их качество.

Еще одним из основных критериев характеризующими эффективность доступа к данным, являются время поиска и качество данных, удовлетворяющих запросу. Качество данных определяется коэффициентом релевантности. Коэффициент релевантности характеризует, насколько полученные данные соответствуют запросу.

С целью обеспечения эффективного доступа к данным и организации качественной выборки рассмотрим два метода оптимизации: оптимизация запросов к данным; оптимизация структур данных.

Оптимизация запросов к данным. Под оптимизацией запросов
понимается формирование эквивалентной формы запроса, с целью
выявления оптимальной последовательности подзапросов.

Оптимизация структур данных. Под оптимизацией структур данных принимается правило обхода дерева термов характеризующее сложные объекты. Для этого вводится понятие уровней вложенности объектов, на основании которых формируются запросы к тематическим таблицам. Таким образом, в первую очередь производится поиск над термами, которые характеризуют корень документа, а далее в низ по дереву к терминальным вершинам.

Подводя итог вышеизложенного, хочется отметить, что системы управления базами данных и системы управления информацией функционируют не в вакууме, а находятся под сильным влиянием важных тенденций в развитии информационных систем, например неоднородности и распределения ресурсов.

Они зависят также в значительной мере от других сфер сервиса в области информационных систем, таких, как пользовательские интерфейсы (для ввода совокупности команд и данных, а также для представления данных и результатов), коммуникаций (позволяющие распределенным системам общаться друг с другом).

Поэтуму для решения этой задачи наиболее перспективным является продвижение сервисов оперирующих данными на основе языка описаний XML, что позволяет достаточно прозрачно осуществлять их взаимодействие.

Литература

1. Гарсиа-Молина, Гектор, Ульман, Джефри Д., Уидом, Дженнифер Системы баз данных. Полный курс.: Пер. с англ.- М.: Издательский дом Вильямс, 2003.- с.: ил. - Парал. Тит. англ.

2. Саймон А.Р. Стратегические технологии баз данных: менеджмент на 2000 год: Пер. с англ./Под ред. и с предисл. М.Р. Когаловского. - М.: Финансы и статистика, 1999. - 479с.: ил.

Размещено на Allbest.ru


Подобные документы

  • Характеристика дискретного управления доступом. Особенности модели тип-домен, основанной на концепции минимальных привилегий. Unix-система права доступа файлов. Контролирование администратором доступа в мандатной системе, проблемы ее использования.

    реферат [253,2 K], добавлен 09.01.2012

  • Важнейшая задача компьютерных систем управления - хранение и обработка данных. Особенности применения в ОАО "ММК" системы управления реляционными базами данных "Oracle", предназначенной для одновременного доступа к большим объемам хранимой информации.

    курсовая работа [87,6 K], добавлен 04.12.2014

  • Права доступа к файлам и управление ими и другими атрибутами. Значения прав доступа для файлов и директорий. Набор файловых флагов. Команды управления процессами в операционной системе UNIX. Опции и значения программ архивации и сжатия - tar и gzip.

    контрольная работа [234,4 K], добавлен 16.01.2014

  • Анализ методов и средств контроля доступа к файлам. Проблемы безопасности работы с файлами, средства контроля доступа ним. Идеология построения интерфейса, требования к архитектуре. Работа классов системы. Оценка себестоимости программного продукта.

    дипломная работа [2,5 M], добавлен 21.12.2012

  • Задачи системы SQL Server. Организация одновременного доступа к данным большого количества пользователей. Манипуляция информацией в базах данных (БД). Инфологическое, логическое и физическое проектирование БД. Разработка запросов, процедур, триггеров.

    курсовая работа [3,1 M], добавлен 11.05.2012

  • Характеристика сущности, назначения, функций операционных систем. Отличительные черты их эволюции. Особенности алгоритмов управления ресурсами. Современные концепции и технологии проектирования операционных систем, требования, предъявляемые к ОС XXI века.

    курсовая работа [36,4 K], добавлен 08.01.2011

  • Определение базы данных и банков данных. Компоненты банка данных. Основные требования к технологии интегрированного хранения и обработки данных. Система управления и модели организации доступа к базам данных. Разработка приложений и администрирование.

    презентация [17,1 K], добавлен 19.08.2013

  • Назначение, классификация, состав и назначение компонентов операционных систем. Разработка сложных информационных систем, комплексов программ и отдельных приложений. Характеристика операционных систем Windows, Linux, Android, Solaris, Symbian OS и Mac OS.

    курсовая работа [2,1 M], добавлен 19.11.2014

  • Основные выпуски (редакции) операционных систем Windows Vista и Windows Seven, их недостатки и преимущества. История создания, совместимость приложений с операционными системами. Новшества, которые принесла в мир компьютерных технологий каждая из систем.

    реферат [66,3 K], добавлен 17.02.2011

  • Анализ технологий развития телекоммуникационными сетями и структурной модели бизнес-процессов телекоммуникационного предприятия с целью определения архитектуры ИТС. Классификация направлений использования ГИС-технологий в телекоммуникационной области.

    автореферат [805,3 K], добавлен 04.01.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.