Информационные системы и информация
Типы и организация хранения данных. Прагматическое назначение, понятие и элементы достоверности данных. Классификация и кодирование экономических данных. Понятие поиска данных. Операции манипулирования данными. Понятие и назначение модели данных.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | шпаргалка |
Язык | русский |
Дата добавления | 06.03.2011 |
Размер файла | 117,2 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Понятия «информация» и «информационная система»
Информация, есть комплекс логически связанных мыслей возникших в сознании на основании полученных данных. Информация (от лат. informatio -- осведомление, разъяснение, изложение, от лат. informare -- придавать форму) -- в широком смысле абстрактное понятие, имеющее множество значений, в зависимости от контекста.
В узком смысле этого слова -- сведения (сообщения, данные) независимо от формы их представления. Сведения об объектах живой или неживой природы, их свойствах и взаимном влиянии друг на друга.
В настоящее время не существует единого определения термина информация. С точки зрения различных областей знания, данное понятие описывается своим специфическим набором признаков.
Информация (в общем смысле) -- это все, что может воспринять человек.
Термин информационная система (ИС) используется как в широком, так и в узком смысле.
В широком смысле информационная система есть совокупность технического, программного и организационного обеспечения, а также персонала, предназначенная для того, чтобы своевременно обеспечивать надлежащих людей надлежащей информацией.
Федеральный закон Российской Федерации от 27 июля 2006 г. «Об информации, информационных технологиях и о защите информации» даёт следующее определение: «информационная система -- совокупность содержащейся в базах данных информации и обеспечивающих ее обработку информационных технологий и технических средств».
По мнению одних авторов, ИС в широком смысле включает в себя персонал, её эксплуатирующий, по мнению других -- нет.
В узком смысле информационной системой называют только подмножество компонентов ИС в широком смысле, включающее базы данных, СУБД и специализированные прикладные программы.
В любом случае основной задачей ИС является удовлетворение конкретных информационных потребностей в рамках конкретной предметной области. Современные ИС де-факто немыслимы без использования баз данных и СУБД, поэтому термин «информационная система» на практике сливается по смыслу с термином «система баз данных».
Типы данных. Организация хранения данных во внешней памяти
Тип данных -- фундаментальное понятие теории программирования. Тип данных определяет множество значений, набор операций, которые можно применять к таким значениям и, возможно, способ реализации хранения значений и выполнения операций. Любые данные, которыми оперируют программы, относятся к определённым типам.
Тип (сорт) -- относительно устойчивая и независимая совокупность элементов, которую можно выделить во всём рассматриваемом множестве (предметной области).
Полиморфный тип -- представление набора типов как единственного типа.
Математически тип может быть определён двумя способами:
Множеством всех значений, принадлежащим типу.
Предикатной функцией, определяющей принадлежность объекта к данному типу
Компьюмтерная паммять (устройство хранения информации, запоминающее устройство) -- часть вычислительной машины, физическое устройство или среда для хранения данных, используемых в вычислениях, в течение определённого времени. Память, как и центральный процессор, является неизменной частью компьютера с 1940-х. Память в вычислительных устройствах имеет иерархическую структуру и обычно предполагает использование нескольких запоминающих устройств, имеющих различные характеристики.
Повторяет классификацию структур данных:
Адресуемая память -- адресация осуществляется по местоположению данных.
Ассоциативная память -- адресация осуществляется по содержанию данных, а не по их местоположению.
Магазинная (стековая) память -- реализация стека.
Стек (англ. stack -- стопка) -- структура данных с методом доступа к элементам LIFO (англ. Last In -- First Out, «последним пришёл -- первым вышел»). Чаще всего принцип работы стека сравнивают со стопкой тарелок: чтобы взять вторую сверху, нужно снять верхнюю.
Матричная память -- ячейки памяти расположены так, что доступ к ним осуществляется по двум или более координатам.
Объектная память -- память, система управления которой ориентирована на хранение объектов. При этом каждый объект характеризуется типом и размером записи.
Семантическая память-- данные размещаются и списываются в соответствии с некоторой структурой понятийных признаков.
Источники экономических данных. Цель функционирования информационной системы
Информационная система - организационно-техническая система, которая предназначена для выполнения информационно-вычислительных работ или предоставления информационно-вычислительных работ или предоставления информационно-вычислительных услуг, удовлетворяющих потребности системы управления и ее пользователей - управленческого персонала, внешних пользователей путем использования и/или создания информационных продуктов. Информационные системы существуют в рамках системы управления и полностью подчинены целям функционирования этих систем.
Информационно-вычислительная работа - деятельность, связанная с использованием информационных продуктов. Типичным примером информационной работы является поддержка информационных технологий управления.
Информационно-вычислительная услуга - это разовая информационно-вычислительная работа.
Под информационным продуктом понимается вещественный или нематериальный результат интеллектуального человеческого труда, обычно материализованный на определенном носителе, например разнообразных программных продуктов, выходной информации в виде документов управления, баз данных, хранилищ данных, баз знаний, проектов ИС и ИТ.
Методологическую основу изучения ИС составляет системный подход, в соответствии с которым любая система представляет собой совокупность взаимосвязанных объектов, функционирующих совместно для достижения общей цели.
Информационная система представляет собой совокупность функциональной структуры, информационного, математического, технического, организационного и кадрового обеспечения, которые объединены в единую системы в целях сбора, хранения, обработки и выдачи необходимой информации для выполнения функций управления. Она обеспечивает информационные потоки:
i-1 - информационный поток из внешней среды в систему управления, который, с одной стороны, представляет собой поток нормативной информации, создаваемый государственными учреждениями в части законодательства, а с другой стороны - поток информации о конъюнктуре рынка, создаваемый конкурентами, потребителями, поставщиками;
i-2 - информационный поток из системы управления во внешнюю среду (отчетная информация, прежде всего финансовая в государственные органы, инвесторам, кредиторам, потребителям; маркетинговая информация потенциальным потребителям);
i-3 - информационный поток из системы управления на объект, представляет собой совокупность плановой, нормативной и распорядительной информации для осуществления хозяйственных процессов;
i-4 - информационный поток от объекта в систему управления, который отражает учетную информацию о состоянии объекта управления экономической системой (сырья, материалов, денежных, энергетических, трудовых ресурсов, готовой продукции и выполненных услугах) в результате выполнения хозяйственных процессов.
Прагматическое назначение данных. Показатели прагматической оценки данных
(от греч. рс?гмб, род. п. рс?гмбфпт -- дело, действие) -- область исследований в семиотике и языкознании, в которой изучается функционирование языковых знаков в речи. Термин «прагматика» введён в конце 30?х гг. 20 в. Ч. У. Моррисом как название одного из разделов семиотики, которую он разделил на семантику, изучающую отношение знаков к объектам, синтактику -- раздел о межзнаковых отношениях, и прагматику, исследующую отношение к знакам говорящих. Выделение и формирование прагматики в качестве области лингвистических исследований, стимулированное идеями Ч. С. Пирса, началось в 60?х -- начале 70?х гг. под влиянием логико-философских теорий речевых актов Дж. Остина, Дж. Р. Сёрла, З. Вендлера и других (см. Речь), прагматических теорий значения П. Грайса и прагматических теорий референции Л. Линского, Сёрла, П. Ф. Стросона и др. Лингвистическая прагматика не имеет чётких контуров, в неё включается комплекс вопросов, связанных с говорящим субъектом, адресатом, их взаимодействием в коммуникации, ситуацией общения.
В связи с субъектом речи изучаются: 1) явные и скрытые цели высказывания («иллокутивные силы», по Остину), например сообщение некоторой информации или мнения, вопрос, приказ, просьба, совет, обещание, извинение, приветствие, жалоба и т. п.; 2) речевая тактика и типы речевого поведения; 3) правила разговора, подчиненные так называемому принципу сотрудничества, рекомендующему строить речевое общение в соответствии с принятой целью и направлением разговора, например адекватно нормировать сообщаемую информацию (максима количества), сообщать только истинную информацию и обоснованные оценки (максима качества), делать сообщение релевантным относительно темы разговора (максима отношения), делать речь ясной, недвусмысленной и последовательной (максимы манеры речи); эти правила, сформулированные Грайсом, получили название конверсационных максим или максим ведения разговора; 4) установка говорящего, или прагматическое значение высказывания: косвенные смыслы высказывания, намёки, иносказание, обиняки и т. п.; 5) референция говорящего, т. е. отнесение языковых выражений к предметам действительности, вытекающее из намерения говорящего; 6) прагматические пресуппозиции: оценка говорящим общего фонда знаний, конкретной информированности, интересов, мнений и взглядов, психологического состояния, особенностей характера и способности понимания адресата; 7) отношение говорящего к тому, что он сообщает: а) оценка содержания высказывания (его истинность или ложность, ирония, многозначительность, несерьёзность и пр.), б) введение в фокус интереса одного из тех лиц, о которых говорящий ведет речь, или эмпатия (термин С. Куно), в) организация высказывания в соответствии с тем, чему в сообщении придаётся наибольшее значение.
В автоматическом анализе текста энциклопедическая информация, в т. ч. прагматические данные, организуется в форме сценариев или «фреймов» (термин М. Минского), моделирующих знание о типичных ситуациях и позволяющих правильно интерпретировать содержание текста. Прагматические сведения используются также в информационно-поисковых диалоговых (интерактивных) системах. Категории прагматики вошли в ряд философских логик, предполагающих учёт пропозициональных установок (логика оценок, логика практического рассуждения и др.).
Понятие достоверности данных. Влияние информационной системы на достоверность данных
Существует много аспектов данных, которые важны, но нет ничего более важного, чем достоверность данных. Если данные полностью достоверны, можно предпринимать хорошие, взвешенные решения. При этом фактор догадок минимален, и существует меньше конфликтующих вариантов, основанных на связанных, но несколько отличающихся данных. Вся организация получает возможность концентрироваться и пребывать в гармонии. Без достоверных данных у организации возникают трудности с информированностью и принятием правильных решений.
Одним словом, иметь данные - это хорошо, но если они достоверные - ещё лучше.
Элементы достоверности данных
Итак, каковы же элементы достоверности данных? Данные - это как отшлифованный драгоценный камень. Существует много аспектов данных, и каждый из аспектов является важным фактором при проверке достоверности данных.
Одни из самых важных аспектов для небольших объёмов данных представлены ниже:
Безошибочность. Если данные неточные, им нельзя верить.
Своевременность. Если данные несвоевременные, им нельзя верить.
Доступность. Если данные недоступны, их нельзя использовать, и им тяжело верить.
Точность. Для того чтобы данным можно было верить, их точность должна соответствовать точности измеряемой величины.
Источник. Во многих случаях важен источник данных (data source). Если источник скрыт или неизвестен, тогда данным можно верить гораздо меньше.
Определение данных (data definition). Определение данных важно, так как при их использовании целевая группа знает, что описывается.
Скорость доступа. Если данные нельзя получить быстро, они становятся гораздо менее полезными и со временем им можно гораздо меньше верить.
Изменчивость во времени. Некоторые данные соответствуют действительности только на определенный момент времени. В этом случае для достоверности данных необходимо предоставление данных на определенный момент времени.
Представление. Данные, представленные американской аудитории на китайском или японском языке, не могут быть использованы ею, за исключением тех, кто говорит и читает на китайском или японском языке.
Структурирование. Для того чтобы использоваться данные должны иметь определенный уровень структурирования.
Безопасность. Некоторые данные необходимо обезопасить. Другие данные должны быть доступны для всех, кто хочет их узнать. Для того чтобы быть достоверными, определенные данные должны быть безопасными.
Момент получения данных. Когда впервые были получены данные?
Для обеспечения достоверности данных, которые создаются в результате расчётов, необходимо соответствие другим факторам. Вот некоторые из этих факторов:
Расчёты, используемые для получения единицы данных.
Дата и время, когда были произведены расчёты.
Организация, выполнившая расчёты.
Необработанные данные, включенные в расчёты.
Необработанные данные, исключенные из расчётов.
Экономические показатели и документы: определение, структура, назначение
Экономический показатель - обобщенный количественный параметр социально-экономических явлений и процессов в единстве с их качественными характеристиками.
Экономические показатели (индикаторы), величины или характеристики, показывающие состояние экономики. Их динамика задается статистическим рядом рассчитываемых, как правило еженедельно, ежемесячно или ежеквартально значений, который помогает обнаружить тенденции развития экономики и предсказать ее будущее. Краткосрочные процессы и явления, отражающиеся на состоянии экономики, весьма многообразны. Некоторые из них регулярно повторяются в определенное время года, как, например, резкое увеличение объема розничных продаж накануне Нового года. Среди других важных для экономической жизни событий можно выделить забастовки и необычные погодные условия, начало и прекращение войн, общий спад деловой активности, начало экономического подъема или спекулятивного бума. Поскольку различные факторы действуют от нескольких недель до нескольких лет, очень важно иметь информацию, регулярно обновляемую через достаточно короткие промежутки времени.
Общие экономические показатели
Среди экономических индикаторов первостепенное значение имеют показатели состояния и результатов функционирования экономики в целом, которые часто называют агрегированными показателями. Вероятно, наиболее широко используемым показателем такого рода является валовой внутренний продукт (ВВП). Он представляет стоимость всех товаров и услуг, произведенных на территории страны фермами, фабриками и заводами, шахтами, электростанциями, железными дорогами, розничными магазинами, государственными организациями, банками и прочими производственными единицами. Другим важным агрегированным показателем состояния экономики является численность занятых, которая оценивается ежемесячно. С ним тесно взаимосвязан третий показатель - число безработных.
Поправки на сезонные колебания
При анализе этих и некоторых других показателей почти всегда желательно вычленять регулярные сезонные колебания значений из прочих колебаний. Данная операция производится путем расчета значений годовых сезонных колебаний на основе данных прошлых лет и последующего внесения поправок в текущие значения либо вычитания из них. Многие показатели публикуются с поправкой на сезонные колебания, другие - без такой поправки. Одно из преимуществ учета поправок состоит в том, что он позволяет сопоставлять текущие значения не только со значениями соответствующего месяца прошлого года, но и со значениями предыдущего или любого другого месяца. Нескорректированные на сезонные колебания данные обычно сопоставляются с прошлогодними данными для того же месяца. Однако в тех случаях, когда возникает необходимость быстро и точно выявить новую тенденцию в экономике, особое значение приобретают сравнения данных за более короткие, чем год, промежутки времени. Следовательно, требуется использовать данные, скорректированные на сезонные колебания.
Простая и составная единицы экономических данных. Операции с единицами данных.
Основной структуризации является экономический документ. Документ - составная единица данных.
СЕД
Реквезит Реквезит
Основания признака
Элементарная единица данных
2 характеристики
1)имя
2) занчение
Составная единица имеет 3 характеристики:
Имя, структуа, значение
Агрегат данных - поименованная совокупность элементов данных которую можно рассматривать как единое целое.
Запись - поименнованая совокупность элементов данных и агрегатов.
Набор - поименнованая совокупность записей, образующих двухуровневую иерархическую структуру.
База данных - поименнованая совокупность, экземпляров записей, содержащие ссылки представленные экземплярами наборов.
Модель вычисления итоговых данных на основе первичных
Первичные ключи. Каждая таблица должна иметь уникальный идентификатор, или первичный ключ, который может состоять из одного или нескольких полей таблицы.
Для каждого значения первичного ключа должно быть одно и только одно значение любого из столбцов данных, и это значение должно относится к объекту таблицы. То есть вся информация. Которая относится к этому объекту должна находится в этой таблицы, а которая не относится должна находится в другой таблице.
В каждой из таблиц осталась информация только об одном объекте
Классификация и кодирование экономических данных. Методы классификации
При обработке экономических данных и составлении различных сводок возникает необходимость в группировке по реквизитам-признакам. Группировка осуществляется на основе систем классификации и кодирования.
Классификация заключается в распределении элементов множества на подмножества на основании зависимостей внутри признаков. Например, при кодировании товаров выделяются такие классификационные признаки, как группа, подгруппа, сорт (артикул), размер.
Номенклатура товаров -- это упорядоченный полный список однородных наименований, включающий отдельные строки - позиции.
В Единую систему классификации и кодирования (ЕСКК) входят:
Общегосударственные, предназначенные для информационного обмена между различными АИС, разрабатываются в централизованном порядке. Примерами являются классификаторы продукции, административно-территориального деления страны, отраслей, профессий, предприятий и организаций, единиц измерения, документации, налогоплательщиков и т.д.
Отраслевые, единые для отдельных отраслей такие, как банковские коды планов счетов, виды оплат и удержаний из заработной платы, видов операций движения материальных ценностей и др.
Локальные, составленные для АИС предприятий и организаций, такие, как коды структурных подразделений, табельных номеров работающих, дебиторов и кредиторов и др.
Различают два метода классификации:
Иерархический метод - между классификационными группами устанавливаются отношения подчинения, последовательной детализации свойств типа: класс - подкласс - группа - подгруппа - вид и т.д. В иерархической классификации каждый объект попадает только в одну классификационную группировку, объединение группировок одного иерархического уровня дает исходное множество объектов. Глубина иерархии определяется классификационными признаками.
Фасетный метод - исходное множество объектов разбивается на подмножества в соответствии со значениями отдельных фасетов. Фасет - набор значений одного признака классификации. Фасеты взаимно независимы. Каждый объект может одновременно входить в различные классификационные группировки.
Следующим этапом после классификации идет кодирование или процесс присвоения новых условных обозначений различным позициям номенклатурам по определенным правилам, установленным системой кодирования. Примером кодового обозначения является идентифицированный номер налогоплательщика, включающий десять знаков; первый и второй знак означают территорию, третий и четвертый -- номер государственной налоговой инспекции, остальные -- номер налогоплательщика и контрольный разряд.
В машине хранится справочник работающих, включающий фамилию, имя, отчество, табельный номер, должность, оклад и пр. В ходе обработке по табельному номеру выбирается вся необходимая справочная информация и печатается в выходных ведомостях. Коды могут быть: цифровые, буквенные, смешанные.
К кодам предъявляются следующие требования:
должны охватывать все номенклатуры, по которым делается группировка;
быть едиными для разных задач внутри одного экономического объекта;
должны быть стабильными, часто не пересматриваться;
иметь резерв на случай появления новых позиций номенклатуры;
быть экономичными, т.е. обладать минимальной значностью.
Назначение кодов состоит в обеспечении группировки информации, подсчете итогов по группировочным признакам и их печати в выходных ведомостях. Коды необходимы для удобства поиска информации, хранения и выборки, передачи ее по каналам связи.
Наибольшее распространение получили системы кодирования: порядковая, серийная, позиционная и комбинированная.
Штриховое кодирование. Штриховой код точно и однозначно определяет каждый конкретный товар, т.е. по штриховому коду можно находить товар и его характеристики, хранящиеся в базе данных торговой системы. В России, как и в других Европейских странах, используется штриховой код стандарта EAN-13.
Он включает 13 цифр: первые определяют, где товар произведен в России; следующие цифры - это код предприятия, которое произвело данный товар; пять цифр - код товара; одна цифра - контрольная сумма, вычисляемая автоматически по определенной формуле над предыдущими цифрами.
Классификация и кодирование экономических данных. Структура кодов
При обработке экономических данных и составлении различных сводок возникает необходимость в группировке по реквизитам-признакам. Группировка осуществляется на основе систем классификации и кодирования.
Классификация заключается в распределении элементов множества на подмножества на основании зависимостей внутри признаков. Например, при кодировании товаров выделяются такие классификационные признаки, как группа, подгруппа, сорт (артикул), размер.
Номенклатура товаров -- это упорядоченный полный список однородных наименований, включающий отдельные строки - позиции.
В Единую систему классификации и кодирования (ЕСКК) входят:
Общегосударственные, предназначенные для информационного обмена между различными АИС, разрабатываются в централизованном порядке. Примерами являются классификаторы продукции, административно-территориального деления страны, отраслей, профессий, предприятий и организаций, единиц измерения, документации, налогоплательщиков и т.д.
Отраслевые, единые для отдельных отраслей такие, как банковские коды планов счетов, виды оплат и удержаний из заработной платы, видов операций движения материальных ценностей и др.
Локальные, составленные для АИС предприятий и организаций, такие, как коды структурных подразделений, табельных номеров работающих, дебиторов и кредиторов и др.
Следующим этапом после классификации идет кодирование или процесс присвоения новых условных обозначений различным позициям номенклатурам по определенным правилам, установленным системой кодирования. Примером кодового обозначения является идентифицированный номер налогоплательщика, включающий десять знаков; первый и второй знак означают территорию, третий и четвертый -- номер государственной налоговой инспекции, остальные -- номер налогоплательщика и контрольный разряд.
В машине хранится справочник работающих, включающий фамилию, имя, отчество, табельный номер, должность, оклад и пр. В ходе обработке по табельному номеру выбирается вся необходимая справочная информация и печатается в выходных ведомостях. Коды могут быть: цифровые, буквенные, смешанные.
К кодам предъявляются следующие требования:
должны охватывать все номенклатуры, по которым делается группировка;
быть едиными для разных задач внутри одного экономического объекта;
должны быть стабильными, часто не пересматриваться;
иметь резерв на случай появления новых позиций номенклатуры;
быть экономичными, т.е. обладать минимальной значностью.
Назначение кодов состоит в обеспечении группировки информации, подсчете итогов по группировочным признакам и их печати в выходных ведомостях. Коды необходимы для удобства поиска информации, хранения и выборки, передачи ее по каналам связи.
Наибольшее распространение получили системы кодирования: порядковая, серийная, позиционная и комбинированная.
Штриховое кодирование. Штриховой код точно и однозначно определяет каждый конкретный товар, т.е. по штриховому коду можно находить товар и его характеристики, хранящиеся в базе данных торговой системы. В России, как и в других Европейских странах, используется штриховой код стандарта EAN-13. Он включает 13 цифр: первые определяют, где товар произведен в России; следующие цифры - это код предприятия, которое произвело данный товар; пять цифр - код товара; одна цифра - контрольная сумма, вычисляемая автоматически по определенной формуле над предыдущими цифрами.
Уровни объединения данных в терминах КОДАСИЛ. Понятие логической и физической записи
КОДАСИЛ (постоянно действующая) конференция по информационным системам и языкам программирования разработчик средств обработки информации, а также стандарт на языковой интерфейс управления базами данных.
Конференция по языкам систем обработки данных) -- организация (название произносится «кодасил»), принимавшая активное участие в эволюции информационных технологий в 60-80-е годы XX века. Основана в 1959 для разработки стандартного языка программирования, этот язык получил название COBOL.
Запись логическая - поименованная совокупность данных, рассматриваемая пользователем как одно целое.
Запись физическая - совокупность данных записываемых (считываемых) одним блоком.
Метод КОДАСИЛ мало пригоден , если АИС реализована в виде дескрипторной , объектно-характеристической или триадной структуры . Но для реляционных , иерархических и сетевых структур метод КОДАСИЛ достаточно эффективен.
Основной недостаток метода КОДАСИЛ - большая избыточность данных . Один из примеров такой избыточности - повторяющиеся группы.
В настоящее время реляционные АИС нашли широкое распространение в среде современных персональных компьютеров.
Методы сортировки
Основными операциями, выполняемыми над таблицами, являются упорядочение (сортировка) записей и поиск в таблице записи по заданному условию( по ключу ). Сортировка является операцией расстановки записей таблицы в определенном порядке в соответствии с некоторым критерием упорядочения. Сортировка осуществляется в соответствии со значением ключей всех записей (напр., упорядочение фамилий по алфавиту или чисел по возрастанию ). Существует достаточно много методов сортировки, принципиально отличающихся друг от друга. Если таблица целиком помещается в оперативной памяти ЭВМ,то ее упорядочение называют внутренним. Если для хранения упорядочиваемых данных используются внешнее запоминающее устройство, то такое упорядочение называют внешним
Понятие поиска данных. Алгоритмы поиска
Поиск данных -- раздел информатики, изучающий алгоритмы для поиска и обработки информации как в структурированных (см. напр. базы данных) так и неструктурированных (напр., текстовый документ) данных. Поиск данных неразрывно связан с понятием фильтрации данных.
В общем случае, поиск означает исследование чего-либо с целью нахождения неочевидной, утерянной или спрятанной части. Поиск данных обычно связан с обработкой некоторого хранилища данных, прочесть или осознать которые последовательно не представляется возможным, с целью найти интересующее постановщика задачи подмножество этих данных (или установить их отсутствие). Алгоритмы эффективного поиска существовали задолго до появления компьютеров и применялись, к примеру, для нахождения книг в библиотеках. Существует неинформированный поиск данных, когда алгоритмы могут обрабатывать любые данные независимо от их сути, например, побитовый поиск. Часто, более эффективными является информированный поиск, например, системы автоматизированного нахождения отпечатков пальцев, фонетический поиск в текстах и т. д.
Поиск данных в информатике включает в себя несколько подразделов:
информационный поиск
полнотекстовый поиск
Фильтр (информатика)
Базовые алгоритмы поиска
поиск в списке
поиск в дереве
поиск по графу
Способы ускорения поиска данных. Структура и назначение индексов
Подобно оглавлению в книге, помогающему отслеживать ее содержание, индекс в Windows отслеживает файлы на компьютере. В индексе хранятся сведения о файлах, в том числе имя файла, дата изменения и такие свойства, как имя автора, метки и оценка. Индекс нельзя увидеть, но он используется Windows для выполнения очень быстрого поиска часто используемых файлов на компьютере.
Индекс делает поиск файлов гораздо более быстрым. Вместо того, чтобы искать имя файла или его свойство по всему жесткому диску, Windows просматривает индекс, что позволяет получить большинство результатов за малую долю того времени, которое потребовалось бы для поиска без индекса.
Ускорение поиска данных
Например, при записи текстовых полей в базе данных может рассчитываться их хеш код и данные могут помещаться в раздел, соответствующий этому хеш-коду. Тогда при поиске данных надо будет сначала вычислить хеш-код текста и сразу станет известно, в каком разделе их надо искать, то есть, искать надо будет не по всей базе, а только по одному её разделу (это сильно ускоряет поиск).
Бытовым аналогом хеширования в данном случае может служить помещение слов в словаре по алфавиту. Первая буква слова является его хеш-кодом, и при поиске мы просматриваем не весь словарь, а только нужную букву.
Хеширование (иногда хэширование, англ. hashing) -- преобразование входного массива данных произвольной длины в выходную битовую строку фиксированной длины. Такие преобразования также называются хеш-функциями или функциями свёртки, а их результаты называют хешем, хеш-кодом
Операции манипулирования данными. Алгоритм операции модификации массива
Команды языка манипулирования данными (data manipulation language - DML) используются для изменения информации в базе данных.
INSERT вставляет новые строки в таблицу БД. Команда в виде, приведенном на слайде, вставляет только одну строку.
UPDATE обновляет существующую строку (или набор строк) в таблице. Число измененных строк определяется условием WHERE. Если условие WHERE нет в команде UPDATE, тогда обновляются все строки таблицы.
DELETE удаляет строки из таблицы. Подобно UPDATE число удаленных строк определяется условием WHERE. При отсутствии условие WHERE удаляются все строки таблицы.
В большинстве используемых систем эти команды напрямую не вводятся. Они генерируются приложением.
Примечание. Ключевое слово NULL во фразе VALUES команды INSERT и SET команды UPDATE делает соответствующий столбец строки пустым. NULL - это не пробел и не ноль; это просто отсутствие значения совсем. Ключевое слово SYSDATE приводит к вставке текущей даты в столбец с типом данных DATE.
Алгоритм операции модификации списка
Команды языка манипулирования данными (data manipulation language - DML) используются для изменения информации в базе данных.
INSERT вставляет новые строки в таблицу БД. Команда в виде, приведенном на слайде, вставляет только одну строку.
UPDATE обновляет существующую строку (или набор строк) в таблице. Число измененных строк определяется условием WHERE. Если условие WHERE нет в команде UPDATE, тогда обновляются все строки таблицы.
DELETE удаляет строки из таблицы. Подобно UPDATE число удаленных строк определяется условием WHERE. При отсутствии условие WHERE удаляются все строки таблицы.
В большинстве используемых систем эти команды напрямую не вводятся. Они генерируются приложением.
Примечание. Ключевое слово NULL во фразе VALUES команды INSERT и SET команды UPDATE делает соответствующий столбец строки пустым. NULL - это не пробел и не ноль; это просто отсутствие значения совсем. Ключевое слово SYSDATE приводит к вставке текущей даты в столбец с типом данных DATE.
Алгоритм сортировки -- это алгоритм для упорядочения элементов в списке. В случае, когда элемент списка имеет несколько полей, поле, служащее критерием порядка, называется ключом сортировки. На практике в качестве ключа часто выступает число, а в остальных полях хранятся какие-либо данные, никак не влияющие на работу алгоритма.
Устойчивость (stability) -- устойчивая сортировка не меняет взаимного расположения равных элементов.
Естественность поведения -- эффективность метода при обработке уже упорядоченных, или частично упорядоченных данных. Алгоритм ведёт себя естественно, если учитывает эту характеристику входной последовательности и работает лучше.
Использование операции сравнения. Алгоритмы, использующие для сортировки сравнение элементов между собой, называются основанными на сравнениях. Минимальная трудоемкость худшего случая для этих алгоритмов составляет , но они отличаются гибкостью применения. Для специальных случаев (типов данных) существуют более эффективные алгоритмы.
Алгоритм операции модификации дерева
Команды языка манипулирования данными (data manipulation language - DML) используются для изменения информации в базе данных.
INSERT вставляет новые строки в таблицу БД. Команда в виде, приведенном на слайде, вставляет только одну строку.
UPDATE обновляет существующую строку (или набор строк) в таблице. Число измененных строк определяется условием WHERE. Если условие WHERE нет в команде UPDATE, тогда обновляются все строки таблицы.
DELETE удаляет строки из таблицы. Подобно UPDATE число удаленных строк определяется условием WHERE. При отсутствии условие WHERE удаляются все строки таблицы.
В большинстве используемых систем эти команды напрямую не вводятся. Они генерируются приложением.
Примечание. Ключевое слово NULL во фразе VALUES команды INSERT и SET команды UPDATE делает соответствующий столбец строки пустым. NULL - это не пробел и не ноль; это просто отсутствие значения совсем. Ключевое слово SYSDATE приводит к вставке текущей даты в столбец с типом данных DATE.
Иерархическая модель может быть представлена как древовидный граф с записями в виде узлов (которые также называются сегментами) и множествами в виде ребер. Для моделирования информации с помощью древовидной структуры используется обобщенное дерево, состоящее из узлов, соединенных связями, называемых дугами или ребрами. Самый верхний узел называется корневым узлом. В структуре дерева могут быть выделены поддеревья, каждое из которых исходит из одного родительского узла (дочернего для узла более высокого уровня). Все узлы дерева, за исключением корневого, должны иметь родительский узел. Узлы представляют интересующие нас объекты, а связи между ними определяются самим расположением узлов и ребер, образующих данную древовидную структуру.
Основанные на записях (логические) модели данных используются для определения общей структуры базы данных и высокоуровневого описания ее реализации. Их основной недостаток заключается в том, что они не дают адекватных средств для явного указания ограничений, накладываемых на данные. В то же время в объектных моделях данных отсутствуют средства указания их логической структуры, но за счет предоставления пользователю возможности указать ограничения для данных, они позволяют в большей мере представить семантическую суть хранимой информации.
Большинство современных систем БД основано на реляционной парадигме, тогда как самые первые системы баз данных строились на основе сетевой или иерархической модели. При использовании последних двух моделей от пользователя требуется знание физической организации базы данных, к которой он должен осуществлять доступ, в то время как при работе с реляционной моделью независимость от данных обеспечивается в значительно большей степени. Следовательно, если в реляционных системах для обработки информации в базе данных принят декларативный подход (т.е. они указывают, какие данные следует извлечь), то в сетевых и иерархических системах - навигационный подход (т.е. они указывают, как их следует извлечь).
Понятие и назначение модели данных. Виды моделей
Ядром любой базы данных является модель данных. Модель данных представляет собой множество структур данных, ограничений целостности и операций манипулирования данными. С помощью модели данных могут быть представлены объекты предметной области и взаимосвязи между ними.
Модель данных - совокупность структур данных и операций их обработки.
СУБД основывается на использовании иерархической, сетевой или реляционной модели, на комбинации этих моделей или на некотором их подмножестве.
Рассмотрим три основных типа моделей данных: иерархическую, сетевую и реляционную.
Иерархическая модель данных. Иерархическая структура представляет совокупность элементов, связанных между собой по определенным правилам. Объекты, связанные иерархическими отношениями, образуют ориентированный граф (перевернутое дерево),
К основным понятиям иерархической структуры относятся: уровень, элемент (узел), связь. Узел - это совокупность атрибутов данных, описывающих некоторый объект. На схеме иерархического дерева узлы представляются вершинами графа. Каждый узел на более низком уровне связан только с одним узлом, находящимся на более высоком уровне. Иерархическое дерево имеет только одну вершину (корень дерева), не подчиненную никакой другой вершине и находящуюся на самом верхнем (первом) уровне. Зависимые (подчиненные) узлы находятся на втором, третьем и т.д. уровнях. Количество деревьев в базе данных определяется числом корневых записей.
К каждой записи базы данных существует только один (иерархический) путь от корневой записи.
Для рассматриваемого примера иерархическая структура правомерна, так как каждый студент учится в определенной (только одной) группе, которая относится к определенному (только одному) институту.
Сетевая модель данных. В сетевой структуре при тех же основных понятиях (уровень, узел, связь) каждый элемент может быть связан с любым другим элементом.
Реляционная модель данных. Понятие реляционный (англ. relation - отношение) связано с разработками известного американского специалиста в области систем баз данных Е. Кодда.
Эти модели характеризуются простотой структуры данных, удобным для пользователя табличным представлением и возможностью использования формального аппарата алгебры отношений и реляционного исчисления для обработки данных.
Реляционная модель ориентирована на организацию данных в виде двумерных таблиц. Каждая реляционная таблица представляет собой двумерный массив и обладает следующими свойствами:
"каждый элемент таблицы - один элемент данных;
все столбцы в таблице однородные, т.е. все элементы в столбце имеют одинаковый тип (числовой, символьный и т.д.) и длину;
каждый столбец имеет уникальное имя;
одинаковые строки в таблице отсутствуют;
порядок следования строк и столбцов может быть произвольным.
Отношения представлены в виде таблиц, строки которых соответствуют кортежам или записям, а столбцы - атрибутам отношений, доменам, полям.
Поле, каждое значение которого однозначно определяет соответствующую запись, называется простым ключом (ключевым полем). Если записи однозначно определяются значениями нескольких полей, то такая таблица базы данных имеет составной ключ.
Чтобы связать две реляционные таблицы, необходимо ключ первой таблицы ввести в состав ключа второй таблицы (возможно совпадение ключей); в противном случае нужно ввести в структуру первой таблицы внешний ключ - ключ второй таблицы.
Достоинства и недостатки трёх «великих» моделей данных
Сетевая модель данных -- логическая модель данных, являющаяся расширением иерархического подхода, строгая математическая теория, описывающая структурный аспект, аспект целостности и аспект обработки данных в сетевых базах данных.
Разница между иерархической моделью данных и сетевой состоит в том, что в иерархических структурах запись-потомок должна иметь в точности одного предка, а в сетевой структуре данных у потомка может иметься любое число предков.
Сетевая БД состоит из набора экземпляров определенного типа записи и набора экземпляров определенного типа связей между этими записями.
Тип связи определяется для двух типов записи: предка и потомка. Экземпляр типа связи состоит из одного экземпляра типа записи предка и упорядоченного набора экземпляров типа записи потомка. Для данного типа связи L с типом записи предка P и типом записи потомка C должны выполняться следующие два условия:
каждый экземпляр типа записи P является предком только в одном экземпляре типа связи L;
каждый экземпляр типа записи C является потомком не более чем в одном экземпляре типа связи L.
Реляционная модель данных - логическая модель данных. Впервые была предложена британским учёным сотрудником компании IBM Эдгаром Франком Коддом (E. F. Codd) в 1970 году в статье "A Relational Model of Data for Large Shared Data Banks" (русский перевод статьи, в которой она впервые описана, опубликован в журнале "СУБД" N 1 за 1995 г.). В настоящее время эта модель является фактическим стандартом, на который ориентируются практически все современные коммерческие СУБД.
Достоинства реляционной модели:
простота и доступность для понимания пользователем. Единственной используемой информационной конструкцией является "таблица";
строгие правила проектирования, базирующиеся на математическом аппарате;
полная независимость данных. Изменения в прикладной программе при изменении реляционной БД минимальны;
для организации запросов и написания прикладного ПО нет необходимости знать конкретную организацию БД во внешней памяти.
Недостатки реляционной модели:
далеко не всегда предметная область может быть представлена в виде "таблиц";
в результате логического проектирования появляется множество "таблиц". Это приводит к трудности понимания структуры данных;
БД занимает относительно много внешней памяти;
относительно низкая скорость доступа к данным.
Иерархическая модель данных -- логическая модель данных в виде древовидной структуры.
Иерархическая модель данных представляет собой совокупность элементов, расположенных в порядке их подчинения от общего к частному и образующих перевернутое дерево (граф). Данная модель характеризуется такими параметрами, как уровни, узлы, связи. Принцип работы модели таков, что несколько узлов более низкого уровня соединяется при помощи связи с одним узлом более высокого уровня.
Узел -- информационная модель элемента, находящегося на данном уровне иерархии.
К достоинствам иерархической модели данных относятся эффективное использование памяти ЭВМ и неплохие показатели времени выполнения основных операций над данными. Иерархическая модель данных удобна для работы с иерархически упорядоченной информацией.
Недостатком иерархической модели является ее громоздкость для обработки информации с достаточно сложными логическими связями, а также сложность понимания для обычного пользователя.
Реляционная модель данных: основные понятия и свойства.
Реляционная модель данных -- логическая модель данных, прикладная теория построения баз данных, которая является приложением к задачам обработки данных таких разделов математики как теории множеств и логика первого порядка.
На реляционной модели данных строятся реляционные базы данных.
Реляционная модель данных включает следующие компоненты:
Структурный аспект (составляющая) -- данные в базе данных представляют собой набор отношений.
Аспект (составляющая) целостности -- отношения (таблицы) отвечают определенным условиям целостности. РМД поддерживает декларативные ограничения целостности уровня домена (типа данных), уровня отношения и уровня базы данных.
Аспект (составляющая) обработки (манипулирования) -- РМД поддерживает операторы манипулирования отношениями (реляционная алгебра, реляционное исчисление).
Кроме того, в состав реляционной модели данных включают теорию нормализации.
Термин «реляционный» означает, что теория основана на математическом понятии отношение (relation). В качестве неформального синонима термину «отношение» часто встречается слово таблица. Необходимо помнить, что «таблица» есть понятие нестрогое и неформальное и часто означает не «отношение» как абстрактное понятие, а визуальное представление отношения на бумаге или экране. Некорректное и нестрогое использование термина «таблица» вместо термина «отношение» нередко приводит к недопониманию. Наиболее частая ошибка состоит в рассуждениях о том, что РМД имеет дело с «плоскими», или «двумерными» таблицами, тогда как таковыми могут быть только визуальные представления таблиц. Отношения же являются абстракциями, и не могут быть ни «плоскими», ни «неплоскими».
Для лучшего понимания РМД следует отметить три важных обстоятельства:
модель является логической, то есть отношения являются логическими (абстрактными), а не физическими (хранимыми) структурами;
для реляционных баз данных верен информационный принцип: всё информационное наполнение базы данных представлено одним и только одним способом, а именно -- явным заданием значений атрибутов в кортежах отношений; в частности, нет никаких указателей (адресов), связывающих одно значение с другим;
наличие реляционной алгебры позволяет реализовать декларативное программирование и декларативное описание ограничений целостности, в дополнение к навигационному (процедурному) программированию и процедурной проверке условий.
Понятие универсального отношения. Недостатки и порождаемые проблемы
Данные могут группироваться в таблицы (отношения) разными способами. При проектировании БД в качестве отправной точки может использоваться одно универсальное отношение, в которое включаются все необходимые атрибуты. Оно может содержать все данные, которые предполагается размещать в БД.
При использовании универсального отношения возникают две проблемы:
избыточность данных;
потенциальная противоречивость (аномалии).
Под избыточностью понимают повторение данных в разных строках одной таблицы или в разных таблицах БД. Так, для каждого сотрудника отдела 128 повторяются данные «128, Отдел проектирования».
Аномалии - это проблемы, возникающие в данных из-за дефектов проектирования БД. Существуют три вида аномалий: вставки, удаления и модификации.
Аномалии вставки проявляются при вводе данных в дефектную таблицу. Добавляя информацию о новом сотруднике, мы должны добавить номер и название отдела. Если ввести данные, не соответствующие имеющимся в таблице (например, 42, отдел проектирования), будет не ясно, какая из строк БД содержит правильную информацию.
Аномалии удаления возникают при удалении данных из дефектной схемы. Предположим, что все сотрудники отдела 128 уволились в один и тот же день. После удаления записей этих сотрудников в БД больше не будет ни одной записи, содержащей информацию об отделе 128.
Аномалии модификации возникают при изменении данных дефектной схемы. Предположим, что отдел 128 решили переименовать в отдел передовых технологий. Необходимо изменить соответствующие данные о каждом сотруднике отдела. Если мы пропустим хотя бы одну запись, возникнет аномалия модификации.
Нормальные формы отношений. Правила нормализации
Нормальная форма -- свойство отношения в реляционной модели данных, характеризующее его с точки зрения избыточности, которая потенциально может привести к логически ошибочным результатам выборки или изменения данных. Нормальная форма определяется как совокупность требований, которым должно удовлетворять отношение.
Процесс преобразования базы данных к виду, отвечающему нормальным формам, называется нормализацией. Нормализация предназначена для приведения структуры базы данных к виду, обеспечивающему минимальную избыточность, то есть нормализация не имеет целью уменьшение или увеличение производительности работы или же уменьшение или увеличение объёма БД. Конечной целью нормализации является уменьшение потенциальной противоречивости хранимой в БД информации.
Устранение избыточности производится, как правило, за счёт декомпозиции отношений таким образом, чтобы в каждом отношении хранились только первичные факты (то есть факты, не выводимые из других хранимых фактов).
Первая нормальная форма
- запрещает повторяющиеся столбцы (содержащие одинаковую по смыслу информацию)
- запрещает множественные столбцы (содержащие значения типа списка и т.п.)
- требует определить первичный ключ для таблицы, то есть тот столбец или комбинацию столбцов, которые однозначно определяют каждую строку
Вторая нормальная форма
Вторая нормальная форма требует, чтобы неключевые столбцы таблиц зависили от первичного ключа в целом, но не от его части. Маленькая ремарочка: если таблица находится в первой нормальной форме и первичный ключ у нее состоит из одного столбца, то она автоматически находится и во второй нормальной форме.
Третья нормальная форма
Чтобы таблица находилась в третьей нормальной форме, необходимо, чтобы неключевые столбцы в ней не зависели от других неключевых столбцов, а зависели только от первичного ключа. Самая распространенная ситуация в данном контексте - это расчетные столбцы, значения которых можно получить путем каких-либо манипуляций с другими столбцами таблицы. Для приведения таблицы в третью нормальную форму такие столбцы из таблиц надо удалить.
Нормальная форма Бойса-Кодда
Нормальная форма Бойса-Кодда требует, чтобы в таблице был только один потенциальный первичный ключ. Чаще всего у таблиц, находящихся в третьей нормальной форме, так и бывает, но не всегда. Если обнаружился второй столбец (комбинация столбцов), позволяющий однозначно идентифицировать строку, то для приведения к нормальной форме Бойса-Кодда такие данные надо вынести в отдельную таблицу.
Четвертая нормальная форма
Для приведения таблицы, находящейся в нормальной форме Бойса-Кодда, к четвертой нормальной форме необходимо устранить имеющиеся в ней многозначные зависимости. То есть обеспечить, чтобы вставка / удаление любой строки таблицы не требовала бы вставки / удаления / модификации других строк этой же таблицы.
Пятая нормальная форма
Таблицу, находящуюся в четвертой нормальной форме и, казалось бы, уже нормализованную до предела, в некоторых случаях еще можно бывает разбить на три или более (но не на две!) таблиц, соединив которые, мы получим исходную таблицу. Получившиеся в результате такой, как правило, весьма искусственной, декомпозиции таблицы и называют находящимися в пятой нормальная форме. Формальное определение пятой нормальной формы таково: это форма, в которой устранены зависимости соединения. В большинстве случаев практической пользы от нормализации таблиц до пятой нормальной формы не наблюдается.
Подобные документы
Режимы компьютерной обработки данных. Понятие и типы данных, структура и отличительные особенности. Характеристика основных операций, проводимых с данными, приемы их кодирования. Порядок и инструменты измерения информации и единицы хранения данных.
контрольная работа [104,1 K], добавлен 22.11.2010Понятие и структура банка данных. Основные структурные элементы базы данных. Система управления базами данных. Преимущества централизации управления данными. Понятие информационного объекта. Современные технологии, используемые в работе с данными.
курсовая работа [1,8 M], добавлен 02.07.2011Определение базы данных и банков данных. Компоненты банка данных. Основные требования к технологии интегрированного хранения и обработки данных. Система управления и модели организации доступа к базам данных. Разработка приложений и администрирование.
презентация [17,1 K], добавлен 19.08.2013Классификация моделей построения баз данных. Работа с реляционными базами данных: нормализация таблиц, преобразование отношений полей, преобразование функциональной модели в реляционную. Понятие языка определения данных и языка манипуляции данными.
реферат [123,0 K], добавлен 22.06.2011Объекты модели хранения данных базы данных ORACLE. Взаимосвязь между логическими структурами. Средства манипулирования данными языка SQL, данными языка SQL. Структура выполнения простейших запросов. Формирование критерия отбора. Сортировка данных.
презентация [120,1 K], добавлен 14.02.2014Понятие базы данных, модели данных. Классификация баз данных. Системы управления базами данных. Этапы, подходы к проектированию базы данных. Разработка базы данных, которая позволит автоматизировать ведение документации, необходимой для деятельности ДЮСШ.
курсовая работа [1,7 M], добавлен 04.06.2015Анализ реляционных баз данных и способов манипулирования ими. Основные понятия баз данных, архитектура СУБД, модели данных. Модель сущность-связь, характеристика связей, классификация сущностей, структура первичных и внешних ключей, целостности данных.
курсовая работа [166,6 K], добавлен 18.07.2012Изучение функций автоматизированных банков данных. Общие принципы описания, хранения и манипулирования данными. Анализ требований к базам данных. Файл-серверная и клиент-серверная архитектура БД. Преимущества введения системы управления базами данных.
презентация [91,5 K], добавлен 13.08.2013Понятие и структура реляционной базы данных, ее основные элементы и их взаимодействие. Методика и основные этапы создания базы данных, ее назначение и сферы применения. Правила ввода данных в таблицы. Создание запроса к базе данных, отчетов и диаграмм.
учебное пособие [3,6 M], добавлен 19.12.2009Основы работ с базами данных. Некоторые сведения о типах данных. Интерфейс БД. Текстовые, сетевые, реляционные базы данных. Проектирование баз данных. Анализ предметной области и запросов к БД. Выбор языка манипулирования данными.
курсовая работа [43,4 K], добавлен 06.10.2006