Информационные системы и информация

Типы и организация хранения данных. Прагматическое назначение, понятие и элементы достоверности данных. Классификация и кодирование экономических данных. Понятие поиска данных. Операции манипулирования данными. Понятие и назначение модели данных.

Рубрика Программирование, компьютеры и кибернетика
Вид шпаргалка
Язык русский
Дата добавления 06.03.2011
Размер файла 117,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Механизм обеспечения целостности данных в нормализованной базе данных

хранение поиск назначение классификация данное

При создании схемы данных пользователь включает в неё таблицы и устанавливает связи между ними. Для связей типа 1:1 и 1:М можно задать параметр обеспечения связной целостности данных, а также автоматическое каскадное обновление и удаление связанных записей.

Обеспечение связной целостности данных означает, что Access при корректировке базы данных обеспечивает для связанных таблиц контроль за соблюдением следующих условий:

В подчиненную таблицу не может быть добавлена запись с несуществующим в главной таблице значением ключа связи;

В главной таблице нельзя удалить запись, если не удалены связанные с ней записи в подчиненной таблице;

Изменение значений ключа связи в записи главной таблицы невозможно, если в подчиненной таблице имеются связанные с ней записи.

При попытке пользователя нарушить эти условия в операциях добавления и удаления записей или обновления ключевых данных в связанных таблицах Access выводит соответствующее сообщение и не допускает выполнения операции.

Установление между двумя таблицами связи типа 1:М или 1:1 и задание для нее параметров целостности данных возможно только при следующих условиях:

Связываемые поля имеют одинаковый тип данных, причем имена полей могут быть различными;

Обе таблицы сохраняются в одной базе данных Access;

Главная таблица связывается с подчиненной по первичному простому или составному ключу (уникальному индексу) главной таблицы.

Access автоматически отслеживает целостность связей при добавлении и удалении записей и изменении значений ключевых полей, если между таблицами в схеме данных установлена связь с параметрами обеспечения целостности. При действиях, нарушающих целостность связей таблиц, выводится сообщение. Access не позволяет установить параметр целостности для связи таблиц, если ранее введенные в таблицы данные не отвечают требованиям целостности.

Операции с отношениями в реляционной базе данных. Правила выполнения операций: ПРОЕЦИРОВАНИЕ и СЕЛЕКЦИЯ.

Реляционная база данных -- база данных, основанная на реляционной модели данных. Слово «реляционный» происходит от англ. relation (отношение). Для работы с реляционными БД применяют реляционные СУБД.

Использование реляционных баз данных было предложено доктором Коддом из компании IBM в 1970 году.

Схема отношения - это именованное множество пар {имя атрибута, имя домена (или типа, если понятие домена не поддерживается)}. Степень или "арность" схемы отношения - мощность этого множества. Степень отношения СОТРУДНИКИ равна четырем, то есть оно является 4-арным. Если все атрибуты одного отношения определены на разных доменах, осмысленно использовать для именования атрибутов имена соответствующих доменов (не забывая, конечно, о том, что это является всего лишь удобным способом именования и не устраняет различия между понятиями домена и атрибута).

Схема БД (в структурном смысле) - это набор именованных схем отношений.

Проецирование, как правило, приводит к сокращению количества кортежей по отношению к исходному отношению (удаляются одинаковые кортежи), то можно считать, что происходит своеобразное группирование кортежей исходного отношения

Селекция - это сокращённое название q-селекции, где q обозначает любой скалярный оператор сравнения (=, №, >, і и т.д.). q-селекцией из отношения А по атрибутам X и Y (в этом порядке) A WHERE X q Y, называется отношение, имеющее тот же заголовок, что и отношение А, и тело, содержащее множество всех кортежей t отношения А, для которых проверка условия “X q Y” даёт значение истина. Атрибуты X и Y должны быть определены на одном и том же домене, а оператор должен иметь смысл для этого домена. Обратим внимание, что не все операторы сравнения (q) имеют смысл для всех доменов.

Операции с отношениями в реляционной базе данных. Правила выполнения операций: СОЕДИНЕНИЕ, РАЗНОСТЬ.

Реляционная база данных -- база данных, основанная на реляционной модели данных. Слово «реляционный» происходит от англ. relation (отношение). Для работы с реляционными БД применяют реляционные СУБД.

Использование реляционных баз данных было предложено доктором Коддом из компании IBM в 1970 году.

Схема отношения - это именованное множество пар {имя атрибута, имя домена (или типа, если понятие домена не поддерживается)}. Степень или "арность" схемы отношения - мощность этого множества. Степень отношения СОТРУДНИКИ равна четырем, то есть оно является 4-арным. Если все атрибуты одного отношения определены на разных доменах, осмысленно использовать для именования атрибутов имена соответствующих доменов (не забывая, конечно, о том, что это является всего лишь удобным способом именования и не устраняет различия между понятиями домена и атрибута).

Схема БД (в структурном смысле) - это набор именованных схем отношений.

Естественное соединение настолько важно, что для него используют специальный синтаксис:

Замечание. В синтаксисе естественного соединения не указываются, по каким атрибутам производится соединение. Естественное соединение производится по всем одинаковым атрибутам.

Операции с отношениями в реляционной базе данных. Правила выполнения операций: ОБЪЕДИНЕНИЕ, ПЕРЕСЕЧЕНИЕ.

Реляционная база данных -- база данных, основанная на реляционной модели данных. Слово «реляционный» происходит от англ. relation (отношение). Для работы с реляционными БД применяют реляционные СУБД.

Использование реляционных баз данных было предложено доктором Коддом из компании IBM в 1970 году.

Схема отношения - это именованное множество пар {имя атрибута, имя домена (или типа, если понятие домена не поддерживается)}. Степень или "арность" схемы отношения - мощность этого множества. Степень отношения СОТРУДНИКИ равна четырем, то есть оно является 4-арным. Если все атрибуты одного отношения определены на разных доменах, осмысленно использовать для именования атрибутов имена соответствующих доменов (не забывая, конечно, о том, что это является всего лишь удобным способом именования и не устраняет различия между понятиями домена и атрибута).

Схема БД (в структурном смысле) - это набор именованных схем отношений.

Объединением двух совместимых по типу отношений А и В (А UNION B) называется отношение с тем же заголовком, как и в отношениях А и В, и с телом, состоящим из множества всех кортежей t, принадлежащих А или В или обоим отношениям.

Операции с отношениями в реляционной базе данных. Правила выполнения операций: УМНОЖЕНИЕ, ДЕЛЕНИЕ.

Реляционная база данных -- база данных, основанная на реляционной модели данных. Слово «реляционный» происходит от англ. relation (отношение[1]). Для работы с реляционными БД применяют реляционные СУБД.

Использование реляционных баз данных было предложено доктором Коддом из компании IBM в 1970 году.

Схема отношения - это именованное множество пар {имя атрибута, имя домена (или типа, если понятие домена не поддерживается)}. Степень или "арность" схемы отношения - мощность этого множества. Степень отношения СОТРУДНИКИ равна четырем, то есть оно является 4-арным. Если все атрибуты одного отношения определены на разных доменах, осмысленно использовать для именования атрибутов имена соответствующих доменов (не забывая, конечно, о том, что это является всего лишь удобным способом именования и не устраняет различия между понятиями домена и атрибута).

Схема БД (в структурном смысле) - это набор именованных схем отношений.

Алгоритм запросов в реляционной базе данных. Виды запросов

Взаимодействие с базой данных происходит при помощи Системы Управления Базой Данных (СУБД), которая расшифровывает запросы и производит операции с информацией в базе данных. Поэтому более правильно было бы говорить о запросе к СУБД и о взаимодействии с СУБД из Web-приложения. Но так как это несколько усложняет восприятие, далее везде мы будем говорить "база данных", подразумевая при этом СУБД.

В реляционных базах данных данные собраны в таблицы, которые в свою очередь состоят из столбцов и строк, на пересечении которых расположены ячейки. Запросы к таким базам данных возвращает таблицу, которая повторно может участвовать в следующем запросе. Данные в одних таблицах, как правило, связаны с данными других таблиц, откуда и произошло название "реляционные".

Кратко особенности реляционной базы данных можно описать следующим образом:

Данные хранятся в таблицах, состоящих из столбцов и строк;

На пересечении каждого столбца и строчки стоит в точности одно значение;

У каждого столбца есть своё имя, которое служит его названием, и все значения в одном столбце имеют один тип. Например, в столбце id_forum все значения имеют целочисленный тип, а в строке name - текстовый;

Столбцы располагаются в определённом порядке, который определяется при создании таблицы, в отличие от строк, которые располагаются в произвольном порядке. В таблице может не быть не одной строчки, но обязательно должен быть хотя бы один столбец;

Запросы к базе данных возвращают результат в виде таблиц, которые тоже могут выступать как объект запросов.

Синтаксис инструкции SELECT.

Для выполнения этой операции ядром базы данных Microsoft Access осуществляются поиск указанной таблицы (таблиц), извлечение нужных столбцов, выбор строк, отвечающих заданным условиям, и сортировка или группировка полученных строк в заданном порядке.

Инструкции SELECT не изменяют данные базы.

Инструкция SELECT обычно является первым словом инструкции SQL.

Большинство инструкций SQL представляют собой либо инструкции SELECT, либо инструкции SELECT...INTO.

Минимальный синтаксис инструкции SELECT выглядит следующим образом:

SELECT поля FROM таблица

Для выбора всех полей в таблице можно использовать звездочку (*). В следующем примере выбираются все поля таблицы «Сотрудники».

SELECT * FROM Сотрудники;

Если имя поля включено в несколько таблиц в предложении FROM, поместите перед ним имя таблицы и оператор «.» (точка). В следующем примере поле «Отдел» имеется в таблицах «Сотрудники» и «Начальники». С помощью инструкции SQL выбираются отделы из таблицы «Сотрудники» и имена начальников из таблицы «Начальники».

SELECT Сотрудники.Отдел, Руководители.ИмяРуководителя FROM Сотрудники INNER JOIN Руководители WHERE Сотрудники.Отдел = Руководители.Отдел;

При создании объекта RecordSet имя поля таблицы используется ядром базы данных Microsoft Access как имя объекта «Поле» в объекте RecordSet. Если имя поля нуждается в изменении или не предоставляется выражением, с помощью которого генерируется поле, воспользуйтесь зарезервированным словом AS. В следующем примере показано, как заголовок «День» используется для присвоения имени возвращенному объекту Поле в полученном объекте RecordSet.

SELECT ДеньРождения AS День FROM Сотрудники;

При работе со статистическими функциями или запросами, возвращающими неоднозначные или одинаковые имена объекта Поле, следует воспользоваться предложением AS для создания другого имени объекта Поле. В следующем примере возвращенному объекту Поле в полученном объекте RecordSet присваивается имя «Перепись».

SELECT COUNT(ИДСотрудника) AS Перепись FROM Сотрудники;

При работе с инструкцией SELECT можно использовать дополнительные предложения для дальнейшего ограничения и упорядочения полученных данных. Дополнительные сведения см. в разделе справки, посвященном используемому предложению.

Способы представления поискового образа документов в документальной информационной системе

Процесс отображения документа в поисковое пространство называется индексированием и заключается в присвоении каждому документу некоторого индекса-координаты в поисковом пространстве. Формализованное представление (описание) индекса документа называется поисковым образом документа (ПОД).

Пользователь выражает свои информационные потребности посредством специального языка, формируя поисковый образ запроса (ПОЗ) к базе документов.

На основе определенных критериев ДИС осуществляет поиск и выдачу документов, поисковые образы которых соответствуют или близки поисковым образам запроса пользователя.

Соответствие найденных документов запросу пользователя называется релевантностью.

Назначение и виды словарей дескрипторов в документальных информационных системах

Дескрипторные языки. Выражение семантики текстовых документов с помощью дескрипторных языков основано на использовании метода координатного индексирования, сущность которого сводится к тому, что смысловое содержание документа может быть с достаточной степенью точности и полноты выражено списком ключевых слов (КС), содержащихся в тексте. Координатное индексирование выполняется с помощью КС путем использования логических операций умножения и сложения их кодов и представляет собой способ выражения основного смыслового содержания документа в виде определенной совокупности ключевых слов.

Ключевое слово -- лексическая единица ИПЯ, являющаяся полнозначным словом или словосочетанием естественного языка (ЕЯ). К полнозначным словам относятся большинство существительных, прилагательные, глаголы, наречия, числительные и местоимения, к неполнозначным -- предлоги, связки, частицы.

Основной критерий отбора КС из текста -- степень полезности или эффективности того или иного КС для индексирования документа или запроса. Эффективность определяется следующими показателями:

-- частота встречаемости КС в документах и запросах,

-- наличие связей между КС, отобранными для словарей,

-- принадлежность КС к терминологии данной отрасли науки и техники.

Интерпретации в дескрипторных языках задаются специальным словарем-тезаурусом. Тезаурус состоит из лексических характерных для предметной области банка документов, и семантических (парадигматических) отношений между ними. Различают тезаурусы для систем с ручной обработкой (индексированием) текстов и автоматические, или машинные, тезаурусы.

Тезаурус -- нормативный словарь дескрипторов и ключевых слов с зафиксированными парадигматическими отношениями, предназначенный для координатного индексирования документов и информационных запросов.

Дескриптор -- имя класса условной эквивалентности группы близких по смыслу ключевых слов, являющийся словарной единицей информационно-поискового языка; может быть выражен словом, словосочетанием или кодом.

Недескриптор -- лексическая единица тезауруса, которая подлежит замене на дескриптор при обработке и поиске информации. В этом контексте недескрипторами являются ключевые слова.

Итак, дескриптор есть наименование (имя) класса условной эквивалентности, элементами которого являются недескрипторы (ключевые слова)

Допускаются два типа тезаурусов, содержащих:

-- дескрипторы и недескрипторы;

-- только дескрипторы.

Понятие и структура тезауруса документальной информационной системы

Тезаурус представляет собой специальным образом организованную совокупность основных лексических единиц (понятий) предметной области (словарь терминов) и описание парадигматических отношений между ними. Парадигматические отношения выражаются семантическими отношениями между элементами словаря, не зависящими от любого контекста. Независимость от контекста означает обобщенность (абстрагированность) смысловых отношений, например отношения «род-вид», «предмет-целое», «субъект-объект-средство-место-время действия». Так же, как и в информационно-поисковых каталогах, в системах на основе тезаурусов в информационно-поисковое пространство отображается не весь текст документа, а только лишь выраженное средствами тезауруса смысловое содержание документа.

Алгоритм автоматизированного индексирования документа в информационной системе

Оптимальное индексирование документов и информационных запросов обеспечивается при использовании специальных словарей-справочников, называемых тезаурусами ( греч. Такие словари-справочники позволяют легко осуществлять контроль за единообразным использованием ключевых слов на всех этапах работы ИПС: при индексировании, при вводе документов в ИПС, при формулировании поисковых предписаний и при проведении информационного поиска.

Система индексирования документов и фактов, в которой дескрипторы связываются или комбинируются для указания любых отношений, необходимых для организации наиболее полного и точного поиска.

Система индексирования документов, в которой дескрипторы связываются или комбинируются для указания любых отношений, необходимых для организации более точного поиска информации.

Метод индексирования документов, при котором поисковый образ документа состоит из двух или более лексических единиц.

Под индексированием документов понимается описание их содержания средствами ИПЯ.

При индексировании документов в тезаурус не были представлены кандидатами синонимы, а иногда и дескрипторы, необходимые для отображения содержания документа.

Структура процесса ввода запросов и алгоритмическая схема поиска информации в системе ОРДИНАТА. Затем производится индексирование документов и запросов.

Предметизатор, производящий индексирование документа, переносит регистрационный номер этого документа в специальный формуляр, в котором он записывает также поисковый обзор данного документа. Заполненный формуляр передается оператору, который с помощью флексорайтера пробивает содержимое этого формуляра на перфоленте. Поскольку флексорайтер одновременно воспроизводит кодируемый текст в печатном виде, то оператор визуально контролирует правильность записи. Далее перфолента с номерами документов и их поисковыми образами подается в вводное устройство микрофильмирующей установки. Туда же поступают оригиналы вводимых в ИПС Minicard документов. Оператор микрофильмирующей установки сравнивает регистрационный номер поступившего на съемку документа с номером документа, поисковый образ которого введен в установку. Выше уже указывалось, что в микрофильмирующей установке типа CD3A этот номер в дешифрованном виде высвечивается на специальном контрольном экране.

Информационно-поисковые тезаурусы используются при индексировании документов и запросов.

Исходной точкой предметизатора при индексировании документа служит заглавный дескриптор, который расположен в центре круговой схемы соответствующего класса дескрипторов. От этого дескриптора предметизатор следует в направлении родовидовых стрелок до тех пор, пока не найдет нужный ему специфичный дескриптор. При этом предметизатор должен включить в поисковый образ индексируемого документа все дескрипторы, которые он встречает в данной схеме на пути следования к искомому дескриптору.

В некоторых случаях, когда индексирование документов производится сугубо содержательным образом, индексирующее отображение Г в рамках формального описания ИПС придется считать первичным, нерасчленимым объектом.

Использование тех или иных слов для индексирования документов определяется Списками ключевых слов, задающими также и форму их представления.

Изложенное показывает, насколько привлекательно выглядит автоматизация индексирования документов, которая в то же времы сохраняет все возможности ИПЯ Нефть-2, Конечно, реализация автоматического индексирования ( АИ) может повлечь за собой некоторое ухудшение поисковых характеристик системы. Однако прагматика информационного поиска, подразумевающая создание не идеальной ИПС, а лишь такой системы, которая имела бы удовлетворительные характеристики с точки зрения абонента системы при минимуме затрат труда на ее эксплуатацию, делает проблему разработки системы АИ весьма актуальной.

В основу дескрипторных языков положена следующая сущность метода индексирования документов. Предмет каждого документа или другого элемента информации характеризуется или описывается с помощью некоторого множества дескрипторов, взятых из формального словаря терминов.

Понятие морфологической нормализации. Возможные алгоритмы. Виды поиска в документальных информационных системах. Алгоритм навигационного поиска

Основной задачей документальных информационных систем является накопление и предоставление пользователю документов, содержание, тематика, реквизиты и т. п. которых адекватны его информационным потребностям. Поэтому можно дать следующее определение документальной информационной системы -- единое хранилище документов с инструментарием поиска и отбора необходимых документов. Поисковый характер документальных информационных систем исторически определил еще одно их название -- информационно-поисковые системы (ИПС), хотя этот термин не совсем полно отражает специфику документальных ИС.* Соответствие найденных документов информационным потребностям пользователя называется пертинентностью. В силу теоретических и практических сложностей с формализацией смыслового содержания документов пертинентность относится скорее к качественным понятиям, хотя, как будет рассмотрено ниже, может выражаться определенными количественными показателями.

В семантически-навигационных системах документы, помещаемые в хранилище (в базу) документов, оснащаются специальными навигационными конструкциями, соответствующими смысловым связям (отсылкам) между различными документами или отдельными фрагментами одного документа. Такие конструкции реализуют некоторую семантическую* (смысловую) сеть в базе документов. Способ и механизм выражения информационных потребностей в подобных системах заключаются в явной навигации пользователя по смысловым отсылкам между документами. В настоящее время такой подход реализуется в гипертекстовых ИПС.

* Семантика (от греч. «semantikos»--обозначающий) -- смысловая сторона языка, отдельных слов и частей слова, а также -- раздел языкознания, изучающий значения слов.

Виды поиска в документальных информационных системах. Алгоритм контекстного поиска

Основной задачей документальных информационных систем является накопление и предоставление пользователю документов, содержание, тематика, реквизиты и т. п. которых адекватны его информационным потребностям. Поэтому можно дать следующее определение документальной информационной системы -- единое хранилище документов с инструментарием поиска и отбора необходимых документов. Поисковый характер документальных информационных систем исторически определил еще одно их название -- информационно-поисковые системы (ИПС), хотя этот термин не совсем полно отражает специфику документальных ИС.* Соответствие найденных документов информационным потребностям пользователя называетсяпертинентностью. В силу теоретических и практических сложностей с формализацией смыслового содержания документов пертинентность относится скорее к качественным понятиям, хотя, как будет рассмотрено ниже, может выражаться определенными количественными показателями.

Алгоритм контекстного поиска по умолчанию следующий: в слове (словах поисковой цепочки) выделяется основа (в каждом слове отбрасываются окончания); порядок слов в поисковой фразе не важен, слова фразы объединяются по принципу логического "И"; система воспринимает группу слов, заключенных в кавычки, как задание найти тексты, в которых искомые слова находятся рядом (составляют фразу); в поисковой фразе не пропускаются "шумовые слова" (это часто встречающиеся, неинформативные слова: предлоги, местоимения, частицы, наиболее часто употребляемые сокращения).

Пример физической структуры документальной системы и алгоритм выполнения запроса. Показатели эффективности поисковых механизмов информационной системы

Cредства поиска и структурирования, иногда называемые поисковыми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются. Cредства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, определяющих, как cобирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют cсылки к ресурсам типа баз данных WAIS; другие проинструктирова-ны, что нужно просматривать прежде всего наиболее популярные страницы.

Агенты - самые "интеллектуальные" из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от Вашего имени. Уже сейчас они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.

Общий поиск информации в Сети осуществляют программы, известные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.

Кроулеры просматривают заголовки и возращают только первую ссылку.

Роботы могут быть запрограммированы так, чтобы переходить по различным cсылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети. Однако, имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.

Агенты извлекают и индексируют различные виды информации. Некоторые, например, индексируют каждое отдельное слово во встречающемся документе, в то время как другие индексируют только наиболее важных 100 слов в каждом, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее. Вид построенного индекса определяет, какой поиск может быть сделан поисковым механизмом и как полученная информация будет интерпретирована.

Агенты могут также перемещаться по Интернет и находить информацию, после чего помещать ее в базу данных поискового механизма. Администраторы поисковых систем могут определить, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Проиндексированная информация отсылается базе данных поискового механизма так же, как было описано выше.

Люди могут помещать информацию прямо в индекс, заполняя особую форму для того раздела, в который они хотели бы поместить свою информацию. Эти данные передаются базе данных.

Когда кто-либо хочет найти информацию, доступную в Интернет, он посещает страницу поисковой системы и заполняет форму, детализирующую информацию, которая ему необходима. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по Сети.

База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:

Количество слов запроса в текстовом содержимом документа (т.е. в html-коде).

Тэги, в которых эти слова располагаются.

Местоположение искомых слов в документе.

Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.

Эти принципы применяются всеми поисковыми системами. А представленные ниже используются некоторыми, но достаточно известными (вроде AltaVista, HotBot).

Время - как долго страница находится в базе поискового сервера. Поначалу кажется, что это довольно бессмысленный принцип. Но, если задуматься, как много существует в Интернете сайтов, которые живут максимум месяц! Если же сайт существует довольно долго, это означает, что владелец весьма опытен в данной теме и пользователю больше подойдет сайт, который пару лет вещает миру о правилах поведения за столом, чем тот, который появился неделю назад с этой же темой.

Индекс цитируемости - как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе поисковика.

База данных выводит ранжированный подобным образом список документов с HTML и возвращает его человеку, сделавшему запрос. Различные поисковые механизмы также выбирают различные способы показа полученного списка - некоторые показывают только ссылки; другие выводят cсылки c первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе с ccылкой.

Когда Вы щелкаете на ссылке к одному из документов, который вас интересует, этот документ запрашивается у того сервера, на котором он находится.

Понятие «знание». Последовательность трансформации данных в знания

Знамние -- форма существования и систематизации результатов познавательной деятельности человека. Знание помогает людям рационально организовывать свою деятельность и решать различные проблемы, возникающие в её процессе.

Знамние в широком смысле -- субъективный образ реальности, в форме понятий и представлений.

Знамние в узком смысле -- обладание проверенной информацией (ответами на вопросы) позволяющими решить поставленную задачу.

Знамние (предмета) -- уверенное понимание предмета, умение обращаться с ним, разбираться в нём, а также использовать для достижения намеченных целей.

Знамние -- в теории искусственного интеллекта и экспертных систем -- совокупность информации и правил вывода (у индивидуума, общества или системы ИИ) о мире, свойствах объектов, закономерностях процессов и явлений, а также правилах использования их для принятия решений. Главное отличие знаний от данных состоит в их структурности и активности, появление в базе новых фактов или установление новых связей может стать источником изменений в принятии решений.

3намния фиксируются в образах и знаках естественных и искусственных языков. Знание противоположно незнанию (отсутствию проверенной информации о чём-либо).

Существует неопределенность смыслового содержания ("разночтения") терминов: "данные", "информация", "знания". Мы считаем целесообразным определить их следующим образом.

Данные представляют собой информацию, рассматриваемую в синтаксическом аспекте, т. е. безотносительно к ее содержанию и использованию или семантике и телеологии (обычно на каком-либо носителе или канале передачи).

Информация - это данные, проинтерпретированные с использованием тезауруса, т. е. осмысленные данные, рассматриваемые в единстве синтаксического и семантического аспектов.

Знания есть система информации, обеспечивающая увеличение вероятности достижения какой-либо цели, т. е. по сути знания - это "ноу-хау" или технологии. Вышесказанное резюмируем в следующей форме:

Знание = Информация + Цель

Информация = Данные + Смысл;

Знания = Данные + Смысл + Цель.

Представление знаний семантической сетью. Примеры. Виды вершин и связей

Семантимческая сеть -- информационная модель предметной области, имеющая вид ориентированного графа, вершины которого соответствуют объектам предметной области, а дуги (рёбра) задают отношения между ними. Объектами могут быть понятия, события, свойства, процессы. Таким образом, семантическая сеть является одним из способов представления знаний. В названии соединены термины из двух наук: семантика в языкознании изучает смысл единиц языка, а сеть в математике представляет собой разновидность графа -- набора вершин, соединённых дугами (рёбрами). В семантической сети роль вершин выполняют понятия базы знаний, а дуги (причем направленные) задают отношения между ними. Таким образом, семантическая сеть отражает семантику предметной области в виде понятий и отношений.

Для представления знаний можно использовать семантические сети. Каждый узел такой сети представляет концепцию, а дуги используются для определения отношений между концепциями.

Одна из самых выразительных и детально описанных парадигм представления знаний, основанных на семантических сетях -- MultiNet (акроним для «многослойные расширенные семантические сети»,

Семантические - описывают взаимосвязь между целями вершин и их взаимные дополнения для общей цели системы. Используются для совокупности понятий или образов.

Продукционная модель представления знаний

Продукционная модель знания -- модель основанная на правилах, позволяет представить знание в виде предложений типа «Если (условие), то (действие)».

Продукционная модель -- фрагменты Семантической сети, основанные на временных отношениях между состояниями объектов.

Продукционная модель обладает тем недостатком, что при накоплении достаточно большого числа (порядка нескольких сотен) продукций они начинают противоречить друг другу.

Продукционная модель в силу своей простоты получила наиболее широкое распространение. В этой модели знания представляются в виде совокупности правил типа «ЕСЛИ-ТО». Системы обработки знаний, использующие такое представление, получили название продукционных систем. В состав ЭС продукционного типа входят база правил (знаний), рабочая память и интерпретатор правил (решатель), реализующий определенный механизм логического вывода. Любое продукционное правило, содержащееся в БЗ, состоит из двух частей: антецендента и консеквента. Антецедент предста вляет собой посылку правила (условную часть) и состоит из элементарных предложений, соединенных логическими связками И, ИЛИ. Консеквент (заключение) включает одно или несколько предложений, которые выражают либо некоторый факт, либо указание на определенное действие, подлежащее исполнению. Продукционные правила принято записывать в виде АНТЕЦЕДЕНТ-КОНСЕКВЕНТ.

Примеры продукционных правил:

ЕСЛИ «двигатель не заводится» И «стартер двигателя не работает», ТО «неполадки в системе электропитания стартера»;

ЕСЛИ «животное имеет перья», ТО «животное - птица».

Фреймовая модель представления знаний. Примеры.

Теория представления знаний фреймами была разработана М.Минским в 70-е гг XX в. В ее основе лежит восприятие фактов посредством сопоставления полученной извне информации с конкретными элементами и значениями, а также с рамками, определенными для каждого объекта в памяти человека.

Под фреймом понимается абстрактный образ или ситуация. Например, слово "комната" вызывает у воспринимающего информацию человека образ: "помещение с четырьмя стенами, полом и потолком, площадью от 6 до 50 кв.м." Из этого образа ничего нельзя убрать (если убрать один из элементов, то представляемое помещение уже не будет комнатой), но при этом в данном образе можно заполнить значения нескольких атрибутов (высота стен, тип покрытия пола, цвет потолка и т.д.) В теории фреймов такой образ называется фреймом.

Объект "мяч" представляет собой кожаный или резиновый чехол, наполненный воздухом. Во фрейме "мяч" можно обозначить слоты "радиус" (радиус оболочки мяча), "спорт" (вид спорта, для которого предназначен мяч), "накачан" (да/нет).

Ситуация "лекция" может быть определена как "чтение лектором учебного материала слушателям". Фрейм "лекция" может содержать слоты "предмет" (предмет, по которому проводится лекция), "лектор" (ФИО лектора), "аудитория" (место проведения лекции), "слушатели" (количество слушателей).

Формализованная модель для отображения образа или ситуации также носит название фрейма. Как уже было сказано, любой фрейм, представляющий образ, содержит набор атрибутов (слотов), значениями которых являются конкретные данные. Каждый слот имеет имя, уникальное в рамках конкретного фрейма.

Алгоритм прямого логического вывода в продукционной модели представления знаний

Продукционная модель знания -- модель основанная на правилах, позволяет представить знание в виде предложений типа «Если (условие), то (действие)».

Продукционная модель -- фрагменты Семантической сети, основанные на временных отношениях между состояниями объектов.

Продукционная модель обладает тем недостатком, что при накоплении достаточно большого числа (порядка нескольких сотен) продукций они начинают противоречить друг другу.

В общем случае продукционную модель можно представить в следующем виде:

I=<S;L;A->B;Q>,где

S -- описание класса ситуаций;

L -- условие, при котором продукция активизируется;

A->B -- ядро продукции;

Q -- постусловие продукционного правила.

Продукционная модель часто дополняется определённым порядком, вводимым на множестве продукций, что упрощает механизм логического вывода. Порядок может выражаться в том, что отдельная следующая по порядку продукция может применяться только после попыток применения предшествующих ей продукций. Примерно похожее влияние на продукционную модель может оказать использование приоритетов продукций, означающее, что в первую очередь должна применяться продукция, имеющая наивысший приоритет.

Рост противоречивости продукционной модели может быть ограничен путём введения механизмов исключений и возвратов. Механизм исключений означает, что вводятся специальные правила-исключения. Их отличает большая конкретность в сравнении с обобщёнными правилами. При наличии исключения основное правило не применяется. Механизм возвратов же означает, что логический вывод может продолжаться в том случае, если на каком-то этапе вывод привёл к противоречию. Просто необходимо отказаться от одного из принятых ранее утверждений и осуществить возврат к предыдущему состоянию.

Противоречия в базах знаний на языке Пролог выявляются автоматически за счет использования автоматического доказательства теорем со встроенным в систему Пролог механизмами перебора с возвратами, организующего поиск информации в базах знаний и выводом найденной информации в качестве результатов информационного поиска.

Алгоритм обратного логического вывода в продукционной модели представления знаний

Процедура логического вывода в системах, основанных на продукционных моделях, в принципе не сложная. Как правило, она включает следующие части:

рабочую память (базу данных) - фактические данные, описывающие возможное и текущее состояние предметной области - хранящуюся в оперативной памяти;

базу продукционных правил, содержащую все допустимые зависимости между фактами предметной области и хранящуюся в долговременной памяти;

механизм логического вывода.

Механизм логического вывода обеспечивает формирование заключений, воспринимая вводимые факты как элементы правил, отыскивая правила, в состав которых входят введенные факты, и актуализируя те части продукций, которым соответствуют введенные факты. Теоретической основой построения механизма логического вывода служит теория машины Поста.

Механизм логического вывода выполняет функции поиска в базе правил, последовательного выполнения операций над знаниями и получения заключений. Существует два способа проведения таких заключений - прямые выводы и обратные выводы.

Пусть имеется совокупность продукций в виде цепочек правил:

A->B;B->C;C->D;D->E;

Прямым выводам (прямой цепочке рассуждений) соответствует движение от посылок к следствиям.

Механизм логического вывода, использующий прямые выводы, в качестве образца выбирает введенный в базу данных (рабочую память) факт и если при сопоставлении он согласуется с посылкой правила, то делается заключение , которое тоже помещается в базу данных как факт, описывающий состояние предметной области. Последовательно выводятся новые результаты, начиная с уже известных. Однако отсутствие связи между фактами и может привести к обрыву процедуры и конечный результат не может быть получен. Это считается основным недостатком прямых механизмов логического вывода и требует от пользователя знания всей структуры модели предметной области. Особенно явно этот недостаток проявляется при включении в базу знаний новых фактов и правил: если они не связаны в цепочку с имеющимися фактами, то они становятся балластом - механизм логического вывода никогда их не найдет. С этой точки зрения использование обратной цепочки рассуждений предпочтительнее.

Обратным выводам (обратной цепочке рассуждений) соответствует движение от цели (факта, который требуется установить) к предпосылкам. В обратном механизме логического вывода работа начинается от поставленной цели. Если цель согласуется с консеквентом (заключением) продукции, то антецедент (посылка) принимается за подцель и делается попытка подтверждения истинности этого факта. Процесс повторяется до тех пор, пока не будут просмотрены все правила, имеющие в качестве заключения требуемый факт.

Так, в приведенном примере движение от заключения приводит к необходимости подтверждения факта. Факт может подтвердиться, если подтверждается . Если не подтверждается, то механизм логического вывода отыщет правило, связывающее с и перейдет на анализ второй цепочки правил. Дойдя до правила , система запросит базу данных (рабочую память) или пользователя о справедливости факта . Если факт подтверждается, то происходит возвратное движение по правилам, все факты актуализируются (считаются справедливыми) и цель достигается успешно. В противном случае система явно указывает причину недоказанности выводов, что, в отличие от прямой цепочки рассуждений, облегчает работу пользователя.

Функцией, реализующей работу механизма логического вывода, является рекурсивная процедура сопоставления с образцом.

Понятие базы знаний и рабочей памяти в продукционной модели представления знаний

База знаний (БЗ; англ. knowledge base, KB) в информатике и исследованиях искусственного интеллекта -- это особого рода база данных, разработанная для оперирования знаниями (метаданными). Полноценные базы знаний содержат в себе не только фактическую информацию, но и правила вывода, допускающие автоматические умозаключения о вновь вводимых фактах и, как следствие, осмысленную обработку информации. Область наук об искусственном интеллекте, изучающая базы знаний и методы работы со знаниями, называется инженерией знаний.

Современные базы знаний обычно работают совместно с продвинутыми системами поиска информации и имеют тщательно продуманную структуру и формат представления знаний.

Иерархический способ представления в базе знаний набора понятий и их отношений называется онтологией. Онтологию некоторой области знаний вместе со сведениями о свойствах конкретных объектов также можно назвать базой знаний.

Любое правило состоит из одной или нескольких пар «атрибут-значение». В рабочей памяти систем, основанных на продукционных моделях, хранятся пары атрибут-значение, истинность которых установлена в процессе решения конкретной задачи к некоторому текущему моменту времени. Содержимое рабочей памяти изменяется в процессе решения задачи. Это происходит по мере срабатывания правил. Правило срабатывает, если при сопоставлении фактов, содержащихся в рабочей памяти, с антецедентом анализируемого правила имеет место совпадение, при этом заключение сработавшего правила заносится в рабочую память. Поэтому в процессе логического вывода объём фактов в рабочей памяти, как правило, увеличивается (уменьшаться он может в том случае, если действие какого-нибудь правила состоит в удалении фактов из рабочей памяти). В процессе логического вывода каждое правило из базы правил может сработать только один раз.

Существуют два типа продукционных систем - с «прямыми» и «обратными» выводами. Прямые выводы реализуют стратегию «от фактов к заключениям». При обратных выводах выдвигаются гипотезы вероятностных заключений, которые могут быть подтверждены или опровергнуты на основании фактов, поступающих в рабочую память. Существуют также системы с двунаправленными выводами.

Основные достоинства систем, основанных на продукционных моделях, связаны с простотой представления знаний и организации логического вывода. К недостаткам таких систем можно отнести следующее:

отличие от структур знаний, свойственных человеку;

неясность взаимных отношений правил;

сложность оценки целостного образа знаний;

низкая эффективность обработки знаний.

При разработке небольших систем (десятки правил) проявляются в основном положительные стороны продукционных моделей знаний, однако при увеличении объёма знаний более заметными становятся слабые стороны.

Понятие и назначение экспертной системы. Структура системы

В начале восьмидесятых годов в исследованиях по искусственному интеллекту сформировалось самостоятельное направление, получившее название "экспертные системы" (ЭС). Цель исследований по ЭС состоит в разработке программ, которые при решении задач, трудных для эксперта-человека, получают результаты, не уступающие по качеству и эффективности решениям, получаемым экспертом. Исследователи в области ЭС для названия своей дисциплины часто используют также термин "инженерия знаний", введенный Е.Фейгенбаумом как "привнесение принципов и инструментария исследований из области искусственного интеллекта в решение трудных прикладных проблем, требующих знаний экспертов".

Программные средства (ПС), базирующиеся на технологии экспертных систем, или инженерии знаний (в дальнейшем будем использовать их как синонимы), получили значительное распространение в мире. Важность экспертных систем состоит в следующем:

технология экспертных систем существенно расширяет круг практически значимых задач, решаемых на компьютерах, решение которых приносит значительный экономический эффект;

технология ЭС является важнейшим средством в решении глобальных проблем традиционного программирования: длительность и, следовательно, высокая стоимость разработки сложных приложений;

высокая стоимость сопровождения сложных систем, которая часто в несколько раз превосходит стоимость их разработки; низкий уровень повторной используемости программ и т.п.;

объединение технологии ЭС с технологией традиционного программирования добавляет новые качества к программным продуктам за счет: обеспечения динамичной модификации приложений пользователем, а не программистом; большей "прозрачности" приложения (например, знания хранятся на ограниченном ЕЯ, что не требует комментариев к знаниям, упрощает обучение и сопровождение); лучшей графики; интерфейса и взаимодействия.

По мнению ведущих специалистов , в недалекой перспективе ЭС найдут следующее применение:

ЭС будут играть ведущую роль во всех фазах проектирования, разработки, производства, распределения, продажи, поддержки и оказания услуг;

технология ЭС, получившая коммерческое распространение, обеспечит революционный прорыв в интеграции приложений из готовых интеллектуально-взаимодействующих модулей.

ЭС предназначены для так называемых неформализованных задач, т.е. ЭС не отвергают и не заменяют традиционного подхода к разработке программ, ориентированного на решение формализованных задач.

Неформализованные задачи обычно обладают следующими особенностями:

ошибочностью, неоднозначностью, неполнотой и противоречивостью исходных данных;

ошибочностью, неоднозначностью, неполнотой и противоречивостью знаний о проблемной области и решаемой задаче;

большой размерностью пространства решения, т.е. перебор при поиске решения весьма велик;

динамически изменяющимися данными и знаниями.

Следует подчеркнуть, что неформализованные задачи представляют большой и очень важный класс задач. Многие специалисты считают, что эти задачи являются наиболее массовым классом задач, решаемых ЭВМ.

Экспертные системы и системы искусственного интеллекта отличаются от систем обработки данных тем, что в них в основном используются символьный (а не числовой) способ представления, символьный вывод и эвристический поиск решения (а не исполнение известного алгоритма).

Экспертные системы применяются для решения только трудных практических (не игрушечных) задач. По качеству и эффективности решения экспертные системы не уступают решениям эксперта-человека. Решения экспертных систем обладают "прозрачностью", т.е. могут быть объяснены пользователю на качественном уровне. Это качество экспертных систем обеспечивается их способностью рассуждать о своих знаниях и умозаключениях. Экспертные системы способны пополнять свои знания в ходе взаимодействия с экспертом. Необходимо отметить, что в настоящее время технология экспертных систем используется для решения различных типов задач (интерпретация, предсказание, диагностика, планирование, конструирование, контроль, отладка, инструктаж, управление ) в самых разнообразных проблемных областях, таких, как финансы, нефтяная и газовая промышленность, энергетика, транспорт, фармацевтическое производство, космос, металлургия, горное дело, химия, образование, целлюлозно-бумажная промышленность, телекоммуникации и связь и др.

Коммерческие успехи к фирмам-разработчикам систем искусственного интеллекта (СИИ) пришли не сразу. На протяжении 1960 - 1985 гг. успехи ИИ касались в основном исследовательских разработок, которые демонстрировали пригодность СИИ для практического использования. Начиная примерно с 1985 г. (в массовом масштабе с 1988 - 1990 гг.), в первую очередь ЭС, а в последние годы системы, воспринимающие естественный язык (ЕЯ-системы), и нейронные сети (НС) стали активно использоваться в коммерческих приложениях.

Следует обратить внимание на то, что некоторые специалисты (как правило, специалисты в программировании, а не в ИИ) продолжают утверждать, что ЭС и СИИ не оправдали возлагавшихся на них ожиданий и умерли. Причины таких заблуждений состоят в том, что эти авторы рассматривали ЭС как альтернативу традиционному программированию, т.е. они исходили из того, что ЭС в одиночестве (в изоляции от других программных средств) полностью решают задачи, стоящие перед заказчиком. Надо отметить, что на заре появления ЭС специфика используемых в них языков, технологии разработки приложений и используемого оборудования (например, Lisp-машины) давала основания предполагать, что интеграция ЭС с традиционными, программными системами является сложной и, возможно, невыполнимой задачей при ограничениях, накладываемых реальными приложениями. Однако в настоящее время коммерческие инструментальные средства (ИС) для создания ЭС разрабатываются в полном соответствии с современными технологическими тенденциями традиционного программирования, что снимает проблемы, возникающие при создании интегрированных приложений.

Причины, приведшие СИИ к коммерческому успеху, следующие.

Интегрированность. Разработаны инструментальные средства искусственного интеллекта (ИС ИИ), легко интегрирующиеся с другими информационными технологиями и средствами (с CASE, СУБД, контроллерами, концентраторами данных и т.п.).

Открытость и переносимость. ИС ИИ разрабатываются с соблюдением стандартов, обеспечивающих открытость и переносимость.


Подобные документы

  • Режимы компьютерной обработки данных. Понятие и типы данных, структура и отличительные особенности. Характеристика основных операций, проводимых с данными, приемы их кодирования. Порядок и инструменты измерения информации и единицы хранения данных.

    контрольная работа [104,1 K], добавлен 22.11.2010

  • Понятие и структура банка данных. Основные структурные элементы базы данных. Система управления базами данных. Преимущества централизации управления данными. Понятие информационного объекта. Современные технологии, используемые в работе с данными.

    курсовая работа [1,8 M], добавлен 02.07.2011

  • Определение базы данных и банков данных. Компоненты банка данных. Основные требования к технологии интегрированного хранения и обработки данных. Система управления и модели организации доступа к базам данных. Разработка приложений и администрирование.

    презентация [17,1 K], добавлен 19.08.2013

  • Классификация моделей построения баз данных. Работа с реляционными базами данных: нормализация таблиц, преобразование отношений полей, преобразование функциональной модели в реляционную. Понятие языка определения данных и языка манипуляции данными.

    реферат [123,0 K], добавлен 22.06.2011

  • Объекты модели хранения данных базы данных ORACLE. Взаимосвязь между логическими структурами. Средства манипулирования данными языка SQL, данными языка SQL. Структура выполнения простейших запросов. Формирование критерия отбора. Сортировка данных.

    презентация [120,1 K], добавлен 14.02.2014

  • Понятие базы данных, модели данных. Классификация баз данных. Системы управления базами данных. Этапы, подходы к проектированию базы данных. Разработка базы данных, которая позволит автоматизировать ведение документации, необходимой для деятельности ДЮСШ.

    курсовая работа [1,7 M], добавлен 04.06.2015

  • Анализ реляционных баз данных и способов манипулирования ими. Основные понятия баз данных, архитектура СУБД, модели данных. Модель сущность-связь, характеристика связей, классификация сущностей, структура первичных и внешних ключей, целостности данных.

    курсовая работа [166,6 K], добавлен 18.07.2012

  • Изучение функций автоматизированных банков данных. Общие принципы описания, хранения и манипулирования данными. Анализ требований к базам данных. Файл-серверная и клиент-серверная архитектура БД. Преимущества введения системы управления базами данных.

    презентация [91,5 K], добавлен 13.08.2013

  • Понятие и структура реляционной базы данных, ее основные элементы и их взаимодействие. Методика и основные этапы создания базы данных, ее назначение и сферы применения. Правила ввода данных в таблицы. Создание запроса к базе данных, отчетов и диаграмм.

    учебное пособие [3,6 M], добавлен 19.12.2009

  • Основы работ с базами данных. Некоторые сведения о типах данных. Интерфейс БД. Текстовые, сетевые, реляционные базы данных. Проектирование баз данных. Анализ предметной области и запросов к БД. Выбор языка манипулирования данными.

    курсовая работа [43,4 K], добавлен 06.10.2006

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.