Организация информационно-поисковых систем в Интернете

Определение понятия "информационная система" (ИС). Виды, структура, жизненный цикл и общие принципы организации ИС. Классификация информационно-поисковых систем Интернет в зависимости от метода их организации, сравнительный анализ механизмов организации.

Рубрика Программирование, компьютеры и кибернетика
Вид курсовая работа
Язык русский
Дата добавления 29.11.2014
Размер файла 154,0 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru

Оглавление

Введение

Глава 1. Информационные системы как объект рассмотрения

1.1 Информационные системы: принцип организации

1.2 Виды информационных систем

Выводы к главе 1

Глава 2. Информационные системы в веб-пространстве

2.1 Поисковые системы Интернет: принцип организации

2.2 Сравнительный анализ различных поисковых систем

Выводы к главе 2

Заключение

Список источников

Приложения

Введение

Сегодня информацию рассматривают как один из основных ресурсов развития общества, а информационные системы и технологии как средство повышения производительности и эффективности работы людей.

Проблема поиска информации сегодня заключается не в том, что информации мало и поэтому ее трудно найти, а в том, что ее теперь наоборот становится все больше и больше, и от этого найти ответ на интересующий вопрос может оказаться тоже довольно сложной задачей.

Изучению информационных систем и информационно-поисковых систем посвятили свои работы многие ученые. Среди авторов можно назвать К. Маннинга, А.Я. Фридланда, Д.В. Чистова, Н.В, Макарову и других.

Цель работы - анализ организации информационно-поисковых систем в Интернете. информационный система интернет поисковый

Исходя из цели работы, можно определить основные ее задачи:

· Выявление и изучение публикаций, посвященных организации информационных систем интернета и эффективности поиска в них;

· Выявление и обобщение принципов организации информационных систем

· Классификация информационных систем интернет в зависимости от методики организации

· Сравнительный анализ механизмов организации информационных систем с точки зрения поставленных целей

Объект исследования в данной работе - информационные системы сети интернет.

Предмет исследования - принципы организации информационных систем.

Структура курсовой работы включает в себя две главы: в первой рассмотрены общие положения касательно информационных систем. Во второй главе будут рассмотрены информационные системы в сети интернет, их виды, принципы функционирования и роль в современной жизни.

Глава 1. Информационные системы как объект рассмотрения

1.1 Информационные системы: принцип организации

Понятие «информационная система» (ИС) имеет множество различных определений. Например, Д.В. Чистов [29] определяет информационные системы как область науки и техники, которая включает совокупность средств, способов и методов человеческой деятельности, направленных на создание и применение систем сбора, передачи, обработки, хранения и накопления различной информации. А.Я. Фридланд [28] предлагает более простое определение: «Информационная система - это программно-аппаратный комплекс, предназначенный для автоматизированного сбора, хранения, обработки и выдачи информации.»

Основываясь на этих определениях, можно сделать вывод, что ИС по функциональным свойствам связана с информационными процессами, такими как сбор, обработка, хранение и другие.

ИС, в зависимости от своей роли, состоят из множества компонентов. С развитием информационных технологий развиваются и информационные системы.

Из книги Н.В. Макаровой [31], можно узнать о том, что первые информационные системы появились в 50-х гг. В эти годы они были предназначены для обработки счетов и расчета зарплаты, а реализовывались на электромеханических бухгалтерских счетных машинах. Это приводило к некоторому сокращению затрат и времени на подготовку бумажных документов.

60-е гг. знаменуются изменением отношения к информационным системам. Информация, полученная из них, стала применяться для периодической отчетности по многим параметрам. Дня этого организациям требовалось компьютерное оборудование широкого назначения, способное обслуживать множество функций, а не только обрабатывать счета и считать зарплату, как было ранее.

В 70-х - начале 80-х гг. информационные системы начинают широко использоваться в качестве средства управленческого контроля, поддерживающего и ускоряющего процесс принятия решений.

К концу 80-х гг. концепция использования информационных систем вновь изменяется. Они становятся стратегическим источником информации и используются на всех уровнях организации любого профиля. Информационные системы этого периода, предоставляя вовремя нужную информацию, помогают организации достичь успеха в своей деятельности, создавать новые товары и услуги, находить новые рынки сбыта, обеспечивать себе достойных партнеров, организовывать выпуск продукции по низкой цене и многое другое. Современные ИС имеют намного более сложную структуру, по сравнению с ранними ИС.

Основные этапы развития информационных систем и цели их использования на разных периодах представлены в таблице (приложение [2]).

Описание структуры информационных систем столь же неоднозначно. Так, В.А. Гвоздева [6] приводит следующий список компонентов:

· интерфейс пользователя;

· подсистема обработки пользовательской информации;

· подсистема хранения данных;

· канал передачи данных между центром обработки данных и пользователем;

Помимо этих обязательных компонентов, системы может содержать и другие, дополнительные компоненты. Их наличие зависит от предназначения систем.

Влияние глобальной сети интернет на создание и использование информационных систем описывает в своей работе Д.Н. Кадеев [14]. В частности, он отмечает основные требования к информационным системам глобальной сети:

· открытые стандарты;

· поддержка любой вычислительной платформы;

· возможность использования программного обеспечения с открытым кодом;

· относительно простая и эффективная организация многопользовательской работы;

· относительно простой способ решения задачи актуализации программного обеспечения;

· доступность информационной системы из любой точки мира;

Отсюда можно сделать вывод, что появление сети интернет -- это, несомненно, положительный фактор, влияющий на развитие как ИС в целом, так и различных их отраслей. Особенно сильно интернет повлиял на информационно-поисковые системы.

Информационно-поисковая система (по кн. О. Густава и П. Джангуидо «Цифровые системы автоматизации и управления» [10]) - это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска.

Главной задачей любой ИПС по мнению Д.В. Чичтова [29], является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска - релевантность. (Релевантность - это соответствие результатов поиска сформулированному запросу.)

Основными показателями ИПС для WWW являются пространственный масштаб и специализация. О. Густав и П. Джангуидо [10] пишут, что по пространственному масштабу ИПС можно разделить на локальные, глобальные, региональные и специализированные.

· Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе отдельного сервера.

· Региональные ИПС описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Интернете.

· Глобальные поисковые системы в отличие от локальных стремятся объять необъятное- по возможности наиболее полно описать ресурсы всего информационного пространства сети Интернет.

· Специализированные ИПС носят узко направленный характер, ставя своей целью описывание строго определенных информационных ресурсов.

В основу построения структуры информационно-поисковой системы легло её функциональное назначение, область применения и особенности описываемой ею предметной области.

Д.Н. Кадеев [14] указывает на то, что область применения ИПС - это как внутренняя работа с информацией, так и обработка информации. Из этого вытекают очень высокие требования к надёжности функционирования системы, поскольку любая ИПС - это достаточно сложное построение с заданными параметрами надежности, и каждая структура, включаемая в такое построение, должна обладать надежностью по крайней мере не меньшей, чем вся система в целом. Обеспечение нужных показателей надежности, в свою очередь, во многом определяется структурой построения системы.

Нельзя так же не упомянуть про такую важную составляющую ИС как жизненный цикл.

А.Я. Фридланд в книге «Информатика: процессы, системы, ресурсы» [28] описывает жизненный цикл ИС как непрерывный процесс, который начинается с момента принятия решения о ее создании и заканчивается в момент полного изъятия системы из эксплуатации. Структура ЖЦ ИС базируется на трех группах процессов:

· основные (приобретение, поставка, разработка, эксплуатация, сопровождение);

· вспомогательные (документирование, управление конфигурацией, обеспечение качества, верификация, аттестация, разрешение проблем);

· организационные (управление проектами, создание инфраструктуры, усовершенствование, обучение).

Так же, как пишет А.Я. Фридланд [28], длительность жизненного цикла для различных программных продуктов неодинакова. Для большинства современных программных продуктов длительность жизненного цикла измеряется в годах (2-3 года). Хотя достаточно часто встречаются на компьютерах и давно снятые с производства программные продукты. Последнее обусловлено появлением сети интернет, т.к. в нем могут долговременно храниться огромное количество этих снятых с производства программных продуктов. Отсюда можно сделать вывод, что интернет положительно влияет на ЖЦ ИС благодаря долговременному хранению информации.

1.2 Виды информационных систем

Видов ИС очень много, так как ИС классифицируются по множеству различных признаков. Рассмотрим подробнее основные виды классификации ИС:

Классификация по сфере применения

По Н.В. Макаровой [31], по сфере применения информационные системы обычно подразделяются на четыре группы:

· Системы организационного управления

· ИС управления технологическими процессами

· ИС автоматизированного проектирования

· Интегрированные (корпоративные) ИС

Информационные системы организационного управления предназначены для автоматизации функций управленческого персонала. Учитывая наиболее широкое применение и разнообразие этого класса систем, часто любые информационные системы понимают именно в данном толковании. К этому классу относятся информационные системы управления как промышленными фирмами, так и непромышленными объектами: гостиницами, банками, торговыми фирмами и др.

Основными функциями подобных систем являются: оперативный контроль и регулирование, оперативный учет и анализ, перспективное и оперативное планирование, бухгалтерский учет, управление сбытом и снабжением и другие экономические и организационные задачи.

ИС управления технологическими процессами (ТП) служат для автоматизации функций производственного персонала. Они широко используются при организации для поддержания технологического процесса в промышленности.

ИС автоматизированного проектирования (САПР) предназначены для автоматизации функций инженеров-проектировщиков, конструкторов, архитекторов, дизайнеров при создании новой техники или технологии. Основными функциями подобных систем являются: инженерные расчеты, создание графической документации (чертежей, схем, планов), создание проектной документации, моделирование проектируемых объектов.

Интегрированные (корпоративные) ИС используются для автоматизации всех функций фирмы и охватывают весь цикл работ от проектирования до сбыта продукции. Создание таких систем весьма затруднительно, поскольку требует системного подхода с позиций главной цели, например, получения прибыли, завоевания рынка сбыта и т.д. Такой подход может привести к существенным изменениям в самой структуре фирмы, на что может решиться не каждый управляющий.

Классификация по масштабу

Из книги Д.В. Чистова «Информационные системы» [29] можно выяснить, что по масштабу информационные системы подразделяются на следующие группы:

· одиночные;

· групповые;

· корпоративные.

Одиночные информационные системы реализуются, как правило, на автономном персональном компьютере (сеть не используется). Такая система может содержать несколько простых приложений, связанных общим информационным фондом, и рассчитана на работу одного пользователя или группы пользователей, разделяющих по времени одно рабочее место.

Групповые информационные системы ориентированы на коллективное использование информации членами рабочей группы и чаще всего строятся на базе локальной вычислительной сети.

Корпоративные информационные системы являются развитием систем для рабочих групп, они ориентированы на крупные компании и могут поддерживать территориально разнесенные узлы или сети. В основном они имеют иерархическую структуру из нескольких уровней.

Классификация по способу организации

По способу организации информационные системы подразделяются на следующие классы:

· системы на основе архитектуры файл-сервер;

· системы на основе архитектуры клиент-сервер;

· системы на основе многоуровневой архитектуры;

В книге Кадеева Д. Н «Информационные технологии и электронные коммуникации» [14] более подробно описаны ИС различных способов организации:

Архитектура файл-сервер

Архитектура файл-сервер не имеет сетевого разделения компонентов диалога PS и PL и использует компьютер для функций отображения, что облегчает построение графического интерфейса. Объектами разработки в файл-серверном приложении являются компоненты приложения, определяющие логику диалога PL, а также логику обработки BL и управления данными DL [приложение 3]. Разработанное приложение реализуется либо в виде законченного загрузочного модуля, либо в виде специального кода для интерпретации.

Однако такая архитектура имеет существенный недостаток: при выполнении некоторых запросов к базе данных клиенту могут передаваться большие объемы данных, загружая сеть и приводя к непредсказуемости времени реакции.

Архитектура клиент-сервер

Архитектура клиент-сервер предназначена для разрешения проблем файл-серверных приложений путем разделения компонентов приложения и размещения их там, где они будут функционировать наиболее эффективно. Особенностью архитектуры клиент-сервер является использование выделенных серверов баз данных, понимающих запросы на языке структурированных запросов SQL (Structured Query Language) и выполняющих поиск и сортировку информации.

Большинство конфигураций клиент-сервер использует двухуровневую модель, в которой клиент обращается к услугам сервера. Предполагается, что диалоговые компоненты PS и PL размещаются на клиенте, что позволяет обеспечить графический интерфейс. Компоненты управления данными DS и FS размещаются на сервере, а диалог (PS, PL), логика BL и DL - на клиенте. Двухуровневое определение архитектуры клиент-сервер использует именно этот вариант: приложение работает у клиента, СУБД - на сервере. Однако сложные приложения, вызывающие большое взаимодействие с БД, могут жестко загрузить как клиента, так и сеть, что является причиной дополнительного усложнения администрирования приложений, разбросанных по различным клиентским узлам.

Для сокращения нагрузки на сеть и упрощения администрирования приложений компонент BL можно разместить на сервере. При этом вся логика принятия реше-ний оформляется в виде хранимых процедур и выполняется на сервере БД.

Двухуровневые схемы архитектуры клиент-сервер могут привести к некоторым проблемам в сложных информационных приложениях с множеством пользователей и запутанной логикой. Решением этих проблем может стать использование многоуровневой архитектуры.

Многоуровневая архитектура

Многоуровневая архитектура стала развитием архитектуры клиент-сервер и в своей классической форме состоит из трех уровней:

· нижний уровень представляет собой приложения клиентов, выделенные для выполнения функций и логики представлений PS и PL и имеющие программный интерфейс для вызова приложения на среднем уровне;

· средний уровень представляет собой сервер приложений, на котором выполняется прикладная логика BL и с которого логика обработки данных DL вызывает операции с базой данных DS;

· верхний уровень представляет собой удаленный специализированный сервер базы данных, выделенный для услуг обработки данных DS и файловых операций FS (без риска использования хранимых процедур).

Однако, Л.Г. Гагарина в книге «Автоматизированные информационные системы» [4] замечает, что есть и 4 класс ИС по способу организации - системы на основе интернет-технологий.

Системы на основе Интернет-технологий.

В развитии технологии Интернет основной акцент пока что делается на разработке инструментальных программных средств. В то же время наблюдается отсутствие развитых средств разработки приложений, работающих с базами данных. Компромиссным решением для создания удобных и простых в использовании и сопровождении информационных систем, эффективно работающих с базами данных, стало объединение Интернет-технологии с многоуровневой архитектурой. При этом структура информационного приложения приобретает следующий вид: браузер - сервер приложений - сервер баз данных - сервер динамических страниц - web-сервер.

Благодаря интеграции Интернет-технологии и архитектуры клиент-сервер процесс внедрения и сопровождения корпоративной информационной системы существенно упрощается при сохранении достаточно высокой эффективности и простоты совместного использования информации.

По типу хранимых данных ИС делятся на фактографические и документальные.

В книге В.А. Гвоздевой «Основы построения автоматизированных информационных систем» [6] подробно описываются эти классы ИС.

Фактографические системы предназначены для хранения и обработки структурированных данных в виде чисел и текстов. Над такими данными можно выполнять различные операции. В документальных системах информация представлена в виде документов, состоящих из наименований, описаний, рефератов и текстов. Отобранные документы предоставляются пользователю, а обработка данных в таких системах практически не производится.

Характерной особенностью фактографических систем является то, что они работают не с текстом, а с фактическими сведениями, которые представлены в виде записей. Основные компоненты фактографических систем - это сами БД и системы управления БД (СУБД). На базе фактографических систем создаются справочники, системы анализа и управления предприятиями, бухгалтерские системы.

В фактографических ИС регистрируются факты - конкретные значения данных (атрибутов) об объектах реального мира. Основная идея таких систем заключается в том, что все сведения об объектах (фамилии людей и названия предметов, числа, даты) сообщаются компьютеру в каком-то заранее обусловленном формате. Информация, с которой работает фактографическая ИС, имеет четкую структуру, позволяющую машине отличать одно данное от другого, - например, фамилию от должности человека, дату рождения от роста и т. п. Поэтому фактографическая система способна давать однозначные ответы на поставленные вопросы.

Документальные системы предназначены для работы с документами на естественном языке: книги, тезисы, статьи. Наиболее распространенным видом ДС являются информационно-поисковые системы (ИПС), которые предназначены для накопления и поиска по различным критериям документов.

Выводы к главе 1

Понятие «информационные системы» различные авторы книг по данной теме определяют по-разному, но можно вывести общее- Информационные системы -- это некая система для обработки, хранения, поиска и выдачи информации.

История развития информационных систем насчитывает уже несколько этапов и длится несколько десятилетий, но особо быстро они начали развиваться с появлением сети Интернет. Структура информационных систем неоднозначна, и различается в зависимости от их целевого назначения, но практически все ИС должны содержать такие компоненты, как интерфейс пользователя, подсистему обработки информации, подсистему хранения данных и канал информационного сообщения между пользователем и системой. Так же ИС классифицируются по определенной системе различных признаков. Например, ИС классифицируются по сфере применения (на системы организационного управления, ИС управления технологическими процессами, ИС автоматизированного проектирования и интегрированные ИС), по масштабу (на одиночные, групповые и корпоративные ИС) и по способу организации (на системы на основе архитектуры файл-сервер, системы на основе архитектуры клиент-сервер, системы на основе многоуровневой архитектуры и, позже, системы на основе интернет-технологий).

Требование к ИС так же неоднозначны, и меняются, в зависимости от конечной цели использования ИС. Например, с появлением сети Интернет, к большинству ИС предъявляются такие требования, как открытые стандарты, поддержка любой вычислительной платформы, возможность использования программного обеспечения с открытым кодом, доступность информационной системы из любой точки мира и другие.

Особенно сильно появление Интернета повлияло на развитие такого вида ИС, как информационно-поисковые системы. Данные системы ставят своей главной задачей поиск информации релевантной информационным потребностям пользователя. ИПС имеют свою структуру и классификацию.

Так же, очень важным параметром как ИПС, так и ИС в целом, является жизненный цикл. ЖЦ ИС- это непрерывный процесс, который начинается с момента принятия решения о ее создании и заканчивается в момент полного изъятия системы из эксплуатации.

Глава 2. Организация поиска в информационных системах

2.1 Принцип организации поиска в информационных системах

Поиск информации - задача, которую человечество решает уже многие столетия. По мере роста объема информационных ресурсов, потенциально доступных одному человеку, были выработаны все более изощренные и совершенные поисковые средства, и приемы, позволяющие найти необходимый документ.

По книге К. Маннинга «Введение в информационный поиск» [22], можно сказать, что эффективная работа любой ИПС основана на быстроте и возможностях многоаспектной выборки нужных данных из большого массива (поиск информации) для внутренней работы с данными. Это накладывает определённые требования на организацию правил поиска, построение пользовательского и программного интерфейса и формы предоставления информации.

Реализация вышеперечисленных требований возложена на следующий ряд структурных компонентов, так называемых блоков [приложение 4].

По книге Варфоломеева А.А. «Основы информационной безопасности» [3], в основе выбора именно такой структуры информационно-поисковой системы лежит очень простая логика - любой блок системы должен получать данные, обрабатывать их и выдавать пользователю в определенном порядке, обеспечивая логику процесса.

Невозможно говорить об информационно-поисковых системах, не упомянув про такое понятие, как поисковая машина. Как пишет Д.Н. Колисниченко в книге «Поисковые системы и продвижение сайтов в Интернете» [17], Поисковая машина - система с формируемой роботом базой данных, содержащей информацию об информационных ресурсах. Отличительной чертой поисковых машин является тот факт, что база данных, содержащая информацию об Web-страницах, формируется программой-роботом. При получении результата, если название и описание документа соответствует вашим требованиям, можно немедленно перейти к его первоисточнику по ссылке. Это удобнее делать в новом окне, чтобы иметь возможность далее анализировать результаты выдачи. Многие поисковые системы позволяют проводить поиск в найденных документах, причем имеется возможность уточнить запрос введением дополнительных терминов. Если интеллектуальность системы высока, то присутствует так же возможность поиска похожих документов. Однако, автоматизация определение похожести - весьма нетривиальная задача, и зачастую эта функция работает не всегда правильно. Некоторые поисковики позволяют провести пересортировку результатов. Стоит обратить внимание на то, что различные поисковые системы описывают разное количество источников информации в интернете. Поэтому нельзя ограничиваться поиском только в одной из указанных поисковых систем. Существуют различные инструменты поиска, которые не формируют собственный индекс, но умеют использовать возможности других поисковых систем. Это, как пишет Н.А. Гайдмамакин в книге «Автоматизированные информационные системы, базы и банки данных» [5], метапоисковые системы (поисковые службы) - системы, способные послать запросы пользователя одновременно нескольким поисковым серверам, затем объединить полученные результаты и представить их пользователю в виде документа со ссылками.

Так же, Д.Н. Колисниченко [17] пишет, что для наиболее точного и быстрого нахождения необходимой информации в сети, ИПС используют индексирование.

Поисковый индекс - структура данных, которая содержит информацию о документах и используется в поисковых системах.

Индексирование (или индексация), совершаемое поисковой машиной, - процесс сбора, сортировки и хранения данных с целью обеспечить быстрый и точный поиск информации. Создание индекса включает междисциплинарные понятия из лингвистики, математики и информатики.

Популярные поисковые машины сосредотачиваются на полнотекстовой индексации документов, написанных на естественных языках. Мультимедийные документы, такие как видео и аудио и графика также могут участвовать в поиске.

А.Ю. Келина в книге «Основы информационной безопасности» [16] пишет о том, что метапоисковые машины используют индексы других поисковых сервисов и не хранят локальный индекс, в то время как поисковые машины, основанные на кэшированных страницах, долго хранят как индекс, так и текстовые корпусы. В отличие от полнотекстовых индексов, частично-текстовые сервисы ограничивают глубину индексации, чтобы уменьшить размер индекса.

Архитектура поисковой системы различается по способам индексирования. Индексы бывают следующих типов [Приложение 5]:

· Прямой индекс. Прямой индекс хранит список слов для каждого документа.

· Инвертированный индекс. Хранилище списка вхождений каждого критерия поиска.

Индекс - это только часть поискового аппарата, скрытая от пользователя. Второй частью этого аппарата является информационно-поисковый язык (ИПЯ), про который подробно пишет Варфоломеев А.А. в книге «Основы информационной безопасности» [3]. ИПЯ- это язык, позволяющий сформулировать запрос к системе в простой и наглядной форме. Если даже пользователю предлагается вводить запросы на естественном языке, то это еще не значит, что система будет осуществлять семантический разбор запроса пользователя. Основная суть заключается в том, что обычно фраза разбивается на слова, из этого списка удаляются запрещенные и общие слова, иногда производится нормализация лексики, а затем все слова связываются либо логическим AND, либо OR.

Возможны и варианты, на что указывает Н.А. Чурсин в книге «Популярная информатика» [30]. Так, в большинстве систем, некоторые фразы будут опознаны как ключевые, и не будет разделяться на отдельные слова. Другой подход заключается в вычислении близости между запросом и документом. К настоящему времени известно около дюжины различных мер близости. Именно эти проценты соответствия документа запросу и выдаются в качестве справочной информации при списке найденных документов.

Наиболее продвинутым языком запросов из современных информационно-поисковых систем Internet, по мнению К. Маннинга [22], обладает AltaVista. Кроме обычного набора AND, OR, NOT, эта система позволяет использовать еще и NEAR. Последний оператор позволяет организовать контекстный поиск. Все документы в системе разбиты на поля, поэтому в запросе можно указать в какой части документа пользователь хочет увидеть ключевое слово (в ссылке, заголовке и т.п.).

(Для более подробных сведений об информационно-поисковых языках сети интернет см. приложение [6])

Из книги Ю.И. Кудинова «Основы современной информатики» [19] можно узнать, что наиболее распространенными моделями представления документов в информационно-поисковой системе являются различные вариации на тему представления документа как набора терминов. Как уже упоминалось ранее, это не весь текст документа, а только небольшой набор терминов, который отражает его содержание. Базируясь на таком представлении о документе и нужно рассматривать различные информационно-поисковые языки.

Наиболее распространенным ИПЯ является традиционный язык, позволяющий составить логические выражения из набора терминов. При этом используются булевые операторы AND, OR, NOT.

Такая схема достаточно проста, и поэтому наиболее широко применяется в современных информационно-поисковых системах. Но еще 20 лет тому назад были хорошо известны и ее недостатки.

Булевый поиск плохо масштабирует выдачу. Оператор AND может очень сильно сократить число документов, которые выдаются на запрос. При этом все будет очень сильно зависеть от того, насколько типичными для базы данных являются поисковые термины. Оператор OR напротив может привести к неоправданно широкому запросу, в котором полезная информация затеряется за информационным шумом. Для успешного применения этого ИПЯ следует хорошо знать лексику системы и ее тематическую направленность. Как правило, для системы с таким ИПЯ создаются специальные документально лексические базы данных со сложными словарями, которые называются тезаурусами и содержат информацию о связи терминов словаря друг с другом.

К. Маннинг [22] указывает на то, что модификацией булевого поиска является взвешенный булевый поиск. Идея такого поиска достаточно проста. Считается, что термин описывает содержание документа с какой-то точностью, и эту точность выражают в виде веса термина. При этом взвешивать можно как термины документа, так и термины запроса. Запрос может формулироваться на ИПЯ, описанном выше, но выдача документов при этом будет ранжироваться в зависимости от степени близости запроса и документа. При этом измерение близости строится таким образом, чтобы обычный булевый поиск был бы частным случаем взвешенного булевого поиска.

Но, в отличие от Варфоломеева А.А. [3], И.С. Ашманов в своей книге «Продвижение сайта в поисковых системах» [1] пишет, что хоть ИПЯ сейчас не совершенны, особое внимание стоит уделять алгоритму ранжирования (упорядоченного выстраивания) полученных ссылок, так как он не менее важен. Наиболее часто используемыми критериями при ранжировании в ИПС являются наличие слов из запроса в документе, их количество, близость к началу документа, близость к друг другу;

Наличие слов из запроса в заголовках и подзаголовках документов (заголовки должны быть специально отформатированы);

Количество ссылок на данный документ с других документов; «респектабельность» ссылающихся документов.

Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:

· Количество слов запроса в текстовом содержимом документа (т.е. в html-коде).

· Тэги, в которых эти слова располагаются.

· Местоположение искомых слов в документе.

· Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.

Эти принципы применяются всеми поисковыми системами.

База данных выводит ранжированный подобным образом список документов с HTML и возвращает его человеку, сделавшему запрос. Различные поисковые механизмы также выбирают различные способы показа полученного списка - некоторые показывают только ссылки; другие выводят ссылки c первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе с ccылкой. Ранжирование результатов поиска является неотъемлемой частью информационного поиска.

Аспекты данного понятия хорошо представлены в книге К. Маннинга «Введение в информационный поиск» [22]. Информационный поиск подразумевает использование определённых стратегий, методов, механизмов и средств. Поведение пользователя, осуществляющего управление процессом поиска, определяется не только информационной потребностью, но и инструментальным разнообразием системы - технологиями и средствами, предоставляемыми системой.

Стратегия поиска - общий план (концепция, предпочтение, установка) поведения системы или пользователя для выражения и удовлетворения информационной потребности пользователя, обусловленный как характером цели и видом поиска, так и системными "стратегическими" решениями - архитектурой БД, методами и средствами поиска в конкретной ИПС. Выбор стратегии в общем случае является оптимизационной задачей. На практике в значительной степени он определяется искусством достижения компромисса между практическими потребностями и возможностями имеющихся средств.

Метод поиска - совокупность моделей и алгоритмов реализации отдельных технологических этапов: построения поискового образа запроса, отбора документов (сопоставление поисковых образов запросов и документов), расширения запроса, локализации и оценки выдачи.

Поисковый образ запроса - записанный на ИПЯ текст, выражающий смысловое содержание информационного запроса и содержащий указания, необходимые для наиболее эффективного осуществления информационного поиска.

Процесс поиска информации представляет последовательность шагов, приводящих при посредстве системы к некоторому результату, и позволяющих оценить его полноту. Так как пользователь обычно не имеет исчерпывающих знаний об информационном содержании ресурса, в котором проводит поиск, то оценить адекватность выражения запроса, равно как и полноту получаемого результата, он может, основываясь лишь на внешних оценках или на промежуточных результатах и обобщениях, сопоставляя их, например, с предыдущими.

Процесс поиска можно представить в виде следующих основных компонентов:

1) формулирование запроса на естественном языке, выбор поисковых системы и сервисов, формализация запроса на соответствующем ИПЯ; 

2) проведение поиска в одной или нескольких поисковых системах; 

3) обзор полученных результатов (ссылок); 

4) предварительная обработка полученных результатов: просмотр содержания ссылок, извлечение и сохранение релевантных данных; 

5) при необходимости, модификация запроса и проведение повторного (уточняющего) поиска с последующей обработкой полученных результатов.

Для уменьшения объёма отобранных материалов осуществляют фильтрацию результатов поиска по типу источников (сайтов, порталов), тематике и другим основаниям.

По используемым поисковым технологиям ИС можно разбить на 4 категории:

1. Тематические каталоги; 

2. Специализированные каталоги (онлайновые справочники); 

3. Поисковые машины (полнотекстовый поиск); 

4. Средства метапоиска.

Тематические каталоги предусматривают обработку документов и отнесение их к одной из нескольких категорий, перечень которых заранее задан. Фактически это индексирование на основе классификации. Индексирование может проводиться автоматически или вручную с помощью специалистов, просматривающих популярные веб-узлы и составляющих краткое описание документов-резюме (ключевые слова, аннотация, реферат).

Специализированные каталоги или справочники создаются по отдельным отраслям и темам, по новостям, по городам, по адресам электронной почты и т. п.

Поисковые машины (самое развитое средство поиска в Интернете) реализуют технологию полнотекстового поиска. Индексируются тексты, расположенные на опрашиваемых серверах. Индекс может содержать информацию о нескольких миллионах документов.

При использовании средств метапоиска запрос осуществляется одновременно несколькими поисковыми системами. Результат поиска объединяется в общий, упорядоченный по степени релевантности список. Каждая система обрабатывает только часть узлов сети, что позволяет расширить базу поиска.

Так же очень важна так называемые «организация поиска» и «реализация поиска», о чем пишет Д.Н. Колисниченко в книге «Поисковые системы и продвижение сайтов в Интернете» [17].

Организация поиска 

Процедура поиска необходимой информации разделяется на девять основных этапов:

· Определение области знаний;

· Выбор типа и источников данных;

· Сбор материалов необходимых для наполнения информационной модели;

· Отбор наиболее полезной информации;

· Выбор метода обработки информации (классификация, кластеризация, регрессионный анализ и т.д.);

· Выбор алгоритма поиска закономерностей;

· Поиск закономерностей, формальных правил и структурных связей в собранной информации;

· Творческая интерпретация полученных результатов;

· Интеграция извлеченных "знаний".

Для проведения поиска первоначально на компьютере пользователя загружается интерфейс работы с соответствующей БД. Это может быть локальная или удалённая БД. Первоначально следует определиться с видом поиска (простой, расширенный и т.д.). Затем с набором предлагаемых для поиска полей. ИПС могут предложить для ввода одно или несколько полей. В последнем случае это обычно поля: автора, заглавия (названия), временного периода, вида документа, ключевых слов, рубрик и др.

Реализация поиска 

Общепринята организация поиска по начальным фрагментам слова (поиск с усечением справа), например, вместо слова "библиотечный" можно ввести его фрагмент "библиоте*". При этом будут найдены документы, в которых содержится не только слово "библиотечный", но и "библиотека", "библиотекарь", "бибилотековедение" и др. В каждом случае пользователь должен представлять, что именно он хочет найти, так как в предложенном ему варианте будет найдено гораздо большее количество документов, чем при задании данного слова полностью (без усечения). В подобном случае возможно в полученном массиве информации провести уточняющий поиск и в результате получить более релевантные данные.

ИПС характеризуются также временем выполнения поиска, интерфейсом, предоставляемым пользователю и видом отображаемых результатов. При выборе ИПС обращают внимание на такие их параметры, как охват и глубина. Под охватом понимается объём базы поисковой машины, измеряемый тремя показателями: общим объёмом проиндексированной информации, количеством уникальных серверов и количеством уникальных документов. Под глубиной понимается - существует ли ограничение на количество страниц или на глубину вложенности директорий на одном сервере.

Так же, некоторые аспекты информационного поиска освещены в книге В.А. Гвоздевой «Основы построения автоматизированных информационных систем» [6]. Как написано в книге, каждая поисковая машина имеет свои алгоритмы сортировки результатов поиска. Чем ближе к началу списка, полученного в результате проведения поиска, оказывается нужный документ, тем выше релевантность и лучше работает поисковая машина. Все они позволяют по ключевым словам, тематическим рубрикам и даже отдельным буквам оперативно находить в сети, например, все или почти все тексты, где эти слова присутствуют. При этом пользователю сообщаются адреса сайтов, где найденные результаты постоянно присутствуют. Однако ни одна из них не имеет подавляющих преимуществ перед другими. Для проведения надежного поиска по сложным запросам специалисты рекомендуют использовать последовательно или параллельно (одновременно) различные ИПС.

Из книги Д.Н. Кадеева «Информационные технологии и электронные коммуникации» [14] можно узнать о таком понятии, как «полнотекстовая поисковая машина». Она индексирует все слова видимого пользователю текста. Наличие морфологии дает возможность находить искомые слова во всех склонениях или спряжениях. Некоторые машины умеют искать словосочетания или слова на заданном расстоянии, что часто бывает важно для получения разумного результата. Кроме этого, в языке HTML существуют тэги, которые также могут обрабатываться поисковой машиной (заголовки, ссылки, подписи к картинкам и т.д.). При этом необходимо знать, что чем меньше количество ключевых слов включено в эти теги, тем с большей частотой они могут встречаться в текстах страниц сайта и, следовательно, тем выше их релевантность. Оптимальным считается частота таких слов не более 5%. Ключевых слов должно быть не очень много, они в большей степени должны состоять из одного или двух слов, образуя наиболее употребляемые термины. Чем большую релевантность имеют ключевые слова, тем большую конкурентоспособность они придают документу с точки зрения поисковых машин.

Полноту и точность ответа пользователь получает в зависимости от точности сформулированного им запроса. В результате поиска ему обычно предоставляется гораздо больше информации, чем ему необходимо, часть которой может вообще не иметь отношение к сформированному запросу. Легко заметить, что многое зависит не только от грамотно сформулированного запроса, но и от возможностей поисковых систем, которые весьма различны. При этом достаточно ярко проявляется тот факт, что в полученных данных можно пропустить главные, необходимые сведения. Простые запросы в виде отдельных достаточно распространенных терминов приводят к извлечению тысяч (сотен тысяч) документов, абсолютное большинство которых пользователю не требуется (информационный шум).

Важным аспектом также является возможность ИПС поддерживать многоязычность, то есть способность обрабатывать запросы на различных языках. Так же, обычно поиск в полнотекстовых БД осуществляется с использованием морфологических анализаторов (как правило, русских и английских), позволяющих автоматически находить существующие словоформы по фрагменту слова, слову, фразе, даже если в словах запроса присутствуют некоторые опечатки.

Ещё, нельзя не упомянуть про такую особенность ИПС, как средства поиска и структурирования, иногда называемые поисковыми механизмами. Как пишет И.С. Ашманов в своей книге «Продвижение сайта в поисковых системах» [1], поисковые механизмы используются для того, чтобы помочь людям найти информацию, в которой они нуждаются. Средства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, определяющих, как находить и обрабатывать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие проинструктированы, что нужно просматривать прежде всего наиболее популярные страницы. Классификация поисковых механизмов лучше всего представлена в книге Варфоломеева А.А. «Основы информационной безопасности” [3]:

· Агенты - самые "интеллектуальные" из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от Вашего имени. Уже сейчас они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.

· Общий поиск информации в Сети осуществляют программы, известные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.

· Кроулеры просматривают заголовки и возвращают только первую ссылку.

· Роботы могут быть запрограммированы так, чтобы переходить по различным ссылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети, однако, имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.

В завершение можно сказать, что ИПС в сети, при всем их внешнем разнообразии, своей классификацией, которая описана в книге Л.Г. Гагариной «Автоматизированные информационные системы» [4]:

Классификационные информационно-поисковые системы

В классификационных ИПС используется иерархическая (древовидная) организация информации, которая называется КЛАССИФИКАТОРОМ. Разделы классификатора называются РУБРИКАМИ. Библиотечный аналог классификационной ИПС - систематический каталог. Классификатор разрабатывается и совершенствуется коллективом авторов. Затем его использует другой коллектив специалистов, называемых СИСТЕМАТИЗАТОРАМИ. Систематизаторы, зная классификатор, читают документы и приписывают им классификационные индексы, указывающие, каким разделам классификатора эти документы соответствую.

Предметные ИПС (Web-кольца)

Предметная ИПС с точки зрения пользователя устроена наиболее просто. Ищи название нужного предмета своего интереса (предметом может быть и нечто невещественное, например, индийская музыка), а с названием связаны списки соответствующих ресурсов Интернет. Это было бы особенно удобно, если полный перечень предметов невелик.

Словарные ИПС

Культурные проблемы, связанные с использованием классификационных ИПС, привели к созданию ИПС словарного типа, с обобщенным англоязычным названием search engines. Основная идея словарной ИПС - создать словарь из слов, встречающихся в документах Интернет, в котором при каждом слове будет храниться список документов, из которых взято данное слово.

Основываясь на сведениях из книги А.Ю. Келиной «Основы информационной безопасности» [16], можно выяснить что есть два основных алгоритма работы словарных ИПС: с использованием ключевых слов и с использованием дескрипторов (Дескриптор- лексическая единица (слово, словосочетание) информационно-поискового языка, служащая для описания основного смыслового содержания документа или формулировки запроса при поиске документа (информации) в информационно-поисковой системе). В первом случае, для оценки содержимого документа используются только те слова, которые в нем встречаются, и по запросу ИПС сопоставляет слова из запроса со словами документа, определяя по количеству, расположению, весу слов из запроса в документе его релевантность. ИПС по историческим причинам используют этот алгоритм, в различных модификациях.

2.2 Сравнительный анализ различных поисковых систем

В сети Интернет существует множество различных видов поисковых систем. Каждая из них обладает своими особенностями и относится к определенному классу. К. Маннинг [22] описал огромное количество различных современных поисковых систем сети Интернет. Остановим свое внимание конкретных примерах, таких как Яндекс, Google, Yahoo, Rambler, и другие, дабы увидеть разницу между ними, определенные преимущества и недостатки. Первые две ИПС будут рассмотрены особенно подробно.
Но невозможно говорить о современных ИПС, не рассмотрев истоки, т.е. более ранние ИПС сети Интернет, благодаря которым появились современные ПС. О них подробно написано в книге Д.Н. Колисниченко [17]. Три главных справочно-поисковые системы, о которых необходимо упомянуть, это Gopher, WAIS и WWW.

Gopher

Gopher - был широко распространен в интернете и являлся предшественником World Wide Web. По некоторым данным, до 1995 года Gopher был самой динамично развивающейся технологией интернета. Темпы роста числа соответствующих серверов опережали темпы роста серверов всех других типов. В 1993 году в мире было более полутора тысяч gopher-серверов, фактически являлся системой распределенного поиска и передачи документов одновременно.

Система была разработана в университете штата Миннесота (на гербе этого штата изображен хомяк, по-английски gopher). Программа Gopher предлагает пользователю последовательность меню, из которых он может выбрать интересующую его тему или статью. Объектом поиска может быть текст или двоичный файл (во многих депозитариях даже текстовые файлы хранятся в архивированном, а, следовательно, двоичном виде), графический или звуковой образ. Gopher кроме того предлагает шлюзы в другие поисковые системы WWW, Wais, и т.д. Для доступа в глобальную сеть Gopher использует модель клиент-сервер. Система Gopher в настоящее время устарела, многие ее серверы интегрированы в сеть WEB. Но gopher явился прототипом современных интерфейсов WWW и именно делает его интересным.

WAIS

WAIS является одной из наиболее изощренных поисковых систем Internet. В отличие от многих поисковых машин, система позволяет строить не только вложенные булевые запросы, считать формальную релевантность по различным мерам близости, взвешивать термины запроса и документа, но и осуществлять коррекцию запроса по релевантности. Не случайно именно эта система была выбрана в качестве основной поисковой машины для реализации энциклопедии "Британика" на Internet.

Распределенная информационная система WAIS была задумана как сетевой аналог традиционных ИПС, позволяющий пользователям сети осуществлять поиск в полнотекстовых базах данных с использованием традиционного для ИПС информационно-поискового языка, поисковые предписания которого строятся на основе ключевых слов и/или их усечений, связанных между собой логическими операторами 0R или AND.

Первый прототип WAIS был полукоммерческой полуисследовательской системой с большими ограничениями по использованию как со стороны пользователей, так и со стороны администраторов баз данных. Прототип WAIS неплохо понимал естественный английский язык и переводил его в поисковые предписания системы. Реально WAIS стала широко применяться только с появлением версии FreeWAIS для операционных систем UNIX. Сегодня существует большое количество реализаций WAIS, главным образом коммерческих, а система стала своеобразным стандартом информационно-поисковой машины на сети Internet.


Подобные документы

  • Основные принципы построения информационно-поисковых систем. Архитектура современных информационно-поисковых систем WWW. Принцип работы поисковых систем. Процесс поиска, информационный язык, перевод, дескриптор, критерий соответствия, индексирование.

    курсовая работа [70,2 K], добавлен 10.06.2014

  • Понятие, структура и классификация информационных систем. Информационно поисковые системы. Исторические предпосылки развития поисковых систем. Понятие поисковых систем. Особенности поисковых систем: структура сети, структура работы поисковых систем.

    курсовая работа [81,9 K], добавлен 28.03.2005

  • Описание и классификация современных информационно–поисковых систем. Гипертекстовые документы. Обзор и рейтинги основных мировых поисковых систем. Разработка информационно–поисковой системы, демонстрирующей механизм поиска информации в сети Интернет.

    дипломная работа [1,3 M], добавлен 16.06.2015

  • Структура и принципы построения сети Интернет, поиск и сохранение информации в ней. История появления и классификация информационно-поисковых систем. Принцип работы и характеристики поисковых систем Google, Yandex, Rambler, Yahoo. Поиск по адресам URL.

    курсовая работа [3,6 M], добавлен 29.03.2013

  • История развития поисковых систем, особенности механизма поиска. Сравнительный обзор справочно-поисковых систем Интернета. Понятие поисковых роботов. Наиболее популярные поисковики для русскоязычного пользователя. Перспективы развития поисковых систем.

    реферат [64,0 K], добавлен 20.12.2012

  • Характеристика методов поиска информации в Интернете, а именно - с использованием гипертекстовых ссылок, поисковых машин и специальных средств. Анализ новых интернет ресурсов. История возникновения и описание западных и русскоязычных поисковых систем.

    реферат [17,2 K], добавлен 12.05.2010

  • Понятие информационно-поисковых систем, их сущность и особенности, история возникновения и развития, роль на современном этапе. Внутреннее устройство и элементы поисковой системы. Принцип работы поисковой машины Рамблер, прядок обработки запроса.

    научная работа [222,0 K], добавлен 29.01.2009

  • Понятие информационно-поисковых систем. История возникновения сети Internet. Основные алгоритмы работы современных словарных информационно-поисковых систем. Быстрый поиск в базе данных и быстрое реагирование системы. Ранжирование результатов поиска.

    курсовая работа [101,1 K], добавлен 01.06.2012

  • Краткая история развития поисковых систем. Обзор мировых и российских поисковых систем: Google, Yahoo, Baidu, Yandex, Rambler, Апорт, Mail.ru. Текстовый процессор Microsoft Word. Табличный редактор Excel. Организация рабочего места оператора ЭВМ.

    курсовая работа [66,3 K], добавлен 20.12.2008

  • Критерии эффективности информационно-поисковых систем: требования потребителя, полнота поиска, затраты труда, факторы, влияющие на характеристики. Ошибки при поиске, обусловленные несовершенством языка, процесса индексирования, поиска, другими причинами.

    курсовая работа [77,2 K], добавлен 06.02.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.