Сравнение эффективности работы информационно-поисковых систем

Классификация компьютерных сетей по территориальной распространенности, скорости передачи и другим признакам. Сравнительные характеристики поисковых машин Рамблер, Яндекс и Апорт. Определение релевантности страниц, их отображение в результатах поиска.

Рубрика Программирование, компьютеры и кибернетика
Вид контрольная работа
Язык русский
Дата добавления 31.10.2011
Размер файла 1,6 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

1

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ УКРАИНЫ

ХАРЬКОВСКИЙ НАЦИОНАЛЬНЫЙ УНИВЕРСИТЕТ РАДИОЭЛЕКТРОНИКИ

КАФЕДРА ИНЖЕНЕРНОЙ И КОМПЬЮТЕРНОЙ ГРАФИКИ

КОНТРОЛЬНАЯ РАБОТА

по дисциплине: Архитектура компьютерных сетей

на тему: Сравнение эффективности работы информационно-поисковых систем

Выполнила: ст. гр. КТСВПВвз-10-1

Летвищенко А.И.

Проверила: Егорова И.Н.

Харьков 2011

1. КОМПЬЮТЕРНЫЕ СЕТИ

компьютерный сеть поисковый машина

Компьютерная сеть (вычислительная сеть, сеть передачи данных) - система связи компьютеров и/или компьютерного оборудования (серверы, маршрутизаторы и другое оборудование). Для передачи информации могут быть использованы различные физические явления, как правило - различные виды электрических сигналов, световых сигналов или электромагнитного излучения.

По назначению компьютерные сети распределяются

1. вычислительные

2. информационные

3. смешанные

Вычислительные сети предназначены главным образом для решения заданий пользователей с обменом данными между их абонентами.

Информационные сети ориентированы в основном на предоставление информационных услуг пользователям.

Смешанные сети совмещают функции первых двух.

Классификация.

Для классификации компьютерных сетей используются разные признаки, выбор которых заключается в том, чтобы выделить из существующего многообразия такие, которые позволили бы обеспечить данной классификационной схеме такие обязательные качества:

§ возможность классификации всех, как существующих, так и перспективных, компьютерных сетей;

§ дифференциацию существенно разных сетей;

§ однозначность классификации любой компьютерной сети;

§ наглядность, простоту и практическую целесообразность классификационной схемы.

Определенное несоответствие этих требований делает задание по выбору рациональной схемы классификации компьютерной сети достаточно сложной, такой, которая не нашла до этого времени однозначного решения. В основном компьютерные сети классифицируют по признакам структурной и функциональной организации.

По территориальной распространенности

§ CAN (Controller Area Network - сеть контроллеров) - стандарт промышленной сети, ориентированный прежде всего на объединение в единую сеть различных исполнительных устройств и датчиков.

§ LAN (Local Area Network) - локальные сети, имеющие замкнутую инфраструктуру до выхода на поставщиков услуг. Термин «LAN» может описывать и маленькую офисную сеть, и сеть уровня большого завода, занимающего несколько сотен гектаров. Зарубежные источники дают даже близкую оценку - около шести миль (10 км) в радиусе. Локальные сети являются сетями закрытого типа, доступ к ним разрешен только ограниченному кругу пользователей, для которых работа в такой сети непосредственно связана с их профессиональной деятельностью.

§ MAN (Metropolitan Area Network) - городские сети между учреждениями в пределах одного или нескольких городов, связывающие много локальных вычислительных сетей.

§ WAN (Wide Area Network) - глобальная сеть, покрывающая большие географические регионы, включающие в себя как локальные сети, так и прочие телекоммуникационные сети и устройства. Пример WAN - сети с коммутацией пакетов (Frame relay), через которую могут «разговаривать» между собой различные компьютерные сети. Глобальные сети являются открытыми и ориентированы на обслуживание любых пользователей.

§ PAN (Personal Area Network) - персональная сеть, предназначенная для взаимодействия различных устройств, принадлежащих одному владельцу.

§ Термин «корпоративная сеть» также используется в литературе для обозначения объединения нескольких сетей, каждая из которых может быть построена на различных технических, программных и информационных принципах.

По типу функционального взаимодействия

§ Клиент-сервер

§ Смешанная сеть

§ Одноранговая сеть

§ Многоранговые сети

По типу сетевой топологии

§ Шина

§ Кольцо

§ Двойное кольцо

§ Звезда

§ Ячеистая топология

§ Решётка

§ Дерево

§ Fat Tree

По типу среды передачи

§ проводные (телефонный провод, коаксиальный кабель, витая пара, волоконно-оптический кабель)

§ беспроводные (передачей информации по радиоволнам в определенном частотном диапазоне)

По функциональному назначению

§ Сети хранения данных

§ Серверные фермы

§ Сети управления процессом

§ Сети SOHO & Домовая сеть

По скорости передач

§ низкоскоростные (до 10 Мбит/с),

§ среднескоростные (до 100 Мбит/с),

§ высокоскоростные (свыше 100 Мбит/с);

По сетевым ОС

§ На основе Windows

§ На основе UNIX

§ На основе NetWare

§ Смешанные

По необходимости поддержания постоянного соединения

§ Пакетная сеть, например Фидонет и UUCP

§ Онлайновая сеть, например Интернет и GSM

2. ПРАКТИЧЕСКОЕ ЗАДАНИЕ

Сравнить эффективность работы информационно-поисковых систем

Сравнительные характеристики поисковых машин Рамблер, Яндекс и Апорт

К сожалению, данные, представленные в настоящей таблице, относятся к 1999 году. Но таблица может прекрасно дать понять, по каким критериям нужно сравнивать поисковые машины и какими особенностями обладают наши ведущие поисковики.

Rambler

Yandex

Aport

I. Основные характеристики поисковых систем

Адрес

www.rambler.ru

www.yandex.ru

www.aport.ru

Кол-во уникальных пользователей поиск. сист. в день (ср. за неделю с 25 по 31.01.99)

19 344

13 323

6 714

Кол-во уникальных пользователей поисковой системы в месяц (январь 99)

137 300

94 775

55 200

Кол-во запросов к поисковой системе в день (среднее за неделю с 25 по 31 января)

138 983*

50 235

24 057

Размер поисковой системы (на 31.01.99)

3 815 679 (DOC)

5 143 907 (URLs)

24 897 (SERV)

4 512 231 (DOC)

24 772 (SERV)

1 757 208 (DOC)

2 999 585 (URL)

13 264 (SERV)**

Кол-во индексируемых в день страниц (среднее за неделю с 25 по 31 января)

130 000 URLs

40 000 NEW

900 000 URLs

Период обновления страницы в индексах

от нед. до мес.

7 дней

от нед. до мес.

Появление в индексах после регистрации

Ближайший выходной

10 мин. для доменов 'ru', 'su', 7 дней для ост.

7 дней

Появление в индексах незарег. страниц

от нед. до мес.

около 7 дней

от нед. до мес.

Глубина индексирования

не ограничена

не ограничена

не ограничена

Поддержка фреймов

+

+

+

Поддержка ImageMaps

+

+

+

Индексация закрытых разделов

+

+

+

Популярность веб-сайта

-

планируется

-

Определение частоты обновления

-

+

+

Robots.txt

+

+

+

Meta Robots

+

+

+

Возм. проверки стр. на наличие в индексах

+

+

+

Возм. проверки на налич. ссылок с др. стр.

-

планируется

+

*-включая поиск по TOP100 **-данные на 02.12.1998

II. Факторы, влияющие на определение релевантности страницы

Популярность страниц

-

-

-

Мета-теги

-

планируется

+

Индексация в поле ALT

+

планируется

+

Индексация текста в комментариях

+

-

+

Стоп слова

встреч. в более 600 тыс. док.

список

список

Морфологический поиск

+

+

+

Учет регистра

+

-

+

Meta-refresh

ОК (робот переходит)

ОК (робот не переходит)

ОК (робот переходит)

Излишняя повторяемость ключевых слов

SPAM

SPAM

SPAM

Невидимый текст

SPAM

SPAM

SPAM

Мелкий текст

SPAM

SPAM

SPAM

III. Факторы, влияющие на отображение страниц в результатах поиска

Длина заголовка (title), символов

не более 512

не более 203

не более 256

Если нет заголовка

URL

выдается "Без заголовка"

выд."Документ без названия"

Вид описания (мета-тег, первый текст на странице и т.д.)

первые 513 симв. из осн. текста документа

первые 203 симв. из осн. текста документа

отрывки предл. (до 10), где встреч. ключ. сл.

Длина описания

три опции: отсутствует,

не бол. 513 симв.,

не ограничена

не более 203 символов

цитата до 500 слов

Дата обновления документа

+

+

+

Дата индексации документа

+

-

+

Размер документа

+

+

-

Кодировка документа

+

+

+

Количество результатов на странице

15 - 30 - 50

10 - 20 - 50

10

Варианты отображения

стандартный, короткий, полный

простой и академ. поиск

сжатая, обычная, подробная

Пояснения к таблице

I. Основные характеристики поисковых систем

Размер поисковой системы

Параметр, характеризующий объем информации, проиндексированной системой:

(URL) - количество хранящихся в индексах адресов страниц;

(DOC) - количество проиндексированных документов (последних, как правило, меньше, чем (URL), так как по нескольким URL может находиться один и тот же документ).

(SERV) - количество проиндексированных серверов.

На одном сервере может располагаться от одной до нескольких тысяч страниц, поэтому данная цифра больше свидетельствует о широте охвата системы, чем об ее информационном объеме. От размера поисковой системы зависит, будет ли Ваш веб-сайт представлен в ее индексах, сколько страниц веб-сайта будет проиндексировано и т.д.

Количество индексируемых в день страниц

Количество страниц, которые индексируются роботами поисковых систем за одни сутки. Чем выше данный параметр, тем чаще происходит переиндексация страниц, тем актуальнее информация в системе.

Период обновления страницы в индексах

Среднее и максимальное время, через которое происходит повторная индексация страницы.

Содержимое многих веб-страниц часто меняется, некоторые страницы попросту исчезают, поэтому для поисковой системы немаловажно поддерживать актуальную информацию в своих индексах. Однако ссылки в поисковой системе могут быть как однодневной давности, так и не обновлявшимися несколько месяцев. Причина в том, что робот не возвращается на все страницы через одинаковый промежуток времени. На скорость обновления влияют следующие факторы:

o регистрация по запросу пользователя, при этом указанная страница заносится в индекс "вне очереди";

o зависимость скорости обновления от популярности страницы;

o зависимости скорости обновления от динамичности страницы.

Появление в индексах после регистрации

Время, через которое зарегистрированная пользователем страница появится в индексах системы. По идее, робот поисковой системы рано или поздно найдет страницу, если на нее указывают другие веб-ресурсы. Но на практике гораздо быстрее это произойдет при их непосредственной регистрации (обычно add URL).

Появление в индексах незарегистрированных страниц

При регистрации (add URL) пользователи, как правило, указывают URL главной страницы сайта. При этом поисковые системы обычно оперативно помещают в индексы указанную страницу и ставят весь остальной сайт в очередь на индексацию. Данный пункт указывает период, через который остальные страницы сайта появятся в индексах.

Глубина индексирования

Данный пункт показывает, сколько страниц помимо указанной будет индексировать поисковая система. Как правило, у крупных поисковых машин нет ограничения на глубину, и их роботы пытаются проиндексировать все страницы веб-сайта. Это не всегда получается, т.к. на их пути могут возникнуть преграды, например, такие как фреймы, ImageМaps, динамически созданные страницы и т.д. (см. ниже). Ряд поисковых систем (например, Infoseek, Lycos) при индексации ограничиваются лишь некоторым количеством страниц веб-сайта. Количество страниц зависит как от самой системы, так и от популярности индексируемого ресурса.

Поддержка фреймов

Некоторые поисковые системы не понимают фреймовой структуры сайта. Вследствие этого практически все страницы сайта могут быть не проиндексированы. О том, как справиться с этой напастью, написано выше.

Поддержка ImageMaps

Не все поисковые системы могут следовать по ссылкам, указанным посредством ImageМaps. Вследствие этого некоторые страницы Вашего сайта могут быть не проиндексированы. О том, как справиться с этой напастью, вы можете прочитать выше Индексация закрытых разделов. Ряд поисковых машин могут индексировать защищенные разделы на серверах, если им указать login и пароль. Пользователь не сможет сразу перейти на защищенную страницу и изучить всю информацию, но благодаря поисковой системе он будет знать, что такая информация существует и, возможно, примет решение заплатить и получить к ней доступ.

Популярность веб-сайта

Поисковая система может определить "популярность" веб-сайта по количеству ссылок на него с других веб-ресурсов. Популярность может быть одним из факторов в принятии системой решения о том, индексировать данный веб-сайт или нет.

Определение частоты обновления

Некоторые поисковые машины определяют, насколько часто обновляются те или иные страницы. Данная информация помогает соответствующим образом спланировать график повторных визитов роботов для переиндексации страниц. Регулярно обновляемые ресурсы посещаются чаще, статичные страницы - реже.

Robots.txt, Meta Robots

В силу некоторых обстоятельств администратор сайта может не желать индексации всех или определенных страниц своего веб-ресурса. Избежать индексации можно двумя путями. С помощью файла Robots.txt, размещенного на веб-сервере, (его спецификации можно изучить по адресу http://info.webcrawler.com/mak/projects/robots/exclusion.html.) А также при помощи специального мета-тега, который помещается на конкретную страницу веб-сайта и предписывает роботам не заносить ее в индексы системы. Выглядит следующим образом:

<META NAME="ROBOTS" CONTENT="NOINDEX">

Возможность проверки страницы на наличие в индексах

Очень полезная опция, которой обладают далеко не все поисковые машины. Позволяет определить наличие в индексах системы той или иной страницы и посмотреть, как она выглядит в системе.

Синтаксис запроса для Rambler - $URL: host/url_name

Синтаксис запроса для Yandex - попробовать добавить страницу на http://yandex.ru/addurl.html, если страница уже есть в индексах, система выдаст соответствующее сообщение.

Синтаксис запроса для Апорта! - URL=www.promotion.aha.ru

Возможность проверки наличия ссылок с других страниц

Для человека, занимающегося продвижением сервера, немаловажно знать, какие ресурсы сети содержат на него ссылку, в каком контексте эта ссылка используется и т.д. Поэтому возможность вывода сайтов, содержащих подобные ссылки, придает поисковой системе дополнительную ценность. Синтаксис запроса для Апорта! - link=www.promotion.aha.ru (пока можно указывать только имя сервера).

II. Факторы, влияющие на определение релевантности страницы

Популярность страниц

Для каждой страницы поисковая система может определить, какое количество веб-ресурсов имеют на нее ссылку. Некоторые системы учитывают данный параметр "популярности" и считают подобные страницы более релевантными запросу. В этом действительно есть логика, так как наличие большого количества ссылок, как правило, свидетельствует о полезности и информативности страницы.

Мета-теги

Не все системы поддерживают мета-теги: description и keywords, то есть учитывают ключевые слова, содержащиеся в этих тегах, при определении релевантности страницы. Подробнее об этих тегах можно прочитать выше.

Индексация в поле ALT

Не все системы учитывают ключевые слова, содержащиеся в поле ALT тега IMG, при определении релевантности страницы.

Для справки: в поле ALT заносится альтернативная текстовая подпись к картинкам на странице.

Индексация текста в комментариях

Не все системы учитывают ключевые слова, содержащиеся в комментариях, при определении релевантности страницы.

Для справки: Комментарии не отображаются в браузере, и посетители сайта их обычно не видят. В основном, используются для служебной разметки Html-страницы и содержат информацию, не предназначенную для широкого круга пользователей.

Стоп-слова

Для экономии места и увеличения производительности некоторые поисковые системы не включают в индексы слова, встречающиеся на веб-страницах очень большое количество раз. Например, "www", артикли "а", "the" и т.д.

Морфологический поиск

Если поисковая система поддерживает морфологию, то поиск будет осуществляться не только по указанному слову, но и по всем его морфологическим формам. Например, при запросе "баннер" такая поисковая машина найдет также страницы, содержащие слова "баннера", "баннеров", "баннере" и т.д.

Учет регистра

Некоторые поисковые системы чувствительны к запросам с учетом регистра, другие - нет. Например, поисковая система AltaVista при запросе "banner" выдаст все страницы, содержащие слово "banner", где буквы могут быть в любом регистре, но при запросе "Banner" - только страницы, содержащие это слово с заглавной первой буквой.

Meta-refresh

В сети существуют страницы, которые автоматически переносят пользователя на другие веб-ресурсы. Причин, по которым они создаются, может быть много: сайт переехал на новое место и находится по другому адресу; страницы с редиректом созданы специально для поисковой системы, так как основные страницы сайта генерируются автоматически и не могут быть проиндексированы и т.д.

Обычно такой автоматический редирект реализуется с помощью мета-тега refresh. Его синтаксис:

<META HTTP-EQUIV="Refresh" CONTENT="10; URL=www.urlname.ru">

Поисковые системы ведут себя в этом случае по-разному:

o одни считают такие страницы спамом поисковых систем и не индексируют их;

o другие не индексируют данную страницу, но переходят по ссылке редиректа и производят индексацию на странице назначения;

o третьи не понимают данного мета-тега, индексируют саму страницу, но по редиректу не переходят...

Спам поисковых систем

Вполне понятно стремление каждого веб-мастера добиться того, чтобы при запросе по определенным ключевым словам его страница выдавалась как можно ближе к началу списка. Иногда такое желание толкает некоторых использовать неприглядные приемы искусственного увеличения релевантности своей страницы - спамить поисковые системы.

В основном, спам заключается в использовании неоправданно большого количества ключевых слов на странице. Причем их стараются использовать там, где они имеют наибольший "вес" для поисковой системы, - в заголовке страницы (теге title), названиях разделов и т.д. Часто для того, чтобы подобные дополнительные слова не портили посетителям впечатление от страницы, их пишут текстом, совпадающим с фоном страницы, цветом или мелким шрифтом и т.д.

Разумеется, администрация поисковиков не одобряет подобные действия. Системы поиска призваны находить и отображать документы в соответствии с тем, что содержит текст, предназначенный для посетителей, а не по "обогащенной смеси" ключевых слов.

Крупные международные поисковики применяют ряд мер по борьбе со спамом. Если таким системам попадется страница, которая содержит в мета-теге keywords одно и то же слово более 5 раз или, например, невидимый для посетителей текст, она не будет проиндексирована системой.

Наши поисковые системы, к сожалению, пока не поддерживают автоматических средств борьбы со спамом, и в таблице просто представлены те действия, которые расцениваются администрацией как спам. Несмотря на отсутствие автоматического контроля, я рекомендую не использовать описанные выше приемы, поскольку:

o спам поисковых систем сильно затрудняет поиск информации в Интернете;

o подобную страницу при обнаружении могут выкинуть из индексов вручную;

o не за горами время ввода автоматических средств слежения за спаммерами в русских поисковых системах.

III. Факторы, влияющие на отображение страниц в результатах поиска

Длина заголовка (title).

Максимальное количество символов из заголовка документа, которое отображает система.

Если нет заголовка.

В сети встречаются страницы с пустым или отсутствующим тегом title (заголовком документа). Этот пункт показывает, что система выводит в таком случае.

Вид описания (мета-тег, первый текст на странице и т.д.)

Найденные документы каждая из систем отображает по-своему. Это могут быть первые N-символов текста со страницы, описание из мета-тега description, отрывки текста страницы, содержащие слова поиска и т.д.

Длина описания

Максимальное количество символов в описании страницы.

Дата обновления документа

При отображении веб-документов в результатах поиска некоторые системы указывают время создания или обновления данной страницы.

Дата индексации документа

При отображении веб-документов в результатах поиска некоторые системы указывают время последней индексации данной страницы.

Размер документа

При отображении веб-документов в результатах поиска некоторые системы указывают размер данной страницы в килобайтах.

Кодировка документа

При отображении веб-документов в результатах поиска некоторые системы указывают, в какой кодировке создана данная страница.

Количество результатов на странице

Найденные веб-документы отображаются в системе определенными порциями, обычно по 10-20 документов.

Варианты отображения

Некоторые поисковые системы предусматривают несколько вариантов отображения найденных веб-документов.

Размещено на Allbest.ru


Подобные документы

  • Критерии эффективности информационно-поисковых систем: требования потребителя, полнота поиска, затраты труда, факторы, влияющие на характеристики. Ошибки при поиске, обусловленные несовершенством языка, процесса индексирования, поиска, другими причинами.

    курсовая работа [77,2 K], добавлен 06.02.2014

  • Понятие информационно-поисковых систем, их сущность и особенности, история возникновения и развития, роль на современном этапе. Внутреннее устройство и элементы поисковой системы. Принцип работы поисковой машины Рамблер, прядок обработки запроса.

    научная работа [222,0 K], добавлен 29.01.2009

  • Анализ возможностей поисковых систем Яндекс и Google, их сравнение с точки зрения полезности. История создания поисковых систем, характеристика их интерфейса, поисковых инструментов и алгоритмов. Формирование вопроса и критерий к ответу на него.

    реферат [30,0 K], добавлен 07.05.2011

  • Основные принципы построения информационно-поисковых систем. Архитектура современных информационно-поисковых систем WWW. Принцип работы поисковых систем. Процесс поиска, информационный язык, перевод, дескриптор, критерий соответствия, индексирование.

    курсовая работа [70,2 K], добавлен 10.06.2014

  • Определение программного и математического обеспечения ИС. Виды запросов к базам данных в СУБД. Поисковые системы Интернет. Описание принципа работы поисковых систем Яндекс, Рамблер, Апорт. Особенности пересылки файлов средствами электронной почты.

    контрольная работа [271,7 K], добавлен 22.11.2009

  • Понятие и характеристики компьютерных сетей. Классификация сетей по ряду признаков: по назначению, территориальной распространенности, по типу функционального взаимодействия, типу среды передачи, топологии сетей, скорости передач, по сетевым ОС.

    презентация [510,5 K], добавлен 12.09.2011

  • Рассмотрение поисковых систем интернета как программно-аппаратного комплекса с веб-интерфейсом, предоставляющего возможность поиска информации. Виды поисковых систем: Archie, Wandex, Aliweb, WebCrawler, AltaVista, Yahoo!, Google, Яндекс, Bing и Rambler.

    реферат [24,3 K], добавлен 10.05.2013

  • Краткая история развития поисковых систем. Обзор мировых и российских поисковых систем: Google, Yahoo, Baidu, Yandex, Rambler, Апорт, Mail.ru. Текстовый процессор Microsoft Word. Табличный редактор Excel. Организация рабочего места оператора ЭВМ.

    курсовая работа [66,3 K], добавлен 20.12.2008

  • Понятие, структура и классификация информационных систем. Информационно поисковые системы. Исторические предпосылки развития поисковых систем. Понятие поисковых систем. Особенности поисковых систем: структура сети, структура работы поисковых систем.

    курсовая работа [81,9 K], добавлен 28.03.2005

  • Понятие информационно-поисковых систем. История возникновения сети Internet. Основные алгоритмы работы современных словарных информационно-поисковых систем. Быстрый поиск в базе данных и быстрое реагирование системы. Ранжирование результатов поиска.

    курсовая работа [101,1 K], добавлен 01.06.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.