Web-индексы
Общие сведения про web-индексы. Методы сбора и классификации информации: web-индексы, web-каталоги, системы поиска. Технология поиска информации в Internet: поиск с помощью поисковых систем web-индексов, с помощью тематических каталогов, поисковых систем.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 27.02.2009 |
Размер файла | 25,8 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
20
Содержание
- 1. Общие сведения 3
- 2. Методы сбора и классификации информации 6
- 2.1 Web-индексы 6
- 2.2 Web-каталоги 7
- 2.3 Системы поиска 8
- 3. Технология поиска информации в Internet 10
- 3.1 Поиск с помощью поисковых систем (web-индексов) 10
- 3.2 Поиск с помощью тематических каталогов (web-каталогов) 15
- 3.3 Поиск с помощью поисковых систем 16
- Список литературы 21
1. Общие сведения
“Всемирная паутина” в Internet - это миллионы документов с неструктурированной текстовой информацией (а также с графикой, аудио, видео). Чтобы найти нужную информацию, клиенту Сети зачастую приходится перебирать сотни страниц Web (иногда без особого успеха), тратить много сил и нервов (а также денежных средств).
С начала 90-х годов интенсивно развиваются справочные службы Internet, помогающие пользователям найти нужную информацию, и эти службы можно разделить на две категории: универсальные и специализированные.
В универсальных службах используется обычный принцип поиска в неструктурированных документах - по ключевым словам, в специализированных - по контексту.
Ключевым словом документа называется отдельное слово или словосочетание, которое каким-то образом отражает содержание данного документа, выделяет область его поиска. Ключевые слова записываются с помощью специального языка управления запросами, например: “Бразилия + футбол + чемпионат”.
Универсальная служба поиска (поисковая система) - это комплекс программ и мощных компьютеров, выполняющий следующие функции:
1. Специальная программа (поисковый робот, паук, spider, crawler, bot) непрерывно просматривает страницы WWW, выбирает ключевые слова и составляет базу данных индексов. В эту базу включаются ключевые слова и адреса документов, в которых эти слова обнаружены (напомним, что индекс - это упорядоченный по ключевым словам набор указателей). Паук возвращается к узлу на регулярной основе, примерно каждый месяц или чаще, чтобы поискать изменения.
2. Web-сервер принимает от пользователя запрос на поиск, преобразует его и передает специальной программе - поисковой машине.
3. Поисковая машина просматривает базу данных индексов, составляет список страниц, удовлетворяющих условиям запроса (точнее, список ссылок на эти страницы) и возвращает его Web-серверу.
4. Web-сервер оформляет результаты выполнения запроса в удобном для пользователя виде и передает их на машину клиента.
Среди наиболее известных и мощных поисковых систем: Alta Vista (www.altavista.com), Infoseek (www.infoseek.com), Lycos (www.lycos.com), российская система Рамблер (www.rambler.ru) и другие.
Специализированные справочные службы (классификаторы) - это тематические каталоги (subject catalogs), в которых собраны более или менее структурированные сведения об адресах серверов по той или иной тематике. В отличие от универсальных баз индексов, тематические каталоги составляются специалистами и обеспечивают клиента более строгой, достоверной и систематизированной информацией о Сети. В классификаторах используется иерархическая (древовидная) организация информации. Это дает пользователю возможность вести просмотр, перемещаясь по иерархии тематических рубрик, и, постепенно сужая поле поиска до необходимых размеров.
Кроме того, многие сайты Internet располагают собственными механизмами поиска (в пределах данного сайта). В первую очередь это механизм контекстного поиска, а также специализированный поиск по фамилиям (например, персоны компьютерного бизнеса), товарам (на рекламных сайтах), фирмам и т.д. Некоторые полезные адреса конкретных информационных ресурсов приведены в следующей талице.
С точки зрения методологии стратегия работы современных поисковых серверов базируется на трех основных подходах:
* создание Web-индексов (Web indexes), - алгоритм работы таких систем мы только что рассмотрели,
* создание каталогов (Web directories),
* “гибридный” метод, сочетающий в той или иной степени два первых подхода.
Кроме того, существует ряд дополнительных подходов к классификации информации: онлайновые справочники, системы на CD-ROM, различные желтые и белые страницы Internet и т.д. В Internet можно найти множество документов по вопросу классификации систем поиска, см. например, достаточно подробную статью на www.josts.net/lusd/sewk.htm.
Все названные вопросы требуют дальнейшего рассмотрения и изучения, что является целью данной работы.
2. Методы сбора и классификации информации
2.1 Web-индексы
Web-индексы стали первым средством систематизации содержимого документов, доступных через Internet. Создание Web-индексов предполагает создание и непрерывное пополнение огромной базы данных по индексируемым документам, выполняемое исключительно компьютерами (и в этом принципиальное отличие таких систем!). Повторяясь, напомним, что сбор информации в индексы выполняется автоматически программами-роботами или “пауками”, которые просматривают серверы Internet, копируют документы, анализируют встречающиеся в них слова и выполняют индексирование. Яркими представителями этой ветви серверов являются
Alta Vista (www.altavista.com),
Яndex (www.yandex.ru),
InfoSeek (infoseek.go.com).
Поисковые системы этого типа обладают очень большими базами данных и высокой скоростью обработки запросов, но степень обработки материала оставляет желать лучшего. Как правило, в ответ на ввод ключевых слов для поиска они выдают ссылки на сотни и тысячи документов, в которых действительно встречаются указанные пользователем ключевые слова, но по смыслу подавляющее большинство этих документов имеет очень отдаленное отношение к теме, интересующей пользователя. Эффективный поиск с помощью web-индексов предполагает использование специальных языков управления запросами. Описание правил составления запросов имеется на каждой информационно-поисковой системе в разделе Помощь (Help).
2.2 Web-каталоги
Второй подход предполагает организацию поисковой машины как предметно-ориентированной системы, где информация по отдельным темам собрана в постоянно обновляющихся иерархически организованных каталогах. Типичными представителями этой ветви являются:
Yahoo! (www.yahoo.com),
Look Smart (www.looksmart.com),
Созвездие Internet (www.stars.ru)и виртуальные библиотеки. Примером виртуальной библиотеки является библиотека, поддерживаемая Консорциумом W3.
Web-каталоги создаются людьми, которые сами просматривают узлы Web, читают электронную почту и телеконференции. Здесь требуется огромная доля труда квалифицированных специалистов, занимающихся классификацией и анализом поступающих данных. Дополнительным преимуществом каталогов можно назвать специальные обзоры, аннотации и пр., которые готовятся аналитиками этих узлов по различным темам и доступны пользователям. При использовании web-каталогов может осуществляться контекстный поиск по описаниям рубрик.
Естественно, что по качеству сортировки документов Web-каталоги намного превосходят Web-индексы (заметно проигрывая им по количеству просмотренных документов). Следует отметить, что, как правило, Web-каталоги имеют внутренний поисковый механизм, который направляет вас в нужный раздел, если вы не очень хорошо представляете, где конкретно искать документы по интересующей вас теме.
2.3 Системы поиска
Кроме классических индексов и каталогов в Internet существуют и гибридные поисковые системы, в которых можно воспользоваться и индексной базой данных и структурированными тематическими каталогами. Примерами таких “гибридных” серверов являются Lycos (www.lycos.com), Excite (www.excite.com), Rambler (www.rambler.ru).
Онлайновые справочники также составляются людьми, но в отличие от Web-каталогов в них чаще всего отсутствует внутренний поисковый механизм. Пользователям приходится самостоятельно искать на сервере нужную информацию. В качестве примера онлайнового справочника можно привести Web Server Directory.
Внесетевые справочники обычно записаны на CD-ROM и представляют собой локальные базы данных сетевых ресурсов. Они призваны сократить время соединения с провайдером и уровень загрузки поисковых систем Internet за счет того, что с их помощью пользователь производит предварительный поиск адресов нужных ресурсов и лишь затем выходит в Internet. Отличный пример такого справочника - каталог Сигалова А. “Желтые страницы Internet. Русские ресурсы”.
Кроме перечисленных типов поисковых средств в Сети можно встретить многочисленные справочники и классификаторы, сгруппированные в различные “желтые”, “белые” и иные страницы, находящиеся в отличие от внесетевых справочников, прямо на узлах Web. В них информация структурирована по крупным темам. Например, “Российская Федерация”. Внутри этого раздела она разбита на географические регионы, в которых имеются разделы “Новости и политика”, “Законодательство”. Далее выделяются такие темы как “Экономика и финансы”, “Производство и торговля”, “Наука и техника”, “Образование”, “Компьютерные технологии”, “Сети и телекоммуникации”, “Культура и искусство”, “Медицина и здоровье”, “Пресса”, “Отдых и развлечения” и т.д.
В качестве примера можно назвать тематический справочник BigBook фирмы Organic Online (www.bigbook.com), алфавитный классификатор Hoovers (www.hoovers.com).
Стремление облегчить решение рассматриваемой задачи дало толчок развитию систем параллельного поиска, когда можно одновременно обратиться к целому ряду поисковых машин, вводя запрос на одной странице вашего обозревателя. Подобный сервис получил название Meta-Search Engines (метапоисковые системы).
В простейшем варианте метапоисковые системы являются обычными интерфейсными программами, предоставляющими на одной странице одновременный доступ к нескольким поисковым серверам.
На следующей странице сведены как метапоисковые системы, так и сводные страницы. Здесь отслеживается рейтинг систем по степени их использования и эффективности, приводятся инструкции (на англ. языке).
В обозревателе MS Internet Explorer 3.x-6.x предусмотрен легкий доступ к метапоисковой странице, расположенной на сервере Microsoft. Через панель поиска вы получаете доступ сразу к нескольким поисковым машинам. В зависимости от версии и языка обозревателя список предлагаемых поисковых серверов меняется. MS Internet Explorer не занимается поиском: он принимает от пользователя запрос, обрабатывает его и передает соответствующей поисковой системе. Пользователю MS Internet Explorer достаточно загрузить данную страницу, нажав на кнопку Поиск (Search) на панели инструментов, выбрать на панели поиска нужный поисковый сервер и, введя ключевое слово, нажать на кнопку Поиск для начала или возобновления поиска.
3. Технология поиска информации в Internet
Единой оптимальной схемы поиска в Internet не существует. В зависимости от специфики необходимой вам информации, для ее поиска вы должны использовать соответствующие поисковые службы. В принципе, конечно, можно всегда пользовать какой-нибудь одной поисковой системой, например Rambler, но чем грамотнее подобраны поисковые службы и составлен запрос на поиск информации, тем качественнее будут результаты поиска.
3.1 Поиск с помощью поисковых систем (web-индексов)
Правильное использование информационно-поисковой системы заключается в знании языка запросов. Только применяя на практике этот язык, вам не придется разгребать кучу ссылок, никак не относящихся к тому, что вы искали, и поиск будет быстрым и эффективным. Технология поиска с помощью поисковой системы такова:
1. Проанализируйте предполагаемое содержание запрашиваемой информации и выберите ключевые слова, которые обязательно встретятся в интересующих вас материалах или их заголовках.
Необходимо получить из любого источника прецедент подробного и грамотного описания исследуемого вопроса. Таким источником вполне может стать как узко специальный справочник, так и электронная энциклопедия общего профиля. На основе изученного материала необходимо сформировать максимально широкий набор ключевых слов в виде отдельных терминов, словосочетаний, профессиональной лексики и клише, при необходимости - и на нескольких языках. Заранее стоит побеспокоиться о потенциальной возможности уточнения поискового запроса - редких словах, возможно, названий и фамилий, тесно связанных с проблемой.
2. Продумайте строку запроса информации (не более чем 5 слов), учитывая, что на каждом поисковом сервере может применяться свой собственный синтаксис запросов. В зависимости от того, построили ли вы запрос в соответствии с правилами или нет, вы можете получить то, что искали, или лавину нерелевантных ссылок.
У большинства поисковых машин есть три основных вида поиска:
* по любому (одному) из слов,
* по всем словам и
* точно по фразе.
В зависимости от выбранного режима результаты поиска могут сильно различаться:
* Поиск по любому слову. В результате поиска составляется список всех индексированных страниц, содержащих любое из ваших ключевых слов. Нередко число совпадений при таком поиске огромно. Однако если поисковая система хорошо сортирует результаты по тематике, то нужную страницу можно найти в верхней части списка ссылок, который вам выдала поисковая машина. Поиск по любому слову может быть удобен в случаях, когда пользователь не уверен в ключевых словах. Если вы не знаете, как правильно называется прибор для измерения кровяного давления - "sphygmomanometer" или "sphygnomanometer", - то ищите по любому из слов, указав оба термина.
* Поиск по всем словам. В этом режиме поиска формируется список всех индексированных страниц, содержащих сразу все ключевые слова, в любом порядке. При этом сохраняется вероятность получения результатов, не соответствующих теме. Например, поиск по словам Martin Luter King birthday может указать на страницу, на которой собраны статистические данные о резервисте НБА Леоне Смите, в том числе его дата рождения и тот факт, что он учился в школе имени Мартина Лютера Кинга.
* Поиск точно по фразе. В этом режиме поиска составляется список всех индексированных страниц, содержащих фразу, точно совпадающую с ключевой; знаки препинания игнорируются. В список не попадают узлы, посвященные одной теме, описываемой с использованием разных фраз. Даже в этом режиме поиска возможны ложные результаты. В ходе поиска по фразе Martin Luter King birthday была обнаружена страница, посвященная увлечению частного лица: "Most Admired Person: Dr. Martin Luter King; Birthday: January 16." (Кумир: доктор Мартин Лютер Кинг; дата рождения: 16 января.)
Для составления запроса также можно использовать специальные логические операторы AND ("И"), OR ("ИЛИ") и AND NOT ("И НЕ") или их сокращенную запись, при необходимости группируя ключевые слова с помощью круглых скобок. Как правило, эти операторы обозначаются одним из следующих способов (см. табл.1).
Таблица 1
Оператор |
Обозначение |
Сокращенная запись |
Обозначение при простомпоиске (кроме ИПС Rambler) |
|
И |
AND |
& |
+ |
|
ИЛИ |
OR |
| |
пробел |
|
И НЕ |
AND NOT |
&! |
~ |
|
скобки |
( ) |
( ) |
( ) |
Оператор "И" используется тогда, когда вам нужно найти документы, содержащие все ключевые слова из запроса. Например, по запросу рефераты AND сочинения вы найдете все документы, в которых упоминаются сразу оба слова.
Оператор "ИЛИ" обычно используется для того, чтобы найти документы, содержащие, по крайней мере, одно из содержащихся в запросе слов. Его удобно использовать при поиске синонимов. Например, по запросу рефераты OR сочинения вы найдете все документы, в которых упоминается либо слово "рефераты", либо слово "сочинения", либо сразу оба слова.
Оператор "И НЕ" используется тогда, когда требуется найти документы с предложением, в котором содержится первое слово из запроса, но отсутствует второе слово, указанное в запросе. Например, по запросу рефераты AND NOT сочинения вы найдете все документы, в которых упоминается слово "рефераты", а слово "сочинения" отсутствует.
Следует также отметить, что существуют некие приоритеты операторов. Так оператор AND NOT имеет более высокий приоритет (т.е. выполняется первым), чем AND и OR, а оператор AND имеет более высокий приоритет, чем оператор OR. Поэтому запрос из нескольких слов сначала группируется по операторам AND NOT и AND и только потом по операторам OR. Изменить порядок группировки можно с помощью скобок. Так, до сих пор наш запрос состоял только из двух слов. Теперь же попытаемся найти документы, в которых встречаются либо сразу оба слова "рефераты" и "сочинения" либо слово "курсовые". Для этого используем запрос рефераты AND сочинения OR курсовые. Чтобы найти документы, содержащие слово "рефераты" и одно из слов "сочинения" или "курсовые", воспользуемся запросом рефераты AND (сочинения OR курсовые).
Приведем примеры использования логических операторов при составлении запросов к поисковой системе Яndex (см. табл.2).
Таблица 2
Оператор |
Запрос |
Результат |
|
И |
легкая&промышленность |
все документы, содержащие оба слова сразу (и слово "легкая", и слово "промышленность") |
|
ИЛИ |
легкая | промышленность |
все документы, содержащие либо слово "легкая", либо слово "промышленность", либо оба слова сразу |
|
И НЕ |
промышленность~легкая |
все документы, содержащие слово "промышленность", но не содержащие слова "легкая" |
|
( ) |
(производство выпуск)~столов |
все документы, содержащие одно из слов "производство" или "выпуск", но не содержащие слова "столов" |
3. Наберите ваш запрос в строке ввода на главной странице выбранной информационно-поисковой системы и нажмите <Enter> (или щелкните по соответствующей кнопке, например, с названием Найти или Поиск (Search) и т.п.).
4. Поисковая система в результате вашего запроса сгенерирует список адресов URL с короткими описаниями. Найденные поисковыми машинами документы сортируются по величине релевантности, то есть сначала выдаются документы, в которых чаще всего встречаются искомые слова, и документы, содержащие слова наиболее близкие к искомым, а затем - все остальные.
Если в результате поиска было обнаружено слишком много ссылок, то выполните одно из следующих действий:
* переключитесь из режима поиска "по одному из слов" в режим поиска "по всем словам",
* добавьте к запросу еще одно ключевое слово и повторите поиск; на некоторых узлах есть более быстрая функция "поиск среди найденного",
* переключитесь в режим расширенного поиска, обладающего дополнительными типами запросов и возможностями сортировки.
Если в результате было обнаружено слишком мало ссылок, переключитесь из режима поиска "точно по фразе" в режим поиска "по всем словам", из него - в режим поиска "по одному из слов" или используйте меньше ключевых слов.
5. Найдите на странице наиболее подходящую вам по смыслу ссылку, щелкните на ней правой кнопкой мыши и выберите пункт контекстного меню. Открыть в новом окне (или перенесите ссылки мышью во второе окно обозревателя). Если информация по выбранному адресу оказалась ценной, не дайте ей потеряться. Сохраните ссылку на найденную страницу в папке Избранное, а еще лучше скопируйте саму информацию на жесткий диск вашего компьютера. Если же вы не обнаружили на странице ничего ценного, просто закройте текущее окно обозревателя и переходите к просмотру следующей ссылки.
6. Если результаты поиска с помощью данной поисковой системы вас не удовлетворили, отправляйтесь на другой поисковый сервер (см. список).
3.2 Поиск с помощью тематических каталогов (web-каталогов)
Один из способов работы с тематическим каталогом - воспользоваться иерархическим деревом при поиске информации. Т.е. вы выбираете сначала общую тематику, удовлетворяющую вашему запросу информации, и далее конкретизируете, следуя подсказкам каталога. В конечном результате вы получаете список сайтов, содержащих информацию, соответствующую вашему запросу.
При работе с тематическим каталогом вы обычно также можете пойти и по другому пути. Проанализируйте предполагаемое содержание запрашиваемой информации и выберите ключевые слова, которые обязательно встретятся в интересующих вас материалах или их заголовках. Наберите эти слова через пробел в строке ввода на главной странице и нажмите клавишу <Enter>. Система попытается сама подобрать интересующую вас информацию.
Если вы ищете информацию заведомо русскоязычную, то имеет смысл использовать российские web-каталоги. Здесь стоит отметить первый российский каталог Russia on the Net (www.ru), один из крупнейших русскоязычных каталогов List.Ru (www.list.ru), российский вариант Yahoo! (www.yahoo.ru) и др. (см. список). Говоря о базах данных, нельзя не вспомнить замечательный российский проект "Желтые страницы Интернет" (yp.piter.com), где как и в одноименной книге представлена детальная информация о самых разных ресурсах Internet.
Принцип работы с зарубежными тематическими каталогами идентичен тому, который мы рассмотрели выше. Наиболее популярным во всем мире признан тематический каталог Yahoo! (www.yahoo.com). Он представляет собой огромную базу данных URL-адресов сайтов самой различной тематики.
3.3 Поиск с помощью поисковых систем
Поисковая система - это комплекс программ и мощных компьютеров, автоматически просматривающих ресурсы Интернет, которые они могут найти, и индексирующих их содержание. Поисковые системы могут отличаться по эффективности поиска, по языку поиска (русский, английский и др.) и по некоторым другим возможностям. Например, одни поисковые системы находят информацию только в виде Web-страниц, другие могут просматривать и группы новостей, и файловые серверы. Результатом поиска являются гиперссылки на документы, содержащие требуемую информацию.
Наиболее известны следующие системы для поиска информации в международных информационных ресурсах:
Alta Vista (http://www.altavista.com/);
Google (http://www.google.com/);
Yahoo (http://www.yahoo.com/);
Infoseek (http://www.infoseek.com/);
Hot Bot (http://www.hotbot.com/)/.
Для поиска информации в российских информационных ресурсах:
Яндекс (http://www.yandex.ru/).
Рамблер (http://www.rambler.ru/);
Апорт (http://www.aport.ru/).
Для поиска информации в Интернет с использованием поисковой системы необходимо перейти на ее WEB - страницу, набрав электронный адрес или воспользоваться гипертекстовой ссылкой на эту систему.
Поисковые системы могут быть 2-х типов: универсальные и специализированные. Наиболее популярные современные поисковые системы сочетают в себе оба типа.
В универсальных системах используется обычный принцип поиска в неструктурированных документах - по ключевым словам. Ключевым словом (Keyword) документа называется отдельное слово или словосочетание, которое отражает содержание данного документа.
На начальной странице поисковой системы обычно расположено обширное меню тем и поле для ввода запроса, иногда можно задать язык для поиска. Для поиска документов по ключевому слову надо ввести это слово в поле для ввода запроса и нажать кнопку “Search” (или “Поиск” в русских системах), расположенную рядом с полем ввода. Для поиска можно использовать словосочетание; для этого надо словосочетание заключить в двойные кавычки. В некоторых системах можно осуществлять поиск по части слова, оставшаяся часть слова заменяется знаком “*”, как в шаблоне имени файла. Знаки “+” и “-” перед словом требуют обязательного присутствия или отсутствия этого слова в документе.
Существует также кнопка перехода к расширенному поиску (Advanced Search). Главное отличие расширенного поиска - использование в запросе логических операторов и круглых скобок. Для построения сложного запроса используются логические операторы AND (И), OR (ИЛИ), NOT (НЕТ) и NEAR (около; не далее чем в 10 символах). Логические операторы ставятся между словами или словосочетаниями. Здесь могут использоваться даты документов размер документов и другие критерии. Интерфейсы расширенного поиска у разных поисковых систем существенно отличаются; для наиболее эффективного использования нужно внимательно почитать раздел Advanced Search Help поисковой системы.
Поисковые системы обычно состоят из трех компонентов:
· поисковый робот (агент, паук или кроулер), который перемещается по сети и собирает информацию;
· база данных, которая содержит всю информацию, собираемую роботом;
· поисковый механизм, который используется как интерфейс для взаимодействия с базой данных.
Поисковые роботы - это специальные программы, которые занимаются поиском страниц в сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных.
При запросе к поисковой системе база данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме поиска, и выводит список ссылок на документы, соответствующих запросу. В этом списке представлены ссылки на различные Web-страницы, причем ссылки располагаются по степени убывания встреченных на данных страницах слов, совпадающих с ключевыми словами. При просмотре списка необходимо выбрать те страницы, которые нужно просмотреть. Некоторые системы составляют список ссылок по степени свежести страниц, другие же - по степени вероятности того, что данные страницы окажутся искомыми.
Специализированные справочные службы - это тематические каталоги, в которых собраны структурированные сведения об адресах серверов по той или иной тематике. Ссылки в такие каталоги заносятся не автоматически, а с помощью администраторов. Они стараются сделать свои коллекции наиболее полными, включающими все доступные ресурсы на каждую тему. В результате пользователю не нужно самому собирать все ссылки по интересующему его вопросу, а достаточно найти этот вопрос в каталоге - работа по поиску и систематизации ссылок уже сделана за него. Как правило, хорошие каталоги Интернет обеспечивают разнообразный дополнительный сервис: поиск по ключевым словам в своей базе данных, списки последних поступлений, списки наиболее интересных из них, выдачу случайной ссылки, автоматическое оповещение по электронной почте о свежих поступлениях.
Поисковые каталоги предназначены для поиска по темам. Обычно они построены по иерархическому принципу, т.е. каждый шаг поиска это выбор подраздела с более конкретной тематикой искомой информации. На нижнем уровне поиска пользователь получает относительно небольшой список ссылок на искомую информацию.
Для того чтобы обойти всю сеть, мощному роботу нужно от нескольких дней до нескольких недель. При этом составляется свежий и подробный индекс - опись доступных ресурсов. При каждом новом цикле индекс обновляется, и старые недействительные адреса удаляются. Однако автоматизированный подход приводит к тому, что индекс оказывается засоренным большим количеством профессионально слабых, неинформативных адресов, которые пользователь нередко и получает в результате поиска.
Каталоги составляются администраторами, просматривающими каждый новый сайт прежде, чем включить его в индекс. Качество информации каталогов выше, и нетематическая информация попасть в каталог просто не может; но коллектив редакторов может не поспевать за темпами расширения Интернета. Кроме того, чем дальше, тем больше в каталоге накапливается заброшенных или устаревших адресов - его не успевают чистить. В отличие от роботов, каталоги индексируют документ не по наиболее часто встречающимся словам, а по тем ключевым словам, которые вводятся администраторами.
Если пользователя интересует хорошо разработанная и часто востребуемая тема, популярный материал, то проще воспользоваться специализированным каталогом, обычно расположенным на первой странице каждой поисковой системы. Метод работы здесь как в обычной библиотеке: двигаясь от общего к частному, достигается список нужных сайтов. Для более специального поиска, как правило, необходимо использовать ключевые слова.
Помимо услуг по нахождению сайтов, поисковые системы предоставляют широкий перечень разнообразной сопутствующей информации, например: новости, гороскопы, почтовые ящики, электронная коммерция, котировки акций, погода, спорт, географические карты, программы телевидения, лотереи и т.д.
Читая обо всех перечисленных поисковых службах, по неволи задумаешься: "а если для поиска необходимой мне информации не достаточно одной поисковой службы, то неужели мне придется входить на все здесь перечисленные серверы и каждый раз повторять один и тот же запрос?!". Наиболее качественный результат как раз будет именно при таком подходе. Но можно, исходя из экономии времени и денег, воспользоваться системами мета поиска.
Наиболее популярная в мире система такого класса - Search.com (www.search.com), но если вы работаете преимущественно с русскоязычными документами, то можно воспользоваться метапоисковой системой MetaSeek. Это достаточно мощная система, отсылающая ваш запрос на 30 крупнейших поисковых машин и специализированных серверов и возвращающая вам их отчеты.
Другая российская система мета поиска - 360.Ru (www.360.ru) обрабатывается 26 поисковых систем по всему миру. Существует возможность определения региона поиска и ограничения времени поиска.
Метапоисковая система AdClick.Ru (www.adclick.ru) работает c 15 российскими и зарубежными поисковыми машинами и каталогами.
Также существуют так называемые мультипоисковые страницы: Search, БКФ Поиск, www.cmk.kirov.ru/search.htm и др. (см. список). Эти серверы не умеют посылать запросы и получать отчеты от поисковых служб как системы мета поиска. Мультипоисковые страницы загружают во множестве окон поисковые службы и передают им ваш запрос.
Список литературы
1. Зверев В.С. Информатика: Учебное пособие для студентов вузов. Астрахань, 2003.
2. Фигурнов А.Э. IBM-РС для пользователя. М., 1998.
3. Всё об INTERNET. Руководство и каталог. Эд Крол. BHV, Киев.
4. Журнал по персональным компьютерам PC Magazine Russian Edition. № 1-12 за 1996 год; № 1-4 за 1997 год.
5. Компьютерный еженедельник «Компьютерра». № 120 - 167 за 1996 год; № 180 - 190 за 1997 год.
Подобные документы
Изучение классификации поисковых средств по В.В. Дудихину. Поиск информации с помощью поисковых ресурсов. Формирование запросов. Использование ключевых слов. Индексация документов, размещенных на различных серверах. Зарубежные лидеры поисковых систем.
презентация [775,3 K], добавлен 10.03.2015Методы и инструментарий хранения данных во Всемирной сети. Понятие и разновидности гипертекстовых документов и графических файлов. Принципы работы поисковых систем и правила поиска нужной информации. Характеристика некоторых поисковых систем Сети.
курсовая работа [30,9 K], добавлен 18.04.2010Хранение данных в сети Internet. Гипертекстовые документы, виды файлов. Графические файлы, их виды и особенности. Поисковые системы и правила поиска информации. Обзор поисковых систем сети Internet. Все о поисковых системах Yandex, Google, Rambler.
курсовая работа [918,3 K], добавлен 26.03.2011Особенности поиска информации в Интернет: стратегия и методика. Поисковые машины, каталоги и порталы информационных ресурсов. Подбор и введение ключевых слов. Использование режима "расширенный поиск", который имеет каждая из поисковых систем в Интернете.
реферат [27,3 K], добавлен 06.08.2014Общие принципы организации поиска информации в сети Интернет. Поиск с помощью каталогов информационных ресурсов и с помощью поисковых машин. Правила поиска информации, касающейся учета текущих обязательств и расчетов с покупателями и заказчиками.
курсовая работа [35,0 K], добавлен 09.11.2010Характеристика методов поиска информации в Интернете, а именно - с использованием гипертекстовых ссылок, поисковых машин и специальных средств. Анализ новых интернет ресурсов. История возникновения и описание западных и русскоязычных поисковых систем.
реферат [17,2 K], добавлен 12.05.2010История поисковых систем. Классификация информационных систем по степени автоматизации. Три основных способа поиска информации в Интернете. Отличие поисковых систем от каталогов. Назначение и типы информационных систем государственных учреждений.
курсовая работа [368,5 K], добавлен 13.05.2015Средства поиска информации в сети Интернет. Основные требования и методика поиска информации. Структура и характеристика поисковых сервисов. Глобальные поисковые машины WWW (World Wide Web). Планирование поиска и сбора информации в сети Интернет.
реферат [32,2 K], добавлен 02.11.2010Общее представление о поисковых службах. Характеристика видов информационно-поисковых систем, анализ их преимуществ и недостатков. Приемы простого поиска с помощью ключевых слов. Сохранение информации на компьютере для ее последующего использования.
учебное пособие [313,9 K], добавлен 10.10.2011Организация поиска информации по заданной теме в сети Интернет. Поиск с помощью поисковых машин. Преимущества и недостатки метода поиска по ключевому слову (фразе). Поиск в каталогах информационных ресурсов. Преимущества и недостатки предметных каталогов.
курсовая работа [47,5 K], добавлен 03.11.2010