Главная Коллекция "Otherreferats" Программирование, компьютеры и кибернетика Поисковые системы и технологии поиска информации в интернете

Поисковые системы и технологии поиска информации в интернете

Общая информация о поисковых системах: Yandex, Rambler, Google. Характеристика методов искания данных в интернете. Алгоритмы и правила индексирования ресурсов и построения поискового индекса. Наиболее популярные современные технологии отбора информации.

Рубрика	Программирование, компьютеры и кибернетика
Вид	реферат
Язык	русский
Дата добавления	21.12.2013
Размер файла	65,3 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Содержание

Введение

1. Общая информация о поисковых системах

2. Немного из истории

3. Поисковая система Yandex

4. Поисковая система Rambler

5. Поисковая система Google

6. Технология поиска информации

7. Наиболее популярные технологии поиска информации в Интернет

Заключение

Библиографический список

Введение

Большинство пользователей Интернет сообщества начинают свой рабочий день с поисковых систем, где пытаются найти столь необходимую им информацию и решить свои проблемы. К сожалению, поисковые системы часто не способны точно и справедливо интерпретировать ресурсы. Как результат, на первых позициях поиска зачастую оказываются сайты «далекие» от решаемого вопроса. При этом ресурсы, представляющие реальную пользу, оказываются «за бортом» поиска.

Причина такого положения проста и кроется в технологии получения и представления результатов поисковыми системами. При этом надо понимать, что главная проблема заключается в отсутствии четких правил, доступных и открытых для всех желающих. Чем больше неопределенности в алгоритмах формирования поисковых индексов (некий черный ящик), тем меньше поисковые системы отражают процесс формирования реальной информации. И соответственно, тем меньше будет уровень доверия к результатам поиска поисковых систем.

Как это ни парадоксально, но это вина не поисковых систем, поскольку они обязаны скрывать правила построения поисковых индексов. Это вина самой технологии при организации поиска. По своей сути технология поисковых систем направлена на пассивного пользователя. Необходимо зарегистрировать только сайт, дальше все сделает поисковый робот. Он просканирует ресурс, страницу за страницей, пытаясь проанализировать содержание каждой из них. Трудоемкость пользователя минимальна, что позволяет использовать разные методики по «обману» поисковых роботов при низких затратах сил и средств. В такой схеме работы поисковым системам необходимо изменять алгоритмы и правила индексирования ресурсов и построения поискового индекса.

Конечно, большинство пользователей пользовались, пользуются, и будут пользоваться классическими поисковиками. Это просто, удобно и распространено. Это, как привычка, пользоваться поисковиками.

Сама сеть Интернет постепенно превратилась в Средство Массовой Информации с огромной аудиторией пользователей во всем мире и невероятным объемом информации. Она стала глобальным средством информации, опутавшим каналами связи весь земной шар, но не поглотила привычные нам СМИ, они органически влились в сеть на правах самостоятельных информационных ресурсов. Практически каждая газета, радиостанция или телеканал в любой стране мира имеет свое представительство в сети Интернет.

Электронная версия газеты может и, как правило, сильно отличается от бумажной, значительно превышая ее по объему - формат данных, публикуемых на интернет-сайтах более гибок, он не ограничен выделенными под материал страницами, газетными и журнальными колонками. Появляется элемент интерактивности - читатели могут оставить свои комментарии и отзывы о прочитанной статье, новости, аналитическом обзоре.

Наиболее авторитетным и профессиональным источником оперативной информации для пользователей сети Интернет и для средств массовой информации служат веб-ресурсы информационных агентств. Обладая широкой корреспондентской сетью, ежедневно и ежечасно, в сети Интернет и по каналам электронной связи они распространяют общественно-политическую, экономическую, научную, финансовую информацию.

1. Общая информация о поисковых системах

поисковый интернет yandex google

Поисковая система - это программное обеспечение, предоставляющее доступ к коллекции слабоструктурированной информации. Ориентация на слабоструктурированные данные, т.е. данные, которые нельзя представить в виде реляционной таблицы, отличает поисковую систему от системы управления базами данных.

В данном определении поисковой системы подразумевается информация различного рода, т.е. текст, аудио, видео, изображения и т.п. Однако следует отметить, что именно текстовые данные идеально подходят для описания полной функциональности поисковой системы, т.к. алгоритмы поиска мультимедийной информации, прежде всего, основываются на алгоритмах поиска текста.

Основная задача поисковой системы - минимизировать время, затрачиваемое пользователем на поиск релевантной запросу информации. Релевантность - одно из самых субъективных и запутанных понятий в науке информационного поиска. Наиболее часто говорят о релевантности с точки зрения пользователя, и тогда «релевантная запросу информация» и «нужная пользователю информация» - одно и то же. Вопрос заключается в том, какую информацию пользователь посчитает нужной? В некоторых обстоятельствах релевантную информацию можно определить как всю информацию из базы, имеющую отношение к запросу. Так, например, если пользователю нужно узнать все о конкретной фирме, то он заинтересован в нахождении всех документов, в которых упоминается об этой фирме. В других обстоятельствах релевантная информация - это только та информация, которая достаточна для выполнения определенной задачи пользователя, например, поиска ответа на конкретный вопрос. Если в последнем случае в результатах поиска будет много избыточных данных, т.е. данных, которые имеют отношение к запросу, но не нужны для выполнения данной задачи, то выборка нужной релевантной информации займет у пользователя дополнительное время.

Таким образом, традиционно к поисковой системе применяют две основные характеристики: точность и полнота, а точнее, их зависимость. Каждый раз, когда пользователь задает системе запрос, тем самым инициализируя поиск, все документы в коллекции поисковой системы делятся на четыре части. Точность определяет один аспект поиска, а именно, насколько хорошо поисковая система способна минимизировать время, затрачиваемое пользователем на поиск релевантной данному запросу информации. В то время как полнота определяет другой аспект - насколько хорошо система способна найти релевантную данному запросу информацию. Можно подобрать оптимальный запрос, когда каждый найденный документ будет релевантным, и каждый релевантный документ будет найден.

Поисковые системы при использовании Интернет играют очень важную роль. В Интернете сосредоточено такое количество информации, что ее поиск уже превращается в отдельную задачу и отнимает очень много времени. Поисковые серверы выдают на запрос тысячи ссылок вместо нескольких страниц, где действительно имеется нужная информация. Пользователи всемирной сети Интернет, осознав преимущества, предоставляемые возможностью анализа пространственных данных, нуждаются в инструменте, позволяющем осуществлять быстрый и удобный поиск и доступ к цифровым снимкам местности и другой пространственной информации, сосредоточенной во многих правительственных, коммерческих и академических организациях.

2. Немного из истории

Поисковая система (поисковый сервер, поисковая машина) - особый web-сайт, на котором пользователь по заданному запросу может получить ссылки на сайты, соответствующие этому запросу.

Работа поисковой машины, как правило, состоит из двух этапов. Первый - особая программа (поисковый робот) или человек собирает информацию с веб-страниц и индексирует их. Когда пользователь задает запрос, поиск идет по предварительно построенному индексу. Результатом поиска является так называемая поисковая выдача - список ссылок на документы (веб-страницы), соответствующие запросу.

Большая часть поисковых систем ищут информацию на сайтах Интернета, но также существуют поисковые машины, способные искать файлы на ftp-серверах, документы, а также информацию во внутренних сетях и прочая. В последнее время появился новый тип поисковых движков, основанных на технологии RSS.

Работа поисковой системы основана на работе «поискового движка». Основными критериями качества работы поисковой машины являются релевантность, полнота базы, учёт морфологии языка.

Наиболее популярными поисковыми машинами в России на сегодняшний день считаются Google, Yandex, и Rambler.

Первой поисковой машиной стал «Wandex», уже не существующий web-сайт, который создал Мэтью Грэйем из Массачусетского технологического института в 1993. чуть позднее появляется поисковая система «Aliweb», существующая до сих пор. Первой полнотекстовой поисковой системой стала «WebCrawler», запущенная в 1994. В отличие от своих предшественников, она позволяла пользователям искать по любым ключевым словам на любой веб-странице, с тех пор это стало стандартом во всех основных поисковых системах. Кроме того, это был первый поисковик, о котором было известно в широких кругах. В 1994 был запущен «Lycos», разработанный в университете Карнеги Мелона.

Развитие русских поисковых машин началось в 1996 году с появлением морфологического расширения к поисковику Altavista, и запуском оригинальных российских поисковых машин Rambler и Aport. Вскоре, в 1997 году была открыта поисковая машина Yandex.

Сегодня в мире работает несколько сотен разнообразных поисковых машин, отличающихся специализацией, возможностями и методиками поиска.

3. Поисковая система Yandex

История поисковой системы Яндекс. История компании "Яндекс" началась в 1990 году с разработки поискового программного обеспечения в компании "Аркадия".

В 1993 году "Аркадия" стала подразделением компании CompTek. В 1993-1994 годы программные технологии были существенно усовершенствованы благодаря сотрудничеству с лабораторией Ю. Д. Апресяна (Институт Проблем Передачи Информации РАН).

Летом 1996 года руководство CompTek и разработчики поисковой системы пришли к выводу, что развитие самой технологии важнее и интереснее, чем создание прикладных продуктов на базе поиска. Исследования рынка показали своевременность и большие перспективы поисковых технологий.

Слово "Яndex" придумал за несколько лет до этого один из основных и старейших разработчиков поискового механизма. "Яndex" означает "Языковой index", или, если по-английски, "Yandex" - "Yet Another indexer".

Официально поисковая машина Yandex.Ru была анонсирована 23 сентября 1997 года на выставке Softool. Основными отличительными чертами Yandex.Ru на тот момент были проверка уникальности документов (исключение копий в разных кодировках), а также ключевые свойства поискового ядра Яndex, а именно: учет морфологии русского языка (в том числе и поиск по точной словоформе), поиск с учетом расстояния (в том числе в пределах абзаца, точное словосочетание), и тщательно разработанный алгоритм оценки релевантности (соответствия ответа запросу), учитывающий не только количество слов запроса, найденных в тексте, но и "контрастность" слова (его относительную частоту для данного документа), расстояние между словами, и положение слова в документе.

В ноябре 1997 года, был реализован естественно-языковый запрос. Отныне к Yandex.Ru можно обращаться просто "по-русски", задавать длинные запросы, например: "где купить компьютер", "генетически модифицированные продукты" или "коды международной телефонной связи" и получать точные ответы. Средняя длина запроса в Yandex.Ru сейчас - 2,7 слова. В 1997 году она составляла 1,2 слова, тогда пользователи поисковых машин были приучены к телеграфному стилю.

В 1998 году на Yandex.Ru появилась возможность "найти похожий документ", список найденных серверов, поиск в заданном диапазоне дат и сортировка результатов поиска по времени последнего изменения.

За 1999 год Yandex выпустил новый поисковый робот, который позволил оптимизировать и ускорить обход сайтов Рунета. Новый робот позволил предоставить пользователям новые возможности - поиск по разным зонам текста (заголовкам, ссылкам, аннотациям, адресам, подписям к картинкам), ограничение поиска на группу сайтов, поиск по ссылкам и изображениям, а также выделять документы на русском языке. Появился поиск в категориях каталога и впервые в Рунете, было введено понятие "индекс цитирования".

В 2000 году образовалась компания "Яндекс". "Яндекс" был учрежден акционерами CompTek - компании, создавшей и в течение долгого времени развивавшей проект Яndex. Компания ru-Net Holdings инвестировала 5 миллионов 280 тысяч долларов и получила в новой компании долю в 35,72%. В число акционеров входят также менеджмент и ведущие разработчики поисковой системы. Генеральным директором стал Аркадий Волож.

В новообразованную компанию перешли все права на торговую марку Яndex и сайт www.yandex.ru, а также на поисковую технологию Яndex и семейство одноименных программных продуктов. Кроме того, в "Яндекс" был передан недавно стартовавший проект www.narod.ru.

Управление индексированием в поисковой системе Яндекс. Разрешения и запрещения на индексацию берутся из файла robots.txt. Яндекс поддерживает META тег robots, тег NOINDEX и нестандартное расширение robots.txt - директиву Host. Разрешения и запрещения на индексацию берутся всеми поисковыми системами из файла robots.txt, находящегося в корневом каталоге сервера. Запрет на индексацию ряда страниц может появиться, например, из желания не индексировать одинаковые документы в разных кодировках. Чем меньше сервер, тем быстрее робот его обойдет. Поэтому желательно запретить в файле robots.txt все документы, которые не имеет смысла индексировать.

Поисковая система Яндекс поддерживает нестандартное расширение robots.txt - директиву Host. Аргументом директивы Host является доменное имя (одно корректное имя хоста, не являющееся IP-адресом) с номером порта (80 по умолчанию), отделенным двоеточием. Если какой-либо сайт не указан в качестве аргумента для Host, для него подразумевается наличие директивы Disallow, т.е. полный запрет индексации (при наличии в группе, хотя бы одной корректной директивы Host).

Это нестандартное расширение позволяет помочь поисковой системе выбрать правильное зеркало для индексирования. Фактически, в директиве Host указывается основное зеркало для сайта, при этом индексация всех других зеркал запрещена.

В целях совместимости с роботами, которые не полностью следуют стандарту robots.txt, директиву Host необходимо добавлять в группе, начинающейся с записи User-Agent, непосредственно после записей Disallow.

Поисковая система Яндекс анализирует и следует указанию META тег robots. Для запрета индексации определенных частей текста им можно пометить тегами.

Добавление страниц в поисковой системе Яндекс. Яндекс ежедневно просматривает сотни тысяч Web-страниц в поисках изменений или новых ссылок. Владельцы ресурсов могут самостоятельно добавить свой сайт, заполнив форму AddURL. Яндекс ежедневно просматривает сотни тысяч Web-страниц в поисках изменений или новых ссылок. Владельцы ресурсов могут самостоятельно добавить свой сайт, заполнив форму AddURL.

Яндекс индексирует российскую сеть, поэтому в поисковую машину вносятся сервера в доменах su, ru, am, az, by, ge, kg, kz, md, ua, uz. Остальные сервера вносятся, только если на них найден текст на русском языке, или если владельцы ресурсов убедят администрацию поисковой машины в том, что их сервер интересен пользователям русскоязычного Интернета (это обычно делается письмом на addurl@yandex.ru).

Обычно страницы появляются в поисковой базе в течение недели после их появления или изменения. Новые страницы, внесенные в базу с помощью AddURL, появятся быстрее (если они находятся в русскоязычной части сети и не требуют ручной проверки).

Поисковая система Яндекс - полнотекстовая, то есть в ее индекс попадают (и становятся доступными для поиска) только те слова, которые написаны на страницах сайтов.

В списке результатов поиска после адреса страницы выводится текст, который состоит из заголовка (тэг - title), описания (тэг - meta name «Description», «content») или начала документа (если этого тэга нет) и контекстов - фрагментов текста страницы, содержащих слова запроса.

Индексация в поисковой системе Яндекс. Когда Яндекс обнаруживает новую или измененную страницу, он ее индексирует. В процессе этого страница разбивается на элементы, содержание которых заносится в индекс. Когда Яндекс обнаруживает новую или измененную страницу, он ее индексирует. В процессе этого страница разбивается на элементы (текст, заголовки, подписи к картинкам, ссылки и так далее), содержание которых заносится в индекс. При этом учитываются позиции слов, то есть их положение в документе или его элементе. Сам документ в базе не хранится.

Яндекс индексирует страницы по их истинным адресам. Это значит, что, если на странице стоит redirect, робот воспримет его как ссылку на новый адрес и внесет ее в очередь на индексирование.

Как требует стандарт протокола HTTP, Яндекс, получив в заголовке ответа информацию, что данный URL является редиректом (коды 3хх), добавит в список адресов для обхода URL, на который ведет редирект. Если редирект был постоянный (код 301), либо на странице встретилась директива meta-refresh, то старый URL будет исключен из списка обхода.

Робот Яндекс хранит дату последнего обхода каждой страницы, дату ее изменения (присланную Web-сервером) и дату внесения последних изменений в базу поиска (дату индексации). Он оптимизирует обход Сети таким образом, чтобы чаще посещать наиболее изменяемые сервера. Робот Яндекс работает автоматически и обычно переиндексация происходит раз в две-три недели.

Изменения уже проиндексированных страниц робот Яндекс отслеживает самостоятельно при следующем заходе на сайт. У робота свой график работы и изменить его невозможно.

Яндекс индексирует документ полностью: текст, заголовок, подписи к картинкам, описание (description), ключевые слова и некоторую другую информацию.

Робот Яндекса обходит «динамические» страницы и относится к ним в точности так же, как и к «статическим». Поисковый робот Яндекс кроме стандартного HTML, индексирует: PDF, DOC, RTF и Flash форматы файлов.

Дубликат - это один и тот же текст, под десятком разных адресов, зависящих, например, от способа навигации по сайту. Сайты с большим числом дубликатов время от времени подвергаются безжалостной чистке.

Зеркала сайтов. Зеркало - частичная или полная копия сайта. Наличие дубликатов ресурса бывает необходимо владельцам высокопосещаемых сайтов для повышения надежности и доступности их сервиса.

Большое количество зеркал засоряет базы данных поисковых систем и приводит к появлению дубликатов в результатах поиска. Поэтому, когда робот Яндекса обнаруживает несколько зеркал сайта, он выбирает одно из них в качестве основного, остальные из индекса удаляются. По умолчанию, робот выбирает в основное зеркало исходя из собственных соображений. И обычно не то, какое хотел бы видеть владелец ресурса.

Можно принять ряд мер, позволяющих выбрать необходимый сайт в качестве основного зеркала.

Во-первых, можно удалить неосновные зеркала сайта.

Во-вторых, на всех зеркалах, кроме того, которое надо выбрать основным, разместить файл robots.txt, полностью запрещающий индексацию сайта. Либо выложить на зеркалах robots.txt с директивой Host.

В-третьих, разместить на главных страницах неосновных зеркал тег, запрещающий их индексацию и обход по ссылкам.

В-четвертых, изменить код главных страниц на неосновных зеркалах так, чтобы все (или почти все) ссылки с них вглубь сайта были абсолютными и вели на основное зеркало.

В случае реализации одного из вышеперечисленных советов основное зеркало будет автоматически изменено по мере обхода поискового робота Яндекс.

Методики работы поисковой системы Яндекс. Поисковая система Яндекс содержит в своем индексе о каждом слове текста номер документа, предложения, слова в предложении и вес каждого слова. Поисковый робот Яндекс индексирует страницы и на основании информации на них формирует поисковый индекс.

Вся эта информация используется при поиске. При каждом запросе ищутся (и получают более высокий ранг) фразы, точно совпадающие с запросом, затем предложения, содержащие все слова запроса, и т.д. Важную роль играет относительное положение слов. Так, например, если запрос из четырех слов не имеет точного ответа в базе данных, будут отранжированы выше предложения, содержащие три слова из запроса, в которых слова стоят точно в той же последовательности, что и в запросе. Это дает возможность решать типичную поисковую задачу - искать документ по «неточному цитированию».

4. Поисковая система Rambler

История поисковой системы Рамблер. История поисковика «Рамблер» начинается в 1991 году в городке Пущино Московской области. Именно там группой единомышленников была создана компания «Стек». Возглавил компанию «Стек» Сергей Лысаков. Занималась компания локальными сетями и подключением к Интернету.

Уже в 1996 году, Сергей Лысаков и программист Дмитрий Крюков приняли решение разработать первую русскую поисковую систему для Интернета. Дмитрий Крюков придумал название проекту - Rambler. В переводе Rambler означает «скиталец, странник, бродяга», что созвучно с принципом работы робота поисковика.

26 сентября 2006 года было зарегистрирован домен rambler.ru и уже 8 октября компания «Стек» активизировала систему. Весной 1997 года появляется «Rambler's Top100» - рейтинг-классификатор, оценивающий на основе объективных данных популярность российских ресурсов.

В июне 2003 года компания запустила новую версию поисковой машины, которая отличается от предыдущей по двум основным параметрам: значительно увеличилась скорость поиска, благодаря новой архитектуре системы обновление поискового индекса происходит несколько раз в день.

Механизм ассоциаций от Rambler. Когда кто-либо делает ряд последовательных запросов в поисковике Рамблер, эти слова и фразы становятся связанными между собой - Rambler ассоциациями. Пользователям поисковой системы Rambler доступен механизм ассоциаций Rambler. Ассоциации Rambler - это тематически (ассоциативно) связанные запросы с исходным запросом пользователя. Когда кто-либо делает ряд последовательных запросов в поисковике Рамблер, эти слова и фразы становятся связанными между собой. И такая последовательность создает ассоциации Rambler. Фактически, это понятие «У нас также ищут».

С одной стороны, с помощью механизма ассоциаций Rambler пользователь может быстро уточнить или расширить свой запрос. С другой стороны, цепочка типичных ассоциаций выявляет недостатки исходного запроса, его неоднозначность, «размытость». В результате посетитель поисковика Rambler учится правильно спрашивать, не тратя впустую время, то есть, по сути, прибегает к помощи «коллективного разума».

Механизм ассоциаций «У нас также ищут» интересен любому, кто хочет посмотреть, о чем думают тысячи и тысячи посетителей сети. Это инструмент для поиска, равно как и источник ценной информации для лингвистов и web-мастеров.

Управление индексированием в поисковой системе Рамблер. Ограничить индексирование страниц ресурсов поисковой системой Rambler можно через robots.txt или META-тег «Robots». Робот поисковика Рамблер называется «StackRambler». Именно он скачивает документы, выставленные в Интернет, находит в них ссылки на другие документы, скачивает вновь и т.д. Робот StackRambler анализирует файл robots.txt и ограничивает сканирование ресурса, согласно его указаний. Через robots.txt можно запретить доступ к определенным каталогам или файлам.

Ограничить сканирование страниц ресурса роботом поисковой системы Рамблер так же можно через META-тег «Robots». Тег управляет индексацией конкретной web-страницы. При этом роботам можно запретить не только индексацию самого документа, но и проход по имеющимся в нем ссылкам.

Добавление страниц в поисковой системе Рамблер. Робот Рамблера обходит Сеть по ссылкам и таким образом находит новые ресурсы. Можно заполнить регистрационную анкету. Робот Рамблера самостоятельно посещает только сайты, расположенные в национальных доменах.ru,.su,.ua,.by,.kz,.kg,.uz,.ge. Если сайт расположен в одной из других доменных зон (например, в.com,.net или.org, либо в других национальных доменах), по умолчанию роботы Рамблера не будут посещать страницы таких ресурсов. Для добавления таких ресурсов, представляющих интерес для русскоязычных пользователей, в число сканируемых необходимо обратиться к администратору поисковой системы Рамблер.

Робот Рамблера обходит Сеть по ссылкам и таким образом находит новые ресурсы для индексирования. Также можно заполнить регистрационную анкету в поисковой системе Rambler. Поля этой анкеты - «Название сайта» и «Описание» не используются для поиска. Они предназначены только для прочтения редакторами и используются во внутренних базах данных Rambler.

Робот сканирует страницы сайта в течение суток с момента регистрации (или нахождения ресурса). При этом он сразу же обходит сайт на некоторую глубину (сканирует страницы, на которые ссылается зарегистрированная страница). Скачанные роботом страницы появляются в поисковой базе с некоторой задержкой. Переиндексация полученных документов производится с интервалом приблизительно в две недели.

Индексация в поисковой системе Рамблер. При индексации поисковой системой Рамблер учитывается лишь та информация, которую пользователь может увидеть на странице. Базовые понятия и ключевые для сайта слова целесообразно включать в следующие HTML-теги (в порядке значимости): title h1...h4 b, strong, и чем чаще слово встречается в этих полях, тем более вероятно, что поисковая система Rambler выдаст ссылку на этот документ ближе к началу списка результатов поиска.

Максимальный размер документа для роботов Рамблера составляет 200 килобайт. Документы большего размера усекаются до указанной величины.

Программа индексирования обрабатывает переадресацию (редиректы), но только в том случае, если перенаправление выполняется в домен.ru или в домены некоторых стран СНГ.

Рамблер обрабатывает все «динамические» страницы с именами вида *.asp*, *.php*, *.pl*, */cgi-bin/* и т. п. для посещаемых сайтов (по данным top100), а также сайтов, содержащих уникальную информацию, полезную пользователям поисковой машины. Для остальных сайтов обрабатывается только часть таких страниц.

Фрагменты HTML, размеченные тегами, Рамблером не индексируются.

Поисковая машина Рамблер умеет извлекать ссылки из объектов flash и потому может обрабатывать сайты, построенные на флэш-технологии. Однако сами тексты flash-объектов пока не индексируются.

При индексации учитывается лишь та информация, которую пользователь может увидеть на странице.

Скрытые поля и все другие поля, кроме, при индексировании сайтов игнорируются. То же самое относится к комментариям в HTML-коде сайта. Не следует также использовать невидимый текст, в котором цвет шрифта совпадает с цветом фона.

Поиск учитывает данные Top100. Специальный робот Рамблера два раза в день добавляет в базу поисковой машины новые страницы со всех сайтов, которые участвуют в рейтинге Top100 и разместили счетчик на своих страницах. После изменения информации в рейтинге Top100 ее обновление в поисковой системе происходит в течение одного-двух дней. Если сайт зарегистрирован в Top100, он будет находиться по некоторым запросам, даже если информация была удалена из индексной базы.

При поиске учитывается информация, полученная из рейтинга Rambler's Top100, если сайт в нем зарегистрирован. Число показывает, когда была получена эта информация. Информация по Top100 обновляется практически каждый день.

5. Поисковая система Google

Данная поисковая система со временем становится все лучше и популярнее, но она уступает вышеперечисленным поисковым системам. По данным опросов, данным Google обеспечивает около 10% всех поисковых запросов Рунета. На регистрацию Google принимает сайты любого домена, то есть он не ограничивается только зоной ru. Это, безусловно, очень большое преимущество перед конкурентами (в России). Но Google больше не имеет никаких преимуществ и даже не может выдавать в результатах поиска слова, которые являются синонимами запроса. То есть, если мы задаем в Google поисковый запрос «анекдот», то Google будет искать на сайтах именно это слово, в то время как Яндекс, Рамблер и Апорт помимо этого слова будут учитывать на сайтах и слова-синонимы, например, «анекдоты», а Google этого сделать не может.

История создания. Поисковая система Google была создана в качестве учебного проекта студентов Стэндфордского университета Ларри Пейджа и Сергея Брина. Они в 1996 году работали над поисковой системой BackRub, а в 1998 году на её основе создали новую поисковую систему Google.

Хотя корпорация была основана 2 сентября 1998 года, а домен Google.com зарегистрирован 15 сентября 1997 года, поисковик (с 2000 года) иногда отмечает свой день рождения и в другой день: как 7, так и 27 сентября.

Название Google произошло от намеренно искажённого Сергеем Брином слова Googol (Гугол), которое означает «десять в сотой степени» -- 10100 на манер слова Doodle, которое означает «машинально рисовать»

Поисковые запросы. Интерфейс Google содержит довольно сложный язык запросов, позволяющий ограничить область поиска отдельными доменами, языками, типами файлов и т. д. Например, поиск «intitle: Google site: wikipedia.org» выведет все статьи Википедии на всех языках, в заголовке которых встречается слово Google.

Поиск в найденном. Для результатов поиска Google ранее предоставлял возможность повторного поиска, что позволяло производить поиск более детально. Для более детального поиска пользователям необходимо было указывать дополнительные параметры, по которым происходил отбор результатов, что позволяло сразу отобразить не только запрос, но и контекст, где он применяется. Данная возможность упрощала процедуру поиска, исключив необходимость в открытии каждого результата.

Википоиск. Поисковая технология, позволяющая пользователю настраивать результаты выдачи по поисковым запросам. Пользователь может удалять результаты из списка и поднимать вверх списка. Технология была запущена компанией Google весной 2009 года и проработала до осени. В настройках поиска осталась настройка для включения «Википоиска», но в выдаче соответствующие элементы управления отсутствуют. Другие поисковые системы подобной функциональности пока не предоставляли.

Голосовой поиск. 22 сентября 2010 года компания запустила голосовой поиск в России. Чтобы осуществить поиск, необходимо нажать в телефоне кнопку рядом со строкой поиска и произнести свой запрос, телефон отправит ваш голос на сервер, и браузер выдаст строку с распознанным вашим запросом и результатами поиска по нему.

6. Технология поиска информации

Поисковые инструменты. Поисковые инструменты - это особое программное обеспечение, основная цель которого - обеспечить наиболее оптимальный и качественный поиск информации для пользователей Интернета. Поисковые инструменты размещаются на специальных веб-серверах, каждый из которых выполняет определенную функцию:

1. Анализ веб-страниц и занесение результатов анализа на тот или иной уровень базы данных поискового сервера.

2. Поиск информации по запросу пользователя.

3. Обеспечение удобного интерфейса для поиска информации и просмотра результата поиска пользователем.

Приемы работы, используемые при работе с теми или другими поисковыми инструментами, практически одинаковы. Перед тем как перейти к их обсуждению, рассмотрим следующие понятия:

1. Интерфейс поискового инструмента представлен в виде страницы с гиперссылками, строкой подачи запроса (строкой поиска) и инструментами активизации запроса.

2. Индекс поисковой системы - это информационная база, содержащая результат анализа веб-страниц, составленная по определенным правилам.

3. Запрос - это ключевое слово или фраза, которую вводит пользователь в строку поиска. Для формирования различных запросов используются специальные символы («», /, ~), математические символы (*, +, -).

Схема поиска информации проста. Пользователь набирает ключевую фразу и активизирует поиск, тем самым получает подборку документов по сформулированному (заданному) запросу. Этот список документов ранжируется по определенным критериям так, чтобы вверху списка оказались те документы, которые наиболее соответствуют запросу пользователя. Каждый из поисковых инструментов использует различные критерии ранжирования документов, как при анализе результатов поиска, так и при формировании индекса (наполнении индексной базы данных web-страниц).

Таким образом, если указать в строке поиска для каждого поискового инструмента одинаковой конструкции запрос, можно получить различные результаты поиска. Для пользователя имеет большое значение, какие документы окажутся в первых двух-трех десятках документов по результатам поиска и на сколько эти документы соответствуют ожиданиям пользователя.

7. Наиболее популярные технологии поиска информации в Интернет

Как правило, поисковые машины состоят из трех частей: робота, индекса и программы обработки запроса.

- Робот (Spider, Robot или Bot) - это программа, которая посещает веб-страницы и считывает (полностью или частично) их содержимое. Роботы поисковых систем различаются индивидуальной схемой анализа содержимого веб-страницы.

- Индекс - это хранилище данных, в котором сосредоточены копии всех посещенных роботами страниц. Индексы в каждой поисковой системе различаются по объему и способу организации хранимой информации. Базы данных ведущих поисковых машин храпят сведения о десятках миллионов документов, а объемы их индекса составляют сотни гигабайт. Индексы периодически обновляются и дополняются, поэтому результаты работы одной поисковой машины с одним и тем же запросом могут различаться, если поиск производился в разное время.

- Программа обработки запроса - это программа, которая в соответствии с запросом пользователя «просматривает» индекс на предмет наличия нужной информации и возвращает ссылки на найденные документы. Множество ссылок на выходе системы распределяется программой в порядке убывания релевантности, то есть от наибольшей степени соответствия ссылки запросу к наименьшей

Поисковые машины. Машины веб-поиска - это сервера с огромной базой данных URL-адресов, которые автоматически обращаются к страницам WWW по всем этим адресам, изучают содержимое этих страниц, формируют и прописывают ключевые слова со страниц в свою базу данных (индексирует страницы).

Более того, роботы поисковых систем переходят по встречаемым на страницах ссылкам и переиндексируют их. Так как почти любая страница WWW имеет множество ссылок на другие страницы, то при подобной работе поисковая машина в конечном результате теоретически может обойти все сайты в Интернет.

Именно этот вид поисковых инструментов является наиболее известным и популярным среди всех пользователей сети Интернет. У каждого на слуху названия известных машин веб-поиска (поисковых систем) - Яndex, Rambler, Google.

Чтобы воспользоваться данным видом поискового инструмента, необходимо зайти на него и набрать в строке поиска интересующее Вас ключевое слово. Далее Вы получите выдачу из ссылок, хранящихся в базе поисковой системы, которые наиболее близки Вашему запросу. Чтобы поиск был наиболее эффективен, заранее обратите внимание на следующие моменты:

- определитесь с темой запроса. Что именно в конечном итоге Вы хотите найти?

- обращайте внимание на язык, грамматику, использование различных небуквенных символов, морфологию. Важно также правильно сформулировать и вписать ключевые слова. Каждая поисковая система имеет свою форму составления запроса - принцип один, но могут различаться используемые символы или операторы. Требуемые формы запроса различаются также в зависимости от сложности программного обеспечения поисковых систем и предоставляемых ими услуг. Так или иначе, каждая поисковая система имеет раздел «Help» («Помощь»), где все синтаксические правила, а также рекомендации и советы по поиску, доступно объясняются (скриншот страничек поисковиков).

- используйте возможности разных поисковых систем. Если не нашли на Яndex, попробуйте на Google. Пользуйтесь услугами расширенного поиска.

- чтобы исключить документы, содержащие определенные термины, используйте знак « - » перед каждым таким словом. Например, если Вам нужна информация о работах Шекспира, за исключением «Гамлета», то введите запрос в виде: «Шекспир-Гамлет». И для того, чтобы, наоборот, в результаты поиска обязательно включались определенные ссылки, используйте символ "+". Так, чтобы найти ссылки о продаже именно автомобилей, Вам нужен запрос «продажа+автомобиль». Для увеличения эффективности и точности поиска, используйте комбинации этих символов.

- каждая ссылка в списке результатов поиска содержит сниппет - несколько строчек из найденного документа, среди которых встречаются Ваши ключевые слова. Прежде чем переходить по ссылке, оцените соответствие сниппета теме запроса. Перейдя по ссылке на определенный сайт, внимательно окиньте взглядом главную страничку. Как правило, первой страницы достаточно, чтобы понять - по адресу Вы пришли или нет. Если да, то дальнейшие поиски нужной информации ведите на выбранном сайте (в разделах сайта), если нет - возвращайтесь к результатам поиска и пробуйте очередную ссылку.

- помните, что поисковые системы не производят самостоятельную информацию (за исключением разъяснений о самих себе). Поисковая система - это лишь посредник между обладателем информации (сайтом) и Вами. Базы данных постоянно обновляются, в них вносятся новые адреса, но отставание от реально существующей в мире информации все равно остается. Просто потому, что поисковые системы не работают со скоростью света.

К наиболее известным машинам веб-поиска относятся Google, Yahoo, Alta Vista, Excite, Hot Bot, Lycos. Среди русскоязычных можно выделить Яndex, Rambler, Google.

Поисковые системы являются самыми масштабными и ценными, но далеко не единственными источниками информации в Сети.

Подборки ссылок. Подборки ссылок - это отсортированные по темам ссылки. Они достаточно сильно отличаются друг от друга по наполнению, поэтому чтобы найти подборку, наиболее полно отвечающую Вашим интересам, необходимо ходить по ним самостоятельно, дабы составить собственное мнение.

Базы данных адресов (addresses database). Базы данных адресов - это специальные поисковые сервера, которые обычно используют классификации по роду деятельности, по выпускаемой продукции и оказываемым услугам, по географическому признаку. Иногда они дополнены поиском по алфавиту. В записях базы данных хранится информация о сайтах, которые предоставляют информацию об электронном адресе, организации и почтовом адресе за определенную плату.

Крупнейшей англоязычной базой данных адресов можно назвать: http://www.lookup.com/ -представляет собой рубрикатор с множеством поддиректорий, таких как: Find Person, Phone Numbers, Name Search и другие.

Попадая в данные поддиректории, пользователь обнаруживает ссылки на сайты, которые и предлагают интересующую его информацию.

Поиск по рубрикатору поисковой системы. Поисковые каталоги представляют собой систематизированную коллекцию (подборку) ссылок на другие ресурсы Интернета. Ссылки организованы в виде тематического рубрикатора, представляющего собой иерархическую структуру, перемещаясь по которой, можно найти нужную информацию.

Рассмотрим пример. Предположим, вы собираетесь приобрести мобильный телефон и хотите сравнить характеристики аппаратов разных фирм. Поиск мог бы вестись по следующим рубрикам каталога:

Яндекс - Каталог - Компьютеры и связь - Мобильная связь - Мобильные телефоны.

Получив ограниченное количество ссылок, можно достаточно оперативно их просмотреть и выбрать телефон, исследовав характеристики по фирмам и модификациям аппаратов.

Поиск по ключевым словам. Большинство поисковых машин имеют возможность поиска по ключевым словам. Это один из самых распространенных видов поиска. Для поиска по ключевым словам необходимо ввести в специальном окне слово или несколько слов, которые следует искать, и щелкнуть на кнопке Поиск. Поисковая система найдет в своей базе и покажет документы, содержащие эти слова.

Для того чтобы сделать поиск более продуктивным, во всех поисковых системах существует специальный язык формирования запросов со своим синтаксисом.

Правила формирования запроса и поисковой системе Яндекс.

1. Ключевые слова в запросе следует писать строчными буквами. Это обеспечит поиск всех ключевых слов, a не только тех, которые начинаются с прописной буквы.

2. При поиске учитываются все формы слова по правилам русского языка, независимо от формы слова в запросе.

3. Для поиска устойчивого словосочетания следует заключить слова в кавычки.

4. Для поиска по точной словоформе перед словом надо поставить восклицательный знак.

5. Для поиска внутри одного предложения слова в запросе разделяют пробелом или знаком "&". Несколько набранных в запросе слов, разделенных пробелами, означают, что все они должны входить в одно предложение искомого документа.

6. Если вы хотите, чтобы были отобраны только те документы, в которых встретилось каждое слово, указанное в запросе, поставьте перед каждым из них знак плюс " + ".

7. При поиске синонимов или близких по значению слов между словами можно поставить вертикальную черту "|".

8. Вместо одного слова в запросе можно подставить целое выражение, для этого его надо взять в скобки ( ).

9. Знак "~" (тильда) позволяет найти документы с предложением, содержащим первое слово, но не содержащим второе.

Заключение

Подводя итог, можно сказать, что единой оптимальной схемы поиска в Интернет не существует. В зависимости от специфики необходимой вам информации, для ее поиска вы должны использовать соответствующие поисковые службы. В принципе, конечно, можно всегда пользовать какой-нибудь одной поисковой системой, например Rambler, но чем грамотнее подобраны поисковые службы и составлен запрос на поиск информации, тем качественнее будут результаты поиска. А в бизнесе качество информации играет далеко не последнюю роль.

Библиографический список

1. Барабанов С. Internet: шаг за шагом; Компьютер прес. - 1997. - №6. - с.148-154.

2. Барабанов С. и др. Компьютерные системы: вчера, сегодня, завтра; Компьютер прес. - 2007. - №2. - с. 152-158.

3. Ашманов И.С. Продвижение сайта в поисковых системах/И.С.Ашманов. - М.: «Вильямс», 2007. - с.304.

4. Кадеев Д.Н. Информационные технологии и электронные коммуникации/Д.Н.Кадеев. - М.: «Электро», 2055. - с. 250.

Размещено на Allbest.ru

реферат "Поисковые системы и технологии поиска информации в интернете" скачать

Подобные документы

Организация хранения и поиска информации в сети Internet
Хранение данных в сети Internet. Гипертекстовые документы, виды файлов. Графические файлы, их виды и особенности. Поисковые системы и правила поиска информации. Обзор поисковых систем сети Internet. Все о поисковых системах Yandex, Google, Rambler.

курсовая работа [918,3 K], добавлен 26.03.2011
Поиск информации в Internet
Характеристика поисковых систем Yandex, Google, Rambler: сходства и отличия, преимущества и недостатки. Поиск определения ряда терминов, программных продуктов. Поиск информации по направлениям: писатели и поэты, их произведения, доктора наук для Самары.

контрольная работа [17,4 K], добавлен 22.08.2011
Методы поиска информации в сети интернет. Информационно-поисковые системы
Характеристика методов поиска информации в Интернете, а именно - с использованием гипертекстовых ссылок, поисковых машин и специальных средств. Анализ новых интернет ресурсов. История возникновения и описание западных и русскоязычных поисковых систем.

реферат [17,2 K], добавлен 12.05.2010
Современные поисковые системы
Организация хранения данных. Система управления базами данных. Поиск информации, обзор существующих поисковых систем. Особенности работы поискового движка. Использование индексов в поисковых системах. Особенности поиска различных видов информации.

курсовая работа [4,6 M], добавлен 14.05.2014
Поисковые системы
Рассмотрение поисковых систем интернета как программно-аппаратного комплекса с веб-интерфейсом, предоставляющего возможность поиска информации. Виды поисковых систем: Archie, Wandex, Aliweb, WebCrawler, AltaVista, Yahoo!, Google, Яндекс, Bing и Rambler.

реферат [24,3 K], добавлен 10.05.2013
Методы поиска информации в Интернете
Средства поиска информации в сети Интернет. Основные требования и методика поиска информации. Структура и характеристика поисковых сервисов. Глобальные поисковые машины WWW (World Wide Web). Планирование поиска и сбора информации в сети Интернет.

реферат [32,2 K], добавлен 02.11.2010
Общие принципы организации поиска информации в сети
Особенности поиска информации в Интернет: стратегия и методика. Поисковые машины, каталоги и порталы информационных ресурсов. Подбор и введение ключевых слов. Использование режима "расширенный поиск", который имеет каждая из поисковых систем в Интернете.

реферат [27,3 K], добавлен 06.08.2014
Применение поисковой системы "Rambler" для организации поиска и систематизации экономической информации
Понятие и принципы работы, внутренняя структура и элементы, история формирования и развития поисковой системы "Rambler". Исследование и анализ, а также оценка эффективности данной поисковой системы для поиска экономической информации в интернете.

курсовая работа [4,0 M], добавлен 10.05.2015
Поиск информации в Интернете
Приемы поиска информации в Интернете. Поиск по известному адресу, конструирование адреса пользователем. Специальные информационно-поисковые системы: классификационные (рубрикаторы) и словарные. Поиск информационных ресурсов по различным направлениям.

реферат [27,1 K], добавлен 03.04.2010
Поиск в интернете: поисковые системы Яндекс и Google
Анализ возможностей поисковых систем Яндекс и Google, их сравнение с точки зрения полезности. История создания поисковых систем, характеристика их интерфейса, поисковых инструментов и алгоритмов. Формирование вопроса и критерий к ответу на него.

реферат [30,0 K], добавлен 07.05.2011

Другие документы, подобные "Поисковые системы и технологии поиска информации в интернете"

весь список подобных работ

скачать работу можно здесь

сколько стоит заказать работу?

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.