Логика поисковой системы Яндекс

Алгоритмы работы поисковых систем. Математическая модель, используемая поисковыми системами для поиска и рассортировки документов по тем или иным поисковым запросам. Памятка по использованию языка запросов. Сущность "расширенного поиска" на Яндексе.

Рубрика Программирование, компьютеры и кибернетика
Вид реферат
Язык русский
Дата добавления 16.03.2012
Размер файла 382,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Введение

Пользуясь интернетом, мы рано или поздно обязательно столкнетесь с тем, что необходимо знать принципы работы поисковых систем.

Думаю, известно, что понять всю логику работы поисковых систем от и до, не возможно, но нам - пользователям, вполне достаточно понимания основополагающих принципов. О которых мы и будем говорить далее.

Как же работают поисковые системы? Как ни странно, но логика работы у всех поисковых систем в принципе одинаковая и заключается в следующем: поисковыми системами собирается информация обо всех документах в сети, которые они могут найти, после чего эти данные хитроумным образом обрабатываются, для того, чтобы по ним удобно было бы вести поиск. Вот, собственно, и есть вся основа логики поисковых систем. Если подумать, то её знание принесёт не так уж и много пользы без знания некоторых деталей.

Во-первых, уточним, что документом поисковые системы называют то, что мы обычно называем страницей сайта. При этом документ должен иметь свой уникальный адрес (URL).

Во-вторых, стоит остановиться на алгоритмах (способах) поиска информации в собранной базе документов, которые используют поисковые системы. Их мы и будем подробно рассматривать.

Алгоритмы работы поисковых систем

Очевидно, что метод простого перебора всех страниц (документов), хранящихся в базе данных поисковиков, не будет являться оптимальным. Этот метод называется алгоритмом прямого поиска и при том, что этот метод позволяет наверняка найти нужную информацию не пропустив ничего важного, он совершенно не подходит для работы с большими объемами данных, ибо поиск будет занимать слишком много времени.

Поэтому для эффективного поиска в больших объемах данных был разработан алгоритм обратных (инвертированных) индексов. Именно этот алгоритм используется всеми крупными поисковыми системами в мире. Поэтому на нем мы остановимся подробнее и рассмотрим принципы его работы.

При использовании алгоритма обратных (инвертированных) индексов, поисковые системы преобразовывают документы в текстовые файлы, содержащие список всех имеющихся в документе слов. Слова в таких списках (индекс-файлах) располагаются в алфавитном порядке и рядом с каждым словом указаны в виде координат те места в документе, где это слово встречается. Кроме позиции в документе, для каждого слова приводятся еще и другие параметры, определяющие его значение в документе.

Если вы вспомните, то во многих книгах (в основном технических или научных) на последних страницах приводится список слов, используемых в данной книге, с указанием номеров страниц, где эти слова встречаются в этой книге. Конечно же, этот список не включает всех слов, используемых в книге, но тем не менее может служить примером работы алгоритма обратных (инвертированных) индексов.

Алгоритм обратных индексов документов используется всеми поисковыми системами, т.к. он позволяет ускорить процесс поиска, но при этом будут неизбежны потери информации за счет искажений внесенных преобразованием документа в текстовый файл. Для удобства хранения файлы обратных индексов обычно хитрым способом сжимаются.

Математическая модель, используемая поисковыми системами для поиска и рассортировки документов по тем или иным поисковым запросам

Для того чтобы осуществлять поиск по обратным индексам документов, содержащимся в базе данных поисковых систем, используется математическая модель, позволяющая упростить процесс обнаружения нужных документов (по введенному пользователем поисковому запросу). Чем больше документ соответствует данному запросу (чем он релевантнее), тем выше он должен стоять в поисковой выдаче.

Значит основная задача, выполняемая математической моделью любой поисковой системы -- это поиск документов (страниц) в своей базе обратных индексов соответствующих данному поисковому запросу и сортировка этих найденных документов в порядке убывания их релевантности поисковому запросу. Использование простой логической математической модели, когда документ будет являться найденным, если в нем встречается искомая фраза, нам не подойдет, в силу огромного количества таких документов, выдаваемых на рассмотрение пользователю.

Поисковая система должна не только предоставить список всех документов (веб-страниц), на которых встречаются слова из поискового запроса. Она должна предоставить этот список документов в такой форме, когда в самом начале этого списка будут находиться наиболее соответствующие запросу пользователя документы (осуществить сортировку найденных страниц по релевантности). Эта задача не тривиальна и по умолчанию не может быть выполнена идеально.

Математическая модель, используемая всеми поисковыми системами, относится к классу векторных математических моделей. В этой математической модели используется такое понятие, как вес документа по отношению к заданному пользователем запросу.

В базовой векторной математической модели вес документа по заданному поисковому запросу высчитывается исходя из двух основных параметров: частоты, с которой встречается данное слово в рассматриваемом документе и тем, насколько редко это слово встречается во всех других документах базы данных поисковой системы. Умножив эти два параметра друг на друга, мы получим вес документа по заданному поисковому запросу.

Различные поисковые системы используют множество различных способов для расчета веса документа (страницы) по заданному поисковому запросу, но суть остается прежней: вес страницы (документа) будет тем больше, чем чаще слово из поискового запроса встречается в документе (до определенных пределов, после которых документ может быть признан спамом) и чем реже встречается это слово во всех остальных документах, проиндексированных поисковой системой.

Что такое сниппет и для чего поисковые системы хранят в своей базе копии документов (прямые индексы)

Но тут сначала нужно будет разобраться, а что такое сниппет, для чего он нужен поисковой системе и почему содержимое сниппета так важно? Сниппет в поисковой выдаче располагается сразу под ссылкой на найденный документ (текст которой берется из тега документа):

В качестве сниппета используются обычно куски текста из найденного документа. Идеальный сниппет призван предоставить пользователю возможность составить мнение о содержимом документа (страницы), не переходя на него (но это если сниппет получился удачным, а это не всегда так). Сниппет формируется автоматически и какие-именно куски текста документа будут использоваться в качестве сниппета решает поисковая система, и что важно, для разных поисковых запросов у одного и того же документа будут разные сниппеты.

Яндекс -- только одна страница с каждого сайта в поисковой выдаче, ограничение количества индексируемых страниц

У поисковой системы Яндекс существует такая особенность работы, как наличие в поисковой выдаче по заданному запросу всего лишь одного документа с каждого сайта. Такого, чтобы в поисковой выдаче присутствовали на разных позициях два документа с одного и того же сайта быть не могло до недавнего времени. Это было одно из основополагающих правил Яндекса. Если даже на одном сайте найдется сотня релевантных заданному поисковому запросу страниц, в поисковой выдаче будет присутствовать только один (самый релевантный данному запросу) документ с этого сайта.

Поисковая система Яндекс заинтересована в том, чтобы пользователь получал разнообразную информацию с разных сайтов, а не пролистывал несколько страниц поисковой выдачи с документами одного и того же сайта, который этому пользователю оказался не интересен по тем или иным причинам. Однако, с недавних пор в данной поисковой системе произошли изменения и теперь Яндекс стал допускать отображение в поисковой выдаче второго документа с того же сайта, в качестве исключения, если этот документ окажется «очень хорош и уместен» (иначе говоря сильно релевантен запросу).

Что примечательно, эти дополнительные результаты с того же самого сайта в поисковой выдачи Яндекса тоже нумеруются, следовательно из-за этого из топа выпадут некоторые сайты, занимающие нижние позиции. Вот пример новой поисковой выдачи Яндекса с двумя документами одного и того же сайта:

Яндекс: расширенный поиск

поисковая система яндекс

Яндекс обладает развитым языком запросов, позволяющим осуществлять расширенный поиск. Для того чтобы воспользоваться данной возможностью, достаточно использовать страницу "расширенный поиск", где большая часть настроек Яндекса задается простым образом.
Стоит обратить внимание, на то, что при заполнении нескольких полей, запрос будут составлен таким образом, чтобы все условия выполнялись одновременно (через документное "И" - &).

На странице «расширенного поиска» можно найти ссылку на памятку по использованию языка запросов, которая поясняет, как определённые символы могут помочь получить наилучшую поисковую выдачу по введённому пользователем запросу.

Памятка по использованию языка запросов

Пример

Значение

"К нам на утренний рассол"

Слова идут подряд в точной форме

"Прибыл * посол"

Пропущено слово в цитате

полгорбушки & мосол

Слова в пределах одного предложения

снаряжайся && добудь

Слова в пределах одного документа

глухаря | куропатку | кого-нибудь

Поиск любого из слов

не смогешь << винить

Неранжирующее "и": выражение после оператора не влияет на позицию документа в выдаче

я должон /2 казнить

Расстояние в пределах двух слов в любую сторону (то есть между заданными словами может встречаться одно слово)

государственное дело && /3 улавливаешь нить

Расстояние в 3 предложения в любую сторону

нешто я ~~ пойму

Исключение слова пойму из поиска

при моем /+2 уму

Расстояние в пределах двух слов в прямом порядке

чай ~ лаптем

Поиск предложения, где слово чай встречается без слова лаптем

щи /(-1 +2) хлебаю

Расстояние от одного слова в обратном порядке до двух слов в прямом

!Соображаю !что !чему

Слова в точной форме с заданным регистром

получается && (+на | !мне)

Скобки формируют группы в сложных запросах

!!политика

Словарная форма слова

title:(в стране)

Поиск по заголовкам документов

url:ptici.narod.ru/ptici/kuropatka.htm

Поиск по URL

беспременно inurl:vojne

Поиск с учетом фрагмента URL

host:lib.ru

Поиск по хосту

rhost:ru.lib.*

Поиск по хосту в обратной записи

site:http://www.lib.ru/PXESY/FILATOW

Поиск по всем поддоменам и страницам заданного сайта

mime:pdf

Поиск по одному типу файлов

lang:en

Поиск с ограничением по языку

domain:ru

Поиск с ограничением по домену

date:200712*

Поиск с ограничением по дате

date:20071215..20080101, date:>20091231

Поиск с ограничением по интервалу дат

cat:11000051

Поиск по рубрике Яндекс.Каталога

В качестве вывода, можно сказать, что знание алгоритмов поисковой системы Яндекс и умение пользоваться языком запросов, может помочь многим пользователям находить нужную им информацию в гораздо меньшие сроки, что в современном обществе не мало важно.

Словарь:

Индексы документов или индекс-файлы - данные документов (интернет-страниц переведённые в текстовые файлы).

Релевантность - избирательный отбор информации по каким-то критериям.

Поисковая выдача - результат работы поисковой системы по введённому пользователем запросу.

Размещено на Allbest.ru


Подобные документы

  • Рассмотрение принципов поисковой системы и процедуры проведения поиска по запросам пользователей "Яндекса". Изучение структуры запросов, вспомогательных программ поиска, модулей и этапов их преобразования. Описание дополнительной информации в сниппете.

    реферат [135,6 K], добавлен 27.12.2014

  • Понятие и классификация поисковых систем, история их развития и структурные элементы. Характеристика существующих моделей поиска, анализ его качества. Особенности обработки запроса поисковой системой, подготовки базы данных и процесса выдачи результатов.

    курсовая работа [2,6 M], добавлен 15.04.2014

  • Рассмотрение поисковых систем интернета как программно-аппаратного комплекса с веб-интерфейсом, предоставляющего возможность поиска информации. Виды поисковых систем: Archie, Wandex, Aliweb, WebCrawler, AltaVista, Yahoo!, Google, Яндекс, Bing и Rambler.

    реферат [24,3 K], добавлен 10.05.2013

  • Анализ существующих поисковых систем и используемых ими алгоритмов поиска документов. Разработка информационно-поисковой системы словарного типа, способной осуществлять релевантный поиск документов, особенности ее структуры и информационно-поисковой базы.

    дипломная работа [942,1 K], добавлен 19.05.2011

  • Описание и классификация современных информационно–поисковых систем. Гипертекстовые документы. Обзор и рейтинги основных мировых поисковых систем. Разработка информационно–поисковой системы, демонстрирующей механизм поиска информации в сети Интернет.

    дипломная работа [1,3 M], добавлен 16.06.2015

  • Изучение классификации поисковых средств по В.В. Дудихину. Поиск информации с помощью поисковых ресурсов. Формирование запросов. Использование ключевых слов. Индексация документов, размещенных на различных серверах. Зарубежные лидеры поисковых систем.

    презентация [775,3 K], добавлен 10.03.2015

  • Критерии эффективности информационно-поисковых систем: требования потребителя, полнота поиска, затраты труда, факторы, влияющие на характеристики. Ошибки при поиске, обусловленные несовершенством языка, процесса индексирования, поиска, другими причинами.

    курсовая работа [77,2 K], добавлен 06.02.2014

  • Методы и инструментарий хранения данных во Всемирной сети. Понятие и разновидности гипертекстовых документов и графических файлов. Принципы работы поисковых систем и правила поиска нужной информации. Характеристика некоторых поисковых систем Сети.

    курсовая работа [30,9 K], добавлен 18.04.2010

  • Ранжирование сайтов поисковыми системами. Поисковые машины, алгоритм работы. Описание процесса изменения рейтинга сайта, математическая модель. Главные функциональные возможности скрипта, описание подпрограмм, алгоритмов и принципа работы программы.

    курсовая работа [66,1 K], добавлен 12.07.2012

  • Обоснование выбора метода извлечения ключевых слов. Анализ предметной области, проектирование информационной системы поиска релевантных документов. Реализация запросов к электронным библиотекам. Реализация интерфейса системы поиска релевантных документов.

    дипломная работа [1,1 M], добавлен 21.09.2016

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.