Устройство поисковой системы
Определение понятия и изучение принципа действия поисковой машины. Описание процесса поиска информации и характеристика типов поисковых машин. Устройство индекса поисков и оценка качества машин для поиска. Сравнительные характеристики машин поиска.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | контрольная работа |
Язык | русский |
Дата добавления | 14.10.2012 |
Размер файла | 22,9 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Московский государственный университет культуры и искусств
Институт управления экономики и права
КОНТРОЛЬНАЯ РАБОТА
по информатике
на тему: «Устройство поисковой системы»
Студент: Комиссарова Е. Н.
Группа 04101з
Руководитель:
Белоозеров В.Н.
Химки 2011 г
Содержание
Введение
1. Поиск информации и поисковые машины
2. Как работает поисковая машина
3. Как устроен индекс поисковой машины
4. Качество поисковой машины
5. Какая поисковая машина лучше
Заключение
Источник
Введение
Большинство пользователей только в общих чертах представляют себе, как работает поисковая машина. Поэтому в данной главе мы рассматриваем основные понятия и устройство поисковых систем (они же поисковые машины, или поисковики). Если вы хорошо знаете, что такое индекс и поисковый запрос, можете, смело пропустить эту главу.
Главный элемент структуры современного Интернета - это поисковые машины, или поисковики. Разных поисковиков очень много, но среди них есть главные, наиболее известные и посещаемые. В мировом Интернете сейчас доминирует Google (произносится как гугл). В российском же, а точнее, в русскоязычном Интернете (Рунете), наиболее популярный поисковик - Яндекс. В два раза (по количеству поисковых запросов в день) от Яндекса отстает Рамблер, потом следует "русский" Google, затем, совсем далеко от лидеров, следует Апорт.
Почему именно поисковики заняли в Интернете самое важное место?
Потому что они упорядочивают хаос. Ведь сайты и их страницы "разбросаны в Интернете без какого-либо порядка, без первой или последней страницы, без способа перехода к следующей странице. "Читать" Интернет подряд - невозможно.
Ситуация тут такая же, как и с телефонными номерами. Телефонные номера рассыпаны в беспорядке в "пространстве" всех телефонных номеров. Есть, конечно, какие-то закономерности в распределении первых цифр номера (можно догадаться о районе города по номеру АТС или угадать оператора мобильной связи), но чтобы найти точный номер нужной организации, нужна записная книжка или какой-то другой список персон или организаций. Именно поэтому для номеров телефонов существуют справочники. машина индекс поиск
Аналогом телефонных справочников в Интернете сейчас служат поисковые машины, которые обеспечивают "прозрачность" Интернета для пользователей. Как же они это делают?
1. Поиск информации и поисковые машины
За века, прошедшие со времени изобретения книг, человечество придумало только три основных способа поиска информации в большом количестве страниц. И каждый из нас встречался с ними еще до своего первого выхода в Интернет.
В Интернете используются эти же способы для поиска нужной страницы, просто они автоматизированы и выполняются специальными программами. Это - оглавление, ссылки и предметный указатель.
Оглавление
Первый, самый естественный способ поиска нужной страницы - это оглавление книги. Читатель книги просматривает ее оглавление, находит нужную ему главу, видит номер нужной страницы и открывает ее, пролистав книгу до нужного номера страницы.
Этому способу поиска в Интернете соответствуют каталоги.
В них страницы (сайты Интернета) разложены по рубрикам, так что пользователь может, последовательно просматривая оглавление каталога, выбрать нужную рубрику, просмотреть сайты, относящиеся к ней, а затем перейти на нужный сайт или страницу.
Сначала именно каталоги были основным способом упорядочения Интернета (в середине 1990-х годов), но потом постепенно уступили первенство поисковикам - и на то было много причин. О существующих каталогах мы рассказывали в главе 1 "Предложение и поиск информации в Интернете".
Ссылки
Второй привычный нам способ поиска - это ссылки в тексте на нужные страницы книги, например "подробнее об этом см. на стр. 234". Чтобы найти нужный текст, читатель книги должен открыть указанную страницу 234 и найти в ее тексте интересующий фрагмент.
В Интернете идею отсылок читателя со страницы на страницу превратили в автоматические ссылки на страницы, на которых пользователь просто щелкает мышкой. Ссылки в Интернете называются гипертекстовыми ссылками ("гипер" - потому, что ссылка уводит за пределы текста, на другую страницу).
Ссылки - это основной, "корневой" принцип Интернета, а ведь по сути это старая идея, просто автоматизированная текстовая ссылка.
Ссылки в каталогах и на обычных сайтах чаще всего расставляют вручную - вебмастер размечает специальными пометками фрагмент текста и присоединяет к нему адрес соответствующей страницы. Конечно, часто ссылки расставляются и автоматически при формировании веб-страницы.
Предметный указатель, или индекс
Третий, самый интересный для нас способ поиска нужной страницы - это алфавитный список важных терминов в конце книги, так называемый предметный указатель, или индекс. Вы наверняка встречали его в учебниках, а также в научных и технических изданиях. Вот как может выглядеть фрагмент типичного индекса:
Тау Кита, 90
Третья космическая скорость, 255; 294
Туманность, 14; 29; 188
Андромеды, 29; 188
Тяжелые кварки, 347
В индексе перечислены важные для данной книги термины (ключевые слова) и номера страниц, на которых эти термины встречаются. Если читатель книги не может найти нужную страницу по оглавлению, он может предположить, какие слова могут встречаться на ней, и заглянуть в индекс.
Вот именно эта идея поиска нужной страницы по ключевым словам в индексе и стала основной идеей, на которой созданы интернет-поисковики. Естественно, составление и использование поискового индекса в Интернете автоматизированы.
Фактически, когда пользователь вводит поисковый запрос в поисковую машину, он обращается к предметному указателю Интернета, или индексу, - списку всех ключевых слов Интернета с указанием страниц, на каких они встречаются.
2. Как работает поисковая машина
Поисковая машина - это программа, кото рая составляет и хранит предметный указатель Интернета, а также находит в нем заданные ключевые слова. Для этого программа составляет так называемый индекс.
Сбор адресов страниц в Интернете
Чтобы составить индекс по страницам, сначала нужно решить, какие страницы нам нужны. Таким образом, нужно сначала составить список страниц - набор адресов тех страниц, по которым будет составляться индекс.
Поскольку сайты и их страницы беспорядочно разбросаны в Интернете, поисковой машине нужно с чего-то начать. Обычно разработчики поисковой машины загружают в нее какой-то начальный список адресов страниц сайтов(взяв его, например, из какого-нибудь каталога). Затем поисковая машина (ее составная часть - так называемый поисковый робот) собирает все гипертекстовые ссылки с каждой из заданных страниц на другие страницы и добавляет все найденные в ссылках адреса к своему первоначальному набору адресов.
Таким образом, первоначальный набор адресов страниц быстро увеличивается за счет ссылок на другие сайты и страницы и постепенно становится очень большим. Сейчас поисковики обходят и индексируют миллиарды веб-страниц.
Нужно обратить внимание на тот очевидный факт, что малоизвестные страницы, на которые никто не ссылается, имеют очень мало шансов автоматически попасть в индекс поисковой машины! Дело в том, что вручную разработчики поисковика не смогут добавить их в начальный список адресов (из-за того, что они мало известны), а по ссылкам поисковому роботу до них добраться трудно - из-за небольшого количества этих ссылок. Возможно, поисковый робот и доберется до них когда-нибудь, но далеко не в первую очередь.
А страница, на которую нет вообще ни одной ссылки, "своим ходом" не попадет в индекс поисковика никогда, если не предпринимать специальных усилий.
Конечно, владелец сайта может сам добавить новый адрес страницы в индекс поисковика вручную, используя средства регистрации новых веб-страниц, которые есть во всех поисковых машинах.
Поиск
Все описанные предыдущие шаги незаметны для пользователя поисковой машины, они выполняются в поисковой машине. А вот сам поиск - это и есть то, что видит пользователь. Пользователь вводит в поисковую строку свой запрос (слово или словосочетание), и поисковая машина - о, чудо! - выдает список ссылок на страницы в Интернете.
Как это работает? Когда пользователь вводит какое-нибудь слово в строку запроса поисковика, поисковая машина обращается к индексу, находит запись о заданном слове, извлекает все номера страниц, относящиеся к заданному слову, и показывает пользователю результаты поиска, т.е. список страниц.
В списке результатов обычно отображается заголовок страницы (так называемый титул), дата создания страницы, ее адрес, цитата из текста страницы с подсвеченным искомым словом. Откуда взялась эта цитата, мы расскажем далее, в разделе, описывающем устройство индекса.
Если же в запросе было несколько слов, то поисковая машина сравнивает списки ссылок на страницы для каждого слова и выбирает только те страницы, номера которых повторяются, т.е. встречаются в каждом списке страниц для каждого слова. Таким образом, выбираются только те страницы, на которых одновременно встречаются все слова запроса.
Конечно, здесь изложена самая суть механизма поиска по индексу, его основной принцип, а в реальности разработчики поисковиков используют множество разнообразных ухищрений. Поисковик тем лучше, чем более "правильные" страницы он показывает пользователю в ответ на запрос. "Правильные" страницы называются релевантными (т.е. относящимися к делу, уместными).
Чтобы понимать, как поисковику удается находить наиболее релевантные страницы, нужно разобраться в том, как устроен индекс поисковой машины.
HTML (HyperText Markup Language ---- язык гипертекстовой разметки ) - набор специальных команд для оформления отображаемой на веб-странице информации: текста, изображений, таблиц, форм и т.д.
3. Как устроен индекс поисковой машины
Давайте рассмотрим процесс индексирования текста подробнее и разберемся с устройством индекса. Вот какие шаги выполняет поисковая машина для создания индекса из выкачанных веб-страниц.
Конверсия в чистый текст
Для начала текст индексируемой страницы нужно очистить от всяких нетекстовых элементов - графики, разметки (тегов) языка HTML и прочего "мусора". В результате получается чистый текст, с которым дальше работает индексный робот.
Выборка слов
Все слова нужно выбрать из текста, чтобы затем расположить их по алфавиту. Для этого поисковик должен знать, что именно считается словом - последовательность букв (и какого именно алфавита), числа, буквенно-цифровые последовательности, слова с дефисом и т.п., а также, что словом не считается и пропускается (пробелы, знаки препинания и пр.). У каждого поисковика есть свое определение того, что считать словом в тексте (стандарта здесь, увы, не существует).
Итак, поисковик выбирает из текста все, что считает словами, и собирает их в отдельный список.
Лингвистическая обработка
В большинстве поисковых машин слова не заносятся в индекс в том виде, в котором они приведены в тексте.
Обычно на этапе выборки слов из текстов веб-страниц поисковая машина применяет какой-то свой алгоритм лингвистической обработки слов, а именно, приведения слов к их начальным грамматическим формам, или основам (к именительному падежу, грубо говоря). Этот алгоритм называется машинной морфологией. Делается это для экономии места в индексе и, что более важно, для более точного поиска.
Составление индекса
Собранные вместе основы всех слов из всех текстов сводятся в индекс - своеобразный словарь, в котором основы упорядочены по алфавиту, а при каждой основе записано, с какой страницы она взята (номер страницы) и на каком месте на этой странице данная основа стояла (номер вхождения). Основы в словаре упорядочиваются по алфавиту для удобства поиска по ним.
Таким образом, индексная запись имеет следующую структуру:
ОСНОВА /номер страницы + номер вхождения / номер страницы + номер вхождения / номер страницы + номер вхождения / ....
Конечно, в реальности для экономии места и повышения скорости использования индекса его структуру всячески оптимизируют и усложняют. Например, вместо основ в индексе хранят их номера (так как номера короче и имеют фиксированную длину), а основы хранят отдельно; номера страниц пишут не всякий раз, а только единожды для всех вхождений с данной страницы, и т.д. Затем индекс упаковывают для экономии места, еще раз индексируют для ускорения доступа и т.д.
Но общая идея индексной записи именно такова, как описано выше.
"Координатный" индекс
Первые интернет-поисковики (середины 1990-х годов) не запоминали местоположение слова на странице. В индекс записывался только список страниц, на которых встретилось данное слово. Это делалось для экономии места и для того, чтобы получить более простую структуру индекса, другими словами, для более быстрого доступа к индексу.
Однако это ограничение не позволяло достаточно точно определить релевантность страницы при поиске словосочетаний. Ведь поисковик не мог различить компактное вхождение слов запроса, когда они стоят рядом, в одной фразе, от разнесенного вхождения, когда одно слово запроса, скажем, находится в правом верхнем углу страницы, а второе - в левом нижнем.
В результате для многословных запросов релевантность была практически нулевой. Так, например, был устроен поисковик Рамблера вплоть до 1999 года.
С ростом числа многословных запросов (а их доля все время растет по мере роста числа опытных пользователей) и по мере развития поисковых технологий большинство популярных поисковиков перешли на индекс, учитывающий координату слова на странице. Такой индекс называется координатным.
Учет компактных вхождений слов запроса в координатном индексе позволяет не только более аккуратно "взвешивать" релевантность страницы, но и показывать наиболее подходящую цитату из текста страницы.
Как видим, индекс представляет собой обращенную, вывернутую "наизнанку" копию всех страниц Интернета. Если в обычном тексте мы идем от страницы к словам, то в индексе поисковая машина идет от слов к страницам. Поэтому индекс поисковой машины называется инвертированным или инверсным, т.е. обращенным, перевернутым.
А откуда же берется цитата в поисковых результатах? Ведь порядка слов в тексте в инвертированном индексе явно нет. Неужели поисковик восстанавливает текст страницы по этому вывернутому "наизнанку" индексу?
Нет, хотя это и возможно технически, гораздо проще и экономнее для показа цитат хранить еще и второй индекс, так называемый прямой. Этот прямой индекс есть, по сути, сжатая текстовая копия всего Интернета.
Прямой индекс
Чтобы показывать при найденных страницах цитаты с выделенными (подсвеченными) словами запроса, поисковые машины хранят все тексты всех проиндексированных страниц. Хранят, конечно, в сжатом, упакованном виде, без HTML-разметки, графики и прочего "мусора", в чисто текстовом виде. Но в любом случае поисковая машина хранит у себя на серверах копию всего Интернета, выкачанного ее индексным "пауком".
Для хранения текстовой копии страниц инверсный индекс не подходит - слишком долго каждый раз при отображении цитаты восстанавливать порядок слов в тексте. Гораздо проще хранить второй индекс, на жаргоне разработчиков называемый прямым. Он представляет собой тексты веб-страниц, очищенные от всех не-текстовых элементов, сжатые и упакованные, и является текстовой копией всего Интернета.
Например, Google имеет у себя текстовую копию всего мирового Интернета (в том объеме, до какого смог добраться его "паук"), а Яндекс - копию всего Рунета.
Именно наличие этой текстовой копии позволяет поисковым машинам не только показывать релевантные цитаты в результатах поиска, но и иметь функцию "восстановить текст страницы", которой удобно пользоваться, если сама нужная страница в данный момент недоступна или вообще уже удалена с сайта.
4. Качество поисковой машины
В отношении поисковых машин очень часто можно слышать качественные оценки. "Я пользуюсь Яндексом, потому что он лучше ищет!", "Гугл круче всех" - довольно распространенные высказывания. Что такое качество поисковика? Обычно синонимом качества поиска считается его релевантность.
Что такое релевантность
В отношении поисковых машин слово релевантный - чуть ли не главный термин. Релевантная выдача, релевантные результаты, у поисковика X релевантность выше, чем у поисковика У, - такие выражения можно слышать постоянно. А что они означают?
Как уже говорилось выше, релевантный - значит относящийся к делу. Релевантность результатов поиска поисковой машины означает, что эти результаты содержат страницы, относящиеся к делу, т.е. к смыслу поискового запроса.
Это определение релевантности выглядит очень просто. Казалось бы, из него следует, что если мы введем поисковый запрос и если среди первых результатов поиска окажутся только релевантные сайты, то выдача поисковой машины будет релевантна. Однако это не совсем так. Давайте разберемся с этим вопросом подробнее.
Не существует релевантности вообще, в вакууме. Ведь кто-то должен определить, действительно ли сайты соответствуют тому, что предполагалось в запросе. Кто? Очевидно, лучше всего это может сделать сам автор запроса, который ввел его в поисковую машину.
И вот здесь возникает несколько проблем. Ведь не очень интересно обсуждать запросы выдуманные, введенные для эксперимента. В Яндексе, Рамблере, Google есть десятки миллионов популярных, реальных запросов, которые ежедневно вводят реальные пользователи. А с ними далеко не все так ясно.
Во-первых, большинство запросов - одно- или двухсловные, т.е. очень лаконичные. Ясно, что далеко не всегда они полностью задают смысл искомой страницы. Значит, какие-то условия поиска всегда остаются недосказанными, в уме пользователя. Во-вторых, ни поисковик, ни мы с вами не можем знать, что происходит в уме реального пользователя, вводящего конкретный запрос. Что он на самом деле имел в виду? В-третьих, у популярных запросов очень много "соавторов" - их вводят совершенно разные люди. Всегда ли они имеют в виду одно и то же - неизвестно. Скорее всего, нет. Например, что такое запрос дизайн! Что имел в виду автор - веб-дизайн, дизайн квартир, ландшафтный дизайн или промышленный? А что делать, если разные авторы этого запроса имели в виду разное?
Итак, молено сформулировать следующее утверждение: сам по себе поисковый запрос принципиально неполон. Почти для каждого запроса существует не высказанное пользователем явно, но важное для него условие релевантности запроса.
Условие релевантности
Условие релевантности - это не входящее в запрос предположение пользователя о том, какие страницы будут релевантным ответом на запрос. Фактически - это скрытая постановка задачи поиска в уме пользователя.
Например, если пользователь вводит запрос ногу свело, то в большинстве случаев таким условием релевантности является имеющееся в уме пользователя дополнительное ограничение на поиск - "музыкальная группа".
Значит, большинство пользователей поисковика, задавшие запрос ногу свело, имеют в виду именно музыкальную группу и будут довольны, если поисковая машина по запросу ногу свело выведет их прямиком на сайт группы "Ногу свело", на ее последний диск или еще на что-то, связанное с этой музыкальной группой. Заметим, что пользователь, как правило, держит это условие релевантности в уме, не сообщая его поисковику.
А тот редкий несчастный пользователь, у которого в самом деле свело ногу и который хочет узнать в Интернете, что делать в таком случае, скорее всего, вообще не получит никакой информации на первых страницах выдачи. Выдача будет забита ссылками на разные аспекты деятельности группы "Ногу свело", и ему придется как-то дополнительно уточнять свой "медицинский" запрос.
Условие релевантности в уме пользователя прямо зависит от его намерений, от цели запроса, от того, что вообще хочет сделать пользователь с найденными по запросу сайтами.
Заключение
Мы узнали, как работают поисковые машины. Поисковый индекс, в сущности, довольно простая вещь, аналогичная предметному указателю в книге.
Чтобы ваш сайт попал в поисковый индекс и стал доступен для поиска, необходимо, чтобы все страницы сайта стали известны поисковому роботу и чтобы последний мог легко выкачать сайт для индексирования.
Источник
1. http://www.cwpro.ru/website-promotion-search-engine/which-search-engine-is-better.html
Размещено на Allbest.ru
Подобные документы
Понятие и принципы работы, внутренняя структура и элементы, история формирования и развития поисковой системы "Rambler". Исследование и анализ, а также оценка эффективности данной поисковой системы для поиска экономической информации в интернете.
курсовая работа [4,0 M], добавлен 10.05.2015Характеристика методов поиска информации в Интернете, а именно - с использованием гипертекстовых ссылок, поисковых машин и специальных средств. Анализ новых интернет ресурсов. История возникновения и описание западных и русскоязычных поисковых систем.
реферат [17,2 K], добавлен 12.05.2010Описание и классификация современных информационно–поисковых систем. Гипертекстовые документы. Обзор и рейтинги основных мировых поисковых систем. Разработка информационно–поисковой системы, демонстрирующей механизм поиска информации в сети Интернет.
дипломная работа [1,3 M], добавлен 16.06.2015Основные протоколы, используемые в Интернет. Инструменты поиска в Интернете. Популярные поисковые системы. Как работают механизмы поиска. Средства поиска и структурирования. Автоматизированная навигация по Сети. Критерии качества работы поисковой машины.
реферат [19,7 K], добавлен 14.02.2012Характеристика поисковых машин: сущность, задачи, базовые компоненты; основные параметры. Глобальные поисковые системы, их достоинства и недостатки; особенности правовой системы - Garant. Стратегия и методика профессионального информационного поиска.
реферат [415,8 K], добавлен 21.04.2011Средства поиска информации в сети Интернет. Основные требования и методика поиска информации. Структура и характеристика поисковых сервисов. Глобальные поисковые машины WWW (World Wide Web). Планирование поиска и сбора информации в сети Интернет.
реферат [32,2 K], добавлен 02.11.2010Рассмотрение принципов поисковой системы и процедуры проведения поиска по запросам пользователей "Яндекса". Изучение структуры запросов, вспомогательных программ поиска, модулей и этапов их преобразования. Описание дополнительной информации в сниппете.
реферат [135,6 K], добавлен 27.12.2014Понятие и классификация поисковых систем, история их развития и структурные элементы. Характеристика существующих моделей поиска, анализ его качества. Особенности обработки запроса поисковой системой, подготовки базы данных и процесса выдачи результатов.
курсовая работа [2,6 M], добавлен 15.04.2014Понятие информационно-поисковых систем, их сущность и особенности, история возникновения и развития, роль на современном этапе. Внутреннее устройство и элементы поисковой системы. Принцип работы поисковой машины Рамблер, прядок обработки запроса.
научная работа [222,0 K], добавлен 29.01.2009Назначение и классификация методов поисковой оптимизации. Эффективность поискового метода. Методы поиска нулевого порядка: исходные данные, условия, недостатки и применение. Структура градиентного метода поиска. Основная идея метода наискорейшего спуска.
лекция [137,8 K], добавлен 04.03.2009