Организация поиска информации

Принципы организации поиска информации. Виды поисковых систем и их структура. Значение запроса для поиска. Наиболее популярные русскоязычные поисковые системы, принципы их функционирования. Алгоритмы поиска в Интернете. Ранжирование сайтов и их страниц.

Рубрика Программирование, компьютеры и кибернетика
Вид реферат
Язык русский
Дата добавления 29.04.2019
Размер файла 290,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

ФГБОУ ВПО Кемеровский технологический институт пищевой промышленности (университет)

Кафедра: «Прикладная математика и информатика»

Факультет: «Механический»

Реферат

по информатике

Организация поиска информации

Выполнил: студент 1-го курса

группы ЭК - 052

Данилова Валентина Андреевна

Проверил: Печерских Ирина Александровна

Кемерово, 2016

Введение

Сеть Интернет растет очень быстрыми темпами, найти нужную информацию среди сотен миллиардов Web-страниц и сотен миллионов файлов становится все сложнее. Для поиска информации используются специальные поисковые системы, которые содержат постоянно обновляемую информацию о местонахождении Web-страниц и файлов на сотнях миллионов серверов Интернета.

Актуальность темы обусловлена тем, что в настоящее время, задаваясь каким-то сложным вопросом, мы зачастую не идем в библиотеку, а пользуемся сетью Интернет. В настоящее время свыше 500 млн. человек более или менее регулярно пользуются Интернетом, а через два года их число, по мнению экспертов, превысит 1 млрд., иными словами, более 16% населения Земли. Разумеется, такая колоссальная аудитория не могла остаться невостребованной - Интернет давно превратился в огромную информационную площадку.

Цель моей работы: понять основные принципы организации поиска информации, алгоритмы поиска в Интернете и изучить наиболее популярные русскоязычные поисковые системы.

Задачи, которые необходимо решить для раскрытия темы: Изучить понятие поисковой системы, виды и структуру; принципы функционирования поисковых систем и значение запроса для поиска;

«Ход работы» поисковых систем в работе будет представлен в основном на работе поисковых систем Яндекс и Google.

Понятие поисковых систем

Поисковая система - это аппаратно-программный комплекс, который предназначен для осуществления функции поиска в интернете, и реагирующий на пользовательский запрос который обычно задают в виде какой-либо текстовой фразы (или точнее поискового запроса), выдачей ссылочного списка на информационные источники, осуществляющейся по релевантности. Самые распространенные и крупные системы поиска: Google, Bing, Yahoo, Baidu. В Рунете - Яндекс, Mail.Ru, Рамблер. [1]

Виды поисковых систем

Различают поисковые системы:

· Глобальные, предназначенные для поиска информации в сети интернет.

· Локальные, осуществляющие поиск в рамках локальных сетей или определенных ресурсов.

Глобальные поисковые системы могут быть:

1. Универсальные. Такие ПС предоставляют своим пользователям возможность поиска любого вида контента (с англ. content -- содержание, содержимое; -- собирательный термин, характеризующий любую информацию, которая содержится на страницах веб-ресурса. В буквальном смысле контентом можно назвать тексты, аудио и видеофайлы, графические изображения, анимацию, картинки и прочую информацию, размещенную на интернет-ресурсе (все, что пользователь может прочитать, увидеть, услышать). Сам поиск осуществляется по всем ресурсам всемирной паутины. Мировым лидером по популярности среди универсальных ПС является Google, а в русскоязычной части интернета -- Яндекс. Кроме того, достаточно широко используются универсальные поисковые системы: Bing, Yahoo!, Mail.ru, Рамблер, Нигма и др.

2. Специализированные. Задачей данного вида ПС является поиск информации, отвечающей определенным требованиям. Это системы для поиска файлов на FTP-серверах (например, FTP Search), товаров в интернет-магазинах, информации в Usenet.

3. Тематические. ПС такого вида осуществляют поиск лишь той информации в интернете, которая интересна определенным группам общества (религиозным, профессиональным и т.п.). К примеру, ПС Koogle находит к выдаче только контент, отвечающий мировоззрению ортодоксальных иудеев. [3]

запрос поиск информация сайт

Структура поисковых систем

Так как под понятием «поисковая система» чаще всего понимается глобальная, универсальная ПС, речь далее будет вестись именно о ней. Однако принципы построения и функционирования большинства видов ПС схожи между собой и не имеют существенных различий.

1) Интерфейс

Видимая пользователю часть поисковой системы представляет собой сайт с интерфейсом, предназначенным для создания запросов к ПС. Кроме того, на этом же сайте формируются страницы поисковой выдачи, являющиеся ответами пользователям на создаваемые ими поисковые запросы.

2) Программно-аппаратная часть ПС

Программно-аппаратная часть ПС размещена на компьютерах ее владельца и предназначена непосредственно для обработки запроса, поиска информации по нему и формирования страниц поисковой выдачи. Ее структура:

· Поисковый алгоритм.

· База данных адресов страниц сайтов и информации с веб-ресурсов (иначе: индекс).

3) Поисковый алгоритм

Поисковый алгоритм является активной частью программно-аппаратной части ПС и в его задачи входят:

· Индексация сайтов и их страниц,

· Ранжирование сайтов и их страниц,

· Формирование поисковой выдачи.

4) Индекс

База данных (индекс) служит хранилищем известных поисковой системе адресов сайтов и их страниц, а также всех слов, ссылок и прочей информации, на них размещенных. Индекс разбит на управляемые разделы и хранится на множестве компьютеров по всему миру (для крупных поисковых систем), соединенных в сеть.

Принципы функционирования поисковых систем

1) Индексация

Поисковый алгоритм находится в непрерывном действии, каждую секунду сканируя глобальную сеть в поиске новых ресурсов, переходя по найденным на них ссылкам и добавляя (индексируя) новые адреса и информацию в базу данных (индекс). Сайты, подлежащие индексации, должны соответствовать некоторым требованиям, определяющим:

· уникальность и качество (грамотность, информативность, структура),

· наличие и объем ссылочной массы,

· активность пользователей на сайте,

· отсутствие вредоносного и вредного программного обеспечения,

· адекватность к определенным требованиям (например: запрет на порно, призывы к терроризму и т.п.) [6]

2) Апдейт

Добавление информации и адресов страниц сайтов в индекс происходит не тотчас после их сканирования, а лишь после того, как поисковый робот просканирует их определенное количество, достигающее порой нескольких миллиардов. Массовые «зачисления» новых ресурсов в индекс осуществляются во время так называемых апдейтов поисковых систем.

Апдейт -- своеобразная ревизия базы данных ПС, во время которой из нее исключаются одни и добавляются другие ресурсы и их страницы.

Кроме того, во время апдейта сайтам присваиваются качественные характеристики, влияющие на их ранжирование во время формирования поисковой выдачи. Одними из важнейших характеристик, к примеру, являются тИЦ - тематический индекс цитирования у Яндекс, и PageRank у Google. Но кроме них на ранжирование влияет еще множество параметров, количество которых у некоторых поисковых систем может достигать нескольких сотен (порядка 200 у Google, например).

3) Ранжирование и поисковая выдача

В ответ на запрос пользователя, поисковые роботы сканируют индекс поисковой системы, находя и предлагая пользователю адреса страниц сайтов, где заданное слово или их комбинация встречается в виде ключевых. Если ключи не совпадают с запросом, ПС выбирает сайты с наиболее релевантным ему контентом. Так как количество соответствий измеряется обычно многозначными числами, перед поисковыми роботами встает задача ранжирования сайтов, их содержащих. [2]

Другими словами, раз поисковым алгоритмам необходимо каким-то образом предоставить возможность пользователю ознакомиться со всеми релевантными запросу ответами (что на практике осуществить чаще всего невозможно из-за огромного их количества), то создателями ПС было принято решение показывать поисковую выдачу в виде ранжированного списка адресов. Таким образом, лидерами поисковой выдачи являются ресурсы с лучшими параметрами, а далее -- по списку: по убыванию качества характеристик.

Поисковая выдача -- список адресов сайтов. Кроме того, здесь же дается краткое текстовое описание содержимого сайтов -- сниппет.

Сниппет формирует поисковая система исходя из своих алгоритмов работы. Как правило, за основу принимается текст в теге meta description (Description - описание страницы, которое учитывается поисковиками и транслируется в сниппете в выдаче) и контентное наполнение страницы сайта. Но у каждого поисковика есть свои нюансы, зная которые, можно влиять на отображаемый в сниппете текст.

К примеру, Google - за основу при формировании сниппета берет описание в теге meta description, если он посчитает, что оно релевантно (определяемая поисковым алгоритмом степень полезности и смыслового соответствия результатов выдачи запросу пользователя) и полезно пользователям. Длина сниппета в Google составляет 160 символов, но здесь речь идет об отображаемых символах. Длина текста в meta description может быть и более 160 символов, поисковик будет учитывать такой текст целиком.

А Яндекс в свою очередь - строит сниппет по более сложной схеме. Бытует мнение, что он не охотно учитывает meta description и формирует сниппет на основе какой-то части теста страницы сайта, где содержатся ключевые слова. Длина сниппета составляет до 240 символов.

4) Штрафные функции поисковых роботов

В случаях обнаружения поисковыми роботами ресурсов, использующих для своего продвижения запрещенные или не приветствуемые приемы, ими могут быть применены штрафные санкции:

· Понижение в ранге выдачи.

· Исключение из индекса -- бан.

К приемам, влекущим наказание от поисковых систем, относятся: «черное» продвижение, воровство контента, публикация запрещенных материалов, размещение вредоносного или вредного программного обеспечения и т.п.

Значение запроса для поиска

Рассмотрим поподробнее само значение запроса для поиска, взяв для примера систему Яндекс.

Запрос обязан быть сформулирован пользователем в полном соответствии с предметом его поиска, максимально просто и кратко. К примеру, мы желаем найти информацию в данном поисковике: «как написать реферат без ошибок». Чтобы сделать это, открываем главную страницу и вводим запрос для поиска более кратко: «как написать реферат». Потом наши функции сводятся к тому, чтобы зайти по предоставленным ссылкам на информационные источники в сети.

Но даже действуя таким образом, можно и не получить необходимую нам информацию. Если мы получили подобный отрицательный результат, нужно просто переформировать свой запрос, или же в базе поиска действительно нет никакой полезной информации по данному виду запроса (такое вполне возможно при заданных «узких» параметров запроса, как, к примеру, «как написать реферат по информатике»).

Самая основная задача каждой поисковой системы - доставить людям именно тот вид информации, который им нужен. А приучить пользователей создавать «правильный» вид запросов к поисковым системам, то есть фразы, которые будут соответствовать их принципам работы, практически, невозможно.

Именно поэтому специалисты-разработчики поисковиков делают такие принципы и алгоритмы их работы, которые бы давали пользователям находить интересующие их сведения. Это означает, что система, должна «думать» так же, как мыслит человек при поиске необходимой информации в интернете.

Когда он вводит свой запрос в поисковую машину, он желает найти то, что ему надо, как можно проще и быстрее. Получив результат, пользователь составляет свою оценку работе системы, руководствуясь несколькими критериями. Получилось ли у него найти нужную информацию? Если нет, то сколько раз ему пришлось переформатировать текст запроса, чтобы найти ее? Насколько актуальная информация была им получена? Как быстро поисковая система обработала его запрос? Насколько удобно были предоставлены поисковые результаты? Был ли нужный результат первым, или находился на 30-ом месте? Сколько «мусора» (ненужной информации) было найдено вместе с полезными сведениями? Найдется ли актуальная для него информация, при использовании ПС, через неделю, либо через месяц? [4]

Для того чтобы получить правильные ответы на подобные вопросы, разработчики поиска постоянно улучшают принципы ранжирования и его алгоритмы, добавляют им новые возможности и функции и любыми средствами пытаются сделать быстрее работу системы.

Так же, набирая запрос в интернете, необходимо знать о том, что где в пределах документа расположены слова и в какой грамматической форме они находятся - не важно. Например, по запросу яблоки на снегу будут найдены все документы, в которых встречаются одновременно два слова: «яблоко» и «снег» (однако порядок их отображения в списке будет различным).

Предлог на игнорируется. Поэтому приведенный запрос можно написать и так: снег на яблоке. Результат поиска будет таким же.

Важное и очень полезное свойство поисковых систем: независимо от того, в какой грамматической форме вы пишете в запросе слово, оно находится в документах во всех своих формах. Например, по запросу человек шел будут найдены среди прочих и документы, содержащие текст «люди идут». Распознавание всех форм работает для обычных слов русского языка. Для экзотических слов, неологизмов, и т. п. оно не осуществляется.

Для визуального создания сложных запросов можно использовать возможности расширенного поиска на странице «Расширенный поиск».

Заключение

В ходе рассмотрения темы работы удалось выяснить виды поисковых систем и их структуру.

Так же, при поиске информации на просторах сети Интернет необходимо знать принципы функционирования поисковых систем. Ведь благодаря этому можно понять по какому принципу строится поиск информации в том или ином поисковике, будь то русскоязычный или др.

По мере рассмотрения поставленных задач, было освещено и значение запроса для поиска. Из этого мы выяснили, что игнорируются предлоги, грамматические формы. При поиске в сети Интернет необходимо максимально точно и кратко формулировать запрос. Так же, если не удается найти нужную информацию, в поисковой системе Яндекс, например, имеется «Расширенный поиск», это та страница, где вы сможете задать нужные Вам параметры для поиска.

Зная азы организации поиска информации, любой человек в силах найти то, что ему нужно в поисковых системах, важно учитывать вышерассмотренные аспекты.

Список литературы

1. Ашманов И. С., Иванов А. А. Продвижение сайта в поисковых системах. -- М.: Вильямс, 2007. -- 304 с.

2. Комер Д. Принципы функционирования Интернета: Пер. с англ./ Д. Комер. - СПБ.; М.; Харьков; Минск: Питер, 2002.-379 с.

3. Компьютерные сети: Учебный курс - 2-е изд. (+CD-ROM). - MicrosoftPress, Русская редакция, 1998.

4. Крупник А.Б. Поиск в Интернете: самоучитель. - 2-е изд. - СПБ.: Питер, 2004. - 572 с.

5. Муштоватый И.Ф. Самоучитель по работе в Интернете/ Под общ. ред. М.И. Монастырского. - 2-е изд., доп. и перераб.-Ростов н/Д: Феникс, 2002.-312 с.

Размещено на Allbest.ru


Подобные документы

  • Средства поиска информации в сети Интернет. Основные требования и методика поиска информации. Структура и характеристика поисковых сервисов. Глобальные поисковые машины WWW (World Wide Web). Планирование поиска и сбора информации в сети Интернет.

    реферат [32,2 K], добавлен 02.11.2010

  • Особенности поиска информации в Интернет: стратегия и методика. Поисковые машины, каталоги и порталы информационных ресурсов. Подбор и введение ключевых слов. Использование режима "расширенный поиск", который имеет каждая из поисковых систем в Интернете.

    реферат [27,3 K], добавлен 06.08.2014

  • Характеристика методов поиска информации в Интернете, а именно - с использованием гипертекстовых ссылок, поисковых машин и специальных средств. Анализ новых интернет ресурсов. История возникновения и описание западных и русскоязычных поисковых систем.

    реферат [17,2 K], добавлен 12.05.2010

  • Хранение данных в сети Internet. Гипертекстовые документы, виды файлов. Графические файлы, их виды и особенности. Поисковые системы и правила поиска информации. Обзор поисковых систем сети Internet. Все о поисковых системах Yandex, Google, Rambler.

    курсовая работа [918,3 K], добавлен 26.03.2011

  • Основные протоколы, используемые в Интернет. Инструменты поиска в Интернете. Популярные поисковые системы. Как работают механизмы поиска. Средства поиска и структурирования. Автоматизированная навигация по Сети. Критерии качества работы поисковой машины.

    реферат [19,7 K], добавлен 14.02.2012

  • Методы и инструментарий хранения данных во Всемирной сети. Понятие и разновидности гипертекстовых документов и графических файлов. Принципы работы поисковых систем и правила поиска нужной информации. Характеристика некоторых поисковых систем Сети.

    курсовая работа [30,9 K], добавлен 18.04.2010

  • Основные критерии и требования к средствам поиска по ресурсу. Технологии создания инструментов поиска. Способы поиска по ресурсу. Принцип действия поиска по ключевым словам и при помощи поисковых систем. Разработка ресурса "Поиск по ресурсу" в виде блога.

    курсовая работа [983,7 K], добавлен 01.02.2015

  • Структура справочно-поисковых систем сети Интернет, работа механизмов поиска. Сравнительный обзор справочно-поисковых систем (Gopher, WAIS, WWW, AltaVista, Yahoo, OpenText, Infoseek). Поисковые роботы, наиболее популярные справочно-поисковые системы.

    реферат [28,4 K], добавлен 14.01.2010

  • История развития поисковых систем, особенности механизма поиска. Сравнительный обзор справочно-поисковых систем Интернета. Понятие поисковых роботов. Наиболее популярные поисковики для русскоязычного пользователя. Перспективы развития поисковых систем.

    реферат [64,0 K], добавлен 20.12.2012

  • Понятие и принципы работы, внутренняя структура и элементы, история формирования и развития поисковой системы "Rambler". Исследование и анализ, а также оценка эффективности данной поисковой системы для поиска экономической информации в интернете.

    курсовая работа [4,0 M], добавлен 10.05.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.