Понятие поисковой системы

Сущность поисковой системы, характеристика ее основных компонентов: агент, индекс и поисковый механизм. Процесс индексации сайтов с целью получения данных о размещенной на них информации. История создания поисковой системы Яндекс, основные виды языков.

Рубрика Программирование, компьютеры и кибернетика
Вид реферат
Язык русский
Дата добавления 05.12.2013
Размер файла 22,9 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Введение

1. Понятие поисковой системы

2. Принципы работы поисковой системы

3. История поисковой системы Яндекс

4. Виды поиска

5. Язык поисковых запросов

6. Техника безопасности при работе с ЭВМ

Заключение

Список используемой литературы

1. Понятие поисковой системы

«Яндекс» -- поисковый движок, принадлежащий российской корпорации «Яндекс», основной продукт компании.

Отдельными сервисами являются турецкий Яндекс (yandex.com.tr) и поиск по мировому интернету (www.yandex.com), выступающий также в качестве тестовой площадки.

Основная информация

Поисковая машина состоит из трёх основных компонентов:

1.Агент -- это поисковый робот. Он обходит сеть, скачивает и анализирует документы. В случае обнаружения новой ссылки при анализе сайта, она попадает в список веб-адресов робота. Поисковые роботы бывают следующих типов: пауки (англ. Spider) -- загружают сайты подобно браузерам пользователя; «путешествующие» пауки (англ. Crawler) -- обнаруживают новые, еще неизвестные ссылки на основе анализа уже известных документов; индексаторы -- занимаются анализом обнаруженных веб-страниц и добавляют данные в индекс. Множество выкачанных документов разбиваются на непересекающиеся части и очищаются от разметки.

2.Индекс -- база данных, собранная роботами-индексаторами поисковых машин. По индексу и осуществляется поиск документов.

3.Поисковый механизм

Поисковый запрос от пользователя, после анализа загруженности поисковой системы, отправляется на наименее загруженный сервер. Для обеспечения такой возможности сервера Яндекса объединены в кластеры и даже кластеры кластеров. Затем пользовательский запрос обрабатывается программой под названием «Метапоиск». Метапоиск осуществляет анализ запроса в реальном времени: определяет географическое положение пользователя, проводит лингвистический анализ и т. д. Также, программа определяет, относится ли запрос к категории наиболее популярных или недавно заданных. Выдача на такие запросы некоторое время хранится в памяти (кэше) метапоиска, и в случае совпадения показываются заранее сохранённые результаты. Если запрос является редким и совпадений в кэше не найдено, система перенаправляет его на программу «Базового поиска». Тот анализирует индекс системы, также разбитый по разным дублирующимся серверам (это укоряет процедуру). Затем полученная информация снова попадает на метапоиск, данные ранжируются и показываются пользователю в готовом виде.

2. Принципы работы поисковой системы

Поисковая система большое значение придает показателю последнего изменения информации (Last-Modified). Если сервер не будет передавать эту информацию, то процесс индексации данного ресурса будет происходить намного реже.

Пока что остается нерешенной проблема страниц, использующих фреймовые структуры, но она может быть обойдена с помощью скриптов, отправляющих пользователей поисковой системы в нужное место сайта.

Если у сайта существуют «зеркала» (например, http://www.site.ru, http://site.ru, https://www.site.ru, https://www.site.ru), необходимо принять соответствующие действия для исключения их из процесса индексации. Если индексацию «зеркал» избежать не удалось, можно «склеить» их путем внесения необходимой информации в robots.txt.

В случае попадания сайтов Основой работы поисковых систем как Google, так и Яндекс является система кластеров. Вся информация делится на определенные области, которые относятся к тому или иному кластеру. Индексация сайтов с целью получения данных о размещенной на них информации выполняется роботами-сканерами. Существуют следующие виды сканирующих роботов: основной робот-сканер и робот-сканер, отвечающий за сбор информации на ресурсах с частым обновлением содержания. Второй тип сканирующего робота предназначен для быстрого обновления списка проиндексированных ресурсов и значения их индексов в поисковой системе. Для наиболее полного обеспечения сбора информации в системе Яндекс применяются обновления базы поиска и обновления программного кода:

База поисковой информации обновляется несколько раз в течение месяца, при этом на поисковые запросы выдается обновленная информация с сайтов. Такая информация добавляется с помощью основного робота-сканера.

При обновлении программного кода или «движка» выявляются недостатки и изменяются алгоритмы, отвечающие за ранжирование ресурсов в поисковой системе. Как правило, перед выходом таких обновлений Яндекс публикует соответствующие анонсы.

Основная особенность системы Яндекс, делающая популярной ее среди русскоязычных пользователей, - это способность определять различные словоформы с учетом морфологических особенностей русского языка. При этом значения запроса с помощью геотаргетинга и формул поиска преобразуется в максимально точную формулировку. Кроме того, Яндекс отличается алгоритмом по определению релевантности индексируемых страниц (релевантностью называют соотношение содержания веб-страницы к содержанию поискового запроса). Также к положительным сторонам можно отнести высокую скорость ответной реакции на запросы и устойчивую, без перегрузок, работу серверов.

Большое значение для поисковой системы имеют динамические ссылки, наличие которых может привести к отказу от индексации ресурса поисковым роботом.

В процессе индексации Яндекс распознает текстовую информацию в документах с расширениями: .pdf, .rtf, .doc, .xls, .ppt. Последние два относятся к программам входящими в комплект Microsoft Office: Excel и PowerPoint.

При индексировании сайта поисковая система считывает данные из файла robots.txt, при этом поддерживается атрибут Allow и часть метатегов, а метатеги Revisit-After и Keywords игнорируются.

Так как сниппеты - краткие описания текстовых документов - составляются из фраз на искомой странице, то использование описания в теге не является обязательным, но может использоваться в отдельных случаях.

По заявлениям разработчиков кодировка индексируемых документов определяется автоматически, а значит, и метатег кодировки не имеет большого значения.

в Яндекс.Каталог система будет идентифицировать их как заслуживающих отдельного внимания, что может повлиять на продвижение сайтов. Также это способствует упрощению процедуры определения тематики сайта, что в свою очередь означает получение сайтом значимой внешней ссылки.

Команда поисковой системы Яндекс держит в секрете IP-адреса своих роботов. Но в лог-файлах отдельных сайтов можно встретить текстовые пометки, оставленные поисковыми роботами Яндекс.

поисковый сайт яндекс язык

3. История поисковой системы Яндекс

В 2011 году был внедрен уникальный метод машинного обучения «Матрикснет», благодаря которому стало возможным учитывать при поиске в разы больше факторов и их комбинаций. Таким образом, поиск стал еще более точным, что существенно улучшило качество ответов на отдельные классы Официальным днем рождения поисковой системы Яндекс считается 23 сентября 1997 года. Уже тогда система учитывала морфологию русского языка, расстояние между словами и умела ранжировать документы в соответствии с их релевантностью.

Среди современных и важных нововведений Яндекса в 2011 году эксперты отмечают:

разработку механизма различных подсказок, автоматического исправления ошибок, распознавание аббревиатур, обработку транслита;

введение геозависимости запросов, региона пользователя и принадлежности сайта к тому или иному городу;

использование поисковой технологии «Спектр», которая позволяет учитывать дополнительные потребности пользователей, если они не были явно сформулированы в запросе;

борьбу с переоптимизированными текстами, SEO-ссылками, поведенческими накрутками, неуникальным контентом;

ориентацию на пользовательские интересы по коммерческим запросам - учет поведенческих факторов.

В 2001 году был запущен сервис контекстной рекламы, впоследствии ставший основным способом заработка компании. За счет него и других разработок в 2002 году Яндекс вышел на самоокупаемость -- на полгода раньше, чем планировалось. В мае 2011 года компания «Яндекс» провела первичное размещение акций на нью-йоркской бирже Nasdaq. По уровню доходов Яндекс значительно опережает все остальные российские интернет-компании.

У Яндекса есть специальные инструменты для владельцев сайтов, которые важно использовать для эффективного продвижения. Мы рассмотрим их подробно в следующих главах.

4. Виды поиска

Поиск информации является одной из составляющих человеческой деятельности. В Интернете ежедневно появляется и исчезает огромное количество ресурсов. Необходимо уметь в них ориентироваться. Чтобы эффективно выполнить поиск, нужно умело составить запрос к поисковой системе. Если ответ ищется в каталоге, то особых сложностей при работе здесь нет. Создатели каталога и модераторы озаботились созданием разделов каталога. Пользователь должен только четко определиться с предметом поиска и затем воспользоваться структурой, которая ему предложена.

В основе полнотекстового поиска лежит умение удачно составить поисковый запрос. При прочих равных условиях следует выбирать для поиска наиболее суженное, мало распространенное слово. В то же время может случиться и так, что поиск по слишком узкому термину не дает результатов. Тогда надо переходить к более широким терминам.

Если поиск по узкому термину не дает результатов, то следует постепенно расширять поисковое понятие или же переходить к смежным терминам.

Поиск по возможности лучше вести по нескольким словам, их сочетаниям, а иногда и по конкретным фразам.

При проведении поиска и оценке его результатов необходимо помнить:

· Слепое доверие к результатам, размещенным в Сети, чревато ошибками.

· Остерегайтесь анонимных сведений, т. к. их источник установить очень трудно.

· В сомнительных случаях не ленитесь проверить найденные сведения запросом в Сети отзывов и мнений по поводу найденных сведений.

· Неожиданно появляющиеся и затем быстро исчезающие ресурсы не надежны.

· В сомнительных случаях необходимо обращаться к таким проверенным источникам, как сетевые энциклопедии, справочники и специальные учебные сайты.

Избегайте «сенсационных» данных, результатов с чрезмерно большой точностью, чисто полемических, рекламных и необъективных материалов.

Приступая к поиску, вы вводите одно или несколько ключевых слов, выбираете вид поиска и нажимаете на клавишу Enter. В ответ выдается список адресов (URL) - список всех индексированных страниц, содержащих любые ключевые слова. Нередко число совпадений при таком поиске огромно. Однако если поисковая система хорошо сортирует результаты по тематике, то нужную страницу можно найти в верхней части списка. Поиск по любому слову может быть удобен в случаях, когда пользователь не уверен в ключевых словах.

Следует иметь в виду, что поисковые машины относятся к словам по-разному. Такие ИПС как «Яндекс» понимают слово во всех его грамматических формах и с учетом этого будут его искать. Им известна морфология русского языка, т. е. если в запросе написать и «человек» и «люди», то ответ будет одним и тем же.

При поиске в Интернете используются следующие логические операторы:

- AND - и (и то и то - два термина вместе);

- OR - или (или тот термин или тот);

- NOT - не (не нужен такой-то термин).

Используя значок *, можно расширить запрос до всех слов, содержащих введенную часть. Например, если ввести электротехни* то в результатах поиска окажутся страницы, содержащие электротехника, электротехнический и т. п. Знак усечения * может быть подставлен в ключ справа, слева и внутри. В Yandex можно запрашивать конкретную форму слова при поиске (исключив другие словоформы), поставив перед ним знак «!»

5. Язык поисковых запросов

Информационно-поисковый язык состоит из логических операторов, морфологии языка, регистра слов, префиксов обязательности, возможности учета расстояния между словами и расширенного поиска. Подобное представление запроса помогает быстрее ориентироваться в индексных базах.

Синтаксис языка поисковых запросов может изменяться в зависимости от особенностей конкретной поисковой машины. Но есть определенные правила, которые используют все. Рассмотрим наиболее распространенные из них:

команды логического объединения и исключения.

Символы «+» и «-» в запросе позволяют добавлять или исключать какие-либо слова из текста. Слово, помеченное «+», будет обязательно присутствовать в документах, которые найдет поисковая система по запросу. Слово, помеченное «-», будет отсутствовать в выдаче.

Команды «+» и «-» должны быть написаны слитно со словом, к которому они относятся. В противном случае поисковая машина начнет рассматривать их как элементы запроса, а не как команды.

«логическое И» (обозначается как амперсанд (&)).

Позволяет перечислить слова, которые обязательно должны встречаться в пределах одного предложения в искомом документе.

«логическое ИЛИ» (обозначается символом «|»).

Дает возможность осуществлять поиск по документам, в тексте которых присутствует только одно из перечисленных слов.

Если правило необходимо распространить не только на одно предложение, но и на весь документ, используется удвоение команды. Чтобы применить несколько команд в одном запросе, следует использовать символы открывающей и закрывающей скобки. Допускается комбинирование логических операторов и без использования скобок.

Также поисковые системы могут производить поиск по точному вхождению. Для этого используются кавычки.

Как правило, поисковые системы учитывают все словоформы исходного запроса согласно правилам русского языка. Поэтому в выдаче можно увидеть документы, в которых встречаются не только точные вхождения запроса, но и различные его формы. Для того чтобы осуществить поиск точной словоформы по правилам языка запросов Яндекса, перед запросом необходимо поставить восклицательный знак. Если запрос состоит из 2 и более слов, можно использовать уже знакомые нам кавычки или поставить «!» перед скобками, в которых заключена фраза.

Меняя местами слова в тексте запроса, можно заметить следующее: если слова располагаются в разных предложениях, в одном случае поисковая система не считает страницу со всеми словами в тексте релевантной запросу, а в другом случае считает. Расположение ключевых слов в тексте можно оценить, посмотрев сохраненную копию страницы из поисковой выдачи Яндекса. В ней подсвечиваются все учитывающиеся ключевики. Также Яндекс подсвечивает ключевые слова в сниппетах и заголовках страниц.

Поисковые системы постоянно развиваются и, конечно, не ограничиваются поиском только по словам из запроса. Чтобы учесть все возможные варианты ответа на запрос пользователя, Яндекс расширяет исходный текст, введенный в строку поиска. Он добавляет другие формулировки с тем же значением и ведет поиск уже по новому запросу.

Используя язык запросов поисковой системы, можно находить необходимую информацию за максимально короткое время. Знание языка поисковых запросов также дает возможность анализировать выдачу с различных сторон. Это помогает написать текст, который будет влиять на позиции и станет интересен пользователям.

6. Техника безопасности при работе с ЭВМ

1. САНИТАРНО-ГИГИЕНИЧЕСКИЕ НОРМЫ ПРИ РАБОТЕ НА ПК

2. Многочисленные пользователи персональных компьютеров часто забывают, а порой и просто не знают о том, что длительная работа за компьютером негативно сказывается на многих функциях нашего организма: высшей нервной деятельности эндокринной, иммунной и репродуктивной системах на зрении и костно-мышечном аппарате человека Что это может означать для простого человека? И можно ли от этого защититься?

3. Наибольший вред здоровью пользователя наносят устройства ввода-вывода: монитор, клавиатура, мышь.

4. Компьютер является источником: электростатического поля электромагнитных излучений в низкочастотном, сверхнизкочастотном и высокочастотном диапазонах (2 Гц - 400 кГц) излучения оптического диапазона (ультрафиолетового, инфракрасного и видимого света) рентгеновского излучения

5. Электромагнитное излучение неблагоприятно действует на зрение, вызывает снижение работоспособности, головные боли. Поэтому расстояние от лица человека до монитора должно быть не менее 60-70 см. Электростатическое поле способствует оседанию пыли и аэрозольных частиц на лице, шее, руках, что может вызвать у людей, особо чувствительных к подобному воздействию негативные кожные реакции - сухость, аллергию.

6. ЖК-мониторы можно назвать почти «зелеными» устройствами, сберегающими здоровье людей. Без особых опасений за здоровье с ними могут работать и женщины, и дети.

7. Неподвижная и напряженная поза оператора, в течение длительного времени прикованного к экрану монитора, приводит к усталости и возникновению болей в позвоночнике, шее, плечевых суставах.

8. Во время работы за компьютером необходимо соблюдать правильную осанку.

9. Основные требования к конструкции кресла: оно должно обеспечивать равномерность распределения сил тяжести частей тела на опорные поверхности для избежания статического напряжения больших мышечных групп и позвоночного столба.

11. Интенсивная работа с клавиатурой вызывает болевые ощущения в локтевых суставах, предплечьях, запястьях, в кистях и пальцах рук.

12. Основной блок клавиш на клавиатуре разбит на две части, развернутые таким образом, что пользователю волей-неволей приходится раздвигать руки и расставлять локти. Фирмой Microsoft разработана эргономическая клавиатура, которая своеобразной конструкцией призвана снизить нагрузку на руки.

13. Правильное положение за компьютером

14. Помещение во время работы с компьютером должно быть хорошо освещено. Освещение в помещениях ПК должно быть смешанным: естественным, - за счет солнечного света, - и искусственным. Запрещается работа с компьютером в темном или полутемном помещении!

15. Хотя картина воздействия компьютеров на организм человека, описанная выше, выглядит довольно мрачной, нужно помнить, что подобные последствия возможны лишь в случае абсолютного игнорирования мер безопасности и гигиенических норм.

16. Профилактические и оздоровительные методики и технологии позволят свести к минимуму негативное воздействие компьютера на Ваше здоровье, сделать работу на ПК приятным и увлекательным занятием. Сегодня это уже возможно!

Заключение

Каждый день поиском Яндекса пользуются миллионы людей. Они печатают запрос в строке поиска и сразу же получают ответ. При этом мало кто задумывается, как же это всё работает. Да и задумываться особо некогда -- весь процесс поиска занимает несколько мгновений. Шестерёнки не скрежещут, карточки не шелестят, женщина в окошке не говорит: «За этим надо обращаться в архив, заполните заявку и возвращайтесь через три рабочих дня». Всё просто -- вопрос-ответ.

Но на самом деле между вопросом и ответом находится очень много всего. В этом разделе любой желающий может узнать, как поисковая машина успевает находить документы за доли секунды, как борется с вирусами и спамом, что такое Матрикснет и колдунщики и многое-многое другое.

Список используемой литературы

1. http://www.buyfish.ru/articles/poisk_informacii_i_prodvizhenie_saitov/

2. http://www.getinfo.ru/article108.html

3. http://www.moscowuniversityclub.ru/home. asp? artId=9561

4. http://www.psycho.ru/library/36

5. http://www.seonews.ru/analytics/detail/117093. php

Размещено на Allbest.ru


Подобные документы

  • Понятие и принципы работы, внутренняя структура и элементы, история формирования и развития поисковой системы "Rambler". Исследование и анализ, а также оценка эффективности данной поисковой системы для поиска экономической информации в интернете.

    курсовая работа [4,0 M], добавлен 10.05.2015

  • Описание и классификация современных информационно–поисковых систем. Гипертекстовые документы. Обзор и рейтинги основных мировых поисковых систем. Разработка информационно–поисковой системы, демонстрирующей механизм поиска информации в сети Интернет.

    дипломная работа [1,3 M], добавлен 16.06.2015

  • Анализ существующих поисковых систем и используемых ими алгоритмов поиска документов. Разработка информационно-поисковой системы словарного типа, способной осуществлять релевантный поиск документов, особенности ее структуры и информационно-поисковой базы.

    дипломная работа [942,1 K], добавлен 19.05.2011

  • Совместимость и преобразование типов данных. Создание информационно-поисковой системы на языке программирования Паскаль. Описание интерфейса, каждого блока программы "Картотека больных". Рассмотрение результатов работы программы, сортирования данных.

    курсовая работа [368,9 K], добавлен 18.05.2015

  • Понятие информационно-поисковых систем, их сущность и особенности, история возникновения и развития, роль на современном этапе. Внутреннее устройство и элементы поисковой системы. Принцип работы поисковой машины Рамблер, прядок обработки запроса.

    научная работа [222,0 K], добавлен 29.01.2009

  • Основные методы объектно-ориентированного программирования поисковой системы. Выбор языка программирования и среды разработки приложения. Реализация паттерна, использование принципа сохраняемости. Описание пользовательского интерфейса поисковой системы.

    курсовая работа [781,4 K], добавлен 29.04.2015

  • Рассмотрение принципов поисковой системы и процедуры проведения поиска по запросам пользователей "Яндекса". Изучение структуры запросов, вспомогательных программ поиска, модулей и этапов их преобразования. Описание дополнительной информации в сниппете.

    реферат [135,6 K], добавлен 27.12.2014

  • Методы продвижения сайтов. Структура поисковой системы "Яндекс". Факторы ранжирования запросов. Фильтры поисковых систем, "Минусинск". Изменение структуры страниц. Применение внешней оптимизации сайта. Панель вебмастера с отображением внешних ссылок.

    курсовая работа [2,0 M], добавлен 14.11.2016

  • Сущность, структура и назначение музея. Программное обеспечение для создания виртуальных музеев. Модель организации и функционирования его метаинформационной базы данных, проектирование информационно-поисковой системы и имитационное моделирование.

    диссертация [12,6 M], добавлен 12.01.2015

  • Возможности программы DBDesigner. Проектирование и реализация информационно-поисковой системы с помощью CASE-средства DBDesigner в среде Intranet. Этапы проектирования базы данных, установление соединения с базой данных на сервере, синхронизация.

    лабораторная работа [1,5 M], добавлен 18.08.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.