Развитие поисковых систем
Поисковые системы как неотъемлемая часть российского Интернета, обеспечивающая обработку информации от ее получения с первоисточников до предоставления результатов пользователю. Международные поисковые системы, имеющие собственные базы и алгоритмы поиска.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 10.03.2019 |
Размер файла | 184,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
ФГБОУ ВО "Дагестанский государственный университет"
РАЗВИТИЕ ПОИСКОВЫХ СИСТЕМ
Абакаров Р.Р., Омарова Э.Ш.
Махачкала, Россия
Поисковые системы уже давно стали неотъемлемой частью российского Интернета. В силу того, что они, хотя и различными средствами, самостоятельно обеспечивают все этапы обработки информации от ее получения с узлов-первоисточников до предоставления пользователю возможности поиска, их часто называют автономными поисковыми системами [3].
Большинство пользователей поисковых систем никогда не задумывались (либо задумывались, но не нашли ответа) о принципе работы поисковых систем, о схеме обработки запросов пользователей, о том, из чего эти системы состоят и как функционируют… Поисковые системы можно сравнить со справочной службой, агенты которой обходят предприятия, собирая информацию в базу данных. При обращении в службу информация выдается из этой базы. Данные в базе устаревают, поэтому агенты их периодически обновляют. Некоторые предприятия сами присылают данные о себе, и к ним агентам приезжать не приходится. Иными словами, справочная служба имеет две функции: создание и постоянное обновление данных в базе и поиск информации в базе по запросу клиента [4].
Первые поисковые системы появились в сети Интернет более десяти лет назад. Тогда они выполняли лишь одну функцию - поиска ссылок к недавно созданным страницам [3].
В настоящее время существует 3 основные международные поисковые систем - Google, Yahoo и MSN Search, имеющих собственные базы и алгоритмы поиска. Большинство остальных поисковых систем (коих можно насчитать очень много) использует в том или ином виде результаты 3 перечисленных. Например, поиск AOL (search. aol.com) и Mail.ru используют базу Google, а AltaVista, Lycos и AllTheWeb - базу Yahoo [2].
По данным сайта-www.smartinsights.com, согласно чистой рыночной доле (по состоянию на апрель 2017 года) доля глобального маркетинга с точки зрения использования Google составляет более 77% (см.рис 1).
Рис 1. График популярности поисковых систем в мире на 2017 год
Как видно из рисунка 1 второе место занимает поисковая система Baidu (8,13%), третье место удерживает система Yahoo! (7,31%), а четвертое место за поисковой системой Ask (5,6%). Это еще раз подтверждает тот факт, что Google является лидером на рынке, но также подчеркивается, что другие, такие как Yahoo, Bing, Baidu и т. д. не стоит игнорировать. Интересно отметить, что значительная доля рынка Google по-прежнему растет [6].
В России основной поисковой системой долгое время являлся Яндекс, за ним шли Google.ru, Mail.ru, Rambler и др.
В 2010 году поисковая система Яндекс находилась с большим отрывом на первом месте в списке самых востребованных поисковых систем. Это видно на графике ниже (см. рис.2).
Рис 2. График популярности поисковых систем на январь и декабрь 2010 года.
Как видно из рис 2, доля Яндекса к началу года составляла внушительные 47,60% от общего числа, но к концу года эта доля увеличилась еще сильнее и уже составляла 56,70%. Другая, не менее известная поисковая система от компании "Google", имела долю 39,74% к началу года, которая уменьшилась к концу года и составляла уже 32,82%. Третье место занимала поисковая система Mail.ru. Ее доля составляла 8,61% к началу года и 7,02% к концу.
К началу 2013 года позиции Яндекса оставались все такими же внушительными. Но к концу года поисковая Google сделала большой скачок и подтянулась к своему главному конкуренту в России.
За год, поисковая система Google, смогла увеличить свою популярность почти на 13% и составляла уже не менее внушительные 46,71%, совсем немного уступив своему главному конкуренту Яндексу, доля которой с 53,28% в начале года упала до 47,75% к концу года. Доля поисковой системы Mail.ru уменьшилась в 2 раза с 8,35% до 4,16%. Всего лишь 1,38% популярности имели остальные поисковые системы, такие как Rambler и т.д. (см. рис.3).
Рис 3. График популярности поисковых систем на январь и декабрь 2013 года
В начале 2017 году первую строчку в рейтинге популярности поисковых систем с небольшим отрывом продолжал удерживать Яндекс, который имел долю 47,75% против 46,71% у Google, но к концу года вперед вырвалась поисковая система компании Google, которая смогла увеличить свою долю на 2,26% и с показателем 48,97% заняла первую строчку в рейтинге. Показатели Яндекса уменьшились до 46,34%. Немного выросла и доля поисковой системы Mail.ru, которая к концу года составила неплохие 4,16% (см. рис.4)
Рис 4. График популярности поисковых систем на январь и декабрь 2017 года
Таким образом, можно сделать вывод, что на состояние к декабрю 2017 самой популярной поисковой системой в России является система компании Google. поисковый интернет пользователь алгоритм
Поисковые системы сейчас - это огромные и сложные механизмы, представляющие собой не только инструмент поиска информации, но и заманчивые сферы для бизнеса. Эти системы могут различаться по принципу отбора информации, который в той или иной степени присутствует и в алгоритме сканирующей программы автоматического индекса, и в регламенте поведения сотрудников каталога, отвечающих за регистрацию.
Как правило, сравниваются два основных показателя [5]:
- пространственный масштаб, в котором работает ИПС,
- и ее специализация.
Поисковая система - это сумма следующих компонентов:
Webserver (веб-сервер) - сервер поисковой машины, который осуществляет взаимодействие между пользователем и остальными компонентами системы.
Spider (паук) - программа, написанная по принципу браузера, предназначена для скачивания веб-страниц. Браузер предназначен для визуального использования страниц, а паук работает с HTML кодом напрямую. Чтобы посмотреть "сырой" исходник нажмите в меню браузера: Вид- Просмотр HTML кода.
Crawler ("путешествующий" паук) - программа, которая автоматически уходит по всем внешним ссылкам страницы. Ее задача - поиск не известных (или измененных) документов и в расстановке приоритетов, куда дальше должен идти Spider.
Indexer (индексатор) - программа-анализатор скаченных пауками вебстраниц. Она "разбирает" на части скачанную страницу и анализирует ее элементы, такие как текст, служебные html-теги, заголовки, особенности стилистики и структурные формы.
Database (база данных) - хранилище для скачанных и обработанных страниц - общая база данных поисковой машины.
Searchengineresultsengine (система выдачи результатов) - извлекает результаты поиска из базы данных поисковой системы. Именно она решает, какие страницы более соответствуют запросу пользователя и отсортировывает их в нужном порядке. Модуль работает согласно заданным поисковой системой алгоритмам ранжирования [1], [4].
Работа поискового указателя происходит в три этапа, из которых два первых являются подготовительными и незаметны для пользователя. Сначала поисковый указатель собирает информацию из WorldWideWeb. Для этого используют специальные программы, аналогичные браузеры. Они способны скопировать заданную Web-страницу на сервер поискового указателя, просмотреть ее, найти все гиперссылки, которые на ней имеют те ресурсы, которые найдены там, снова разыскать имеющиеся в них гиперссылки и т. д. Подобные программы называют червяками, пауками, гусеницами, краулерами, спайдерами и другими подобными именами. Каждый поисковый указатель эксплуатирует для этой цели свою уникальную программу, которую нередко сам и разрабатывает. Многие современные поисковые системы родились из экспериментальных проектов, связанных с разработкой и внедрением автоматических программ, занимающихся мониторингом Сети. Теоретически, при удачном входе, спайдер способен прочесать все Web-пространство за одно погружение, но на это надо очень много времени, а ему еще необходимо периодически возвращаться к ранее посещенным ресурсам, чтобы контролировать происходящие там изменения и выявлять "мертвые" ссылки, т. е. потерявшие актуальность [4].
После копирования разысканных Web-ресурсов, на сервер поисковой системы начинается второй этап работы - индексация. Индексирование страниц производится специальной программой называемой роботом. У каждой поисковой машины таких роботов очень много. Все это служит целью параллельного скачивания документов из различных мест сети. Скачивать документы по очереди не имеет смысла, так малоэффективно. Представьте себе постоянно растущее дерево. На стволах которого вновь и вновь появляются лепесточки (страницы сайтов). Конечно же, вновь появляющиеся сайты будет проиндексированы значительно быстрее, если роботов пустить по каждому ответвлению дерева, а не делать это последовательно [4].
Несмотря на то, что поисковые системы сильно изменились, большинство до сих пор отбирают результаты поиска на основании примерно следующих критериев:
1. Title (заголовок): Присутствует ли ключевое слово в заголовке?
2. Domain/URL (Домен/адрес): Присутствует ли ключевое слово в имени домена или в адресе страницы?
3. Style (стиль): Жирный (STRONG или B), Курсив (EM или I), Заголовки HEAD: если место на странице, где ключевое слово использовано в жирных, курсивных или Hx (H1, H2) текстовых заголовках?
4. Density (плотность): Как часто ключевое слово употреблено на странице? Количество ключевых слов относительно текста страницы называется плотностью ключевого слова.
5. MetaInformation (мета данные): Хотя многие отрицают, некоторые поисковые системы до сих пор читают мета ключевые слова (metakeywords) и мета описания (metadescription).
6. OutboundLinks (ссылки наружу): На кого есть ссылки на странице и встречается ли ключевое слово в тесте ссылки?
7. InboundLinks (внешние ссылки): Кто еще в Интернет имеет ссылку на данный сайт? Каков текст ссылки? Это называется "внестраничный" критерий, потому что автор страницы не всегда может им управлять.
8. InsiteLinks (ссылки внутри страницы): На какие еще страницы данного сайта содержит ссылки эта страница [3],[4]?
Как видите, поисковой машине необходимо делать множество уточняющих запросов, используя скаченную страницу целиком.
Рост информации бесконечен, а потому нет предела совершенствованию поисковых машин. Важнейшей задачей разработчиков является улучшение качества поиска, движение в сторону большей эффективности и удобства в использовании системы. С этой целью постоянно меняются поисковые алгоритмы, создаются дополнительные сервисы, дорабатывается дизайн [1].
Однако для того, чтобы выжить в мире динамичного Интернета, при разработке необходимо закладывать большой запас устойчивости, постоянно заглядывать в завтрашний день и примерять будущую нагрузку на сегодняшний поиск. Такой подход позволяет заниматься не только постоянной борьбой и приспособлением поисковой машины к растущим объемам информации, но и реализовывать что-то новое, действительно важное и нужное для повышения эффективности поиска в сети Интернет.
Список использованных источников
1. Абросимов А.Г., Абрамов Н.В., Мотовилов Н.В., Корпоративные экономические информационные системы, уч. пос. СГЭА, 2005.
2. Колмановская Е., CompTekInternational, Яndex: система русского поиска Internet/Intranet.
3. Петров, В.Н. Информационные системы [Текст]//В.Н. Петров - СПб. : Питер - 2003.
4. Ландэ Д.В. - Как работают поисковые машины? - [Электронный ресурс] - Режим доступа. - URL: http://search.tstu.ru/main/technology/?te=4
5. Семакин, И.Г., Хеннер, Е.К. Информационные системы и модели //И.Г. Семакин, Е.К. Хеннер - Москва: БИНОМ - 2005.
6. Юдин Антон - Рейтинг поисковых систем в 2017 - [Электронный ресурс] - Режим доступа. - URL - https://marketer.ua/rejting-poiskovyhsistem-v-2017-statistika-stran-sng-i-mira/
Размещено на Allbest.ru
Подобные документы
История развития поисковых систем, особенности механизма поиска. Сравнительный обзор справочно-поисковых систем Интернета. Понятие поисковых роботов. Наиболее популярные поисковики для русскоязычного пользователя. Перспективы развития поисковых систем.
реферат [64,0 K], добавлен 20.12.2012Структура справочно-поисковых систем сети Интернет, работа механизмов поиска. Сравнительный обзор справочно-поисковых систем (Gopher, WAIS, WWW, AltaVista, Yahoo, OpenText, Infoseek). Поисковые роботы, наиболее популярные справочно-поисковые системы.
реферат [28,4 K], добавлен 14.01.2010Понятие информационно-поисковых систем. История возникновения сети Internet. Основные алгоритмы работы современных словарных информационно-поисковых систем. Быстрый поиск в базе данных и быстрое реагирование системы. Ранжирование результатов поиска.
курсовая работа [101,1 K], добавлен 01.06.2012Рассмотрение поисковых систем интернета как программно-аппаратного комплекса с веб-интерфейсом, предоставляющего возможность поиска информации. Виды поисковых систем: Archie, Wandex, Aliweb, WebCrawler, AltaVista, Yahoo!, Google, Яндекс, Bing и Rambler.
реферат [24,3 K], добавлен 10.05.2013Понятие, структура и классификация информационных систем. Информационно поисковые системы. Исторические предпосылки развития поисковых систем. Понятие поисковых систем. Особенности поисковых систем: структура сети, структура работы поисковых систем.
курсовая работа [81,9 K], добавлен 28.03.2005Определение программного и математического обеспечения ИС. Виды запросов к базам данных в СУБД. Поисковые системы Интернет. Описание принципа работы поисковых систем Яндекс, Рамблер, Апорт. Особенности пересылки файлов средствами электронной почты.
контрольная работа [271,7 K], добавлен 22.11.2009Изучение классификации поисковых средств по В.В. Дудихину. Поиск информации с помощью поисковых ресурсов. Формирование запросов. Использование ключевых слов. Индексация документов, размещенных на различных серверах. Зарубежные лидеры поисковых систем.
презентация [775,3 K], добавлен 10.03.2015Характеристика методов поиска информации в Интернете, а именно - с использованием гипертекстовых ссылок, поисковых машин и специальных средств. Анализ новых интернет ресурсов. История возникновения и описание западных и русскоязычных поисковых систем.
реферат [17,2 K], добавлен 12.05.2010Хранение данных в сети Internet. Гипертекстовые документы, виды файлов. Графические файлы, их виды и особенности. Поисковые системы и правила поиска информации. Обзор поисковых систем сети Internet. Все о поисковых системах Yandex, Google, Rambler.
курсовая работа [918,3 K], добавлен 26.03.2011Организация хранения данных. Система управления базами данных. Поиск информации, обзор существующих поисковых систем. Особенности работы поискового движка. Использование индексов в поисковых системах. Особенности поиска различных видов информации.
курсовая работа [4,6 M], добавлен 14.05.2014