Поисковые системы Интернета
Поиск информации в Интернете, принципы и подходы к данному процессу, инструментальное обеспечение и алгоритм. История создания Google: Сергей Брин, Лоренс Пейдж, гараж GoogleInc, GoogleVSMicrosoft. История создания поискового сервиса Яндекс и Rambler.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | реферат |
Язык | русский |
Дата добавления | 12.04.2011 |
Размер файла | 28,7 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
21
Размещено на http://www.allbest.ru/
Реферат на тему:
«Поисковые системы Интернета»
Введение
Пополнение информационных ресурсов Интернета происходит высокими темпами, и найти необходимую информацию становиться всё труднее. Различные печатные справочники устаревают ещё до выхода в свет. Единственным надёжным способом поиска информации является использование различных поисковых систем, которые постоянно отслеживают изменение информации в сети.
Поисковая система - это сайт, на котором вы можете найти любую интересующую вас информацию. До появления поисковых систем в принципе количество сайтов в интернете было ограниченно. Но после появления огромного количества сайтов и информации на них, возникла необходимость создания программы, которая поможет найти человеку то, что он ищет их всего скопа возможной информации.
За время существования Интернета предпринимались различные попытки организации поисковых средств. Многие из этих попыток оказались неудачными, другие же привели к созданию удобных средств поиска информации. Наиболее удачные проекты появились в последние пять лет. Мы рассмотрим поиск информации во Всемирной паутине с помощью нескольких наиболее распространённых систем поиска. Всего же в мире существуют сотни различных поисковых систем, и выбор той или иной системы зависит только от ваших личных пристрастий. Отметим, что поисковые системы часто называют поисковыми машинами или машинами поиска.
Многие поисковые системы позволяют искать информацию не только в Web-страницах, но и в группах новостей и хранилищах файлов. Таким образом, в результате поиска вы можете найти сообщение в группе новостей или какой-то файл. Поэтому чаще применяют вместо термина страница более общий термин - документ. Под документом подразумеваются Web-страница, сообщение или файл, содержащие различную информацию.
Процесс поиска довольно прост: задавая ключевые слова, характерные для искомой информации, мы найдём нужный нам документ. Вне зависимости от того, какой поисковой системой вы пользуетесь, примерный алгоритм поиска информации следующий.
Ш Вы переходите на начальную страницу поисковой системы или на любую страницу, на которой находятся поля для ввода запроса и кнопка для начала поиска. В последнем случае после нажатия кнопки вы автоматически перейдёте на страницу поисковой системы. Принципиальных отличий между собственно поисковой системой и страницей с полями для ввода запроса, который передаётся поисковой системе, нет. Главное - перейти на страницу, на которой вы можете ввести ваш запрос.
Ш Если система позволяет последовательные уточнения области поиска, то вы переходите в разделы, которые определяют границы поиска информации (например, поиск только в области науки или поиск среди европейских узлов Интернета). В таких системах запрос в главном разделе осуществляет поиск среди всех узлов Интернета. Если же вы, например, перейдёте в раздел «Новости», то поиск по запросу будет выполняться только среди узлов, посвящённых новостям. В том случае, если вы перейдёте в раздел погода, то вы будете искать только среди новостей о погоде. Таким образом, вы сначала определяете границы, в которых следует вести поиск, и только после этого отправляется запрос на поиск информации. Если выбранная вами система поиска не позволяет уточнить запрос, то это действие пропускается.
Ш Вводится запрос на поиск в соответствии с правилами, принятыми в выбранной системе поиска. В простейшем случае это одно или несколько слов, например «Анекдоты», но возможны и сложные запросы с логическими операциями «И», «ИЛИ», «НЕТ».
Ш Если система поиска позволяет, то уточняются некоторые параметры запроса с помощью дополнительных полей, списков, флажков и переключателей, которые могут находиться на странице рядом с полем запроса. В большинстве случаев уточнение параметров не требуется. Уточнение параметров и составление сложных запросов чем-то похоже на программирование и пользуется большей популярностью у программистов, чем у широкого круга людей, не знакомых с программированием.
Ш Нажимается кнопка для начала поиска, и после некоторой паузы вы автоматически попадаете на страницу со списком документов, удовлетворяющих вашему запросу. Длительность паузы зависит от сложности запроса, скорости работы поисковой системы и качества вашей связи с данной системой.
Ш Если ссылок много и они не помещаются на одной странице, то после прочтения первой страницы с результатами поиска вы можете перейти к следующей, и так далее. Таким образом вы просматриваете все найденные ссылки на документы.
Ш После нахождения нужной ссылки вы щёлкаете на ней мышью и переходите на страницу, которую вы разыскивали. Если вы захотите посмотреть другие найденные страницы, то можно вернуться назад, к странице со ссылками на найденные документы, и перейти по другой ссылке.
Во многих поисковых системах поле запроса остаётся на странице во время просмотра результатов, и вы можете быстро уточнить запрос и организовать новый поиск. В большинстве систем список включает в себя кроме ссылок несколько строк каждого из найденных документов, чтобы было легче выбрать нужный.
В некоторых системах списки ссылок отсортированы таким образом, что в начале списка вы получите ссылки на документы, наиболее удовлетворяющие вашему запросу. Например, если в документе много раз встречаются слова запроса и несколько слов, включённых в запрос, расположены в документе рядом, то такой документ более полно удовлетворяет запросу. Так как большинство систем осуществляет интеллектуальный поиск в Интернете, то степень соответствия запросу, определённая поисковой системой, не всегда будет совпадать с вашими представлениями.
Следует отметить, что при выполнении запроса поисковая система не ищет документ непосредственно в Интернете. Она обращается к своей базе данных, где в компактном виде собраны данные об информации в Интернете. Возможно, что реальное состояние Интернета несколько отличается оттого, что храниться в базе данных. Поисковые системы постоянно пополняют и обновляют свои базы данных, чтобы минимизировать такое несовпадение. Существует два способа пополнения информации в базы данных поисковых машин:
ь Разработчик Web-страницы самостоятельно добавляет ссылку на неё в поисковую систему. Большинство систем позволяют это сделать совершенно бесплатно.
ь Специальная программа, называемая роботом, находит ссылку на новую страницу во Всемирной паутине. Роботы запускаются поисковой системой, что бы проверить, существуют ли ранее найденные документы и не появились ли новые.
История создания GOOGLE
Сергей Брин
Сергей Брин родился в Москве в 1973 году в семье математиков - его отец был школьным учителем, а дед преподавал математику в 50-х годах в МЭИ. В 1979 семья переехала из СССР в штаты по американской программе эмиграции для лиц с еврейскими корнями. Там отец Сергея, Михаил Брин, стал преподавать в университете штата Мэриленд, а мать работать в NASA ученым специалистом. С самого детства он и его младший брат Сэм проявляли интерес к компьютерной технике.
Окончив школу, Сергей, конечно же, поступает на факультет математики университета Мэриленда, который он оканчивает досрочно, заработав себе престижную стипендию NSGF. Стипендия позволила ему продолжить обучение в Стэндфордском университете, пего принимают в докторантуру, университеты США иногда позволяют одаренным студентам перескочить через степень магистра и идти от бакалавра сразу к докторской степени.
Лоренс Пейдж
Лоренс Пейдж родился в семье знаменитого компьютерщика, одного из пионеров компьютеростроения, Карла Пейджа. Как и Сергея, Ларри с детства окружали компьютеры. Они были его главным увлечением, но особенно его интересовало «железо». После школы парень поступил в университет штата Мичиган, где его отец преподавал курс теории вычислительных систем. Существует интересная история о том, как Ларри однажды собрал модели черно-белого струйного принтера и плоттера из набора деталей конструктора Lego. Во время учебы он участвовал во многих университетских научных обществах, часто - в качестве руководителя. Окончив с отличием университет, Пейдж решил продолжить свое обучение в элитном Стэнфорде.
В марте 1995 года Ларри, вместе с группой выпускников Мичиганского университета приехал в Стэнфорд. На тот момент ему было уже 24 года. Ознакомить группу с университетом поручили Сергею Брину, который проучился там уже два года. Участники экскурсии впоследствии рассказывали, что Ларри и Сергей весьма не понравились друг другу - они начинали спорить по любому пустяку, каждый стремился доказать правильность своей точки зрения. Вероятно, на этой почве они и сошлись, став вскоре близкими друзьями.
Университетский Google
Раньше не разделявшие идеи друг друга, Сергей и Лари впоследствии сходятся во мнении, что существующие поисковые системы крайне неэффективны, и что необходимо выработать новый подход к поиску информации в интернете. В конце 1995-го они начинают вместе работать над совместным проектом под управлением доцента кафедры информатики и вычислительной техники РадживаМотвани. Их проект в общих чертах был готов уже к началу 1996 года и представлял собой совершенно новый алгоритм поиска информации, технологию получившую название PageRank. Основная идея технологии проста для понимания и состоит в следующем. Созданный парнями весной 1996 года поисковый сервер BackRub анализировал так называемые обратные ссылки (backlinks), то есть количество ссылок в интернете, ведущих на данный сайт. Далее выстраивал иерархию сайтов, основываясь на полученных данных. Таким образом, реализуется основная идея, предложенная Пэйджем и Брином для эффективного поиска информации: чем чаще имя сайта цитируется в Сети, тем более актуальную и нужную информацию для пользователя он содержит. В ответ на определенный запрос поисковик выводил ссылки, предварительно отсортированные по значимости. Сортировка эта осуществлялась не только путем анализа количества ссылок на данный сайт, но и анализа их качества - ссылка с сайта, занимающего высокое место в иерархии, имела больший удельный вес, чем ссылка с менее значимого, пропорционально их положению в общем рейтинге. Идея была описана в нескольких научных статьях, опубликованных Брином в американских академических журналах.
Осенью 1996 года в комнате университетского общежития Ларри собирает мощный сервер, предназначенный для индексации интернет-сайтов. Хотя университет частично профинансировал работу ребят, им пришлось влезть в долги на 15 тысяч долларов - потребовалось купить жестких дисков общим объемом в 1 терабайт. Сергей, в свою очередь, занялся продвижением проекта, превратив свою комнату в офис. Ребята предоставили всем учащимся Стэнфорда возможность использовать BackRub для внутривузового поиска информации, а сами продолжили развивать свое детище.
Запатентовав свою технологию поиска, Брин и Пейдж решили продать ее какой-нибудь крупной интернет-компании, но из этой затеи ничего не получалось. Компании в то время весьма недальновидно рассматривали перспективы поисковых сервисов, считая их чем-то второстепенным. Глава крупной в то время компании Excite, Джордж Белл, объяснял ребятам, что на поиске денег не заработаешь, что лучше открыть бесплатный почтовый сайт и делать деньги на баннерных показах (через несколько лет Excite обанкротилась). Несмотря на вынесенный профессионалами интернет-бизнеса приговор о бесперспективности проекта, Сергей и Ларри продолжили его поддерживать, не оставляя попыток его продажи. Примерно в это время их поисковик обрел свое имя - Google. Парни немного изменили написание слова googol, сделав его более благозвучным. Название как нельзя лучше отражает предназначение сервиса - структурировать огромное количество информации, стремящееся своими объемами к числу гугол. Весь 1997 год поисковик использовали студенты Стэнфорда, пребывавшие от него в восторге. А в 1998 году бета-версияGoogle была запущена на сервере Стэндфордского университета. Найти его можно было по адресу http://google.stanford.edu. В том же году Сергей Брин и Ларри Пейдж получают возможность преподавать в университете. По вторникам и четвергам они ведут лекции по курсу «Анализ данных, поиск и Всемирная паутина».
Летом 1998 года Сергей встретился с Дэвидом Фило, создателем Yahoo! (кстати, тоже бывшим студентом Стэнфорда). На предложение Сергея о продаже Google, Дэвид дал отказ и посоветовал тому заниматься не поисками покупателя данной технологии, а организовать собственную компанию, специализирующуюся на поиске информации в интернете. В этом году у Пейджа и Брина начались проблемы с руководством университета. Им причислялось компьютерное хулиганство - робот Гугла не обращал внимания на файлы robots.txt, качая, таким образом, внутреннюю университетскую информацию. Кроме того, Google съедал 50% всего университетского трафика - им пользовалось уже около 10 тысяч человек в день. Сергею и Ларри дали понять, что дальнейшее присутствие их поисковой системы на сервере университета нежелательно.
Гараж GoogleInc.
В начале сентября 1998 года Сергей Брин встретился с Энди Бехтольшеймом, основателем компаний SunMicrosystems и GraniteSystems. Сергей рассказал в общих чертах о возможностях новой технологии, показал Google в действии и уже хотел было подробно объяснить принципы работы поисковика, но Энди не стал даже вникать в детали. Он просто спросил: «На чье имя выписывать чек?».
Чек на сумму 100 тысяч долларов был выписан на еще не существующую компанию GoogleInc. Парни решили покинуть Стэнфорд (Брину оставалось всего полгода до защиты докторской диссертации), прихватив с собой КрейгаСильверштейна. За несколько дней они подготовили все необходимые для регистрации компании документы, собрали еще немного денег и нашли офисное помещение для своей фирмы. 7 сентября компания GoogleInc. была официально зарегистрирована и начала работу на следующий день, когда все три ее работника прибыли в гараж, расположенный в Менло-Парке штата Калифорния.
Теперь сайт поисковика обрел доменное имя google.com. В прессе все чаще стали появляться фразы: «умный поисковик» и такие крупные издания, как USA Today и LeMonde. Особенно отметили Google за удобство поиска информации. В декабре 1998 года авторитетнейший журнал PC Magazine составил список ста лучших сайтов Интернета. В этом списке оказался и google.com. С этого началася бурный рост GoogleInc.
В феврале следующего года у компании было уж восемь сотрудников, а число запросов на сервере переваливало за 500 тысяч в день. Гараж в Менло-Парке стал слишком мал для нормальной работы, и офис компании переместился на Юниверсити авеню города Пало-Альто. В июне GoogleInc. получает инвестиций в размере 25 миллионов долларов от двух крупнейших в Силиконовой долине венчурных компаний - SequoiaCapital и KleinerPerkinsCaufield&Byers. Представители этих компаний, Майк Мориц и Джон Дерр (ранее работавший с SunMicrosystems, Amazon и Yahoo!), становятся членами совета директоров Google.
К концу 1999 года офисных помещений стало вновь не хватать, и было принято решение о постройке собственного здания.
Googleplex
После переезда в так называемый Googleplex - новый офис, расположенный в Маунтин Вью, компания получила свой первый действительно крупный контракт, заключенный с AmericaOn-Line. Став официальным поисковым сервером портала AOL, Google получил до 3 миллионов запросов в день. Во второй половине сентября поисковая система перестала быть бета-версией. В этом же году Google вышла за пределы штатов, начав предоставлять свои услуги посетителям британского портала VirginNet и итальянского Virgilio. Google продолжал стремительно покорять мир. Такие крупнейшие азиатские порталы, как японский BIGLOBE, китайский NetEase и южно-корейский LycosKorea, стали пользоваться услугами Google. Крупнейший латиноамериканский портал UniversoOnline также стал их клиентом. Был подписан контракт с Yahoo! - самым популярным сайтом в интернете. Компания стала победителем конкурса журнала Wired, получив «Голос читателей Wired». GoogleInc. открыл свои отделения Токио и Гамбурге для привлечения рекламодателей. К концу года поисковик обрабатывал 20 миллионов запросов в день, а в 2001 году уже 100 миллионов. Наконец, компания начала приносить прибыль.
Сейчас в Googleplex созданы все необходимые условия для плодотворной работы. Сотрудники могут в любое время воспользоваться автоматами с бесплатным кофе, чаем, прохладительными напитками. В офис можно приходить с детьми, домашними животными. А в столовой готовит один из лучших поваров Калифорнии. В коридорах офиса над некоторыми дверьми висят огромные шары красного, желтого, синего и зеленого цветов, присутствующих в логотипе компании. Теми же цветами нарисованы карандашные рисунки, развешенные по стенам. На них изображен жизненный путь компании, ее главные успехи. На входе в Googleplex стоит монитор, отражающий в режиме реального времени запросы, обрабатываемые в данный момент поисковиком. На некоторых стенах можно встретить мишени для игры в дартс. Двадцать процентов рабочего времени сотрудники могут использовать для развития своего потенциала: разработки собственных проектов, проведению исследований, написанию статей или просто для самообразования.
Про GoogleInc. говорят, что быть частью компании - не работа, а привилегия. Помимо высокой заработной платы, сотрудники получают также акции компании, и многие из служащих компании стали миллионерами после выпуска акций на рынок. Требования к соискателям очень высоки - так среди первых нанятых 150 человек было 20 докторов технических наук. Сами Брин и Пейдж занимают должности президентов компании. Сергей - президент по технологии, Лоренс - президент по продукции. На должность председателя совета директоров и главного исполнительного директора они наняли более опытного в бизнесе человека - Эрика Шмидта, работавшего до Google в Novell. Сергей большую часть рабочего времени занимается организационными вопросами, принимает решения, связанные с дальнейшей политикой компании. Он также активно участвовал в проекте русификации Google - несмотря на то, что он покинул Россию в пятилетнем возрасте, он прекрасно говорит по-русски и часто дает отечественным журналистам интервью на русском языке.
К 2003 году Google стал самой популярной поисковой системой в мире: 200 миллионов запросов в день на 88 языках! В некоторых странах это составляло больше 80% от всего объема поисковых услуг в Интернете. В новых энциклопедических словарях можно встретить глагол togoogle, означающий поиск информации в Сети.
Капитализация
В начале 2003 года известная британская компания Interbrand объявила Google брендом года. Поисковику удалось обойти в этом звании Apple и Coca-Cola. Получая огромные прибыли, Google в 2004 году все еще оставалась частной компанией, акции которой принадлежали узкому кругу компаний-инвесторов, ее основателям и работникам. Для дальнейшего развития стало необходимо выводить GoogleInc. на биржу. Произошло это в августе месяце, когда акции компании появились на бирже NASDAQ, вызвав большой ажиотаж и сделав Сергея и Ларри миллиардерами. Чуть позже журнал Forbes назовет авторов Googleсамыми молодыми миллиардерами планеты. Чтобы исключить влияние корпораций, владеющих большим пакетом акций, на аукционе были распроданы только акции, не дающие их держателю права голоса в компании. Право управлять компанией, основатели оставили за собой.
В 2004 году Сергею Брину и Лоренсу Пейджу вручили престижную премию Маркони. До этого ею были удостоены Тим Бернерс-Ли, придумавший WWW, Роберт Меткалф, изобретатель технологии Ethernet. Как видишь, разработки Сергея и Ларри в области информационных технологий были высоко оценены, даже признаны революционными. Сайт TheTimesofIndia проанализировал в 2001 году преимущества Google перед другими поисковыми системами. Выяснилось, что сильные стороны Гугла - это минимальное человеческое вмешательство в механизм поиска и постоянное совершенствование используемой технологии. Важной составляющей успеха компании стало также правильное позиционирование на сложившемся рынке интернет-услуг на протяжении всего своего существования. Изначально GoogleInc. не рассматривал крупные порталы в качестве своих конкурентов, а видел в них потенциальных клиентов. Лицензирование собственной поисковой системы другим фирмам превратилось в крупный источник доходов. А позже компания начала наращивать количество дополнительно предоставляемых сервисов. Хотя лицензирование технологий другим фирмам и принесло ощутимую прибыль, основным источником доходов все же является реклама. Здесь Google вновь проявил себя инноватором. Во-первых, полное отсутствие баннеров, надоедливых всплывающих окон и т.п., вместо всего этого - обычные ссылки на сайты рекламодателей. Во-вторых, только тематическая реклама, соответствующая введенному пользователем запросу. В-третьих, рекламные ссылки выделяются среди остальных, что весьма честно по отношению к пользователям. Преимущества такой рекламной модели по достоинству были оценены как юзерами, так и рекламодателями. Сотни тысяч рекламодателей заключили контракты с Google.
Google VS Microsoft
Сегодня Google.com занимает четвертое место в списке самых посещаемых сайтов интернета, уступая Yahoo!, MSN и AOL. Между этими компаниями началась настоящая война за сетевые юзеры. Вряд ли поисковые системы от Yahoo! или AOL смогут конкурировать с Google, а вот портал от Гугла может оказаться вполне конкурентоспособным. Впрочем, время покажет. Реальная угроза для Google исходит сейчас от Microsoft, ведущей работы по развитию своей системы MSN, которая, конечно же, станет активно использоваться следующими версиями их операционных систем. Стив Балмер на недавней встрече со студентами Стэнфорда поделился мыслями о будущем Google, отведя тому, максимум, пять лет жизни, а Билл Гейтс на конференции D3, прошедшей в Карлсбаде, назвал Гугл «пузырем, пока еще находящемся на плаву». Тем не менее Google стал самым дорогим брендом за 2008 год, а перспективы у него не оспоримые.
История создания Яндекс
История компании «Яндекс» началась в 1990 году с разработки поискового программного обеспечения в компании «Аркадия». За два года работ были созданы две информационно-поисковые системы - Международная Классификация Изобретений, 4 и 5 редакция, а также Классификатор Товаров и Услуг. Обе системы работали под DOS и позволяли проводить поиск, выбирая слова из заданного словаря, с использованием стандартных логических операторов.
В 1993 году «Аркадия» стала подразделением компании CompTek. В 1993-1994 годы программные технологии были существенно усовершенствованы благодаря сотрудничеству с лабораторией Ю.Д. Апресяна (Институт Проблем Передачи Информации РАН). В частности, словарь, обеспечивающий поиск с учетом морфологии русского языка, занимал всего 300 КБ, то есть целиком грузился в оперативную память и работал очень быстро. С этого момента пользователь мог задавать в запросе любые формы слов.
На основе новой технологии в 1994 году был создан «Библейский компьютерный справочник» (информационно-поисковая система, обеспечивающая работу с Синодальным переводом Ветхого и Нового Заветов). В 1995 году стартовал проект «Академическое издание классиков на CD-ROM», разрабатываемый совместно с НТЦ «Информрегистр» и ИМЛИ им. М. Горького РАН при поддержке Роскоминформа. Для этого проекта была создана универсальная технология «Аргонавт», которая включала как средства разметки и отображения текстов, так и средства навигации, а так же различные поиски - и текстовые, и атрибутные. На основе этой технологии вышло 3 издания - справочник стандартов «Информ - Норматив», электронное научное издание «А.С. Грибоедов» и «Пушкин. Электронный фонд русской классической литературы». Также был создан словарь языка Грибоедова.
В начале 1996 года был разработан алгоритм построения гипотез. Отныне морфологический разбор перестал быть привязан к словарю - если какого-либо слова в словаре нет, то находятся наиболее похожие на него словарные слова и по ним строится модель словоизменения.
В это время Интернет в России только начинался…
Новая история (до Yandex. Ru)
Летом 1996 года руководство CompTek и разработчики поисковой системы пришли к выводу, что развитие самой технологии важнее и интереснее, чем создание прикладных продуктов на базе поиска. Исследования рынка показали своевременность и большие перспективы поисковых технологий. Тогда в Интернете и появился «Яndex».
Слово «Яndex» придумал за несколько лет до этого один из основных и старейших разработчиков поискового механизма. «Яndex» означает «Языковой index», или, если по-английски, «Yandex» - «YetAnotherindexer». За 4 года публичного существования Яndex возникли и другие толкования. Например, если в слове «Index» перевести с английского первую букву («I» - «Я»), получится «Яndex».
На выставке Netcom'96, 18 октября 1996 года, CompTek анонсировал первые продукты серии Яndex (Яndex. Site, Яndex. Dict). Яndex. Site - поиск по своему сайту - сейчас установлен на сотнях серверов Рунета. Яndex. Dict, морфологическое расширение запроса, используется до сих пор для, например, передачи запроса на AltaVista, хотя сегодня это уже не так актуально - AltaVista индексирует русский Интернет гораздо хуже, чем русские поисковые машины.
Через полгода появился Яndex.CD - поиск документов на CD ROM, а затем Яndex. Lib - полнофункциональная библиотека Яndex для встраивания в различные приложения и базы данных.
Еще через полгода стало очевидно, что ничто не отделяет CompTek от создания собственной глобальной поисковой машины. Объем Рунета составлял тогда всего несколько гигабайт. Осенью 1997 года был открыт Yandex. Ru.
Необходимость поддерживать работу Yandex. Ru в условиях больших объемов и больших нагрузок (несколько запросов в секунду) ведет к оптимизации алгоритмов, которые потом используются и в других продуктах Яndex.
История Yandex. Ru
Официально поисковая машина Yandex. Ru была анонсирована 23 сентября 1997 года на выставке Softool. Основными отличительными чертами Yandex. Ru на тот момент были проверка уникальности документов (исключение копий в разных кодировках), а также ключевые свойства поискового ядра Яndex, а именно: учет морфологии русского языка (в том числе и поиск по точной словоформе), поиск с учетом расстояния (в том числе в пределах абзаца, точное словосочетание), и тщательно разработанный алгоритм оценки релевантности (соответствия ответа запросу), учитывающий не только количество слов запроса, найденных в тексте, но и «контрастность» слова (его относительную частоту для данного документа), расстояние между словами, и положение слова в документе.
Чуть позже в разделе «Сказки» (наблюдения за содержанием русского Интернета) появилась первая сказка Рунета - «Web - гуманизм или чернуха?». А в разделе «Числа» - первая оценка объема Рунета, 5 тысяч серверов и 4 ГБ текстов.
Через два месяца, в ноябре 1997 года, был реализован естественно-языковый запрос. Отныне к Yandex. Ru можно обращаться просто «по-русски», задавать длинные запросы, например: «где купить компьютер», «генетически модифицированные продукты» или «коды международной телефонной связи» и получать точные ответы. Средняя длина запроса в Yandex. Ru сейчас - 2,7 слова. В 1997 году она составляла 1,2 слова, тогда пользователи поисковых машин были приучены к телеграфному стилю.
В 1998 году на Yandex. Ru появилась возможность «найти похожий документ», список найденных серверов, поиск в заданном диапазоне дат и сортировка результатов поиска по времени последнего изменения. За этот год «объем» Русского Интернета удвоился, что привело к необходимости оптимизации поисковых механизмов. И тогда, и сейчас (при объеме в 200 ГБ) скорость поиска на Yandex. Ru - доли секунды.
За 1999 год Рунет вырос на порядок, как в объемах текстов, так и в количестве пользователей. Это был год бурного развития и для Yandex. Ru. Новый поисковый робот позволил оптимизировать и ускорить обход сайтов Рунета. Сегодня поисковая база Yandex. Ru вдвое больше, чем у ближайших конкурентов.
Новый робот позволил предоставить пользователям новые возможности - поиск по разным зонам текста (заголовкам, ссылкам, аннотациям, адресам, подписям к картинкам), ограничение поиска на группу сайтов, поиск по ссылкам и изображениям, а также выделять документы на русском языке. Появился поиск в категориях каталога и впервые в Рунете было введено понятие «индекс цитирования» - количество ресурсов, ссылающихся на данный.
интернет поиск сервис алгоритм
История создания Rambler
Rambler - фактически первая полноценная поисковая система русскоязычного Интернет. 8 октября 1996 г. является днем его создания. Разработчиками системы стала группа «Стек» (Дмитрий Крюков, Сергей Лысаков, Виктор Воронков, Владимир Самойлов, Юрий Ершов) из подмосковного Пущино.
Раннее группа занималась формированием городской сети и подключениями к сети Интернет.
Будущие создатели Rambler работали в 90-х годах в Институте биохимии и физиологии микроорганизмов РАН, поэтому изначально сеть и весь проект были рассчитаны на чисто научные цели, то есть для удобного и быстрого обмена технической и научной информацией между сотрудниками и центрами. Не секрет, что в то далекое время сегмент русскоязычного Интернет был очень мал - всего 30-50 сайтов.
И, тем не менее, создание первой поисковой системы было отнюдь не простой задачей. Во-первых, необходимо было соответствующее оборудование (для его приобретения специалистам «Стек» пришлось даже сократить собственные зарплаты) во-вторых, нужно было написать специальную программу для поисковой машины. Когда Дмитрия Крюкова спрашивают сейчас - что значит для программиста создать подобную программу - он отвечает: «Это своего рода вызов. Возможность проверить собственные силы. При этом все не так сложно, чтобы отказать себе в удовольствии сделать это».
Фактической датой запуска полноценного поисковика с полностью отлаженным механизмом принято считать 1997 г. В этот же год появился хорошо известный сейчас рейтинг-классификатор Rambler's Top-100, быстро завоевавший признание и ставший, своего рода, эффективным датчиком изменений, происходящих в медиасфере. Завоевать высокую позицию в Rambler's Top-100 является очень престижно. Сегодня разработчики и оптимизаторы прикладывают максимум усилий, чтобы войти в эту сотню лучших, в то время как сами модераторы рейтинга-классификатора продолжают свою упорную борьбу с различного рода «накрутками» (т.е. искусственным повышением показателей), делая тем самым Интернет честнее и прозрачней.
В то время в Рунет существовало несколько подобных поисковых машин, но ни одну из них не стоит считать первой, так как они были примитивны и просто не выдерживали проверки временем. А вот Rambler успешно рос и развивался, несмотря на то, что пришлось пройти через огонь и воду. Так, Дмитрий Крюков и Сергей Лысаков рассказывают, что однажды на верхнем этаже прорвало трубу - и сервер, на котором работал Rambler буквально пришлось просушивать впоследствии. Кроме того, чуть позже случилось так, что сгорели жесткие диски системы. К чести Rambler надо отметить, что это был один единственный день, когда поисковая система не работала.
Важной особенностью Rambler всегда были грамотные и четкие поисковые алгоритмы, позволяющие осуществлять максимально релевантный поиск по запросу. Отличительной характеристикой рамблеровской поисковой машины является уникальный механизм ассоциаций. Данная система позволяет получить в результатах выдачи не только классический список ссылок, расположенных в порядке убывания релевантности, но и строку со списком запросов тематически сходных с данным конкретным запросом пользователя. Также механизм способен исправлять ошибки запросов пользователя и переводить слова, введенные из несоответствующего регистра.
Сегодня Rambler представляет собой уникальную простую и одновременно эффективную формулу поисковой системы, не ведущей при этом столь агрессивной борьбы за аудиторию, наподобие вездесущего Yandex с его непонятными и совершенно нестабильными поисковыми алгоритмами и невнимательными роботами. На данный момент Rambler обрабатывает примерно 20% поисковых запросов Рунет и позиционирует себя в большей степени как большой каталог сайтов.
Алгоритм поисковых систем
Алгоритм поисковых систем - это несколько групп команд, представляющих собой схему, по которой программа рассматривает запрос пользователя сети интернет. По сути дела запрос в виде ключевого слова является условием задачи, которую поисковик решает на основе своего алгоритма. Решением этой задачи является выдача, т.е. страница, содержащая результаты поиска. Процесс решения заключается в том, что роботы поисковой системы перебирают собранные в сети сведения. Эти сведения условно разделяются на несколько десятков групп. Работая над решением, поисковик перебирает сайты и учитывает их возраст, название, язык (русский, английский и т.д.), объём сайта, текстовой информации на сайте, количество искомых ключевых слов на нём и на каждой из его страниц, соотношение общего числа слов к количеству ключевиков, количество запросов по данным ключевикам и многое другое. К примеру, учитывается даже оформительский стиль, которым написаны ключевые слова, т.е. размер и гарнитура шрифта. Каждая поисковая система использует свой собственный алгоритм. Если ввести одно и то же ключевое слово в форму на разных поисковиках, то можно увидеть, что выдача (результат поиска) отличается. Принципы алгоритма каждой поисковой системы держатся в строжайшей тайне. Никто точно не знает, на что именно обращает свое внимание поисковая система при индексировании информации, и какую придает важность каждой переменной формулы, так любые выводы строятся на предположениях, размышлениях и догадке. Каждая поисковая система применяет собственные анти-спам методы и фильтры и у каждой свое понимание того, что именно относится к спаму. Многие поисковые системы совершенствуют свои алгоритмы для того, чтобы поддерживать новые технологии фильтрации, другие не меняют алгоритмы, применяя усовершенствованные фильтры. Для того чтобы понять, каково назначение фильтров в поисковой системе, нужно представить, как проходит фильтрация воды: поток воды проходит через специальную установку, сделанную из пористого вещества, которая задерживает нежелательные примеси. Также работает фильтр поисковой системы, он обнаруживает «нежелательные примеси» и исключает их из результатов поиска.
Итак, чтобы что-то найти, поисковая система выполняет два почти независимых процесса: индексирование (получение документов, переработка, сохранение индекса) и поиск. Индекс устроен так, чтобы поиск работал максимально быстро и качественно. Находил все, что нужно и выдавал максимум полезной информации, необходимой для процесса поиска.
Дополнительные команды поисковой машине Google (операторы) позволяют вам добиться гораздо лучших результатов. С их помощью вы можете ограничить область поиска, а также указать поисковой машине, что не нужно просматривать все страницы.
Размещено на Allbest.ru
Подобные документы
Анализ возможностей поисковых систем Яндекс и Google, их сравнение с точки зрения полезности. История создания поисковых систем, характеристика их интерфейса, поисковых инструментов и алгоритмов. Формирование вопроса и критерий к ответу на него.
реферат [30,0 K], добавлен 07.05.2011Рассмотрение поисковых систем интернета как программно-аппаратного комплекса с веб-интерфейсом, предоставляющего возможность поиска информации. Виды поисковых систем: Archie, Wandex, Aliweb, WebCrawler, AltaVista, Yahoo!, Google, Яндекс, Bing и Rambler.
реферат [24,3 K], добавлен 10.05.2013Характеристика поисковых систем Yandex, Google, Rambler: сходства и отличия, преимущества и недостатки. Поиск определения ряда терминов, программных продуктов. Поиск информации по направлениям: писатели и поэты, их произведения, доктора наук для Самары.
контрольная работа [17,4 K], добавлен 22.08.2011Яндекс как крупнейшая российская поисковая система и интернет-портал, история появления. Поиск системы: охват форматов, язык запросов. Мультимедийно-поисковые, рыночно-поисковые, справочно-информационные, рекламные и персонализированные веб-сервисы.
курсовая работа [105,3 K], добавлен 21.05.2013Понятие и принципы работы, внутренняя структура и элементы, история формирования и развития поисковой системы "Rambler". Исследование и анализ, а также оценка эффективности данной поисковой системы для поиска экономической информации в интернете.
курсовая работа [4,0 M], добавлен 10.05.2015Информационная поисковая система Яндекс; характеристика услуг и сервисов портала: каталог, новости, города, энциклопедии. Полезные ссылки главной страницы. Формирование и активизация поискового запроса: морфология, контекст, порядок слов, результат.
презентация [2,6 M], добавлен 10.03.2015Структура и принципы построения сети Интернет, поиск и сохранение информации в ней. История появления и классификация информационно-поисковых систем. Принцип работы и характеристики поисковых систем Google, Yandex, Rambler, Yahoo. Поиск по адресам URL.
курсовая работа [3,6 M], добавлен 29.03.2013Понятие, принципы и инструментальное обеспечение создания компьютерной анимации как искусства создания движущихся изображений с использованием компьютера. Поисковые системы Internet, их функции и назначение, оценка возможностей, условия использования.
контрольная работа [141,4 K], добавлен 06.03.2014Возможности интерфейса программирования приложений ARI крупных картографических веб-сервисов в процессе создания двух картографических веб-сервисов. Анализ существующих веб-сервисов. Карты Яндекса и Google, пользовательские карты. Выбор среды разработки.
дипломная работа [4,5 M], добавлен 24.09.2012Приемы поиска информации в Интернете. Поиск по известному адресу, конструирование адреса пользователем. Специальные информационно-поисковые системы: классификационные (рубрикаторы) и словарные. Поиск информационных ресурсов по различным направлениям.
реферат [27,1 K], добавлен 03.04.2010