Информационные поисковые системы в Интернет
Интернет как средство информации. Структура справочно-поисковых систем сети Интернет. Как работают механизмы поиска. Обзор и характеристика поисковых систем сети Internet: Rambler, Yandex, Yahoo, Googlе. Основные принципы определения релевантности.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | контрольная работа |
Язык | русский |
Дата добавления | 21.11.2012 |
Размер файла | 40,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Красноярский институт экономики
Санкт-Петербургской Академии управления и экономики (НОУ ВПО)
Факультет: «Экономики и управления»
Специальность: «Менеджмент организации»
Контрольная работа
По дисциплине: Информационные технологии управления
Информационные поисковые системы в Интернет
г. Красноярск, 2011 г.
Содержание
интернет поисковый система сеть информация
Введение
1. Структура справочно-поисковых систем сети интернет
1.1 Как работают механизмы поиска
2. Обзор и характеристика поисковых систем сети Internet
2.1 Rambler
2.2. Yandex
2.3 Yahoo
2.4 Googlе
Заключение
Список использованной литературы
Введение
Интернет как средство информации в России пока не может конкурировать с традиционными СМИ, но имеет в этом отношении большие перспективы и сможет в дальнейшем выступать наравне с другими информационными ресурсами.
В настоящее время свыше 500 млн. человек более или менее регулярно пользуются Интернетом, а через два года их число, по мнению экспертов, превысит 1 млрд., иными словами, более 16% населения Земли. Разумеется, такая колоссальная аудитория не могла остаться невостребованной - Интернет давно превратился в огромную информационную площадку.
Во всем мире, а теперь и у нас в стране, наличие работающего Web-сайта становится признаком стабильной, профессиональной работы фирмы. Интернет давно уже стал не только средством общения, но и полем для серьезной коммерческой деятельности. Практически каждая зарубежная фирма имеет в Сети свое представительство, виртуальный офис. Суммарный оборот компаний, ведущих торговлю в Интернет, достигает миллиардов долларов. В России также все большее число компаний использует Интернет для продвижения своих товаров и услуг. В этом легко убедиться, просмотрев рекламные издания. Рядом с привычными номерами телефонов и факсов все чаще и чаще встречаются адреса электронной почты и Web-сайтов. Скоро отсутствие адреса в Интернет будет затруднять работу так же, как отсутствие факса. Тот, кто займет себе место сейчас, существенно выиграет в будущем. Это оперативность и актуальность. Традиционные средства массовой информации при всей их наглядности и привычности уже не способны обеспечить надлежащий уровень оперативности, требуемый современному человеку. Поэтому все больше и больше людей обращаются в Интернет, чтобы получить самую свежую информацию: об услугах и ценах, погоде, курсах валют, просто новости. На Web-сайте можно менять информацию несколько раз в день. В печатных изданиях надо заказывать рекламу минимум за неделю, а то и больше. А в Интернет все оперативно: новые товары или услуги, новая скидка или новый поставщик - завтра об этом узнают клиенты. Нет необходимости ждать, пока выйдет очередной выпуск печатной рекламы. Информация на сайте будет всегда актуальной, самой свежей. Именно это ценят, именно это привлекает в Интернет миллионы пользователей.
1. Структура справочно-поисковых систем сети интернет
Поисковые cистемы обычно состоят из трех компонент:
· агент (паук или кроулер), который перемещается по Сети и собирает информацию;
· база данных, которая содержит всю информацию, собираемую пауками;
· поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.
1.1 Как работают механизмы поиска
Средства поиска и структурирования, иногда называемые поисковыми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются. Средства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, определяющих, как находить и обрабатывать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют cсылки к ресурсам типа баз данных WAIS; другие проинструктированы, что нужно просматривать прежде всего наиболее популярные страницы.
· Агенты - самые "интеллектуальные" из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от Вашего имени. Уже сейчас они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.
· Общий поиск информации в Сети осуществляют программы, известные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.
· Кроулеры просматривают заголовки и возращают только первую ссылку.
· Роботы могут быть запрограммированы так, чтобы переходить по различным cсылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети. Однако, имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.
Агенты извлекают и индексируют различные виды информации. Некоторые, например, индексируют каждое отдельное слово во встречающемся документе, в то время как другие индексируют только наиболее важных 100 слов в каждом, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее. Вид построенного индекса определяет, какой поиск может быть сделан поисковым механизмом и как полученная информация будет интерпретирована.
Агенты могут также перемещаться по Интернет и находить информацию, после чего помещать ее в базу данных поискового механизма. Администраторы поисковых систем могут определить, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Проиндексированная информация отсылается базе данных поискового механизма так же, как было описано выше.
Люди могут помещать информацию прямо в индекс, заполняя особую форму для того раздела, в который они хотели бы поместить свою информацию. Эти данные передаются базе данных.
Когда кто-либо хочет найти информацию, доступную в Интернет, он посещает страницу поисковой системы и заполняет форму, детализирующую информацию, которая ему необходима. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по Сети.
База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:
1. Количество слов запроса в текстовом содержимом документа (т.е. в html-коде).
2. Тэги, в которых эти слова располагаются.
3. Местоположение искомых слов в документе.
4. Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.
Эти принципы применяются всеми поисковыми системами. А представленные ниже используются некоторыми, но достаточно известными (вроде AltaVista, HotBot).
5. Время - как долго страница находится в базе поискового сервера. Поначалу кажется, что это довольно бессмысленный принцип. Но, если задуматься, как много существует в Интернете сайтов, которые живут максимум месяц! Если же сайт существует довольно долго, это означает, что владелец весьма опытен в данной теме и пользователю больше подойдет сайт, который пару лет вещает миру о правилах поведения за столом, чем тот, который появился неделю назад с этой же темой.
6. Индекс цитируемости - как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе поисковика.
База данных выводит ранжированный подобным образом список документов с HTML и возвращает его человеку, сделавшему запрос. Различные поисковые механизмы также выбирают различные способы показа полученного списка - некоторые показывают только ссылки; другие выводят cсылки c первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе с ccылкой.
Когда Вы щелкаете на ссылке к одному из документов, который вас интересует, этот документ запрашивается у того сервера, на котором он находится.
В настоящее время в развитии поисковых систем наблюдается тенденция объединения автоматических индексных поисковых машин и составляемых вручную каталогов Интернет-ресурсов. Ресурсы этих систем удачно дополняют друг друга, в объединение их возможностей вполне логично.
Тем не менее исследования возможностей поисковых машин, даже самых мощных из них, таких как AltaVista или HotBot, показывают, что реальная полнота охвата ресурсов Всемирной паутины отдельной такой системой не превышает 30%. Поэтому не стоит ограничиваться использованием какой-либо одной из них. Если вам не удалось отыскать интересующую вас информацию с помощью одной системы, попробуйте воспользоваться другой.
Каждая поисковая Система имеет свои особенности и, и качество полученного результата зависит от предмета поиска и точности формулировки запроса. Поэтому, приступая к поиску информации, прежде всего, нужно четко представлять себе, что именно и где вы хотите найти. Например, зарубежные системы поражают числом проиндексированных документов. Для поиска в области профессиональных знаний, особенно информации на иностранном языке, такие системы, как AltaVista, HotBot или Northern, подходят наилучшим образом.
Однако для поиска информации на русском языке, особенно в российской части Интернета, лучше приспособлены русские поисковые машины. Во-первых, они специально ориентированные именно на русскоязычные ресурсы Сети и, как правило, отличаются большей полнотой охвата и глубиной исследования эти ресурсов. Во-вторых, российские системы работают с учетом морфологии русского языка, то есть в поиск включаются все формы искомых слов. Российские системы лучше учитывают и такую исторически сложившуюся особенность российских Интернет-ресурсов, как сосуществование нескольких кодировок кириллицы.
2. Обзор и характеристика поисковых систем сети Internet
2.1 Rambler
Для поиска русскоязычной информации в Интернете лучше использовать русские поисковые системы. В этом опыте и в следующих других мы будем искать информацию с помощью нескольких систем, предназначенных для поиска в русскоязычной части Интернета.
Поисковая система Рамблер начала свое существование с 1996 года. На сегодняшний день она является одной из самых популярных в РуНете, уступая лишь Яндексу (по популярности). По оценкам SpyLog на Рамблер приходится 20-25% от всех поисковых запросов РуНета.
Поисковая система Рамблер при поиске учитывает морфологию русского языка, что дает больше возможностей для эффективного поиска информации. Реализована также система так называемых "перевязок", которая позволяет выдавать в результатах поиска не только страницы содержащие запрос, но и слова, которые являются синонимами запроса. Еще одной функцией "перевязок", думаю более значимой, является выдача контекстной рекламы не только по конкретному запросу, но и по запросам, которые тесно связаны с исходным, это позволяет перекрыть большее количество целевой аудитории.
Компания Рамблер по праву считается первой крупной рекламной площадкой российского Интернета и стоит у истоков классического сетевого рекламного бизнеса.
Выполним поиск с помощью системы Рамблер. Как вы увидите, эта система обладает удобной системой поиска и выдачи найденной информации.
Вы можете выполнить поиск как во Всемирной паутине, так и в группах новостей, а также в каталоге этой системы и в товарах. Кроме простого запроса имеется возможность работы с детальными запросами. Но мы выполним простой запрос, как и для других русских поисковых машин.
Ш Введите в поле ввода запроса слова поиск Интернет. Мы хотим найти документы, одновременно содержащие слово «поиск» и слово «Интернет».
Ш Нажмите кнопку Найти!. Мы получили список найденных страниц.
Список найденных страниц удобно организован. Вначале расположены ссылки на страницы, наиболее соответствующие критериям поиска. Наиболее полно удовлетворяют запросу документы, в которых искомые слова часто повторяются и стоят недалеко друг от друга. Кроме того, в кратком фрагменте текста найденного документа выделены обнаруженные ключевые слова.
В системе Рамблер можно посмотреть слова, которые наиболее часто используются в запросах пользователей. Кроме того, Рамблер ведёт список наиболее популярных Российских узлов Интернета. Так как вся информация в системе представлена на русском языке мы надеемся, что вы сможете самостоятельно в дальнейшем познакомиться с возможностями данной поисковой машины.
2.2 Yandex
На сегодняшний день имеет самую большую базу данных, которая имеет кластерную структуру и размещена на нескольких серверах.
В 1996 году компанией CompTek, созданной со стопроцентным американским участием, на выставке Internetcom было официально объявлено о существовании "Яндекса". Это была морфологическая приставка к "Альтависте", которую отличало быстродействие и умение строить гипотезы. Пословный индекс для незнакомых слов организован также, как и для словарных - этим "Яндекс" отличается от других поисковиков.
В настоящее время "Яндекс" обладает самой полной базой документов среди русских искалок, а также самой узнаваемой маркой.
В основе поисковой системы Yandex. Ru лежит системное ядро, общее для всех продуктов с префиксом Яndex (Яndex. Site, Яndex. Lib, Яndex. Dict, Яndex.СD). Первые продукты серии Яndex (Яndex. Site, Яndex. Dict) были представлены широкой публике 18 октября 1996 года на выставке Netcom'96. Поисковая машина для «русского Интернета» явилась естественным продолжением линии Яndex. Как уже говорилось, в хорошем вопросе содержится половина ответа. Искать и находить нужное в ворохе текстов в Интернете - умение не только поисковой системы, мо и пользователя, задающего запрос. Яndex не требует от пользователя знания специальных команд для поиска. достаточно набрать вопрос («где найти дешевые компьютеры» или «нужны телефоны Москвы и Московской области»), и вы получите результат - список страниц, где встречаются эти слова. Независимо от того, в какой форме вы употребили слово в запросе, поиск учитывает все его формы по правилам русского языка. Например, если задан запрос идти, то в результате поиска будут найдены ссылки на документы, содержащие слова «идти», «идет», «шел», «шла» и т.д.
Яndex работает не только с языковыми запросами, но и позволяет выполнять поиск только на определенных серверах ИЛИ же исключить из поиска заведомо ненужные серверы. Появилась возможность поиска изображений по подписям к ним и по именам файлов. Также стали доступными для поиска такие объекты, как сценарии, апплеты и стили (поиск осуществляется по названию). Удобная работа с новыми возможностями предлагается на странице расширенного поиска, где сложный язык запросов сведен к заполнению полей в форме. Кроме стандартной сортировки результатов - по релевантности (то есть по степени соответствия запросу), можно отсортировать документы по дате обновления. Интересной особенностью системы является возможность поиска в Яндексе в любом месте Интернета. Для этого нужно загрузить с сайта http://bar.уаndех.ru программу пол названием Яндекс. Бар и установить ее. После этого в окне браузера появится новая панель. Она предназначена для ввода запроса на поиск (без необходимости открывать страницу Яндекса) и выполнения ряда других функций.
По внешнему виду Яндекс представляет собой типичный портал, на главной странице которого можно найти ссылки на материалы практически любой тематики. Но это не единственное его лицо, для «серьезных» пользователей, которые не хотят тратить время на загрузку ненужной в данный момент информации, существует другой Яндекс. Его страница впечатляет скромностью дизайна и скоростью загрузки. Адрес этой эссенции поисковой машины - www.ya.ru
2.3 Yahoo
Базы данных: в ведении находится служба поиска Internet-ресурсов, новостей, карт, рекламных информаций, спортивная информация, бизнес, номера телефонов, персональные WWW-страницы, и email-адреса (отдельная база данных).
Содержание: Основная директория содержит: адреса (URLs) лля Internet-ресурсов и краткое описание для этих связей.
Поиск: Все Yahoo страницы предлагают не только простое поисковое окно, но и опции для этого поиска, а так же поиск Usenet или Email-адреса. Поиск может ограничиваться указанием определённого промежутка времени. Boolean операторы (и, или) и последовательный поиск также поддержаны. Отметим: если поиск в Yahoo! не привёл к положительному результату, то процесс поиска автоматически переходит на Alta Vista, которая продолжает поиск, и в случае положительных результатов автоматически возвращает найденную информацию в Yahoo!.
Если Yahoo! не может установить связь достаточно быстро с Alta Vista, то в этом случае Yahoo! будет обеспечивать страницу связи с набором инструментов поиска. После того как одна из этих связей выбирается, ключевые слова передаются к поисковой машине на ваше усмотрение.
Средством, облегчающим поиск, является наличие «tip search» (TS) - поиск с помощью «намека»: Yahoo! Является подчиненным справочником, что означает, что система не имеет так много страниц, как поисковые машины, однако задание наиболее общих ключевых слов позволит найти необходимую тему на странице высокого уровня (первая страница, которая возникает перед пользователем при посещении сайта) для организации или компании.
Результаты: Связи отображаются в соответствии с очерёдностью задаваемых слов последовательностью поиска наряду с их описательным текстом и подчиненной иерархией.
Адрес: http://www.yahoo.com/
2.4 Googlе
Название поисковой системы Google было образовано в результате игры букв в слове "googol". Этим компания хочет подчеркнуть их намерение индексировать и обрабатывать большие объемы информации.
Вы можете искать в Google на 10 различных языках. Вы также можете настроить интерфейс на нужный вам язык. Например, если вы ищите немецкий сайт, то вы можете вводить запрос на немецком языке, и все вспомогательные надписи интерфейса будут на немецком языке.
Очень удобной функцией является "cache". Благодаря этой функцией пользователь может просмотреть проиндексированную страницу даже если эта страница удалена или сервер, на котором расположена страница недоступен. Вы также можете использовать эту функцию для исследования ваших конкурентов, это также помогает лучше понять принцип индексирования страницы поисковым пауком (роботом).
С помощью Google можно найти страницы, которые не содержаться в его базе данных. Это возможно потому что поисковый паук индексирует текст ссылок со страниц.
Заключение
Принимая во внимания все выше сказанное, можно попытаться одним словом определить суть Интернета: это - общение, общение между отдельными людьми и целыми нациями без вмешательства правительственных авторитетов. Эта новая технология с огромной скоростью изменяет облик цивилизации, коренным образом меняя представление человечества о мире и самом себе. Сеть Интернет уже вобрала в себя десятки миллионов человек, более сотни стран, она полностью изменила процессы распространения и восприятия информации. В наш век информационных технологий виртуальная реальность интернет, способствующая стиранию государственных границ, сокращению географических расстояний, ликвидирующая преграды между культурами, становится не менее явственной, чем окружающий нас материальный мир.
С развитием INTERNET появилась возможность быстрого и удобного поиска необходимой документальной информации. Теперь можно не заниматься подбором и изучением огромного количества литературы в книжных магазинах и библиотеках. Информацию можно получить, не выходя из дома или офиса. Для этого нужен только непосредственно сам компьютер, подключенный к INTERNET с установленной специальной программой - браузером, предназначенной для просмотра содержимого Web-страниц.
Благодаря разнообразию поисковых систем, специально разработанным для рядового пользователя, каждый может без труда отсечь заведомо ненужный поток информации, лишь правильно сформулировав цель поиска.
Список использованной литературы
1. Заика А.А. Компьютерные Сети - М: Олма-Пресс, 2005. -448 с.
2.. Интернет: Энциклопедия / Под ред. Л. Мелиховой. - 2-е изд.-СПб.; М.; Харьков; Минск; Питер, 2000. - 527 с.
3. Информатика / Курносов А.П., кулев С.В., Улезько А.В. и др.; Под ред. А.П. Курносова - М: КолосС, 2005. - 72 с. (Учебники и учеб. пособия для студентов высш. учеб. заведений).
4. Информатика. Учебник. - 3-е изд., перераб./ Под ред. Н.В. Макаровой. - М.: Финансы и статистика, 2006. - 256 с.
5. Компьютерные сети и средства защиты информации: Учеб. пособие / Камалян А.К., Кулев С.А., Назаренко К.Н. и др. - Воронеж: ВГАУ, 2003. - 119 с.
6. Орлов А.А. Нужные программы для Интернета - СПб.: Питер, 2006. - 127 с.
7. Олифер В.Г., Олифер Н.А. Компьютерные сети. Принципы, технологии, протоколы. - СПб: Питер, 2002. - 672 с.: ил.
8. Основы современных компьютерных технологий. Под ред. Хомоненко А.Д. - Корона-принт, СПб 1998.
9. Солоницын Ю.А., Холмогоров В. Интернет. Энциклопедия. - 3-е из. - СПб.: Питер, 2007. - 592 с.
10. Резников Ф.А. Быстро и легко осваиваем работу в сети Интернет. - М.: Лучшие книги, 2002. - 284 с.
Размещено на Allbest.ru
Подобные документы
Структура справочно-поисковых систем сети Интернет, работа механизмов поиска. Сравнительный обзор справочно-поисковых систем (Gopher, WAIS, WWW, AltaVista, Yahoo, OpenText, Infoseek). Поисковые роботы, наиболее популярные справочно-поисковые системы.
реферат [28,4 K], добавлен 14.01.2010Структура и принципы построения сети Интернет, поиск и сохранение информации в ней. История появления и классификация информационно-поисковых систем. Принцип работы и характеристики поисковых систем Google, Yandex, Rambler, Yahoo. Поиск по адресам URL.
курсовая работа [3,6 M], добавлен 29.03.2013Хранение данных в сети Internet. Гипертекстовые документы, виды файлов. Графические файлы, их виды и особенности. Поисковые системы и правила поиска информации. Обзор поисковых систем сети Internet. Все о поисковых системах Yandex, Google, Rambler.
курсовая работа [918,3 K], добавлен 26.03.2011Краткая история развития поисковых систем. Обзор мировых и российских поисковых систем: Google, Yahoo, Baidu, Yandex, Rambler, Апорт, Mail.ru. Текстовый процессор Microsoft Word. Табличный редактор Excel. Организация рабочего места оператора ЭВМ.
курсовая работа [66,3 K], добавлен 20.12.2008Характеристика методов поиска информации в Интернете, а именно - с использованием гипертекстовых ссылок, поисковых машин и специальных средств. Анализ новых интернет ресурсов. История возникновения и описание западных и русскоязычных поисковых систем.
реферат [17,2 K], добавлен 12.05.2010Средства поиска информации в сети Интернет. Основные требования и методика поиска информации. Структура и характеристика поисковых сервисов. Глобальные поисковые машины WWW (World Wide Web). Планирование поиска и сбора информации в сети Интернет.
реферат [32,2 K], добавлен 02.11.2010История развития поисковых систем, особенности механизма поиска. Сравнительный обзор справочно-поисковых систем Интернета. Понятие поисковых роботов. Наиболее популярные поисковики для русскоязычного пользователя. Перспективы развития поисковых систем.
реферат [64,0 K], добавлен 20.12.2012Сущность и принцип работы глобальной сети Интернет. Поиск информации по параметрам в системе Google. Специализированные системы поиска информации: "КтоТам", "Tagoo", "Truveo", "Kinopoisk", "Улов-Умов". Целесообразное использование поисковых систем.
презентация [572,6 K], добавлен 16.02.2015Понятие "информация". Интерактивность. Информационный поиск. Интернет как основное средство интерактивного поиска информации. История создания Интернета. Доступ в Интернет. Поисковые ресурсы. Типы поисковых систем. Электронная почта.
курсовая работа [51,0 K], добавлен 15.02.2007Основные протоколы, используемые в Интернет. Инструменты поиска в Интернете. Популярные поисковые системы. Как работают механизмы поиска. Средства поиска и структурирования. Автоматизированная навигация по Сети. Критерии качества работы поисковой машины.
реферат [19,7 K], добавлен 14.02.2012