Автоматизированные информационно-поисковые системы

Понятия, исторические предпосылки, структура и классификация информационно-поисковых систем, этапы их работы. Обработка результатов поиска. Описания и характеристики русскоязычных поисковых систем: Яндекс, Рамблер, Апорт. Их проблемы и возможности.

Рубрика Программирование, компьютеры и кибернетика
Вид курсовая работа
Язык русский
Дата добавления 10.01.2011
Размер файла 40,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Содержание

Введение

Глава 1 Теоретические основы информационно - поисковых систем

1.1 Основные понятия информационных систем

1.2 Структура и классификация информационно-поисковых систем

1.3 Исторические предпосылки и анализ некоторых информационно поисковых систем

1.4 Понятие информационно-поисковых системы

1.5 Этапы работы информационно-поисковых систем.

Выводы по первой главе

Глава 2 Особенности информационно-поисковых систем

2.1 Обработка результатов поиска

2.2 Структура работы поисковых систем

2.3 Описания и характеристики русскоязычных поисковых систем: Яндекс, Рамблер, Апорт

2.4 Проблемы и возможности поисковых систем

Заключение

Список литературы

Введение

Современный этап развития цивилизации характеризуется переходом наиболее развитой части человечества от индустриального общества к информационному. Одним из наиболее ярких явлений этого процесса является возникновение и развития глобальной информационной компьютерной сети.

Проблема поиска и сбора информации - одна из важнейших проблем информационно поисковых систем. Конечно, нельзя сравнивать в этом отношении, скажем, средние века, когда поиск информации был проблемой потому, что этой информации было мало, и требовались усилия только для того, чтобы найти хоть что-то по более или менее значительному интересующему вопросу. Так, сначала появилась возможность пойти в библиотеку и, потратив там время на выбор нужной книги по каталогу, найти необходимую информацию. Но каталоги не решают полностью проблем поиска информации даже в рамках одной библиотеки, так как в каталожную запись входит относительно мало информации: заголовок, автор, место издания. Проблема поиска информации приобрела новый характер в 20-м столетии, с началом развития века информационных технологий. Теперь она заключается не в том, что информации мало и поэтому ее трудно найти, а в том, что ее теперь наоборот становится все больше и больше, и от этого найти ответ на интересующий вопрос может оказаться тоже довольно сложной задачей. Проблема поиска информации значительно усложняется при использование виртуальных источников. Здесь используется технология онлайновых каталогов, в результате применения которой пользователь имеет возможность выполнять поиск в каталогах сразу нескольких библиотек, чем, на самом деле, еще больше усложняет себе задачу, но, с другой стороны, увеличивает шансы решить ее.

На современном этапе все информационное пространство, в котором мы живем, все больше погружается в Интернет. Интернет становится основной формой существования информации, не отменив традиционных, такие как журналы, радио, телевидение, телефон, всевозможные справочные службы.

Целью исследования является изучение автоматизированных информационно - поисковых систем.

Задачей в данной курсовой работе является рассматривание теоретические основы автоматизированного информационного поиска, классификация и разновидности информационно поисковых систем. Проанализировать материал по применяемым в настоящее время информационно - поисковым каталогам полнотекстовых и гипертекстовых поисковых систем.

При появлении сети Интернет проблема поиска становилась более актуальной. Интернет - всемирная компьютерная сеть, представляющая собой единую информационную среду и позволяющая получить информацию в любое время. Но с другой стороны в Интернете храниться очень много полезной информации, но для поиска её требуется затрачивать много времени. Эта проблема послужила поводом к появлению поисковых систем. В данной курсовой работе будут рассмотрены поисковые системы в Интернете.

Глава 1 ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ИНФОРМАЦИОННО - ПОИСКОВЫХ СИСТЕМ

Основные понятия информационных систем

Когда мы проводим исследование, чтобы понять, как действует тот или иной объект, очень часто бывает необходимо рассмотреть этот объект во взаимосвязи с окружающим миром, возможно, представить его состоящим из более простых объектов.

В системе важно выделить объекты, описать их свойства, понять и указать связи между каждым объектом системы. В информатике понятие “система” чаще используют относительно набора технических средств и программ. Системой также называют аппаратную часть компьютера. Когда мы дополняем понятие “система” словом “информационная”, то хотим подчеркнуть цель ее создания и функционирования .

Под информационной системой понимается организованная совокупность программно - технических и других вспомогательных средств, технологических процессов и функционально - определенных групп работников, обеспечивающих сбор, представление и накопление информационных ресурсов в определённой предметной области, поиск и выдачу сведений необходимых для удовлетворения информационных потребностей пользователей []. Информационных системы являются основным средством, инструментарием решения задач информационного обеспечения различных видов деятельности и наиболее бурно развивающейся отраслью индустрии информационных технологий.

1.2 Структура и классификация информационно поисковых систем

В составе информационной системы можно выделить три подсистемы:

1.Организационно - технологическая подсистема сбора информации обеспечивает информационную систему и включает совокупность источников информации, организационно - технологической цепочки отбора информации для накопления в системе. Без правильного организованной подсистемы сбора информации невозможна эффективная организация функционирования все информационной системы в целом.

2. Подсистема предоставления и обработки информации составляет ядро информационной системы и является отражением представления разработчиками и абонентами системы структуры и картины предметной области, сведения о которой должна отражать информационная система. Подсистема представления и обработки информации является одним из наиболее сложных компонентов при разработке информационной системы.

3. Нормативно - функциональная подсистема выдачи информации определяет пользователей, или иначе абонентов системы, реализует целевой аспект назначения и выполнения задач информационной системы.

Основой всех поисковых систем составляют базы данных - совокупность данных организованных по предельным правилам, предусматривающим общие принципы описания, хранения и манипулирования данными, независимо от прикладных программ.

Можно выделить следующие элементы функционирования информационных систем:

Сбор информации - организованный в специальном порядке процесс сбора и отображения информации:

-получение информации

-оценка относимости информации

-порядок отбора и фиксации информации

Комплектование - процесс сложения информации из множества частей в единое целое и доведения её до пользователя.

Поиск и выдача информации - установление специального технологического порядка удовлетворения информационных потребностей абонентов информационной системы в управленческой деятельности и технологических процессах.

Поддержание целостности и сохранения информации - пересмотр, ревизия и отсеивание утратившей актуальность информации являются неотъемлемой функцией информационных подразделений. Сохранность информации осуществляется с помощью нормативно - инструктивных документов .

По характеру предоставления логической организации хранимой информации информационных систем разделяются на фактографические, документальные и геоинформационные.

Фактографические информационные системы накапливают и хранят данные в виде множества экземпляров одного или нескольких типов структурных элементов. Каждый из таких экземпляров структурных элементов или некоторая их совокупность отражают сведения, по какому - либо факту, событию. Структура каждого типа информационного объекта состоит из конечного набора реквизитов, отражающих основные аспекты и характеристики сведений для объектов данной предметной области [7].

В документальных информационных системах единичным элементом информации является нерасчлененный на более мелкие элементы документ и информация при вводе, как правило, не структурируется, или структурируются в ограниченном виде. Для вводимого документа могут устанавливаться некоторые формализованные позиции - дата изготовления, исполнитель, тематика. Некоторые виды документальных информационных систем обеспечивают установление логической взаимосвязи вводимых документов - соподчиненность по смысловому содержанию[3].

В геоинформационных системах данные организованы в виде отдельных информационных объектов, привязанных к общей электронной топографической основе. Геоинформационные системы применяются для информационного обеспечения в тех предметных областях, структура информационных объектов и процессов в которых имеется географический компонент .

Другим критерием классификации поисковых систем являются функции или решаемые задачи. По данному признаку различаются справочные, поисковые и расчётные системы.

Справочные являются наиболее распространенным типом функций информационных систем, и заключается в предоставлении абонентам системы возможностей получения установочных данных на определённые классы объектов.

Поисковые являются наиболее распространённым классом информационных систем. В общем, виде можно рассматривать как некое информационное пространство, задаваемое в терминах информационно - логического описания предметной области.

Расчетные заключается в обработке информации, находящейся в системе, по определённым расчётным алгоритмам для различных целей.

Технологические функции информационных систем заключаются в автоматизации всего технологического цикла или отдельных его компонентов, производственной или организационной структуры .

1.3 Исторические предпосылки и анализ некоторых информационно поисковых систем

Обратимся к истории возникновения сети Internet, которая была создана в связи с возникшей необходимостью совместного использования информационных ресурсов, распределенных между различными компьютерными системами. Большинство первых приложений, включая FTP и электронную почту, были разработаны исключительно для обмена данными между хост - компьютерами Internet. [5]

Другие приложения, такие как Telnet, создавались для того, чтобы пользователь получил возможность доступа не только к информации, но и к рабочим ресурсам удаленной системы. По мере развития Internet (увеличения пользователей и хост - компьютеров) прежние методы обмена данными перестали отвечать возросшим потребностям пользователей. Возникла необходимость разработки новых способов поиска сетевых ресурсов и доступа к ним, которые позволяли бы использовать информацию независимо от ее формата и расположения.

Для удовлетворения таких потребностей сначала были созданы поисковая система Archie, решающая задачу локализации ресурсов на FTP-сервере, и система Gopher, упрощающая доступ к различным сетевым ресурсам. Затем были разработаны сетевые информационные системы WWW и WAIS, предлагающие абсолютно новые методы получения информации. Принципы работы этих систем позволяют легко ориентироваться в огромном количестве информационных ресурсов без необходимости предоставления механизмов работы самой сети Internet. Такой подход позволяет говорить уже не просто о ресурсах взаимосвязанных компьютерных систем, а об особых информационных пространствах сети.

Система Archie представляет собой комплекс программных средств, работающих со специальными базами данных. В этих базах данных содержится постоянно пополняющаяся информация о файлах, к которым можно получить доступ через сервис FTP. Пользуясь услугами системы Archie, можно осуществить поиск файла по шаблону его имени. При этом пользователь получит список файлов с точным указанием места их хранения в сети, а также с информацией о типе, времени создания и размере файлов. Доступ к информационно-поисковой системе Archie может осуществляться различными путями, начиная от запросов по электронной почте и с помощью сервиса Telnet и заканчивая использованием графических Archie-клиентов .

Система Gopher была разработана для упрощения процесса локализации FTP-ресурсов Internet и для более удобного представления сведений о содержании хранящихся на FTP-серверах файлов. Система Gopher дает возможность в удобной форме (в виде меню) представлять пользователям информацию об имеющихся файлах и их содержании. Меню Gopher-серверов могут содержать ссылки на другие Gopher- и FTP-серверы. Таким образом, пользователь получает возможность “путешествовать” по Internet, не обращая внимания на местонахождение интересующих его ресурсов, и получать доступ к этим ресурсам /

Система Veronica используется для поиска информации в Gopher-пространстве по заголовкам пунктов меню. После ввода ключевого слова, система Veronica выясняет, встречается ли оно в меню на каком-либо Gopher-сервере, и в качестве результатов поиска выдает список заголовков пунктов меню, содержащих ключевое слово. Поскольку система Veronica не является автономной поисковой программой, а тесно связана с системой Gopher, она обладает тем же, что и система Gopher, недостатком: далеко не всегда по заголовку можно сказать, что собой представляет тот или иной информационный ресурс. Достоинства системы заключается в том, что нет необходимости узнавать, где расположена найденная информация, достаточно выбрать требуемую запись из списка .

1.4 Понятие информационных поисковых систем

Поиск информации - задача, которую человечество решает уже многие столетия. По мере роста объема информационных ресурсов, потенциально доступных одному человеку (например, посетителю библиотеки), были выработаны все более изощренные и совершенные поисковые средства и приемы, позволяющие найти необходимый документ [].

Автоматизированная поисковая система - система, состоящая из персонала и комплекса средств автоматизации его деятельности, реализующая информационную технологию выполнения установленных функций.

Опыт и практика создания систем в различных сферах деятельности позволяет дать более широкое и универсальное определение, которое полнее отражает все аспекты их сущности.

Информационно-поисковая система - это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска [4 ].

Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска - релевантность.

Релевантность - это соответствие результатов поиска сформулированному запросу [].

Далее мы будем, в основном, рассматривать ИПС для всемирной паутины (WWW). Основными показателями ИПС для WWW являются пространственный масштаб и специализация. По пространственному масштабу ИПС можно разделить на локальные, глобальные, региональные и специализированные. Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе отдельного сервера. Региональные ИПС описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Интернете. Глобальные поисковые системы в отличие от локальных стремятся объять необъятное - по возможности наиболее полно описать ресурсы всего информационного пространства сети Интернет.

1.5 Этапы работы информационно-поисковых систем

В работе поисковый процесс представлен четырьмя стадиями:

1) формулировка (происходит до начала поиска);

2) действие (начинающийся поиск);

3) обзор результатов (результат, который пользователь видит после поиска);

усовершенствование (после обзора результатов и перед возвращением к поиску с иной формулировкой той же потребности) . Более удобная нелинейная схема поиска информации состоит из следующих этапов:

1) Фиксация информационной потребности на естественном языке;

2) Выбор поисковых сервисов сети и формализация записи информационной потребности на конкретных информационно-поисковых языках);

3) Выполнение созданных запросов;

4) Предварительная обработка полученных списков ссылок на документы;

5) Обращение по выбранным адресам за искомыми документами;

6) Предварительный просмотр содержимого найденных документов;

7) Сохранение релевантных документов для последующего изучения;

8) Извлечение из релевантных документов ссылок для расширения запроса;

9) Изучение всего массива сохраненных документов;

10) Если информационная потребность не полностью удовлетворена, то возврат к первому этапу.

Процесс поиска имеет чрезвычайно глубокий дидактический аспект - так, установлено что применение диалоговых информационных систем приводит к формированию у рядовых пользователей такого стиля информационно-поисковой деятельности, который обычно свойственен наиболее выдающимся ученым .

В большинстве случаев информационная потребность возникает после изучения какой-либо новой информации, полученной пользователем. Часто возникает ситуация, когда пользователь уже обладает некоторым массивом документов по искомой тематике. Предлагается использовать эти документы для автоматизированного составления поискового запроса с помощью специализированной системы управления документами (СУД) [7].

Система должна осуществлять индексацию всех документов пользователя. В процессе индексации все слова, содержащиеся в документах, разбиваются по следующим семантическим классам: стоп-слова; наиболее частотные слова бытового (разговорного) языка; общекультурная терминология; общенаучная терминология; известные системе термины предметной области; неизвестные слова. Разбиение осуществляется на основе соответствующих словарей, которые должны быть составной частью системы. К неизвестным словам будут отнесены в первую очередь многие специальные слова предметной области. Туда же попадут новообразованные термины и слова, содержащие ошибки .

На основе индекса осуществляется построение векторного представления документов, после чего СУД производит иерархическую кластеризацию множества документов, в результате чего получается разбиение этого множества на тематические группы. В ходе диалога с пользователем происходит выбор одного или нескольких наиболее релевантных кластеров документов и задание характеристик поискового процесса.

Поисковый запрос следует строить на основе вектора центроида выбранного кластера. Оптимальный размер запроса составляет от 8-12 до 25-30 терминов. Последняя подготовительная операция, осуществляемая СУД заключается в записи запроса на ИПЯ.

Выводы по первой главе

В ходе анализа предметной области в данной главе был сделан общий обзор информационно-поисковых систем, перечислена основная терминология, понятия и определения, теоретические основы информационно - поисковых систем, исторические предпосылки и анализ некоторых информационно поисковых систем решаемые задачи, а также показана специфика данной области и существующие в ней проблемы. Применительно к существующим в настоящее время способам информационного поиска были рассмотрены основные методы обработки текстовой информации. Кроме того, в данной главе были сформулированы цели и задачи работы, определяющие основное направление курсовой работы.

информационная поисковая система русскоязычный

Глава 2. ОСОБЕННОСТИ ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ

2.1 Обработка результатов поиска

После получения в результате поиска в сети некоторого множества документов, среди них необходимо выделить наиболее релевантные. Наличие “сообществ” не облегчает эту задачу. Можно выделить следующие несколько классов наиболее частых ситуаций:

1) Отсутствие в исследуемом сегменте сети искомой информации. В этом случае следует перейти к другому сегменту, то есть обычно исследовать ресурсы, созданные на других языках.

2) Найденные “сообщества” содержат информацию не по требуемой тематике, а главным образом по другим, близким к искомой.

3) Обнаружено слишком большое количество информационных ресурсов .

В последних двух случаях необходимо осуществить автоматический перебор всех найденных документов и определить степень близости их к исходному запросу. Оптимальное решение задачи ранжирования достигается путем применения системы, основанной на агентно-ориентированном подходе.

Во многих случаях поиска информации в новой области, когда общий уровень пользователя недостаточно высок, желательно осуществлять фильтрацию выдаваемой информации по стилю текста так, чтобы начальное ознакомление с материалом происходило с использованием популярных и научно-популярных текстов.

Для уменьшения объема рассматриваемых материалов следует также осуществить фильтрацию результатов поиска по типу источников. Так очевидно, что документы, расположенные на научных сайтах, на коммерческих, или на серверах СМИ будут существенно различаться по своему характеру [3].

2.2 Структура работы поисковых систем

Работа поискового указателя происходит в три этапа, из которых два первых являются подготовительными и незаметны для пользователя. Сначала поисковый указатель собирает информацию из World Wide Web. Для этого используют специальные программы, аналогичные браузеры. Они способны скопировать заданную Web-страницу на сервер поискового указателя, просмотреть ее, найти все гиперссылки, которые на ней имеются ресурсы, которые найдены там, снова разыскать имеющиеся в них гиперссылки. Подобные программы называют червяками, пауками, гусеницами, краулерами, спайдерами и другими подобными именами. Каждый поисковый указатель эксплуатирует для этой цели свою уникальную программу, которую нередко сам и разрабатывает. Многие современные поисковые системы родились из экспериментальных проектов, связанных с разработкой и внедрением автоматических программ, занимающихся мониторингом Сети. Теоретически, при удачном входе спайдер способен “прочесать” все Web-пространство за одно погружение, но на это надо очень много времени, а ему еще необходимо периодически возвращаться к ранее посещенным ресурсам, чтобы контролировать происходящие там изменения и выявлять “мертвые” ссылки, которые потеряли актуальность .

После копирования разысканных Web-ресурсов на сервер поисковой системы начинается второй этап работы -- индексация. В ходе индексации создаются специальные базы данных, с помощью которых можно установить, где и когда в Интернете встречалось, то или иное слово. Индексированная база данных -- это своего рода словарь. Она необходима для того, чтобы поисковая система могла очень быстро отвечать на запросы пользователей. Современные системы способны выдавать ответы за доли секунды, но если не подготовить индексы заранее, то обработка одного запроса будет продолжаться часами [11].

На третьем этапе происходит обработка запроса клиента и выдача ему результатов поиска в виде списка гиперссылок. Допустим, клиент хочет узнать, где в Интернете имеются Web-страницы, на которых упоминается известный голландский механик, оптик и математик Христиан Гюйгенс. Он вводит слово Гюйгенс в поле набора ключевых слов и нажимает кнопку найти (Search). По своим базам указателей поисковая система в доли секунды разыскивает подходящие Web-ресурсы и формирует страницу результатов поиска, на которой рекомендации представлены в виде гиперссылок. Далее клиент может пользоваться этими ссылками для перехода к интересующим его ресурсам [10].

Все это выглядит достаточно просто, но на самом деле здесь есть проблемы. Основная проблема современного Интернета связана с изобилием Web-страниц. Достаточно ввести в поле поиска такое простое слово, как, например, футбол, и российская поисковая система выдаст несколько тысяч ссылок, сгруппировав их по 10-20 штук на отображаемой странице.

Несколько тысяч -- это еще не так много, потому что зарубежная поисковая система в аналогичной ситуации выдала бы сотни тысяч ссылок. Попробуйте найти среди них нужную! Впрочем, для рядового потребителя совершенно все равно, выдадут ему тысячу результатов поиска или миллион. Как правило, клиенты просматривают не более 50 ссылок, стоящих первыми, и что там делается дальше, мало кого беспокоит. Однако клиентов очень и очень беспокоит качество самых первых ссылок. Клиенты не любят, когда в первом десятке встречаются ссылки, утратившие актуальность, их раздражает, когда подряд идут ссылки на соседние файлы одного и того же сервера. Самый же плохой вариант -- когда подряд идут несколько ссылок, ведущих к одному и тому же ресурсу, но находящемуся на разных серверах .

Клиент вправе ожидать, что самыми первыми будут стоять наиболее полезные ссылки. Вот здесь и возникает проблема. Человек легко отличает полезный ресурс от бесполезного, но как объяснить это программе! Поэтому лучшие поисковые системы проявляют чудеса искусственного интеллекта в попытке отсортировать найденные ссылки по качественности их ресурсов. И делать это они должны быстро -- клиент не любит ждать.

Строго говоря, все поисковые системы черпают исходную информацию из одного и того же Web-пространства, поэтому исходные базы данных у них могут быть относительно похожи. И лишь на третьем этапе, при выдаче результатов поиска, каждая поисковая система начинает проявлять свои лучшие (или худшие) индивидуальные черты. Операция сортировки полученных результатов называется ранжированием. Каждой найденной Web-странице система присваивает какой-то рейтинг, который должен отражать качество материала. Но качество -- понятие субъективное, а программе нужны объективные критерии, которые можно выразить числами, пригодными для сравнения [11].

Высокие рейтинги получают Web-страницы, у которых ключевое слово, использованное в, запросе, входит в заголовок. Уровень рейтинга повышается, если это слово встречается на Web-странице несколько раз, но не слишком часто. Благоприятно влияет на рейтинг вхождение нужного слова в первые 5-6 абзацев текста -- они считаются самыми важными при индексации. По этой причине опытные Web-мастера избегают давать в начале своих страниц таблицы. Для поисковой системы каждая ячейка таблицы выглядит, как абзац, и потому содержательный основной текст как бы далеко отодвигается назад (хотя на экране это и не заметно) и перестает играть решающую роль для поисковой системы [8].

Очень хорошо, если ключевые слова, использованные в запросе, входят в альтернативный текст, сопровождающий иллюстрации. Для поисковой системы это верный признак того, что данная страница точно соответствует запросу. Еще одним признаком качества Web-страницы является тот факт, что на нее есть ссылки с каких-то других Web-страниц. Чем их больше, тем лучше. Значит, эта Web-страница популярна и обладает высоким показателем цитирования. Самые совершенные поисковые системы следят за уровнем цитирования зарегистрированных ими Web-страниц и учитывают его при ранжировании [11].

Создатели Web-страниц всегда заинтересованы в том, чтобы их просматривало больше людей, поэтому они специально готовят страницы так, чтобы поисковые системы давали им высокий рейтинг. Хорошая, грамотная работа Web-мастера способна значительно поднять посещаемость Web-страницы, однако есть и такие «мастера», которые пытаются обмануть поисковые системы и придать своим Web-страницам значимость, которой в них на самом деле нет. Они многократно повторяют на Web-странице какие-то слова или группы слов, а для того чтобы те не попадались на глаза читателю, либо делают их исключительно мелким шрифтом, либо применяют цвет текста, совпадающий с цветом фона. За такие «хитрости» поисковая система может и наказать Web-страницу, присвоив ей штрафной отрицательный рейтинг.

2.3 Описания и характеристики русскоязычных поисковых систем: Яндекс, Рамблер, Апорт

По данным Jupiter Media Metrix, 70 % пользователей Интернета используют поисковые системы, чтобы найти необходимый им сайт. Общее количество навигационных сервисов в Интернете подсчитать достаточно трудно - не все из них полноценно функционируют, только в Рунете их порядка двухсот. Наиболее посещаемыми являются Rambler, Yandex, Aport и Google в следующем соотношении:

Таблица № 1.

Соотношение посещаемости поисковых систем

Поисковая система

%

Yandex

54.37

Rambler

35.49

Aport

8.75

Google

1.39

Яндекс (http://www.yandex.ru)-- российская ИТ-компания, владеющая одноимённой системой поиска в Сети и интернет-порталом. Поисковая система «Яндекс» является восьмой среди крупнейших поисковых сайтов мира по количеству обработанных поисковых запросов (1,892 млрд., статистика за декабрь 2009 г.) и первым крупнейшим неанглоязычным поисковым сервером.. Как отдельная компания «Яндекс» образовался в 2000 году. Основным и приоритетным направлением компании является разработка поискового механизма, но за годы работы Яндекс стал мульти-порталом [11]. Поиск Яндекса позволяет искать документы на русском, украинском, белорусском, английском, немецком и французском языках с учётом морфологии этих языков и близости слов в предложении.

Русскоязычная поисковая система. На сегодняшний день имеет самую большую базу данных. Дата официального открытия Яndex.ru - 23 сентября 1997 года. Объем индекса - 389,96 Гб.

Проиндексировано страниц - более 86 миллионов.

Типы индексируемых файлов - html, php, asp, cgi, jsp. Платные ссылки - собственная программа показа контекстной рекламы Yandex.Direct в зависимости от выбранных ключевых слов. Показы контекстной рекламы в середине страницы результатов поиска. Результаты поиска по каталогу - используется собственный каталог, сайты в котором ранжированы в зависимости от количества ссылок на них.

Среднесуточная посещаемость заглавной страницы:

Хиты:239.392 Посетители:666.501 Хосты:1.850.305 Рамблер (http://www.rambler.ru)

Является одной из самых мощных и популярных поисковых машин в российской части сети Интернет.

Дата официального открытия - осень 1996 года. Объем ее индекса - более 2 миллионов страниц, ежедневно добавляется и обновляется более 10 тысяч новых документов. На Rambler функционирует также рейтинговая система Rambler's Top 100, в которой можно найти наиболее посещаемые сайты по определенной тематике. Сайты при поиске выдаются в порядке соответствия запросу (релевантности) сайтов в целом, то есть всех страниц сайта; при этом первые позиции в списке найденного могут занимать сайты, найденные благодаря их аннотациям в Rambler's Тор100. Вы можете переключиться на режим ранжирования результатов поиска по релевантности отдельных страниц или по дате (сначала показываются более новые документы). Для этого надо воспользоваться одной из ссылок в строке “Сортировка по...” вверху страницы результатов поиска. Расширенный поиск позволяет заранее настроить показ страницы результатов поиска удобным для Вас образом .

Рамблер обрабатывает все “динамические” страницы с именами вида .asp, .php, .pl, /cgi-bin/ и т. п. для посещаемых сайтов (по данным top100), а также сайтов, содержащих уникальную информацию, полезную пользователям поисковой машины. Для остальных сайтов обрабатывается часть таких страниц. Порядковое место в результатах поиска зависит от: Во-первых, от запроса - точнее, от релевантности сайта запросу. Чем большее и более важное место на сайте занимает слово или словосочетание, введенное пользователем, тем больше у него шансов оказаться “сверху”.

Во-вторых, если запросу пользователя удовлетворяют аннотации каких-либо сайтов в Тор100, то несколько таких сайтов (до 5) могут быть выведены во главе списка найденного; такие сайты ранжируются по посещаемости.

Платные ссылки - возможны следующие виды рекламы “под ключевые слова” или “под тематику” (показывается при вводе пользователем запроса выбранной вами тематики):

* одна или несколько текстовых ссылок в “блоке перевязок” над результатами поиска - там, где по другим запросам показываются ссылки на ресурсы Рамблера; такие ссылки фактически равносильны “нулевой ссылке” в списке найденного, и даже эффективнее её. * текстовый блок с логотипом 50х100 в середине результатов поиска; * верхний баннер 468х60 (эксклюзивный или не эксклюзивный показ); * вертикальный HTML'ный блок или баннер в правом верхнем углу страницы результатов поиска размером до 160х800. Начиная с марта 2003 г. поисковая машина компании Рамблер начала обрабатывать web-страницы, созданные с использованием технологии Macromedia Flash . Новая разработка Рамблера позволяет извлекать гиперссылки из flash-объектов и использовать их наравне со ссылками, полученными из обычных html-страниц. При этом сами flash-объекты пока не индексируются.

Среднесуточная посещаемость заглавной страницы (за последний месяц): Хиты:227.119. Посетители:497.714. Хосты:1.294.077.

Апорт (http://www.aport.ru)

Апорт является поисковой системой по российской части сети Интернет. Апорт - полнотекстовая поисковая система. Это означает, что она индексирует все слова, которые бы увидел на экране человек, просматривая конкретную страницу сервера. В результате любое слово из текста может служить критерием последующего поиска. Для документов HTML кроме основного текста документа индексируются также: заголовок документа (TITLE), ключевые слова (META KEYWORDS), описания страниц (META DESCRIPTION) и подписи к картинкам (ALT). Кроме того, Апорт индексирует как принадлежащие документу, тексты гиперссылок на этот документ с других страниц, находящихся, как внутри сайта, так и за его пределами, а также составленные (или проверенные) редакторами описания сайтов из каталога.

Основные критерии, которые Апорт учитывает при сортировке документов (сайтов):

* количество искомых слов в тексте документа (в процентах) расстояние между поисковыми словами в тексте документа;

* место в тексте, где встречаются поисковые слова (заголовок, описание, мета-таг и т.п.);

* внешний вид шрифта, которым набраны в тексте искомые слова (размер, жирность, цвет);

* количество ссылок из Интернета на данный документ

* использование искомого слова в тексте ссылок из Интернета на данный документ.

Платные ссылки - возможны контекстные показы баннера 468х60, нулевой ссылки, а также использование системы "Бегун". Среднесуточная посещаемость заглавной страницы (за последний месяц): Хиты:61058 Посетители:77267 Хосты: 153 156

Функциональные особенности и различия российских поисковых систем

Таблица № 2

Характеристики поисковых систем

Поисковая система

Рамблер

Яндекс

Апорт

Появление в индексах после регистрации

Ближайший выходной

7 дней

3 дня - 2 недели

Период обновления страницы в индексах.

От недели до месяца

7 дней

От недели до месяца

Глубина индексирования

Не ограничена

Не ограничена

Не ограничена

Появление в индексах не зарегистрированных страниц

От недели до месяца

Около 7 дней

От недели до месяца

Поддержка фреймов

Да

Да

Да

Поддержка ImageMaps

Да

Да

Да

Поисковая система

Рамблер

Яндекс

Апорт

Индексация закрытых разделов

Да

Да

Да

Robots.txt

Да

Да

Да

Определение частоты обновления

Нет

Да

Да

Таблица № 3.

Особенности выдачи результатов поиска

Поисковая система

Рамблер

Яндекс

Апорт

Примечания

При отсутствии заголовка

URL

без заголовка

документ без названия

В кавычках приведены фразы, используемые при отсутствии заголовка

Описание документа

Первые 513 символов из текста документа

Первые 203 символов из текста документа

Отрывки предложений, где встречаются ключевые слова

-

Поисковая система

Рамблер

Яндекс

Апорт

Примечания

Длина описания

В зависимости от выбранной опции отсутствует / не более 513 символов / не ограничена

Не более 203 символов

До 500 слов

-

Дата обновления документа

Да

Да

Да

Время создания страницы

Поисковая система

Рамблер

Яндекс

Апорт

Примечания

Дата индексации документа

Да

Нет

Нет

Дата последнего визита робота на страницу

Количество отображаемых результатов

15-30-50

10-20-50

10

В зависимости от выбранных параметров

Таблица № 4

Факторы, влияющие на индексацию в поисковиках

Поисковая система

Рамблер

Яндекс

Апорт

Наличие внешних ссылок на сайт

Нет

Да

Да

Мета тэги.

Нет

Да

Да

Поисковая система

Рамблер

Яндекс

Апорт

Индексация дескрипторов ALT

Да

Да

Да

Индексация комментариев

Да

Нет

Да

Список неиндексируемых терминов

Да

Да

Да

Морфологический поиск

Да

Да

Да

Учет регистрав

Нет

Да

Нет

Meta Refresh

Переход осуществляется

Переход не осуществляется

Переход осуществляется

Невидимый текст

Классифицируется как спам

Повторяемость ключевых слов

Мелкий текст

2.4 Проблемы и возможности поисковых систем

Работа многих поисковых машин считается вполне успешной. Однако все современные поисковые системы обладают некоторыми серьёзными недостатками:

поиск по ключевым словам даёт слишком много ссылок и многие из них бесполезны.

огромное количество поисковых машин с разными пользовательскими интерфейсами порождает проблему когнитивной перегрузки.

методы индексирования баз данных, как правило, не связаны с информационным содержанием.

часто выдаются ссылки на информацию, которой в Интернете уже давно нет.

машины ещё не столь совершены, чтобы понимать естественный язык

В последнее время потребности в интеллектуальной помощи быстро растут. Это привело к появлению интеллектуальных агентов.

Обычно интеллектуальные агенты являются основной частью поисковой машины. Для поиска используется искусственный интеллект. Пользователь учит агента, а затем он выходит в Интернет для поиска.

Интеллектуальные агенты выполняют инструкции от имени пользователя, имеют некоторую самостоятельность. После поиска они оповещают пользователя о результатах. Агенты учатся в результате своей деятельности.

Интеллектуальность - обучение на основе обратной связи по примерам, ошибкам и по средствам взаимодействия с другими агентами.

Простота использования - можно тренировать агента используя естественный язык.

Индивидуальный подход - адаптация к предпочтениям пользователей.

Интегрированность - непрерывное обучение применение уже имеющих знаний к новым ситуациям.

Автономность - ощущение окружающей среды, и анализ выводов.

ЗАКЛЮЧЕНИЕ

В ходе анализа предметной области в данной курсовой работе был сделан общий обзор информационно-поисковых систем, перечислена основная терминология, понятия и определения автоматизированных информационно-поисковых систем. Рассмотрели, исторические предпосылки и сравнительный анализ некоторых современных поисковых систем, решаемые задачи, а также показана специфика данной области.

Применительно к существующим в настоящее время способам информационного поиска были рассмотрены основные методы обработки текстовой информации а так же структуру работы, механизмы и этапы работы поисковых систем. Кроме того, в данной были проанализированы существующие проблемы и возможности современных автоматизированных информационно-поисковых систем.

Рассмотренные в курсовой работе поисковые машины далеки от совершенства. Считается, что идеальная поисковая машина должна отвечать следующим требованиям:

1)простота в использовании;

2)чётко организованный и обновляемый индекс;

3)быстрый поиск в базе данных и быстрое реагирование;

4)надёжность и точность результатов поиска;

Масштабы информационных ресурсов и их количество постоянно расширяется. Становится ясно, что база данных не является совершенной. Интеллектуальные агенты - новое направление, лежащее в основе нового поколения поисковых машин, которые могут фильтровать информацию и получать более точный результат. Глобальная сеть Internet продолжает развиваться с неослабевающей интенсивностью, по сути дела стирая ограничение на распространение и получение информации в мире. Однако в этом информационном океане бывает не очень легко найти необходимый документ. Следует также иметь в виду, что в сети наряду с давно действующими серверами возникают новые.

ЛИТЕРАТУРА

1. http://www.bestreferat.ru/referat-53876.html

2. Введение в информатику; http://mylearn.ru/kurs/12/505: . - Р; [;Поиск информации в компьютерных сетях: новые подходы http://www.searchengines.ru/articles/004603.html.Н., ,. - Р: ,:ый

4. Информационные технологии и электронные коммуникации

Автор: Кадеев Д.Н. http://emf.ulstu.ru/metod/ITEK/chast_3.htm

5. Лекция: Информационные системы с базами данных

6.Популярная информатика. Автор: Николай ЧУРСИН.

7.http://ssofta.narod.ru/bd/ets2.htm

http://www.vant Обзор поисковой системы Рамблер

1. Википедия -- свободная энциклопедия: Автоматизированная информационная система,- Р http://ru.wikipedia.org/wiki/ ,свободный

2. Н.А. Гайдамакин «Автоматизированные информационные системы, базы и банки данных», М.: «Гелиос», 2006

3. Бондарева Г.А., Сахарова Е.В., Королькова Л.Н., Информатика. Методические указания. Ставрополь, СТИС, 2006

4. Информатика. Базовый курс: Учебник / Под ред. С.В.Симоновича. - СПб. Питер

5. Центр новых информационных технологий:[электронный ресурс]. - Режим доступа: http://ick.kemsu.ru/work/docs/conias.htm, свободный

6. Терехов И.В. Автоматизированные информационные системы в образовании и науке [Электронный ресурс]. - Режим доступа: http://ou.tsu.ru/seminars/sem13/tezis/section6.htm, свободный

7. Структура и классификация автоматизированных информационных систем. - Режим доступа: http://do.rksi.ru/library/courses/opais/tema1_3.dbk,свободный данные

Размещено на Allbest.ru


Подобные документы

  • Понятие, структура и классификация информационных систем. Информационно поисковые системы. Исторические предпосылки развития поисковых систем. Понятие поисковых систем. Особенности поисковых систем: структура сети, структура работы поисковых систем.

    курсовая работа [81,9 K], добавлен 28.03.2005

  • Основные принципы построения информационно-поисковых систем. Архитектура современных информационно-поисковых систем WWW. Принцип работы поисковых систем. Процесс поиска, информационный язык, перевод, дескриптор, критерий соответствия, индексирование.

    курсовая работа [70,2 K], добавлен 10.06.2014

  • Понятие информационно-поисковых систем. История возникновения сети Internet. Основные алгоритмы работы современных словарных информационно-поисковых систем. Быстрый поиск в базе данных и быстрое реагирование системы. Ранжирование результатов поиска.

    курсовая работа [101,1 K], добавлен 01.06.2012

  • Понятие информационно-поисковых систем, их сущность и особенности, история возникновения и развития, роль на современном этапе. Внутреннее устройство и элементы поисковой системы. Принцип работы поисковой машины Рамблер, прядок обработки запроса.

    научная работа [222,0 K], добавлен 29.01.2009

  • Определение программного и математического обеспечения ИС. Виды запросов к базам данных в СУБД. Поисковые системы Интернет. Описание принципа работы поисковых систем Яндекс, Рамблер, Апорт. Особенности пересылки файлов средствами электронной почты.

    контрольная работа [271,7 K], добавлен 22.11.2009

  • Характеристика методов поиска информации в Интернете, а именно - с использованием гипертекстовых ссылок, поисковых машин и специальных средств. Анализ новых интернет ресурсов. История возникновения и описание западных и русскоязычных поисковых систем.

    реферат [17,2 K], добавлен 12.05.2010

  • Критерии эффективности информационно-поисковых систем: требования потребителя, полнота поиска, затраты труда, факторы, влияющие на характеристики. Ошибки при поиске, обусловленные несовершенством языка, процесса индексирования, поиска, другими причинами.

    курсовая работа [77,2 K], добавлен 06.02.2014

  • Анализ возможностей поисковых систем Яндекс и Google, их сравнение с точки зрения полезности. История создания поисковых систем, характеристика их интерфейса, поисковых инструментов и алгоритмов. Формирование вопроса и критерий к ответу на него.

    реферат [30,0 K], добавлен 07.05.2011

  • Рассмотрение поисковых систем интернета как программно-аппаратного комплекса с веб-интерфейсом, предоставляющего возможность поиска информации. Виды поисковых систем: Archie, Wandex, Aliweb, WebCrawler, AltaVista, Yahoo!, Google, Яндекс, Bing и Rambler.

    реферат [24,3 K], добавлен 10.05.2013

  • Описание и классификация современных информационно–поисковых систем. Гипертекстовые документы. Обзор и рейтинги основных мировых поисковых систем. Разработка информационно–поисковой системы, демонстрирующей механизм поиска информации в сети Интернет.

    дипломная работа [1,3 M], добавлен 16.06.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.