Поисковые сервера и системы: история появления, общие характеристики и функции

Общая информация о поисковых системах, основные принципы их работы. Область применения и назначение поисковых программ. Варианты организации поиска в текстовом массиве. Сетевые версии поисковых программ, их аппаратные требования и отличительные черты.

Рубрика Программирование, компьютеры и кибернетика
Вид реферат
Язык русский
Дата добавления 17.02.2012
Размер файла 747,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Реферат

на тему: Поисковые сервера и системы: история появления, общие характеристики и функции

Работу выполнили:

ученицы 10 класса МОУ СОШ № 27

Радкевич Татьяна и Мельникова Алина

Общая информация о поисковых системах

В начальный период развития Интернет, число пользователей было невелико, а объем информации относительно небольшим. В большинстве случаев доступ к Интернет имели сотрудники различных университетов и лабораторий, а в целом сеть использовалась в научных целях. В это время задача поиска информации в сети Интернет была не столько актуальной, как в настоящее время.

Одним из первых способов организации доступа к информационным ресурсам сети стало создание каталогов сайтов, в которых ссылки на ресурсы группировались согласно тематике. Первым таким проектом стал сайт Yahoo, открывшийся в апреле 1994 года. После того, как число сайтов в каталоге Yahoo значительно увеличилось, была добавлена возможность поиска информации по каталогу. Это, конечно же, не было поисковой системой в полном смысле, так как область поиска была ограничена только ресурсами, присутствующими в каталоге, а не всеми ресурсами сети Интернет.

Каталоги ссылок широко использовались ранее, но практически утратили свою популярность в настоящее время. Причина этого очень проста - даже современные каталоги, содержащие огромное количество ресурсов, представляют информацию лишь об очень малой части сети Интернет. Самый большой каталог сети DMOZ (или Open Directory Project) содержит информацию о 5 миллионах ресурсов, в то время как база поисковой системы Google состоит из более чем 8 миллиардов документов.

Первой полноценной поисковой системой стал проект WebCrawler появившийся в 1994 году.

В 1995 году появились поисковые системы Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в Интернет.

В 1997 году Сергей Брин и Ларри Пейдж создали Google в рамках исследовательского проекта в Стэнфордском университете.

поисковый сервер программа

Lycos и AltaVista.В настоящее время существует 3 основных международных поисковых системы - Google, Yahoo и MSN Search, имеющих собственные базы и алгоритмы поиска. Большинство остальных поисковых систем (коих можно насчитать очень много) использует в том или ином виде результаты 3 перечисленных. Например, поиск AOL (search.aol.com) и Mail.ru используют базу Google, а AltaVista, Lycos и AllTheWeb - базу Yahoo.

В России основной поисковой системой является Яндекс, за ним идут Rambler, Google.ru, Aport, Mail.ru и KM.ru.

Общие принципы работы поисковых систем

Поисковая система состоит из следующих основных компонентов:

Spider (паук) - браузероподобная программа, которая скачивает веб-страницы.

Crawler (краулер, «путешествующий» паук) - программа, которая автоматически проходит по всем ссылкам, найденным на странице.

Indexer (индексатор) - программа, которая анализирует веб-страницы, скаченные пауками.

Database (база данных) - хранилище скачанных и обработанных страниц.

Search engine results engine (система выдачи результатов) - извлекает результаты поиска из базы данных.

Web server (веб-сервер) - веб-сервер, который осуществляет взаимодействие между пользователем и остальными компонентами поисковой системы.

Детальная реализация поисковых механизмов может отличаться друг от друга (например, связка Spider+Crawler+Indexer может быть выполнена в виде единой программы, которая скачивает известные веб-страницы, анализирует их и ищет по ссылкам новые ресурсы), однако всем поисковым системам присущи описанные общие черты.

Spider. Паук - это программа, которая скачивает веб-страницы тем же способом, что и браузер пользователя. Отличие состоит в том, что браузер отображает информацию, содержащуюся на странице (текстовую, графическую и т.д.), паук же не имеет никаких визуальных компонент и работает напрямую с html-текстом страницы (вы можете сделать «просмотр html-кода» в вашем браузере, чтобы увидеть «сырой» html-текст).

Crawler выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Краулер, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

Indexer. Индексатор разбирает страницу на составные части и анализирует их. Выделяются и анализируются различные элементы страницы, такие как текст, заголовки, структурные и стилевые особенности, специальные служебные html-теги и т.д.

Database. База данных - это хранилище всех данных, которые поисковая система скачивает и анализирует. Иногда базу данных называют индексом поисковой системы.

Search Engine Results Engine. Система выдачи результатов занимается ранжированием страниц. Она решает, какие страницы удовлетворяют запросу пользователя, и в каком порядке они должны быть отсортированы. Это происходит согласно алгоритмам ранжирования поисковой системы. Эта информация является наиболее ценной и интересной для нас - именно с этим компонентом поисковой системы взаимодействует оптимизатор, пытаясь улучшить позиции сайта в выдаче, поэтому в дальнейшем мы подробно рассмотрим все факторы, влияющие на ранжирование результатов.

Web server. Как правило, на сервере присутствует html-страница с полем ввода, в котором пользователь может задать интересующий его поисковый термин. Веб-сервер также отвечает за выдачу результатов пользователю в виде html-страницы. Программы поиска информации в полнотекстовых базах данных.

Поиск информации - в полнотекстовых базах данных одно из самых быстро развивающихся направлений в информационных технологиях.

Область применения программ

Самое простое применение поисковой системы, это поиск текстовых файлов на собственном компьютере. Нечто вроде дополнения к файловому менеджеру. Вещь нужная и полезная. Вы вводите слова, содержащиеся в тексте документа, вам выдается список файлов. Такие системы, пригодны для поиска в массиве из нескольких тысяч небольших документов, расположенных на ПК пользователя. Эти системы ищут только документы, для поиска информации, например справочного характера, они непригодны.

Поисковые системы для корпоративных пользователей. Такие программы предназначены для работы с массивами текстовых документов предприятия имеющих объемы от нескольких гигабайт до нескольких десятков гигабайт. Кроме того, такие программы обязательно реализованы в сетевом варианте, при котором доступ к базе данных на сервере локальной сети, осуществляется с рабочих станций сотрудников.

Поисковые системы для интернет проектов. Предназначены для поиска html документов в Интернете. Рассчитаны на упрощенный поиск в большом количестве небольших документов. Результат поиска в таких системах - список ссылок на html файлы в сети плюс короткие цитаты из контекста, обычно по одной. Из-за больших объемов информации в сети эти программы должны иметь очень высокую скорость поиска. Из-за большого количества мусора в сети, необходима сортировка выдачи по степени релевантности или другим критериям (например, рейтингу сайта).

Самое сложная задача, это поиск информации в больших полнотекстовых массивах. В базы данных таких систем могут закачиваться любые текстовые источники информации, в том числе большого объема: энциклопедии, справочники, архивы периодических изданий, целые библиотеки специальной литературы, архивы документов корпораций, специализированные архивы типа исторических, патентных, судебных, расшифровки разговоров, протоколы и многое другое. Если в ответ на Ваш конкретный запрос система выдаст ссылку на энциклопедию, то это вряд ли вас обрадует. Если в этой энциклопедии сто ответов на запрос, то система должна обработать каждый и выдать отдельно все соответствующие тексты. Такая система должна искать не просто документы, а информацию, содержащуюся в них.

Назначение существующих программы по категории пользователей

Программа для реализации собственного проекта. Обычно создается для поисковой системы в интернете, интранет сети большой организации, крупного банка текстовых данных с доступом через сеть (например национальная библиотека ). Для реализации проекта создается команда проектировщиков, программистов и т.п., которая самостоятельно или с посторонней помощью создает, сопровождает и развивает систему.

В случае успешно созданного проекта, комплекс программ может быть доработан до необходимой степени универсальности и использован для разработки поисковых систем на заказ. Самостоятельно такой программный комплекс не поставляется, так как требует конфигурации и настройки программных средств под требования заказчика, частичной доработки программ, постоянного сопровождения на случай сбоев системы.

Программы для конечного пользователя. Представляют собой готовый коммерческий продукт. Имеют хорошо отработанный пользовательский интерфейс, позволяющий обычному пользователю управлять всеми функциями системы. Обычно разработаны «с нуля», без использования «чужих» программных средств. Такие программы распространяются в «коробочном» варианте по определенной цене.

Состав программ

Программа работы с полнотекстовыми базами данных обычно состоит из нескольких функциональных блоков:

Программа сканирования файловой структуры исходного массива документов. Исходный массив документов может размещаться в интернете, локальной сети предприятия, на дисках персонального компьютера. Задача программы, достучаться до каждой директории и каждого файла и передать файл соответствующей программе обработчику.

Комплекс программ извлечения текстовых данных из файлов различных форматов. Такие программы называются парсерами от английского parcer - программа выполнения грамматического разбора. Например, парсер для файлов формата doc, созданных редактором MS Word. Парсер для HTML, pdf и других типов файлов. На вход парсера поступает документ в формате исходного редактора, на выходе чистый текст для индексирования.

Программа создания индекса. Индекс полнотекстовой базы это файл, в котором записана информация о каждом слове исходного массива документов: к какому документу оно принадлежит, в какой части документа находится, относится оно к заголовку, основному тексту и т.д. Структура индекса зависит от используемого метода доступа к текстовым данным. Например, при использовании инвертированных списков создается словарь, где к каждому слову приписывается список номеров всех документов или текстовых фрагментов, в которых оно содержится.

Программа леммитизации, работающая с морфологическим словарем. Морфологический словарь содержит так называемые парадигмы (конструкции) слов русского языка, в виде базового слова и соответствующих ему форм. Для существительных это именительная форма единственного числа плюс все падежные формы, формы единственного и множественного числа. Обычно пользователю при поиске нужен текст с любой формой слов запроса. Чтобы не заставлять его перечислять все возможные формы этого слова, слово при индексации и поиске заменяется на базовое. Эта процедура называется леммитизацией. На входе слово в любой форме, например «иду» или «шел», на выходе исходная форма «идти».

Существует три основных варианта организации поиска в текстовом массиве

а) Контекстный поиск, при котором весь текст последовательно просматривается программой поиска, слова сравниваются с запросом, выполняются логические операции и дополнительные условия поиска.

б) Подокументно контекстный поиск. Этот поиск использует предварительно созданный индекс, в котором есть списки слов каждого документа. В результате поиска по индексу определяется документы, содержащих слова запроса.

в) Индексный поиск по всему содержанию документов. Это самый сложный и быстрый вид поиска. Индекс содержит полную информацию обо всех словах текстов базы данных, включая взаимное расположение слов. Содержание запроса сравнивается одновременно со всем полем информации, содержащейся в базе данных. При этом поиске ищутся не документы, а нужная информация. Затем по найденным фрагментам текста выдаются тексты самих документов. Скорость такого поиска на ПК до десятков гигабайт в секунду.

Лингвистическое обеспечение

При анализе текста в серьезных поисковых системах используются комплекс словарей отображающих экспертные знания о словообразовании данного языка. В этот комплекс могут входить:

- словарь словоизменения (морфологического анализа)

- словарь моделей управления предикатов русского языка

- тезаурус общей лексики (прежде всего синонимы и обобщающие понятия)

- специальные словари и правила, например словари служебных идиоматических единиц (многословные предлоги, союзы, наречия, вводные), части составных наименований организаций и др.

Сетевые версии поисковых программ

В описаниях многих программ заявлена возможность работы в локальной сети. Сетевые версии программ сложнее локальных. Существует несколько вариантов сетевого исполнения поисковой программы:

1)Первый и самый простой, это возможность поиска в сетевом окружении. Такая программа может индексировать файлы, расположенные не только на своем компьютере, но и на дисках других ПК, объединенных в локальную сеть. При этом поиск может осуществляться только с ПК, на котором установлена система и расположена база данных, включая поисковый индекс.

2)Второй вариант это поисковые системы, работающие по интернет протоколу. В этом случае база данных и основная программа установлены на центральном сервере локальной сети, а все пользователи имеют доступ к информации со своих компьютеров через стандартный интернет браузер, такой как Internet Explorer. То есть все происходит точно так же, как и при поиске в глобальном интернете. Пользователь, работая в интернет сети, для доступа к базе данных вводит специфические адреса интернетовских баз данных и дальше ищет информацию по стандартной схеме, со стандартным интерфейсом поисковой системы.

Требуемые аппаратные ресурсы

Если качество работы поисковой системы критично для результатов вашей профессиональной деятельности, то подход должен быть иным. Современная программная система, предназначенная для решения сложной интеллектуальной задачи информационного поиска должна полностью использовать все гигагерцы и гигабайты компьютера пользователя. Назначение такой системы - экономить время, силы и деньги пользователя, а не быстро дешевеющую память и процессорную мощность. Поэтому скромные требования к аппаратным ресурсам, это не обязательно хорошо.

Операционные системы. (Программная платформа).

Основная операционная система, используемая на большинстве ПК, и в локальных сетях небольших предприятий это конечно ОС Windows. В основном версии 2000 и XP, с ядром NT. Современные сетевые приложения, работающие в среде этих ОС могут быть рассчитаны на интеграцию в локальные и клиент-серверные приложения разработчика через 32-битный COM (Component Object Model) API (Application Programming Interface). (COM+) и не всегда совместимы с предыдущими версиями Windows, выпуск которых уже практически прекращен. Поэтому программное обеспечение системы поиска должно работать под управлением Windows 2000, XP,NT. Многие корпоративные сети и интернет серверы работают под управлением различных версий ОС Unix и Linux. Поэтому наличие версий ПО под эти платформы является необходимым для потребителей этого круга. Другим же пользователям это говорит о солидности разработки и о серьёзных намерениях фирмы разработчика.

История фирмы разработчика

История коллектива разработчиков - это важный показатель качества программного продукта. Потребительские качества программного продукта во многом определяются опытом создания поисковых систем.

Перечень основных характеристик поисковой системы, используемый для анализа:

Страна производитель, название фирмы

Аппаратные требования.

Программная платформа.

Максимальный объем базы данных (Гб)

Максимальное количество баз данных.

Максимальное количество файлов в БД.

Типы индексируемых файлов, например: doc, txt, rtf, html, pdf, xls, zip

Наличие пробной версии и её ограничения.

Скорость индексирования Мб/мн.

Максимальный объем одного индексируемого документа

Тип поиска: по документам, по страницам, по всему текстовому полю БД.

Организация БД и выдачи: подокументная, постраничная, пофрагментная.

Среднее время поиска по запросу в БД определенного объема.

Возможный объём поискового запроса (количество слов)

Возможность установки расстояния между словами при поиске.

Использование логических операторов в запросе.

Поиск по атрибутам документов (дата, автор, размер, название и пр.)

Сортировка результатов поиска.

Наличие морфологического словаря.

Поиск по смыслу.

Возможность поиска в сетевом окружении.

Сетевая версия с многопользовательским режимом.

Поисковая система Windows XP

Название системы: Служба индексирования и поиска Windows XP. Поставляется в составе операционной системы Windows XP Professional.

Фирма-разработчик: Microsoft Corporation в сотрудничестве с американской фирмой Inso (Бостон). Корпорация Inso известна разработками программ-просмотрщиков файлов различного формата (программа Quick View Plus) и доступа к данным.

Назначение системы: Система индексирования, текстов, содержащихся на компьютере в файлах почти всех известных форматов, и быстрого индексного поиска по текстовым запросам различного вида по всему проиндексированному тексту.

Отличительные черты программы:

Встроена в операционную систему. Процесс индексирования осуществляется в промежутках бездействия компьютера.

Аппаратные требования: Компьютер, обеспечивающий нормальную работу Windows XP. Это значит процессор c частотой от 1000 МГц и оперативная память от 256Мб. Объём свободного дискового пространства около половины объёма индексируемого текста.

Программные требования: ОС Windows XP Professional

Пользовательский интерфейс: позволяет проводить два вида поиска. Один для простого контекстного поиска по текстовому запросу, другой для поиска по индексированному массиву файлов. Индексированный поиск также имеет два уровня сложности: стандартный поиск и расширенный. Расширенный поиск включает множество различных функций поиска и язык запросов, позволяющий управлять этими функциями. Язык запросов достаточно сложен для неподготовленного пользователя.

Время поиска:

Время поиска по всем видам запросов: произвольное расположение слов в документе или в виде фразы из текста, где слова расположены подряд, или с ограничением расстояния дали одинаковое время поиска по всему массиву от 3 до 5 сек. Так как все словоформы русских слов не учитываются, то количество слов, по которым проводится поиск в 2-3 раза меньше необходимого, используемого при поиске другими системами. Поэтому реальная скорость поиска раза в два меньше.

Работа в сети:

Программа может индексировать сетевые диски, но индекс создается на локальном компьютере, на котором только и можно проводить поиск. Распределенного доступа к центральной базе данных программа не обеспечивает.

Лингвистическое обеспечение: Словоформы русского языка учитываются за счет отбрасывания окончаний при контекстном поиске. . Использование ручной обрезки слов увеличивает трудоемкость составления запроса и не всегда эффективно. Морфологический словарь только для английского языка.

Вывод: Чтобы программу могли использовать русскоязычные пользователи необходима доработка системы, прежде всего в части использование морфологического словаря русского языка и интерфейса.

Cros

Название системы: «Cros»

Фирма-разработчик:

Компания "Кронос-Информ" образована в 1992 году. Основная часть сотрудников компании это коллектив бывших разработчиков информационных систем ФСБ (КГБ СССР).

Назначение системы:

Классическая информационно-поисковая система с поиском по ключевым словам и стандартным дополнительным критериям. Поиск подокументно-контекстный. Работает в персональном варианте и в локальной сети. Для работы в Интернете или Интранет сети поставляется отдельная программа. Есть версии под DOS и под Windows.

Отличительные черты программы:

Система кроме индекса хранит исходные текстовые документы в сжатом виде. Сжатие с использованием ключей позволяет защитить информацию от несанкционированного доступа.

Аппаратные требования:

Процессор c частотой не ниже 300 МГц. Оперативная память от 64-до 256Мб в зависимости от ОС.

Программные требования:

Windows NT, Windows 2000, Windows XP, Windows 9x, ME

Основные характеристики:

Форматы исходных файлов: doc, html, rtf, lex, xls, pdf.

Многопользовательский режим. Работа в локальной сети .

Поиск по ключевым словам и атрибутам документов.

Максимальный размер базы данных: нет данных (из-за ограничений на пробную версию удалось создать базу только в 550Мб исходного текста).

Скорость поиска: в базе 200Мб - 1сек. (по данным журнала Chip) Скорость индексирования: объем текстов 200Мб за 750сек.. (по данным журнала Chip)

Базовое ПО (СУБД):

Самостоятельная разработка

Лингвистическое обеспечение

словоформы русского языка учитываются за счет отбрасывания окончаний при контекстном поиске. Морфологический словарь, не используется.

Результаты тестирования:

Из-за ограничений пробного варианта на количество файлов, тестирование проводилось на базе 550Мб, содержащей 1000 файлов формата html и txt. Для совместимости с тестом Chip, тестирование проводилось на такой же машине: CPU AMD Duron 1000, 256Мб, HDD-IDE

Время индексирования текста 550Мб составило 35 мин. Это дает 16Мб/мин, что совпадает с результатами тестов украинских товарищей.

Также последовательная загрузка и контекстный просмотр больших текстов затрудняют быструю навигация по всем найденным фрагментам текста.

В 2003-2004гг. фирма выпустила серию программ для создания архивов с полнотекстовым поиском на персональном компьютере. В основе всех версий лежит одно поисковое ядро, используемое во всех поисковых системах.

Версии программ называются:

diskMETA-Lite тестовая версия с ограничениями по объему базы: 2 индекса по 1000 документов. Формат исходных файлов .txt, .html, .doc. Морфологического словаря нет. Словоформы учитываются “вероятностной морфологией”, т.е. анализом схожести слов путем отбрасывания окончаний и пр.

diskMETA-Personal отличаются только количеством индексируемых документов - 100 000, с которым уже можно реально работать. diskMETA-Pro - Количество документов в индексе увеличено до 500 000. Добавлена возможность индексирования файлов формата .pdf, .xls и поиск в архивах chm,zip,rar Может быть загружена пробная версия сроком на 1 месяц.

diskMETA-Workgroup - Количество документов в индексе увеличено до 1000 000. При поиске используется морфологический словарь русского и английского языков. В этой версии можно индексировать сетевые диски, то есть указать при индексации каталоги не только на ПК с установленной системой, но и каталоги на дисках других компьютеров локальной сети.

Основные характеристики:

По данным производителя с сайта и из документации к системе.

Скорость индексирования в среднем 1Гб в час, т.е. около 17Гб/мин., что не очень быстро.

Скорость поиска приводится 1сек. По какому объему, по какому запросу, на какой машине не указывается.

Результаты тестов:

Тестировалась версия diskMETA-Pro, которая работоспособна 30 дней после скачивания.

Результаты нашего тестирования в базе 10Гб- 256000 документов на ПК с CPU AMD XP 2500:

База данных в 10 Гб была проиндексирована за 5 часов, что составляет 2Гб/час или свыше 30 Гб/мин. , хотя заявленная разработчиком скорость составляет 1Гб/час. В ходе дальнейшего тестирования неожиданно выяснилось, что система при индексировании больших файлов, учитывает только 50Кб от начала файла, а остальной текст просто игнорирует. Так как приблизительно половину объема тестовой базы данных составляли текстовые документы размером от нескольких сот килобайт до нескольких мегабайт, то diskMETA проиндексировала только половину текстового массива и скорость индексирования действительно не превышает 1Гб/час.

Общее впечатление:

Система, очевидно, представляет самостоятельную разработку поискового ядра плюс программное окружение. Использованы некоторые чужие программы, например для сжатия текстов.

Интерфейс пользователя типичен для интернет-поисковика, переделанного под настольную систему. Дизайн интерфейса мог бы быть и поизящнее.

Набор функций также стандартен для интернет поисковика. При поиске по стандартной схеме с установкой расстояния и логики, выдача также стандартная. Ранжирование и сортировка выдачи по степени релевантности не впечатляют, часто находится огромное количество мусора, не относящегося к запросу.

Скорость индексирования невысокая, в четыре раза ниже, чем у Яндекса, являющегося де-факто эталоном поисковой системы на нашем рынке.

Скорость поиска, приведенная к объему текста, достаточно высокая, приблизительно такая же, как Яндекса, хотя по результатам тестов и ниже в два раза чем заявленная производителем (1 сек.).

Недостатки:

Первый и самый главный: diskMETA не является в нынешнем варианте системой полнотекстового поиска, так как она не индексирует весь текст исходного массива документов. Только при доработке программ индексирования и поиска система сможет стать серьёзным конкурентом лучшим поисковым системам.

Система имеет общий для всех интернет поисковиков недостаток: она не ищет внутри документов и предназначена для поиска документов, а не информации.

Отсутствует сетевая версия, обеспечивающая многопользовательский доступ к серверной базе данных. Это не позволяет использовать diskMETA для большинства корпоративных приложений.

http://meta.ua/

http://diskmeta.com

http://sitemeta.com

ODB-Text версии 3.4

Информационно-поисковая система для корпоративного архива документов.

Производство НПЦ “ИНТЕЛТЕК ПЛЮС”. Фирма существует с 1992 года. Основу коллектива составляют выпускники МГТУ им. Н.Э. Баумана.

В основу деятельности положена разработка одной из первых в России объектной СУБД "ODB-Jupiter", которая в отличие от реляционных, была пригодна для работы со слабоструктурированной и неструктурированной информацией.

Как видно из описания системы, она развивалась в направлении автоматизации документооборота предприятия и полнотекстовый поиск по запросам на естественном языке составляет только часть её функций.

Система представляет собой полноценную сетевую программу, построенную по архитектуре клиент-сервер и состоящую из двух основных программ: клиента и сервера. В системе реализован единый сервер, делающий возможным доступ к базам данных, как из локальных сетей организаций, так и через Интернет.

Программная платформа: Windows 95/98/NT/2000

Типы индексируемых файлов: .txt, doc, xls, html, ppt.

Офисная направленность системы видна и из набора функций:

- редактирование всех документов базы данных;

- поддержка коллективной обработки документов в локальной сети, когда несколько пользователей могут в один момент работать с одним и тем же документом.

- систематизация документов с помощью рубрикатора;

- разделение документов базы данных по типам;

- назначение набора реквизитов каждому типу документов и соответственно каждому экземпляру документа, что характерно для табличных баз данных.

Существует демонстрационная версия программы, правда с ограничениями по объему хранимой информации. К программе прилагаются три тестовые базы данных, демонстрирующие основные функции системы.

База "Офис" используется для ведения архива офисных документов (нормативные акты, договора, платежные поручения, письма и др.).

База "Библиотека" позволяет создавать архив электронных изданий. Карточка реквизитов документов базы содержит основную служебную информацию об издании.

База "Кадры" позволяет вести картотеку сотрудников.

Характеристики:

К сожалению никаких количественных характеристик системы на сайте фирмы не представлено, скорее всего это говорит о том, что ничего выдающегося в этих характеристиках нет. Направленность системы на автоматизацию офисного документооборота также не предполагает больших объемов текстовых баз данных, высокой скорости поиска и индексирования.

Адрес в интернете: http://www.inteltec.ru/

Ищейка.

Разработка российской компании iSleuthHound Technologies.

Как сказано в рекламных материалах, предназначена для мгновенного интеллектуального поиска в текстовых массивах информации.

Программа имеет три версии:

Бесплатная ознакомительная версия, поддерживает поиск всего 500 документов трех типов.

Версия «Ищейка Проф» и «Проф DeLuxe» поддерживают свыше 10 форматов файлов. Неограниченное число документов и баз данных (зон поиска). Цена $15-$29.

Версия Ищейка Сервер 1.3. Сетевая версия позволяет пользователям работать с системой как с обычным браузером для доступа к документам базы данных. Кроме того эта старшая версия поддерживает 17 типов документов. Цена около $300 с лицензией на 10 пользователей..

По данным с сайта производителя: Объем базы данных - неограничен. Количество файлов - неограниченно. Основные типы файлов: doc, txt, rtf, html, pdf, xls, zip, всего около 17.

Никаких численных данных о характеристиках системы не приводится.

Результаты тестирования:

Для тестирования использовалась демонстрационная версия программы Версия Ищейка Сервер 1.3. , имеющая ограничения на один индекс в размере 1000 документов. Тестирование производилось на массиве из 914 документов общим объемом 501Мб. В качестве тестовых документов использовались правовые документы, электронные издания специальной и художественной литературы. Программа проиндексировала 501Мб текста за 18 мин. Скорость индексирования 28Мб/мин или 1.7Гб/час, что является вполне приемлемым средним показателем.

Скорость поиска:

При поиске по общеупотребительным словам русского языка, программа тратит от 1 до 2 сек на слово. Например: “русский язык” -2.9сек. “Варшавский конкурс фантастов” - 5.3сек.

Скорость поиска в несколько секунд на базе 500Мб нельзя назвать мгновенной. Она раз в десять ниже, чем например у Яндекса. Релевантность и полнота поиска также очень низкие, хотя для других типов запросов они может быть и выше.

Адрес сайта компании: http://www.isleuthhound.com/ru/

Название поисковой системы:

Компания производит не одну поисковую систему, а целый спектр программных продуктов. Их названия состоят из названия компании + дополнительное определение типа Standart, Professional и т.п. Само название Яndex происходит от скрещивания слов (Языковый Index).

История компании «Яndex » восходит к 1990 году, когда в компании «Аркадия», возглавляемой Аркадием Борковским и Аркадием Воложем, начались разработки поискового ПО. Затем в альянсе с фирмой CompTek был разработан ряд тематических информационно-поисковых систем, затем программы поиска для интернета. Собственный поисковик «Яndex. Ru» появился в 1997 году. Сейчас Яndex самая большая и популярная поисковая система русскоязычного Интернета.

Назначение системы: Программные продукты Яndex покрывают почти весь спектр по категории пользователей и по области применения. Это:

- инструмент разработчика корпоративных информационно-поисковых систем;

- поисковые системы для WEB - сайтов;

- поисковая система для всего русскоязычного Интернета;

- информационно-поисковые системы для локальных баз на CD;

Основные характеристики:

Форматы исходных файлов: Зависит от версии. От только html для самой дешевой версии Standart, до XML, RTF, PDF, DOC, MP3 и форматов баз данных для версии Enterprise.

Многопользовательский режим. Клиентская часть - стандартный интернет браузер, с которого доступен поиск в базах данных и доступ администратора баз данных.

Максимальный размер базы данных: ограничений нет.

Результаты тестов:

Тестовые испытания проводились на пробной версии Яndex.Server Standart на машине CPU Athlon XP 2500, ОЗУ 512Мб, HDD-IDE 120Gb/8Мб.

Скорость индексирования по данным тестовых испытаний. Тестовый массив html файлов объёмом текста 10Гб был проиндексирован за 2ч.40мин, что дает скорость 70Мб/мин или 3.7Гб/час

Скорость поиска: На объеме 10 Гб при объеме запроса 5-10 слов среднее время поиска 6сек. Время поиска менялось от 0.5сек до 14сек. Для тестовых запросов №1-5, соответственно 5,5/14/4,5/0,5/1,1 сек. Среднее время 5,12 сек. Время поиска увеличивается при поиске, по словам с высокой встречаемостью, имеющим множество словоформ.

Объем запроса ограничен. Максимальная длина вводимого запроса 210 символов.

Варианты поисковых систем Яndex и их цена:

Наиболее простая версия Яndex.Server Standart (работает только с файлами формата HTML) распространяется как Shareware. Имеет стандартный интерфейс. При работе выдает надписи «незарегистрированная копия». Расчет на ограниченность возможностей версии, рискованность создания серьёзной системы без технической поддержки и несолидность работы WEB сервера с незарегистрированной копией.

Более продвинутая версия Яndex.Server Professional имеет парсера, извлекающие текстовую информацию, только для форматов html и txt. В дополнение к возможностям стандартной редакции, позволяет полностью настроить дизайн страницы с результатами поиска с использованием скриптов, написанных на Perl, C++ или XSLT, или представить эти результаты в виде XML-документа с определенной схемой. Имеет возможность реализовать "расширенный поиск" для пользователей, не знакомых с языком запросов, организовать поиск по тематическим разделам, сгруппировать найденные документы по различным признакам. Позволяет сделать тонкую настройку индексируемых зон и атрибутов в HTML-документе.Яndex.Server Enterprise основное отличие от предыдущей версии - возможность индексирования текстов из документов в формате XML, RTF, PDF, MSDOC, MP3 и различных баз данных. Имеет дополнительные возможности по поиску в нескольких базах данных и объединению результата. Представляет собой полнофункциональный инструмент разработчика крупных корпоративных хранилищ документальной информации, объединяющей текстовые данные из файлов различных форматов.

Яndex Publisher программа поиска для полнотекстовых баз данных, распространяемых на CD. На CD записываются коллекция документов, готовый индекс, словари и

Поисковая машина МБД (MBD Search Engine)

Название поисковой системы: Поисковая машина МБД (MBD Search Engine). Новая разработка на основе экспериментальной системы, созданной ещё в 1990г. в министерстве электронной промышленности СССР. Сокращение МБД от названия проекта (Машина Баз Данных) В 1991г. в ООО «МБД» была разработана программа для работы с базами неструктурированных текстовых и числовых данных. В 1996г. фирма прекратила свою работу и возобновила только в 2003г. под названием МБДСофт .

Отличительные черты программы:

Система ищет не документы, а информацию, соответствующую запросу, в общем текстовом поле всей базы данных. В ответ на запрос выдаются все текстовые страницы, содержащие найденную информацию, независимо от количества найденных страниц на документ. Система может работать с поисковыми запросами большого объема, до нескольких сотен слов, как на естественном языке, так и с логическими операторами.

Аппаратные требования:

Процессор c частотой от 1000 МГц. Оперативная память от 256Мб.

Программные требования: Windows NT, Windows 2000, Windows XP.

Форматы исходных файлов: doc, html, rtf, txt.

Работа на отдельном ПК и в локальной сети. Клиент - серверная архитектура. Многопользовательский режим.

Поиск только индексный по всем текстам базы c учетом расстояния между словами и логическими операторами. Удобная установка расстояния с помощью движка.

Большой объем запроса до нескольких сот слов, с логическими операторами и установкой расстояния.

Быстрое перелистывание найденных страниц, в пределах документа и переход между документами.

Возможен вывод оригиналов документов в формате родительской программы.

Максимальный размер базы данных: (неограничен). Для версии Standart - 100Гб.

Число баз данных: неограниченно.

Максимальный и минимальный размер индексируемых документов: неограничен.

Результаты тестов:

Тестовые испытания версии Standart проводились на машине CPU Athlon XP 2500, ОЗУ 512Мб, HDD-IDE 120Gb/8Мб.

Скорость индексирования по данным тестовых испытаний. Тестовый массив html файлов объёмом текста 10Гб был проиндексирован за 4ч.10мин, что дает скорость 40Мб/мин или 2.4 Гб/час

При вводе в окно поиска целой страницы текста, содержащей около 200 слов, программа успешно переварила её и нашла страницу за 35 сек.

Время поиска увеличивается при поиске, по словам с высокой встречаемостью.

Недостатки:

Достаточно высокие требования к аппаратному и программному обеспечению. Для поиска документов в офисных коллекциях желательно дополнить систему поиском по атрибутам и сортировкой результатов. Мал набор типов индексируемых файлов, необходимо добавить хотя бы xls или pdf

Адрес в интернете: http://www.mbdsoft.ru

Russian Context Server (Россия).

Название поисковой системы: Russian Context Server.

Фирма-разработчик: компания "Гарант-Парк-Интернет"

Торговая марка: RCO - Russian Context Optimizers. Основные продукты: системы поиска информации, программы для лингвистической и аналитической обработки документов в уже существующих базах данных и информационно-поисковых системах, в основном на базе СУБД Oracle и MS SQL. Собственная разработка информационно-поисковой системы.

Назначение системы: Поисковая система Russian Context Server это инструмент разработчика, поисковая машина, предназначенная для поиска на WWW-сервере, в полнотекстовых базах данных, файловых архивах. Основной заказчик система информационно-правовая система “Гарант”.

Отличительные черты программы:

Система кроме индекса хранит исходные текстовые документы во внутреннем HTML формате. Для разных типов данных используются разные виды индексов. Для поиска по атрибутам табличная структура, для поиска по тексту инвертированный индекс. Мощное лингвистическое обеспечение.

Платформа Windows NT.

Основные характеристики:

- Форматы исходных файлов: html. Для, импорта данных из документов других форматов требуются дополнительные программы (поставщики).

- Многопользовательский режим. Архитектура клиент-сервер

- Поиск по ключевым словам и атрибутам документов.

- Поиск с ранжированием документов по релевантности.

- Максимальный размер базы данных: нет данных

- Скорость поиска: (По данным взятым с сайта RCO) На объеме 10 Гб при запросе 1атрибут и 1 слово время поиска 5-10сек. Данные приведены для старой машины с CPU-PII266, RAM-128Мб. При выполнении нашего теста уменьшение времени поиска за счет большей производительности ПК примерно компенсируется увеличением времени за счет увеличения объема запроса до 8-10 слов. Скорость поиска зависит не только от производительности процессора, но и от скорости считывания данных с диска. А этот показатель растет медленнее, чем производительность CPU. Поэтому тестовый показатель должен быть порядка 10 сек.

- Скорость индексирования для той же машины 100Мбайт в час = 2 МБайт/мин. В пересчете на производительность современного ПК она составит не более 10Мб/мин, что очень мало и объясняется, по-видимому, сложностью используемых алгоритмов анализа данных при индексировании.

Базовое ПО (СУБД): Разработка на основе языков программирования реляционных баз данных.

Лингвистическое обеспечение:

- словарь словоизменения (более 100 тыс. слов русского языка)

- словарь моделей управления предикатов русского языка

- тезаурус общей лексики (прежде всего синонимы и обобщающие понятия)

- специальные словари и правила.

Используется морфологический анализ при поиске английских слов.

Пробная версия: как указано на сайте, в пробном варианте доступна только версия для Oracle. Остальные только по специальному договору с фирмой.

Следопыт

Название системы: “Следопыт 3.0"

Фирма-разработчик: ЗАО “Медиа Лингва”

Компания ЗАО "МедиаЛингва - российский разработчик программного обеспечения, в области лингвистических, поисковых и мультимедиа технологий. Основана в августе 1995 г.

Назначение системы:

Информационно-поисковая система для полнотекстового поиска на персональном компьютере или в локальной сети предприятия. Запрос на естественном языке или с использованием логических операторы. С поиском по ключевым словам и стандартным дополнительным критериям.

Отличительные черты программы:

В качестве базовой СУБД программа использует внешнюю СУБД - Microsoft SQL Server 7.0. или Microsoft SQL Server 2000. Эта СУБД должна быть установлена на компьютере пользователя, или устанавливается одновременно с установкой всей поисковой системы. Поэтому основные технические характеристики системы ограничены возможностями универсальной СУБД фирмы Microsoft.

Программная система поставляется в трёх вариантах: “корпоративном”, “профессиональном” и “персональном”. Варианты отличаются набором программного окружения базовой СУБД, которое и является разработкой ЗАО “Медиа Лингва”.

Минимальный “персональный вариант” позволяет проводить индексирование файлов на жестком диске ПК, компакт-дисках и других съемных носителях. Индексатор запускается по команде пользователя или работает в фоновом режиме при помощи автоиндексатора .

Форматы индексируемых исходных файлов: doc,html,rtf,txt,xls,ppt. Профессиональная и корпоративная версии также индексируют файлы pdf, архивные файлы и почтовые сообщения. Индексируется текстовое содержание и некоторые атрибуты документов.

Лингвистическое обеспечение: в персональной версии используется программа отбрасывания окончаний, а в старших версиях используется морфологический словарь русского языка.

Поисковый запрос может задаваться в виде фразы на естественном языке, допускается формулирование запроса с одновременным использованием русских и английских слов. Есть также возможность поиска по ключевому слову, без учета словоформ.

Возможен поиск с использованием формального языка запросов с применением логических операторов "И", "ИЛИ", "НЕ". Логический поиск доступен, только в профессиональной и корпоративной версии. Поиск ведется по ключевым словам и некоторым атрибутам документов.

Размещено на Allbest.ru


Подобные документы

  • История развития поисковых систем, особенности механизма поиска. Сравнительный обзор справочно-поисковых систем Интернета. Понятие поисковых роботов. Наиболее популярные поисковики для русскоязычного пользователя. Перспективы развития поисковых систем.

    реферат [64,0 K], добавлен 20.12.2012

  • Основные принципы построения информационно-поисковых систем. Архитектура современных информационно-поисковых систем WWW. Принцип работы поисковых систем. Процесс поиска, информационный язык, перевод, дескриптор, критерий соответствия, индексирование.

    курсовая работа [70,2 K], добавлен 10.06.2014

  • Организация хранения данных. Система управления базами данных. Поиск информации, обзор существующих поисковых систем. Особенности работы поискового движка. Использование индексов в поисковых системах. Особенности поиска различных видов информации.

    курсовая работа [4,6 M], добавлен 14.05.2014

  • Понятие, структура и классификация информационных систем. Информационно поисковые системы. Исторические предпосылки развития поисковых систем. Понятие поисковых систем. Особенности поисковых систем: структура сети, структура работы поисковых систем.

    курсовая работа [81,9 K], добавлен 28.03.2005

  • Характеристика методов поиска информации в Интернете, а именно - с использованием гипертекстовых ссылок, поисковых машин и специальных средств. Анализ новых интернет ресурсов. История возникновения и описание западных и русскоязычных поисковых систем.

    реферат [17,2 K], добавлен 12.05.2010

  • Изучение классификации поисковых средств по В.В. Дудихину. Поиск информации с помощью поисковых ресурсов. Формирование запросов. Использование ключевых слов. Индексация документов, размещенных на различных серверах. Зарубежные лидеры поисковых систем.

    презентация [775,3 K], добавлен 10.03.2015

  • Понятие информационно-поисковых систем. История возникновения сети Internet. Основные алгоритмы работы современных словарных информационно-поисковых систем. Быстрый поиск в базе данных и быстрое реагирование системы. Ранжирование результатов поиска.

    курсовая работа [101,1 K], добавлен 01.06.2012

  • Рассмотрение поисковых систем интернета как программно-аппаратного комплекса с веб-интерфейсом, предоставляющего возможность поиска информации. Виды поисковых систем: Archie, Wandex, Aliweb, WebCrawler, AltaVista, Yahoo!, Google, Яндекс, Bing и Rambler.

    реферат [24,3 K], добавлен 10.05.2013

  • Хранение данных в сети Internet. Гипертекстовые документы, виды файлов. Графические файлы, их виды и особенности. Поисковые системы и правила поиска информации. Обзор поисковых систем сети Internet. Все о поисковых системах Yandex, Google, Rambler.

    курсовая работа [918,3 K], добавлен 26.03.2011

  • Анализ возможностей поисковых систем Яндекс и Google, их сравнение с точки зрения полезности. История создания поисковых систем, характеристика их интерфейса, поисковых инструментов и алгоритмов. Формирование вопроса и критерий к ответу на него.

    реферат [30,0 K], добавлен 07.05.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.