Осуществление хранения и поиска документов

Процесс автоматизированного хранения и поиска информации, обеспечивающий ее выдачу для быстрой реализации. Информационно-поисковые системы. Общее описание библиотеки и ее фондов. Растровые изображения страницы, которые обеспечивают точные копии оригинала.

Рубрика Программирование, компьютеры и кибернетика
Вид курсовая работа
Язык русский
Дата добавления 16.05.2016
Размер файла 107,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Государственное автономное профессиональное образовательное учреждение Саратовской области

«Саратовский техникум строительных технологий и сферы обслуживания»

Курсовая работа

по ПМ 04 «Оформление и сопровождение страхового случая (оценка страхового ущерба, урегулирование убытков)»

Осуществление хранения и поиска документов

Специальность 38.02.02 «Страховое дело»

Выполнила студентка

3 курса группы СД 3,9

Алёхина Светлана Юрьевна

Проверила:

Сорокина В.И.

Саратов, 2015

Оглавление

информационный поисковый растровый библиотека

Введение

1. Технические средства поиска и хранения информации

2. Поиск информации: основные понятия, виды и формы организации

3. Информационно-поисковые системы

4. Организация поиска

5. Технологии поиска информации

6. Реализация поиска

7. Критерии оценки поиска

Заключение

Список литературы

Введение

Хранение и поиск информации - процесс автоматизированного хранения и поиска информации, обеспечивающий ее выдачу для быстрой реализации. Все, что не так давно называли сведениями, фактами, данными, известиями, теперь называют одним общим словом «информация». Информация - это все: от простой записки до научной монографии. Информация - это все фиксированные сообщения: книги, газеты, журналы, фотографии, фильмы, магнитные записи, записи на пластинах, каталоги, реклама, отчеты, письма и т.д.

Хранение информации - процесс не менее древний, нежели жизнь человеческой цивилизации. В самые древние времена ее хранил и передавал из поколения в поколение человек - его интеллект, его опыт.

С рождением письменности родился новый механизм интеллектуального отбора. Возник специальный аппарат фиксирования и распространения мысли в пространстве и времени. Родилась документированная информация - рукописи и рукописные книги. Появились своеобразные информационно-накопительные центры - древние библиотеки и архивы. Они были важным атрибутом цивилизации. Постепенно письменный документ стал и орудием управления.

Вторым информационным скачком явилось книгопечатание. Типографский станок вызвал к жизни рост печатной продукции, небывало увеличил возможности накопления и размножения информации.

Каждую секунду в мире появляется около двадцати тысяч страниц текста о достижениях в различных отраслях науки и техники. Сто тысяч научных и технических журналов ежегодно. Они публикуют 2 миллиона статей и заметок по разным отраслям знания. К тому же ежегодно выходит более 10 тысяч научных книг. Специальных публикаций - бюллетеней, отчетов о конференциях и симпозиумах, рефератов - печатается до 2 миллионов экземпляров. Процесс этот пока неудержим. Количество таких изданий растет на 5-10 процентов в год. По образному выражению одного исследователя, если ученые во все времена только качались на информационных волнах в море научной информации, то сегодня они в ней просто задыхаются: информационный поток в наши дни в 15-20 раз выше реальных возможностей восприятия его человеческим мозгом.

Специалисты подсчитали, что в ближайшем будущем количество названий и тиражей печатной продукции будет катастрофически увеличиваться и накопление ее приведет к тому, что на каждого человека только в Европе, включая детей, придется для прочтения 7 тысяч страниц в месяц. В научных и научно-технических публикациях конденсирование информации необходимо. Наиболее распространенная форма такого приема - рефераты. Они собраны в реферативных журналах, которые издают, например, различные институты научной информации. Научные сведения сжимают здесь в рефераты, аннотации, библиографические описания, списки. Для реферативных журналов обрабатывают миллионы статей из книг, журналов, газет и других изданий.

Необходимы высокоэффективные средства обработки информации и новые технологии. Хранение и передача информации зависит от ее носителя. Машинная технология обработки информации основана на новых носителях, на которых записывают данные для хранения в памяти машин. В хранящиеся в памяти машины сведения называют базами данных, информационными массивами, а для их обработки используют информационно-поисковые системы. Наиболее характерный пример такой системы - автоматизированная система резервирования и продажи авиационных билетов. Для работы требуется информация о расписании движения самолетов, о ценах на билеты, о проданных и заказанных билетах. Система составляет базу данных, или информационный массив, этого автоматизированного «кассира контролера - администратора». При решении каждой очередной задачи - в разбираемом случае при оформлении заказа на билет - система нуждается во вводе только небольшой дополнительной информации: о содержании заказа. Остальная берется из базы данных. Изменение в ней - очень важное свойство хранение информации в памяти машины. Вновь вводимые сведения изменяют информационный массив, придают системе динамичность, способность к быстрой перестройке структуры данных, содержащихся в них сведений.

1. Технические средства поиска и хранения информации

Методы и средства поиска информации являются специальной отраслью знаний. Они приобретает большое значение как в области научных исследований и опытно-конструкторских разработок, так и в процессе производства промышленной и сельскохозяйственной продукции. Поиск информации требует специализированных средств. Система поиска входит как составная часть в общую систему научно-технической информации. Последняя включает средства копирования, хранения, размножения, поиска, приема и передачи информации. Технические средства и процесс поиска информации во многом зависят от вида носителя информации. Долгое время основным носителем информации являлась бумага. Это имело существенные недостатки - малая плотность информации, низкая степень автоматизации различных процессов и, как следствие, - большие затрат ручного труда. Применение микроформ на пленочных основах как носителей информации позволило в значительной мере уменьшить эти недостатки. Роликовые микроформы (микрофильмы) обеспечили компактное хранение больших объемов информации. Плоские микроформы в виде микрофишей более удобны при использовании сравнительно небольшого количества информации. Емкость современной микрофиши 96 машинописных страниц, около 2 Мбит. Ультрафиши обладают увеличенной более чем в 2 раза емкостью. Состояние современной телекоммуникационной инфраструктуры позволяет библиотекам создать и поддерживать свой собственный библиотечно-информационный сервер Интернет. Библиотечно-информационный сервер должен включать в себя как системы он-лайнового, так и офф-лайнового доступа. При создании библиотечно-информационного сервера следует, прежде всего, четко выработать концепцию сервера - какую информацию и как представлять.

На библиотечно-информационном сервере следует представлять следующую информацию:

общее описание библиотеки и ее фондов.

режим работы подразделений,

контактную информацию,

сведения о текущих будущих событиях,

доступ к каталогам.

Технология WWW серверов делает возможным представление текстовых документов и графической информации. Следует выделить, по крайней мере, пять информационных форматов, которые позволяют получить оперативный доступ к электронным документам. Им соответствуют пять уровней информативности.

Первый уровень - библиографический формат, информационный формат, краткое описание, формат UNIMARC. Сохраняются в текстовом формате.

Второй уровень представлен реферативными статьями. Они могут обеспечивать первичный отбор информации и помогают избежать рассмотрения материалов, которые содержат только краткие упоминания о предмете исследований. Сохраняются в текстовом формате.

Третий уровень - полные документы в текстовом формате. Этот формат обеспечивает наилучшее соотношение информативность/объем и обеспечивает хорошую скорость передачи данных. Сохраняются в текстовом формате.

Четвертый уровень - растровые изображения страницы, которые обеспечивают точные копии оригинала. Их можно наблюдать на экране, распечатать или переслать по факсу. Сохраняются в графическом формате.

Пятый уровень - формат PDF (portable document format) фирмы Adobe, который обеспечивает компактность и масштабирование текста и графики. Сохраняется в векторном формате. Отдельно следует рассматривать HTML язык.

Все форматы должны быть доступны через одну информационную систему и предоставить пользователю возможность выбора. Гибкость таких систем определяется стоимостью доступа и временем обработки информации. Выбор средств доступа должен стать посильной задачей для пользователя.

При наличии больших объемов документов вопрос о рациональном способе их хранения становится весьма актуальным. Основными требованиями к системе хранения документов являются:

удобство и простота организации, пополнения и замены документов;

удобство и простота поиска документов;

минимальный размер занимаемой площади;

невысокая стоимость.

Рис. 1. Классификация средств хранения документов

Средства хранения документов - это, прежде всего, папки, альбомы, конверты, футляры, которые размещаются в картотеках, на полках, стеллажах, в шкафах, сейфах.

Наибольший интерес представляют картотеки.

Картотека - это устройство, содержащее большое количество карт (документов стандартной формы, папок и т. п.), объединенных общностью содержания и расположенных в систематизированном порядке.

Разработано и применяется большое число конструкций различных картотек: плоских, вертикальных, вращающихся и др. Карты в картотеках располагаются по порядковым номерам, алфавиту, по темам, а иногда и произвольно. Для облегчения поиска карт в массиве применяются разделители (индикаторы) с четко видимыми классификационными признаками подмассивов. Плоские картотеки - карточки располагаются таким образом, чтобы один из краев последующей карты выступал из-под всех предыдущих и можно было бы видеть идентификатор каждой карты.

Плоские картотеки часто называют также ступенчатыми, обозримыми. Вертикальные картотеки представляют собой ящики (лотки) с вертикально расположенными в них картами. Карты могут размещаться свободно или закрепляться горизонтальным стержнем, проходящим через пробитые в картах отверстия. Вертикальные картотеки получили чрезвычайно широкое распространение. Их используют для работы с картами учета документов в бухгалтериях, отделах кадров и других отделах предприятий, в архивах, библиотеках и др. Достоинство вертикальных картотек: простота, дешевизна, большая вместимость; недостаток - относительная трудность поиска карт. Для хранения документов на рабочих местах в ящиках рабочих столов получили широкое применение подвесные вертикальные картотеки. Для этих картотек используют специальные папки подвесного хранения, в которые закладываются карты или документы, содержащие необходимую информацию. Вращающиеся картотеки - это барабаны, вращающиеся вокруг вертикальной (реже горизонтальной) оси, в секциях которых расположены карты или папки с помещенными в них документами. Другой разновидностью вращающихся картотек является устройство, на стержне которого жестко закреплены информационные карты. Подобного типа картотеки обычно используются для организации справочных установок массового пользования, например, в каталогах библиотек. Вращающиеся картотеки обоих видов часто оборудуются механизмами автоматизированного поиска.

Элеваторные картотеки представляют собой устройство, в котором организована автоматизированная подача подвешенных к роликовой цепи лотков (ящиков) с картами или иными документами на рабочее место оператора. Подача лотков осуществляется в соответствии с адресом (кодом, идентификатором) рабочего места, набираемым на пульте управления. Картотеки с перфокартами на картах с краевой перфорацией позволяют осуществлять легкий механизированный поиск.

Карта с краевой перфорацией представляет собой прямоугольник из плотной бумаги, вдоль всех краев которого нанесены ряды калиброванных отверстий: с одним или несколькими (чаще двумя) отверстиями в каждой позиции. При занесении поискового кода на карте производится вырезка перемычки, отделяющей соответствующее отверстие от края перфокарты, так, что образуется открытая щель.

На центральное информационное поле перфокарты, свободное от отверстий, заносится вся необходимая информация печатным способом, копированием документа или вручную. Поиск карт с нужной информацией осуществляется протыканием стержнем через отверстие, соответствующее поисковому коду, выровненной колоды карт и встряхиванием этой колоды. При встряхивании нужные перфокарты из колоды выпадают. С помощью подобной процедуры можно из массива, содержащего 6-7 тыс. карт, легко отобрать все интересующие карты по 5-6 признакам.

Картотеки микрофильмов, содержащие занесенные в информационное поле перфокарты микрофотокопий документов, позволяют легко создавать удобные информационно-поисковые системы в весьма рапространенных и эффективных системах хранения микрофильмированной документации. Микрофотокопия документа представляет собой уменьшенную во много раз копию документа на рулонной (микрофильм) или плоской (микрокарта) фотопленке.

Основное назначение микрофильмирования: создать емкие хранилища документов с сокращением необходимой для хранения площади в десятки раз; облегчить процедуры поиска документов; обеспечить простой и оперативный процесс копирования и размножения документов. Из всех используемых на практике систем хранения документов системы хранения информации на микрофильмах имеют наибольшую емкость и наименьшую стоимость хранения единицы информации. Известны информационно-поисковые системы на микрофильмах емкостью несколько десятков миллионов документов со средним временем поиска нужного документа и получения с него фотокопии 10-20 мин. Выпускается большая гамма всевозможных устройств микрофотокопирования, репродуцирования, копирования, визуального просмотра, автоматизированного поиска и хранения микрофотокопий.

2. Поиск информации: основные понятия, виды и формы организации

Поиск информации или информационный поиск представляет один из основных информационных процессов. Человечество издревле занималось им. Цели, возможности и характер поиска всегда зависели от наличия, информации, её важности и доступности, а также средств организации поиска. Конец XX-начало XXI века, характеризуется огромными массивами постоянно растущей разнообразной информации, доступной и представляющей интерес для самых широких слоев социума. Более того, Интернет-технологии и программно-технические средства, также доступные большинству людей, позволяют осуществлять данный процесс в любое время, практически в любом месте по любым запросам. Поиск - процесс, в ходе которого в той или иной последовательности производится соотнесение отыскиваемого с каждым объектом, хранящимся в массиве. Цель любого поиска заключается в потребности, необходимости или желании находить различные виды информации, способствующие получению лицом, осуществляющим поиск, нужных ему сведений, знаний и т.д. для повышения собственного профессионального, культурного и любого иного уровня; создания новой информации и формирования новых знаний; принятия управленческих решений и т.п.

В Интернете работает 30 и более миллионов пользователей. Из них десятки тысяч - в режиме онлайн (англ. "on-line" - интерактивный доступ в любой момент времени) и количество таких пользователей постоянно растет. Это затрудняет организацию оперативного поиска и нахождения нужной такому количеству пользователей информации. Возникают проблемы, обусловленные разнообразными возможностями (видами) поиска информации, различными способами их реализации в информационно-поисковых системах (ИПС), разным уровнем знаний пользователей о возможностях таких систем, особенно в области формирования запросов и обработки данных, полученных в результате выполнения этих запросов и т.д.

Предполагается, что в дальнейшем будут созданы ИПС, способные автоматически адаптироваться с учетом уровня знаний и запросов конкретных пользователей, воспринимать запросы на естественном языке и, используя искусственный интеллект, выдавать им релевантную и пертинентную информацию. Для создания таких ИПС потребуются интеллект и знания конкретных пользователей ИПС или их посредников. Пока же от широкого круга пользователей поисковых систем требуется достаточно хорошо владеть данной предметной областью. Существуют различные толкования термина "поиск информации" или "информационный поиск". Термин "информационный поиск" (англ. "information retrieval") ввёл американский математик К. Муэрс. Он заметил, что побудительной причиной такого поиска является информационная потребность, выраженная в форме информационного запроса. К объектам информационного поиска К. Муэрс отнес документы, сведения об их наличии и (или) местонахождении, фактографическую информацию. Решать проблемы фактографического поиска первыми стали представители библиотек. Они разработали средства информационного поиска, получившие название "справочно-поисковый аппарат" (каталоги, библиографические указатели и др.). В профессиональной отечественной печати данный термин используется с 1970-х годов. Библиотекари определяют "информационный поиск" как нахождение в информационном массиве документов, соответствующих информационному запросу пользователей. С точки зрения использования компьютерной техники "информационный поиск" - совокупность логических и технических операций, имеющих конечной целью нахождение документов, сведений о них, фактов, данных, релевантных запросу потребителя. "Релевантность" - устанавливаемое при информационном поиске соответствие содержания документа информационному запросу или поискового образа документа поисковому предписанию. Существуют и другие определения. В любом случае, информационный поиск вызван потребностью удовлетворения информационных запросов пользователей, ожидающих с помощью поисковых систем оперативно получить необходимые им данные или сведения. Он является методом нацеленного поиска и извлечения релевантных документов и (или) фактов из различных источников информации, например, банков данных или запоминающих устройств. В качестве таковых выступают живые и неживые объекты, представляющие различные источники и носители информации. Системы, обеспечивающие реализацию подобного поиска информации, называются поисковыми системами (ПС). В традиционных технологиях ПС представляют картотеки и каталоги, адресные и иные справочники, указатели, энциклопедии, справочный аппарат к изданиям и другие материалы. В 1945 годы американский ученый и инженер В. Буш в статье "Возможный механизм нашего мышления" впервые широко поставил вопрос о необходимости механизации информационного поиска. Начиная с 1960 годов, появляются автоматизированные поисковые системы, работающие с информацией. С этого периода ведутся интенсивные работы в области формирования и реализации принципов и методов информационного поиска. "Поисковые системы" осуществляют поиск среди документов базы или иных массивов машиночитаемых данных, содержащих заданные слова. Электронные ПС с помощью обычных или интеллектуальных терминалов (ПЭВМ) дают возможность пользователям производить поисковые запросы при помощи формальных и описывающих содержание элементов и с применением специальных логических операторов; осуществляют поиск среди документов базы или иных массивов машиночитаемых данных, содержащих заданные слова. Поисковые системы позволяют осуществлять только поисковые процедуры и связанные с ними процессы.

3. Информационно-поисковые системы

ПС с большим набором функций и возможностей обычно входят в состав СУБД и именуются информационно-поисковыми системами. Они также создаются и используются для эффективного нахождения пользователями необходимых им данных, в том числе в Интернете. Терминологически "информационно-поисковая система" (англ. "information retrieval system", IRS) - представляет систему, предназначенную для поиска и хранения информации; пакет программного обеспечения, реализующий процессы создания, актуализации, хранения и поиска в информационных базах и банках данных. Информационно-поисковая система трактуется и как система, обеспечивающая поиск и отбор необходимых данных на основе информационно-поискового языка и соответствующих правил поиска, а база данных - как совокупность средств и методов описания, хранения и манипулирования данными, облегчающих сбор, накопление и обработку больших информационных массивов. Организация различных БД отличается видом объектов данных и отношений между ними.

Функционирование современных ИПС основано на двух предположениях:

документы, необходимые пользователю, объединены наличием некоторого признака или комбинации признаков;

пользователь способен указать этот признак.

Оба эти предположения на практике не выполняются, и можно говорить только о вероятности их выполнения. Поэтому, процесс поиска информации обычно представляет собой последовательность шагов, приводящих при посредстве системы к некоторому результату, и позволяющих оценить его полноту. При этом поведение пользователя, как организующее начало управления процессом поиска, мотивируется не только информационной потребностью, но и разнообразием стратегий, технологий и средств, предоставляемых системой.

Пользователь обычно не имеет исчерпывающих знаний об информационном содержании ресурса, в котором проводит поиск. Оценить адекватность выражения запроса, как и полноту получаемого результата, он может, отыскав дополнительные сведения, или так организовав процесс, чтобы часть результатов поиска могла использоваться для подтверждения или отрицания адекватности другой части.

В то же время, для пользователей-профессионалов характерна устойчивость тематического профиля. Когда они являются "информационно-ориентированными", то им свойственно желание и способность организовать информационное пространство проблемы. Это означает, что пользователь создаёт по существу новый, "самостоятельный" проблемно-ориентированный, индивидуально обновляемый и пополняемый ИР, включающий помимо подборок документов также и метаинформацию, например, словари специальной терминологии, классификаторы предметных областей, описания ресурсов и т.д.

Особенность работы пользователя в режиме "самообслуживания", в контексте задачи автоматизации совокупной деятельности, означает, что система должна представлять среду, обеспечивающую поддержку функций потребителя по обработке найденной информации, а также традиционно относящихся к функциям информационного посредника (интерпретация запроса, его перевод на информационно-поисковый язык, выбор ИР, автоматизированный поиск и ручной отбор материалов), но также и такие "обеспечивающие" функции, как: структурирование информационной потребности, лексическая адаптация запроса, оценка, систематизация и обработка результатов поиска, причём на уровне как отдельного документа, так и информационных ресурсов в целом.

Технические возможности, которыми располагает пользователь, позволяют ему создавать информационный ресурс - формировать массивы, систематизировать и создавать внешние представления их содержания для собственного или внешнего использования. ИПС делятся на: традиционные (ручные, механические, электромеханические) и автоматизированные (электронные).

Автоматизированные ИПС (АИПС), используют компьютерные программно-технические средства и технологии и предназначаются для нахождения и выдачи пользователям информации по заданным критериям. Определяющими для понимания методов автоматизации поиска являются два следующих фактора:

сравниваются не сами объекты, а описания - так называемые "поисковые образы";

сам процесс является сложным (составным и не одноактным) и обычно реализуется последовательностью операций.

Данные в АИПС вводятся на основе специально разрабатываемых форматов ввода. Все сведения об одном объекте в ИПС представляются в виде систематизированных данных, образующих одну строку таблицы и называются записью. При этом, если ИПС представляет электронный каталог библиотеки, то любое библиографическое описание (БО) документа в нём - это одна запись, состоящая из полей, равных количеству элементов БО. Совокупность записей образует БД, которая, как правило, хранится в одном файле. Совокупность БД, объединенных одной СУБД, образует банк данных. Поскольку АИПС инструмент, используемый человеком при поиске (а не интеллектуальным автомат для поиска информации - готовых решений задач основной деятельности), эффективность её использования зависит от того, насколько хорошо человек знает природу операционных объектов и свойства инструмента, посредством которого он работает с этими объектами. Информационный поиск подразумевает использование определённых стратегий, методов, механизмов и средств.

Поведение пользователя, осуществляющего управление процессом поиска, определяется не только информационной потребностью, но и инструментальным разнообразием системы - технологиями и средствами, предоставляемыми системой.

Стратегия поиска - общий план (концепция, предпочтение, установка) поведения системы или пользователя для выражения и удовлетворения информационной потребности пользователя, обусловленный как характером цели и видом поиска, так и системными "стратегическими" решениями - архитектурой БД, методами и средствами поиска в конкретной АИПС. Выбор стратегии в общем случае является оптимизационной задачей. На практике в значительной степени он определяется искусством достижения компромисса между практическими потребностями и возможностями имеющихся средств.

Метод поиска - совокупность моделей и алгоритмов реализации отдельных технологических этапов: построения поискового образа запроса (ПОЗ), отбора документов (сопоставление поисковых образов запросов и документов), расширения и реформулирования запроса, локализации и оценки выдачи. Поисковый образ запроса - записанный на ИПЯ текст, выражающий смысловое содержание информационного запроса и содержащий указания, необходимые для наиболее эффективного осуществления информационного поиска. Методы поиска, т.е. выделение подмножества документов, потенциально содержащих описание решения задачи отбора документов (ОД), являются отражением процесса нахождения решения и зависят от характера задачи и предметной области.

Рассматривая поиск как итеративный процесс, методы сокращения пространства перебора (просматриваемого подмножества) образуют по существу методологическую основу стратегии поиска и могут быть разделены на следующие классы - методы поиска в:

одном пространстве (обычно, тематическом);

иерархически упорядоченном пространстве;

альтернативных пространствах;

динамическом (изменяющемся в процессе поиска) пространстве.

Реализуемый метод построения обеспечивать эффективные способы построения запроса для достижения целей различного типа.

Механизмы поиска - совокупность реализованных в системе моделей и алгоритмов процесса формирования выдачи документов в ответ на поисковый запрос.

Средства поиска, с одной стороны, - взаимозависимый комплекс информационно-поисковых языков (ИПЯ) и языков определения/управления данными, обеспечивающий структурные и семантические преобразования объектов обработки (документов, словарей, совокупностей результатов поиска), а с другой, - объекты пользовательского интерфейса, обеспечивающие управление последовательностью выбора операционных объектов конкретной АИПС.

Поисковые технологии - унифицированные (оптимизированные в рамках конкретной АИПС) последовательности эффективного использования отдельных средств поиска в процессе взаимодействия пользователя с системой для устойчивого получения конечного и промежуточных результатов.

Навигация как реализация процесса поиска по запросу в выбранной БД - целенаправленная, определяемая стратегией, последовательность использования методов, средств и технологий конкретной АИПС для получения и оценки результата.

Средства навигации позволяют пользователю осуществлять управление процессом поиска. Они предоставляются пользователю в виде интерфейса, позволяющего организовать более или менее эффективный процесс взаимодействия с БД. При этом "дружественность" интерфейса характеризуется не только эргономичностью и понятностью, но и вариантностью выбора операционных объектов.

Процесс поиска информации представляет последовательность шагов, приводящих при посредстве системы к некоторому результату, и позволяющих оценить его полноту. Так как пользователь обычно не имеет исчерпывающих знаний об информационном содержании ресурса, в котором проводит поиск, то оценить адекватность выражения запроса, равно как и полноту получаемого результата, он может, основываясь лишь на внешних оценках или на промежуточных результатах и обобщениях, сопоставляя их, например, с предыдущими.

Процесс поиска можно представить в виде следующих основных компонент:

1) формулирование запроса на естественном языке, выбор поисковых системы и сервисов, формализация запрос на соответствующем ИПЯ;

2) проведение поиска в одной или нескольких поисковых системах;

3)обзор полученных результатов (ссылок);

4) предварительная обработка полученных результатов: просмотр содержания ссылок, извлечение и сохранение релевантных и пертинентных данных;

5) при необходимости, модификация запроса и проведение повторного (уточняющего) поиска с последующей обработкой полученных результатов.

Для уменьшения объёма отобранных материалов осуществляют фильтрацию результатов поиска по типу источников (сайтов, порталов), тематике и другим основаниям.

По используемым поисковым технологиям ИС можно разбить на 4 категории:

1. Тематические каталоги;

2. Специализированные каталоги (онлайновые справочники);

3. Поисковые машины (полнотекстовый поиск);

4. Средства метапоиска.

В Интернете ИПС размещается на одном или нескольких серверах. В ИПС собирается, индексируется и регистрируется информация о документах, имеющихся в обслуживаемой системой группе веб-серверов. В документах индексируются все значащие слова или только слова из заголовков. Тематические каталоги предусматривают обработку документов и отнесение их к одной из нескольких категорий, перечень которых заранее задан. Фактически это индексирование на основе классификации.

Индексирование может проводиться автоматически или вручную с помощью специалистов, просматривающих популярные веб-узлы и составляющих краткое описание документов-резюме (ключевые слова, аннотация, реферат). Специализированные каталоги или справочники создаются по отдельным отраслям и темам, по новостям, по городам, по адресам электронной почты и т. п.

Поисковые машины (самое развитое средство поиска в Интернете) реализуют технологию полнотекстового поиска. Индексируются тексты, расположенные на опрашиваемых серверах. Индекс может содержать информацию о нескольких миллионах документов. Например, в индексе популярной ИПС "AltaVista" более 56 млн. URL-адресов.

При использовании средств метапоиска запрос осуществляется одновременно несколькими поисковыми системами. Результат поиска объединяется в общий, упорядоченный по степени релевантности список. Каждая система обрабатывает только часть узлов сети, что позволяет расширить базу поиска. К подобному классу можно отнести и "персональные программы поиска", позволяющие формировать свои собственные инструменты метапоиска (например, автоматически опрашивать часто посещаемые узлы).

Базы информационных данных могут содержать практически любые виды информации, в том числе в любой комбинации. Информационный поиск осуществляется как по существующим в полнотекстовых ЭИР терминам, так и по специальным элементам, входящим в состав ИПЯ.

Для формирования запросов используются специальные информационно-поисковые языки. ИПС внутри найденной выборки обычно пытаются расположить документы в порядке их "релевантности", то есть близости к введенному пользователем запросу. Критериев такой близости много и выявление близких "по смыслу" к запросу документов не решает проблемы получения информации при отсутствии релевантного документа.

Подобная ситуация достаточно тривиальна, в том числе и потому, что пользователь зачастую ищет документ, который сам собирается написать. Следует отметить, что в результате проведенного поиска пользователь может получить как релевантные, пертинентные, так и нерелевантные и непертинентные подмассивы данных. ИПС фактически являются системами информационного обеспечения и представляют собой базы и банки данных. В качестве объекта в них выступает индивид, организация, отрасль, регион и т.п. Субъектом информационного обеспечения является специалист-информатик, любой потребитель информации.

4. Организация поиска

Предлагается процедуру поиска необходимой информации разделить на девять основных этапов:

Определение области знаний;

Выбор типа и источников данных;

Сбор материалов необходимых для наполнения информационной модели;

Отбор наиболее полезной информации;

Выбор метода обработки информации (классификация, кластеризация регрессионный анализ и т.д.);

Выбор алгоритма поиска закономерностей;

Поиск закономерностей, формальных правил и структурных связей в собранной информации;

Творческая интерпретация полученных результатов;

Интеграция извлеченных "знаний".

Для проведения поиска первоначально на компьютере пользователя загружается интерфейс работы с соответствующей БД. Это может быть локальная или удалённая БД. Первоначально следует определиться с видом поиска (простой, расширенный и т.д.). Затем с набором предлагаемых для поиска полей. ИПС могут предложить для ввода одно или несколько полей. В последнем случае это обычно поля: автора, заглавия (названия), временного периода, вида документа, ключевых слов, рубрик и др. При формировании запроса практически все системы позволяют использовать логические элементы "И", "ИЛИ", "НЕТ".

5. Технологии поиска информации

Поисковые средства и технологии, используемые для реализации информационных потребностей, определяются типом и состоянием решаемой пользователем задачи основной деятельности: соотношением его знания и незнания об исследуемом объекте.

Кроме того, процесс взаимодействия пользователя с системой определяется уровнем знания пользователем содержания ресурса (полноты представления, достоверности источника и т.д.) и функциональных возможностей системы как инструмента. В целом эти факторы обычно сводятся к понятию "профессионализма" - информационного (подготовленный/неподготовленный пользователь) и предметного (профессионал/непрофессионал) "профессионализма".

Процесс поиска информации обычно носит эмпирический характер. Он представляет последовательность шагов, приводящих при посредстве системы к некоторому результату, позволяющих оценить его полноту. При этом поведение пользователя, как организующее начало управления процессом поиска, мотивируется не только информационной потребностью, но и разнообразием стратегий, технологий и средств, предоставляемых системой. Обычно пользователь не имеет исчерпывающих знаний об информационном содержании ресурса, в котором проводит поиск, поэтому оценить адекватность выражения запроса, как и полноту получаемого результата, он может, отыскав дополнительные сведения, или организовав процесс так, чтобы часть результатов поиска могла использоваться для подтверждения или отрицания адекватности другой части.

Операционными объектами, непосредственно участвующими во взаимодействии пользователей с поисковой системой являются поисковый образ документа (ПОД) и ПОЗ, соответствие которых устанавливается поисковым механизмом АИПС на формальном уровне.

Адекватность образа действительному содержанию документа определяется качеством процесса свертки информации и уровнем знания субъектом средств отражения - концептуальной схемы предметной области и возможностей ИПЯ. Поисковый образ документа - описание документа, выраженное средствами ИПЯ и характеризующее основное смысловое содержание или какие-либо другие признаки этого документа, необходимые для его поиска по запросу.

Большинство ПС изначально предлагают пользователям либо БО, либо ссылки на полные или частичные документы, их описание и другое, хранящиеся в различных АИПС. Современные ПС позволяют определиться и указать какой и в каком виде источник информации интересует пользователя. Методы обработки результатов поиска. По характеру преобразований методы обработки результатов поиска можно условно разделить на две группы:

1. Структурно-форматные преобразования.

2. Структурно-семантические преобразования (информационно-аналитические, логико-семантические).

6. Реализация поиска

Что обычно ищут в Интернете: персональные данные об индивидуумах и организациях; различные адресные данные; конкретные материалы (статьи, книги, фотографии, справочные данные, программное обеспечение и др.) в том числе место их хранения; где и сколько стоят те или иные материалы, услуги, продукты и т.п.; информационные сайты и порталы и др. Общепринята организация поиска по начальным фрагментам слова (поиск с усечением справа), например, вместо слова "библиотечный" можно ввести его фрагмент "библиоте*". При этом будут найдены документы, в которых содержится не только слово "библиотечный", но и "библиотека", "библиотекарь", "бибилотековедение" и др. В каждом случае пользователь должен представлять, что именно он хочет найти, так как в предложенном ему варианте будет найдено гораздо большее количество документов, чем при задании данного слова полностью (без усечения). В подобном случае возможно в полученном массиве информации провести уточняющий поиск и в результате получить более релевантные и пертинентные данные.

7. Критерии оценки поиска

Критерием результата поиска является получение пользователем списка документов, одного документа или их частей, максимально удовлетворяющего его потребностям, сформулированным в поисковом запросе. В ИПС принято формировать список полученных в результате поиска документов по их релевантности. Различают критерии смыслового и формального соответствия между поисковым предписанием и выдаваемым документом. Полнота и точность поиска являются взаимосвязанными показателями. Увеличение одного из них ведёт к снижению другого. В современных ИПС при сбалансированном поиске их значения составляет примерно 70%. Следует учитывать ситуацию, при которой список выданных поисковой системой ссылок содержит несколько, а порой и десятки разных адресов с одним и тем же текстом. Подобные ссылки характеризуются как дубликаты. Из них, при подсчёте коэффициентов учитывается только один документ.

Заключение

Рассмотрение основных средств хранения и поиска документов и решений в разработках систем компьютерного ведения документов.

Технологии и методы, которые будут рассмотрены, стоят весьма дорого и рассчитаны в основном для крупных организаций, потому что как показывает практика крупным организациям довольно трудно определиться в выборе нужной модели документооборота. Главные составляющие при построении и внедрении системы автоматического документооборота. Исходя из современных требований, предъявляемых к качеству работы организаций, нельзя не отметить, что эффективная работа его всецело зависит от уровня оснащения офиса компании электронным оборудованием, таким, как компьютеры, программным обеспечением, средствами связи, копировальными устройствами.

В этом ряду особое место занимают базы данных и другое программное обеспечение, связанное с их использованием в качестве инструмента для делопроизводства и рационализации финансового труда. Их использование позволяет сократить время, требуемое на подготовку конкретных маркетинговых и производственных проектов, уменьшить непроизводительные затраты при их реализации, исключить возможность появления ошибок в подготовке технологической и других видов документации, что дает для малого предприятия прямой экономический эффект.

Разумеется, для раскрытия всех потенциальных возможностей необходимо применять в работе комплекс программных и аппаратных средств максимально соответствующий поставленным задачам.

Поэтому в настоящее время велика потребность различных организаций в компьютерных программах, поддерживающих и согласующих работу управленческого и финансового звеньев компании, а также в информации о способах оптимального использования имеющегося у компании компьютерного оборудования.

Список литературы

1. http://inftis.narod.ru/is/is-n8.htm.

2. http://ntbu.ru/sp/ip03.htm.

3. http://high-info.ru/Sredstva_hraneniya_doc.htm#.

Размещено на Allbest.ru


Подобные документы

  • Методы и инструментарий хранения данных во Всемирной сети. Понятие и разновидности гипертекстовых документов и графических файлов. Принципы работы поисковых систем и правила поиска нужной информации. Характеристика некоторых поисковых систем Сети.

    курсовая работа [30,9 K], добавлен 18.04.2010

  • Характеристика методов поиска информации в Интернете, а именно - с использованием гипертекстовых ссылок, поисковых машин и специальных средств. Анализ новых интернет ресурсов. История возникновения и описание западных и русскоязычных поисковых систем.

    реферат [17,2 K], добавлен 12.05.2010

  • Хранение данных в сети Internet. Гипертекстовые документы, виды файлов. Графические файлы, их виды и особенности. Поисковые системы и правила поиска информации. Обзор поисковых систем сети Internet. Все о поисковых системах Yandex, Google, Rambler.

    курсовая работа [918,3 K], добавлен 26.03.2011

  • Средства поиска информации в сети Интернет. Основные требования и методика поиска информации. Структура и характеристика поисковых сервисов. Глобальные поисковые машины WWW (World Wide Web). Планирование поиска и сбора информации в сети Интернет.

    реферат [32,2 K], добавлен 02.11.2010

  • Повышение эффективности (снижение времени, увеличение релевантности документов) поиска данных в больших массивах неструктурированной текстовой информации с помощью поисково-информационных и поисково-справочных машин. Классификация сайтов. Языки запроса.

    дипломная работа [523,2 K], добавлен 07.07.2015

  • Основные протоколы, используемые в Интернет. Инструменты поиска в Интернете. Популярные поисковые системы. Как работают механизмы поиска. Средства поиска и структурирования. Автоматизированная навигация по Сети. Критерии качества работы поисковой машины.

    реферат [19,7 K], добавлен 14.02.2012

  • Обзор понятия и принципов функционирования электронной почты - средства обмена информацией, подготовленной в электронном виде, между людьми, имеющими доступ к компьютерной сети. Информационно-поисковые системы. Параметры эффективности поиска информации.

    презентация [677,8 K], добавлен 12.12.2012

  • Анализ существующих поисковых систем и используемых ими алгоритмов поиска документов. Разработка информационно-поисковой системы словарного типа, способной осуществлять релевантный поиск документов, особенности ее структуры и информационно-поисковой базы.

    дипломная работа [942,1 K], добавлен 19.05.2011

  • Выбор и анализ языка программирования для проектирования системы автоматизированного поиска по таблицам. Ввод в теории поиска и принятия решений. Роль формальных методов при решении практических проблем выбора. Средства ввода и корректировки таблиц.

    отчет по практике [53,0 K], добавлен 12.05.2015

  • Организация хранения данных. Система управления базами данных. Поиск информации, обзор существующих поисковых систем. Особенности работы поискового движка. Использование индексов в поисковых системах. Особенности поиска различных видов информации.

    курсовая работа [4,6 M], добавлен 14.05.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.