Разработка прототипа веб-приложения "Репозиторий электронных ресурсов"

Анализ бизнес-процессов хранения и поиска данных на кафедре информационных технологий. Создание автоматизированной информационно-поисковой системы. Методы интеллектуального поиска информации. Разработка приложения для хранения электронных ресурсов.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 17.10.2016
Размер файла 1,5 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Введение

Большое количество информации, а именно библиографические ресурсы, доступные в электронном варианте, включающие в себя учебно-методические пособия, учебные и студенческие работы, университетские нормативные и распорядительные документы, используются преподавателями и сотрудниками кафедры информационных технологий в бизнесе ежедневно, но существует ряд проблем, а именно:

Поиск нужного документа является достаточно трудоемким процессом, поэтому хранение документов на кафедре организовано неэффективно, так, например, часто название файла не всегда отражает суть назначения документа и найти его сложно. Кроме этого, возможности файловой системы по поиску нужного файла сильно ограничены. Поэтому возникает необходимость в хранилище, организованном таким образом, что будет возможность просмотра основных атрибутов, метаданных ресурса.

Сотрудники сами организуют процесс хранения документов, создают папки по своему усмотрению. Процесс хранения также легко упорядочить путем создания соответствующей системы.

Добавленный документ может быть перемещен в другую папку, удален или скопирован в другую папку, что приводит к созданию дубликатов одного и того же документа, иными словами, появляются разные версии одного и того же файла, что усложняет поиск актуальной версии. Это говорит о том, что должна быть единая база данных, защищенная от дублирования элементов.

Обобщая вышесказанное можно сделать вывод, что появилась необходимость разработки системы, которая позволит не только организовать хранение данных, но и осуществлять быстрый и эффективный поиск информации по электронным ресурсам. Данная система должна представлять собой хранилище электронных ресурсов на кафедре информационных технологий в бизнесе оснащенное модулем интеллектуального поиска.

Разработки в этой области ведутся уже долгое время и созданы системы, которые применяются не только в сфере образования. Как вариант, электронная библиотека "eLibrary" [4], широко используемая преподавателями, хранит научную литературу, что очень похоже на нашу разработку, но данное решение имеет ряд недостатков, критичных для данной системы, например, поиск информации занимает достаточно продолжительное время, а иногда результаты настолько обширны, что библиотека не может представить их пользователю и выдает ошибку.

Рассматривая локальные программы с функциями репозитория, следует обратить внимание на DSpace, Greenstone, EPrints [19], которые обладают рядом преимуществ, в том числе интеллектуальным поиском, включающем в себя поиск по метаданным, которые, в свою очередь, не русифицированы, что говорит о том, что их внедрение в российский университет не оправдано.

Объектом исследования является файловое хранилище документов кафедры информационных технологий в бизнесе. В рамках исследования рассмотрены разные типы документов, используемые преподавателями и сотрудниками, представленные в различных форматах. Предметом исследования являются средства создания автоматизированной информационной системы "Репозиторий электронных ресурсов".

Целью выпускной квалификационной работы является разработка прототипа веб-приложения "Репозиторий электронных ресурсов", позволяющего осуществлять локальное хранение и поиск электронных ресурсов на кафедре информационных технологий в бизнесе по ключевым словам.

Для достижения поставленной цели необходимо решить следующие задачи:

Анализ бизнес-процессов хранения и поиска данных на кафедре информационных технологий в бизнесе.

Исследование методов интеллектуального поиска информации, включающих в себя обработку знаний и онтологии в сети Интернет и выбор наиболее подходящего для решения поставленной задачи по разработке системы.

Анализ существующих систем по хранению и поиску электронных ресурсов.

Определение требований к системе, исходя из нужд кафедры.

Проектирование системы "Репозиторий электронных ресурсов".

Разработка прототипа веб-приложения для хранения и поиска электронных ресурсов на кафедре информационных технологий в бизнесе.

Кроме того, для разработки системы, отвечающей потребностям пользователя, необходимо проанализировать условия ее использования, а именно:

уточнить пространство поиска;

определить форматы используемых документов;

выбрать наиболее оптимальный в текущих условиях метод поиска.

На основании проведенного анализа определяются требования к системе, которые являются основой для составления технического задания на разработку системы.

Разрабатываемая система должна покрывать все недостатки существующих решений, а именно, база данных, хранящая все данные о ресурсах, расположена локально, что не зависит от необходимости доступа к широкополосной сети, кроме того, обладает результативным интеллектуальным поиском, а также полностью русифицирована, из чего следует, что и метаданные ресурсов также доступны для понимания любому пользователю.

В качестве применимых методов интеллектуального поиска информации следует рассмотреть метод Левенштейна нормализации запроса пользователя, метод ключевых слов для представления информации, индуктивный и дедуктивный методы информационного поиска.

При разработке прототипа системы поиска электронных ресурсов будут использоваться методы объектно-ориентированного программирования и проектирования, а также язык графического представления моделей - UML для формализации результатов анализа деятельности кафедры и требований.

Выпускная квалификационная работа состоит из трех глав:

Первая глава содержит анализ бизнес-процессов хранения и поиска данных на кафедре информационных технологий в бизнесе, а также определение требований к системе, исходя из нужд кафедры.

Вторая глава включает в себя анализ существующих систем по хранению и поиску электронных ресурсов.

Третья глава включает проектирование разрабатываемой системы и представление результатов разработки прототипа системы.

1. Анализ деятельности кафедры информационных технологий в бизнесе

В данной главе проводится анализ деятельности кафедры информационных технологий в бизнесе. Анализ показывает, насколько важен процесс поиска для преподавателей, работающих на кафедре, и, как остро встает вопрос о необходимости создания автоматизированной информационно-поисковой системы. Анализ бизнес-процессов позволяет выделить потребности пользователей, а также функциональные требования к системе, условия эксплуатации и другие специальные требования.

Для того чтобы формализовать требования, необходимо выполнить анализ деятельности кафедры информационных технологий в бизнесе и описать бизнес-процессы, связанные с работой преподавателей кафедры.

Каждый преподаватель в процессе своей работы выполняет следующие задачи:

разрабатывает программы учебных дисциплин, за которые он ответственен;

подготавливает документы, включающие в себя научные публикации и методические материалы, участвующие в образовательном процессе;

участвует в образовательном процессе.

Описание бизнес-процесса "Разработка программы учебной дисциплины"

Каждый год сотрудники кафедры разрабатывают программы учебных дисциплин для студентов. Данные программы включают в себя следующие обязательные пункты в соответствии с регламентом разработки, согласования и утверждения программ учебных дисциплин, утвержденным ученым советом Национального исследовательского университета "Высшая школа экономики" от 01.03.2013 г.:

Рисунок 1.1 Диаграмма вариантов использования для бизнес-процесса "Деятельность преподавателей кафедры информационных технологий в бизнесе"

Область применения и нормативные ссылки.

Программа дисциплины составляется в соответствии с утвержденным образовательным стандартом и учебным планом, которыми сотрудники кафедры должны руководствоваться при их составлении.

Цели освоения дисциплины.

В данном разделе определяются и прописываются цели освоения дисциплины в областях обучения и воспитания.

Компетенции обучающегося, формируемые в результате освоения дисциплины.

В данном разделе четко прописывается такие пункты как список получаемых компетенций, признаки освоения каждой из них, формы и методы обучения, способствующие формированию и развитию компетенции.

Место дисциплины в структуре образовательной программы.

В данном разделе определяются дисциплины, являющиеся базисом для описываемой дисциплины, а также приводится список навыков и компетенций студентов для успешного овладения дисциплиной.

Тематический план дисциплины.

Данный раздел содержит таблицу с описанием временных затрат по часам на аудиторную и самостоятельную работу в соответствии с разделом изучаемой дисциплины.

Формы контроля знаний студентов.

Данный раздел определяет количество контрольных заданий для оценки знаний студентов и время их проведения. Для контроля знаний могут быть использованы:

письменные тесты;

письменные контрольные задания в виде примеров решения практических задач;

письменные работы в виде списка тем для эссе;

письменные или устные контрольные задания в виде списка открытых теоретических вопросов.

Для определения формы проведения контроля знаний, преподавателю требуется выполнить поиск контрольных заданий, составленных ранее, либо разработать новое контрольное задание (см. рисунок 1.2).

Рисунок 2.2. Фрагмент диаграммы вариантов использования для бизнес-процесса "Разработка плана учебной дисциплины"

Содержание дисциплины.

Данный раздел содержит подробное описание разделов изучаемой дисциплины по темам. Преподаватель может использовать уже разработанный документ рабочей дисциплины, составленной сотрудником иного кампуса Высшей Школы Экономики или этим же сотрудником, но разработанным в предыдущие года, когда составляет данный раздел.

Образовательные технологии.

Данный раздел содержит методические указания для преподавателей и студентов.

Оценочные средства для текущего контроля и аттестации студента.

Данный раздел формирует список вопросов для оценки качества освоения дисциплины, описывает тематики заданий текущего контроля, а также приводит примеры заданий для проведения промежуточного/итогового контроля.

Порядок формирования оценки по дисциплине.

Порядок формирования оценки по дисциплине определяется в соответствии с описанием образовательной деятельности Филиала в "ПОЛОЖЕНИЕ о Пермском филиале федерального государственного автономного образовательного учреждения высшего профессионального образования «Национальный исследовательский университет «Высшая школа экономики" от 25 марта 2011 г».

Учебно-методическое и информационное обеспечение дисциплины.

Данный раздел определяет литературу по направлениям:

основная литература;

базовый учебник;

справочники, словари, энциклопедии;

программные средства;

дополнительная литература;

дистанционная поддержка дисциплины.

Список литературы по каждому направлению формируется из литературы, располагаемой кафедрой информационных технологий в бизнесе. Учебник или справочник, прописанные в программе дисциплины, преподаватель может предоставить студентам в электронном или печатном виде. Во время формирования списка литературы, преподаватель должен выполнить поиск научной литературы, учебно-методических пособий, а также неизданных материалов, разработанных преподавателями, который осуществляется по файловому хранилищу, организованному на данный момент вручную сотрудниками кафедры (см. рисунок 1.3.).

Материально-техническое обеспечение дисциплины.

Данный раздел прописывает техническое оборудование, необходимое в процессе преподавания дисциплины.

Рисунок 1.3. Фрагмент диаграммы вариантов использования для бизнес-процесса "Разработка плана учебной дисциплины"

Таким образом, в процессе подготовки программы дисциплины преподаватель вынужден несколько раз искать нужные документы, такие как научные, учебно-методические пособия, нормативные документы и стандарты. В приложении А представлена общая диаграмма вариантов использования для бизнес-процесса; в приложении Б - диаграмма активности. Особенно трудоемкими становится осуществление поиска документов при создании информационного обеспечения программы учебной дисциплины, ввиду того, что требуется подобрать литературу, охватывающую все темы курса, прописанные в содержании дисциплины; и найти разработанные контрольные задания для контроля знаний по дисциплине (см. рисунок 1.4 и 1.5.).

По причине того, что поиск проводится вручную путем перебора всех папок с возможным местонахождением документа, процесс требует достаточно высоких временных и трудовых затрат. Что позволяет понять, что процесс поиска организован неэффективно. Допустимо возникновение такой ситуации, что файл может быть так и не найден, а это, в свою очередь, может повлиять на качество составленного документа программы учебной дисциплины.

Рисунок 1.4. Фрагмент диаграммы активности бизнес-процесса "Разработка программы учебной дисциплины"

Преподавателям в рамках данного бизнес процесса требуется искать научную литературу с целью описания базового учебника и формирования списка основной литературы, а также словарей, справочников и энциклопедий.

Рисунок 1.5. Фрагмент диаграммы активности бизнес-процесса "Разработка программы учебной дисциплины"

Базовая литература, как правило, предопределяется заранее, и ограничивается несколькими изданиями. В данном случае поиск будет эффективным, если он проводится по таким параметрам как:

по названию издания/материала;

по имени автора;

по названию документа;

по году публикации.

Для подбора дополнительной литературы может потребоваться поиск не только научного изданного материала, но и неизданного материала преподавателей, а также документов с учебно-методическим материалом по похожей тематике. В данном случае требуется производить поиск по содержанию документа, с учетом синонимов и взаимозависимости слов текста, а также проводить кластеризацию документов. Необходимо рассмотреть технологии семантического поиска, чтобы сформировать кластеры из документов по похожей тематике.

Учебные программы, разрабатываемые преподавателями, хранятся в формате “.xsl”, а научные и методические материалы - в форматах “.docx”, “.doc”, “.pdf”, “.pptx”. Следовательно, подразумевается, что система должна работать с этими форматами документов.

Необходимо отметить, что некоторые дисциплины приводятся на английском языке, или литература имеется только в английском варианте для некоторых дисциплин. Это значит, что и преподаватели иногда производят поиск документов с текстом на английском языке. Таким образом, система должна поддерживать работу и производить поиск документов как с русскоязычным содержанием, так и документов с английским содержанием.

Некоторые издания неупорядоченно хранятся на кафедре в печатном варианте. Для оптимизации процесса поиска не только электронных изданий, но и печатных, необходимо присвоить некоторый полочный шифр каждой печатной книге, состоящий из номера помещения, номера шкафа и номера полки. Информация об издании и полочном шифре будет занесена в базу данных.

Так как поиск осуществляется только по материалам кафедры, то поиск во внешних источниках не требуется.

Таким образом, можем сформировать список требований, вытекающих из анализа бизнес-процесса "Разработка программы учебной дисциплины".

Возможность работы с форматами документов: “.doc”, “.docx”, “.pdf”, “.xsl”, “.pptx”.

Поддержка следующих вариантов поиска документов: поиск по ключевым словам, интеллектуальный поиск по содержанию документа, с учетом семантики и контекста.

Поддержка русского и английского языка при работе с документамим.

Наличие информации о местоположении печатных изданий.

Поиск только в локальном хранилище электронных документов кафедры информационных технологий в бизнесе.

Описание бизнес-процесса "Создание учебно-методических материалов и научных публикаций"

Процесс создания учебно-методических материалов и научных публикаций включает в себя деятельность, связанную их подготовкой. К методическим материалам относятся конспекты лекций, а также контрольно-измерительные материалы.

На начальном этапе преподаватель изучает материалы по своей теме, уже разработанные, которые включают в себя статьи, лекции и контрольно-измерительные материалы, а также использует их в соответствии с поставленной задачей. Для последующего их использования, требуется их найти среди хранилища локальных документов. В том случае, если это совершенно новая разработка, тогда преподаватель сначала формирует библиографический список, который является предпосылкой для проведения анализа исследований в данной области. Кроме внешних источников для поиска в данном случае, могут быть использованы локальные документы, сохраненные преподавателем в прошлом для проведения данной работы.

Преподаватель может отредактировать и отформатировать текст после подготовки первоначального текста публикации, а также провести повторный поиск необходимых документов в случае необходимости. После завершения работы готовый материал отправляется на публикацию или переносится в папку дисциплины с целью дальнейшего использования в образовательном процессе (см. рисунок 1.6).

Диаграмма активности для бизнес-процесса "Подготовка персональных публикаций" представлена в приложении С. Анализ диаграммы показывает, что процесс поиска документа имеет одну из основополагающих ролей в данном бизнес-процессе. В текущих условиях поиск производится вручную с помощью перебора всех папок с возможным местонахождением документа. Преподаватель вынужден тратить большое количество времени и усилий на поиск документа, т.к. нахождение документа становится успешным, как правило, после нескольких итераций (рисунок 1.7 и 1.8).

Для научной публикации могут быть использованы следующие источники:

диссертации;

публикации;

выпускные квалификационные работы;

авторефераты;

курсовые работы.

Рисунок 1.6. Диаграмма вариантов использования для бизнес-процесса "Создание учебно-методических материалов и научных публикаций"

Для систематизации научной литературы и учебно-методических работ могут использоваться универсальная десятичная классификация (УДК), государственный рубрикатор научно-технической информации (ГРНТИ) и ACM Classification. В данный момент рассматриваем универсальную десятичную классификацию, с использованием которой может быть организована классификация локальных научных документов, что значительно оптимизирует процесс поиска. Текущий выбор обусловлен тем, что данная классификация является достаточно подробной и будет полезна при построении базы знаний.

Рисунок 1.7. Фрагмент диаграммы активности бизнес-процесса "Создание учебно-методических материалов и научных публикаций"

Рисунок 1.8. Фрагмент диаграммы активности бизнес-процесса "Создание учебно-методических материалов и научных публикаций"

Для поиска лекций и контрольно-измерительных материалов могут быть использованы такие возможности поиска как, поиск по названию документа, по названию материала или издания, по автору, по году публикации, которые были описаны ранее.

Таким образом, из анализа бизнес-процесса "Подготовка персональных материалов" возникает потребность в поиске по классификатору УДК.

Описание бизнес-процесса "Участие в образовательном процессе"

Для успешного освоения учебной дисциплины студентам необходимо пользоваться литературой, которая указана в программе учебной дисциплины. Список литературы формируется из документов, хранящихся на серверных дисках кафедры информационных технологий в бизнесе. Поэтому требуется, чтобы и студенты имели доступ к материалам, необходимым для подготовки. Так, возникает потребность в предоставлении частичного доступа к файлам.

На данный момент, файловое хранилище реализовано в виде файлового сервиса. Студенты имеют доступ к одной общей папке. Преподаватель может выложить туда документ для общего доступа. Однако при таком подходе предоставления доступа возникают проблемы:

сохранности файлов, т.е. любой пользователь может изменить/удалить/добавить/переметить документ;

дублирования файлов, т.е. один и тот де документ может содержаться в личной папке преподавателя и его копия в общей папке;

обновления файлов, т.е. если преподаватель внес некие коррективы в документ, то ему следует добавить новую версию документа в общую папку.

Данный бизнес-процесс рассматривается с точки зрения предоставления доступа студентам, поэтому некоторые его детали не учитываются. Согласно диаграмме вариантов использования (см. рис. 1.9) студенты получают доступ к необходимым документам из локальной сети НИУ ВШЭ - Пермь, используя общую папку.

При проектировании системы в качестве пользователей необходимо учитывать студентов, кроме работников кафедры. При добавлении нового документа в базу данных, необходимо прописывать уровень доступа, что означает, что некоторые файлы должны быть защищены от несанкционированного доступа, некоторые напротив должны быть доступны студентам для просмотра и скачивания. Так, разграничение прав доступа должно осуществляться на уровне базы данных.

Рисунок 1.9. Диаграмма вариантов использования для бизнес-процесса "Участие в образовательном процессе

Ввиду вышесказанного, выделим еще одно требование к системе, а именно: система должна обеспечивать разграничение прав доступа:

для работников кафедры (добавление/ удаление/ редактирование/ перемещение/ поиск/ чтение);

для студентов (просмотр/дублирование на съемный носитель).

Анализ условий функционирования системы

Проект системы разрабатывается для использования только на кафедре информационных технологий в бизнесе, поэтому, кроме информационных потребностей пользователей, следует также учитывать и технические требования.

На всех компьютерах кафедры установлена операционная система Microsoft Windows 7, следовательно, данная операционная система должна быть пригодна для функционирования проектируемой системы. Параметры технических средств основаны на том, что программа будет работать в ОС Microsoft Windows 7, следовательно, требования будут совпадать с прописанными для данной ОС.

При проектировании системы необходимо учитывать тот факт, что на данный момент НИУ ВШЭ не планирует финансировать данный проект. Исходя из этого факта, немаловажным требованием является бесплатность использования. Следовательно, при проектировании необходимо использовать только те инструменты и компоненты систем, которые находятся в открытом доступе и не требуют дополнительных финансовых вложений.

Для хранения метаданных ресурсов будет использоваться база данных MS SQL Server, которая будет развернута внутри локального хранилища кафедры информационных технологий в бизнесе..

База данных репозитория будет храниться в общей папке, доступной всем пользователям, как студентам, так и преподавателям, поэтому необходимо защитить ее от изменения другими пользователями, кроме администратора, используя уникальный логин и пароль.

Определение требований к системе

Из анализа бизнес-процессов, немаловажной частью которых является поиск электронных документов, выделим информационные потребности пользователей и, как следствие, функциональные требования.

Из анализа технических условий эксплуатации системы, выделим ряд требований.

Доступность системы/компонентов/инструментов для разработки.

ОС Microsoft Windows 7 и выше.

Параметры технических средств совпадают с параметрами технических средств для ОС Microsoft Windows 7.

Система должна обеспечивать разграничение прав доступа:

для работников кафедры (добавление/удаление/редактирование/ перемещение/поиск/просмотр/чтение);

для студентов (просмотр/скачивание на съемный носитель).

Для удовлетворения информационных потребностей пользователей, необходимо автоматизировать процесс поиска научных документов посредством внедрения автоматизированной информационно-поисковой системы. Возможны два варианта внедрения системы:

Использовать имеющееся решение, если оно удовлетворяет всем текущим требованиям.

Разработать новое решение, отвечающее всем текущим требованиям.

Дополнить имеющееся решение, если оно удовлетворяет всем текущим требованиям.

Перечисленные требования используются в качестве критериев для оценки существующих решений или проектирования новой системы.

2. Анализ существующих информационно-поисковых систем

В условиях обогащения данными современного общества, где информация является основой экономической деятельности, значительно изменились роль и функции библиотек как основных источников хранения и распространения источников научной деятельности. Совместно с развитием информационных технологий появляются принципиально новые формы библиотечного обслуживания и сервисов, которые действуют в рамках многочисленных библиотечных проектов.

Под электронной библиотекой, как правило, понимается интегрированная информационная система, предоставляющая возможности создания, хранения и эффективного использования информационных ресурсов, доступных через Интернет или локализованных в самой системе. Следовательно, электронная библиотека - это упорядоченная коллекция разнородных электронных документов, снабженных средствами навигации и поиска [1]. В сети Интернет есть большое количество электронных библиотек, все они очень похожи и обладают примерно одинаковыми функциональными возможностями.

Для точного понимания ситуации, сложившейся на рынке информационных технологий в части электронных библиотек, рассмотрим четыре наиболее известных и крупных научные электронные библиотеки.

Преимущества и ограничения eLIBRARY.RU

Развитие современных технологий, а также возникновение новых средств представления информации привело к появлению электронных версий научных журналов, которые были сначала доступны в локальных сетях, а после появилось возможность просмотра их и в сети Интернет.

Поэтому было принято решение создать российскую электронную библиотеку, которая представляла собой крупный библиотечный сервер, оригинальное программное обеспечение с организованной загрузкой на сервер электронных ресурсов и баз данных, а также обеспечением доступа к информации для российских ученых. В данный момент библиотека eLIBRARY содержит коллекцию из более, чем 6,1 тысяч электронных журналов (почти 8.5 млн. полнотекстовых статей) и 650 издателей [8]. Рассмотрим функциональные возможности данной системы.

Зарегистрированные организации получают доступ к полным текстам научных статей при входе в библиотеку, которые доступны и с домашнего компьютера. Списки литературы, содержащие библиографическую информацию, обладают такими особенностями как, фрагментарность информации по теме, включение наиболее значимых документов и их видовое разнообразие (опубликованные и неопубликованные, печатные и электронные и т. д.).

Кроме того, есть возможность поиска по библиографическим рубрикам, представляющих собой отраслевой или многоотраслевой алфавитный библиографический список [9]. Библиографическая запись включает в себя следующие данные: название, подзаголовок, создающая организация, адрес, тип издания, язык, ISBN, год и место издания, число страниц, число цитирований в РИНЦ, индексы ББК и УДК, а также часть оглавления, справочная аннотация, оглавление, ключевые слова. С помощью ряда поисковых инструментов возможен просмотр всех публикаций автора и близких по теме документов.

В ходе тестирования данной библиотеки был выявлен недостаток, а именно во время поиска нужной информации запрос обрабатывается либо в течении нескольких минут, либо прерывается, а также выдает очень большое количество литературы, среди которой найти что-то стоящее очень сложно, что свидетельствует о недостаточности интеллектуального поиска.

Кроме того, большое количество документов находятся в закрытом доступе для бесплатного просмотра.

2.1 Преимущества и ограничения Google Scholar

Google Scholar - это платформа, реализующая простой и эффективный поиск научной литературы со всего мира. Типы текстов, по которым производится поиск - это прошедшие рецензирование статьи, диссертации, книги, рефераты, а также отчеты, опубликованные издательствами научной литературы, профессиональными ассоциациями, вузами и другими научными организациями [1].

Данная система индексирует большее количество журналов на русском языке, в отличие от международных баз данных Scopus и Web of Science, что предоставляет более полную статистику цитирования научных материалов на русском языке. Google Scholar имеет простой и дружелюбный интерфейс и является бесплатным ресурсом, доступным для любого устройства, подключенного к сети Интернет. Однако некоторые из документов могут быть скачаны или просмотрены целиком только за определенную плату, взимаемую on-line библиотеками, которые обладают правами на материал.

Поиск по базе данных бесплатен и доступен всем пользователям Интернета, однако есть возможности, которые доступны только зарегистрированным пользователям: просмотр истории своих поисковых запросов, получение рекомендаций, основанных на истории предыдущих поисковых запросов, сохранение данных в своей библиотеке, отслеживание цитирования как собственных работ, так и работ других авторов.

Еще одним преимуществом является то, что Google Scholar располагает собственными наукометрическими инструментами (метриками), которые помогут определить наиболее перспективные издания для дальнейших публикаций, но в настоящее время расчет показателей для русскоязычных публикаций не осуществляется.

Кроме этого имеются такие недостатки, как использование инициалов автора, таким образом, несколько различных авторов с той же самой фамилией и инициалами не могут быть дифференцированными, большое количество академических периодических изданий и журналов не внесены в указатели, отсутствует индексация и классификация, поиск осуществляется по ключевым словам в названиях журналов, статей, резюме или текстов, следовательно отсутствует интеллектуальный поиск [20].

2.2 Преимущества и ограничения Scopus

Scopus представляет собой крупнейшую единую реферативную базу данных, которая индексирует более 21,000 наименований научно-технических и медицинских журналов [12].

Содержит аннотации и информацию о цитируемости рецензируемой литературы со встроенными библиометрическими механизмами отслеживания, анализа и визуализации данных [23].

Данная система позволяет производить поиск по двум категориям: по автору и по организации. При просмотре выбранного ресурса появляется возможность производить просмотр у издателя, просматривать аннотацию к нужному ресурсу, а также отображает взаимосвязанные документы, что свидетельствует о наличии интеллектуального поиска в той или иной степени. Кроме того, в данной системе поддерживается экспорт файлов в различные форматы, такие как RIS, CSV, BibTex и текстовый файл в формате HTML.

Преимущественным недостатком является то, что доступ предоставляется только с площадки СГАУ, кроме того отсутствует возможность просмотра профиля интересующего автора, но, в то же время возможно создание собственного профиля с указанием интересов и прочей персональной информации [10].

2.3 Преимущества и ограничения Web of Science

Web of Science -- платформа, на которой размещены авторитетная политематическая реферативно-библиографическая и библиометрическая базы данных. В ней индексируются около 12 500 журналов, из которых около 170 -- российских [24]. Данная система дает возможность получить наиболее точный индекс цитируемости по наиболее эффектным исследованиям, чтобы помочь вам к глубокому открытию. Процесс поиска организован таким образом, что пользователь получает надежную, комплексную и междисциплинарную информацию от глобальных научных сообществ.

Поиск может быть выполнен по следующим параметрам: Topic, Author, Group Author, Source Title, Publication Year, Address и Conference. Для обозначения области поиска можно указать исходный язык, тип публикаций или тип документа. Также связанные записи позволяют осуществлять поиск по дисциплине, чтобы обнаружить информацию, упущенную поиском по ключевым словам, что говорит о том, что в системе присутствует некий элемент интеллектуального поиска. Кроме того, есть возможность получения ссылки на полнотекстовую статью. Некоторые ресурсы представлены в открытом доступе, а некоторые - в закрытом [24].

Результаты анализа информационно-поисковых систем с закрытым кодом

Проанализировав данные электронные библиотечные системы, можем составить сравнительную таблицу между текущими системами по функциональным требованиям (табл. 2.1), определенным в главе 1.

Сравнительный анализ существующих решений по функциональным требованиям для разрабатываемого решения показал, что из рассматриваемых аналогов нет системы, которая бы удовлетворяла всем выделенным требованиям. Следовательно, возникает необходимость создания системы, включающей в себя полный функционал, определенный вследствие анализа бизнес-процессов кафедры информационных технологий в бизнесе. В данном случае возникает потребность в анализе «внутренностей" данных систем, с целью понимания, какие идеи помогут упростить процесс создания программного продукта "Репозиторий электронных ресурсов". В данном случае мы сталкиваемся с такой проблемой, что рассмотренные ранее источники не находятся в открытом доступе и программный код рассмотреть невозможно. Следовательно, возникает потребность в анализе библиотечных систем с открытым кодом.

Библиотечные системы с открытым кодом, которые будут рассмотрены: DSpace, Greenstone, EPrints.

Таблица 2.1. Сравнительная таблица существующих решений по функциональным требованиям

Решение

Требование

eLIBRARY.RU

Google Scholar

Scopus

Web of Science

Возможность работы с текстовыми документами, форматов: “.doc”, “.docx”, “pdf, “xsl”, “pptx”.

Только “.doc”, “.docx”, “pdf”

Только “.doc”, “.docx”, “pdf”

Только “pdf”

Только “pdf”

Выделенные варианты поиска

+

+

+

+

Поиск по содержанию документа с учетом синонимов и взаимозависимости слов.

-

-

+

+

Поиск документов похожих тематик при помощи кластеризации поискового пространства.

-

-

+

-

Работа с документами с содержанием на русском и на английском языках.

+

+

+

+

Наличие информации о местоположении печатных изданий

-

-

-

-

Разграничение прав доступа

+

-

+

+

Бесплатность системы/компонентов/инструментов для разработки.

-

-

-

-

ОС Microsoft Windows 7

+

+

+

+

Параметры технических средств совпадают с параметрами технических средств для ОС Microsoft Windows 7

+

+

+

+

Локальное хранилище

+

-

+

-

2.4 Преимущества и ограничения DSpace

DSpace - это цифровая система управления ресурсами, которая позволяет библиотекам получать, хранить, индексировать и распространять научные и интеллектуальные данные. Данная система в основном используется для сбора библиографической информации, описания статей, работ, тезисов и диссертаций. DSpace адаптируется к различным потребностям сообщества. Функциональная совместимость между компонентами системы встроенная и придерживается международных стандартов для формата метаданных. Будучи платформой с открытым исходным кодом, DSpace может быть настроена так, что позволит расширять ее возможности. Некоторые из ее характеристик следующие:

это модель для открытого доступа и / или цифрового архивирования при многолетнем доступе;

определяет платформу для институционального репозитария и коллекций для поиска и извлекаемого с помощью Web;

помогает сделать доступным ресурсы на основе научных материалов в цифровых форматах. Коллекции будут открыты и взаимодополняемы.

Особенности DSpace:

Аутентификация.

DSpace позволяет пользователям ограничить доступ к элементам. Система надежно идентифицирует своих пользователей.

Авторизация.

Механизм, с помощью которого DSpace определяет, какой уровень доступа должен иметь конкретный пользователь, чтобы проверять ресурсы проверкой подлинности. Авторизация обеспечивается через пользовательские пароли, сертификаты X509 или LDAP. Контроль доступа может быть введен только авторизованным пользователям. Есть две встроенных группы: "Администраторы", которые могут сделать что-нибудь, и "Anonymous", которые представляют собой список, который содержит имена всех пользователей.

Нединамическая поддержка HTML документов.

DSpace поддерживает загрузку битовых потоков как есть. Этот механизм хорош для большинства файлов таких форматов как PDF, Word Documentи так далее. Что касается HTML документов,они являются сложными в том смысле, что они состоят из нескольких файлов и соединены друг с другом. Это имеет важные последствия, когда речь заходит о цифровых сохранениях. Веб-страницы также ссылаются или включают в себя содержание других мест, часто незаметных для конечного пользователя.

Поддержка OAI-PMH.

OAI PMH представляет собой протокол для сбора метаданных. Это позволяет сайтам программным способом извлекать метаданные из нескольких источников, а также предоставляют индексирование и связывание метаданных.

Управление объектами

Данный процесс в DSpace осуществляется через веб-интерфейс или пакетный файл импортера.

Импорт и экспорт.

Поддерживаются функции импорта и экспорта для Communities.

Статистика

Статистические отчеты / резюме могут быть использованы для проведения анализа хранилища, предоставляя информацию о том, какое количество элементов добавили, искали, а также количество людей, зарегистрированных в системе и т.д.

Ручная система

Потребление и виды поддерживаемых документов

DSpace позволяет удовлетворяет организационным потребностям большого учреждения. Система может функционировать со многими типами файлов, в том числе: PDF, HTML, JPEG, TIFF, MP3, AVI и т.д.

Соответствие стандартам.

Конфигурация платформы позволяет DSpace для хранить метаданные элемента в Dublin Core Metadata Schema. Это гарантирует, что данные могут быть обменены с другими совместимыми стандартами.

Оптимизированный поиск и обзор.

Система обеспечивает высокую производительность, полнофункциональный текстовый поиск по библиотеке. Она обеспечивает полнотекстовой кросс-платформенный поиск. По умолчанию просмотр в DSpace установлен по названию, автору и дате.

2.5 Преимущества и ограничения Greenstone

Greenstone - это цифровая библиотека, которая обеспечивает новый способ организации информации и делает ее доступной через Интернет. Коллекции информации содержат большое количество документов (как правило, от нескольких тысяч до нескольких миллионов), и стандартный интерфейс для их обработки. Типичная цифровая библиотека, созданная с Greenstone будет содержать множество индивидуально организованных коллекций, которые могут быть дополнены и перестроены автоматически. Есть несколько способов поиска информации в коллекциях Greenstone. Например, вы можете искать конкретные слова, которые появляются в тексте, или в пределах участка документа.

Поиск слова производится в Greenstone по полнотекстовым индексам из текста документа, которые позволяют проводить поиск любых слов по всему тексту документа. Индексы могут искать определенные слова, сочетания слов или фраз. Результаты упорядочены в соответствии с запросом. В большинстве коллекции, такие данные, как автор, название, дата, ключевые слова, и так далее, связаны с каждым документом. Эта информация называется метаданными. Интерфейс программы представлен на всех основных языках. Перед тем как отправить коллекции в Интернет, они проходят через сложные процедуры. Во-первых, документы импортируются в XML-совместимый архивный формат Greenstone, затем архивные файлы встраиваются в различные индексы для поиска и попадают в базу данных, которая имеет иерархическую структуру. Когда это будет сделано, коллекция выкладывается в сеть и отвечает на запросы о предоставлении информации.

Особенности Greenstone:

Доступ через веб-браузер.

Коллекции доступны через стандартный веб-браузер (Netscape или Internet Explorer) и объединить простые в использовании мощные средства поиска и просмотра.

Полный текст и поле поиска.

Пользователь может искать полный текст документов, или выбирать между индексами, построенными из различных частей документов. Например, некоторые коллекции обладают индексами полных документов, индексами разделов, названий, авторов. Результаты могут быть классифицированы по релевантности или отсортированы по элементу метаданных.

Гибкие средства просмотра.

Пользователь может просматривать списки авторов, названий, дат, классификацию структуры и так далее. Разные коллекции могут предложить различные поисковые возможности.

Создание структур доступа автоматически.

Все структуры поиска и просмотра построены непосредственно из собственных документов.

Использование доступных метаданных.

Метаданные могут быть связаны с документом, или с отдельными секциями в рамках документов. Метаданные используются в качестве источника для просмотра индексов.

Подключаемый модуль расширяет возможности системы.

Программное обеспечение организовано таким образом, что "плагин" может быть написан для новых типов документов.

В настоящее время существуют плагины для обычного текста, HTML, Word, PDF, PostScript, электронной почты, некоторых собственных форматов, а также для рекурсивно обхода структуры каталогов и сжатых архивов.

Настройка.

Greenstone позволяет настраивать представление коллекций. Предназначен для хранения многогигабайтных коллекций данных. Коллекции могут содержать миллионы документов.

Многоязычная поддержка.

В данном программном обеспечении используется Unicode.

Коллекции поддерживают несколькие форматы.

Greenstone коллекции могут содержать текст, изображения, аудио и видео клипы. Большинство нетекстового материала либо соединено с текстовыми документами или сопровождается текстовыми описаниями (например, подписи к рисункам), чтобы обеспечить полный поиск и просмотр.

Административная функция.

Позволяет требовать от определенных пользователей авторизацию, создавать новых пользователей, коллекции, защищать документы, так что они могут быть доступны только зарегистрированным пользователям.

Коллекции могут быть опубликованы в Интернете или на CD-ROM.

Преимущества и ограничения EPrints

EPrints является бесплатным программным обеспечением. Хранилище собирает, сохраняет и распространяет в цифровом формате исследования научного сообщества. EPrints представляет собой расширяемую систему управления контентом. Она настроена для удовлетворения потребностей ученых и исследователей для распространения отчетности. Администраторы могут легко настроить форму метаданных, так что только те поля, которые имеют отношение к данной коллекции представляются конечному пользователю. Материалы легко управляются пользователем, а также редактируются, обновляются и удаляются (хотя администратор может ограничить эти функции). Документы в архивах EPrints могут быть проиндексированы, чтобы позволить их получать с помощью поисковых систем, таких как Google, которые обеспечивают более широкий доступ. Но интеллектуальный поиск данной системой не поддерживается.

Особенности EPrints:

Доступ через веб-браузер.

EPrints предоставляет вебинтерфейс, который делает ее простой в использовании и управлении.

Полный текст и поле поиска.

Поиск основан на метаданных, но не по полному тексту.

Административная функция.

Открытый исходный код.

EPrints использует традиционные технологии и работает на открытых системах посредством MySQL, Apache базы данных и веб-серверов.

Имеется три роли пользователей: администратор, редактор и автор.

Роль администратора управляет такими задачами, как организация записей, веб-интерфейс, внешний вид и функциональность, а все остальные настройки на стороне сервера.

Редактор может редактировать метаданные и исправлять ошибки.

Автор может выкладывать документы и управлять представленными ранее документами.

Поддержка OAI-PMH.

Открытый протокол позволяет программным способом извлекать метаданные из несколько источников, а также индексировать или связывать сервисы.

Многоязычная поддержка.

Unicode используется во всем программном обеспечении.

Форматы файлов.

Поддерживаемые форматы: PDF, HTML, JPEG, TIFF, MP3, AVI и т.д.

Статистика

Кастомизация.

Плагины могут быть расширены разработчиками.

Предварительный просмотр.

Предварительный просмотр эскизов документов и изображений автоматически при загрузке файла [19].

Результаты сравнения данных систем представлены в таблице 2.2.

Результаты анализа информационно-поисковых систем с открытым кодом

Таблица 2.2. Сравнительная таблица готовых решений

Особенность

DSpace

EPrints

Greenstone

Год создания

2002

2000

1997

Лицензия

Бесплатно

Бесплатно

Бесплатно

Поддерживаемые типы файлов

Все типы

Все типы

Все типы

Формат метаданных

Dublin Core, Qualified DC, METS

Dublin Core, METS

Dublin Core, Qualified DC, METS, NZGLS (New Zealand Governm ent Locator Service), AGLS

Функции пользовательского интерфейса

Поддержка конечного пользователя, многоязычный интерфейс

Поддержка конечного пользователя, многоязычный интерфейс

Поддержка конечного пользователя, многоязычный интерфейс

Просмотр миниатюр

Картинки

Картинки, видео, аудио

Картинки, видео, аудио

Поиск

Ключевые слова, логический, сортировка

Ключевые слова, сортировка

Ключевые слова, логический, сортировка

Возможности просмотра

Автор, название, предмет, коллекция

Любое

Любое

База данных

Oracle, PostgreSQL

MySQL, Oracle, PostgreSQL, Cloud

Все

Язык программирования

Java, JSP

Perl

C++, Perl, Java

Анализ готовых решений показал, что существуют системы, удовлетворяющие заявленным функциональным требованиям, но они не имеют русскоязычных версий, что говорит о том, что, несмотря на то, что они бесплатны, их внедрение на кафедру информационных технологий нецелесообразно. Учитывая, что это системы с открытым кодом, мы можем использовать их для упрощения процесса разработки "Репозитория электронных ресурсов".

3. Проектирование системы "Репозиторий электронных ресурсов"

Проектирование системы включает в себя процесс описания данных, которые будут хранится в репозитории, являющихся основанием для проектирования и создания базы данных. Ввиду того, что отличительной особенностью данной системы является наличие информационного интеллектуального поиска, необходимо определить, используя какие методы он будет реализован и как они будут применены в контексте данной системы. Кроме того, на этапе проектирования создается технический проект системы "Репозиторий электронных ресурсов". Процесс проектирования системы включает в себя несколько этапов:

Проектирование хранилища данных. Содержит детализацию информации, представленной в базе данных.

Описание реализации интеллектуального поиска На данном этапе рассматриваются методы информационного поиска, а также производится выбор применимого для разрабатываемой системы. Кроме того, приводится алгоритм реализации интеллектуального поиска с учетом выбранного метода.

Разработка технического проекта.

Проектирование хранилища данных

Репозиторий электронных ресурсов кафедры информационных технологий в бизнесе хранит следующие источники:

диссертации;

публикации;

выпускные квалификационные работы;

авторефераты;

курсовые работы;

книги;

контрольно-измерительные материалы;

материалы лекций.

В связи с этим появляется необходимость хранить информацию о данных источниках или, другими словами, метаданные. Каждый источник имеет определенные типы данных, характеризующих его, поэтому выделим несколько типов источников и опишем, какие метаданные должны храниться. Описание которых частично можно найти на Портале "Национального исследовательского университета «Высшая школа экономики" в разделе "Справочник по публикациям".

Книга.

Сведения, которые должны быть указаны:

разновидность книги (если издание печатное, то тип печатного издания по ГОСТ 7.60 - 2003);

название книги;

автор(-ы);

научный редактор(-ы);

переводчик(-и);

редактор перевода;

составитель(-и);

язык, на котором написана книга;

язык оригинала;

серия;

место издания (название города);

год издания;

издательство;

том;

выпуск;

комментарий к изданию;

ISBN, которых может быть два, если книга выпущена внутри университета;

объем авторских листов;

аннотация на русском языке;

аннотация на английском языке;

оглавление;

ключевые слова на русском языке;

ключевые слова на английском языке;

гриф;

тип доступа (в открытом доступе; в относительно закрытом доступе (текст будет доступен только сотрудникам НИУ ВШЭ по логину и паролю; в полностью закрытом доступе (доступен только проверяющим отчеты, заявки на гранты и т.п.));

ссылка на электронный вариант книги;

описание местоположения печатного издания;

классификатор УДК;

классификатор ГРНТИ;

тематика.

Статья в книге.

Сведения, которые должны быть указаны:

название статьи в книге;

автор(-ы);

научный редактор(-ы);

переводчик(-и);

язык, на котором написана статья;

язык оригинала;

номер и название главы;

серия;

объем авторских листов;

аннотация на русском языке;

аннотация на английском языке;

оглавление;

ключевые слова на русском языке;

ключевые слова на английском языке;

диапазон страниц;

тип доступа (в открытом доступе; в относительно закрытом доступе (текст будет доступен только сотрудникам НИУ ВШЭ по логину и паролю; в полностью закрытом доступе (доступен только проверяющим отчеты, заявки на гранты и т.п.));

ссылка на электронный вариант книги;

описание местоположения печатного издания;

классификатор УДК;

классификатор ГРНТИ;

тематика.

Статья в журнале.

Сведения, которые должны быть указаны:

название статьи в журнале;

автор(-ы);

научный редактор(-ы);

переводчик(-и);

язык, на котором написана статья;

язык оригинала;

название журнала;

страна;

год публикации;

том;

выпуск (номер);

аннотация на русском языке;

аннотация на английском языке;

оглавление;

ключевые слова на русском языке;

ключевые слова на английском языке;

диапазон страниц;

тип доступа (в открытом доступе; в относительно закрытом доступе (текст будет доступен только сотрудникам НИУ ВШЭ по логину и паролю; в полностью закрытом доступе (доступен только проверяющим отчеты, заявки на гранты и т.п.));

ссылка на электронный вариант;

описание местоположения печатного издания;

классификатор УДК;

классификатор ГРНТИ;

тематика.

Презентация.

Сведения, которые должны быть указаны:

название презентации;

язык, на котором составлена;

тип доступа (в открытом доступе; в относительно закрытом доступе (текст будет доступен только сотрудникам НИУ ВШЭ по логину и паролю; в полностью закрытом доступе (доступен только проверяющим отчеты, заявки на гранты и т.п.));

ссылка на электронный вариант;

размер файла с презентацией;

дата создания;

автор (-ы);

тематика.

Лекционный материал.

Сведения, которые должны быть указаны:

название лекции;

язык, на котором составлена;

тип доступа (в открытом доступе; в относительно закрытом доступе (текст будет доступен только сотрудникам НИУ ВШЭ по логину и паролю; в полностью закрытом доступе (доступен только проверяющим отчеты, заявки на гранты и т.п.));

ссылка на электронный вариант;

размер файла с презентацией;

дата создания;

автор (-ы);

тематика.

Контрольно-измерительные материалы.

Сведения, которые должны быть указаны:

Название материала;

тип контрольно-измерительного материала (домашняя работа; контрольная работа; промежуточный контроль);

язык, на котором составлен;

тип доступа (в открытом доступе; в относительно закрытом доступе (текст будет доступен только сотрудникам НИУ ВШЭ по логину и паролю; в полностью закрытом доступе (доступен только проверяющим отчеты, заявки на гранты и т.п.));

ссылка на электронный вариант;


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.