Главная Коллекция "Otherreferats" Программирование, компьютеры и кибернетика Модуль автоматической обработки текстовых данных для ИС методического управления РГГУ

Модуль автоматической обработки текстовых данных для ИС методического управления РГГУ

Проектирование программного комплекса информационной системы, автоматизирующего процессы мониторинга и контроля качества образовательных программ. Алгоритм извлечения данных из документов, содержащих информацию об изданной учебно-методической литературе.

Рубрика	Программирование, компьютеры и кибернетика
Вид	статья
Язык	русский
Дата добавления	17.04.2019
Размер файла	14,5 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Российский государственный гуманитарный университет (РГГУ)

МОДУЛЬ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТОВЫХ ДАННЫХ ДЛЯ ИС МЕТОДИЧЕСКОГО УПРАВЛЕНИЯ РГГУ

Исаков В.А., Катина Т.С.

Москва, Россия

В статье описывается проектирование одного из модулей программного комплекса/информационной системы, разработанной научной студенческой группой факультета информационных систем и безопасности РГГУ (научный руководитель - д.ф.-м.н., проф. Л.И. Воронова) по инициативе Методического Управления Университета. ИС автоматизирует процессы мониторинга и контроля качества образовательных программ, протекающие в этом структурном подразделении РГГУ. На разработку получено Свидетельство о государственной регистрации программы для ЭВМ[1] Авторами статьи спроектирована и реализована подсистема учета учебно-методической литературы (УУМЛ), важной составной частью которой является Модуль Автоматической Обработки Текстовых Данных[2].

Подсистема УУМЛ ориентирована на хранение и просмотр данных об изданной учебно-методической литературе, а также на регистрацию и сопровождение рукописей до момента их публикации[3].

Одно из требований, сформулированное на основании анализа предметной области к данной подсистеме - автоматическое добавление данных о публикациях из файлов содержащих структурированный текст в базу данных. За предыдущие несколько лет работы Методического Управления сформировался архив таких файлов, автоматическое извлечение данных из которых обеспечит совместимость данных в БД и текстовых архивах.

Для выполнения заявленного требования разработан модуль, функциональность которого предполагает последовательные действия в три этапа:

? преобразование файла в нужный формат и извлечение текста в оперативную память;

? автоматическое извлечение данных об изданной учебно-методической литературе с помощью алгоритма описанного ниже, при реализации которого используются регулярные выражения;

? добавление извлеченных данных в БД.

Ниже приведен алгоритм извлечения данных из документов, содержащих информацию об изданной учебно-методической литературе.

Вход: размеченный текст, состоящий из списка абзацев разделенных символами новой строки. Каждый абзац состоит из четырех строк (подчеркнутый текст - извлекаемые данные; не подчеркнутый текст - элементы разметки):

1. Номер статьи. Название.

2. Степень/звание ФИО, …, N, Место издания., Издатель, Год издания.

3. Тип ресурса - Тип ресурса; Направление подготовки - Направление подготовки; Дисциплина - Дисциплина; Уровень образования - Уровень образования; Год обучения - Год обучения; Структурное подразделение (институт, факультет, центр); Кафедра - Кафедра;

4. Описание ИР - Описание информационного ресурса

Выход: структурированные данные об изданной учебно-методической литературе.

ШАГ 1. Извлечь список абзацев из текста соответствующих следующим правилам поиска: искомая строка имеет последовательность символов - число, точка, пробел, {последовательность любых символов кроме новой строки, символ новой строки} - 3 раза подряд, последовательность любых символов кроме новой строки.

ШАГ 2. Для каждого извлеченного абзаца выполнить следующие шаги.

ШАГ 2.1. Разбить абзац на 4 строки с использованием разделителя символ новой строки.

ШАГ 2.2. Извлечь номер статьи, который является числом в начале первой строке.

ШАГ 2.3. Извлечь название из первой строки используя правило: перед искомой строкой последовательность символов - цифра, точка, пробел, а искомая строка состоит из последовательности любых символов до конца строки.

ШАГ 2.4. Извлечь список строк с данными об авторах из второй строки используя правило: искомые строки имеют последовательность символов - буква русского или английского алфавита, последовательность любых символов кроме пропуска, пробел, заглавная буква русского или английского алфавита, последовательность строчных букв русского или английского алфавита, заглавная буква русского или английского алфавита, точка, заглавная буква русского или английского алфавита, точка.

ШАГ 2.5. Для каждой извлеченной строки с данными об авторе выполнить следующие шаги.

ШАГ 2.5.1. Извлечь фамилию используя правило: заглавная буква русского или английского алфавита, последовательность строчных букв русского или английского алфавита.

ШАГ 2.5.2. Извлечь первую букву имени используя правило:

перед искомой строкой следующая последовательность символов - строчная буква русского или английского алфавита, пробел. Сама искомая строка состоит из заглавной буквы русского или английского алфавита и точки.

ШАГ 2.5.3. Извлечь отчество используя правило: перед искомой строкой последовательность символов - строчная буква русского или английского алфавита, пробел, заглавная буква русского или английского алфавита, точка. Сама искомая строка состоит из заглавной буквы русского или английского алфавита и точки.

ШАГ 2.5.4. Извлечь данные о звании и степени используя правило: после искомой строки последовательность символов - пробел, заглавная буква русского или английского алфавита, последовательность строчных букв русского или английского алфавита, пробел, заглавная буква русского или английского алфавита, точка, заглавная буква русского или английского алфавита, точка. Самая искомая строка состоит из любой последовательности символов.

ШАГ 2.6. Извлечь место публикации из второй строки используя правило: после искомой строки запятая и последовательность любых символов кроме запятой до конца строки. Сама искомая строка состоит из любой последовательности символов кроме запятой и пробела.

ШАГ 2.7. Извлечь год публикации из второй строки используя правило: искомая строка - цифра в конце второй строки.

ШАГ 2.8. Извлечь остальные данные из третей и четвертой строки используя правило: перед искомой строкой указать название поля (например "Тип ресурса"), пробел, дефис, пробел), а после искомой строки точка с запятой. Искомая строка состоит из любой последовательности символов.

Заключение

Разработана подсистема, обеспечивающая автоматизацию учета учебно-методической литературы, в рамках которой реализован модуль для автоматического добавления данных из текстовых файлов в БД. Модуль позволяет минимизировать время переноса предварительно накопленных данных из текстовых файлов в БД и облегчить интеграцию АИС.

Литература

алгоритм мониторинг методический документ

1. Воронова Л.И., Исаков В.А., Катина Т.С., Аветисян А.З., Фенина А.Ю. Программный комплекс, автоматизирующий процессы мониторинга и контроля качества Образовательных программ для Методического Управления РГГУ// Свидетельство о государственной регистрации программы для ЭВМ № 2015663114 от 10.12.2015

2. Воронова Л.И., Исаков В.А., Катина Т.С. Проектирование информационной системы автоматизации мониторинга и контроля качества образовательных программ для методического управления РГГУ// Современные информационные технологии в профессиональной деятельности: труды Международной научно-практической конференция "СИТ - 2015" . - М., МФЮА, 2015 -т.1., стр.27-33.

3. Катина. Т.С., Воронова Л.И. Проектирование подсистемы учета учебно-методической литературы (УУМЛ) для методического управления РГГУ// III Международная студенческая электронная научная конференция "Студенческий научный форум 2016"; http://www.scienceforum.ru/2016/1711/20390

Размещено на Allbest.ru

статья "Модуль автоматической обработки текстовых данных для ИС методического управления РГГУ" скачать

Подобные документы

Разработка информационной системы и базы данных для автоматизации учета книжного фонда библиотеки филиала РГГУ в г. Улан-Удэ
Обоснование необходимости создания автоматизированного учета книг в библиотеке филиала РГГУ в г. Улан-Удэ. Проектирование программного продукта. Схема взаимосвязи программных модулей и файлов. Характеристика, классификация и кодирование информации.

дипломная работа [4,6 M], добавлен 10.09.2015
Информационная система гостиничного комплекса
Создание систем автоматизированного сбора и обработки данных. Разработка информационной системы гостиничного комплекса. Выбор требуемой СУБД и программного обеспечения. Концептуальное, логическое проектирование. Организация ввода данных в базу данных.

дипломная работа [790,1 K], добавлен 13.02.2016
Разработка программного продукта, автоматизирующего бизнес-процессы бухгалтера-учетчика финансово-расчетных операций
Анализ требований к программному продукту. Требования к информационной и программной совместимости. Проектирование архитектуры программного продукта. Виды программ и программных документов. Общие сведения о С++. Технология разработки программного модуля.

дипломная работа [1,2 M], добавлен 05.08.2011
Разработка информационной системы управления учебным процессом (на примере филиала РГГУ г. Всеволжска)
Задачи, функции и структура филиала университета. Оценка информационных потоков и UML-моделирование. Анализ структуры информационной системы и системы навигации. Проектирование базы данных, физическая реализация и тестирование информационной системы.

дипломная работа [6,0 M], добавлен 21.01.2012
Разработка справочно-информационной системы "Справочник по оборудованию"
Использование бинарных деревьев для поиска данных. Схемы алгоритмов работы с бинарным деревом. Проектирование алгоритмов и программ. Структура программного комплекса. Язык С# как средство для разработки автоматизированной информационной системы "Адрес".

курсовая работа [914,9 K], добавлен 14.11.2013
Модернизация электронного учебно-методического комплекса
Анализ структуры электронного учебно методического комплекса по дисциплине "Проектирование АСОИУ". Цели модернизации электронного учебно-методического комплекса. Общие сведения о системе проверки остаточных знаний, ее алгоритма функционирования.

дипломная работа [1,3 M], добавлен 11.07.2010
Разработка автоматизированной информационной системы учета для расчёта заработной платы ОАО РПТ "Авторемонтник"
Выбор методологии проектирования и разработка информационной системы "Расчёт зарплаты" для предприятия ОАО РТП "Авторемонтник". Архитектурное проектирование базы данных информационной системы и разработка её интерфейса. Тестирование программного модуля.

дипломная работа [2,3 M], добавлен 25.05.2014
Создание автоматизированной информационной системы охраны окружающей среды. Модуль "Недра"
Анализ области автоматизации. Проектирование пользовательского интерфейса и баз данных. Выбор платформы создания информационной системы. Взаимодействие приложения с источниками данных. Оценка длительности и стоимости разработки программного обеспечения.

дипломная работа [2,2 M], добавлен 09.08.2011
Автоматизация процесса оцифровки, обработки графической информации и цифровых данных
Изучение существующих методов и программного обеспечения для извлечения числовых данных из графической информации. Программное обеспечение "graphtrace", его структура и методы обработки данных. Использование этой системы для данных различного типа.

дипломная работа [3,9 M], добавлен 06.03.2013
Разработка системы управления электронным документооборотом на примере ООО "Курортное"
Стадии обработки документов в туристическом агентстве, проектирование базы данных. Реализация программного продукта с помощью объектно-ориентированного языка программирования Borland Delphi 7.0. и системы управления базами данных Microsoft Access 2003.

дипломная работа [6,5 M], добавлен 22.01.2012

Другие документы, подобные "Модуль автоматической обработки текстовых данных для ИС методического управления РГГУ"

весь список подобных работ

скачать работу можно здесь

сколько стоит заказать работу?

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.