Модуль автоматической обработки текстовых данных для ИС методического управления РГГУ

Проектирование программного комплекса информационной системы, автоматизирующего процессы мониторинга и контроля качества образовательных программ. Алгоритм извлечения данных из документов, содержащих информацию об изданной учебно-методической литературе.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 17.04.2019
Размер файла 14,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Российский государственный гуманитарный университет (РГГУ)

МОДУЛЬ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТОВЫХ ДАННЫХ ДЛЯ ИС МЕТОДИЧЕСКОГО УПРАВЛЕНИЯ РГГУ

Исаков В.А., Катина Т.С.

Москва, Россия

В статье описывается проектирование одного из модулей программного комплекса/информационной системы, разработанной научной студенческой группой факультета информационных систем и безопасности РГГУ (научный руководитель - д.ф.-м.н., проф. Л.И. Воронова) по инициативе Методического Управления Университета. ИС автоматизирует процессы мониторинга и контроля качества образовательных программ, протекающие в этом структурном подразделении РГГУ. На разработку получено Свидетельство о государственной регистрации программы для ЭВМ[1] Авторами статьи спроектирована и реализована подсистема учета учебно-методической литературы (УУМЛ), важной составной частью которой является Модуль Автоматической Обработки Текстовых Данных[2].

Подсистема УУМЛ ориентирована на хранение и просмотр данных об изданной учебно-методической литературе, а также на регистрацию и сопровождение рукописей до момента их публикации[3].

Одно из требований, сформулированное на основании анализа предметной области к данной подсистеме - автоматическое добавление данных о публикациях из файлов содержащих структурированный текст в базу данных. За предыдущие несколько лет работы Методического Управления сформировался архив таких файлов, автоматическое извлечение данных из которых обеспечит совместимость данных в БД и текстовых архивах.

Для выполнения заявленного требования разработан модуль, функциональность которого предполагает последовательные действия в три этапа:

? преобразование файла в нужный формат и извлечение текста в оперативную память;

? автоматическое извлечение данных об изданной учебно-методической литературе с помощью алгоритма описанного ниже, при реализации которого используются регулярные выражения;

? добавление извлеченных данных в БД.

Ниже приведен алгоритм извлечения данных из документов, содержащих информацию об изданной учебно-методической литературе.

Вход: размеченный текст, состоящий из списка абзацев разделенных символами новой строки. Каждый абзац состоит из четырех строк (подчеркнутый текст - извлекаемые данные; не подчеркнутый текст - элементы разметки):

1. Номер статьи. Название.

2. Степень/звание ФИО, …, N, Место издания., Издатель, Год издания.

3. Тип ресурса - Тип ресурса; Направление подготовки - Направление подготовки; Дисциплина - Дисциплина; Уровень образования - Уровень образования; Год обучения - Год обучения; Структурное подразделение (институт, факультет, центр); Кафедра - Кафедра;

4. Описание ИР - Описание информационного ресурса

Выход: структурированные данные об изданной учебно-методической литературе.

ШАГ 1. Извлечь список абзацев из текста соответствующих следующим правилам поиска: искомая строка имеет последовательность символов - число, точка, пробел, {последовательность любых символов кроме новой строки, символ новой строки} - 3 раза подряд, последовательность любых символов кроме новой строки.

ШАГ 2. Для каждого извлеченного абзаца выполнить следующие шаги.

ШАГ 2.1. Разбить абзац на 4 строки с использованием разделителя символ новой строки.

ШАГ 2.2. Извлечь номер статьи, который является числом в начале первой строке.

ШАГ 2.3. Извлечь название из первой строки используя правило: перед искомой строкой последовательность символов - цифра, точка, пробел, а искомая строка состоит из последовательности любых символов до конца строки.

ШАГ 2.4. Извлечь список строк с данными об авторах из второй строки используя правило: искомые строки имеют последовательность символов - буква русского или английского алфавита, последовательность любых символов кроме пропуска, пробел, заглавная буква русского или английского алфавита, последовательность строчных букв русского или английского алфавита, заглавная буква русского или английского алфавита, точка, заглавная буква русского или английского алфавита, точка.

ШАГ 2.5. Для каждой извлеченной строки с данными об авторе выполнить следующие шаги.

ШАГ 2.5.1. Извлечь фамилию используя правило: заглавная буква русского или английского алфавита, последовательность строчных букв русского или английского алфавита.

ШАГ 2.5.2. Извлечь первую букву имени используя правило:

перед искомой строкой следующая последовательность символов - строчная буква русского или английского алфавита, пробел. Сама искомая строка состоит из заглавной буквы русского или английского алфавита и точки.

ШАГ 2.5.3. Извлечь отчество используя правило: перед искомой строкой последовательность символов - строчная буква русского или английского алфавита, пробел, заглавная буква русского или английского алфавита, точка. Сама искомая строка состоит из заглавной буквы русского или английского алфавита и точки.

ШАГ 2.5.4. Извлечь данные о звании и степени используя правило: после искомой строки последовательность символов - пробел, заглавная буква русского или английского алфавита, последовательность строчных букв русского или английского алфавита, пробел, заглавная буква русского или английского алфавита, точка, заглавная буква русского или английского алфавита, точка. Самая искомая строка состоит из любой последовательности символов.

ШАГ 2.6. Извлечь место публикации из второй строки используя правило: после искомой строки запятая и последовательность любых символов кроме запятой до конца строки. Сама искомая строка состоит из любой последовательности символов кроме запятой и пробела.

ШАГ 2.7. Извлечь год публикации из второй строки используя правило: искомая строка - цифра в конце второй строки.

ШАГ 2.8. Извлечь остальные данные из третей и четвертой строки используя правило: перед искомой строкой указать название поля (например "Тип ресурса"), пробел, дефис, пробел), а после искомой строки точка с запятой. Искомая строка состоит из любой последовательности символов.

Заключение

Разработана подсистема, обеспечивающая автоматизацию учета учебно-методической литературы, в рамках которой реализован модуль для автоматического добавления данных из текстовых файлов в БД. Модуль позволяет минимизировать время переноса предварительно накопленных данных из текстовых файлов в БД и облегчить интеграцию АИС.

Литература

алгоритм мониторинг методический документ

1. Воронова Л.И., Исаков В.А., Катина Т.С., Аветисян А.З., Фенина А.Ю. Программный комплекс, автоматизирующий процессы мониторинга и контроля качества Образовательных программ для Методического Управления РГГУ// Свидетельство о государственной регистрации программы для ЭВМ № 2015663114 от 10.12.2015

2. Воронова Л.И., Исаков В.А., Катина Т.С. Проектирование информационной системы автоматизации мониторинга и контроля качества образовательных программ для методического управления РГГУ// Современные информационные технологии в профессиональной деятельности: труды Международной научно-практической конференция "СИТ - 2015" . - М., МФЮА, 2015 -т.1., стр.27-33.

3. Катина. Т.С., Воронова Л.И. Проектирование подсистемы учета учебно-методической литературы (УУМЛ) для методического управления РГГУ// III Международная студенческая электронная научная конференция "Студенческий научный форум 2016"; http://www.scienceforum.ru/2016/1711/20390

Размещено на Allbest.ru


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.