Алгоритм построения списка библиографических описаний из систем цитирования в условиях неполной определённости

Существование ряда систем цитирования, которые позволяют конечному пользователю осуществлять поиск научных и учебных изданий авторов в библиотеке. Разработка алгоритма для построения агрегированного списка библиографических описаний из систем цитирования.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 21.12.2019
Размер файла 64,0 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Алгоритм построения списка библиографических описаний из систем цитирования в условиях неполной определённости

Болдырев П.А.,

Крылов И.Б.,

Блинов В.Д.

На сегодняшний день существует ряд систем цитирования, которые позволяют конечному пользователю осуществлять поиск научных и учебных изданий авторов. К наиболее популярным в России зарубежным системам цитирования можно отнести Web of Science [1] и Scopus [2], к российским - российский индекс научного цитирования (РИНЦ) [3]. В большинстве случаев результаты поиска представлены в плохо структурированном виде - в виде строк с библиографическим описанием. Помимо этого в различных системах цитирования библиографические описания могут быть сформированы по различным алгоритмам, либо с ошибками в описании. По этим причинам возникают проблемы при построении агрегированного списка библиографических описаний из различных систем цитирования [4, 5].

Целью данной работы является разработка алгоритма для построения агрегированного списка библиографических описаний из систем цитирования. алгоритм пользователь библиографический

Задача по построению агрегированного списка библиографических описаний предполагает анализ сходства публикаций, представленных в системах цитирования РИНЦ и SCOPUS. В связи с этим для выявления одинаковых публикаций необходимо использовать специализированные алгоритмы нечёткого сравнения текстов.

Обзор алгоритмов нечёткого сравнения текстов представлен в таблице 1.

Таблица 1 - Обзор алгоритмов нечёткого сравнения текстов

Наименование алгоритма

Назначение

Саундэкс

Поиск английских слов с орфографическими ошибками.

Дэйч-Мокотофф

Поиск европейских фамилий, написанных по-разному.

NYSIIS

Поиск иностранных слов с ошибками.

Метафон, Двойной метафон

Поиск английских слов с ошибками.

Каверфон 2.0

Поиск английских слов с орфографическими ошибками.

Левенштейн

Поиск орфографических и пунктуационных ошибок.

Биграмм, n-грамм

Поиск орфографических ошибок, анализ редактированного текста, опечаток.

Ратклифф

Анализ редактированного текста.

Джаро-Винклер

Поиск орфографических ошибок.

Алгоритм шинглов

Поиск схожих веб-документов.

В результате для дальнейшего рассмотрения, опираясь на широкий универсальность использования, были выбраны алгоритмы биграмм (n-грамм), Левенштейна и шинглов.

Обобщённая блок-схема алгоритма биграмм (n-грамм) представлена на рисунке 2.

Рисунок 2 - Обобщённая блок-схема алгоритма биграмм (n-грамм)

Биграммное сходство между двумя строками определяется числом совпадающих символьных дуплетов в обоих строках. Алгоритм можно обобщить на n-граммы. Две строки разделяются на биграммы. Окончательно, сходство вычисляется по формуле:

, (1)

где m - число совпадающих биграмм, a - число биграмм в первой строке b - число биграмм во второй строке.

Обобщённая блок-схема алгоритма Левенштейна представлена на рисунке 3.

Рисунок 3 - Обобщённая блок-схема алгоритма Левенштейна

Дистанция редактирования Левенштейна между двумя строками определяется как минимальное число вставок, замен и удалений символов, которые необходимы для того, чтобы преобразовать первую строку во вторую. Дистанция ноль означает, что строки идентичны.

Обобщённая блок-схема алгоритма шинглов представлена на рисунке 4.

Рисунок 4 - Обобщённая блок-схема алгоритма шинглов

Алгоритм шинглов [6] - алгоритм, разработанный для поиска копий и дубликатов рассматриваемого текста в веб-документе. В качестве длины шинглов выбрана длина в 2 слова.

Для оценки качества работы алгоритма, реализованного для построения агрегированного списка библиографических описаний на основе рассмотренных алгоритмов нечёткого сравнения строк, необходимо определить критерий оценки качества. Обзор основных критериев представлен в таблице 2.

Таблица 2 - Обзор основных критериев

Наименование критерия

Формула расчёта

Точность

Полнота

F-мера

Предсказанная

частота положительных результатов

Критерий "точность" показывает отношение истинно-положительных результатов к общему количеству положительных результатов. Критерий "полнота" показывает отношение истинно-положительных результатов к общему количеству истинных результатов. Критерий "F-мера" представляет собой среднее гармоническое по критериям "точность" и "полнота". Критерий "предсказанная частота положительных результатов" показывает отношение количества положительных предсказаний к общему количеству объектов. Данный показатель мало говорит о качестве классификации, но несёт информацию о том, как классификатор оценивает распределение по классам.

Наиболее подходящим критерием для задачи построения агрегированного списка публикаций является критерий "F-мера", поскольку учитывает одновременно "точность" и "полноту".

В данном случае точность рассчитывается, как частное от числа истинно добавленных библиографических описаний в агрегированный список к общему числу добавленных библиографических описаний. Полнота рассчитывается, как частное от числа истинно добавленных библиографических описаний в агрегированный список к общему числу истинных библиографических описаний, которые могли быть добавлены или не добавлены в агрегированный список публикаций.

Результаты настройки параметров алгоритмов на обучающей выборке представлены в таблице 3.

Таблица 3 - Результаты настройки параметров алгоритмов

Алгоритм

Настраиваемый параметр

Значение параметра

Левенштейна

Расстояние Левенштейна

4

N-грамм (биграмм)

Процент совпавших биграмм

83

Шинглов

Процент совпавших

хэш-функций

80

В качестве тестовой выборки использован список публикаций одного из авторов Оренбургского государственного университета, имеющего достаточное количество публикаций как в системе цитирования РИНЦ, так и в SCOPUS (46 - в SCOPUS, 175 - в РИНЦ). Помимо F-меры учитывалось время работы алгоритма.

Результаты работы алгоритмов биграмм, Левенштейна и шинглов при построении агрегированного списка библиографических описаний представлены в таблицах 4, 5, 6.

Таблица 4 - Результат работы алгоритма биграмм

Предсказано "+"

Предсказано "-"

Всего

Фактически "+"

144

11

155

Фактически "-"

0

66

66

Всего

144

77

221

Таблица 5 - Результат работы алгоритма Левенштейна

Предсказано "+"

Предсказано "-"

Всего

Фактически "+"

155

0

155

Фактически "-"

1

65

66

Всего

156

65

221

Таблица 6 - Результат работы алгоритма шинглов

Предсказано "+"

Предсказано "-"

Всего

Фактически "+"

155

0

155

Фактически "-"

2

64

66

Всего

157

64

221

Результаты расчёта критериев представлены в таблице 7.

Таблица 7 - Результаты расчёта критериев

Точность

Полнота

F-мера

Время

работы, с

Алгоритм n-грамм

1

0,9290

0,9632

8

Алгоритм Левенштейна

0,9935

1

0,9967

20

Алгоритм шинглов

0,9872

1

0,9935

2

В результате, для построения агрегированного списка библиографических описаний выбран алгоритм шинглов. Разработанный алгоритм показал высокую скорость работы и приемлемую точность построения списка библиографических описаний.

Список литературы

1. Web of Science [Электронный ресурс] : поисковая платформа. - Электрон. дан. - Режим доступа: http:// isiknowledge.com. - Загл. с экрана. - 25.12.2018.

2. Scopus [Электронный ресурс] : библиографическая и реферативная база данных. - Электрон. дан. - Режим доступа: http://www.scopus.com/. - Загл. с экрана. - 25.12.2018.

3. Научная электронная библиотека eLIBARAR.RU [Электронный ресурс] : научная электронная библиотека. - Электрон. дан. - Москва: 2000. - Режим доступа: http://elibrary.ru. - Загл. с экрана. - 25.12.2018.

4. Болдырев, П.А. Разработка агрегирующей системы анализа публикационной активности учёных на основе международных и российской систем цитирования в условиях ограниченного доступа / П.А. Болдырев, И.Б. Крылов // Всероссийская научно-методическая конференция "Университетский комплекс как региональный центр образования, науки и культуры". - Оренбург, 2016. - С. 2602-2608.

5. Болдырев, П.А. Обзор программных средств в области анализа публикационной активности учёных [Электронный ресурс] / П.А. Болдырев, И.Б. Крылов // XXIII студенческая международная заочная научно-практической конференция "Молодёжный научный форум: технические и математические науки". - Москва, 2015. - Режим доступа: http://nauchforum.ru/ru/node/6914. - Загл. с экрана (дата обращения: 25.12.2018).

6. Зеленков, Ю.Г. Сравнительный анализ методов определения нечетких дубликатов для Web-документов / Ю.Г. Зеленков, И.В. Сегалович // Труды 9-ой Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" - RCDL'2007, Переславль-Залесский, Россия, 2007.

Размещено на Allbest.ru


Подобные документы

  • Выделение сущностей для создания структуры хранения данных. Выбор технологии ввода данных таксационных описаний. Разработка программного обеспечения для ввода данных таксационных описаний и его реализация. Безопасность геоинформационной системы.

    дипломная работа [2,1 M], добавлен 20.07.2012

  • Исследование программного средства для управления базой данных с информацией о фильмах. Составление алгоритма удаления и добавления элемента в указанное место двунаправленного списка. Характеристика поиска, вывода на экран и сортировки элементов списка.

    курсовая работа [94,5 K], добавлен 23.09.2011

  • Разработка и тестирование программы на языке Pascal для поиска, вывода на экран и сохранения в файл списка книг с фамилиями авторов в алфавитном порядке, изданных после 2012 года. Разработка алгоритма и его описание. Инструкции по эксплуатации приложения.

    курсовая работа [903,0 K], добавлен 13.06.2013

  • Составляющие информационных систем: определение, соотношение, изменчивость, выбор подхода к проектированию. Принципы построения корпоративных систем. Обзор технических решений для построения локальных вычислительных систем. Схемы информационных потоков.

    курсовая работа [571,6 K], добавлен 16.10.2012

  • Основные цели и задачи построения систем распознавания. Построение математической модели системы распознавания образов на примере алгоритма идентификации объектов военной техники в автоматизированных телекоммуникационных комплексах систем управления.

    дипломная работа [332,2 K], добавлен 30.11.2012

  • Структура и принципы построения сети Интернет, поиск и сохранение информации в ней. История появления и классификация информационно-поисковых систем. Принцип работы и характеристики поисковых систем Google, Yandex, Rambler, Yahoo. Поиск по адресам URL.

    курсовая работа [3,6 M], добавлен 29.03.2013

  • Применение и развитие измерительной техники. Сущность, значение и классификация информационных измерительных систем, их функции и признаки. Характеристика общих принципов их построения и использования. Основные этапы создания измерительных систем.

    реферат [25,9 K], добавлен 19.02.2011

  • Обзор средств построения систем электронной коммерции, их преимущества и основные направления развития. Особенности корпоративных серверов Microsoft. Разработка программного механизма для ведения статистики по действиям пользователя в разных модулях.

    отчет по практике [1,6 M], добавлен 26.06.2014

  • Анализ функции и разработка алгоритма по ее вычислению. Программирование отдельных блоков и структур алгоритма. Структура Паскаль-программы. Раздел описаний, подпрограммы, тело программы. Полная Паскаль-программа в соответствии с разработанным алгоритмом.

    курсовая работа [241,8 K], добавлен 30.01.2016

  • Безопасное состояние информационной системы. Основные утверждения (факты). Алгоритм построения графа распределения ресурсов для стратегии избежания тупиков. Структуры данных для алгоритма банкира, пример его использования. Алгоритм обнаружения тупиков.

    презентация [1,3 M], добавлен 24.01.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.