Алгоритм построения списка библиографических описаний из систем цитирования в условиях неполной определённости
Существование ряда систем цитирования, которые позволяют конечному пользователю осуществлять поиск научных и учебных изданий авторов в библиотеке. Разработка алгоритма для построения агрегированного списка библиографических описаний из систем цитирования.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 21.12.2019 |
Размер файла | 64,0 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Алгоритм построения списка библиографических описаний из систем цитирования в условиях неполной определённости
Болдырев П.А.,
Крылов И.Б.,
Блинов В.Д.
На сегодняшний день существует ряд систем цитирования, которые позволяют конечному пользователю осуществлять поиск научных и учебных изданий авторов. К наиболее популярным в России зарубежным системам цитирования можно отнести Web of Science [1] и Scopus [2], к российским - российский индекс научного цитирования (РИНЦ) [3]. В большинстве случаев результаты поиска представлены в плохо структурированном виде - в виде строк с библиографическим описанием. Помимо этого в различных системах цитирования библиографические описания могут быть сформированы по различным алгоритмам, либо с ошибками в описании. По этим причинам возникают проблемы при построении агрегированного списка библиографических описаний из различных систем цитирования [4, 5].
Целью данной работы является разработка алгоритма для построения агрегированного списка библиографических описаний из систем цитирования. алгоритм пользователь библиографический
Задача по построению агрегированного списка библиографических описаний предполагает анализ сходства публикаций, представленных в системах цитирования РИНЦ и SCOPUS. В связи с этим для выявления одинаковых публикаций необходимо использовать специализированные алгоритмы нечёткого сравнения текстов.
Обзор алгоритмов нечёткого сравнения текстов представлен в таблице 1.
Таблица 1 - Обзор алгоритмов нечёткого сравнения текстов
Наименование алгоритма |
Назначение |
|
Саундэкс |
Поиск английских слов с орфографическими ошибками. |
|
Дэйч-Мокотофф |
Поиск европейских фамилий, написанных по-разному. |
|
NYSIIS |
Поиск иностранных слов с ошибками. |
|
Метафон, Двойной метафон |
Поиск английских слов с ошибками. |
|
Каверфон 2.0 |
Поиск английских слов с орфографическими ошибками. |
|
Левенштейн |
Поиск орфографических и пунктуационных ошибок. |
|
Биграмм, n-грамм |
Поиск орфографических ошибок, анализ редактированного текста, опечаток. |
|
Ратклифф |
Анализ редактированного текста. |
|
Джаро-Винклер |
Поиск орфографических ошибок. |
|
Алгоритм шинглов |
Поиск схожих веб-документов. |
В результате для дальнейшего рассмотрения, опираясь на широкий универсальность использования, были выбраны алгоритмы биграмм (n-грамм), Левенштейна и шинглов.
Обобщённая блок-схема алгоритма биграмм (n-грамм) представлена на рисунке 2.
Рисунок 2 - Обобщённая блок-схема алгоритма биграмм (n-грамм)
Биграммное сходство между двумя строками определяется числом совпадающих символьных дуплетов в обоих строках. Алгоритм можно обобщить на n-граммы. Две строки разделяются на биграммы. Окончательно, сходство вычисляется по формуле:
, (1)
где m - число совпадающих биграмм, a - число биграмм в первой строке b - число биграмм во второй строке.
Обобщённая блок-схема алгоритма Левенштейна представлена на рисунке 3.
Рисунок 3 - Обобщённая блок-схема алгоритма Левенштейна
Дистанция редактирования Левенштейна между двумя строками определяется как минимальное число вставок, замен и удалений символов, которые необходимы для того, чтобы преобразовать первую строку во вторую. Дистанция ноль означает, что строки идентичны.
Обобщённая блок-схема алгоритма шинглов представлена на рисунке 4.
Рисунок 4 - Обобщённая блок-схема алгоритма шинглов
Алгоритм шинглов [6] - алгоритм, разработанный для поиска копий и дубликатов рассматриваемого текста в веб-документе. В качестве длины шинглов выбрана длина в 2 слова.
Для оценки качества работы алгоритма, реализованного для построения агрегированного списка библиографических описаний на основе рассмотренных алгоритмов нечёткого сравнения строк, необходимо определить критерий оценки качества. Обзор основных критериев представлен в таблице 2.
Таблица 2 - Обзор основных критериев
Наименование критерия |
Формула расчёта |
|
Точность |
||
Полнота |
||
F-мера |
||
Предсказанная частота положительных результатов |
Критерий "точность" показывает отношение истинно-положительных результатов к общему количеству положительных результатов. Критерий "полнота" показывает отношение истинно-положительных результатов к общему количеству истинных результатов. Критерий "F-мера" представляет собой среднее гармоническое по критериям "точность" и "полнота". Критерий "предсказанная частота положительных результатов" показывает отношение количества положительных предсказаний к общему количеству объектов. Данный показатель мало говорит о качестве классификации, но несёт информацию о том, как классификатор оценивает распределение по классам.
Наиболее подходящим критерием для задачи построения агрегированного списка публикаций является критерий "F-мера", поскольку учитывает одновременно "точность" и "полноту".
В данном случае точность рассчитывается, как частное от числа истинно добавленных библиографических описаний в агрегированный список к общему числу добавленных библиографических описаний. Полнота рассчитывается, как частное от числа истинно добавленных библиографических описаний в агрегированный список к общему числу истинных библиографических описаний, которые могли быть добавлены или не добавлены в агрегированный список публикаций.
Результаты настройки параметров алгоритмов на обучающей выборке представлены в таблице 3.
Таблица 3 - Результаты настройки параметров алгоритмов
Алгоритм |
Настраиваемый параметр |
Значение параметра |
|
Левенштейна |
Расстояние Левенштейна |
4 |
|
N-грамм (биграмм) |
Процент совпавших биграмм |
83 |
|
Шинглов |
Процент совпавших хэш-функций |
80 |
В качестве тестовой выборки использован список публикаций одного из авторов Оренбургского государственного университета, имеющего достаточное количество публикаций как в системе цитирования РИНЦ, так и в SCOPUS (46 - в SCOPUS, 175 - в РИНЦ). Помимо F-меры учитывалось время работы алгоритма.
Результаты работы алгоритмов биграмм, Левенштейна и шинглов при построении агрегированного списка библиографических описаний представлены в таблицах 4, 5, 6.
Таблица 4 - Результат работы алгоритма биграмм
Предсказано "+" |
Предсказано "-" |
Всего |
||
Фактически "+" |
144 |
11 |
155 |
|
Фактически "-" |
0 |
66 |
66 |
|
Всего |
144 |
77 |
221 |
Таблица 5 - Результат работы алгоритма Левенштейна
Предсказано "+" |
Предсказано "-" |
Всего |
||
Фактически "+" |
155 |
0 |
155 |
|
Фактически "-" |
1 |
65 |
66 |
|
Всего |
156 |
65 |
221 |
Таблица 6 - Результат работы алгоритма шинглов
Предсказано "+" |
Предсказано "-" |
Всего |
||
Фактически "+" |
155 |
0 |
155 |
|
Фактически "-" |
2 |
64 |
66 |
|
Всего |
157 |
64 |
221 |
Результаты расчёта критериев представлены в таблице 7.
Таблица 7 - Результаты расчёта критериев
Точность |
Полнота |
F-мера |
Время работы, с |
||
Алгоритм n-грамм |
1 |
0,9290 |
0,9632 |
8 |
|
Алгоритм Левенштейна |
0,9935 |
1 |
0,9967 |
20 |
|
Алгоритм шинглов |
0,9872 |
1 |
0,9935 |
2 |
В результате, для построения агрегированного списка библиографических описаний выбран алгоритм шинглов. Разработанный алгоритм показал высокую скорость работы и приемлемую точность построения списка библиографических описаний.
Список литературы
1. Web of Science [Электронный ресурс] : поисковая платформа. - Электрон. дан. - Режим доступа: http:// isiknowledge.com. - Загл. с экрана. - 25.12.2018.
2. Scopus [Электронный ресурс] : библиографическая и реферативная база данных. - Электрон. дан. - Режим доступа: http://www.scopus.com/. - Загл. с экрана. - 25.12.2018.
3. Научная электронная библиотека eLIBARAR.RU [Электронный ресурс] : научная электронная библиотека. - Электрон. дан. - Москва: 2000. - Режим доступа: http://elibrary.ru. - Загл. с экрана. - 25.12.2018.
4. Болдырев, П.А. Разработка агрегирующей системы анализа публикационной активности учёных на основе международных и российской систем цитирования в условиях ограниченного доступа / П.А. Болдырев, И.Б. Крылов // Всероссийская научно-методическая конференция "Университетский комплекс как региональный центр образования, науки и культуры". - Оренбург, 2016. - С. 2602-2608.
5. Болдырев, П.А. Обзор программных средств в области анализа публикационной активности учёных [Электронный ресурс] / П.А. Болдырев, И.Б. Крылов // XXIII студенческая международная заочная научно-практической конференция "Молодёжный научный форум: технические и математические науки". - Москва, 2015. - Режим доступа: http://nauchforum.ru/ru/node/6914. - Загл. с экрана (дата обращения: 25.12.2018).
6. Зеленков, Ю.Г. Сравнительный анализ методов определения нечетких дубликатов для Web-документов / Ю.Г. Зеленков, И.В. Сегалович // Труды 9-ой Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" - RCDL'2007, Переславль-Залесский, Россия, 2007.
Размещено на Allbest.ru
Подобные документы
Выделение сущностей для создания структуры хранения данных. Выбор технологии ввода данных таксационных описаний. Разработка программного обеспечения для ввода данных таксационных описаний и его реализация. Безопасность геоинформационной системы.
дипломная работа [2,1 M], добавлен 20.07.2012Исследование программного средства для управления базой данных с информацией о фильмах. Составление алгоритма удаления и добавления элемента в указанное место двунаправленного списка. Характеристика поиска, вывода на экран и сортировки элементов списка.
курсовая работа [94,5 K], добавлен 23.09.2011Разработка и тестирование программы на языке Pascal для поиска, вывода на экран и сохранения в файл списка книг с фамилиями авторов в алфавитном порядке, изданных после 2012 года. Разработка алгоритма и его описание. Инструкции по эксплуатации приложения.
курсовая работа [903,0 K], добавлен 13.06.2013Составляющие информационных систем: определение, соотношение, изменчивость, выбор подхода к проектированию. Принципы построения корпоративных систем. Обзор технических решений для построения локальных вычислительных систем. Схемы информационных потоков.
курсовая работа [571,6 K], добавлен 16.10.2012Основные цели и задачи построения систем распознавания. Построение математической модели системы распознавания образов на примере алгоритма идентификации объектов военной техники в автоматизированных телекоммуникационных комплексах систем управления.
дипломная работа [332,2 K], добавлен 30.11.2012Структура и принципы построения сети Интернет, поиск и сохранение информации в ней. История появления и классификация информационно-поисковых систем. Принцип работы и характеристики поисковых систем Google, Yandex, Rambler, Yahoo. Поиск по адресам URL.
курсовая работа [3,6 M], добавлен 29.03.2013Применение и развитие измерительной техники. Сущность, значение и классификация информационных измерительных систем, их функции и признаки. Характеристика общих принципов их построения и использования. Основные этапы создания измерительных систем.
реферат [25,9 K], добавлен 19.02.2011Обзор средств построения систем электронной коммерции, их преимущества и основные направления развития. Особенности корпоративных серверов Microsoft. Разработка программного механизма для ведения статистики по действиям пользователя в разных модулях.
отчет по практике [1,6 M], добавлен 26.06.2014Анализ функции и разработка алгоритма по ее вычислению. Программирование отдельных блоков и структур алгоритма. Структура Паскаль-программы. Раздел описаний, подпрограммы, тело программы. Полная Паскаль-программа в соответствии с разработанным алгоритмом.
курсовая работа [241,8 K], добавлен 30.01.2016Безопасное состояние информационной системы. Основные утверждения (факты). Алгоритм построения графа распределения ресурсов для стратегии избежания тупиков. Структуры данных для алгоритма банкира, пример его использования. Алгоритм обнаружения тупиков.
презентация [1,3 M], добавлен 24.01.2014