Система автоматической разметки научных статей

Особенности научных статей, представленных в формате PDF. Разработка классов для системы автоматической разметки. Выбор программного обеспечения для реализации и обучения нейронной сети. Алгоритмы сортировки блоков в соответствии с иерархией документа.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 13.07.2020
Размер файла 5,2 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

65. Mali P. et al. ScanSSD: Scanning Single Shot Detector for Mathematical Formulas in PDF Document Images //arXiv preprint arXiv:2003.08005. 2020.

66. Antonacopoulos A. et al. A realistic dataset for performance evaluation of document layout analysis //2009 10th International Conference on Document Analysis and Recognition. IEEE, 2009. С. 296-300.

67. Zhong X., Tang J., Yepes A. J. PubLayNet: largest dataset ever for document layout analysis //arXiv preprint arXiv:1908.07836. 2019.

68. Zhao Z. Q. et al. Object detection with deep learning: A review //IEEE transactions on neural networks and learning systems. 2019. Т. 30. №. 11. С. 3212-3232.

69. Lin T. Y. et al. Microsoft coco: Common objects in context //European conference on computer vision. Springer, Cham, 2014. С. 740-755.

70. Xie S. et al. Aggregated residual transformations for deep neural networks //Proceedings of the IEEE conference on computer vision and pattern recognition. 2017. С. 1492-1500.

71. Otsu N. A threshold selection method from gray-level histograms [J] //Automatica. 1975. Т. 11. №. 285-296. С. 23-27.

72. VGSL Specs - rapid prototyping of mixed conv/LSTM networks for images: [Электронный ресурс]. URL: https://tesseract-ocr.github.io/tessdoc/VGSLSpecs. (Дата обращения: 20.05.2020).

73. Flask: [Электронный ресурс]. URL: https://flask.palletsprojects.com/en/1.1.x/. (Дата обращения: 20.05.2020).

74. SQLite: [Электронный ресурс]. URL: https://www.sqlite.org/docs.html. (Дата обращения: 20.05.2020).

75. Docker: [Электронный ресурс]. URL: https://docs.docker.com/. (Дата обращения: 20.05.2020).

Приложение А

UML диаграмма классов

Приложение Б

Пример предсказания элементов страницы при помощи Mask R-CNN

Приложение В

Пример работы алгоритма для сортировки блоков

Рис. В1 Фрагмент примера статьи с чередованием одно- и двухколонного типа верстки

Рис. В2 Результат сортировки блоков по формату 1, выведенный в HTML-файл

Рис. В3 Результат сортировки блоков по формату 2, выведенный в HTML-файл

Приложение Г

Пример работы PDFPlumber по нахождению таблиц

Рис. Г1 Пример удачной работы PDFplumber

Рис. Г2 Пример неудачной работы PDFplumber, когда таблица не находится

Рис. Г3 Пример неудачной работы PDFplumber, когда таблица выделяется некорректно

Рис. Г4 Пример неудачной работы PDFplumber, когда таблица находится там, где нет таблицы

Приложение Д

Пример работы PDFPlumber по извлечению таблиц

Рис. Д1 Первая таблица, извлеченная из примера Г1, в виде Pandas DataFrame

Рис. Д2 Вторая таблица, извлеченная из примера Г1, в виде Pandas DataFrame

Приложение Е

Веб-интерфейс клиентской части системы

Рис. Е1 Главная страница веб-системы

Рис. Е2 Страница авторизации

Рис. Е3 Страница загрузки файла

Размещено на Allbest.ru


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.