Система автоматической разметки научных статей
Особенности научных статей, представленных в формате PDF. Разработка классов для системы автоматической разметки. Выбор программного обеспечения для реализации и обучения нейронной сети. Алгоритмы сортировки блоков в соответствии с иерархией документа.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 13.07.2020 |
Размер файла | 5,2 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
65. Mali P. et al. ScanSSD: Scanning Single Shot Detector for Mathematical Formulas in PDF Document Images //arXiv preprint arXiv:2003.08005. 2020.
66. Antonacopoulos A. et al. A realistic dataset for performance evaluation of document layout analysis //2009 10th International Conference on Document Analysis and Recognition. IEEE, 2009. С. 296-300.
67. Zhong X., Tang J., Yepes A. J. PubLayNet: largest dataset ever for document layout analysis //arXiv preprint arXiv:1908.07836. 2019.
68. Zhao Z. Q. et al. Object detection with deep learning: A review //IEEE transactions on neural networks and learning systems. 2019. Т. 30. №. 11. С. 3212-3232.
69. Lin T. Y. et al. Microsoft coco: Common objects in context //European conference on computer vision. Springer, Cham, 2014. С. 740-755.
70. Xie S. et al. Aggregated residual transformations for deep neural networks //Proceedings of the IEEE conference on computer vision and pattern recognition. 2017. С. 1492-1500.
71. Otsu N. A threshold selection method from gray-level histograms [J] //Automatica. 1975. Т. 11. №. 285-296. С. 23-27.
72. VGSL Specs - rapid prototyping of mixed conv/LSTM networks for images: [Электронный ресурс]. URL: https://tesseract-ocr.github.io/tessdoc/VGSLSpecs. (Дата обращения: 20.05.2020).
73. Flask: [Электронный ресурс]. URL: https://flask.palletsprojects.com/en/1.1.x/. (Дата обращения: 20.05.2020).
74. SQLite: [Электронный ресурс]. URL: https://www.sqlite.org/docs.html. (Дата обращения: 20.05.2020).
75. Docker: [Электронный ресурс]. URL: https://docs.docker.com/. (Дата обращения: 20.05.2020).
Приложение А
UML диаграмма классов
Приложение Б
Пример предсказания элементов страницы при помощи Mask R-CNN
Приложение В
Пример работы алгоритма для сортировки блоков
Рис. В1 Фрагмент примера статьи с чередованием одно- и двухколонного типа верстки
Рис. В2 Результат сортировки блоков по формату 1, выведенный в HTML-файл
Рис. В3 Результат сортировки блоков по формату 2, выведенный в HTML-файл
Приложение Г
Пример работы PDFPlumber по нахождению таблиц
Рис. Г1 Пример удачной работы PDFplumber
Рис. Г2 Пример неудачной работы PDFplumber, когда таблица не находится
Рис. Г3 Пример неудачной работы PDFplumber, когда таблица выделяется некорректно
Рис. Г4 Пример неудачной работы PDFplumber, когда таблица находится там, где нет таблицы
Приложение Д
Пример работы PDFPlumber по извлечению таблиц
Рис. Д1 Первая таблица, извлеченная из примера Г1, в виде Pandas DataFrame
Рис. Д2 Вторая таблица, извлеченная из примера Г1, в виде Pandas DataFrame
Приложение Е
Веб-интерфейс клиентской части системы
Рис. Е1 Главная страница веб-системы
Рис. Е2 Страница авторизации
Рис. Е3 Страница загрузки файла
Размещено на Allbest.ru
Подобные документы
Разработка программного обеспечения автоматической системы научных исследований (АСНИ) в интегрированной среде программирования Borland C++ Builder 6.0, работающего в среде ОС Windows, позволяющего осуществлять управление процессом спектрального анализа.
курсовая работа [569,3 K], добавлен 05.03.2009Изучение и реализация системы, использующей возможности Microsoft Azure для распределенного обучения нейронной сети. Рассмотрение функционирования распределенных вычислений. Выбор задачи для исследования; тестирование данного программного ресурса.
дипломная работа [2,0 M], добавлен 20.07.2015Использование методики управления жизненным циклом разработки программного обеспечения при внедрении реальной информационной системы. Предварительное исследование, проектирование, разработка, применение и обслуживание системы автоматической регистрации.
контрольная работа [30,6 K], добавлен 16.10.2010Создание электронного учебника, написанного на языке гипертекстовой разметки HTML. Характеристика программного обеспечения ЭВМ, необходимого для создания и эксплуатации информационной системы. Алгоритм функционирования системы, отладка программы.
курсовая работа [1,0 M], добавлен 22.12.2012Разработка системы программного обучения по курсу "Компьютерные сети". Обзор и сравнительный анализ существующих информационных систем обучения. Разработка программного обеспечения информационной системы. Разработка контента информационной системы.
дипломная работа [1,4 M], добавлен 28.04.2009Разработка алгоритма и программы для распознавания пола по фотографии с использованием искусственной нейронной сети. Создание алгоритмов: математического, работы с приложением, установки весов, реализации функции активации и обучения нейронной сети.
курсовая работа [1,0 M], добавлен 05.01.2013Обзор электронного документа, его информационное содержание и виды. Разработка программы автоматической обработки текстовых материалов: выбор сред разработки, извлечение понятийной области, получение стека суждений. Стандарты кодирования информации.
дипломная работа [3,9 M], добавлен 10.05.2014Создание Win-приложения для библиотеки, которое позволяло бы осуществлять операции выдачи и сдачи книг в соответствии со сроками. Выбор программных и технических средств реализации проекта. Разработка интерфейса системы, описание реализованных классов.
курсовая работа [3,1 M], добавлен 14.08.2015Задача неразрушающего контроля. Математическая модель нейронной сети, ее виды. Программное обеспечение для определения параметров неоднородности в материале. Основные алгоритмы и оптимизации. Эксперименты с персептроном и выбор оптимальных коэффициентов.
дипломная работа [5,2 M], добавлен 06.03.2013Определение понятия гипертекста. Основные части документа SGML. История создания стандартного языка разметки документов HTML. Отличия синтаксиса XHTML от HTML. RSS - семейство XML-форматов для описания лент новостей. Применение языка разметки KML.
презентация [4,3 M], добавлен 15.02.2014