Главная Коллекция "Otherreferats" Программирование, компьютеры и кибернетика Методи машинного навчання для аналізу структури документів

Методи машинного навчання для аналізу структури документів

Дослідження та класифікація існуючих методів аналізу структури документів. Архітектура моделі CascadeTabNet для виявлення таблиць. Створення сімейства моделей LayoutLM. Методи та моделі глибокого навчання та їх інтеграція з різними технологіями.

Рубрика	Программирование, компьютеры и кибернетика
Вид	статья
Язык	украинский
Дата добавления	29.12.2024
Размер файла	543,6 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Інститут комп'ютерних технологій, автоматики та метрології, Національний університет «Львівська політехніка»

МЕТОДИ МАШИННОГО НАВЧАННЯ ДЛЯ АНАЛІЗУ СТРУКТУРИ ДОКУМЕНТІВ

Коростіль Максим Ігорович аспірант кафедри

комп'ютеризованих систем автоматики

Лагун Ілона Ігорівна кандидат технічних наук, старший викладач

кафедри комп'ютеризованих систем автоматики

м. Львів

Анотація

Document Layout Analysis (DLA) - це технологія, яка фокусується на автоматичному розпізнаванні та структурному аналізі різних елементів у документах. Метою DLA є виявлення та класифікація структурних компонентів, таких як текстові блоки, заголовки, зображення, таблиці та графіки, для подальшої обробки та аналізу. Ця технологія відіграє ключову роль у багатьох областях, де необхідна автоматизація процесу обробки документів, наприклад, в оцифруванні архівів, створенні електронних бібліотек, автоматизації обробки юридичних документів та комерційної документації. В останні роки, з розвитком технологій машинного навчання та комп'ютерного зору, технологія DLA значно покращилася. Застосування глибоких нейронних мереж, таких як Convolutional Neural Networks (CNN) та Recurrent Neural Networks (RNN), дозволяє досягати високої точності в розпізнаванні і класифікації різних елементів документів. У статті проаналізовано популярні моделі глибокого навчання, які використовуються в сучасних системах DLA. Автори розглянули такі моделі машинного навчання як CascadeTabNet, Трансформер та його похідні моделі, фреймворки Mask R-CNN, DUBLIN та виокремили їх переваги та недоліки. Основна увага в статті акцентується на моделях, в основі яких лежить принцип Трансформера та використання методів самоконтрольованого навчання. Проаналізовано основні задачі, які можна вирішити за допомогою методів машинного навчання для аналізу структури документів, а саме отримання інформації про позицію елементів в 2D-просторі, візуальні токени та отримання високорівневої семантичної інформації. Висновки у роботі показують, що незважаючи на досягнення в цій галузі, існує ряд проблем, які ускладнюють ефективне виконання DLA, одними з яких є велика варіативність у структурі та оформленні документів та підтримка різних мов, особливо з різними системами письма. Вирішення цих проблем вимагає комплексного підходу, що включає поєднання передових алгоритмів машинного навчання та комп'ютерного зору, використання великих обсягів навчальних даних, а також розробку адаптивних моделей, здатних працювати з різними типами документів та макетів. Визначено та окреслено подальші дослідження в напрямку аналізу структури документів, які пов'язані з вивченням можливості застосування гібридних моделей, на основі об'єднання різних архітектур глибокого навчання та адаптації таких архітектур до розпізнавання та структурного аналізу україномовних документів.

Ключові слова: машинне навчання, глибоке навчання, комп'ютерний зір, сегментація зображень, розпізнавання тексту, аналіз структури документа, макет, семантичний аналіз.

Annotation

Korostil Maksym Ihorovych postgraduate student of the Department of Computerized Automatic Systems, Institute of Computer Technologies, Automation and Metrology, Lviv Polytechnic National University, Lviv

Lahun Ilona Ihorivna Candidate of technic sciences, Senior Lecturer of the Department of Computerized Automatic Systems, Institute of Computer Technologies, Automation and Metrology, Lviv Polytechnic National University, Lviv,

METHODS OF MACHINE LEARNING FOR DOCUMENT LAYOUT ANALYSIS

Document Layout Analysis (DLA) is a technology that focuses on the automatic recognition and structural analysis of various elements in documents. The purpose of DLA is to identify and classify structural components such as text blocks, headings, images, tables, and graphics for further processing and analysis. This technology plays a key role in many areas where the automation of document processing is necessary, such as the digitization of archives, the creation of electronic libraries, and the automation of processing legal and commercial documents.

In recent years, with the development of machine learning and computer vision technologies, DLA has significantly improved. The use of deep neural networks, such as Convolutional Neural Networks (CNN) and Recurrent Neural Networks (RNN), has enabled high accuracy in the recognition and classification of various document elements. This article analyzes popular deep learning models used in modem DLA systems. The authors review machine learning models such as CascadeTabNet, Transformer and its derivative models, Mask R-CNN, and DUBLIN frameworks, highlighting their advantages and disadvantages. The primary focus of the article is on models based on the Transformer principle and the use of self-supervised learning methods.

The main tasks addressed by machine learning methods for analyzing document structures include obtaining information about the position of elements in 2D space, visual tokens, and high-level semantic information. The paper's findings indicate that despite advances in the field, several challenges hinder the effective implementation of DLA. These challenges include the wide variability in document structure and design, and the support of different languages, especially those with different writing systems. Solving these problems requires a comprehensive approach that combines advanced machine learning and computer vision algorithms, the use of large volumes of training data, and the development of adaptive models capable of handling various document types and layouts.

Further research is needed in the analysis of document structures, particularly in exploring the potential of hybrid models that combine various deep learning architectures and adapt these architectures to recognize and analyze Ukrainian- language documents.

Keywords: machine learning, deep learning, computer vision, image segmentation, text recognition, document structure analysis, layout, semantic analysis.

Постановка проблеми

У сучасному світі, де інформація стає все більш доступною, аналіз структури документів відіграє важливу роль у вирішенні ряду проблем. Незважаючи на зростання популярності цифрових форматів, документ все ще залишається важливим носієм людських знань, який широко використовується для обміну і організації інформації. Зростання обсягів цієї інформації актуалізує проблему ефективного аналізу структури документів для управління даними та їх індексування.

Аналіз структури документа (англ. Document Layout Analysis, DLA) - це процес ідентифікації та категоризації областей інтересу в документі, представленому у вигляді цифрового зображення. Система читання потребує сегментації текстових та нетекстових частин, а також розміщення їх в правильному порядку читання. Виявлення та маркування різноманітних блоків, як основний текст документа, ілюстрації, математичні формули, таблиці, штампи, форми і т.д. називається геометричним макетним аналізом. Іншим аспектом аналізу є аналіз логічного компонування документу, що визначає семантичне значення його компонентів та взаємозв'язок між ними. Це стосується ролей цих компонентів, як наприклад заголовок, підпис ілюстрації, зноска, реквізити тощо.

З розвитком технологій машинного навчання з'явилися нові методи аналізу структури документів, які є більш точними та ефективними, ніж традиційні методи. Ці методи ґрунтуються на алгоритмах машинного навчання, які можуть навчатися на великих наборах даних та робити прогнози про структуру нових документів. Результати такого аналізу зазвичай використовується у наступних етапах мультимодальної обробки документів, таких як машинне розуміння документу, формування набору метаданих, що характеризують документ, формування бази знань для, так званих, відповідей на питання, класифікації документів тощо.

В загальному випадку, аналіз структури документу стає у нагоді для таких завдань як пошук інформації, оскільки може допомогти в пошуку релевантної інформації, покращуючи точність результатів пошуку та роблячи їх більш корисними для користувачів; виймання даних з великих обсягів тексту, що дозволяє отримувати нові знання та приймати якісніші рішення; автоматична класифікація документів за їх змістом та тематикою, що полегшує організацію та управління великими архівами документів; автоматичне реферування, що економить час користувача та допомагає швидко ознайомитись з ключовими моментами.

Аналіз останніх досліджень і публікацій

На основі аналізу представлених досліджень можна виділити кілька ключових напрямків у використанні [1].

На рис. 1 показано результат обробки сторінки документу модулем аналізу верстки як маску сегментації макету з наступними класами:

- «Рисунок» (зелений колір);

- «Підпис рисунка» (оранжевий колір);

- «Заголовок» (фіолетовий колір);

- «Алгоритм» (синій колір);

- «Параграф тексту» (червоний колір).

Рис. 1 Результат аналізу сторінки на основі сегментації

Джерело [1]

В загальному випадку, аналіз структури документа (англ. Document Layout Analysis, DLA) можна розглядати як засіб детектування об'єктів або завдання семантичного сегментування зображення документа в комп'ютерному зорі. У ранніх роботах в цьому напрямі [2, 3, 4] безпосередньо використовувались візуальні ознаки, закодовані згортковою нейронною мережею (ЗНМ, англ. Convolutional Neural Networks, CNN) для детектування елементів верстки

Рис. 2 Архітектура моделі CascadeTabNet для виявлення таблиць

Джерело [3]

Мета статті

Метою статті є дослідити та класифікувати існуючі методи аналізу структури документів та визначити перспективні напрямки досліджень в даній області.

Виклад основного матеріалу дослідження

Аналіз структури документа відіграє важливу роль у розумінні вмісту документа та вилученні OCR-тексту (англ. Optical Character Recognition). Існуючі методи в основному спираються на паралельні методи аналізу та ідентифікації, та мають свої переваги і недоліки. Серед таких методів ефективним є метод розпізнавання послідовної класифікації на основі вдосконаленої архітектури Mask R-CNN. У роботі [5] представлено фреймворк Mask R-CNN (регіонозалежна згорткова нейронна мережа, (англ. Region-based Convolutional Neural Network) для сегментації різних сутностей одних і тих же типів об'єктів (рис. 3). Хоча ця робота зосереджена на загальній задачі розпізнавання об'єктів на зображеннях, її можна застосувати й до аналізу структури документів, оскільки документи часто містять різні візуальні компоненти, такі як таблиці, зображення та діаграми, які потребують сегментації та розпізнавання.

Рис. 3 Структура фреймворка Mask R-CNN

Джерело: розроблено автором на основі [5].

Архітектура R-CNN (рис.3) включає наступні компоненти:

- базова мережа (англ. Backbone network). Це попередньо навчена згорткова нейронна мережа (англ. CNN), така як ResNet або Inception, яка використовується для отримання високорівневих візуальних ознак із зображення. В контексті аналізу структури документів, ці ознаки можуть представляти краї тексту, форми таблиць чи межі діаграм.

- мережа пропозицій областей (англ. Region Proposal Network, RPN). Ця мережа генерує пропозиції щодо областей, які можуть містити об'єкти. В аналізі документів RPN може запропонувати області, що ймовірно містять таблиці, зображення чи інші візуальні елементи.

- шар вирівнювання областей інтересу (англ. Region of Interest alignment layer, RoIAlign). Цей шар вибирає релевантні ознаки з базової мережі, утворюючи вектор ознак фіксованого розміру для кожної запропонованої області.

- гілка класифікатора (англ. Branch for classification) класифікує кожну запропоновану область за належністю до певного класу об'єктів. У випадку аналізу документів, класи можуть включати "таблиця", "зображення", "діаграма" тощо.

- гілка регресії рамки межі (англ. Branch for bounding box regression) уточнює координати рамки межі кожного об'єкта інтересу.

- гілка генерування маски (англ. Mask generation head) генерує маску, яка є двійковим зображенням, яке визначає пікселі, що належать об'єкту. У контексті документів, маска може точно окреслити форму таблиці чи відокремити зображення від фону.

Згодом, переважаючою при застосуванні машинного навчання до завдань розуміння документу, стала архітектура глибокого навчання - Трансформер (англ. Transformer) (рис. 4).

Рис. 3 Приклад DLA-архітектури на основі моделі Трансформер

Джерело [6]

Це модель глибокого навчання, яка використовує механізм «уваги», окремо зважуючи важливість кожної частини даних на входах. Її використовують переважно в області обробки природної мови та в комп'ютерному зорі. На відміну від згорткових та рекурентних нейронних мереж (РНМ, англ. Recurrent neural networks, RNN), модель Трансформер обробляє дані не обов'язково послідовно. Механізм уваги дозволяє моделі зосереджуватися на певних частинах вхідних даних в процесі виконання завдання. Наприклад, при аналізі сторінки документа модель може спочатку зосередитися на одній області, потім перейти до іншої і т.д., навіть, якщо вони розташовані в різних частинах сторінки (послідовності на вході моделі). Він визначає контекст, який надає значення кожній одиниці верстки в цій послідовності. Ця властивість уможливлює набагато більше розпаралелю- вання, ніж ЗНМ або РНМ, і таким чином знижує тривалість тренування.

Подальший розвиток галузі аналізу структури документу привів дослідників до створення сімейства моделей LayoutLM, що розширило підходи, засновані на принципі Трансформера, для роботи з візуальними елементами документів. У ці моделі було інтегровано ряд особливостей, таких як отримання інформації про позицію в 2D-просторі [7], візуальні токени, просторово направлена увага та здатність крос-модального вирівнювання [8]. Однак, деякі оцінки моделей LayoutLM не враховували розпізнавання тексту, що є суттєвим завданням. Модель Doc-Former використовувала лише візуальні ознаки поблизу текстових токенів [9]. Модель Ernie-Layout використовувала передбачення порядку читання як завдання для попереднього навчання [9]. TILT, генеративна мовна модель, була навчена на наборах даних з використанням генеративних властивостей [10]. Останнім досягненням в області DLA стало застосування методів самоконтрольованого навчання та мультимодальних вкладень (англ. Multi-modal embeddings) разом з трансформером, що зробило прорив в системах штучного інтелекту загалом та аналізу макета документу зокрема [8-12].

Самоконтрольоване навчання (англ. Self-supervised learning) є підходом у машинному навчанні, де моделі навчаються витягувати корисну інформацію з неанотованих даних, використовуючи власні механізми для генерування міток. Цей метод знаходиться на межі між навчанням з учителем (англ. Supervised learning) та без учителя (англ. Unsupervised learning). На відміну від контрольованого навчання, в якому моделі навчаються на проанотованому вручну наборі даних, у самоконтрольованому навчанні модель отримує сигнали для навчання, що виникають з самого набору даних, що дозволяє ефективно використовувати великі обсяги неанотованих даних. У контексті моделювання природної мови, самоконтрольоване навчання часто використовується для навчання моделі Трансформер. Інтеграція самоконтрольованого навчання з моделями Transformer додатково посилює ці переваги, дозволяючи створювати потужніші та більш гнучкі системи для автоматизованої обробки документів.

Модель UDoc використовує мультимодальні вкладення та самоконтро- лювання помилок навчання для аналізу взаємного представлення слів і візуальних ознак із зображень документів [13]. Модель SelfDoc використовує мультимодальні вхідні дані високого рівня абстракції, крос-модальне навчання та залежну від модальності увагу для моделювання компонентів документа [14]. Модель UDOP [15] застосовує трансформатор "зір-текст-верстка" і схему генерації послідовності на основі підказок, щоб уможливити розуміння, створення та редагування документів у різних доменах.

Описані вище моделі залежать від готових інструментів розпізнавання тексту документів, що обмежує їхнє застосування та збільшує обчислювальні потужності, необхідні для їх роботи. Останні моделі, такі як Donut [16, 17] та Pix2Struct [18], є наскрізними моделями перетворення зображення в текст, які не потребують OCR під час своєї роботи. Pix2struct - це попередньо навчена модель перетворення зображення в текст для суто візуального розуміння мови, яка може бути тонко налаштована на завдання інтерпретації письма у візуальному контексті. Вона була попередньо навчена робити розбір замаскованих скріншотів веб-сторінок на спрощений HTML і дозволяє гнучко підлаштовувати роздільну здатність під різноманітні сфери письма.

Модель DUBLIN [19] є наскрізним фреймворком, що комбінує енкодер зображення моделі Bletchley та декодер тексту заповнений вагами енкодеру тексту моделі TnfoXLM. Bletchley - мультимодальна модель, яка використовує механізм Bootstrapping для навчання енкодерів зображення і тексту, здатних обробляти різні модальності. TnfoXLM - це міжмовна модель, яка вивчає універсальне мовне представлення, що може працювати з різними мовами. Модель DUBLTN має 976 мільйонів параметрів, які можна тренувати, і включає шари перехресної уваги між енкодером зображень і текстовим декодером для моделювання взаємодії між візуальною і текстовою модальностями. Це дозволяє декодеру звертати увагу на релевантні області зображення на основі контексту. У моделі використано ваги енкодеру тексту моделі TnfoXLM як початкові ваги, а потім додатково натреновано її на різних наборах даних, використовуючи комбінацію попереднього навчання на багатозадачних цілях та дотримуючись створеної програми навчання. Для даного фреймворка застосовано метод обмежувальної рамки (англ. Bounding Box Task, BB), щоб дізнатися розташування та вміст текстових областей на зображенні документа. Для цього завдання кодується текст і верхня ліва та нижня права координати його обмежувальної рамки (області), використовуючи спеціальний формат токенів. Також використовуються перехресні ентропійні помилки навчання в якості функції помилки навчання для цієї задачі. Це завдання дозволяє моделі локалізувати та розпізнавати текстові області на зображенні документа.

На відміну від попередньої моделі наступна модель, яку буде розглянуто, фокусується виключно на завданні аналізу структури документа.

У статті [20] представлено VGT (Vision Grid Transformer), двопотоковий трансформер, що включає Зоровий Трансформер (ViT) [21] та Ґратковий Трансформер (GiT) [21] для виділення візуальних і текстових особливостей відповідно. Ґратковий трансформер - попередньо натренований для семантичного розуміння зображення сторінки документа на рівні 2D токенів (слів, фраз тощо) та її сегментів. Методи, що працюють з «ґраткою» документа [23, 24] перетворюють текст з інформацією про його верстку у двовимірне семантичне представлення і комбінують їх з візуальними особливостями, досягаючи хороших результатів у задачі DLA. Ця модель повною мірою використовує мультимодальну інформацію в поєднанні з методами попереднього навчання для кращого вивчення структури документу.

Архітектура моделі VGT (рис.5) складається з наступних компонентів:

- OCR / PDF Parser - компонент розпізнавання зображення документа (для випадку, коли вхідний документ подається у вигляді файлу зображення) або розкладання документа у форматі PDF. Завдання цього компонента - перетворити документ у набір текстових токенів з прив'язкою до їх координат, що автори моделі VGT називають ґратковим представленням.

- Resize Split - модулі розбивання документа на фрагменти (патчі).

- Flatten - модулі перетворення двовимірного масиву патчів в одновимірний масив.

- CLS - токен класифікації.

- Модулі лінійної проєкції - техніка, що застосовується в машинному навчанні для зменшення розмірності вхідної послідовності, виділення специфічних ознак. Шляхом перемножування вектора даних з вектором ваг відбувається «проєкція» даних в підпростір меншої розмірності.

- Fusion - конкатенація вихідних векторів особливостей кількох моделей в один для передачі результуючого вектора на вхід наступної модель.

- FPN (Feature Pyramid Network). Це тип архітектури нейронної мережі, що використовується в задачах виявлення об'єктів у рамках машинного навчання [26].

- Detection Framework - модуль детектування об'єктів.

- Гілка попереднього навчання з підгілками MGLM (маскування елементів ґратки для мовного моделювання з англ. Masked Grid Language Modeling [27]) та SLM (сегментне мовне моделювання з англ. Segment Language Modeling).

Цікавою особливістю даної моделі є наявність в її архітектурі гілки попереднього навчання для ґраткового трансформера.

Рис. 5 Архітектура моделі VGT

Джерело [25]

Для покращення семантичної обізнаності на рівні текстових токенів та сегментів автори моделі використовують дві нові гілки попереднього навчання для ґраткового трансформера. По-перше, за зразком моделі BERT [28], для покращення врахування семантики на рівні текстових токенів для ґраткових ознак пропонується підгілка MGLM, яка випадковим чином маскує деякі лексеми у вхідній 2D-гратці та відновлює оригінальні текстові лексеми в документі через їхній 2D-просторовий контекст. По-друге, для забезпечення розуміння семантики сегментного рівня в елементах ґратки, пропонується підгілка SLM, яка має на меті узгодити семантичні представлення сегментного рівня з ґраткового трансформера з псевдоелементами, створеними за допомогою існуючих мовних моделей шляхом контрастного навчання [29]. Ознаки як на рівні токенів, так і на рівні сегментів отримуються з ознак 2D- гратки, закодованих ґратковим трансформером за допомогою моделі RolAlign [30], відповідно до координат. Основним призначенням попереднього навчання є максимізація т. з. log-likelihood (log L). Log L - це поняття, яке використовується для вимірювання того, наскільки добре певна модель підходить до заданого набору даних. VGT може анотувати документ, розбиваючи сторінку на різні частини (назва документа, заголовки, підзаголовки тощо), які потім можуть бути розпізнані і передані наступній мовній моделі для виконання подальших завдань машинного розуміння документа. Таким чином використовуючи VGT, навіть візуально багаті документи можуть бути легко проаналізовані з дуже незначною постобробкою, що дозволяє зробити висновок про те, що синергія двох трансформерів, зорового та ґраткового, забезпечує найкращий на сьогоднішній день результат аналізу структури документа.

Висновки

документ архітектура модель навчання

Аналіз структури документів за допомогою машинного навчання - це галузь досліджень, що динамічно розвивається та має широкий спектр застосувань. З розвитком технологій машинного навчання з'явилися нові методи аналізу структури документів, які є більш точними та ефективними, ніж традиційні методи. Ці методи ґрунтуються на алгоритмах машинного навчання, які можуть навчатися на великих наборах даних та робити прогнози про структуру нових документів. У даній статті було проведено огляд поточного стану досліджень в галузі машинного навчання для аналізу структури мультимодальних документів. Представлено огляд різних методів, ґрунтуючись на їх архітектурі та можливостях. Визначено, що найбільш ефективними є методи та моделі глибокого навчання та їх інтеграція з різними технологіями, а також об'єднання різних типів, моделей та архітектур глибокого навчання для використання їхніх індивідуальних переваг і підвищення загальної продуктивності, використання самоконтрольованого навчання, яке забезпечує можливість використання великих обсягів немаркованих даних. Як наслідок, зростання складності моделей глибокого навчання вимагає розроблення більш ефективних архітектур, які дозволять знизити обчислювальні вимоги та обсяг пам'яті моделей без шкоди для їхньої продуктивності. Тому, подальша робота в напрямку аналізу структури документів з допомогою методів машинного навчання має бути пов'язана з вивченням можливості застосування гібридних моделей, на основі об'єднання різних архітектур глибокого навчання. Така інтеграція вимагає ретельного врахування поставленої задачі, характеристик наявних моделей, а також ресурсів і обмежень системи.

Крім цього, враховуючи, що більшість досліджень зосереджено на опрацюванні англомовних документів та документів, структура котрих диктується нормами, правилами та законами інших держав, пропонується провести дослідження з адаптації існуючих архітектур фреймворків машинного навчання та донавчання їх моделей на датасетах, утворених у повній мірі з україномовних документів, з наголосом на типи документації, якими користується державний сектор, фінансові департаменти підприємств, заклади сертифікації та стандартизації та інші установи та організації.

Література

1. Subramani, N., et al. (2020). A survey of deep learning approaches for OCR and document understanding. ArXiv, abs/2011.13534.

2. Schreiber, S., Agne, S., Wolf, I., Dengel, A., & Ahmed, S. (2017). Deepdesrt: Deep learning for detection and structure recognition of tables in document images. In ICDAR (pp. 1162-1167).

3. Prasad, D., Gadpal, A., Kapadni, K., Visave, M., & Sultanpure, K. (2020). Cascadetabnet: An approach for end to end table detection and structure recognition from image-based documents. In CVPR Workshops (pp. 2439-2447).

4. Borges Oliveira, D. A., & Viana, M. P. (2017). Fast CNN-based document layout analysis. In 2017 IEEE International Conference on Computer Vision Workshops (ICCVW) (pp. 1173-1180). https://doi.org/10.1109/ICCVW.2017.142

5. He, K., Gkioxari, G., Dollar, P., & Girshick, R. (2017). Mask R-CNN. In ICCV (pp. 2961-2969). https://doi.org/10.1109/ICCV.2017.322.

6. Huang, Y., Lv, T., Cui, L., Lu, Y., & Wei, F. (2022). LayoutLMv3: Pre-training for document AI with unified text and image masking. ArXiv, abs/2204.08387

7. Xu, Y., Li, M., Cui, L., Huang, S., Wei, F., & Zhou, M. (2020). LayoutLM: Pre-training of text and layout for document image understanding. ArXiv, abs/2004.02227..

8. Yu, Z., Wang, J., Yu, L.-C., & Zhang, X. (2022). Dual-encoder transformers with cross- modal alignment for multimodal aspect-based sentiment analysis. In Proceedings of the 2nd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 12th International Joint Conference on Natural Language Processing (Volume 1: Long Papers) (pp. 414-423). Association for Computational Linguistics.Appalaraju, Srikar & Jasani, Bhavan & Urala Kota, Bhargava & Xie, Yusheng & Manmatha, R.. (2021). DocFormer: End-to-End Transformer for Document Understanding. 973-983. https://doi.org/10.1109/ ICCV48922.2021.00103.

9. Appalaraju, S., Jasani, B., Kota, B. U., Xie, Y., & Manmatha, R. (2021). Document image classification and understanding: Recent advances and future directions. ArXiv, abs/2103.06262.

10. Peng, Q., Pan, Y., Wang, W., Luo, B., Zhang, Z., Huang, Z., Hu, T., Yin, W., Chen, Y., Zhang, Y., Feng, S., Sun, Y., Tian, H., Wu, H., & Wang, H. (2022). End-to-end information extraction by character-level generative pre-training. ArXiv, abs/2203.06471.

11. Powalski, R., Borchmann, L., Jurkiewicz, D., Dwojak, T., Pietruszka, M., & Palka, G. (2021). Going deeper into text extraction with transformers. ArXiv, abs/2106.09211.

12. Gu, J., Kuen, J., Morariu, V. I., Zhao, H., Jain, R., Barmpalios, N., Nenkova, A., & Sun, T. (2021). Unidoc: Unified pretraining framework for document understanding. In NIPS (pp. 39-50).

13. Gu, J., Nenkova, A. N., Barmpalios, N., Morariu, V. I., Sun, T., Jain, R. B.,... & Zhao, H. (2023). U.S. Patent Application No. 17/528,061..

14. Li, P., Gu, J., Kuen, J., Morariu, V. I., Zhao, H., Jain, R., Manjunatha, V., & Liu, H. (2021a). Document image layout understanding and enhancement with multimodal transformers. ArXiv, abs/2108.07127.

15. Tang, Z., Yang, Z., Wang, G., Fang, Y., Liu, Y., Zhu, C., Zeng, M., Zhang, C., & Bansal, M. (2023). Comprehensive document understanding with multimodal learning. ArXiv, abs/2303.11526.

16. Kim, G., Hong, T., Yim, M., Nam, J., Park, J., Yim, J., Hwang, W., Yun, S., Han, D., & Park, S. (2022). Multi-modal document understanding with pre-trained vision and language models. ArXiv, abs/2205.04760.

17. Davis, B., Morse, B., Price, B., Tensmeyer, C., Wigington, C., & Morariu, V. (2022). Dessurt: Deep structured document understanding. ArXiv, abs/2201.11060.

18. Lee, K., Joshi, M., Turc, I., Hu, H., Liu, F., Eisenschlos, J., Khandelwal, U., Shaw, P., Chang, M.-W., & Toutanova, K. (2022). Training language models to follow instructions with human feedback. ArXiv, abs/2203.02155.

19. Aggarwal, K., Khandelwal, A., Tanmay, K., Khan, O., Liu, Q., Choudhury, M., Chauhan, H., Som, S., Chaudhary, V., & Tiwary, S. (2023). DUBLIN - Document Understanding By Language-Image Network. ArXiv, abs/2305.14218.

20. DA, C., et al. (2023). Vision grid transformer for document layout analysis. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 19462-19472).

21. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An image is worth 16x16 words: Transformers for image recognition at scale. In ICLR.

22. Zhang, P., Li, C., Qiao, L., Cheng, Z., Pu, S., Niu, Y., & Wu, F. (2021). VSR: A unified framework for document layout analysis combining vision, semantics, and relations. In ICDAR (pp. 115-130).

23. Katti, A. R., Reisswig, C., Guder, C., Brarda, S., Bickel, S., Hohne, J., & Faddoul, J. B. (2018). Chargrid: Towards understanding 2D documents. In EMNLP (pp. 853-861).

24. Yang, X., Yumer, E., Asente, P., Kraley, M., Kifer, D., & Giles, C. L. (2017). Learning to extract semantic structure from documents using multimodal fully convolutional neural networks. In CVPR (pp. 5315-5324).

25. Luo, C., et al. (2024). LayoutLLM: Layout instruction tuning with large language models for document understanding. ArXiv preprint, arXiv:2404.05225.

26. Lin, T.-Y., Dollar, P., Girshick, R. B., He, K., Hariharan, B., & Belongie, S. J. (2017). Feature pyramid networks for object detection. In CVPR (pp. 936-944).

27. Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of deep bidirectional transformers for language understanding. ArXiv preprint, arXiv:1810.04805.

28. Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of NAACL-HLT (pp. 4171-4186).

29. Zhong, Y., Yang, J., Zhang, P., Li, C., Codella, N., Li, L. H., Zhou, L., Dai, X., Yuan, L., Li, Y., & Gao, J. (2022). RegionCLIP: Region-based language-image pretraining. In CVPR (pp. 16772-16782).

30. Yang, F., & Wang, M. (2021). Deep learning-based method for detection of external air conditioner units from street view images. Remote Sensing, 13(18), 3691. https://doi.org/ 10.3390/rs13183691

References

1. Subramani, N., et al. (2020). A survey of deep learning approaches for OCR and document understanding. ArXiv, abs/2011.13534.

2. Schreiber, S., Agne, S., Wolf, I., Dengel, A., & Ahmed, S. (2017). Deepdesrt: Deep learning for detection and structure recognition of tables in document images. In ICDAR (pp. 1162-1167).

3. Prasad, D., Gadpal, A., Kapadni, K., Visave, M., & Sultanpure, K. (2020). Cascadetabnet: An approach for end to end table detection and structure recognition from image- based documents. In CVPR Workshops (pp. 2439-2447).