Численные методы детектирования и исправления геометрических искажений в изображениях текстовых документов
Сегментация междустрочных просветов и строк в изображении текстового документа на основе непрерывного гранично-скелетного представления изображения. Выполнение аппроксимации геометрических искажений всего документа в форме двумерного патча Безье.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | автореферат |
Язык | русский |
Дата добавления | 31.07.2018 |
Размер файла | 963,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
На правах рукописи
Специальность 05.13.17 - Теоретические основы информатики
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата физико-математических наук
Численные методы детектирования и исправления геометрических искажений в изображениях текстовых документов
Масалович Антон Андреевич
Москва - 2010
Работа выполнена на кафедре Математических Методов Прогнозирования факультета Вычислительной Математики и Кибернетики Московского Государственного университета имени М.В. Ломоносова.
Научный руководитель:
Доктор технических наук, профессор Л.М. Местецкий
Официальные оппоненты:
Доктор физико-математических наук Ю.В. Визильтер
Кандидат технических наук И.А. Рейер
Ведущая организация:
Московский физико-технический институт (государственный университет)
Защита состоится 10 июня 2010 г. в 15 часов на заседании диссертационного совета Д 002.017.02 при Учреждении Российской академии наук Вычислительный центр им. А.А. Дородницына РАН по адресу: Москва, улица Вавилова, дом 40.
С диссертацией можно ознакомиться в библиотеке Вычислительного центра им. А.А. Дородницына Российской академии наук
Автореферат разослан 5 мая 2010 г.
Ученый секретарь диссертационного совета Д 002.017.02, д. ф.-м. н., профессор В.В. Рязанов
1. Общая характеристика работы
Предметом настоящего исследования является разработка математического метода компенсации геометрических искажений при оптическом распознавании текстовых документов на основе непрерывного гранично-скелетного представления изображения, создание комплекса программной реализации данного метода и его апробация.
Системы автоматического распознавания текста в электронных документах, оцифрованных с помощью сканеров, получили в настоящее время широкое распространение. При этом современные коммерческие системы распознавания текстов (такие как FineReader, OmniPage, ReadIris) достаточно эффективно могут исправлять геометрические искажения документов, полученные при сканировании (такие как искажения в области сгиба книги), и с высоким качеством распознавать большинство отсканированных изображений.
Но в настоящее время помимо задачи распознавания сканированных документов возникает задача распознавания документов, полученных с помощью цифровых фотокамер и камер мобильных телефонов. Это связано с тем, что цифровые фотоаппараты получают все большее распространение. Однако использование цифровых фотоаппаратов для оцифровки текста создает много новых трудностей при распознавании текста. Одной из главных проблем современных фотоаппаратов является то, что они привносят сильные геометрические искажения в изображения документа.
Искажения при фотографировании могут появиться по нескольким независимым друг от друга причинам. Это может быть недостатком используемой оптики - так называемый «эффект бочки». Другая причина состоит в том, что документ при фотографировании расположен не под прямым углом к оси камеры, что порождает перспективные искажения. Искажение также может быть вызвано неровностью исходного документа - к примеру, тем же изгибом в центре книги. При этом перечисленные искажения могут комбинироваться между собой в любом сочетании. Из-за этого невозможно точно описать и предсказать модель искажения сфотографированного документа.
Большинство современных профессиональных систем распознавания текста (в частности, наиболее распространенные системы FineReader, OmniPage, ReadIris) рассчитаны на то, что строки текста на изображении будут прямыми и горизонтальными. Малейшие искажения строк текста приводят к сильному ухудшению качества распознавания. Поэтому в последнее время очень большое внимание уделяется методам, позволяющим устранять геометрические искажения в изображениях документов. В частности можно перечислить следующие работы: Xu-Cheng Yin, Jun Sun, Satoshi Naoi, 2007; Bin Fu, Minghui Wu, Rongfeng Li, Wenxin Li, Zhuoqun Xu, Chunxu Yang, 2007; D. C. Schneider, M. Block, R. Rojas, 2007; B. Gatos, I. Pratikakis, K. Ntirogiannis, 2007, H. Ezaki, S. Uchida, A. Asano, H. Sakoe, 2005; U. Ulges, C. H. Lampert, T. M. Breuel, 2005; Li Zhang, Chew Lim Tan, 2005; A. Yamashita, A. Kawarago, T. Kaneko, K.T. Muira, 2004; M.S. Brown, W.B. Seales; 2004.
Однако, несмотря на возросший интерес к этой области и наличие большого количества различных подходов, универсального алгоритма для решения проблемы геометрических искажений, который устранял бы искажения на любых типах текстовых изображений, не было изобретено.
Задачу распрямления искаженных строк в изображении документа обычно разделяют на две подзадачи: выделения и описания строчной структуры в изображении и построения преобразования изображения, при котором эти выявленные строки превратятся в прямолинейные. Известные методы устранения геометрических искажений имеют существенные недостатки при решении обеих подзадач.
Для определения строковой структуры обычно вычисляются базовые линии текста (линии нижней и верхней границ строчных символов). Однако достоверное определение базовых линий представляет собой весьма сложную задачу. Наличие свисающих и выступающих элементов в символах шрифта, знаков препинания и диакритических символов, а также коротких слов в строках приводят к большим ошибкам в определении базовых линий. Неточности в их определении приводят к неправильному описанию строковой структуры.
Описание распрямляющего преобразования обычно осуществляется на основе некоторой параметрической модели заданного класса, например, перспективного искажения, либо цилиндрического искажения внутреннего края страниц книги. Если фактическое искажение не относится к этому классу, то выбранная модель не позволяет подобрать хорошее распрямляющее преобразование. В результате известные методы не являются универсальными, могут исправлять только какой-то ограниченный класс искажений документов, к примеру, перспективные искажения или искажения от сгиба страницы у края книги.
Необходимость разработки новых более универсальных методов устранения геометрических искажений широкого класса, возникающих при сканировании и фотографировании документов, определяют актуальность темы данного исследования.
Целью настоящей работы является создание метода аппроксимации и устранения сложных разнообразных геометрических искажений на изображениях документов для повышения качества их распознавания. Сложность данной задачи определяется трудностями детектирования и формального описания разнообразных искажений текстовых документов, необходимостью построения универсального алгоритма коррекции документов, трудностью выбора критерия качества для решения поставленной задачи.
В практическом аспекте целью работы является создание программного комплекса для устранения геометрических искажений текстовых документов. Данный комплекс должен выполнить предобработку предоставленного ему изображения текстового документа с информацией о расположении текстовых блоков в документе и сформировать новое изображение этого документа, в котором текстовые блоки будут иметь правильную прямоугольную форму, а строки текста расположены вдоль параллельных прямых линий.
Предлагаемый подход к решению задачи основывается на двух новых идеях. Первая идея относится к подзадаче выявления строковой структуры изображения. Предлагается осуществить сегментирование строк изображения путём выявления междустрочных просветов на основе построения и анализа внешнего скелета изображения текста в документе. Вторая идея относится к выбору вида геометрического преобразования изображения. Предлагаемый подход состоит в описании искажения в виде двумерного патча Безье. Эта модель обеспечивает большую гибкость настройки на различные типы сложных искажений.
Научная задача работы состоит в создании метода геометрических преобразований изображений текстовых документов на основе аппроксимации междустрочных просветов с помощью одномерных кривых Безье и общего преобразования изображения в виде двумерного патча Безье.
Научная новизна работы определяется тем, что в рамках настоящего исследования впервые в интересах устранения геометрических искажений в текстовых электронных документах использованы следующие идеи:
· Выполнена сегментация междустрочных просветов и строк в изображении текстового документа на основе непрерывного гранично-скелетного представления изображения, в частности, на основе анализа внешнего скелета текста;
· Выполнена аппроксимация геометрических искажений всего документа в форме двумерного патча Безье;
· Разработана вычислительная схема построения аппроксимирующего искажения патча Безье на основе вычисления одномерных аппроксимирующих кривых Безье для междустрочных просветов и дальнейшей итерационной подгонки патча Безье.
Научная значимость работы состоит в описании геометрических искажений в изображениях текстовых документов с помощью математической модели двумерного патча Безье, а также в разработке метода параметрической настройки этой модели для конкретных данных.
Практическая значимость состоит в создании и реализации нового метода аппроксимации и удаления геометрических искажений в изображениях текстовых документов, обеспечивающего существенное повышение качества автоматического распознавания текстов.
Обоснованность и достоверность научных положений, выводов и результатов работы подтверждается корректным использованием математического аппарата непрерывного гранично-скелетного представления изображения, кривых и патчей Безье, строгими математическими доказательствами, программной реализацией и вычислительными экспериментами, а также успешным использованием разработанных моделей и методов при решении практических задач.
Положения выносимые на защиту:
· Математическая модель описания искажений в виде непрерывной функции преобразования координат, представленной двухмерным патчем Безье.
· Метод детектирования междустрочных просветов текста на основе непрерывного внешнего скелета изображений текстовых блоков.
· Метод сегментации строк текста в изображении на основе найденных междустрочных просветов.
· Метод аппроксимации междустрочных просветов и строк текста кубическими кривыми Безье.
· Метод аппроксимации искажения всего документа с помощью двумерного патча Безье по набору одномерных кривых Безье, аппроксимирующих искривления отдельных междустрочных просветов.
· Метод итерационной подгонки аппроксимирующего патча Безье.
· Метод распрямления изображения документа на основе аппроксимации искажения документа.
Структура диссертации
Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы и одного приложения с результатами экспериментов.
В первой главе содержится:
· Математическая постановка задачи детектирования и устранения геометрических искажений на изображениях текстовых документов.
· Функция оценки качества методов распрямления изображений на основе качества распознавания.
· Обзор существующих решений задачи детектирования и устранения геометрических искажений на изображениях текстовых документов.
· Общая структура предлагаемого метода решения задачи.
Во второй главе содержится:
· Определение непрерывного гранично-скелетного представления бинарного растрового изображения.
· Доказательство некоторых свойств скелета изображения.
· Алгоритм предобработки скелета и изображения для лучшего выделения междустрочных ветвей скелета.
· Алгоритм выделения междустрочных ветвей скелета на основе кластеризации ребер скелета.
· Механизм сегментации строк текста на изображении на основе выделенных междустрочных ветвей.
· Метод аппроксимации междустрочных ветвей скелета и строк текста на изображении с помощью одномерных кривых Безье.
· Алгоритм итерационной подгонки кривых Безье при аппроксимации.
В третьей главе описывается:
· Метод изменения параметризации кривых Безье.
· Метод построения двумерного патча Безье на основе аппроксимации набора одномерных кривых.
· Алгоритм упрощенной аппроксимации набора кривых патчем Безье на основе аппроксимации наборов опорных точек кривых.
· Процедура построения распрямленного изображения документа на основе использования обратного преобразования патча Безье, аппроксимирующего геометрическое искажение текстового документа.
В четвертой главе описывается программная реализация предложенного алгоритма и содержится отчет о результатах экспериментов на тестовой базе изображений.
В заключении подводятся итоги работы.
Диссертация содержит 132 страницы машинописного текста, 37 рисунков. Список литературы включает 52 наименования.
Апробация. Представленные в работе результаты докладывались и обсуждались на 2-ой международной конференции по анализу и распознаванию изображений с фотокамер (CBDAR-2007, Curitiba, Brazil), 9-ой международной конференции по распознаванию образов и обработке информации (PRIP-2007, Минск, Беларусь), 16-ой и 17-ой международных конференциях по компьютерной графике и машинному зрению (Графикон-2006, Новосибирск; Графикон-2007, Москва).
По теме диссертации опубликовано 6 работ включая статьи в отечественных журналах и трудах международных конференций, в том числе одна статья в журнале из списка ВАК.
Содержание работы
Введение содержит общую характеристику работы, обоснование актуальности темы исследования, цели и задачи диссертационного исследования.
В первой главе описывается общая постановка задачи аппроксимации и устранения геометрических искажений с изображений текстовых документов для повышения качества их распознавания.
Определяется представление бинарного изображения (I) в виде в виде двумерной функции цвета на плоскости: .
Определяется понятие функции геометрического преобразования изображения - перевод плоскости изображения в другую плоскость:
.
Ставится задача детектирования геометрических искажений на изображениях текстовых документов в виде построения функции геометрического преобразования изображения, которая бы аппроксимировала искажения документа. Определяется процесс построения распрямленного изображения:
Предлагается использовать двумерный патч Безье для аппроксимации искажений текстовых документов.
Двумерный патч Безье размерности - это функция , задаваемая выражением:
,
где - опорные вершины патча (точки на плоскости изображения), а и - полиномы Бернштейна.
Размерность патча по двум координатам может различаться.
Область определения параметров патча (t,u) это вся действительная плоскость. Однако в реальной работе обычно используется область параметров от 0 до 1.
Определяется функция оценки алгоритма детектирования и удаления геометрических искажений с изображения документа через уменьшение ошибок распознавания на исходном и распрямленном документе.
Далее в первой главе приводится анализ существующих методов решения задачи диссертации. Показаны недостатки существующих подходов с точки зрения современных систем обработки и распознавания изображений. По результатам анализа формируются требования к разрабатываемому методу.
Далее в первой главе приводится общая структура предлагаемого метода:
1) Предобработка изображения
2) Скелетизация изображения
3) Кластеризация ребер скелета
4) Удаление вертикальных ребер
5) Выделение междустрочных ветвей скелета
6) Выделение строк текста
7) Аппроксимация строк и междустрочных просветов кривыми Безье
8) Построение патча Безье по набору кривых
9) Распрямление изображения
Во второй главе приводится определение непрерывного гранично-скелетного представления изображения. Полигональной областью (ПО) называется ограниченная область, граница которой описывается конечным числом простых непересекающихся полигонов. Полигональная область аппроксимирует растровое бинарное изображение, если при наложении центры всех черных точек растра лежат внутри области, а центры всех белых точек растра лежат вне области. Представление изображения в виде совокупности полигонов минимального периметра, аппроксимирующих черные области на изображении, будем называть непрерывным граничным представлением изображения.
Скелетом полигональной области называется геометрическое место точек на евклидовой плоскости, имеющих не менее двух ближайших точек на границе ПО. Часть скелета, лежащая внутри ПО, образует внутренний скелет, а часть, лежащая вне ПО - внешний скелет области.
Совокупность непрерывного граничного представления изображения и непрерывного скелета, построенного по этому граничному представлению, будем называть непрерывным гранично-скелетным представлением изображения.
Рис. 1. Пример непрерывного гранично-скелетного представления изображения.
Описывается представление скелета изображения в виде графа на плоскости:
,
где - узлы графа (точки на плоскости), - ребра графа (отрезки прямых и парабол на плоскости, соединяющие узлы графа).
Далее решается задача очистки скелета, которая позволяет удалить из скелета все ребра, лежащие между частями одного черного объекта. Процедура очистки скелета состоит в рекурсивном удалении из скелета всех конечных ребер. Процедура повторяется до тех пор, пока в скелете не останется конечных ребер. После удаления конечных ребер скелета все новые получившиеся конечные вершины будут инцидентны каждая только одному черному объекту. Таким образом, можно повторить процедуру удаления конечных ребер, не потеряв при этом ребра, инцидентные двум различным объектам на изображении. С помощью данной процедуры из скелета будут удалены все ребра, инцидентные одному объекту. Доказательство корректности процедуры очистки скелета приведено в диссертации. текстовый документ скелетный изображение
Рис. 2. Скелет изображения без обработки и с предложенной обработкой изображения и скелета.
Затем решается задача выделения в скелете ребер, лежащих между строками текста. Выделение рёбер скелета, относящихся к междустрочным просветам, осуществляется на основе предложенного алгоритма кластеризации ветвей скелета.
По всем углам наклона ветвей скелета строится гистограмма углов наклона. После построения гистограммы определяется порог, разделяющий два кластера. Для определения порога предлагается следующий механизм кластеризации. Для каждого возможного значения порогового угла (с шагом в один градус) определяется показатель разделимости получающихся кластеров. Для этого слева и справа от порога определяется среднее значение гистограммы ( и ) и дисперсия значений гистограммы ( и ). Показатель разделимости кластеров для данного порога определяется как отношение суммы дисперсий внутри кластеров к расстоянию между средними значениями кластеров:
.
Содержательно показатель разделимости описывает отношение внутриклассового рассеяния к межклассовому.
Порог, разделяющий кластеры, выбирается как порог с наименьшим значением показателя разделимости кластеров.
Рис. 3. Пример гистограммы углов наклона ветвей скелета с определенным порогом.
После кластеризации ветвей скелета из скелета удаляются все ветви, не лежащие между соседними строками текста. После применения ряда эмпирических правил для разрешения неоднозначностей в скелете остаются только ветви скелета разделяющие соседние строки текста.
Рис. 4. Скелет изображения до фильтрации вертикальных ветвей и после выделения междустрочных ветвей скелета.
На основе набора междустрочных ветвей скелета предлагается механизм сегментации строк текста на изображении. Задача сегментации строк на изображении по имеющимся междустрочным ветвям скелета сводится к задаче нахождения соседних по вертикали междустрочных ветвей скелета и определения для каждой пары ветвей вертикальных границ строки.
Рис. 5. Пример сегментации строк текста на изображении.
Далее предлагается метод построения аппроксимации ломаной линии на изображении и области строки текста на изображении с помощью одномерных кривых Безье.
Одномерная кривая Безье - это параметрическая кривая на плоскости, задаваемая выражением:
,
где - опорные вершины кривой (точки на плоскости изображения), а - базисные функции кривой Безье, называемые также полиномами Бернштейна, -- степень полинома, -- порядковый номер опорной вершины.
,
Область определения параметров кривой (t) это вся действительная прямая. Однако в реальной работе обычно используется область параметра от 0 до 1.
Для аппроксимации набора точек на плоскости кривой Безье поставим в соответствие каждой точке определенное значение параметра аппроксимирующей кривой: .
Если набор точек на плоскости - это ломаная линия (набор точек, в котором все пары соседних точек соединены отрезками кривой) (как для аппроксимации междустрочной ветви скелета), то в качестве начальной параметризации для каждой точки бралось отношение длины ломанной от начала до данной точки ко всей длине ломанной.
Если набор точек на плоскости - это набор черных объектов (как для аппроксимации области строки текста на изображении), то в качестве начальной параметризации для каждой точки бралась просто координата по x данной точки.
В качестве расстояния от набора точек на плоскости до кривой будем использовать суммарное квадратичное отклонение точек из этого набора от соответствующих точек кривой:
Теорема 1. Кривая Безье наилучшего приближения для набора точек на плоскости имеет опорные точки, координаты которых являются решением двух систем линейных уравнений:
В работе использован следующий итерационный механизм подгонки аппроксимирующей кривой Безье:
После того как построена кривая по предварительным параметрам, для каждой аппроксимируемой точки находится ближайшая точка на построенной кривой. С аппроксимируемой точкой ассоциируется значение параметра найденной ближайшей точки. Полученные параметры используются при построении новой аппроксимирующей кривой. Процедура повторяется пока разница в оценке аппроксимации на соседних шагах не будет меньше предопределенного порога -
Теорема 3. На каждом новом шаге расстояние от построенной кривой до набора точек не увеличивается. То есть, для произвольной пары соседних шагов с номерами l и (l+1) суммарное расстояние между набором точек и построенной кривой на новом шаге будет не больше, чем расстояние на предыдущем шаге.
Следствие. Предложенный метод итерационной подгонки сходится, причем, начиная некоторой итерации, условие останова для него выполняется.
В главе три описывается механизм изменения параметризации для кривой Безье с отрезка на произвольный отрезок , то есть построение кривой , такой, что для любого t:
Задачу изменения параметризации можно упростить, если решать ее в два этапа. Сначала параметры исходной кривой сжимаются в раз. То есть параметризация меняется с отрезка до отрезка . Затем параметры сдвигаются на . То есть параметризация меняется с отрезка до отрезка .
В диссертации показывается, что задача растяжения и сдвига параметров кривой сводится к решению системы линейных уравнений для определения координат опорных точек кривых, и приводится решение этих систем линейных уравнений для кривых третьего порядка.
Далее в главе три ставится задача аппроксимации набора одномерных кривых двумерным патчем Безье.
Двумерный патч Безье размерности - это функция , задаваемая выражением:
,
где - опорные вершины патча (точки на плоскости), а и - полиномы Бернштейна.
Если в патче Безье зафиксировать один параметр , то получившаяся функция по второму параметру t будет одномерной кривой Безье на плоскости:
Задача аппроксимации набора кривых на изображении текста с помощью патча Безье ставится следующим образом:
Есть набор кривых . Для каждой кривой из набора зафиксируем три параметра: , , .
Будем считать, что каждой кривой из набора соответствует некая кривая из патча, полученная фиксацией в патче параметра :
.
Будем считать, что началу кривой соответствует значение кривой из патча в точке : , а концу кривой соответствует значение кривой из патча в точке : .
В диссертации приведены различные методы определения значений параметров для кривых.
Определим расстояние между двумя точками на плоскости, как стандартное евклидово расстояние:
Определим расстояние от одной кривой Безье до другой как интеграл по параметру первой кривой квадратичного расстояния между соответствующими точками обеих кривых:
Тогда для аппроксимации набора кривых патчем Безье нужно построить патч, который бы минимизировал отклонение кривых из набора от соответствующих кривых из патча с учетом определенных параметров:
Теорема 4. Координаты опорных точек патча Безье порядка , аппроксимирующего набор кривых Безье , являются решением двух следующих систем линейных уравнений размерности :
Назовем набор кривых кривыми с одинаковой параметризацией, если для любого . В диссертации предлагается метод перехода от задачи аппроксимации произвольного набора кривых к набору кривых с одинаковой параметризацией путем изменения параметризации отдельных кривых.
Далее в работе предлагается альтернативный, более быстрый алгоритм аппроксимации набора кривых с одинаковой параметризацией патчем Безье по опорным точкам кривых.
Теорема 5. Отклонение аппроксимирующего патча Безье от набора исходных кривых с одинаковой параметризацией всегда меньше или равно, чем суммарное расстояние между опорными точками исходных кривых и линейной комбинацией опорных точек патча Безье.
Таким образом, мы заменяем задачу аппроксимации набора кривых с одинаковой параметризацией на следующую задачу:
Дан набор кривых с одинаковой параметризацией .
Рассмотрим набор контрольных точек кривых с одинаковым порядковым номером - . Сопоставим каждой точке из набора то же значение параметра , что соответствует исходной кривой. Тогда мы можем построить кривую Безье , аппроксимирующую данный набор точек:
Для каждого порядкового номера контрольных точек исходных кривых (от 0 до ) получаем набор из контрольных точек аппроксимирующей кривой. Таким образом, всего получается набор из контрольных точек. Эти точки и используются для построения патча Безье.
Рис. 6. Пример построения патча Безье.
Теорема 6. Если аппроксимировать n+1 наборов опорных точек с помощью кривых Безье и максимальное отклонение построенных аппроксимирующих кривых от соответствующего набора точек будет меньше e, то суммарное отклонение построенного по опорным точкам этих кривых патча от набора исходных кривых будет также меньше e.
Далее в работе приводится процесс итерационной подгонки патча Безье:
Для каждой кривой из исходного набора оценим расстояние от данной кривой до соответствующей кривой из патча и посчитаем среднее квадратов расстояний между построенным патчем и набором кривых. После этого удалим из исходного набора кривых все кривые, для которых получившееся отклонение от кривых из патча в n раз больше чем среднее отклонение для всего набора кривых. После этого построим новый аппроксимирующий патч по уменьшенному набору кривых.
Рис. 7. Патч Безье до и после итерационной подгонки.
Рис. 8. Пример работы предлагаемого алгоритма.
Далее в работе приводится механизм построения распрямленного изображения с помощью обратного преобразования от патча Безье, аппроксимирующего искажение документа:
В четвертой главе работы приводится описание программного комплекса, реализующего предложенный алгоритм.
Основные функции программной реализации
1) Загрузка произвольного изображения документа.
2) Ручное выделение на изображении текстового блока.
3) Ручное удаление с изображения не нужной разметки с возможностью последующего восстановления при построении распрямленного изображения.
4) Построение непрерывного гранично-скелетного представления изображения выделенного текстового блока.
5) Фильтрация скелета изображения выделенного блока и выделение в нем ветвей, лежащих между строками текста на изображении.
6) Аппроксимация искривления междустрочных ветвей скелета кривыми Безье.
7) Выделение отдельных строк текста на изображении на основе данных о междустрочных кривых.
8) Построение аппроксимации кривыми Безье выделенных строк на изображении.
9) Аппроксимация геометрических искажений всего выделенного блока патчем Безье на основе информации об аппроксимации искажений отдельных междустрочных просветов в тексте и отдельных строк текста.
10) Создание распрямленного изображения на основе аппроксимации искажения документа патчем Безье.
11) Сохранение распрямленного изображения в файл.
12) Визуализация результатов работы каждого этапа алгоритма (построенного скелета, выделенных междустрочных ветвей, построенного патча Безье, распрямленного изображения).
13) Возможность сохранения в файл изображений с результатами работы каждого этапа алгоритма.
Далее приводятся результаты тестирования предложенного алгоритма на тестовой базе изображений.
В качестве тестовой базы для проведения эксперимента была использована публичная тестовая база изображений документов с геометрическими искажениями.
В тестовую базу входит 102 изображения. Каждое изображение -- это сканированное изображение одной страницы из какой-либо книги. Все изображения черно-белые. На изображениях текст расположен в одну колонку с редкими включениями боковых сносок. На большинстве изображений текст занимает всю страницу. Размер текста на изображениях в среднем был 14 пунктов. Первые 11 изображений были отсканированы с разрешением в 300 dpi. Все остальные изображения были отсканированы с разрешением 450 dpi.
Эксперимент состоял в следующем: каждое изображение из тестовой базы распрямлялось с помощью описанного алгоритма. Затем с помощью программы FineReader 9.0 Professional распознавалось исходное изображение и распрямленное изображение. Оценивался процент исправленных за счет распрямления ошибок распознавания. Также оценивалась с помощью предложенного выше механизма степень искривления построенного на изображении патча Безье до и после распрямления.
На большинстве изображений предложенный алгоритм существенно улучшил качество распознавания - это видно из гистограммы на рисунке 9. В среднем количество ошибок распознавания после применения вышеописанного алгоритма уменьшается на 82 процента (от числа ошибок на искривленном изображении). А медиана улучшения качества составила 92,28 процента.
При этом на исходных изображениях средний процент ошибок распознавания был равен 19,75%. А на распрямленных с помощью предложенного метода изображениях процент ошибок распознавания составил 2,15%. Стоит отметить, что это существенное улучшение качества распознавания поврежденных изображений: даже на идеальных документах современные системы распознавания не гарантируют качество распознавания меньше 1% процента ошибок.
Всего на трех изображениях из тестовой базы алгоритм ухудшил качество распознавания. На испорченных изображениях было небольшое искривление и очень мало текста -- из-за этого метод не смог выделить достаточное количество междустрочных просветов и добавил небольшие искажения в документ. Стоит отметить, что такие случаи легко детектировать и не проводить на подобных изображения процедуру удаления геометрических искажений. Такое детектирование не входило в задачи данной диссертации и может быть проведено стандартными методами известных систем распознавания.
Рис. 9. Гистограмма улучшения качества распознавания изображений после применения алгоритма удаления геометрических искажений.
Таким образом, предложенный механизм детектирования и удаления геометрических искажений с изображений текстовых документов полностью доказал свою эффективность на обычных искривленных изображениях. При этом стоит учитывать, что предложенный механизм способен устранять и более серьезные искажения с изображений документов, за счет увеличения степени аппроксимирующего патча Безье.
Заключение содержит основные результаты диссертационного исследования.
Весь иллюстративный материал диссертации и автореферата был получен с использованием разработанного программного комплекса.
Публикации по теме диссертации
[1] А.А. Масалович, “Численные методы детектирования и удаления геометрических искажений в изображениях текстовых документов”, журнал “Информационные технологии”, №5, 2009, стр. 57-61.
[2] A. Masalovitch, L. Mestetskiy, “Usage of continuous skeletal representation for document images de-warping”, Proceedings of the Second International Workshop on Camera-Based Document Analysis and Recognition (CBDAR-2007), 2007, Curitiba, Brazil, pp. 45-52.
[3] A. Masalovitch, L. Mestetskiy, “Document Image Deformation Approximated by the Means of Continuous Skeletal Representation of the Image”, Pattern Recognition and Information Processing - Proceedings of Ninth International Conference (PRIP-2007), 2007, Minsk, Belarus, pp. 279-284.
[4] А.А. Масалович, Л.М. Местецкий, “Использование патча Безье для аппроксимации искажения текстовых документов”, Труды 17-ой Международной Конференции по Компьютерной Графике и Зрению (Графикон-2007), 2007, Москва, Россия, pp. 239-243.
[5] A. Masalovitch, L. Mestetskiy, “Usage of 2-Dimensional Bezier Patch for Document Images Deformation Approximation”, 8-th International Conference on Pattern Recognition and Images Analysis: New Information Tecnologies - Conference Proceedings (PRIA-8-2007), Volume 3, Yoshkar-Ola, Russian Federation, pp. 51-26.
[6] А.А. Масалович, Л.М. Местецкий, “Распрямление текстовых строк на основе непрерывного гранично-скелетного представления изображений”, Труды 16-ой Международной Конференции по Компьютерной Графике и Зрению (Графикон-2006), 2006, Новосибирск, Россия.
Размещено на Allbest.ru
Подобные документы
Характеристики текстового процессора. Вид типового интерфейса текстового процессора. Границы документа и позиции табуляции. Действия с файлами документов. Создание оглавления текста. Сохранение документа для последующей обработки другими приложениями.
презентация [48,2 K], добавлен 06.01.2014Создание нового документа. Редактирование текстовых файлов типа TXT и RTF. Сохранение измененного документа. Изменение шрифта, начертания и размера символов. Отмена последнего действия. Оформление нового текста, форматирование абзаца, удаление текста.
реферат [158,6 K], добавлен 25.10.2013Понятие электронного документа, отличие от иных видов документов. Юридическая сила и правовой режим электронного документа и документооборота. Процедуры разрешения конфликтов. Основные типы текстовых электронных документов и выбор средств их оформления.
реферат [24,5 K], добавлен 22.08.2010Основные функции текстового процессора Word. Создание документа Word. Использование шаблонов документов. Удаление, копирование и перемещение текста. Сохранение, закрытие и открытие документа. Изменение шрифтов, выравнивание текста и использование стилей.
курсовая работа [71,6 K], добавлен 17.08.2011Создание сложных текстовых документов с помощью шаблонов и мастеров Word. Разработка собственных шаблонов. Разоаботка общей структуры документа, настройка параметров страницы, перемещение по тексту с помощьюпанели схемы документа. Внешний вид текста.
методичка [30,1 K], добавлен 14.02.2009Настройка текстового редактора MS Word. Создание текстового документа. Создание шаблона. Форматирование сложного документа. Создание списков и колонок текста. Создание таблиц. Создание формул. Связывание и внедрение объектов. Создание макросов.
контрольная работа [36,6 K], добавлен 10.05.2004Сущность, структура и значение приложения Microsoft Office 2003, его основные возможности. Концепция электронного документа и его обязательные реквизиты. Особенности технологии создания и редактирования текстового документа в Microsoft Word 2003.
реферат [23,0 K], добавлен 23.11.2010Цель и место размещения документа Web. Язык гипертекстовой разметки. Сценарий и структура Web-документа. Основные редакторы гипертекста. Создание документов в стандарте HTML. Создание заголовков, форматирование и изменение стиля, нумерация списков.
реферат [34,4 K], добавлен 22.11.2009Miсrosoft Word 2000 – текстовый редактор, программа для создания и обработки текстовых документов. Специфика работы с окнами, режимы отображения документа. Операции с документами, с текстом. Оформление страниц документа. Вставка графических объектов.
учебное пособие [341,8 K], добавлен 05.12.2010Автоматизация редактирования текста документа. Стили документа Word 2010. Сравнительная характеристика в Microsoft Word 2007 и 2003, стили оформления. Приемы и методы редактирования документов, предназначенных для автоматической обработки данных.
курсовая работа [3,6 M], добавлен 23.06.2016