Распознавание символов на изображениях, содержащих искажения

Анализ эффективности методов оптического распознавания символов, решающих проблему наличия на изображении различных видов искажений. Измерения критериев и алгоритмов оценки эффективности анализируемых методов для каждого из наборов исходных данных.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 30.04.2018
Размер файла 397,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Распознавание символов на изображениях, содержащих искажения

Погребняк И.В., Тропченко А.Ю.

Аннотация

Проведен анализ эффективности методов оптического распознавания символов, решающих проблему наличия на изображении различных видов искажений. Предложены критерии оценки эффективности. Подготовлены наборы исходных данных для проведения измерений. Выполнены измерения критериев оценки эффективности анализируемых методов для каждого из наборов исходных данных. Выбраны методы с лучшими показателями критериев по результатам измерений. Предложен алгоритм распознавания символов на основании выбранных методов.

Ключевые слова: оптическое распознавание символов, компьютерное зрение, искажения, неоднородность освещения, шумы печати.

Pogrebnyak I.V.1, Tropchenko A.U.2

1ORCID: 0000-0003-2500-924X, Student, ITMO University, 2ORCID: 0000-0003-2666-9522, Professor, PhD in Engineering, ITMO University

RECOGNISION OF CHARACTERS ON IMAGES WITH DISTORTIONS

Abstract

The paper presents the results of performance analysis of optical character recognition methods, which solve the problem of various kinds of distortions on images. The criteria for performance evaluation are proposed in the study. The sets of initial data for the measurements were prepared; the criteria for performance evaluation of the analyzed methods were estimated for each of the sets of source data. According to the estimation, the methods with better results of measurements were defined. The author proposed the algorithm for character recognition based on the selected methods.

Keywords: optical character recognition, computer vision, distortion, non-uniformity of illumination, printing noise.

Введение

Оптическое распознавание символов - это процесс, реализующий перевод изображения печатного, машинописного или рукописного текста в текстовые данные, представленные в электронном виде [1]. Качество выполнения данного процесса зависит от состояния исходных данных, то есть изображения. Состояние изображения характеризуется наличием или отсутствием на изображении:

· различных шрифтов, размеров символов;

· различных и сходных, способов написания символов;

· искажений:

· шумы;

· неоднородность освещения;

· шумы печати - смещение символов, разрывы между частями одного и того же символа;

· ложные знаки.

Существует ряд открытых систем оптического распознавания символов. В ходе проведения анализа данных систем установлено отсутствие возможности распознавания символов с изображений, содержащих искажения, используемыми в них алгоритмами [2]. В связи с этим целью исследования, приведенного в данной статье, является разработка алгоритма распознавания на основании анализа эффективности методов, решающих проблему наличия искажений на изображениях.

Процесс оптического распознавания символов состоит из этапов: восприятия, предобработки, сегментации и собственно распознавания. На каждом из этапов решается проблема наличия определенных искажений. Анализ эффективности методов проводится по следующему принципу: на вход анализируемого метода подаются наборы исходных данных, после выполнения преобразования происходит оценка соответствия результата с эталонным значением на основании определенных заранее критериев.

1. Проблема наличия неоднородности освещения

В зависимости от алгоритма, данная проблема решается либо на этапе восприятия, либо на этапе сегментации, с помощью методов локальной пороговой обработки, которые выполняют операцию бинаризации. В рамках исследования проведен анализ следующих методов: среднего порогового значения, Бернсена [3], Ниблэка [4], Саувола [5], Вульфа [6] и Брэдли-Рота [7]. Указанные методы отличаются способом вычисления порога.

В качестве критерия оценки эффективности предложена точность бинаризации изображения, определяемая как:

· коэффициент корректно преобразованных пикселей объекта:

,

где сp - число корректно преобразованных пикселей объекта, p- число пикселей объекта;

· точность преобразования:

,

где ip,dp - число ошибочно вставленных и удаленных пикселей объекта, pi- число пикселей изображения.

В качестве исходных данных выбраны наборы изображений с различными значениями параметров: глобальной контрастности [8], минимального уровня прозрачности в области тени и процента области, занимаемой тенью.

Результаты измерений представлены на рисунках 1-3. По результатам измерений метод Брэдли-Рота является наиболее эффективным, поскольку содержит высокие показатели оценки точности бинаризации (рис. 1) и наименьшее время выполнения (рис. 2), однако он подвержен влиянию со стороны глобальной контрастности изображения (рис. 3). Методы среднего порогового значения и Вульфа в условиях наличия тени (рис. 1) содержат низкие значения коэффициента корректно преобразованных пикселей объекта kp, но в условиях изменения контрастности (рис. 3) данные методы показывают одни из лучших результатов. После выполнения методов Бенсена и Ниблэка наблюдается большой процент шумов печати, что приводит к снижению коэффициента точности преобразования Ap.

распознавание символ изображение искажение

Рис. 1 - Зависимость среднего значения точности бинаризации (kp+Ap), рассчитанного на основании варьирования параметра минимального уровня прозрачности в области тени, от процента области, занимаемой тенью

Рис. 2 - Время выполнения методов

Рис. 3 - Зависимость точности бинаризации (kp+Ap) от глобальной контрастности изображения

2. Проблема наличия шума

Данная проблема решается на этапе предобработки с помощью фильтров шума. В рамках исследования проведен анализ следующих фильтров [8] - cреднеарифметического, cреднегеометрического, cреднегармонического, контргармонического, медианного, максимума, минимума, срединной точки, усеченного среднего и адаптивного фильтра Винера.

В качестве критерия оценки эффективности фильтров выбран коэффициент корреляции Пирсона, который позволяет установить уровень схожести изображения без зашумления и восстановленного после зашумления:

где x, y - координаты пикселя, a, b - изображение без зашумления и восстановленное; - среднее арифметическое яркости изображений.

В качестве исходных данных выбраны наборы изображений с различными видами шума и с различными уровнями шума, где уровни шума - это количество шума на изображение. К исследуемым видам шума относятся [8]: равномерный (a), Гауссов (b), логарифмически нормальный (c), Реллея (d), экспоненциальный (e), Эрланга (f), импульсный (g), Пуассона (h) и мультипликативный шумы (i).

Результаты измерений представлены в таблице 1.

Таблица 1 - Тепловая карта средних значений коэффициента корреляции Пирсона для всех уровней шума

По результатам измерений фильтр Винера является наиболее эффективным, потому что имеет наиболее частый высокий показатель корреляции (табл. 1). Наиболее удачными для восстановления являются шумы равномерный, экспоненциальный, Пуассона, а наименее удачными логарифмически нормальный, Реллея, Эрланга, импульсный.

3. Проблема наличия шумов печати

Данная проблема решается на этапе предобработки с помощью операций морфологической фильтрации [9]. В рамках исследования проведен анализ операций: размыкание, замыкание.

В качестве критерия оценки эффективности методов предложена точность морфологической фильтрации изображения, определяемая как:

· коэффициент корректно преобразованных пикселей объекта:

,

где сp - число корректно преобразованных пикселей объекта, p- число пикселей объекта;

· число ошибок:

,

где ip,dp - число ошибочно вставленных и удаленных пикселей объекта.

В качестве исходных данных выбраны наборы изображений с различным процентом шумов печати, а также различные структурные элементы: квадрат (a), прямоугольник (b), ромб (c), восьмиугольник (d), круг (e), линия с углом наклона 450 (f). Структурный элемент - это маска фильтра в морфологических операциях [9].

Результаты измерений представлены в табл. 2.

Таблица 2 - Зависимость точности морфологической фильтрации от процента шума печати на изображении для различных параметров

Примечание: * - размеры СЭ: квадрат 2:2 (a), прямоугольник 3:2 (b), длина линия 2 (f), радиус остальных СЭ равен 2; ** - размеры измеряются в пикселях.

По результатам измерений (табл. 2) операция замыкание является наиболее эффективной, по причине наличия высокого показателя точности морфологической фильтрации для всех видов структурных элементов. Лучшим структурным элементом для операции замыкание является квадрат, поскольку число ошибок Ep наименьшее для данного элемента, а для операции размыкание - линия. Использование структурного элемента меньшего размера приводит к лучшим результатам. На результат работы методов оказывает влияние толщина линии символа.

4. Проблема наличия различных размеров, форм, наклонов символов

Данная проблема решается на этапе распознавания, методом, выбор которого производился по результатам сравнения свойств методов распознавания на присутствие инвариантности к различным состояниям изображения и возможности использования изображения в качестве входного значения (табл. 3). Выбранным методом является сверточная нейронная сеть (НС) (рис. 4).

Таблица 3 - Сравнение свойств методов распознавания

Метод

Входное значение - изображение

Инвариантность к

искажениям

углу

положению

размеру

Дерево решений

-

-

-

-

-

Генетические алгоритмы

-

-

-

-

-

НС Хопфилда

+

+

-

-

-

НС высокого порядка

+

-

+

-

+

Cверточная НС

+

+

+

+

-

Рис. 4 - Архитектура сверточной нейронной сети

В качестве критерия оценки эффективности метода выбрана точность распознавания символов:

где - число корректно распознанных символов, - число символов.

В качестве исходных данных выбраны наборы изображений: без искажения (a), с различными формами и размерами символов (b), с различным наклоном символов (c), с Гауссовым шумом (d), с символами со сходным написанием (e), с шумами печати и ложными знаками (f).

Результаты измерения точности распознавания символов для каждого из наборов изображений представлены в табл. 4.

Таблица 4 - Точность распознавания символов

Параметр

Вид искажения

а

b

c

d

e

f

AS

0,9995

0,9936

0,9947

0,9806

0,9312

0,8606

Исходя из результатов измерений размеры, углы наклона и формы символов влияют на результат работы сверточной НС незначительно. Значительное влияние оказывают шумы печати и сходное написание символов.

5. Алгоритм распознавания символов

На основании анализа эффективности методов, решающих проблему наличия искажений на изображениях, предложен алгоритм распознавания, состоящий из следующих этапов:

· Предобработка:

· применение адаптивного фильтра Винера;

· применение морфологической операции закрытия в случае наличия шумов печати;

· Сегментация:

· оценка контрастности изображения;

· увеличение контрастности при необходимости;

· применение метода Брэдли-Рота;

· сегментация символов;

· Распознавание:

· сверточная нейронная сеть.

Список литературы / References

1. Cheriet M. Character recognition systems: a guide for students and practioners / M. Cheriet. - John Wiley & Sons, 2007. - 326 p.

2. Погребняк И. В. Анализ эффективности систем оптического распознавания символов / И. В. Погребняк // Сборник трудов VII научно-практической конференции молодых ученых «Вычислительные системы и сети (Майоровские чтения)». - 2016. - С. 130--133.

3. Bernsen J. Dynamic thresholding of grey-level images / J. Bernsen // Proc. 8th ICPR. - 1986. - Vol.1 - P. 1251-1255.

4. Niblack W. An Introduction to Digital image processing / W. Niblack. - Prentice Hall, 1986. - 215 p.

5. Sauvola J. Adaptive document image binarization / J. Sauvola, M. Pietikainen // Pattern Recognition. - 2000. -Vol. 33 - P. 225-236.

6. Wolf C. Text localization, enhancement and binarization in multimedia documents / C. Wolf, J. M. Jolion, F. Chassaing // International Conference on Pattern Recognition. - 2002. -Vol. 4 - P. 1037-1040.

7. Bradley Adaptive Thresholding Using the Integral Image / D. Bradley, G. Roth // Journal of Graphics Tools. - 2007. - Vol. 12(2). - P. 13-21.

8. Соловьев Н. В. Улучшение качества растровых изображений: Учеб. пособие / Н. В. Соловьев, А. М. Сергеев. - СПб.: СПбГУ ИТМО, 2010. - 158 с.

9. Zhou H. Digital Image Processing: Part II / H. Zhou, J. Wu, J. Zhang. - Ventus Publishing ApS, 2010. - 92 p.

Размещено на Allbest.ru


Подобные документы

  • Методы предобработки изображений текстовых символов. Статистические распределения точек. Интегральные преобразования и структурный анализ. Реализация алгоритма распознавания букв. Анализ алгоритмов оптического распознавания символов. Сравнение с эталоном.

    курсовая работа [2,1 M], добавлен 20.09.2014

  • Оптическое распознавание символов как механический или электронный перевод изображений рукописного, машинописного или печатного текста в последовательность кодов. Компьютерные программы для оптического распознавания символов и их характеристика.

    презентация [855,2 K], добавлен 20.12.2011

  • Процессы распознавания символов. Шаблонные и структурные алгоритмы распознавания. Процесс обработки поступающего документа. Обзор существующих приложений по оптическому распознаванию символов. Определение фиксированного шага и сегментация слов.

    дипломная работа [3,3 M], добавлен 11.02.2017

  • Обзор математических методов распознавания. Общая архитектура программы преобразования автомобильного номерного знака. Детальное описание алгоритмов: бинаризация изображения, удаление обрамления, сегментация символов и распознавание шаблонным методом.

    курсовая работа [4,8 M], добавлен 22.06.2011

  • Необходимость в системах распознавания символов. Виды сканеров и их характеристики. Оптимальное разрешение при сканировании. Программы распознавания текста. Получение электронного документа. FineReader - система оптического распознавания текстов.

    презентация [469,2 K], добавлен 15.03.2015

  • Понятие и особенности построения алгоритмов распознавания образов. Различные подходы к типологии методов распознавания. Изучение основных способов представления знаний. Характеристика интенсиональных и экстенсиональных методов, оценка их качества.

    презентация [31,6 K], добавлен 06.01.2014

  • Проектирование приложения на языке С# в среде Microsoft Visual Studio 2008: составление алгоритмов сегментации текста документа и распознавания слова "Указ" в нем, создание архитектуры и интерфейса программного обеспечения, описание разработанных классов.

    курсовая работа [2,4 M], добавлен 05.01.2011

  • Обзор существующих алгоритмов для обнаружения лиц. Выравнивание лица с помощью разнообразных фильтров. Использование каскадного классификатора Хаара для поиска лиц на изображении. Распознавание лиц людей с использованием локальных бинарных шаблонов.

    дипломная работа [332,4 K], добавлен 30.09.2016

  • Как работает система оптического распознавания. Деление текста на символы. Образ страницы и распознавание по шаблонам, особенности коррекции ошибок. Увеличение скорости бесклавиатурного ввода документов в технологиях электронного документооборота.

    контрольная работа [15,6 K], добавлен 29.04.2011

  • Оптико-электронная система идентификации объектов подвижного состава железнодорожного транспорта. Автоматический комплекс распознавания автомобильных номеров. Принципы и этапы работы систем оптического распознавания. Особенности реализации алгоритмов.

    дипломная работа [887,3 K], добавлен 26.11.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.