Технологии и средства сканирования и распознавания графических и текстовых печатных материалов

Сканеры, принцип действия, классификация. Фотодатчики, применяемые в сканерах. Характеристики, типы сканеров, аппаратный и программный интерфейсы. OCR-системы, FineReader, CuineForm, OmniPage, ReadIris, OCRopus, Аналитический обзор наиболее известных OCR.

Рубрика Производство и технологии
Вид курсовая работа
Язык русский
Дата добавления 22.10.2009
Размер файла 309,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

распознавание штрих-кодов (Professional);

поддержка восточных и ближневосточных языков (Professional);

сетевая автоматическая установка программы (Corporate);

автоматическая обработка документов в определенное время из указанного каталога на жестком диске или из почтовой папки (Corporate).

4. CuneiForm

CuneiForm (англ. Клинопись) -- свободно распространяемая открытая система оптического распознавания текстов российской компании Cognitive Technologies.

Позиционируется как система преобразования электронных копий бумажных документов и графических файлов в редактируемый вид с возможностью сохранения структуры и гарнитуры шрифтов оригинального документа в автоматическом или полуавтоматическом режиме. Система включает в себя две программы для одиночной и пакетной обработки электронных документов.

В 1993 году Cognitive Technologies заключила OEM-контракт с канадской корпорацией Corel Corporation, по которому библиотека распознавания Cognitive встроена в популярный издательский пакет Corel Draw 3.0 (и последующие версии).

В 1996 году выпущена версия OCR CuneiForm '96, в которой впервые в мире применены алгоритмы адаптивного распознавания.

* Адаптивное распознавание -- метод, основанный на комбинации двух видов алгоритмов распознавания печатных символов: шрифтового (multifont) и шрифтонезависимого (omnifont). Система генерирует внутренний шрифт для каждого вводимого документа, основываясь на хорошо пропечатанных символах, то есть используется динамическая настройка (адаптация) на конкретные входные символы. Таким образом, метод совмещает универсальность и технологичность безшрифтового подхода и высокую точность распознавания шрифтового, что позволяет кардинальным образом повысить качество распознавания.

В 1997 году в системе CuneiForm впервые применены технологии, основанные на нейронных сетях. Алгоритмы, использующие нейронные сети для распознавания символов, строятся следующим образом. Поступающее на распознавание изображение символа (растр) приводится к некоторому стандартному размеру (нормализуется). Значения яркости в узлах нормализованного растра используются в качестве входных параметров нейронной сети. Число выходных параметров нейронной сети равняется числу распознаваемых символов. Результатом распознавания является символ, которому соответствует наибольшее из значений выходного вектора нейронной сети.

В 1999 году разработан механизм воссоздания формы исходного документа «What you scan is what you get». Он позволяет придать документу его исходную форму, добиваясь того, чтобы каждый фрагмент находился на нужном месте. Особенно это касается документов со сложной топологией: многоколончатые тексты с заголовками, аннотациями, графическими иллюстрациями, таблицами, и т. д.

По информации с официального сайтаhttp://ru.wikipedia.org/wiki/CuneiForm - cite_note-2#cite_note-2, 12 декабря 2007 года компания Cognitive Technologies запустила программу «Распознавание должно быть на каждом компьютере». Первым шагом в рамках этой программы был выпуск freeware-версии OCR CuneiForm и открытие её исходных кодов. Следующим шагом планируется запустить свободную онлайн-службу распознавания на сервере www.cuneiform.ru.

2 апреля 2008 года компания Cognitive Technologies объявила об открытии исходного кода программы. В настоящее время, разработчики выбрали для проекта лицензию BSD.

В 2009 году выпущены графические интерфейсы к открытой версии Cuneiform на основе библиотеки Qt 4 - Cuneiform-Qt, YAGF.

Особенности программы:

современный и интуитивно-понятный интерфейс, встроенные помощники для сканирования и распознавания текста;

встроенный текстовый редактор и система контроля правописания для работы с распознанным текстом;

распознавание текста с сохранением исходного вида документа;

распознавание таблиц со сложной структурой, многоколоночного текста;

сохранение черно-белых и цветных иллюстраций в распознанном документе;

поддерживаются все TWAIN-совместимые сканеры;

использование современных разработок, таких как нейронные сети, адаптивное распознавание символов, когнитивный анализ и другие;

распознавание печатных шрифтов из книг, журналов, газеты, текстов из пишущих машинок, распечаток из матричных и лазерных принтеров и т.п.;

режимы автоматического, полуавтоматического и ручного разбиения на блоки для поиска в документе текстовых фрагментов, рисунков и таблиц;

дополнительные возможности, повышающие удобство работы с программой.

5. OmniPage

OmniPage Professional- это наиболее точный механизм конвертации документов и форм в приложения на PC включая документы формата PDF.

Поддерживает более 100 языков, на которых может быть напечатан исходный текст. В программе присутствуют удобные инструменты обработки изображений, повышенное качество сканирования без повторного сканирования; функция преобразования бумажных форм в электронные документы, заполняемые на экране; механизм Google Desktop Search для поиска отсканированного файла (и других файлов) по содержащимся в нем словам. В комплекте с OmniPage Professional поставляется несколько полезных утилит. В частности, PDF Converter - позволяет преобразовывать файлы формата PDF в редактируемые форматы: doc, rtf, wpd, xls. Упрощенный вариант утилиты PDF Create, которая выполняет обратное преобразование: превращает практически любой текстовый или графический файл в формат PDF.

Особенности программы:

высокая точность и скорость распознавания;

сохранение форматирования документа как в оригинале: колонки, таблицы, рисунки, списки;

технология "3D Correction" позволяет корректировать и распознавать изображения, полученные с цифровых камер;

сохранение результатов распознавания в PDF, HTML, Microsoft Word, Excel и PowerPoint, Corel WordPerfect и других форматах. Поддержка XML и XPS -- открытого графического формата на основе XML, разработанного компанией Microsoft;

встроенные словари распознавания, в том числе финансовый, юридический, медицинский, для более точного распознавания специфических терминов;

средства коррекции изображений: удаление шума с рисунков, регулировка контрастности, яркости, других параметров;

поддержка многопоточного распознавания, использующая все возможности современных многоядерных процессоров;

преобразование форматов рисунков в полученном документе. Поддерживаются распространенные форматы изображений: TIF, JPG, BMP, PCX, GIF, PDF, MAX и другие;

возможность непосредственного распознавания из популярных офисных приложений, без запуска самой программы OmniPage;

регулировка соотношения скорость/качество распознавания. Это позволяет быстрее распознавать хорошо отсканированные, четкие документы;

воозможность распознавания информации из различных электронных форм, анкет;

средства автоматизации выполнения различных задач, настройка и выполнение последовательности действий путем нажатия одной кнопки (Workflow Assistant).

6. ReadIris

Программа распознавания текста, которая позволяет работать с документами на восточных языках с ориентацией текста справа налево или использующих слоговое письмо. Для этого достаточно загрузить специальный модуль с официального сайта. Readiris Pro уверенно распознает документы со сложной версткой, содержащие таблицы и иллюстрации. Сегментацию документа можно доверить самой программе, а можно и провести вручную. Поддерживается распознавание с обучением. Readiris Pro также очень быстро импортирует PDF-документы. Имеются средства редактирования изображений: фильтр удаления "мусора", средства увеличения резкости, балансировки яркости, контрастности, гаммы.

Особенности программы:

кнопки SmartTasks - позволяют выполнять различные задачи (сканирование, распознавание, сохранение и др.) путем нажатия одной кнопки;

поддержка формата XPS (XML Paper Specification);

сохранение результатов распознавания в распространенных форматах: doc, xls, pdf, html, rtf и других. В 12 версии добавлено также сохранение в форматах OpenOffice Document (ODT), XML Paper Specification (XPS), PDF/A

возможность сжатия выходных файлов PDF, XPS & PDF/A с помощью собственной проприетарной технологии intelligent High-Quality Compression (iHQC™), позволяющая, по словам компании-разработчика, создавать сжатые файлы по размеру до 400 раз меньше, чем оригинальные цветные изображения.

в версии Corporate есть возможность автоматически распознавать файлы изображений, которые попадают в определенную папку (Watched folder)

возможность автоматического распознавания мультистраничных документов или последовательности изображений в разные выходные файлы

распознаются файлы изображений популярных форматов (TIFF, JPG, BMP, JPEG2000 и др.), а также PDF и DjVu файлы.

более 120 языков распознавания, в том числе русский, со встроенным орфографическим словарем для каждого языка. 25 языков интерфейса программы, русский интерфейс тоже есть.

распознавание арабского языка, фарси и иврита в версии Middle-East

распознавание восточных языков: китайского (упрощенное и традиционное письмо), японского и корейского языков в версии Asian

средства индексирования документов (возможность указать для каждого документа название, ключевые слова и расположение файла с распознанным текстом) - в версии Corporate.

развитые средства автоматизации сканирования и распознавания текста

встроенные инструменты редактирования изображений: автоматическое определение ориентации документа, удаление шума, настройка резкости, яркости, контрастности, гаммы.

7. OCRopus

OCRopus -- OCR-система на базе не так давно открытого распознающего ядра -- tesseract; программный пакет для распознавания текста, развивающийся по принципам Open Source и распространяющееся под Apache License 2.0.

По задумке разработчиков, с помощью OCRopus станет возможным определять текстовое содержимое на цифровых изображениях и переводить его в обычный текстовый формат для дальнейшего редактирования. Помимо печатного текста, программа сможет распознавать и рукописные материалы. По состоянию на альфа-релиз, OCRopus использует язык моделирования кода из другого проекта, поддерживаемого Google OpenFST.

OCRopus в настоящее время доступна только для GNU/Linux, но существуют сборки и для Debian GNU/Hurd и Debian GNU/kFreeBSD.

Особенности программы:

OCRopus использует только интерфейс командной строки, принимая указания на входные изображения с текстом, и выводя данные в формате HOCR (открытый формат на основе HTML). Если необходим более точный контроль, можно указать в командной строке команды для выполнения конкретных операций (например, распознание одной строки)

8. Аналитический обзор наиболее известных OCR

8.1 Отбор значимых факторов

* Программы бесплатны для некоммерческого использования

Системы

Факторы

Лицензия

ОС

Размер

Форматы

Распоз-ие таблиц

Простота интерфейса

Дополнительные пакеты

1. FineReader

Коммерческая и собственническая

Windows; Linux; Mac OS

45000 кб

RTF, DOC, TXT, XLS, HTML,DOCX, XLSX, DBF, CVS, LIT,PDF,XLSX, XML

+

5

1. Менеджер сценариев; 2. Приложение - ABBYY Screenshot Reader

2. Cunei Form

Коммерческая (BSD)

Windows (c GUI); Linux; Mac OS; Free BSD (GLA)

91000 кб

RTF, DOC, TXT, XLS, HTML,DOCX, XLSX, DBF, PDF,XLSX, XML

+

4

1. Механизм воссоздания формы исходного документа «What you scan is what you get»

3. Omni Page

Коммерческая (Nuance EULA)

Windows 2000/2003/XP/Vista

468000 кб

PDF, RAW, BMP, JPEG, TIFF, PNG, PDF, GIF

+

4

1. Утилита -PDF Create;2. Технология "3D Correction";3. Механизм Google Desktop Search для поиска отсканированного файла;3. поддержку ODMA-совместимых корпоративных систем управления документами

4. ReadIris

Коммерческая и собственническая

Windows 98/ME/2000/XP; MacOS

4744 кб

XPS, DOC, XLS, PDF, HTM, RTF, BMP, JPEG 2000, DjVu

+

4

1.Кнопки SmartTasks (позволяет выполнять различные задачи)

5. OCRopus

Коммерческая (Apache)

GNU/Linux; Debian GNU/Hard и Debian GNU/FreeBSD

22000 кб

HOCR (открытый формат на основе HTML)

-

3

1. Использует язык моделирования кода из другого проекта, поддерживаемого Google OpenFST

8.2. Оцифровка значимых факторов

* По принципу «Чем больше, тем лучше»

ОС

Форматы

Распоз-ие таблиц

Допол. Пакеты

FineReader

5

0,25

5

0,263157895

4

0,19047619

4

0,2

Cunei Form

5

0,25

5

0,263157895

5

0,238095238

4

0,2

Omni Page

4

0,2

5

0,263157895

4

0,19047619

5

0,25

ReadIris

4

0,2

3

0,157894737

5

0,238095238

5

0,25

OCRopus

2

0,1

1

0,052631579

3

0,142857143

2

0,1

Сумма:

20

1

19

1

21

1

20

1

* По принципу «Чем меньше, тем лучше»

Лицензия

Размер дистрибутива

Простота интерфеса

FineReader

2

0,714285714

0,178571429

4

0,789473684

0,197368421

2

0,857142857

0,214285714

Cunei Form

1

0,857142857

0,214285714

5

0,736842105

0,184210526

3

0,785714286

0,196428571

Omni Page

1

0,857142857

0,214285714

4

0,789473684

0,197368421

3

0,785714286

0,196428571

ReadIris

2

0,714285714

0,178571429

4

0,789473684

0,197368421

2

0,857142857

0,214285714

OCRopus

1

0,857142857

0,214285714

2

0,894736842

0,223684211

4

0,714285714

0,178571429

Сумма:

7

4

1

19

4

1

14

4

1

Коэффициент значимости фактора:

Коэффициент значимости

Нормализованные значения

Лицензия

4

0,142857143

Поддерживаемые ОС

5

0,178571429

Размер

5

0,178571429

Поддерживаемые форматы

4

0,142857143

Распознавание таблиц

3

0,107142857

Простота интерфейса

3

0,107142857

Дополнительные пакеты

4

0,142857143

Сумма:

28

1

Обобщающая таблица:

Системы

Лицензия

ОС

Размер

Форматы

Распоз-ие таблиц

Простота интерфейса

Доп. Пакеты

Норм. значения

0,142857143

0,178571429

0,178571429

0,142857143

0,107142857

0,107142857

0,142857143

FineReader

0,178571429

0,25

0,197368421

0,263157895

0,19047619

0,214285714

0,2

Cunei Form

0,214285714

25

184210526

263157895

238095238

0,196428571

0,2

Omni Page

214285714

2

197368421

263157895

19047619

0,196428571

0,25

ReadIris

178571429

2

197368421

157894737

238095238

0,214285714

0,25

OCRopus

214285714

1

223684211

52631579

142857143

0,178571429

0,1

Итоговые таблицы:

Системы

Лицензия

ОС

Размер

Форматы

Распоз-ие таблиц

Простота интерфейс

Доп. пакеты

FineReader

0,0255102

0,044643

0,035244

0,03759399

0,02040816

0,02295918

0,028571

Cunei Form

0,0306122

4,464286

32894737

37593985

25510204

0,02104592

0,028571

Omni Page

30612245

0,357143

35244361

37593985

2040816,32

0,02104592

0,035714

ReadIris

25510204

0,357143

35244361

22556391

25510204

0,02295918

0,035714

OCRopus

30612245

0,178571

39943609

7518797,01

15306122,4

0,01913265

0,014286

Системы

ИТОГ:

FineReader

0,21493018

Cunei Form

95998930,5

Omni Page

105491408

ReadIris

108821161

OCRopus

93380773,8

Заключение

У каждой модели сканера своя программа, в ней свои настройки, свои возможности. Но есть и кое-что общее.

Все программы делают быстрое предварительное сканирование (Preview), после которого можно:

а) выделить мышью область сканирования (если этого не сделать - сканируется все рабочее поле сканера, либо предыдущая установка сканирования);

б) выбрать режим сканирования: цветной файл с различным количеством цветов, черно-белый, в оттенках серого и другие режимы;

в) выставить параметры яркости, контраста или выбрать автоматическое определение этих параметров;

г) запустить основное сканирование (Scan).

Подбор настроек сканера уменьшает количество неверно распознанных букв до вполне приемлемого качества сканирования и распознавания.

Самый важный параметр для программ распознавания - яркость. Изменение яркости примерно на 3 % может изменить количество ошибок на целых 15 %.

Особенно важен подбор оптимальной яркости при сканировании достаточно большого объема текста низкого качества (поработав 10-15 мин с настройками, можно сэкономить часы работы над ошибками).

Для организаций и компаний, которые обрабатывают большое количество информации, программное обеспечение для сканирования документов может оказаться полезным инструментом. Так как даже в наш век технологий повсеместно используются бумажные документы, упорядочивание всей этой информации может показаться кошмаром и наверняка отнимет много времени и усилий. И вот тут-то может пригодиться специальная программа, которая поможет преобразовать бумажный документ в цифровую форму. С подобным программным обеспечением процесс сканирования документа будет более быстрым и эффективным. Учёт и упорядочивание собственных документов важен для каждой организации. Специальная программа позволит вам просканировать ваши документы и в кратчайшие сроки создать для них каталог, в котором все данные будут содержаться в упорядоченном виде. Программное обеспечение сканирования документа использует технологию оптического распознавания символов. Эта технология основана на преобразовании изображения в машинописный, а также в машиночитаемый текст, который в свою очередь можно изменять и редактировать.

Умногих пользователей уже давно сложилось впечатление, что ABBYY FineReader -- единственный в своем роде продукт. Самые продвинутые знают, что в плане распознавания латиницы у него кое-какая конкуренция имеется, но что касается кириллицы -- сейчас, наверное, уже нет. Года четыре назад главным конкурентом ABBYY на отечественном рынке была компания Cognitive Technologies со своей системой распознавания CuneiForm. Но OCR для Cognitive теперь не считается приоритетным направлением деятельности: компания в основном занята в проектной интеграции в сферах электронной торговли, документооборота и информационно-аналитических систем. Один из наиболее популярных программных продуктов Cognitive -- система электронного документооборота «Евфрат». CuneiForm, когда-то дышавший в затылок FineReader, в отличие от последнего, прекратил эволюционировать на версии 2000 (Professional и Master). Тем не менее CuneiForm также входит в комплект некоторых продаваемых в России сканеров и многофункциональных устройств от Canon, Hewlett-Packard, OKI, Seiko EPSON, Olivetti. Этот «дедушка» хотя и позволяет экспортировать результаты с сохранением форматирования, но так и не научился распознавать PDF, поддерживает всего 15 языков, но при этом неправильно распознает документы, текст которых содержит более одного языка, исключая стандартную пару русский-английский, не производит автоматического ориентирования текстовых строк и т.д. Конечно, при соответствующей цене на эти недостатки можно закрыть глаза. Но в случае с CuneiForm сделать это не получается, так как версия Professional стоит 129 долл., а Master -- 249 долл., то есть почти столько же, что и FineReader. Профессиональная версия, в отличие от «мастерской», не может производить пакетного сканирования и распознавания и не имеет персонального электронного архива «Евфрат». Порекомендовать данную программу можно, видимо, только тем, кто использует систему «Евфрат», так как в CuneiForm поддерживается интеграция с этим продуктом.

Из других OCR-разработок можно выделить зарубежные продукты Readiris от I.R.I.S. и OmniPage Pro от ScanSoft. Readiris отличается, прежде всего, скромными размерами, что не мешает ему распознавать текст из LZW-сжатых TIFF-изображений, что недоступно его старшим собратьям. Однако если эти аспекты не очень актуальны и продукт не шел в поставке со сканером, то особого смысла приобретать Readiris автор не видит. Вряд ли он покажется лучше, чем, например, «спринтерский» вариант FineReader или OEM-версия другой программы.

OmniPage Pro -- гораздо более мощный продукт, близкий по своим возможностям к детищу ABBYY (и, кстати, за рубежом успешно с ним конкурирующий): в нем реализованы те же расширенная работа с PDF-файлами, экспорт в офисные приложения, поддержка XML. К эксклюзиву можно отнести поддержку ODMA-совместимых корпоративных систем управления документами, формата eBook и наличие открытого OLE-интерфейса, позволяющего проводить интеграцию продукта с другими приложениями. Еще одно достоинство OmniPage Pro -- звуковое чтение распознанного текста -- вряд ли будет по достоинству оценено отечественными пользователями, так как читать программа умеет только по-английски. Кстати, русский интерфейс также отсутствует. И в заключение хотелось бы привести без комментариев стоимость продукта -- 634 долл.

Подводя итоги, можно сказать, что сегодня по соотношению «цена/качество» на российском рынке у ABBYY нет достойных конкурентов. Возможно, они появятся после локализации (как в плане языка, так и цены) OmniPage. Время покажет.

Список используемых источников

http://softsearch.ru/ - поиск программ по каталогам;

http://www.autoaf.ru/soft.htm - автоматизация архивной деятельности;

http://www.awella.ru/scannews17.php.htm - программное обеспечение сканеров;

http://www.compress.ru/article.aspx?id=11015&part=index11ext1 - компьютер пресс/планшетные сканеры (журнал);

http://www.gtech.ru/ - графические технологии;

http://www.xerox.ru/ru/software/s2pcdesktop/omnipage// - программы для офиса.

Д. Блатнер, Г. Флейшман, С. РотСканирование и растрирование изображений / Пер. с англ. - М.: Издательство ЭКОМ, 1999. - 400с.: илл.

Дэвид А. Форсайт, Джин Понс Компьютерное зрение.- М.: Издательский центр «Вильямс», 2004. -- С. 928.

Информационные технологии в профессиональной деятельности: Учеб. пособие для сред. проф. образования / Елена Викторовна Михеева. - 2-е изд., стер. - М.: Издательский центр «Академия», 2005. - С. 384.

Технические средства информатизации: Учебник для сред. Проф. образования / Е.И. Гребенюк, Н.А. Гребенюк. - 2-е изд., стер. - М.: Издательский центр «Академия», 2005. - С. 272.


Подобные документы

  • Конструкторско-технологическое обеспечение производства ЭВМ. Характеристики печатных плат, экономические показатели их производства и выбор материалов. Основные виды печатных плат, требования к их качеству. Типы материалов оснований для печатных плат.

    курсовая работа [1,7 M], добавлен 20.12.2013

  • Область применения оборудования, обеспечивающего измельчение материалов. Мельницы, применяемые при производстве строительных материалов, их устройство, принцип действия и классификация. Характеристика помольного оборудования разных производителей.

    реферат [484,2 K], добавлен 07.05.2011

  • Оценка качества полиграфического исполнения издания-образца по группе печатных процессов. Выбор основных и вспомогательных печатных материалов и их входной контроль. Определение конструкции проектируемого издания. Обоснование печатного оборудования.

    курсовая работа [384,6 K], добавлен 18.09.2019

  • Основные типы насосов и гидродвигателей, их назначение, классификация и область применения. Параметры гидромашин. Устройство, принцип действия шестеренного насоса. Классификация гидродвигателей. Пластинчатые насосы однократного и двукратного действия.

    презентация [344,2 K], добавлен 22.09.2009

  • Понятие технологии как науки о производстве, способах переработки сырья и материалов в средства производства и предметы потребления. Экономическая природа технологий. Виды и классификация технологий. Классификация отраслей по технологическому уровню.

    презентация [161,0 K], добавлен 18.04.2010

  • Внедрение технологии Computer-to-Plate. Образование печатных элементов на формных пластинах с помощью засветки пластин лазерным лучом и химической обработки. Формовыводные устройства для лазерной записи офсетных печатных форм, их характеристики.

    реферат [4,4 M], добавлен 21.01.2010

  • Измерительные и регулирующие устройства, применяемые в функциональных схемах автоматизации. Измерение влажности электролитическим методом. Расходомеры постоянного перепада давления. Анализ дисковой диаграммы самопишущего прибора, принцип его действия.

    реферат [1,0 M], добавлен 01.12.2012

  • Принцип действия манипулятора "мышь". Описание технологичности изделия. Характеристика типового технологического процесса монтажа печатных плат с применением SMD-компонентов. Сетевой граф сборочного процесса. Инструменты, необходимые для его обеспечения.

    курсовая работа [1,8 M], добавлен 10.01.2015

  • Технические характеристики и показатели оформления издания. Основные понятия о плоской офсетной печати. Разновидности ее форм. Классификация формных пластин для технологии Computer-to-Plate. Выбор оборудования и контрольно-измерительной аппаратуры.

    курсовая работа [219,4 K], добавлен 21.11.2014

  • Понятие сыпучих материалов. Классификация методов сепарирования сыпучих сред. Виды сепараторов. Основные характеристики, конструкция и принцип работы устройства для разделения зерен по длине - цилиндрического триера. Расчет его конструктивных размеров.

    курсовая работа [1,6 M], добавлен 24.10.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.