Системы распознавания текста. Технология обработки текстовой информации
Изучение необходимости в системах распознавания символов. Наиболее распространенные системы оптического распознавания символов: Abbyy FineReader, CuneiForm от Cognitive. Особенности интерфейса, достоинств и недостатков. Автоматический перевод текста.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | реферат |
Язык | русский |
Дата добавления | 31.03.2012 |
Размер файла | 14,9 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
МИНОБРНАУКИ РОССИИ
Федеральное государственное бюджетное образовательное учреждение
высшего профессионального образования
«Омский педагогический университет»
(ФГБОУ ВПО «ОмГПУ»)
Историко-филологический факультет
Кафедра ИКТО
Системы распознавания текста. Технология обработки текстовой информации
Выполнила: студентка 1 курса профиля
«Образование в области иностранного языка»
Заливина Татьяна
Проверила: Саакян Яна Оганесовна
Тара-2012
1. Необходимость в системах распознавания символов
С помощью сканера достаточно просто получить изображение страницы текста в графическом файле. Но работать с текстом невозможно по определённым причинам:
- страница с текстом представляет собой графический файл - обычную картинку;
- текст нельзя редактировать и форматировать;
- необходимо преобразовать элементы графического изображения в последовательности текстовых символов.
2. Основной метод
Основным методом перевода бумажных документов в электронную форму является сканирование:
- в результате сканирования получается графическое изображение, состоящее из точек;
- количество точек определяется размером изображения и разрешением сканера.
3. Преобразование документа
В электронный вид происходит в три основных этапа:
1. Сканирование
2. Сегментация и распознавание текста
3. Проверка орфографии и передача текстового документа в нужное приложение для дальнейшей работы или сохранение в файл.
Каждый из этих этапов может выполняться программами как автоматически, так и под контролем пользователя.
4. Программы распознавания текста
Преобразованием графического изображения в текст занимаются специальные программы распознавания текста (Optical Character Recognition - OCR).
Наиболее распространенные системы оптического распознавания символов:
a) BBYY FineReader
b) CuneiForm от Cognitive
а). ABBYY FineReader
FineReader - омнифонтовая система оптического распознавания текстов. Это означает, что она позволяет распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. Особенностью программы FineReader является высокая точность распознавания и малая чувствительность к дефектам печати.
OCR-технологии от компании ABBYY также поддерживают зональное распознавание (распознавание на уровне полей), необходимое во многих ключевых бизнес-процессах, таких как классификация по ключевым словам, индексирование по ключевым словам и ввод данных с форм. L, PDF/A, searchable PDF, CSV и текстовые (plain text) файлы.
Интерфейс
Пользователь может настроить рабочее пространство по своему усмотрению:
- Изменить расположение и размер окон
- Настроить панель быстрого доступа, предназначенную для доступа к наиболее часто используемым командам
- Настроить горячие клавиши -- можно как заменить предустановленные сочетания, так и добавить свои горячие клавиши для выполнения команд программы
- Выбрать нужный язык интерфейса и др.
Содержание раздела:
Главное окно программы
Панели инструментов
Как настроить рабочее пространство программы ABBYY FineReader
Диалог Опции
Возможности:
- позволяет извлекать текстовые данные из цифровых изображений;
- полученное в результате распознавания может быть сохранено в различных форматах.
Дополнительные возможности:
-Использование шаблонов;
-Распознавание с обучением;
-Создание новых языков и группы языков;
-Коллективная работа в сети.
b). CuneiForm
оптический символ текст интерфейс
CuneiForm -- это программа для оптического распознавания текста документов в редактируемый вид. Результаты работы программы можно редактировать в офисных программах и текстовых редакторах и сохранять в популярных форматах, проводить по ним полнотекстовый поиск.
CuneiForm является предшественницей систем промышленного распознавания и понимания документов. Многие технологические ноу-хау, результаты научных исследований, положенные в основу CuneiForm, успешно применяются и совершенствуются по сей день в коммерческих продуктах Cognitive Technologies.
Возможности:
- при распознавании с помощью CuneiForm сохраняется структура документа и его форматирование;
- программа распознает таблицы любой структуры и сложности, в том числе и без отображения линий табличной сетки;
- распознаются любые печатные шрифты: книги, газеты, журналы, распечатки с лазерных и матричных принтеров, тексты с пишущих машинок;
- алгоритмы оптического распознавания (OCR, Optical Character Recognition), встроенные в программу позволяют распознавать текст с матричного принтера, плохих ксерокопий и факсов;
- распознавание документов более чем на 20 языках: на русском, английском, немецком, французском, испанском, итальянском, шведском, украинском и других;
- для повышения качества распознавания в программе используется словарная проверка. При этом стандартный словарь можно расширить за счет импорта новых слов из текстовых файлов.
Достоинства CuneiForm:
- практически единственная бесплатная OCR-программа профессионального уровня.
- большое количество языков распознавания.
- простой и понятный интерфейс.
- кроссплатформенность.
- на русском языке.
5. Эксперты о CuneiForm и FineReader
CHIP Special 2/2002 «Наиболее сильным соперником FineReader является программа CuneiForm, которая долгие годы успешно с ним конкурировала. Следует отметить, что CuneiForm первой получила признание на Западе, будучи встроена в популярный CorelDraw, а также установлена во многих госструктурах США, например, в аппарате президента, ФБР, ЦРУ, Министерстве обороны и т.д.
Но постепенно, начиная с четвертой версии, лидерство FineReader становилось все более очевидным…»
6. Автоматический перевод текста
Программы автоматического перевода позволяют переводить отдельные слова и строить смысловые связи в предложениях, не всегда учитывая те или иные особенности языка. Поэтому они предназначены лишь для общего ознакомления с содержанием документа.
Программные средства автоматического перевода можно условно разделить на две основные категории:
1. Компьютерные словари. Назначение их - предоставить значения неизвестных слов быстро и удобно для пользователя.
2. Системы автоматического перевода - позволяют выполнять автоматический перевод связного текста. В ходе работы программа использует словари и наборы грамматических правил, обеспечивающих наилучшее качество перевода.
Размещено на Allbest.ru
Подобные документы
Необходимость в системах распознавания символов. Виды сканеров и их характеристики. Оптимальное разрешение при сканировании. Программы распознавания текста. Получение электронного документа. FineReader - система оптического распознавания текстов.
презентация [469,2 K], добавлен 15.03.2015Оптическое распознавание символов как механический или электронный перевод изображений рукописного, машинописного или печатного текста в последовательность кодов. Компьютерные программы для оптического распознавания символов и их характеристика.
презентация [855,2 K], добавлен 20.12.2011Методы предобработки изображений текстовых символов. Статистические распределения точек. Интегральные преобразования и структурный анализ. Реализация алгоритма распознавания букв. Анализ алгоритмов оптического распознавания символов. Сравнение с эталоном.
курсовая работа [2,1 M], добавлен 20.09.2014Представление о системе оптического распознавания ABBYY FineReader и настройках BIOS. Виды систем управления вводом информации. Современные и перспективные носители энергии, особенности биоэнергетики. Преимущества и недостатки Li-Ion-аккумуляторов.
контрольная работа [274,1 K], добавлен 10.06.2010Процессы распознавания символов. Шаблонные и структурные алгоритмы распознавания. Процесс обработки поступающего документа. Обзор существующих приложений по оптическому распознаванию символов. Определение фиксированного шага и сегментация слов.
дипломная работа [3,3 M], добавлен 11.02.2017Оптико-электронная система идентификации объектов подвижного состава железнодорожного транспорта. Автоматический комплекс распознавания автомобильных номеров. Принципы и этапы работы систем оптического распознавания. Особенности реализации алгоритмов.
дипломная работа [887,3 K], добавлен 26.11.2013Понятие системы распознавания образов. Классификация систем распознавания. Разработка системы распознавания формы микрообъектов. Алгоритм для создания системы распознавания микрообъектов на кристаллограмме, особенности его реализации в программной среде.
курсовая работа [16,2 M], добавлен 21.06.2014Условия применения и технические требования для работы программно-аппаратной платформы. Система распознавания лиц VOCORD Face Control. Система распознавания текста ABBYY FineReader. Алгоритмы и методы, применяемые в программе. Алгоритм хеширования MD5.
дипломная работа [1,8 M], добавлен 19.01.2017Функции текстового редактора как программы для работы с текстом. Использование редактора MS Word в научной деятельности исследователя-ономаста. Технология распознавания текста и организация работы с программой FineReader. Системы распознавания речи.
реферат [979,3 K], добавлен 16.10.2013Классификация сканеров по способу формирования изображения. Ручные, настольные, комбинированные сканеры. Принцип действия планшетного сканера. Сенсорные технологии в сканерах: CCD, CIS. Программа Abbyy FineReader как пример системы распознавания символов.
контрольная работа [10,1 K], добавлен 08.11.2010