Главная Коллекция "Otherreferats" Программирование, компьютеры и кибернетика Системы распознавания текста. Технология обработки текстовой информации

Системы распознавания текста. Технология обработки текстовой информации

Изучение необходимости в системах распознавания символов. Наиболее распространенные системы оптического распознавания символов: Abbyy FineReader, CuneiForm от Cognitive. Особенности интерфейса, достоинств и недостатков. Автоматический перевод текста.

Рубрика	Программирование, компьютеры и кибернетика
Вид	реферат
Язык	русский
Дата добавления	31.03.2012
Размер файла	14,9 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

МИНОБРНАУКИ РОССИИ

Федеральное государственное бюджетное образовательное учреждение

высшего профессионального образования

«Омский педагогический университет»

(ФГБОУ ВПО «ОмГПУ»)

Историко-филологический факультет

Кафедра ИКТО

Системы распознавания текста. Технология обработки текстовой информации

Выполнила: студентка 1 курса профиля

«Образование в области иностранного языка»

Заливина Татьяна

Проверила: Саакян Яна Оганесовна

Тара-2012

1. Необходимость в системах распознавания символов

С помощью сканера достаточно просто получить изображение страницы текста в графическом файле. Но работать с текстом невозможно по определённым причинам:

- страница с текстом представляет собой графический файл - обычную картинку;

- текст нельзя редактировать и форматировать;

- необходимо преобразовать элементы графического изображения в последовательности текстовых символов.

2. Основной метод

Основным методом перевода бумажных документов в электронную форму является сканирование:

- в результате сканирования получается графическое изображение, состоящее из точек;

- количество точек определяется размером изображения и разрешением сканера.

3. Преобразование документа

В электронный вид происходит в три основных этапа:

1. Сканирование

2. Сегментация и распознавание текста

3. Проверка орфографии и передача текстового документа в нужное приложение для дальнейшей работы или сохранение в файл.

Каждый из этих этапов может выполняться программами как автоматически, так и под контролем пользователя.

4. Программы распознавания текста

Преобразованием графического изображения в текст занимаются специальные программы распознавания текста (Optical Character Recognition - OCR).

Наиболее распространенные системы оптического распознавания символов:

a) BBYY FineReader

b) CuneiForm от Cognitive

а). ABBYY FineReader

FineReader - омнифонтовая система оптического распознавания текстов. Это означает, что она позволяет распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. Особенностью программы FineReader является высокая точность распознавания и малая чувствительность к дефектам печати.

OCR-технологии от компании ABBYY также поддерживают зональное распознавание (распознавание на уровне полей), необходимое во многих ключевых бизнес-процессах, таких как классификация по ключевым словам, индексирование по ключевым словам и ввод данных с форм. L, PDF/A, searchable PDF, CSV и текстовые (plain text) файлы.

Интерфейс

Пользователь может настроить рабочее пространство по своему усмотрению:

- Изменить расположение и размер окон

- Настроить панель быстрого доступа, предназначенную для доступа к наиболее часто используемым командам

- Настроить горячие клавиши -- можно как заменить предустановленные сочетания, так и добавить свои горячие клавиши для выполнения команд программы

- Выбрать нужный язык интерфейса и др.

Содержание раздела:

Главное окно программы

Панели инструментов

Как настроить рабочее пространство программы ABBYY FineReader

Диалог Опции

Возможности:

- позволяет извлекать текстовые данные из цифровых изображений;

- полученное в результате распознавания может быть сохранено в различных форматах.

Дополнительные возможности:

-Использование шаблонов;

-Распознавание с обучением;

-Создание новых языков и группы языков;

-Коллективная работа в сети.

b). CuneiForm

оптический символ текст интерфейс

CuneiForm -- это программа для оптического распознавания текста документов в редактируемый вид. Результаты работы программы можно редактировать в офисных программах и текстовых редакторах и сохранять в популярных форматах, проводить по ним полнотекстовый поиск.

CuneiForm является предшественницей систем промышленного распознавания и понимания документов. Многие технологические ноу-хау, результаты научных исследований, положенные в основу CuneiForm, успешно применяются и совершенствуются по сей день в коммерческих продуктах Cognitive Technologies.

Возможности:

- при распознавании с помощью CuneiForm сохраняется структура документа и его форматирование;

- программа распознает таблицы любой структуры и сложности, в том числе и без отображения линий табличной сетки;

- распознаются любые печатные шрифты: книги, газеты, журналы, распечатки с лазерных и матричных принтеров, тексты с пишущих машинок;

- алгоритмы оптического распознавания (OCR, Optical Character Recognition), встроенные в программу позволяют распознавать текст с матричного принтера, плохих ксерокопий и факсов;

- распознавание документов более чем на 20 языках: на русском, английском, немецком, французском, испанском, итальянском, шведском, украинском и других;

- для повышения качества распознавания в программе используется словарная проверка. При этом стандартный словарь можно расширить за счет импорта новых слов из текстовых файлов.

Достоинства CuneiForm:

- практически единственная бесплатная OCR-программа профессионального уровня.

- большое количество языков распознавания.

- простой и понятный интерфейс.

- кроссплатформенность.

- на русском языке.

5. Эксперты о CuneiForm и FineReader

CHIP Special 2/2002 «Наиболее сильным соперником FineReader является программа CuneiForm, которая долгие годы успешно с ним конкурировала. Следует отметить, что CuneiForm первой получила признание на Западе, будучи встроена в популярный CorelDraw, а также установлена во многих госструктурах США, например, в аппарате президента, ФБР, ЦРУ, Министерстве обороны и т.д.

Но постепенно, начиная с четвертой версии, лидерство FineReader становилось все более очевидным…»

6. Автоматический перевод текста

Программы автоматического перевода позволяют переводить отдельные слова и строить смысловые связи в предложениях, не всегда учитывая те или иные особенности языка. Поэтому они предназначены лишь для общего ознакомления с содержанием документа.

Программные средства автоматического перевода можно условно разделить на две основные категории:

1. Компьютерные словари. Назначение их - предоставить значения неизвестных слов быстро и удобно для пользователя.

2. Системы автоматического перевода - позволяют выполнять автоматический перевод связного текста. В ходе работы программа использует словари и наборы грамматических правил, обеспечивающих наилучшее качество перевода.

Размещено на Allbest.ru

реферат "Системы распознавания текста. Технология обработки текстовой информации" скачать

Подобные документы

Системы и устройства распознавания текста. Технология обработки текстовой информации
Необходимость в системах распознавания символов. Виды сканеров и их характеристики. Оптимальное разрешение при сканировании. Программы распознавания текста. Получение электронного документа. FineReader - система оптического распознавания текстов.

презентация [469,2 K], добавлен 15.03.2015
Системы оптического распознавания документов
Оптическое распознавание символов как механический или электронный перевод изображений рукописного, машинописного или печатного текста в последовательность кодов. Компьютерные программы для оптического распознавания символов и их характеристика.

презентация [855,2 K], добавлен 20.12.2011
Признаки символов, используемые для автоматического распознавания
Методы предобработки изображений текстовых символов. Статистические распределения точек. Интегральные преобразования и структурный анализ. Реализация алгоритма распознавания букв. Анализ алгоритмов оптического распознавания символов. Сравнение с эталоном.

курсовая работа [2,1 M], добавлен 20.09.2014
Системы распознания текста и ввода данных
Представление о системе оптического распознавания ABBYY FineReader и настройках BIOS. Виды систем управления вводом информации. Современные и перспективные носители энергии, особенности биоэнергетики. Преимущества и недостатки Li-Ion-аккумуляторов.

контрольная работа [274,1 K], добавлен 10.06.2010
Оптическое распознавание символов
Процессы распознавания символов. Шаблонные и структурные алгоритмы распознавания. Процесс обработки поступающего документа. Обзор существующих приложений по оптическому распознаванию символов. Определение фиксированного шага и сегментация слов.

дипломная работа [3,3 M], добавлен 11.02.2017
Технология обработки изображений и распознавания образов
Оптико-электронная система идентификации объектов подвижного состава железнодорожного транспорта. Автоматический комплекс распознавания автомобильных номеров. Принципы и этапы работы систем оптического распознавания. Особенности реализации алгоритмов.

дипломная работа [887,3 K], добавлен 26.11.2013
Исследование характеристик системы распознавания формы микрообъектов
Понятие системы распознавания образов. Классификация систем распознавания. Разработка системы распознавания формы микрообъектов. Алгоритм для создания системы распознавания микрообъектов на кристаллограмме, особенности его реализации в программной среде.

курсовая работа [16,2 M], добавлен 21.06.2014
Информационная система анализа типоразмерных характеристик объектов на гибридной аппаратной платформе
Условия применения и технические требования для работы программно-аппаратной платформы. Система распознавания лиц VOCORD Face Control. Система распознавания текста ABBYY FineReader. Алгоритмы и методы, применяемые в программе. Алгоритм хеширования MD5.

дипломная работа [1,8 M], добавлен 19.01.2017
Использование информационных технологий в ономастических исследованиях
Функции текстового редактора как программы для работы с текстом. Использование редактора MS Word в научной деятельности исследователя-ономаста. Технология распознавания текста и организация работы с программой FineReader. Системы распознавания речи.

реферат [979,3 K], добавлен 16.10.2013
Размножение документов с помощью компьютера
Классификация сканеров по способу формирования изображения. Ручные, настольные, комбинированные сканеры. Принцип действия планшетного сканера. Сенсорные технологии в сканерах: CCD, CIS. Программа Abbyy FineReader как пример системы распознавания символов.

контрольная работа [10,1 K], добавлен 08.11.2010

Другие документы, подобные "Системы распознавания текста. Технология обработки текстовой информации"

весь список подобных работ

скачать работу можно здесь

сколько стоит заказать работу?

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.