Системы распознавания текста. Технология обработки текстовой информации

Изучение необходимости в системах распознавания символов. Наиболее распространенные системы оптического распознавания символов: Abbyy FineReader, CuneiForm от Cognitive. Особенности интерфейса, достоинств и недостатков. Автоматический перевод текста.

Рубрика Программирование, компьютеры и кибернетика
Вид реферат
Язык русский
Дата добавления 31.03.2012
Размер файла 14,9 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

МИНОБРНАУКИ РОССИИ

Федеральное государственное бюджетное образовательное учреждение

высшего профессионального образования

«Омский педагогический университет»

(ФГБОУ ВПО «ОмГПУ»)

Историко-филологический факультет

Кафедра ИКТО

Системы распознавания текста. Технология обработки текстовой информации

Выполнила: студентка 1 курса профиля

«Образование в области иностранного языка»

Заливина Татьяна

Проверила: Саакян Яна Оганесовна

Тара-2012

1. Необходимость в системах распознавания символов

С помощью сканера достаточно просто получить изображение страницы текста в графическом файле. Но работать с текстом невозможно по определённым причинам:

- страница с текстом представляет собой графический файл - обычную картинку;

- текст нельзя редактировать и форматировать;

- необходимо преобразовать элементы графического изображения в последовательности текстовых символов.

2. Основной метод

Основным методом перевода бумажных документов в электронную форму является сканирование:

- в результате сканирования получается графическое изображение, состоящее из точек;

- количество точек определяется размером изображения и разрешением сканера.

3. Преобразование документа

В электронный вид происходит в три основных этапа:

1. Сканирование

2. Сегментация и распознавание текста

3. Проверка орфографии и передача текстового документа в нужное приложение для дальнейшей работы или сохранение в файл.

Каждый из этих этапов может выполняться программами как автоматически, так и под контролем пользователя.

4. Программы распознавания текста

Преобразованием графического изображения в текст занимаются специальные программы распознавания текста (Optical Character Recognition - OCR).

Наиболее распространенные системы оптического распознавания символов:

a) BBYY FineReader

b) CuneiForm от Cognitive

а). ABBYY FineReader

FineReader - омнифонтовая система оптического распознавания текстов. Это означает, что она позволяет распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. Особенностью программы FineReader является высокая точность распознавания и малая чувствительность к дефектам печати.

OCR-технологии от компании ABBYY также поддерживают зональное распознавание (распознавание на уровне полей), необходимое во многих ключевых бизнес-процессах, таких как классификация по ключевым словам, индексирование по ключевым словам и ввод данных с форм. L, PDF/A, searchable PDF, CSV и текстовые (plain text) файлы.

Интерфейс

Пользователь может настроить рабочее пространство по своему усмотрению:

- Изменить расположение и размер окон

- Настроить панель быстрого доступа, предназначенную для доступа к наиболее часто используемым командам

- Настроить горячие клавиши -- можно как заменить предустановленные сочетания, так и добавить свои горячие клавиши для выполнения команд программы

- Выбрать нужный язык интерфейса и др.

Содержание раздела:

Главное окно программы

Панели инструментов

Как настроить рабочее пространство программы ABBYY FineReader

Диалог Опции

Возможности:

- позволяет извлекать текстовые данные из цифровых изображений;

- полученное в результате распознавания может быть сохранено в различных форматах.

Дополнительные возможности:

-Использование шаблонов;

-Распознавание с обучением;

-Создание новых языков и группы языков;

-Коллективная работа в сети.

b). CuneiForm

оптический символ текст интерфейс

CuneiForm -- это программа для оптического распознавания текста документов в редактируемый вид. Результаты работы программы можно редактировать в офисных программах и текстовых редакторах и сохранять в популярных форматах, проводить по ним полнотекстовый поиск.

CuneiForm является предшественницей систем промышленного распознавания и понимания документов. Многие технологические ноу-хау, результаты научных исследований, положенные в основу CuneiForm, успешно применяются и совершенствуются по сей день в коммерческих продуктах Cognitive Technologies.

Возможности:

- при распознавании с помощью CuneiForm сохраняется структура документа и его форматирование;

- программа распознает таблицы любой структуры и сложности, в том числе и без отображения линий табличной сетки;

- распознаются любые печатные шрифты: книги, газеты, журналы, распечатки с лазерных и матричных принтеров, тексты с пишущих машинок;

- алгоритмы оптического распознавания (OCR, Optical Character Recognition), встроенные в программу позволяют распознавать текст с матричного принтера, плохих ксерокопий и факсов;

- распознавание документов более чем на 20 языках: на русском, английском, немецком, французском, испанском, итальянском, шведском, украинском и других;

- для повышения качества распознавания в программе используется словарная проверка. При этом стандартный словарь можно расширить за счет импорта новых слов из текстовых файлов.

Достоинства CuneiForm:

- практически единственная бесплатная OCR-программа профессионального уровня.

- большое количество языков распознавания.

- простой и понятный интерфейс.

- кроссплатформенность.

- на русском языке.

5. Эксперты о CuneiForm и FineReader

CHIP Special 2/2002 «Наиболее сильным соперником FineReader является программа CuneiForm, которая долгие годы успешно с ним конкурировала. Следует отметить, что CuneiForm первой получила признание на Западе, будучи встроена в популярный CorelDraw, а также установлена во многих госструктурах США, например, в аппарате президента, ФБР, ЦРУ, Министерстве обороны и т.д.

Но постепенно, начиная с четвертой версии, лидерство FineReader становилось все более очевидным…»

6. Автоматический перевод текста

Программы автоматического перевода позволяют переводить отдельные слова и строить смысловые связи в предложениях, не всегда учитывая те или иные особенности языка. Поэтому они предназначены лишь для общего ознакомления с содержанием документа.

Программные средства автоматического перевода можно условно разделить на две основные категории:

1. Компьютерные словари. Назначение их - предоставить значения неизвестных слов быстро и удобно для пользователя.

2. Системы автоматического перевода - позволяют выполнять автоматический перевод связного текста. В ходе работы программа использует словари и наборы грамматических правил, обеспечивающих наилучшее качество перевода.

Размещено на Allbest.ru


Подобные документы

  • Необходимость в системах распознавания символов. Виды сканеров и их характеристики. Оптимальное разрешение при сканировании. Программы распознавания текста. Получение электронного документа. FineReader - система оптического распознавания текстов.

    презентация [469,2 K], добавлен 15.03.2015

  • Оптическое распознавание символов как механический или электронный перевод изображений рукописного, машинописного или печатного текста в последовательность кодов. Компьютерные программы для оптического распознавания символов и их характеристика.

    презентация [855,2 K], добавлен 20.12.2011

  • Методы предобработки изображений текстовых символов. Статистические распределения точек. Интегральные преобразования и структурный анализ. Реализация алгоритма распознавания букв. Анализ алгоритмов оптического распознавания символов. Сравнение с эталоном.

    курсовая работа [2,1 M], добавлен 20.09.2014

  • Представление о системе оптического распознавания ABBYY FineReader и настройках BIOS. Виды систем управления вводом информации. Современные и перспективные носители энергии, особенности биоэнергетики. Преимущества и недостатки Li-Ion-аккумуляторов.

    контрольная работа [274,1 K], добавлен 10.06.2010

  • Процессы распознавания символов. Шаблонные и структурные алгоритмы распознавания. Процесс обработки поступающего документа. Обзор существующих приложений по оптическому распознаванию символов. Определение фиксированного шага и сегментация слов.

    дипломная работа [3,3 M], добавлен 11.02.2017

  • Оптико-электронная система идентификации объектов подвижного состава железнодорожного транспорта. Автоматический комплекс распознавания автомобильных номеров. Принципы и этапы работы систем оптического распознавания. Особенности реализации алгоритмов.

    дипломная работа [887,3 K], добавлен 26.11.2013

  • Понятие системы распознавания образов. Классификация систем распознавания. Разработка системы распознавания формы микрообъектов. Алгоритм для создания системы распознавания микрообъектов на кристаллограмме, особенности его реализации в программной среде.

    курсовая работа [16,2 M], добавлен 21.06.2014

  • Условия применения и технические требования для работы программно-аппаратной платформы. Система распознавания лиц VOCORD Face Control. Система распознавания текста ABBYY FineReader. Алгоритмы и методы, применяемые в программе. Алгоритм хеширования MD5.

    дипломная работа [1,8 M], добавлен 19.01.2017

  • Функции текстового редактора как программы для работы с текстом. Использование редактора MS Word в научной деятельности исследователя-ономаста. Технология распознавания текста и организация работы с программой FineReader. Системы распознавания речи.

    реферат [979,3 K], добавлен 16.10.2013

  • Классификация сканеров по способу формирования изображения. Ручные, настольные, комбинированные сканеры. Принцип действия планшетного сканера. Сенсорные технологии в сканерах: CCD, CIS. Программа Abbyy FineReader как пример системы распознавания символов.

    контрольная работа [10,1 K], добавлен 08.11.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.