Робота з програмою FineReader
Сутність процесу введення документу у комп'ютер: сканування та розпізнавання. Характеристика технології "цілісного цілеспрямованого адаптивного розпізнавання". Основні положення з інструкції по експлуатації та основи роботи з програмою ABBYY FineReader.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | курсовая работа |
Язык | украинский |
Дата добавления | 24.09.2010 |
Размер файла | 90,3 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
10
Робота з програмою FineReader
ЗМІСТ
ВСТУП
РОЗДІЛ І. ПОСТАНОВКА ЗАДАЧ
1.1 Вхідна інформація
РОЗДІЛ ІІ. ІНСТРУКЦІЯ ПО ЕКСПЛУАТАЦІЇ
2.1 Запуск програми, введення початкових даних
2.2 Робота з програмою
2.3 Додаткова інформація
ВИСНОВКИ
СПИСОК ВИКОРИСТАНОЇ ЛІТЕРАТУРИ
ВСТУП
Стрімкий розвиток комп'ютерної техніки і її різноманітного програмного забезпечення -- це одна з характерних прикмет сучасного періоду розвитку суспільства. Технологи, основним компонентом яких є комп'ютер, проникають практично в усі сфери людської діяльності. Те, що ще недавно вважалось фантастикою, тепер, завдяки науково-технічному прогресу, особливо прогресу в області комп'ютерних технологій, стало реальністю.
Комп'ютерні технології застосовують у видавництвах і великих бібліотеках, у парламентах і міністерствах, у банках і на складах, у системах зв'язку і системах управління транспортом, у податкових інспекціях і у сфері розваг тощо. Тепер практично неможливо уявити сучасний офіс без повсякденного і широкого застосування комп'ютерних технологій. Комп'ютер став неодмінним атрибутом робочого місця працівників багатьох професій. У цих умовах продовжує зростати попит на комп'ютерних спеціалістів, особливо на молодих спеціалістів високої кваліфікації. Великою популярністю користуються спеціалісти з комп'ютерної верстки та макетування, комп'ютерні художники і дизайнери, спеціалісти з банківських та бухгалтерських комп'ютерних систем, спеціалісти з комп'ютерних мереж та ряд інших.
Досить актуальними на сьогоднішній час стали системи оптичного розпізнавання символів ( OCR ).
Системи оптичного розпізнавання символів (Optical Character Recognition) призначені для автоматичного введення друкованих документів в комп'ютер. Однією із таких систем є FineReader.
FineReader - омніфонтова система оптичного розпізнавання текстів. Це означає, що вона дозволяє розпізнавати тексти, набрані практично будь-якими шрифтами, без попереднього навчання. Особливістю програми FineReader є висока точність розпізнавання і мала чутливість до дефектів друку, що досягається завдяки застосуванню технології "цілісного цілеспрямованого адаптивного розпізнавання".
На сьогоднішній день існує багато версій програми FineReader, однак найбільш популярною і досконалою є програма версії FineReader 5.0, тому в даній дипломній роботі ми детальніше зупинимося саме на ній.
РОЗДІЛ І. ПОСТАНОВКА ЗАДАЧ
1.1 Вхідна інформація
Процес введення документу в комп'ютер можна розділити на два етапи:
Сканування. На першому етапі сканер відіграє роль «ока» комп'ютера: «переглядає» зображення і передає його комп'ютеру. При цьому отримане зображення є не чим іншим, як набором чорних, білих або кольорових крапок, картинкою, яку неможливо відредагувати в жодному текстовому редакторі.
Розпізнавання. Обробка зображення OCR-системою.
Обробка зображення системою FineReader містить у собі аналіз графічного зображення, переданого сканером, і розпізнавання кожного символу. Процеси аналізу макета сторінки (визначення областей розпізнавання, таблиць, зображень, виділення в тексті рядків і окремих символів) і розпізнавання зображення тісно пов'язані між собою: алгоритм пошуку блоків використовує інформацію про розпізнаний текст для більш точного аналізу сторінки.
Як уже згадувалося, розпізнавання зображення здійснюється на основі технології "цілісного цілеспрямованого адаптивного розпізнавання".
Цілісність - об'єкт описується як ціле за допомогою значимих елементів і відношень між ними.
Цілеспрямованість - розпізнавання будується як процес висування і цілеспрямованої перевірки гіпотез.
Адаптивність - здатність OCR-системи до самонавчання.
Відповідно до цих трьох принципів система спочатку висуває гіпотезу про об'єкт розпізнавання (символ, частину символу або декілька склеєних символів), а потім підтверджує або спростовує її, намагаючись послідовно знайти всі структурні елементи і відношення, що їх пов'язують. У кожному структурному елементі виділяються частини, значимі для людського сприйняття, - відрізки, дуги, кільця і крапки. Виходячи з принципу адаптивності, програма самостійно «налагоджується», використовуючи позитивний досвід, отриманий на перших впевнено розпізнаних символах. Цілеспрямований пошук і облік контексту дозволяють розпізнавати розірвані і перекручені зображення, роблячи систему стійкою до можливих дефектів друку.
Наслідком роботи у вікні FineReader з'явиться розпізнаний текст, який можна редагувати і записати у найзручнішому форматі.
Нові можливості програми FineReader 5.0.
Робота з зображеннями
Новий режим відображення сторінок пакета Піктограми, у якому сторінки пакета представляються своїми сильно зменшеними зображеннями.
Сканування
Можливість сканування розвороту книги: обидві сторінки розкритої книги скануються одночасно, але обробляються окремо. Зображення, що містить парні сторінки, записується в дві різні сторінки пакета.
Аналіз макету сторінки
У програму додана об'єднана процедура аналізу макета сторінки і розпізнавання. Тепер алгоритм пошуку блоків використовує інформацію про розпізнаний текст для більш точного аналізу макету сторінки. Нові алгоритми аналізу використовуються автоматично при запуску розпізнавання на сторінці без блоків, тобто аналіз макета і розпізнавання проводяться за один крок. Старий алгоритм аналізу сторінки, що не використовує розпізнавання, як і раніше доступний (меню Процес>Аналіз макету сторінки).
Підтримка розпізнавання "вбудованих" зображень: можливо визначити блок "зображення" усередині текстового або табличного блоку.
Розпізнавання
Існує два варіанти поставки ABBYY FineReader: EU - 121 мова розпізнавання (латиниця та грецькі); Cyrillic Plus - 176 мов розпізнавання (латиниця, грецька та кирилиця). Усі мови розпізнавання поділяються на основні мови, додаткові та
штучні мови. Основна група утворена з мов зі словниковою підтримкою. Для цих мов у програмі FineReader підтримана перевірка розпізнаного тексту (знаходження невпевнено розпізнаних слів і слів з орфографічними помилками).
Розпізнавання мов програмування (Basic, Cobol, Fortran, Java, C++, Pascal).
Розпізнавання підрядкових символів (наприклад, H2O).
Розпізнавання вертикального тексту.
Коректна передача кольору тексту.
Збереження і редагування
Можливість збереження розпізнаного тексту у форматі HTML з повним збереженням оформлення сторінки.
Можливість збереження розпізнаного тексту у форматі PDF із збереженням повного оформлення документа.
Збереження кольору тексту при збереженні розпізнаного тексту в RTF, PDF і HTML форматах.
Підтримка Unicode кодування при збереженні розпізнаного тексту в RTF, DOC, XLS, HTML, TXT і CSV форматах.
FineReader працює зі сканерами через TWAIN-інтерфейс. Це єдиний міжнародний стандарт, введений у 1992 році для уніфікації взаємодії пристроїв для введення зображень у комп'ютер (наприклад, сканеру) із зовнішніми програмами.
Якість розпізнавання багато в чому залежить від того, наскільки гарне зображення отримано при скануванні. Якість зображення регулюється задаванням основних параметрів сканування: типу зображення, роздільної здатності та яскравості.
Основними параметрами сканування є:
Тип зображення - сірий (256 градацій).
Сканування в сірому є оптимальним режимом для системи розпізнавання. У випадку сканування в сірому режимі здійснюється автоматичний підбір яскравості. Чорно-білий тип зображення забезпечує більш високу швидкість сканування, але при цьому губиться частина інформації про літери, що може призвести до погіршення якості розпізнавання на документах середньої і низької якості друку. Якщо необхідно, щоб кольорові елементи (картинки, колір літер і фону), що містяться в документі, були передані в електронний документ зі збереженням кольору, необхідно вибрати кольоровий тип зображення. В інших випадках слід використовувати сірий тип зображення.
Роздільна здатність - найчастіше слід використовувати 300 dpi ( точок на дюйм ) для звичайних текстів (розмір шрифту 10 і більш пунктів) і 400-600 dpi для текстів, набраних дрібним шрифтом (9 і менше пунктів).
Яскравість - у більшості випадків підходить середнє значення яскравості - 50%. На деяких документах при скануванні у чорно-білому режимі може знадобитися додаткове регулювання параметрів яскравості.
РОЗДІЛ ІІ. ІНСТРУКЦІЯ ПО ЕКСПЛУАТАЦІЇ
2.1 Запуск програми, введення початкових даних
Перш ніж приступити до роботи з програмою FineReader слід встановити її на комп'ютері. Для цього необхідно оптичний диск із дистрибутивом програми вставити у пристрій читання дисків (CDROM). Натиснути кнопку Пуск на Панели Задач і вибрати пункт Настройка/Панель управления. Двічі натиснути на іконку Установка и удаление программ. Вибрати закладку Установка и удаление і натиснути кнопку Установить... Після цього потрібно діяти за вказівками програми встановлення.
Після того, як програма встановлення перевірить систему, слід набрати своє ім'я і вказати, куди потрібно встановити ABBYY FineReader. Програма встановлення відобразить декілька параметрів встановлення. Щоб вибрати один з варіантів встановлення, необхідно натисніть відповідну кнопку ( мал. 1).
Повна - встановлюються усі компоненти дистрибутиву, у тому числі всі мови розпізнавання
Мінімальна (рекомендується) - програма встановлюється у мінімальній конфігурації: Мова інтерфейсу (одна) - обрана під час встановлення; мови розпізнавання - англійська + мова, яку обрано під час встановлення.
Встановлення компонент дистрибутиву на вибір - з запропонованого набору компонентів, що входять у дистрибутив, можна вибрати тільки ті, які потрібні (у тому числі доступні мови розпізнавання).
Після встановлення програми необхідно її запустити. Щоб запустити програму потрібно вибрати пункт ABBYY FineReader 5.0 Pro (Office) у меню Пуск/Програми/ABBYY FineReader 5.0.
Підчас першого запуску FineReader автоматично створить і відобразить на екрані стандартний пакет, у якому міститься файл з зображенням demo.tif. Робота з документами у програмі FineReader виконується у пакеті. Пакет - це каталог на диску, у якому зберігаються зображення сторінок та робочі файли програми. Кожне нове зображення зберігається як окрема сторінка пакету.
Після запуску FineReader на екрані появиться головне вікно програми
Вгорі Головного вікна FineReader знаходиться головне меню системи, під ним - панелі інструментів. У програмі є чотири панелі інструментів: Стандартна, Форматування, Зображення та Scan&Read.
Включити або виключити відображення панелей інструментів на екрані можна за допомогою меню Вигляд (пункт Панелі інструментів) або за допомогою контекстного меню. Щоб відкрити контекстне меню, слід клацнути правою кнопкою миші на одній з панелей інструментів. Панелі, що у поточний момент відображаються на екрані, будуть відмічені у меню галочкою.
Увесь простір Головного вікна займають, по мірі того як вони з'являються, робочі вікна системи: Пакет, Зображення, Крупний план та Текст.
Стандартний режим відображення у вікні Крупний план - чорно-біле зображення, незалежно від того яке саме зображення (кольорове, сіре чи чорно-біле) було відправлене на сканування. Якщо робота здійснюється з кольоровим зображенням і необхідно, щоб у вікні Крупний план зображення відображалось також у кольоровому режимі, то слід зняти позначку вибору з пункту Чорно-біла палітра у вікні Крупний план, що у групі Вікно Зображення, яка на закладці Вигляд (меню Сервіс>Параметри).
Є можливість також змінити розташування вікон на екрані, для цьогов меню Вигляд слід вибрати один з пунктів: Вікно Пакет>...; Вікна Зображення та Текст>... або Вікно Крупний план>...
Комбінації клавіш для роботи з вікнами
Для того, щоб переключатись між вікнами, натиснути CTRL+TAB.
Для того, щоб активізувати вікно Пакет, натиснути Alt+1.
Для того, щоб активізувати вікно Зображення, натиснути Alt+2.
Для того, щоб активізувати вікно Текст, натиснути Alt+3.
Як уже було сказано вище, у системі FineReader є чотири Панелі інструментів: Стандартна, Зображення, Оформлення і головна панель програми Scan&Read. Кнопки, що на панелях інструментів - найзручніший спосіб доступу до операцій системи. Ті ж операції можна виконувати з меню програми чи за допомогою гарячих клавіш. Якщо необхідно довідатися про призначення тієї чи іншої кнопки на панелі інструментів, потрібно підвести до кнопки курсор миші. Під кнопкою з'явиться докладне повідомлення про її призначення.
Кнопки на головній панелі програми Scan&Read пов'язані з базовими операціями системи: Сканування, Розпізнавання, Перевірка і Збереження результатів розпізнавання. Цифри на кнопках вказують, у якому порядку потрібно виконати дії, щоб одержати електронну версію паперового документу. Кожну з цих дій можна провести окремо чи об'єднати в одну, натиснувши на кнопку Scan&Read. Вона дозволяє провести повний цикл обробки тексту автоматично. Кожна з кнопок має кілька режимів роботи. Натиснувши на стрілку праворуч від кнопки, у локальному меню, яке відкрилося, можна вибрати один з них, при цьому "інформація" про це відіб'ється на іконці кнопки. Для того, щоб повторити ту ж операцію для іншого зображення, досить повторно натиснути на кнопку.
Назва кнопки |
Режими роботи |
|
Scan&Read |
Сканувати і розпізнати - запускає сканування і розпізнавання документа Сканувати і розпізнати кілька сторінок - сканує і розпізнає декілька сторінок у циклі. Відкрити і розпізнати - дозволяє відкрити і розпізнати зображення, вибрані в діалоговому вікні Відкрити (Open). Маг Scan&Read - запускає спеціальний режим сканування і розпізнавання, під час якого система контролює дії користувача і підказує йому, що треба робити, щоб одержати той чи інший результат |
|
1-сканувати |
Відкрити зображення - додає зображення в пакет, при цьому копія зображення зберігається в папці пакета |
|
2-розпізнати |
Розпізнати - розпізнає відкриту сторінку пакета Розпізнати всі сторінки - розпізнає всі нерозпізнані сторінки пакета Параметри - відкриває закладку Розпізнавання діалогового вікна Параметри, на якій можна задати параметри розпізнавання документу |
|
3-перевірити |
Перевірити правопис - дозволяє знайти в тексті слова, що містять невпевнено розпізнані символи, і неправильно написані слова Параметри - відкриває закладку Перевірка діалогового вікна Параметри, на якій можна задати параметри перевірки документу |
|
4-зберегти |
Маг збереження результатів - відкриває діалогове вікно Маг збереження результатів, у якому можна вибрати програму для збереження і задати параметри збереження Записати текст у файл - записує розпізнаний текст у файл на диск Передати сторінки в - прямо передає розпізнаний текст до обраної програми без збереження його на диск. При передачі розпізнаного тексту з декількох сторінок пакету спочатку потрібно виділити їх у вікні Пакет. Передати всі сторінки в - передає всі розпізнані сторінки до обраної програми без збереження їх на диск Параметри - відкриває закладку Оформлення діалогового вікна Параметри, на якій можна задати параметри збереження документу |
На панелі Оформлення (мал. 5) знаходяться кнопки, які дозволяють змінити оформлення тексту
Мал. 5
Панель Зображення містить кнопки, що дозволяють робити аналіз макету сторінки (наприклад, створити і відредагувати блоки), а також кнопки, що дозволяють збільшити/зменшити масштаб зображення, відредагувати зображення (наприклад, стерти непотрібні ділянки зображення такі, як підписи або великі ділянки сміття).
На панелі Стандартна ( мал. 7 ) знаходяться кнопки, що керують роботою з файлами і зображенням (скасування і повтор дії, переміщення сторінками пакету, очищення і поворот зображення), а також список мов розпізнавання
Мал. 7.
Вигляд вікна програми FineReader, точніше кількість кнопок на панелях інструментів Зображення, Стандартна і Оформлення залежить від роздільної здатності екрану комп'ютеру. Щоб побачити всі кнопки, згадані вище, потрібно змінити роздільну здатність екрану на більш високу. Оскільки кнопки реалізують лише частину доступних у програмі FineReader команд і дублюються параметрами меню, відсутність декількох кнопок на панелях не обмежує функціональність програми.
Перш ніж приступити до роботи з програмою FineReader необхідно ввести (просканувати) деяку текстову інформацію. Для цього потрібно: увімкнути сканер (якщо він має окреме від комп'ютера джерело живлення). Слід зазначити, що багато моделей сканера необхідно вмикати до вмикання комп'ютера.
Увімкнути комп'ютер і запустити FineReader (Пуск/Програми/ABBYY FineReader 5.0). Відкриється головне вікно програми FineReader.
Вставити у сканер сторінку, яку потрібно розпізнати.
Натиснути на стрілку праворуч від кнопки Scan&Read, в локальному меню виберати пункт Маг Scan&Read.
Після сканування з'явиться вікно Зображення, що містить "фотографію" сторінки. Потім програма запропонує встановити параметри розпізнавання і почне розпізнавання зображення, одночасно аналізуючи його. Оброблені ділянки зображення зафарбовуються голубим кольором.
Результат розпізнавання можна побачити у вікні Текст. У цьому ж вікні можна перевірити і відредагувати розпізнаний текст. Діючи далі за вказівками Мага Scan&Read, можна або передати розпізнаний текст до обраної програми чи записати його на диск, або продовжити обробку наступних зображень.
2.2 Робота з програмою
Процес роботи з програмою FineReader складається з чотирьох етапів: сканування, розпізнавання, перевірка і збереження результатів розпізнавання.
1. Сканування
FineReader працює зі сканерами через TWAIN-інтерфейс. Це єдиний міжнародний стандарт, введений у 1992 році для уніфікації взаємодії пристроїв для введення зображень у комп'ютер (наприклад, сканеру) із зовнішніми програмами. При цьому можливо два варіанти взаємодії програми зі сканерами через TWAIN-драйвер:
ѕ через інтерфейс FineReader: у цьому випадку для задавання параметрів сканування використовується діалогове вікно програми FineReader Параметри сканування;
ѕ через інтерфейс TWAIN-драйвера сканера: для задавання параметрів сканування використовується діалогове вікно TWAIN-драйвера сканеру. У цьому режимі, як правило, доступна функція попереднього перегляду зображення (preview), яка дозволяє точно задати розміри області, що сканується, підібрати яскравість, одразу контролюючи результати цих змін. Нажаль, діалог TWAIN-драйвера сканера в кожного сканера виглядає по-своєму, у більшості випадків усі написи англійською мовою. Вигляд цього вікна і зміст параметрів описаний у документації, яка є у комплекті до сканеру.
У режимі Використовувати інтерфейс FineReader доступні такі параметри, як можливість сканування в циклі на сканерах без автоподавача, збереження параметрів сканування в окремий файл Шаблон пакета (*.fbt) і можливість використання цих параметрів для інших пакетів.
По потребі можна легко переключатися між цими режимами, для цього на закладці Сканування/Зображення діалогового вікна Параметри (меню Сервіс>Параметри) потрібно вибрати один з пунктів: Використовувати інтерфейс TWAIN-драйвера чи Використовувати інтерфейс FineReader.
Щоб запустити сканування необхідно:
Натиснути кнопку 1-сканувати чи в меню Файл вибрати пункт Сканувати. Через деякий час у Головному вікні програми FineReader з'явиться вікно Зображення з "фотографією" вставленого листка.
Якщо потрібно відсканувати декілька сторінок, то слід натиснути стрілку праворуч від кнопки 1-сканувати і в локальному меню вибрати пункт Сканувати декілька сторінок.
У випадку, якщо сканування не почалося одразу, відкриється вбудований TWAIN-інтерфейс сканера або відкриється діалог Параметри сканування ( тут слід задати усі режими сканування ).
Якщо необхідно одразу запустити розпізнавання відсканованих сторінок, то слід скористатися параметром Сканувати і розпізнати чи Сканувати і розпізнати декілька сторінок. У цьому випадку слід натиснути стрілку праворуч від кнопки Scan&Read і в локальному меню вибрати один з пунктів: Сканувати і розпізнати чи Сканувати і розпізнати декілька сторінок.
FineReader відсканує і розпізнає зображення. У Головному вікні програми з'являться вікно Зображення з "фотографією" уставленого листа і вікно Текст з результатом розпізнавання. Розпізнаний текст можна передати до зовнішніх редакторів і записати у підтримуваних форматах.
Якість розпізнавання багато в чому залежить від того, наскільки гарне зображення отримано при скануванні. Якість зображення регулюється задаванням основних параметрів сканування: типу зображення, роздільної здатності та яскравості.
Щоб задати параметри сканування необхідно:
При скануванні через TWAIN з використанням інтерфейсу FineReader: у меню Сервіс слід вибрати пункт Параметри сканування і в діалоговому вікні Параметри сканування задати потрібні параметри.
При скануванні через TWAIN з використанням інтерфейсу TWAIN-драйвера сканеру для задавання параметрів сканування використовується діалогове вікно сканеру, що відкривається автоматично при натисканні на кнопку 1-сканувати. Параметри для сканування можуть називатися по-різному, у залежності від моделі сканеру. Наприклад, яскравість може називатися brightness, threshold, зображуватися "сонечком" чи чорно-білим кружком. Зміст параметрів описаний у документації, яка є у комплекті до сканеру.
Для зручності сканування великої кількості сторінок у програмі FineReader передбачено спеціальний режим сканування: Сканувати декілька сторінок. Він дозволяє відсканувати декілька сторінок у циклі. При цьому:
ѕ при скануванні через TWAIN з використанням інтерфейсу FineReader по закінченні сканування сторінки сканер автоматично починає сканування наступної;
ѕ при скануванні через TWAIN з використанням інтерфейсу TWAIN-драйвера сканеру Twain-діалог сканеру не закривається після закінчення сканування першої сторінки. Тут можна покласти наступну сторінку в сканер і відсканувати її і т.д.
2. Розпізнавання
Перед запуском розпізнавання потрібно перевірити задані параметри: мову розпізнавання, тип друку тексту, що розпізнається і тип сторінки.
У програмі FineReader можна:
ѕ Розпізнати блок або кілька блоків, виділених на зображенні.
ѕ Розпізнати відкриту сторінку або всі сторінки, виділені у вікні Пакет.
ѕ Розпізнати всі нерозпізнані сторінки пакета.
ѕ Розпізнати всі сторінки у фоновому режимі. У цьому режимі можливо розпізнавання з одночасним редагуванням уже розпізнаних сторінок.
ѕ Розпізнати сторінки в режимі розпізнавання з навчанням. Даний режим використовується в основному для розпізнавання текстів, що використовують декоративні шрифти, або розпізнавання великого обсягу (більш 100 сторінок) документів поганої якості друку
Щоб запустити розпізнавання потрібно натиснути кнопку 2 - розпізнати на панелі Scan&Read або у меню Процес вибрати потрібний пункт:
Розпізнати - щоб розпізнати відкриту сторінку або усі сторінки, виділені у вікні Пакет;
Розпізнати усі - щоб розпізнати всі нерозпізнані сторінки пакету;
Розпізнати Блок - щоб розпізнати блок або кілька блоків, виділених на зображенні;
Розпочати фонове розпізнавання - щоб розпочати розпізнавання у фоновому режимі.
Кнопка 2-Розпізнати запускає розпізнавання відкритого зображення. Щоб змінити режим кнопки, слід натиснути на стрілку праворуч від неї і з меню, яке відкриється, вибрати потрібний пункт.
Перед розпізнаванням важливо правильно вибрати мову розпізнавання. FineReader підтримує розпізнавання як одномовних, так і багатомовних (наприклад, англійсько-українських) документів. Щоб задати мову тексту, що розпізнається, потрібно вибрати відповідний рядок у списку на панелі Розпізнавання.
Якщо потрібно розпізнати документ, написаний кількома мовами, то у списку мов на панелі Стандартна слід вибрати пункт Вибір декількох мов… У діалоговому вікні Мова тексту, що розпізнається вказати кілька мов. Для цього потрібно відзначте пункти з відповідними назвами мов.
3. Перевірка розпізнаного тексту
Невпевнено розпізнані символи і слова, яких немає в словнику, виділяються різними кольорами. Стандартно для виділення невпевнено розпізнаних символів використовується голубий, для слів, що не знайдені в словниках - рожевий колір. Змінити ці кольори можна на закладці Вигляд (меню Сервіс>Параметри) у полі Елемент, вибравши пункт Невпевнено розпізнаний символ (Слово, що не знайдене в словниках) і в полі Колір - колір підсвічування.
Щоб перевірити результати розпізнавання потрібно:
Натиснути кнопку 3-перевірити на панелі Scan&Read (або вибрати пункт Перевірка у меню Сервіс).
Перевірка дозволяє знайти у тексті слова, що містять невпевнено розпізнані символи, слова, що не знайдені в словниках, а також слова з орфографічними помилками. Клавіатурна команда: F7
Відкриється діалогове вікно Перевірка.
У діалоговому вікні Перевірка три частини. Верхня частина - аналог вікна «Крупний план» програми FineReader, у ньому показано зображення слова з можливою помилкою. Середня частина показує саме слово з можливою помилкою, у рядку над цим вікном виводиться назва типу помилки. У нижній частині, Варіанти замін, пропонуються варіанти заміни цього слова (якщо такі існують). Для варіантів використовується словник, зазначений у полі Мова словника. Тут можна використовувати будь-який словник із запропонованого списку.
Працюючи з діалоговим вікном Перевірка користувач має наступні можливості:
Натиснути кнопку Пропустити, щоб залишити слово, як воно є.
Натиснути кнопку Пропустити всі, щоб залишити всі такі слова в розпізнаному тексті, як вони є.
Вибрати варіант для заміни і натисніть кнопку Замінити або Замінити всі, щоб замінити поточне слово або всі такі слова в тексті. Якщо серед слів, які є у Варіантах замін немає правильного варіанту для заміни слова, можна відредагувати його в середній частині діалогового вікна і натиснути кнопку Підтвердити, щоб замінити поточне слово.
Натиснути Додати..., щоб додати слово в словник. У цьому випадку при подальшій перевірці орфографії, якщо це слово (або одна з його форм) зустрінеться в тексті, воно не буде вважатися помилковим
Натиснути Параметри..., щоб задати параметри перевірки розпізнаного тексту
Натиснути Закрити, щоб закрити діалогове вікно.
4. Збереження результатів розпізнавання
Результати розпізнавання можна записати у файл, передати до зовнішньої програми, не записуючи на диск, скопіювати у буфер обміну чи відправити електронною поштою. Зберегти можна усі сторінки або тільки обрані.
Кнопка 4 - зберегти дозволяє передати результати розпізнавання у обрану програму чи записати їх у файл. Зовнішній вигляд іконки міняється в залежності від обраного режиму збереження; підпис Зберегти міняється на назву обраної програми. Натиснувши на кнопку 4 - зберегти, відкривається діалогове вікно Маг збереження результатів.
У полі Де зберегти результат можна вказати відповідну програму, у яку буде передано розпізнаний текст, можна скопіювати текст у буфер обміну або відіслати електронно поштою.
Поле Оформлення дозволяє задати:
Повністю зберігати оформлення документа - зберігається повне оформлення документа: розбивка на абзаци, вигляд і розмір шрифту, колонки, напрямок тексту, колір букв і фон тексту. Зберігається структура таблиць.
Зберігати тільки вигляд і розмір шрифтів - зберігається структура таблиць, розбивка на абзаци, вигляд і розмір шрифту.
Не зберігати оформлення - у цьому випадку зберігається розбивка на абзаци і структура таблиць.
Поле Зберігати/не зберігати зображення дозволяє зберегти зображення в розпізнаному тексті. Цей параметр доступний при збереженні у формати RTF, DOC чи HTML.
Поле Зберегти всі чи тільки виділені сторінки дозволяє зберегти всі сторінки пакета чи тільки виділені. При збереженні або передачі частини сторінок, спочатку потрібно виділити їх у вікні Пакет.
2.3 Додаткова інформація
Для нормальної роботи з програмою FineReader необхідно:
ПК із процесором Pentium 133 або більш потужним.
Операційна система Microsoft Windows 2000, Windows NT Workstation 4.0 з пакетом поновлення 3 (SP3) або вище, Windows 95/98 (для роботи з українським інтерфейсом потрібна версія Windows, яка підтримує кирилицю).
32 Мб оперативної пам'яті, плюс 16 Мб для кожного додаткового процесора (у багатопроцесорних системах).
Вільне місце на жорсткому диску: 40 Мб для мінімального встановлення, 50 Мб для роботи системи.
Microsoft Internet Explorer 3.02 або пізніша версія.
100% Twain-сумісний сканер, цифрова камера або факс-модем.
Монітор VGA або монітор з більш високою роздільною здатністю.
Дисковід для компакт-дисків і дисковід 3,5"
Мишка або інший аналогічний пристрій.
FineReader зберігає результати розпізнавання в наступних форматах:
Microsoft Word Document(*.DOC)
Rich Text Format (*.RTF)
Adobe Acrobat Format (*.PDF)
HTML
Comma Separated Values File (*.CSV)
Простий текст (*.TXT). FineReader підтримує різні кодові сторінки (Windows, DOS, Mac, ISO) і кодування Unicode.
Microsoft Excel Speadsheet (*.XLS)
DBF
FineReader відкриває файли наступних форматів:
BMP: 2-бітний - ч/б, 4- і 8-бітний - Palette, 16-бітний, 24-бітний - Palette і TrueColor, 32-бітний
PCX, DCX: 2-бітний - ч/б, 4- і 8-бітній - сірий
JPEG: сірий та TrueColor
TIFF: ч/б - незжатий, CCITT3, CCITT3FAX, CCITT4, Packbitsсірі -незжатий, Packbits, JPEG TrueColor - незжатий, JPEG Palette - незжатий, Packbits багатосторінковий TIFF PNG: ч/б, сірий, кольоровий
FineReader зберігає зображення в наступних форматах:
BMP: ч/б, сірий, кольоровий
PCX: ч/б, сірий
JPEG: сірий, кольоровий
TIFF: ч/б - незжаті, CCITT3, CCITT4, packbits сірі - незжаті, packbits, JPEG кольорові - незжатий і JPEG PNG: ч/б, сірий, кольоровий
Програма FineReader підтримує наступні мови:
Основні мови ( англійська, вірменська (східна, західна, грабар), болгарська, грецька, датська, іспанська, італійська, каталонська, литовська, латишська, німецька (стара і нова орфографія), нідерландська (Нідерланди і Бельгія), норвезька (нюнорск і букмол), польська, португальська (Португалія і Бразилія), російська, румунська, словацька, татарська, турецька, угорська, українська, фінська, французька, хорватська, чеська, шведська, естонська ).
Додаткові мови ( абхазька, аварська, агульска, адигейська, азербайджанська (кирилиця), зербайджанська (латиниця), аймара, албанська, алтайська, африканс, ацтекська, білоруська, бемба, блекфут, бретонська, буготу, бурятська, волоф, гавайська, гагаузька, галісійська, ганда, гуарані, гелау, дакота, дунганська, евенкійська, евенська, ескімоська (кирилиця), ескімоська (латиниця), інгушська, індонезійська, ірландська, ісландська, кабардино-черкеська, казахська, калмицька, каракалпацька, карачаєво-балкарська, кашубська, кечуа, кикуйю, киргизька, конго, корсиканська, корякська, коса, кпелле, кроу, кримськотатарська, кумикська, курдська, лакська, латинська, лезгинська, лубу, лужицька, майя, македонська, малагасійська, малайзійська, малінке, мальтійська, мансійська, маорі, марійська, мінангкабау, могавк, молдавська, монгольська, мордовська, мяо, німецька (Люксембург), ненецька, нівхська, ногайска, ньянджа, оджибве, осетинська, папьяменто, південна сото, провансальська, ретороманська, руанда, рунді, російська (стара орфографія), саамська, самоа, сапотек, свази, себуанська, селькупська, сербська (кирилиця), словенська, сомалі, суахілі, сунданська, табасаранська, тагальська, таджицька, таїті, ток-пісін, тонга, тсвана, тувинська, туркменська, удмуртська, уельська, уельська, узбецька (кирилиця), узбецька (латиниця), фарерські, фіджі, фризька, фриульска, хакаська хані (акха), хантийська, хауса, цзинпо (качин), циганська, чаморро, чеченська, чуваська, чукотська, шона, якутська ).
Штучні мови (есперанто, ідо, інтерлінгва, окциденталь).
Мови програмування ( Basic, С/С++, COBOL, Fortran, JAVA, Pascal, прості хімічні формули ).
Створена у 1922 році естонцем Э. Валем.
Одна з німецьких (скандинавських) мов. Офіційна мова Данії. Носіїв близько 5 млн. Розповсюджена також на Фарерських островах, Гренландії
Одна з романських мов. Офіційна мова Іспанії, усіх країн Латинської Америки (крім Бразилії) і Екваторіальної Гвінеї. Одна з мов ООН. Носіїв близько 325 млн. людей
Відноситься до балтійських мов. Офіційна мова Литви. Носіїв близько 3 млн. людей
Одна з німецьких мов. Офіційна мова Німеччини, Австрії, Швейцарії, Люксембургу, Бельгії. Носіїв близько 100 млн. людей
Одна з романських мов. Офіційна мова Румунії. Носіїв близько 25 млн. людей
Одна із західнослов'янських мов. Офіційна мова Словаччини, у граничних з нею районах Угорщини, Румунії й України. Носіїв близько 5 млн. людей
Одна з фінсько-угорських (прибалтійсько-фінських) мов. Офіційна мова Естонії. Носіїв близько 1 млн. людей
ВИСНОВКИ
Використовуючи матеріал даної дипломної роботи можна довідатися про те, як ввести потрібний документ у комп'ютер, практично нічого не знаючи про систему FineReader. Тут наводиться огляд основних елементів системи FineReader, таких як вікна системи, панелі інструментів, панель поточного стану. Подано типові рекомендації щодо сканування текстів, вибору оптимального режиму сканування; висвітлено основні методи роботи стосовно розпізнавання, редагування та збереження інформації засобами програми FineReader. У параграфі “Додаткова інформація” даної дипломної роботи, наведені деякі дані стосовно мінімальної конфігурації комп'ютера, необхідного для нормальної роботи програми, подано формати файлів, з якими може працювати програма, а також наведений перелік мов розпізнавання.
Добре ознайомившись з матеріалами, приведеними у роботі, навіть початковий користувач, не маючи ніяких практичних навиків, зможе без особливих труднощів вводити інформацію у комп'ютер і обробляти її засобами програми FineReader.
СПИСОК ВИКОРИСТАНОЇ ЛІТЕРАТУРИ
1. Ботт Эд, Леонард Вудди. Коппьютерная энциклопедия. специальное издание: Пер с англ.: Уч. пос. - М.:Издательский дом «Вильямс», 2000. - 1024 с.: ил. - Парал. тит. англ.
2. Гаевский А. Ю. Самоучитель работы на персональном компьютере. - К.: А. С. К., 2001. - 416 с.: ил.
3. Кривич Е. Я. Персональный компьютер для школьников: Учебный курс. - Харьков: ФОЛИО, - 2002. - 476 с: ил.
4. Журин А.А. Работа на компьютере. Практическое руководство для начинающих пользователей. - М.: Лист-Нью, 2002. - 704 с.
5. Глушаков С.В., Жакин И.А., Хачиров Т.С. Математическое моделирование: Учебный курс - М.: ООО “Издательство АСТ”, 2001. - 542 с.
Подобные документы
Актуальність сучасної системи оптичного розпізнавання символів. Призначення даних систем для автоматичного введення друкованих документів в комп'ютер. Послідовність стадій процесу введення документу в комп'ютер. Нові можливості програми FineReader 5.0.
курсовая работа [4,5 M], добавлен 29.09.2010Огляд інтелектуальних принципів організації процесу розпізнавання символів. Розробка системи безклавіатурного введення документів у комп’ютер. Опис і обґрунтування проектних рішень; розрахунки і експериментальні дані; впровадження системи в експлуатацію.
дипломная работа [182,5 K], добавлен 07.05.2012Ход и порядок работы с пакетом ABBYY FineReader 9.0 Professional Edition. Сохранение во внешние редакторы и форматы. Первая система с открытым ключом - система Диффи-Хеллмана. Одностороння функция с "лазейкой" и шифр RSA. Элементы теории чисел.
курсовая работа [1,9 M], добавлен 23.03.2012Сегментація і нормалізація зображень. Основні функціональні можливості та режими роботи комплексу розпізнавання письмового тексту. Розробка комплексу оптичного розпізнавання символів. Шрифтові та безшрифтові алгоритми розпізнавання друкованого тексту.
курсовая работа [1,7 M], добавлен 19.05.2014Комп’ютерне моделювання системи сегментації та розпізнавання облич на зображеннях. Підвищення швидкодії моделювання за кольором шкіри та покращення якості розпізнавання при застосуванні робастних boosting-методів. Розробка алгоритмів функціонування.
дипломная работа [1,6 M], добавлен 02.07.2014Огляд методів розпізнавання образів. Основні ідеї інформаційно-екстремального методу розпізнавання рукописних символів. Критерій оптимізації параметрів функціонування даної системи. Інформаційне та програмне забезпечення обробки рукописних символів.
дипломная работа [291,0 K], добавлен 14.10.2010Офісна техніка: комунікаційна, копіювально-множильна, багатофункціональні пристрої, шредери, ламінатори. Програмне забезпечення для сканування інформації і обробки документів ABBYY FineReader і Microsoft Word 2007. Охорона праці і техніка безпеки.
курсовая работа [36,1 K], добавлен 20.05.2011Історія досліджень, пов’язаних з розпізнаванням образів, його практичне використання. Методи розпізнавання образів: метод перебору, глибокий аналіз характеристик образу, використання штучних нейронних мереж. Характерні риси й типи завдань розпізнавання.
реферат [61,7 K], добавлен 23.12.2013Загальні дані та основні поняття мікропроцесорної техніки. Архітектура центрального персонального комп’ютера, її види та властивості. Головні відомості про технології SMM, SSE. Сторінковий режим роботи DRAM. Характеристика та елементи жорстких дисків.
контрольная работа [820,7 K], добавлен 04.10.2009Операционная система Windows, офисные приложения, такие как Microsoft Word, Microsoft Excel, ABBY FineReader. Глобальные компьютерные сети.
реферат [52,3 K], добавлен 16.11.2003