Системи оптичного розпізнавання образів

Особливості реалізації голографічних коректорів. Оптична система розпізнавання зображень. Оптичне розпізнавання образів з готових форм як найбільш оптимальний метод автоматизації. Програмне забезпечення, яке здійснює обробку та розпізнавання даних.

Рубрика Программирование, компьютеры и кибернетика
Вид реферат
Язык украинский
Дата добавления 26.08.2013
Размер файла 73,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru

Реферат

на тему:

“Системи оптичного розпізнавання образів”

Існує безліч варіантів реалізації голографічних коректорів і проте їх основні принципи функціонування дуже схожі. Всі вони запам'ятовують зразкові зображення у вигляді або плоскої, або об'ємної голограми і відновлюють їх при когерентному освітленні в петлі зворотного зв'язку. Вхідне зображення, яке може бути зашумленим або неповним, подається на вхід системи і одночасно корелюєтся оптично з всіма запам'ятовуваними зразковими зображеннями. Ці кореляції обробляються пороговою функцією і подаються зворотно на вхід системи, де найбільш сильні кореляції посилюють (і, можливо, корегують або завершують) вхідне зображення. Підсилене зображення проходить через систему багато разів, змінюючись при кожному проході доти, поки система не стабілізується на необхідному зображенні. Помітимо, що для опису розпізнаваних образів використовувався термін "зображення". Хоч розпізнавання зображень є найбільш адекватним застосуванням для оптичних кореляторів, вхід системи може розглядатися як узагальнений вектор і система при цьому стає загальноцільовою асоціативною пам'яттю.

Багато дослідників зробили великий внесок в розвиток голографічних кореляторів і їх теорії.

Рис. 1. Оптична система розпізнавання зображень

У конфігурації, показаній на рис. 1, входом в систему є зображення, сформоване транспарантом, освітленим лазерним променем. Це зображення через дільник променя передається на пороговий пристрій, функції якого описані нижче. Зображення відбивається від порогового пристрою, повертається на дільник променя і попадає на лінзу 1, яка фокусує його на першої голограмі.

Перша голограма містить декілька запам'ятовуваних зображень (наприклад, зображення чотирьох літаків). Вхідне зображення корелюєтся з кожним з них, утворюючи світлові образи. Яскравість цих образів змінюється в залежності від міри кореляції, що визначає схожість між двома зображеннями. Лінза 2 і відбивач 1 проектують зображення кореляцій на мікроканальний масив, де вони просторово розділяються. З мікроканального масиву множина світлових образів передається на відбивач 2 через лінзу 3 і потім надається до другої голограми, яка має ті ж запам'ятовувані зображення, що і перша голограма. Лінза 4 і відбивач 3 передають суперпозицію множини корельованих зображень на зворотну сторону порогового пристрою.

Пороговий пристрій є ключовим для функціонування цієї системи. Його передня поверхня відображає найбільш сильно той образ, який є самим яскравим на його зворотній поверхні. У цьому випадку на зворотну поверхню проектується набір з чотирьох кореляцій кожного з чотирьох запам'ятовуваних зображень з вхідним зображенням. Запам'ятовуване зображення, найбільш схоже на вхідне зображення, має саму високу кореляцію, отже, воно буде самим яскравим і найбільш сильно відбитим від передньої поверхні. Це посилене відображене зображення проходить через дільник променя, після чого повторно вводиться в систему для подальшого посилення. У результаті система буде сходиться до запам'ятовуваного зображення, найбільш схожого на вхідний вектор. Після цього можна забрати вхідний образ, і запам'ятовуваний образ буде продовжувати циркулювати в системі, проводячи вихідне зображення, до скидання системи.

Записана на відеострічку демонстрація цієї системи показала її здатність відновлювати повне зображення у випадку, коли тільки частина зображення подається на вхід системи. Ця властивість має важливе військове застосування, оскільки розпізнавання мети часто повинне бути виконане в умовах часткової видимості. Крім того, можливі багато інших промислових застосувань, розпізнавання об'єктів як множини ліній є задачею, що вирішується протягом багатьох років.

Незважаючи на потенційні можливості оптичних кореляторів, якість зображення в існуючих системах є невисокою, а їх складність і вартість високі. Крім того, в цей час оптичні корелятори мають великі розміри і складні для налаштування. Великі потенційні можливості оптичних кореляторів будуть стимулювати проведення досліджень по вдосконаленню таких систем, однак в цей час багато питань залишаються без відповіді, незважаючи на їх практичне значення.

У зв'язку з великим обсягом даних, які потрібно вводити, постає питання про автоматизацію процесу вводу. Найбільш оптимальним методом автоматизації є оптичне розпізнавання образів з готових форм. При сучасному рівні розвитку технологій сканування та розпізнавання образів можна довести швидкість вводу до 100 000 аркушів на добу при якості автоматичного розпізнавання 95-98%. Автоматичне розпізнавання даних дозволяє уникнути таких помилок, як неправильний набір даних оператором, набір даних в неправильних полях форми, розбіжність даних за форматом. Досить простим та прозорим стає масштабування системи. Так, підвищення обсягу обробки на 1000 аркушів на добу потребує лише обладнання ще одного робочого місця. Якість вводу інформації перестає залежати від людського фактору, швидкість вводу легко піддається прогнозу та плануванню.

Програмне забезпечення, яке здійснює обробку та розпізнавання даних, відповідає наступним вимогам:

- гнучкість та простота настроювання на різноманітні типи форм;

- висока швидкість та якість розпізнавання;

- захист від несанкціонованого доступу;

- контроль над операторами в процесі обробки;

- простота експлуатації, програмне забезпечення не вимагає високої кваліфікації оператора;

- перехресні перевірки розпізнаних даних за словниками та базами даних;

- автоматичний контроль сум;

- простий та ефективний швидкодіючий інтерфейс до системи для сполучення з базою даних;

- здатність працювати в умовах коливання обсягу вводу від одиниць до кількох тисяч аркушів.

Оскільки призначення підсистеми розпізнавання - обробка великої кількості вхідних форм, ця підсистема підтримує такі можливості розподілення операцій, як:

- пакетна обробка даних, коли форми поєднуються у іменовані пакети, що проходять по стадіях обробки;

- централізоване адміністрування комплексу;

- безперервний моніторинг процесу обробки, окремих станцій, операторів та завдань;

- гнучка схема маршрутизації пакетів у системі;

- модульна архітектура для розподілення операцій;

- гнучке підстроювання під конкретну задачу;

- система черг та прикріплення задач до конкретних операторів;

- захищений доступ;

- сховище оброблених пакетів;

- обробка форм складної нелінійної структури;

- контроль за цілісністю даних;

- звіти про робочий стан комплексу.

Крім того, підсистема розпізнавання має гнучкий та потужний інтерфейс взаємодії з прикладними підсистемами для інтеграції функцій розпізнавання. Для цього використовується один з розповсюджених механізмів автоматизації, таких як OLE Automation чи COM (DCOM) інтерфейси.

Надійність розпізнавання й потреба програми в обчислювальних ресурсах багато в чому залежать від вибору структури й параметрів нейронної мережі. Зображення цифр приводяться до єдиного розміру (16х16 пікселів). Отримане зображення подається на вхід нейронної мережі, що має три внутрішніх рівні й 10 вузлів у верхньому рівні. Нижні шари мережі не є повнопов'язаними. Вузли нижчого рівня спільно використовують загальний набір ваг. Все це, за задумом розроблювачів, повинне підвищити здатність нижчих рівнів мережі до виділення первинних ознак у зображеннях. Отримана в такий спосіб нейронна мережа має 1256 вузлів й 9760 незалежних параметрів. Для збільшення здатності мережі до узагальнення й зменшення обсягу необхідних обчислень і пам'яті проводиться видалення маловикористовуваних ваг. У результаті число незалежних параметрів зменшується в чотири рази. Навчання нейронної мережі проведено на наборі з 7300 символів, тестування на наборі з 2000 символів. Помилки розпізнавання становлять приблизно 1% на навчальному наборі й 5% на перевірочному.

Як вхідні параметри нейронної мережі, замість значень яскравості у вузлах нормалізованого растра можуть використовуватися значення, що характеризують перепад яскравості. Такі вхідні параметри дозволяють краще виділяти межі букви. Об`єкти розпізнавання приводяться до розміру 16х16 пікселів. Після цього вони піддаються додатковій обробці з метою виділення ділянок з найбільшими перепадами в яскравості.

Одним із широко використовуваних методів підвищення точності розпізнавання є одночасне використання декількох різних розпізнавальних модулів і наступне об'єднання отриманих результатів (наприклад, шляхом голосування). При цьому дуже важливо, щоб алгоритми, використовувані цими модулями, були як можна більше незалежні. Це може досягатися як за рахунок використання розпізнавальних модулів, що використовують принципово різні алгоритми розпізнавання, так і спеціальним підбором навчальних даних. голографічний коректор оптичний розпізнавання

Один з таких методів був запропонований кілька років тому і заснований на використанні трьох розпізнавальних модулів (машин). Перша машина навчається звичайним чином. Друга машина навчається на символах, які були відфільтровані першою машиною таким чином, що друга машина бачить суміш символів, 50% з яких були розпізнані першою машиною вірно й 50% невірно. Нарешті, третя машина навчається на символах, на яких результати розпізнавання 1-ої й 2-ий машин різні. При тестуванні розпізнавані символи подаються на вхід всім трьом машинам. Оцінки, одержувані на виході всіх трьох машин складаються. Символ, що одержав найбільшу сумарну оцінку видається як результат розпізнавання.

Як правило, алгоритм розпізнавання заснований на виділенні з растра із зображенням букви первинних ознак і наступному використанні штучної нейронної мережі для оцінки близькості вхідного зображення із символами із заданого набору букв. Результатом роботи є набір оцінок, що відбивають ступінь близькості розпізнаваного символу із символами із заданого набору символів. Набір розпізнаваних символів може включати букви й цифри. Вхідні матеріали для розпізнавання зображення символів перетворюються до єдиного розміру.

Відмінною рисою реалізованого алгоритму є використання нейронної мережі з досить великою кількістю вхідних ознак. Hа вихідному зображенні виділяються первинні ознаки, що характеризують перепади яскравості у вузлах растра. Нейронна мережа має один внутрішній рівень, що містить 100 вузлів і є загальнопов`язаною, тобто кожен вузол внутрішнього рівня з'єднаний з усіма вхідними вузлами, а кожен вузол верхнього рівня з'єднаний з усіма вузлами внутрішнього рівня. Для зменшення обсягу обчислень при розпізнаванні для кожного розпізнаваного зображення символу використовуються не всі вхідні ознаки, а тільки частина, іншими словами вектор вхідних параметрів нейронної мережі є сильно розрідженим.

Навчання нейронної мережі відбувається звичайним чином, тобто використовується алгоритм зворотнього поширення помилки. Програма навчання одержує на вхід файл із зображеннями символів. При навчанні символи із цієї бази перебираються циклічно. Для кожного зображення з бази виділяються первинні ознаки, після чого виконуються прямий і зворотний проходи по мережі. Модифікація ваг мережі при навчанні виконується після кожного символу. Крок зміни ваг мережі постійний.

Для прискорення й поліпшення навчання погано розпізнавані символи проглядаються частіше за інші. Для цього використовується кеш, у якому зберігаються важко розпізнавані зображення. Растри для навчання вибираються як із вхідного файлу, так і з кешу. Вибір символу з кешу відбувається з урахуванням якості його розпізнавання, тобто погано розпізнавані символи вибираються частіше.

Крім того, при навчанні мережі використовується регулярізація ваг мережі, тобто вводиться їхнє експонентне згасання.

Якість розпізнавання залежить не тільки від алгоритмів, що використовуються програмами розпізнавання й навчання нейронної мережі, але й від того, яким чином навчалася нейронна мережа. На якість навчання нейронної мережі впливають наступні фактори: параметри бази з навчальними растрамиб, розмір, спосіб відбору растрів, порядок растрів у базі, наявність брудних символів і помилок у розмітці.

Після обробки документа сканером виходить графічне зображення документа (графічний образ). Але графічний образ ще не є текстовим документом. Людині досить глянути на лист папера з текстом, щоб зрозуміти, що на ньому написано. З погляду комп'ютера, документ після сканування перетворюється в набір різнокольорових точок, а зовсім не в текстовий документ.

Проблема розпізнавання тексту в складі точкового графічного зображення є дуже складною. Подібні задачі вирішують за допомогою спеціальних програмних засобів, які називаються засобами розпізнавання образів.

Реальний технічний прорив у цій області відбувся лише в останні роки. До цього розпізнавання тексту було можливе тільки шляхом порівняння виявлених конфігурацій точок зі стандартним зразком (еталоном, що зберігається в пам'яті комп'ютера). Автори програм задавали критерій «подібності», використовуваний при ідентифікації символів.

Подібні системи називалися OCR (Optical Character Recognition -- оптичне розпізнавання символів) і спиралися на спеціально розроблені шрифти, що полегшували такий підхід. Якщо приходилося зіштовхуватися з довільним і, тим більше, складним шрифтом, програми такого роду починали давати серйозні збої.

Сучасні наукові досягнення в області розпізнавання образів буквально перевернули представлення про оптичне розпізнавання символів. Сучасні програми цілком можуть справлятися з різними (і дуже вигадливими) шрифтами без перенастроювання. Багато програм розпізнають навіть рукописний текст.

Оскільки потреба в розпізнаванні тексту відсканованих документів досить велика, не дивно, що існує значне число програм, призначених для цього. Оскільки різні наукові методи розпізнавання тексту розроблялися незалежно один від одного, багато з цих програм використовують зовсім різні алгоритми.

Ці алгоритми можуть давати різні результати на різних документах. Наприклад, вищезгадані системи OCR здатні розпізнавати тільки стандартний спеціально підготовлений шрифт і дають на цьому шрифті найкращі результати, які не може перевершити жодна з більш універсальних програм.

Сучасні алгоритму розпізнавання тексту не орієнтуються ні на конкретний шрифт, ні на конкретний алфавіт. Більшість програм здатні розпізнавати текст кількома мовами. Ті самі алгоритми можна використовувати для розпізнавання російського, латинського, арабського й іншого алфавітів і навіть змішаних текстів. Зрозуміло, програма повинна знати, про який алфавіт мова йде.

Найбільше широко відомі і поширені програми FineReader і CuneiForm.

Размещено на Allbest.ru


Подобные документы

  • Історія досліджень, пов’язаних з розпізнаванням образів, його практичне використання. Методи розпізнавання образів: метод перебору, глибокий аналіз характеристик образу, використання штучних нейронних мереж. Характерні риси й типи завдань розпізнавання.

    реферат [61,7 K], добавлен 23.12.2013

  • Алгоритм оптичного розпізнавання образів. Універсальність таких алгоритмів. Технологічність, зручність у процесі використання програми. Два класи алгоритмів розпізнавання друкованих символів: шрифтовий та безшрифтовий. технологія підготовки бази даних.

    реферат [24,5 K], добавлен 19.11.2008

  • Огляд методів розпізнавання образів. Основні ідеї інформаційно-екстремального методу розпізнавання рукописних символів. Критерій оптимізації параметрів функціонування даної системи. Інформаційне та програмне забезпечення обробки рукописних символів.

    дипломная работа [291,0 K], добавлен 14.10.2010

  • Сегментація і нормалізація зображень. Основні функціональні можливості та режими роботи комплексу розпізнавання письмового тексту. Розробка комплексу оптичного розпізнавання символів. Шрифтові та безшрифтові алгоритми розпізнавання друкованого тексту.

    курсовая работа [1,7 M], добавлен 19.05.2014

  • Огляд інтелектуальних принципів організації процесу розпізнавання символів. Розробка системи безклавіатурного введення документів у комп’ютер. Опис і обґрунтування проектних рішень; розрахунки і експериментальні дані; впровадження системи в експлуатацію.

    дипломная работа [182,5 K], добавлен 07.05.2012

  • Розробка, дослідження та реалізація методів вирішення завдань аналізу, розпізнавання і оцінювання зображень як один із провідних напрямків інформатики. Класифікація та аналіз існуючих методів розпізнавання образів, переваги та недоліки їх застосування.

    статья [525,8 K], добавлен 19.09.2017

  • Комп’ютерне моделювання системи сегментації та розпізнавання облич на зображеннях. Підвищення швидкодії моделювання за кольором шкіри та покращення якості розпізнавання при застосуванні робастних boosting-методів. Розробка алгоритмів функціонування.

    дипломная работа [1,6 M], добавлен 02.07.2014

  • Розробка методів вирішення завдань аналізу, розпізнавання, оцінювання зображень як одних з провідних напрямків інформатики. Описання методу пошуку співпадіння об’єкту-цілі з міткою-прицілом на заданому відеоряді. Виявлення об’єкта на цифровому зображенні.

    статья [138,7 K], добавлен 21.09.2017

  • Актуальність сучасної системи оптичного розпізнавання символів. Призначення даних систем для автоматичного введення друкованих документів в комп'ютер. Послідовність стадій процесу введення документу в комп'ютер. Нові можливості програми FineReader 5.0.

    курсовая работа [4,5 M], добавлен 29.09.2010

  • Системи розпізнавання обличчя. Призначення та область застосування програми "Пошук обличчя люди у відеопотоках стандарту MPEG-4". Штучна нейронна мережа, локалізація та розпізнавання обличчя. Методи, засновані на геометричних характеристиках обличчя.

    курсовая работа [1,8 M], добавлен 27.03.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.