Обробка зображення тексту з перешкодами на основі нечітких когнітивних моделей зорового сприйняття
Розробка нечіткої багаторівневої моделі представлення та обробки зображення, кожен рівень якої відображає етапи обробки візуальної інформації в зоровій системі. Метод покомпонентного представлення символів на основі множини ключових вузлів (геонів).
Рубрика | Программирование, компьютеры и кибернетика |
Вид | автореферат |
Язык | украинский |
Дата добавления | 20.07.2015 |
Размер файла | 125,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
ДОНЕЦЬКИЙ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ
АВТОРЕФЕРАТ
дисертації на здобуття наукового ступеня кандидата технічних наук
ОБРОБКА ЗОБРАЖЕННЯ ТЕКСТУ З ПЕРЕШКОДАМИ НА ОСНОВІ НЕЧІТКИХ КОГНІТИВНИХ МОДЕЛЕЙ ЗОРОВОГО СПРИЙНЯТТЯ
П'ятикоп Олена Євгенівна
05.13.06 - інформаційні технології
Донецьк - 2010
Анотація
П'ятикоп О.Є. Обробка зображення тексту з перешкодами на основі нечітких когнітивних моделей зорового сприйняття. - Рукопис.
Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.06 - інформаційні технології. Донецький національний університет, Донецьк, 2010.
Дисертаційна робота присвячена вирішенню проблеми обробки зображень тексту з перешкодами, що отримані як рекламні вкладення до електронних листів (графічний спам), за допомогою нових методів, які засновані на когнітивних моделях зорового сприйняття.
З відомостей про зорове сприйняття виділено рівні обробки візуальної інформації: рівень гангліозних клітин, рівень клітин латерального колінчастого тіла (ЛКТ), рівень клітин первинної зорової кори (ПЗК). Розроблено нечіткі моделі клітин кожного із рівнів і моделі представлення зображення на цих рівнях - моделі ретінотопічних карт. Проведені експерименти по дослідженню основних параметрів цих моделей. Виконані етапи обробки зображення тексту: локалізація рядків, виділення слів і букв, ідентифікація символів. Метод локалізації строк формалізовано на основі аналізу ретінотопічних карт різних рівнів. Для ідентифікації символу запропоновано метод покомпонентного представлення символів на основі множини ключових вузлів (геонів) і відносин між ним, які формуються в результаті обробки за моделлю клітин ПЗК. Формалізовано моделі вузлів-прототипів, вузлів, символів і символів- прототипів, введена нечітка ступінь схожості для порівняння символу з базою символів-прототипів. Розроблено і описано пакет прикладних програм для підтримки інформаційної технології обробки зображення на основі нечітких когнітивних моделей. Проведено комп'ютерні експерименти з метою дослідження пропонованих методів обробки тексту, які підтвердили ефективність обробки зображень тексту на основі нечітких когнітивних моделей.
Ключові слова: когнітивні моделі зорового сприйняття, нечітка модель, обробка зображення тексту, нечіткі множини, методи, локалізація.
Аннотация
Пятикоп Е.Е. Обработка изображения текста с помехами на основе нечетких когнитивных моделей зрительного восприятия. - Рукопись.
Диссертация на соискание ученой степени кандидата технических наук по специальности 05.13.06 - информационные технологии. Донецкий национальный университет, Донецк, 2010.
Диссертационная работа посвящена решению проблемы обработки изображений текста с помехами, полученных как рекламные вложения к электронным письмам (графический спам), с помощью новых методов, основанных на когнитивных моделях зрительного восприятия.
На основе анализа проблемы графического спама и существующих методов обработки изображения установлено, что необходим новый подход, поскольку разработчики спама постоянно совершенствуются, и традиционные методы оптического распознавания оказываются малоэффективными.
В качестве альтернативного направления обработки изображения выбран подход когнитивных наук. На основе когнитивных сведений о зрительном восприятии выделены уровни обработки визуальной информации: уровень ганглиозных клеток, уровень клеток латерального коленчатого тела (ЛКТ), уровень клеток первичной зрительной коры (ПЗК). Разработаны нечеткие модели клеток каждого из уровней и модели представления изображения на этих уровнях - модели ретинотопических карт. Проведены эксперименты по исследованию основных параметров моделей. Результаты подтвердили, что обработка по модели ганглиозных клеток позволяет выявлять контур изображения, обработка по модели клеток ЛКТ способствует детализации текста, обработка по модели клеток ПЗК предоставляет изображение в виде ориентированных элементов.
На основе предложенных моделей выполнены этапы обработки текста: локализация строк, выделение слов и букв, идентификация символов. Метод локализации строк формализован на основе анализа ретинотопических карт разных уровней. Для идентификации символа предложен метод покомпонентного представления символов на основе множества ключевых узлов (геонов) и отношений между ним, которые формируются в результате обработки по модели клеток ПЗК. Формализованы модели прототипов узлов, узлов, символов и прототипов-символов, введена нечеткая степень похожести для сравнения символа с базой символов-прототипов.
Разработан пакет прикладных программ для поддержки информационной технологи обработки изображения на основе нечетких когнитивных моделей. Представлено его содержание, структура и описание всех модулей. С помощью пакета разработан модуль обработки изображения текста с помехами для системы фильтрации спама.
Выполнены компьютерные эксперименты с целью проверки работоспособности метода локализации строк изображений текста с различными помехами. Определено, что метод локализации строк является помехоустойчивым и позволяет определять правильно ориентацию и высоту строк текста также на изображениях со слабыми перепадами яркости.
Проведены эксперименты для проверки метода покомпонентного распознавания символов для изображений символов с различными изменениями в написании, которые подтвердили, что на правильную идентификацию размеры букв и начертания влияния не оказывают.
Ключевые слова: когнитивные модели зрительного восприятия, нечеткая модель, обработка изображения текста, нечеткие множества, методы, локализация.
Summary
E.E. Pytikop Processing of noisy text image on the basis of fuzzy cognitive models of visual perception.-Manuscript
A thesis for obtaining a degree of a candidate of technical sciences (speciality 05.13.06 - Information technology). Donetsk national university, Donetsk, 2010.
The thesis is dedicated to solving the problem of processing of noisy text images, received as attached advertisements to e-mails (image-spam), by means of application of new technologies, based upon cognitive models of visual perception.
The following levels of processing of visual information were obtained from the data regarding visual perception: ganglion cells' level, the level of cells of the lateral denticulate nucleus (LGN) nucleus and the level of cells of the primary visual cortex. Fuzzy cells models of each level were developed, as well as the visual models of these levels - retina map models.
Experiments were carried out to investigate basis parameters of these models. Also developed were the stages of image text processing: lines localization, identification of letters, words and symbols. Lines localization method was formalized on the basis of the analysis of retina maps of various levels. For symbols' identification a method of component presentation of symbols in the form of the multitude of key nodes (geons) and their interrelation, formed as the result of processing of cells LGN model was proposed. Also formalized were the models of prototypes, nodes symbols and prototypes-symbols, fuzzy degree of similarity was introduced for comparison of a symbol with prototype-symbol's data base. A package of applied programs was developed and described for the support of information technology of image processing, based upon fuzzy cognitive models. Computer experiments were carried out to investigate the proposed methods of text processing, which verified the efficiency of text images processing, based upon fuzzy cognitive models.
Key words: cognitive models of visual perception, fuzzy model, image processing of text, fuzzy sets, methods and localization
1. Загальна характеристика роботи
Актуальність теми. У наш час рівень розвитку технічного прогресу тісно пов'язаний із використанням інформаційних технологій, інформаційних систем і Інтернет технологій.
Одним з основних сервісів Інтернет є електронна пошта. Сьогодні використання пошти пов'язано з проблемою спаму. Серед електронних листів частка рекламних повідомлень (спаму) становить 85%, з них 16% це листи, в яких рекламний текст представлений у вигляді графічного зображення (графічний спам). Незважаючи на масштабні заходи з розробки систем фільтрації спаму, ця проблема є актуальною, оскільки розробники графічного спаму поступово вдосконалюють цю технологію: вносяться до зображення «шуми», використовуються повороти вхідних зображень на випадкові кути і різні графічні представлення окремих літер. Аналіз методів боротьби з проблемою графічного спаму показав, що обробка зображень тексту за допомогою технології оптичного розпізнавання є малоефективною. Отже, розробка та дослідження нових моделей, методів та інформаційної технології для обробки зображення тексту з перешкодами - актуальне науково-технічне завдання.
Дослідження щодо створення нових методів обробки зображення можна розподілити на два великі напрямки.
Перший напрямок присвячено поліпшенню традиційних засобів і методів, що застосовуються на різних етапах обробки зображення. Значний внесок у розвиток цих методів обробки зображення зробили С.Г. Антощук, Є.О. Башков, В.І. Васильєв, В.П. Кожем'яко, В.М. Корчинський, В.Ф. Нестерук, Є.П. Путятін, І.В. Рубан, Б.П. Русин, М.І. Шлезінгер й інші вітчизняні та закордонні вчені.
Другий напрямок присвячено моделюванню когнітивних функцій людини з обробки візуальної інформації. Основні відомості про процеси зорового сприйняття викладені в працях В.Є. Демидова, Д. Марра, Р.Л. Солсо, Д. Хьюбела, Х.Р. Шиффмана. Різними аспектами моделювання та застосування цих знань займаються вчені Д.А. Бернар, Б. Блайс, С.А. Гладілін, К.Н. Дудкин, Б.В. Крижановський, Д.Г. Лебедєв, А.В. Сергин. Дослідження в цьому напрямку на сьогодні є перспективними.
Таким чином, актуальною задачею є розробка нового підходу цифрової обробки зображення тексту з перешкодами на основі когнітивних моделей зорового сприйняття.
Зв'язок роботи з науковими програмами, планами та темами. Тема дисертаційної роботи та отримані результати відповідають проблематиці держбюджетних тем, які виконуються в Донецькому національному університеті. Дисертаційна робота виконана відповідно до плану держбюджетних науково-дослідних робіт №0107U001453 «Інтелектуальні машини з самонавчанням, засновані на інтегрованих знаннях». Автор є одним із виконавців робіт у цій темі.
Мета і задачі дослідження. Метою дисертаційної роботи є розробка нової інформаційної технології, заснованої на когнітивних моделях зорового сприйняття, для підвищення ефективності обробки зображень тексту з перешкодами.
Для досягнення поставленої мети необхідно вирішити наступні завдання:
- обґрунтувати і вибрати методи та моделі сприйняття зорової інформації, що використовуються в когнітивній психології, для їх комп'ютерного моделювання;
- розробити нечітку багаторівневу модель представлення та обробки зображення, кожен рівень якої відображає етапи обробки візуальної інформації в зоровій системі;
- розробити на основі нечіткої багаторівневої моделі метод інтерпретації тексту, включаючи етапи локалізації рядків на зображенні з перешкодами та покомпонентне розпізнавання символів;
- розробити пакет прикладних програм на основі формалізованих когнітивних моделей;
- перевірити ефективність запропонованих методів для інтерпретації друкованого тексту, що представлено в зображеннях графічного спаму.
Об'єкт дослідження - обробка цифрових зображень.
Предмет дослідження - комп'ютерне моделювання даних когнітивної психології про сприйняття візуальної інформації.
Методи дослідження: методи обробки зображень, моделі когнітивної психології, апарат нечітких множин, методи програмування.
Наукова новизна роботи.
Автором отримані наступні результати:
- вперше формалізовані у вигляді трирівневої нечіткої моделі когнітивні теорії сприйняття зображення гангліозними клітинами, клітинами латерального колінчастого тіла (ЛКТ), клітинами первинної зорової кори (ПЗК). Переваги моделі в її гнучкості і можливості установки на прикладну задачу;
- вдосконалено метод обробки графічного зображення тексту за рахунок використання запропонованої моделі, що підвищує ефективність інтерпретації зображень тексту з перешкодами;
- набув подальшого розвитку підхід до подетального розпізнавання символів, за рахунок введення нечітких моделей ключових вузлів і відносин між ними.
Практичне значення отриманих результатів.
1. Розроблені моделі представлення зображення на рівнях гангліозних клітин, клітин ЛКТ і клітин ПКЗ є універсальним засобом, який може використовуватися в задачах виділення контуру, дозволяє представити контур у вигляді орієнтованих елементів, що дає можливість підвищити ефективність вирішення завдання покомпонентного розпізнавання об'єкта.
2. Методи обробки зображення на основі когнітивних моделей реалізовані у вигляді пакета прикладних програм, що дозволяє використовувати їх у різних задачах систем комп'ютерного зору.
3. Розроблені в дисертації моделі проходять дослідну експлуатацію в службі поштового сервера під час розв'язання задачі ізоляції графічного спаму в компанії ЗАТ «Доріс». Матеріали дисертації використані в НДР на кафедрі комп'ютерних технологій Донецького національного університету і впроваджені в навчальний процес на кафедрі інформатики Приазовського державного технічного університету з курсу «Системи штучного інтелекту».
Особистий внесок здобувача. Всі результати наукових і практичних дисертаційних досліджень отримані та розроблені автором самостійно. У роботах, написаних у співавторстві і опублікованих у профільних виданнях, внесок здобувача полягає в наступному: [1] - розробка математичної моделі релейних гангліозних клітин, [3] - розробка математичних моделей та проведення експериментів.
Апробація результатів дисертації. Основні наукові результати та положення дисертаційної роботи доповідались і обговорювались на міжнародних науково-технічних конференціях «Університетська наука» (Приазовський державний технічний університет, Маріуполь, 2007, 2008, 2009); 2-ій регіональній науково-практичній конференції аспірантів ПДТУ «Творча співпраця науки з виробництвом» (Маріуполь, листопад 2007); 12-му міжнародному молодіжному форумі "Радіоелектроніка та молодь у ХХІ столітті» (Харків, квітень 2008); 3-ій міжнародній науково-практичній конференції «Комп'ютерні науки та інформаційні технології (CSIT-2008)» (Львів, вересень 2008); 11-ій міжнародній науково-технічній конференції «Системний аналіз та інформаційні технології (САІТ-2009)» (Київ, травень 2009); міжнародній науково-технічній конференції «Інформаційні технології та інформаційна безпека в науці, техніці та освіті (Інфотех-2009)» (Севастополь, вересень 2009).
2. Основний зміст роботи
У вступі обґрунтовано актуальність і доцільність роботи, сформульовано мету, завдання, об'єкт, предмет, методи дослідження, відображено наукову новизну і практичну цінність роботи, наведено відомості про особистий внесок здобувача, апробації, публікації та структуру роботи.
У першому розділі розглянуто одну з актуальних завдань Інтернет-технологій боротьба з розсилкою листів, що містять небажану рекламу у вигляді зображень тексту (графічний спам). Описано особливості зображень тексту спаму на відміну від інших цифрових зображень тексту: наявність штучно доданого шуму, повороти тексту на довільні кути і тощо.
Визначено, що одним з етапів вирішення цієї проблеми є обробка й аналіз зображення, яке прикріплюється до електронного листа. Можливі два напрямки обробки зображення: традиційні методи розпізнавання і методи, засновані на знаннях когнітивних наук. Встановлено, що традиційні методи оптичного розпізнавання тексту не досить ефективні для вирішення проблеми графічного спаму. Проаналізовано досвід моделювання процесів зорової системи і можливість використання когнітивних знань для обробки зображення тексту з різними перешкодами. З аналізу когнітивних даних про первинну обробку візуальної інформації зорової системою виділені етапи обробки зображення тексту: обробка за моделлю гангліозних клітин, обробка по моделі клітин латерального колінчастого тіла, обробка по моделі клітин первинної зорової кори.
Поставлено завдання формалізації когнітивних даних зорового сприйняття на основі апарату нечіткої математики, і розробки методу та інформаційної технології інтерпретації зображення тексту в умовах зашумленості зображення.
У другому розділі наводиться формалізація словесних когнітивних моделей зорового сприйняття за допомогою апарата нечіткої математики. Розглядаються математичні моделі обробки зорової інформації, що базуються на даних про роботу гангліозних клітин, клітин латерального колінчастого тіла і клітин первинної зорової кори.
Обробка інформації по моделі гангліозних клітин ґрунтується на таких відомостях: залежно від реакції рецептивних полів гангліозних клітин з ON-центром (характерно збільшення частоти генерації розрядів, якщо світло потрапляє в область центру рецептивного поля і зниження частоти генерації розрядів при попаданні світла в область навколо цього чутливого центру) і клітин з OFF-центром (властива протилежна поведінка).
Модель гангліозних клітини з її рецептивним полем формується на піксельному полі зображення
,
де W - ширина зображення, H - висота зображення, а кожний піксель характеризується функцією яскравості .
Модель представлення клітини включає координати пікселя-центру клітини , радіус ядра , радіус порожнини :
, (1)
де - множина пікселів , які належать ядру радіусом Rk; - множина пікселів , які належать порожнині радіусом Rc.
Обробка інформації клітиною моделюється як обчислення функцією приналежності нечіткої множини «активність клітини» на основі таких міркувань.
Реально фрагмент піксельного поля, що належить конкретній клітці, не однозначно відповідає одному з двох наведених типів клітини (з ON-центром або з OFF-центром). Тому приналежність фрагмента піксельного поля до конкретного типу носить нечіткий характер. У зв'язку з цим для клітини введена її нечітка модель , яка характеризує приналежність клітини до типу з ON-центром або з OFF-центром.
Модель клітини першого рівня (рівня ГКС) описана виразом:
, (2)
а результат обробки інформації по цій моделі нечіткою множиною:
, (3)
де
(4)
(5)
Реакція кожної з областей клітини визначається за формулою:
(6)
- перепад яскравості в клітці, а , n - кількість пікселів області R.
Величина показує ступінь насиченості ядра білим кольором, а - ступінь насиченості порожнини білим кольором.
Проекцію сітчатки на різних рівнях обробки візуальної інформації в когнітивній психології називають ретінотопічною картою. При цьому кожна ретінотопічна карта є певним узагальненим поняттям, екстрактом деяких необхідних і характерних ознак або властивостей усього того, що знаходиться в полі зору.
При формалізації ретінотопічна карта, як модель цілісного уявлення результату обробки зображення всього піксельного поля, за моделлю гангліозних клітин представлена виразом:
, (7)
де нечітка множина, яка визначається виразом (3), - нечітка множина, найближча до звичайної; - кількість нечітких множин.
Оскільки гангліозні клітини сітчатки в першу чергу забезпечують сприйняття країв і контурів зображення, тому для перевірки розробленої моделі були проведені експерименти з виявлення контуру на різних типах зображень і порівняння з іншими методами (фільтри Собеля, Превита та інші). Результати показали, що запропонована модель, може бути застосована до виділення контуру нарівні з розглянутими методами з більш ефективна для зображень із малими перепадами яскравості.
Модель клітин латерального колінчастого тіла (ЛКТ) побудована на інформації про те, що вони за будовою аналогічні гангліозним клітинам, але відрізняються розмірами рецептивних полів. Тому модель клітини ЛКТ будується на основі моделі (2) - (3) гангліозних клітин, в яку введено параметр розмір рецептивного поля:
, , (8)
де для парвоцелюлярних клітин ЛКТ маємо , для магноцелюлярних - .
Модель клітини рівня ЛКТ представлена виразом:
, (9)
а результат обробки інформації з цієї моделі нечіткою множиною:
(10)
де .
У результаті обробки всього зображення з моделі клітин ЛКТ формується ретінотопічна карта другого рівня .
Для цієї моделі також проводилися експерименти з метою дослідження результатів обробки інформації з моделі клітин ЛКТ для різних параметрів клітин. Результат показав, що використання цієї моделі дозволяє адаптувати деталізацію до різновеликих фрагментів зображення.
Моделюються в роботі клітини ПЗК гіперскладні клітини, які реагують на лінійні сегменти, орієнтовані певним чином і певної довжини. Клітини, що реагують на одну орієнтацію, формують колонку зорової кори. При цьому рецептивні поля прилеглих клітин мають інші орієнтації, які змінюються поступово. Для активізації клітин ПКЗ необхідна активність не окремих клітин попереднього рівня, а групи суміжних клітин.
Для опису групи суміжних клітин введено поняття детектора, яке представлене виразом:
, (11)
де - кут орієнтації від 00 до 1750; - ширина детектора, яка визначається = Rk; - довжина детектора, яка визначається кількістю суміжних клітин , але не менш 4; - функція впевненості наявності детектора, що обчислюється за формулою:
(12)
Остаточно гіперскладна клітина представлена виразом:
, (13)
де .
Результатом обробки всього зображення з моделі клітин ПКЗ є , де .
На основі цієї моделі проведено дослідження за поданням зображення у вигляді орієнтованих елементів.
У третьому розділі описано використання нечітких моделей первинної обробки зорової інформації у методі локалізації рядків і методі покомпонентного розпізнавання символів для розв'язання задачі обробки графічного зображення тексту.
Метод локалізації рядків тексту полягає в наступному:
1. Вхідне зображення обробляється за моделлю гангліозних клітин. Результат обробки - модель представлення ретінотопічної карти , з розмірами гангліозних клітин , обраними на основі розмірів висоти H і ширини W зображення.
2. З карти за моделлю обробки клітин ЛКТ формується множина моделей .
3. Обробка з множини за моделлю клітин ПЗК формує нове подання у вигляді ретінотопічної карти , .
4. Визначення для кожної карти з множини пріоритетної орієнтації и формування , де , ,, ; nG - кількість гіперсложних клітин однієї довжини в одном напрямку , - кількість різних довжин та формування .
5. Вибір на основі остаточної орієнтації як моди серед .
6. Обчислення для всіх карт множини характеристики за формулою
14)
де - ступінь активізації гіперскладних клітин як частка активних гангліозних клітин, які активізували гіперскладні клітини, - кількість усіх активних гангліозних клітин із розміром ядра , - кількість тих активних гангліозних клітин із розміром ядра , які активізували гіперскладні клітини ; - середнє значення впевненості всіх гіперскладних клітин шириною .
7. Визначення ретінотопічної карти з максимальним значенням характеристики .
8. Формування множини рядків по карті , де висота строк дорівнює , орієнтація відповідає .
Ідея покомпонентного розпізнавання полягає в наступному:
1) подання зображення символу набором геонів, тобто набором його ключових вузлів, які формуються з найпростіших деталей, і відносинами між цими геонами;
2) подання зображення геона набором найпростіших деталей. В якості базової множини простих деталей пропонується прийняти елементи, які отримані на етапі обробки зображення по моделі клітин ПЗК - гиперскладні клітини;
3) ідентифікація символу є багатокрокова процедура: формування підмножини найпростіших деталей по моделі клітин ПЗК; формування множини геонів і відносин між ними; зіставлення отриманого представлення символу з прототипом із бази даних.
Після аналізу символів латинського та російського алфавітів обґрунтовано 9 типів ключових вузлів (геонів), далі вузлів. Ця достатня кількість типів вузлів обрано з урахуванням вхідних даних - моделей клітин зорової кори. Оскільки клітини зорової кори мають певну орієнтацію, то елементи вузлів теж орієнтовані.
Модель прототипу-вузлу описана виразом:
, (15)
де , - кут перетину між гіперскладними клітинами, що формують вузол; - характеристика перетину гіперскладних клітин, де и . Впевненість обчислюється за формулою:
(16)
де - евклідова відстань між центром клітини і центром околиць , на які умовно розбита клітина G.
Модель вузла U за аналогією з моделлю прототипу-вузла описується виразом:
, (17)
де , та , але ; обчислюється за формулою (16).
Для порівняння прототипу-вузла з вузлами , знайденим на зображенні, введена ступінь нечіткої подібності , яка обчислюється за формулою:
(18)
Тоді для кожного вузла є множина таких функцій , тобто для кожного типу вузла.
Введено модель символу-прототипу, модель символу і нечітка ступінь схожості. Модель символу-прототипу ґрунтується на результатах попередніх етапів, тобто наборі вузлів, тому описується виразом:
, (19)
де визначається виразом (15), а Gd - складна структура, описана формулою:
, (20)
де - множина гіперскладних клітин, які є загальними для деяких вузлів множини UР; - множина функцій належності гіперскладної клітини до кожного з типів вузлів .
Моделлю символу L є вираз:
, (21)
де - двійка складної структури виразів (17) та (18).
У виразі (21) Gd - складна структура, описана виразом (20), в якій розраховується за формулою:
, (22)
де визначається за формулою (18), тобто з яким ступенем вузол відноситься до прототипу , то з такою ж упевненістю гіперсложна клітина , яка формує вузол, відноситься до вузла типу .
Для порівняння представлення зображення символу у вигляді моделі (21) з наборами символів-прототипів з бази даних введена нечітка ступінь схожості передбачуваного символу L з символом-прототипом , яка буде визначатися за формулою:
, (23)
де - оцінка відповідності и ; - оцінка відповідності та .
У виразі (23) величина розраховується за формулою (24), а величина за формулою (25).
(24)
, (25)
де - кількість вузлів передбачуваного символу L; - кількість вузлів у прототипі ; - кількість загальних гіперсложних клітин з множини Gd, які описані в прототипі символу . - кількість загальних гіперсложних клітин з множини Gd, які знайдені для передбачуваного символу .
У четвертому розділі виконано опис технології обробки зображення з використанням нечітких когнітивних моделей, яка представлена (реалізована) у вигляді пакета прикладних програм. Також у цьому розділі описуються результати комп'ютерних експериментів застосування пропонованої технології.
На підставі моделей, описаних у розділі 2, і методу розпізнавання тексту, описаного в розділі 3, розроблено пакет прикладних програм для підтримки інформаційної технології. Пакет складається з окремих модулів: ContourImage, ElementsImage, LocalString, RecognitionSymbol. Функціональні можливості модулів наступні:
- модуль ContourImage реалізує завдання виділення контуру на зображенні на основі нечіткої моделі гангліозних клітин;
- модуль ElementsImage представляє контур зображення у вигляді орієнтованих фрагментів на основі нечіткої моделі клітин ПЗК;
- модуль LocalString реалізує метод локалізації рядків на зображенні;
- модуль RecognitionSymbol розв'язує задачу розпізнавання об'єктів - символів - з використанням когнітивних моделей.
Для вирішення завдання локалізації рядків комп'ютерні експерименти проводилися у таких напрямках:
- вплив зашумленості фону на результати локалізації рядків;
- встановлення мінімальної і максимальної висоти рядків на зображенні;
- працездатність методу за наявності різної висоти строк;
- працездатність методу за наявності рядків, які мають різну орієнтацію;
- працездатність методу за наявності інших об'єктів відмінних від тексту.
Встановлено, що метод є перешкодостійким і також дозволяє визначати правильно орієнтацію і висоту рядків тексту на зображеннях із слабкими перепадами яскравості.
Для перевірки нечіткої моделі інтерпретації символу були проведені групи експериментів за наступними напрямками:
- ідентифікація символу на множині схожих на нього символів;
- ідентифікація символу на множині його перекручення;
- ідентифікація символу на множині різних накреслень цього символу;
- ідентифікація символу в контексті.
Результати експериментів першої групи показали, що опис прототипів і введена ступінь схожості достатні для ідентифікації символів навіть зі схожими наборами ключових вузлів. Приклад такого порівняння наведено в табл. 1, де в першому стовпці наведено назви прототипів символів, а з другого по восьмий - назви вхідних символів. Із табл. 1 видно, що в комірці перетину вхідного символу з його прототипом дійсно найбільш висока впевненість схожості.
Таблиця 1 Результати експериментів
Прототипи символів |
Вхідні символи |
|||||||
Е` |
Н` |
П` |
Г` |
F` |
Б` |
Ь` |
||
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
|
E |
0,83 |
0,17 |
0,17 |
0,13 |
0,43 |
0,35 |
0,27 |
|
Н |
0,17 |
1,00 |
0,00 |
0,00 |
0,19 |
0,08 |
0,10 |
|
П |
0,08 |
0,00 |
0,88 |
0,19 |
0,13 |
0,08 |
0,00 |
|
Г |
0,17 |
0,00 |
0,50 |
0,78 |
0,25 |
0,17 |
0,00 |
|
F |
0,50 |
0,25 |
0,25 |
0,19 |
0,64 |
0,23 |
0,10 |
|
Б |
0,67 |
0,10 |
0,07 |
0,08 |
0,34 |
0,63 |
0,48 |
|
Ь |
0,50 |
0,08 |
0,00 |
0,00 |
0,06 |
0,52 |
0,60 |
Експерименти другої групи показали, що перекручення символу дозволяють його вірно ідентифікувати з досить високим ступенем схожості. Тільки зміна структури символу (поява зайвих вузлів або втрата необхідних вузлів) значно підвищує помилки ідентифікації.
Остання група експериментів підтвердила, що нечітка модель опису символу є шрифтонезалежною і не вимагає масштабування початкового символу під прототип.
Результати комп'ютерних експериментів із розпізнавання символів підтвердили можливість інтерпретації символу за допомогою множини ключових компонентів (вузлів). Застосування цієї моделі дозволяє виконувати шріфтонезалежне розпізнавання, без виконання масштабування символів для зображень із шумним фоном.
Висновки
1. На основі аналізу даних із когнітивної психології з обробки зорової інформації запропонована багаторівнева модель представлення та багатокрокових модель обробки зображення, на кожному рівні якої формалізовані етапи обробки візуальної інформації в зоровій системі: на рівні гангліозних клітин сітчатки, на рівні клітин латерального колінчастого тіла, на рівні клітин первинної зорової кори. На основі апарату нечіткої математики розроблені локальні моделі обробки зображень, що дозволяє на їх базі синтезувати процедури.
2. Обробка за моделлю:
- гангліозних клітин зводиться до подання вхідного піксельного зображення множиною активних гангліозних клітин з заданими розмірами ядра і порожнини та нечіткою характеристикою приналежності до типу «ON» і «OFF». Це дозволяє виділяти контури зображення необхідної товщини. Комп'ютерні експерименти підтвердили ефективність моделі ГКС, яку можна порівняти з ефективністю традиційних методів, а у випадку з малими перепадами яскравості її перевага;
- клітин ЛКТ представляє вхідне піксельне зображення множиною релійних клітин із варійованими розмірами рецептивних полів, що дозволяє адаптувати деталізацію моделі ГКС до різновеликих фрагментів зображення;
- клітин ПЗК представляє зображення у вигляді орієнтованих елементів-детекторів, що представляє базовий формальний апарат для вирішення різних завдань розпізнавання об'єкта;
3. Введена нечітка модель ретінотопічної карти для кожного рівня обробки візуальної інформації. На підставі моделі ретінотопічної карти ПЗК пропонується синтезувати процедури обробки зображень у різних постановках і для різних цілей.
4. Запропоновано етапи обробки тексту: локалізація рядків, виділення слів і букв, ідентифікація символів. Формалізовано метод локалізації строк за моделями обробки ретінотопічних карт. Формалізовано метод покомпонентного представлення і розпізнавання символів, на підставі представлення символу дворівневою моделлю: множиною вузлів (геонів) і відносинами між вузлами на верхньому рівні; множиною гіперскладних клітин і відносинами між ними на нижньому рівні. Введено нечіткі моделі подання описів рівнів.
5. Обґрунтовано і формалізовано опис 9 прототипів вузлів (геонів). Показано, що ця множина прототипів є достатньою для представлення довільного символу з російського і латинського алфавітів. На цьому наборі символи стійко відмінні: нечітка міра відмінності двох різних символів від двох до десяти разів більше за нечіткої міри їх схожості при різних варіаціях їх написання.
6. Задача ідентифікації символу зведена до рекурентної процедури обробки піксельного поля за моделлю клітин ПЗК: на підставі ретінотопічної карти початкового зображення локалізуються блоки (підмножини) піксельного поля, що містять рядки тексту; потім на підставі ретінотопічної карти блоків, що містять рядки, локалізуються подблоки, що містять символи, і , нарешті, після обробки подблоків, локалізуються гіперскладні клітини, що складають деталі моделі вузлів (геонів) операції нечіткого порівняння з прототипом.
7. На базі розробленої математичної моделі і методу інтерпретації графічного зображення тексту розроблена інформаційна технологія. В її основу покладено пакет прикладних програм «Cognitive», що включає модулі ContourImage, ElementsImage, LocalString, RecognitionSymbol. Інформаційна технологія призначена для автоматизації розробки програмного забезпечення підсистем обробки графічних зображень тексту в складі складних комплексів. Технологія пройшла апробацію при розробці системи фільтрації спаму в компанії ЗАТ «Доріс», що підтверджує її працездатність.
8. Встановлено область застосування інформаційної технології та її ефективність на серії комп'ютерних експериментів:
- метод локалізації є перешкодостійким і дозволяє визначати правильно орієнтацію і висоту рядків тексту на зображеннях із слабкими перепадами яскравості;
- метод покомпонентного розпізнавання дозволяє виконувати шрифтонезалежне розпізнавання, без виконання масштабування символів для зображень із шумним фоном.
зображення символ візуальний геон
Список опублікованих праць за темою дисертації
1. Каргин А.А. Моделирование функционирования релейных клеток зрительной системы в задачах интерпретации изображений / А.А. Каргин, Е.Е. Пятикоп, И.А.Доценко // Информационно-управляющие системы на железнодорожном транспорте. - 2007. №5,6. - С. 10-12.
2. Пятикоп Е.Е. Некоторые результаты компьютерных экспериментов локализации строк текста на основе когнитивных моделей восприятия изображения / Е.Е. Пятикоп // Вісник Донецького університету, Сер. А: Природничі науки. - 2008. - Вип. 2, Ч.2. - С. 527-532.
3. Каргин А.А. Применение нечетких моделей когнитивных знаний восприятия изображения в задаче локализации строк текста / А.А. Каргин, Е.Е. Пятикоп // Искусственный интеллект -2009. - №2. - С. 161-167.
4. П`ятикоп О. Визначення елементів тексту на зображенні з використанням нечітких когнітивних моделей / О. П`ятикоп // Комп'ютинг - 2009. - Том 8, Вип. 2. - С. 95-102.
5. Пятикоп Е.Е. Пакет прикладных программ обработки изображения текста на основе нечетких когнитивных моделей / Е.Е. Пятикоп // Системи обробки інформації. - Х.: ХУПС, 2009. - Вип. 4(78). - С. 105-109.
6. Каргин А.А. Обнаружение на изображения контура головы человека с использованием модели работы релейных клеток зрительной системы // А.А. Каргин, Е.Е. Пятикоп, И.А.Доценко // Университетская наука-2007: Международная научно-техническая конференция, г. Мариуполь: ПГТУ, 2007.- С. 280.
7. Пятикоп Е.Е. Применение методов когнитивных наук в автоматизированных системах производства // Е.Е. Пятикоп // Тези доповідей ІІ регіональної науково-практичної конференції аспірантів ПДТУ «Творча співпраця науки з виробництвом», 21 листопада 2007 р. м. Маріуполь - Маріуполь: ПДТУ, 2007. - С. 25-26.
8. Пятикоп Е.Е. Применение когнитивного подхода при моделировании систем машинного зрения / Е.Е. Пятикоп // Материалы 12-го международного молодежного форума «Радиоэлектроника и молодежь в ХХІ веке» 1 - 3 апреля 2008 г. Харьков - Харьков: ХНУРЭ, 2008. - Ч. 2.- С. 216.
9. П`ятикоп О. Застосування когнітивних моделей сприйняття зображення в задачах розпізнавання тексту / О. П`ятикоп // Матеріали Третьої Міжнародної науково-технічної конференції «Комп'ютерні науки та інформаційні технології (CSIT-2008)», 25-27 вересня 2008 р. м. Львів - Львів, 2008. - С. 168-171.
10. Пятикоп Е.Е. Нечеткие модели представления изображения, основанные на когнитивных знаниях о зрительной системе / Е.Е. Пятикоп // Университетская наука-2009: Международная научно-техническая конференция, г. Мариуполь: ПГТУ, 2009. - С. 257-258.
11. Пятикоп Е.Е. Использование нечетких моделей когнитивных знаний восприятия изображения при распознавании символов / Е.Е. Пятикоп, О.Д. Чубарь // Матеріали XI міжнародної науково-практичної конференції «Системний аналіз та інформаційні технології», ІПСА, м. Київ, 26-30 травня 2009. - Київ, 2009. - С. 379.
12. Алешин С.В. Реализация обработки изображения текста на основе нечетких когнитивных моделей / С.В. Алешин, Е.Е. Пятикоп // Материалы международной научно-практической конференции «Информационные технологии и информационная безопасность в науке, технике и образовании ("ИНФОТЕХ - 2009")» г. Севастополь, 7-12 сентября 2009 г. - Севастополь: СевНТУ, 2009. - С. 401-404.
Размещено на Allbest.ru
Подобные документы
Аналіз основних операцій спецпроцесора обробки криптографічної інформації, його синтез у модулярній системі числення та дослідження математичної моделі надійності. Виведення аналітичних співвідношень для оцінки ефективності принципу кільцевого зсуву.
дипломная работа [1,8 M], добавлен 15.10.2013Модель обробки файлів растрових зображень. Середній квадрат яскравості. Фільтри для виділення перепадів і границь. Опис та обґрунтування вибору складу технічних та програмних засобів. Опис інтерфейсу програми. Зображення діалогового вікна програми.
курсовая работа [664,3 K], добавлен 30.06.2009Комп'ютерні інформаційні системи. Характеристика автоматизованої системи обробки економічної інформації на підприємстві. Технологічний процес обробки інформації конкретної задачі в системі. Впровадження в дію автоматизації бухгалтерського обліку.
контрольная работа [25,1 K], добавлен 26.07.2009Автоматизована системи обробки економічної інформації, яка використовується на підприємстві, її характеристика. Технологічний процес обробки інформації конкретної задачі в системі. Зауваження користувача щодо функціональних і ергономічних характеристик.
контрольная работа [26,5 K], добавлен 27.07.2009Визначення найкращого режиму роботи системи обробки повідомлень. Представлення моделі у вигляді системи масового обслуговування. Визначення структури моделі. Обмеження на зміну величин. Програмна реалізація імітаційної моделі. Оцінка адекватності.
курсовая работа [153,9 K], добавлен 29.01.2013Місце мікропроцесора в структурі мікропроцесорних приладів, його функції. Інтегральні мікросхеми із великою ступінню інтеграції. Розробка структурної схеми мікропроцесорної системи обробки інформації на основі мікроконтролера ATmega128 та інших мікросхем.
курсовая работа [2,1 M], добавлен 18.09.2010Розробка та використання програми для пришвидшення процесу перетворення двомірного зображення у об'ємне. Методика та процес випробовування для виявлення та усунення недоліків в роботі програми. Інтерфейс програми, встановлення параметрів зображення.
курсовая работа [3,2 M], добавлен 09.06.2010Модель – це прообраз, опис або зображення якогось об'єкту. Класифікація моделей за способом зображення. Математична модель. Інформаційна модель. Комп'ютерна модель. Етапи створення комп'ютерної моделі.
доклад [11,7 K], добавлен 25.09.2007Області застосування методів цифрової обробки зображень. Динамічний діапазон фотоматеріалу. Графік характеристичної кривої фотоплівки. Загальне поняття про High Dynamic Range Imaging. Тональна компресія та відображення. Головні стегано-графічні методи.
контрольная работа [1,6 M], добавлен 10.04.2014Призначення та область застосування програм, які орієнтовані на перетворення зображень з плоского в об’ємне. Основні стадії формування тривимірного зображення. Класифікація моделей і методів візуалізації. Особливості створення карти глибин по пікселям.
курсовая работа [325,8 K], добавлен 04.06.2010