Психофизиологически обоснованный метод оценки количества информации в изображении
Способ количественного оценивания информации в изображении, базирующийся на подсчёте числа нейронов проекционной коры, которые будут реагировать на элементарные зрительные признаки. Представления о механизмах анализа в зрительной системе человека.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | реферат |
Язык | русский |
Дата добавления | 29.06.2017 |
Размер файла | 335,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
РЕФЕРАТ
ПСИХОФИЗИОЛОГИЧЕСКИ ОБОСНОВАННЫЙ МЕТОД ОЦЕНКИ КОЛИЧЕСТВА ИНФОРМАЦИИ В ИЗОБРАЖЕНИИ
Аннотация: В работе предлагается способ количественного оценивания информации в изображении, базирующийся на подсчёте числа моделируемых простых нейронов проекционной коры, которые будут реагировать на содержащиеся в изображении элементарные зрительные признаки - светлые полосы в тёмном окружении и яркостные границы. Предполагается, что чем больше таких признаков содержится в изображении, тем больше информации поступит в мозг. Способ основывается на модельных представлениях о механизмах локального анализа в зрительной системе человека.
Введение
В этой работе мы предлагаем способ оценки количества информации в изображении, которое поступает в проекционные зоны коры головного мозга наблюдателя. Для простоты изложения речь ведётся о растре, представленном градациями серого, однако предлагаемый подход может быть расширен и на цветное изображение. Важно отметить, что количество реагирующих нейронов, определяемое в ходе расчёта, является количеством on-нейронов в модели, а не в живом мозге, однако модель может быть сделана более реалистичной, так что в принципе имеется возможность примерно подсчитать и число реагирующих простых нейронов проекционной коры человека. С другой стороны, это может сильно усложнить расчёты и не дать существенного улучшения оценки с точки зрения практического применения.
Целью данной работы является создание психофизиологически обоснованной оценки количества зрительной информации в растре как изображении, наблюдаемом с определённого расстояния, а не информации вообще в сообщении, это изображение кодирующем.
Когда оценивают количество информации в растровом изображении (или связанную с этой величиной его информационную избыточность), обычно используют подход, основанный на вычислении информационной энтропии, восходящий к К.Шеннону. Например, в простейшем случае информационная энтропия изображения H может быть оценена как средняя энтропия сообщения
, (1)
где K - количество уровней яркости, P(k) - вероятность появления k-го уровня яркости, а информационная избыточность r - как
, (2)
где b - наименьшее число бит, которыми может быть представлен дискретизированный сигнал [1]. Если вероятность появления k-го уровня яркости неизвестна, она может быть оценена по частоте появления пикселя данной яркости в конкретном изображении. Такой подход является довольно распространённым, в частности, оценка энтропии изображения по гистограмме частот реализована в виде функции библиотеки расширений для обработки изображений в среде Matlab (Image processing toolbox) [2].
Такая избыточность называется статистической [3]. Очевидно, что оценки (1) и (2) связаны с содержанием изображения очень слабо - они отражают в первую очередь распределение яркости и количество уровней её описания. Например, если взять растровое изображение объекта и перемешать пиксели случайным образом, значения средней информационной энтропии H и избыточности r не изменятся, а доступная субъекту информация об изображённом объекте с большой вероятностью исчезнет. Учитывая то, что в реальных изображениях значения смежных пикселей коррелированы [3], информационная энтропия изображения из m точек может быть оценена с учётом условной вероятности появления определённого значения j-го пикселя , если предыдущим был i-ый:
. (3)
В случае, когда статистическая связь между пикселями отсутствует, формулы (1) и (3) дадут одинаковую оценку энтропии[3]. Очевидно также, что в выражении (3) - формуле условной энтропии 1-го порядка, - используется далеко не единственный способ учёта статистической связи между пикселями: аналогичным образом могут учитываться, например, связи между парами пикселей или их группами, имеющими притом разную пространственную конфигурацию.
Снижению статистической избыточности (повышению энтропии) и уменьшению информационного объёма передающих изображения сообщений служат методы энтропийного кодирования, применяющиеся, в частности, при сжатии растровой информации без потери качества [см. напр. 3, 4]. Эффективность применения этих методов зависит во многом от степени декоррелированности изображения и способа выполнения декорреляции, снижающей как H, так и, но не изменяющей информационный объём растра. Следует отметить, что декорреляция рассматривается и как биологический механизм оптимизации нейронального кодирования в проводящих путях от сетчатки к мозгу [5, 6].
Помимо статистической избыточности, в литературе широко [3, 7, 8] обсуждается психофизическая избыточность изображений, связанная с особенностями работы зрительной системы. В общем случае можно утверждать, что психофизически избыточное изображение содержит информацию, которая по ряду причин не воспринимается наблюдателем. В частности, это могут быть малые объекты низкого контраста или низкоамплитудные высокочастотные шумы. Методы снижения психофизической избыточности (повышения информативности кодирующих изображение сообщений) принято называть методами сжатия с потерей качества, хотя на практике речь может идти как раз о повышении субъективной оценки качества воспринимаемого изображения.
В настоящее время методы снижения психофизической избыточности растров хорошо разработаны и востребованы. Например, в быту мы постоянно сталкиваемся с форматом сжатия jpeg, имеющим в качестве одной из важнейших основ упрощение пространственно-частотного спектра изображения. Эти методы в основном направлены на удаление из изображения информации, восприятие которой ограничено параметрами контрастной чувствительности зрения, с целью снижения энтропии растра и достижения лучшего сжатия методами энтропийного кодирования.
Предлагаемая нами оценка количества информации в изображении входит в число множества оценок, подобных оценкам условной энтропии изображения, учитывающим взаимное расположение пикселей. Правда, в отличие от оценок такого типа, предлагаемая является психофизиологически обоснованной. С другой стороны, она позволяет узнать количество информации в изображении, избегая учёта психофизически избыточной информации. Предлагаемый подход к оценке количества информации в изображении может принести пользу при переходе от пиксельного описания изображения к векторному и объектному. Кроме того, он может использоваться при определении количества информации, получаемой испытуемым в психофизическом эксперименте.
Способ вычисления предлагаемой оценки
Как известно, основным путём, по которому информация передаётся от сетчатки в кору больших полушарий мозга человека, является ретино-геникуло-стриарный путь. По классической теории Хьюбела и Визела [9], ретинальные проекции оканчиваются на простых нейронах стриарной коры. Эти клетки выполняют функцию полосовых пространственно-частотных фильтров, характеризующихся также ориентационной и фазовой избирательностью. Структура их рецептивного поля, имеющего вытянутую форму и оппонентную организацию, может быть описана двумерной функцией Габора [10, 11]. Значения функции, используемой как ядро цифрового фильтра, удобно расчитывать по формуле, предложенной в [12]:
, (4)
где
,
.
Стандартное отклонение гауссовой составляющей связано с - параметром, определяющим ширину полосы пропускания фильтра по пространственной частоте, - следующим соотношением:
,
Откуда
. (5)
Параметр л выражения (5) задаёт длину волны косинусоидальной составляющей ядра функции, тем самым определяя центр полосы пропускания фильтра по пространственной частоте; и - пространственная ориентация функции, определяющая соответственно ориентационную избирательность фильтра; ц - фазовый сдвиг косинусоидальной составляющей, задающий фазовую избирательность фильтра; г - «эллиптичность» функции, связанная с полосой пропускания фильтра по ориентации.
Известно, что в зрительной системе человека имеются 6 пространственно-частотных каналов, имеющих полосы пропускания шириной примерно 1,25-2,5 октавы по пространственной частоте с пиками на 0,5; 1; 2; 4; 8 и 16 периодах на угловой градус [13]. Обозначим их число как = 6. В модели мы задавали полосу пропускания b в 2 октавы для всех каналов. Полоса пропускания каждого канала по ориентации составляет порядка 30 градусов [14]. Число ориентационных предпочтений в зрительной коре, вероятно, очень велико, однако в модели мы, исходя из достаточности такого количества при выбранной ширине полосы пропускания, ограничились = 6 пиковыми ориентациями. Значения ядер фильтров для разных ориентационных каналов, настроенных на одну пространственную частоту, показаны на Рис. 1. Следует отметить, что в проведённых нами расчётах учитывались только ответы клеток on-типа (ц=0).
а б в г д е
Рис. 1. - Значения функции Габора для и=0 (а), 30 (б), 60 (в), 90 (г), 120 (д) и 150 (е) град.
Таким образом, для оценки количества активированных «нейронов» мы выполняли 36 операций линейной фильтрации с разными пиковыми значениями ориентационной и пространственно-частотной избирательности. На Рис. 2 даны примеры полосовой фильтрации изображения фильтрами Габора, настроенными на разную ориентацию. Значение оценки расчитывалось отнесением суммы числа «активированных» элементов во всех каналах к их максимальному количеству, равному числу точек в изображении, умноженному на . Реакции «нейронов», «активированность» которых составляла менее 5% от максимальной для данного канала, не учитывалась.
а б в
Рис. 2. Изображения лица человека исходным размером 512 на 683 точки, пропущенные через фильтр Габора, настроенный на длину волны л=35 пикселей и ориентацию и=0 (а), 30 (б) и 90 (в) градусов.
Наша оценка была протестирована на базе изображений, используемой Н. Брюсом и Дж. Цоцосом [15] в экспериментах с эмпирической проверкой моделей, прогнозирующих зрительные фиксации на «сайлентных» областях изображения. Эта база содержит 120 фотографий размером 681 на 511 точек в формате jpeg без видимых артефактов сжатия. Предварительно изображения восстанавливались, на основе цветов пикселей рассчитывались значения оттенков серого. Расчёт проводился для предполагаемых условий наблюдения, в которых изображения имеют угловые размеры 7 на 9,5 градусов. Линейная корреляция между нашей оценкой и информационным объёмом jpeg-файла составила 0,91, что говорит о её высокой чувствительности к психофизической избыточности изображения.
Основной проблемой используемого нами подхода, решение которой к тому же представляет отдельный интерес для исследователя зрительной системы, является отсутствие критерия важности информации, поступающей по разным пространственно-частотным каналам. Очевидно, что информация, приходящая в рецептивное поле простого нейрона, относящегося к низкочастотному каналу, описывает относительно большую область пространства, но сравнительно обобщённо. Известно также, что число простых стриарных нейронов в мозге положительно связано с частотой, на которую они настроены [9]. информация изображение нейрон зрительный
Так, в недавно проведённом нами психофизическом исследовании с идентификацией объектов на цифровом изображении, обработанном методом, описанным в [16], испытуемые в 94% случаев (доверительный интервал по [17] 89% до 97%, p<0,05) правильно идентифицировали пол незнакомого человека, основываясь на информации о менее чем 50% площади лица, описанного на частоте 2 периода на угловой градус. В то же время лицо, значительно большая площади которого описана на частоте 1 периода на угловой градус, правильно идентифицировалось лишь в 74% (от 68% до 82%, p<0,05) случаев.
Менее значимым, но требующим упоминания ограничением, заложенным при расчёте оценки, является фактическая бинаризация ответов «нейронов», хотя реальный стриарный нейрон кодирует величину контраста в своём рецептивном поле значительным количеством уровней активации.
Обсуждение
Как известно, в растровой графике, в отличие от векторной, нет специальных средств кодирования образной (перцептивного уровня) и даже символической информации. Главным и единственным примитивом растровой графики выступает пиксель - светящаяся или светоотражающая точка изображения, для которой известны относительные местоположение, яркость и/или цвет. Наборы точечных примитивов объективно представляют сцены визуального мира (реального, представляемого или воображаемого) уже потому, что атрибуты пикселей интерпретируются как вполне объективные физические величины. Растровые изображения создаются, хранятся и обрабатываются в основном для того, чтобы содержащаяся в них визуальная информация могла вновь стать доступной зрению человека, животного или, с существенными оговорками, технической системы. С другой стороны, субъективная информация, извлекаемая из изображения, вполне реальна и, как и физическая, может быть закодирована и количественно измерена; правда, по причине её субъективности количество возможных способов кодирования очень велико. Так, мы можем предложить нескольким людям нарисовать совершенно одинаковую сцену или дать её словесное описание - вероятность того, что интерпретации хотя бы двух человек совпадут, очень мала. Важно отметить, что по степени обобщённости субъективная информация является крайне неоднородной. Например, наблюдатель, осматривающий свой рабочий стол, может обнаружить, что он жёлтого цвета, что на нём расположены предметы - линейки, карандаши, ноутбук, что каждый из предметов обладает и характерными для своего класса, и специфическими признаками. Кроме того, наблюдатель может заметить беспорядок на своём рабочем месте, тем самым извлекая обобщённую информацию о свойствах сцены. Оценить субъективную информацию зрительной модальности количественно очень сложно. К сожалению, используемый авторами подход является преимущественно объективным и позволяет лишь косвенно оценить количество информации, поступающей в сознание субъекта. Создание такой оценки на данный момент можно отнести лишь к области очень отдалённых целей когнитивных нейронаук; возможно, путь к её разработке проложен созданием иерархических моделей зрительной обработки [см. обзор 18] и представлениями о «нейронах сознания» и пирамиде гештальта [19].
Работа выполнена при финансовой поддержке Минобрнауки России по теме № 213.01-11/2014-4 в рамках задания №2014/174 на выполнение государственных работ в сфере научной деятельности (базовая часть государственного задания).
Литература
1. Грузман И.С., Киричук В.С., Косых В.П., Перетягин Г.И., Спектор А.А. Цифровая обработка изображений в информационных системах: Учебное пособие. Новосибирск: Изд-во НГТУ, 2002. 352 с.
2. Gonzalez R.C., Woods R.E., Eddins S.L. Digital image processing using MATLAB. New Jersey: Prentice Hall, 2003. 609 p.
3. Красильников Н.Н. Цифровая обработка 2D- и 3D-изображений. Санкт-Петербург: БХВ-Петербург, 2011. 608 с.
4. Востриков Д.А., Скакунов В.Н. Исследование способов передачи видеоданных по гидроакустическому каналу связи // Инженерный вестник Дона. 2012. №2. URL: ivdon.ru/ru/magazine/archive/n2y2012/862.
5. Тарасов В.В., Якушенков Ю.Г. Многоспектральные оптико-электронные системы // Специальная техника. 2002. № 4. С. 56-62.
6. Pitkow X., Meister M. Decorrelation and efficient coding by retinal ganglion cells // Nature Neuroscience. 2012. Vol. 15, no. 4. P. 628-635.
7. Немировский В.Б., Стоянов А.К. Предобработка изображений одномерными точечными отображениями // Известия Томского политехнического университета. 2011. Т. 319, №5. С. 107-111.
8. Титов А.М. Методы сжатия спектра телевизионных сигналов изображения // Телекоммуникации и транспорт. 2012. №9. С. 136-139.
9. Хьюбел Д. Глаз, мозг, зрение. Москва: Мир. 1990. 239 с.
10. Daugman J.G. Uncertainty relation for resolution in space, spatial frequency, and orientation optimized by two-dimensional visual cortical filters. J. Opt. Soc. Am. A. 1985. Vol. 2, no. 7. P. 1160-1169.
11. Jones J.P, Palmer L.A. An evaluation of the two-dimensional Gabor filter model of simple receptive fields in cat striate cortex // J. Neurophysiol. 1987. Vol. 58, no. 6. P. 1233-1258.
12. Grigorescu C., Petkov N., Westenberg M.A. Contour detection based on non-classical receptive field inhibition // IEEE Trans. Image Processing. 2003. Vol. 12, no. 7. P. 729-739.
13. Wilson H.R., McFarlane D.K., Phillips G.C. Spatial frequency tuning of orientation selective units estimated by oblique masking // Vision Research. 1983. Vol. 23, no. 9. P. 873-882.
14. DeValois R. L., DeValois K. K. Spatial vision. New York: Oxford University Press. 1988. 382 p.
15. Bruce N.D.B., Tsotsos J.K. Saliency based on information maximization // Advances in Neural Information Processing Systems 18. Cambridge MA, London UK: MIT Press, 2005. P. 155-162.
16. Явна Д.В., Бабенко В.В. Метод извлечения из цифровой фотографии лица информации, достаточной для его идентификации // Инженерный вестник Дона. 2014. № 3. URL: ivdon.ru/ru/magazine/archive/n3y2014/2494.
17. Agresti A., Coull B.A. Approximate is better than “exact' for interval estimation of binomial proportions // The American Statistician. 1998. Vol. 52, no. 2. P. 119-126.
18. Poggio T., Serre T. Models of visual cortex // Scholarpedia. 2013. Vol. 8, no. 4. URL: dx.doi.org/10.4249/scholarpedia.3516.
19. Соколов Е.Н. Нейроны сознания // Психология. 2004. Т. 1, № 2. С. 3-15.
Размещено на Allbest.ru
Подобные документы
Характеристика информации. Перевод числа из двоичной системы в десятичную, шестнадцатеричную и восьмеричную. Способы оценки количества информации. Технические средства обработки информации. Принцип работы, история изобретения струйного принтера.
контрольная работа [1016,6 K], добавлен 22.10.2012Символьное и образное представление информации. Единицы ее измерения. Язык как способ символьного представления информации. Знак как элемент конечного множества. Алфавитный подход к измерению информации. Решение задач на определение ее количества.
презентация [178,2 K], добавлен 12.12.2012Основные правила нахождения монохромных изображений. Задача преобразования Хафа. Выделение кривых, образованных точками интереса. Выделение прямых и окружностей на изображении. Модификации преобразования Хафа. Вероятностное и случайное преобразование.
презентация [127,4 K], добавлен 26.12.2012Субъективный, кибернетический, содержательный и алфавитный подходы. Способы восприятия и форма представления информации. Язык как способ ее представления и единицы измерения. Информационная культура человека. Применение информатики и компьютерной техники.
презентация [192,6 K], добавлен 04.12.2013Задачи обработки и хранения информации при помощи ЭВМ. Сжатие и кодирование информации в информационно-вычислительных комплексах. Метод Лавинского как простейший метод сжатия информации (числовых массивов) путем уменьшения разрядности исходного числа.
курсовая работа [66,0 K], добавлен 09.03.2009Понятие визуальной системы ввода информации, ее сущность и особенности, место и роль в современном развитии интерфейсов между человеком и компьютером. Развитие технологии автоматического обнаружения и распознавания лица, контуров губ в видеопотоке.
научная работа [94,3 K], добавлен 29.01.2009Практическое применение индексированного цвета для разработки Web-графики. Установка параметров преобразования в индексированные цвета. Вычисление цветов для создания палитры на основе цветов, имеющихся в изображении. Прозрачные области на изображении.
контрольная работа [544,0 K], добавлен 21.03.2012Актуальность (своевременность) информации. Информационные ресурсы и информационные технологии. Подходы к определению количества информации. Свойства информации, ее качественные признаки. Роль информатики в развитии общества. Бит в теории информации.
презентация [200,9 K], добавлен 06.11.2011Существующие методы нахождения графических примитивов и программных реализаций. Базовое преобразование Хафа: поиск прямых, выделение окружностей на изображении, нахождение кривых высшего порядка. Составление руководства программиста и пользователя.
курсовая работа [2,7 M], добавлен 20.03.2012Информация и информационные процессы в природе, обществе, технике. Информационная деятельность человека. Кодирование информации. Способы кодирования. Кодирование изображений. Информация в кибернетике. Свойства информации. Измерение количества информации.
реферат [21,4 K], добавлен 18.11.2008