Системная теория информации и семантическая информационная модель

Исследование теоретических основ системной теории информации. Семантическая информационная модель СК – анализа и свойства математической модели: сходимость, адекватность, устойчивость. Взаимосвязь математической модели СК - анализа с другими моделями.

Рубрика Программирование, компьютеры и кибернетика
Вид книга
Язык русский
Дата добавления 26.08.2010
Размер файла 3,5 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Таким образом, в предложенной семантической информационной модели при идентификации и прогнозировании по сути дела осуществляется разложение векторов идентифицируемых объектов по векторам классов распознавания, т.е. осуществляется "объектный анализ" (по аналогии с спектральным, гармоническим или Фурье-анализом), что позволяет рассматривать идентифицируемые объекты как суперпозицию обобщенных образов классов различного типа с различными амплитудами (3.68). При этом вектора обобщенных образов классов с математической точки зрения представляют собой произвольные функции, и не обязательно образуют полную и не избыточную (ортонормированную) систему функций.

Для любого объекта всегда существует такая система базисных функций, что вектор объекта может быть представлен в форме линейной суперпозиции (суммы) этих базисных функций с различными амплитудами. Это утверждение, по-видимому, является одним из следствий фундаментальной теоремы А.Н.Колмогорова, доказанной им в 1957 году (О представлении непрерывных функций нескольких переменных в виде суперпозиций непрерывных функций одного переменного и сложения // Докл. АН СССР, том 114, с. 953-956, 1957).

Теорема Колмогорова: Любая непрерывная функция от n переменных F(x1, x2, ..., xn) может быть представлена в виде:

где gj и hij - непрерывные функции, причем hij не зависят от функции F.

Эта теорема означает, что для реализации функций многих переменных достаточно операций суммирования и композиции функций одной переменной. Удивительно, что в этом представлении лишь функции gj зависят от представляемой функции F, а функции hij универсальны. Необходимо отметить, что терема Колмогорова является обобщением теоремы В.И.Арнольда (1957), которая дает решение 13-й проблемы Гильберта.

К сожалению определение вида функций hij и gj для данной функции F представляет собой математическую проблему, для которой пока не найдено общего строгого решения.

В данной работе предлагается рассматривать предлагаемую семантическую информационную модель как один из вариантов решения этой проблемы. В этом контексте функция F интерпретируется как образ идентифицируемого объекта, функция hij - как образ j-го класса, а функция gj - как мера сходства образа объекта с образом класса.

Системно-когнитивный и факторный анализ. СК-анализ, как метод вариабельных контрольных групп

В науке широко известен "метод контрольных групп" (терм. авт.), позволяющий оценить влияние некоторого фактора на исследуемую группу по сравнению с контрольной, на которую он не влияет.

Обобщением метода контрольных групп является полный и дробный факторный анализ, при котором исследуется не одна контрольная группа, а столько, сколько факторов. При этом в каждой группе исследуется влияние одного фактора при остальных фиксированных. Таким образом факторный анализ можно было бы назвать "методом фиксированных контрольных групп". Факторный анализ требует проведения специально организованных экспериментов, что представляет собой проблему даже при нескольких факторах при большой длительности цикла управления (которая в АПК может составлять до десяти лет и более).

Например, для сбора исходных данных в факторном эксперименте при 3 факторах с 10 градациями каждый необходимо провести 103=1000 экспериментов. На практике это редко осуществимо.

Поэтому перед проведением факторного эксперимента обычно выбирают небольшое количество наиболее значимых или интересных факторов для исследования. Вопрос о том, какие факторы исследовать, решается самим исследователем на основе неформальных методов.

СК-анализ является обобщением метода факторного анализа в том смысле, что контрольные группы отличаются не значениями одного фактора при остальных фиксированных, а в общем случае различными комбинациями значений действующих факторов. СК-анализ позволяет выявлять и корректно исследовать влияние тысяч факторов на объект управления на основе непосредственно эмпирических данных, причем неполных и неупорядоченных, как в факторном эксперименте. При этом определяется и значимость факторов, что позволяет обоснованно выбрать из них небольшое количество наиболее значимых для последующего более детального исследования методом факторного анализа. Необходимо отметить, что СК-анализ является непараметрическим методом, в отличие от факторного анализа.

Семантическая мера целесообразности информации и эластичность
Эластичность в непрерывном случае .Рассмотрим связь эластичности и семантической меры целесообразности информации, опираясь на результаты работы автора [64, 98]. Пусть численное значение некоторого параметра экономической системы описывается переменной y, зависящей от фактора x и эта зависимость описывается функцией y=f(x). Тогда степень и направление влияния фактора x на параметр y можно численно измерить производной (3.69), представляющей собой предел отношения абсолютных изменений величин y и x:

Однако применение производной не очень удобно, т.к. она зависит от размерности величин y и x и, по этой причине, обладает недостаточной сопоставимостью в пространстве и времени. Кроме того, сама по себе скорость абсолютного изменения некоторого параметра объекта безотносительно к средней величине этого параметра, содержит недостаточно информации об этом объекте. Например, если на очередных выборах за некоторого кандидата отдано на 500 голосов больше, чем на предыдущих, то важно знать, а на сколько это процентов больше. Поэтому в экономике введено понятие эластичности Ex(y) функции y=f(x), которое определяется как предел отношения не абсолютных, а относительных изменений значений переменных y и x:

Так как , и , то эластичность можно представить в виде логарифмической производной:

Эластичность в дискретном случае. Для численных расчетов необходимо перейти к дискретному случаю, в частности для численного взятия производных используем метод конечных разностей. В конечных разностях выражение (3) принимает вид:

Свойства эластичности. Рассмотрим некоторые свойства эластичности, которые, как мы заметили, удивительным образом полностью или частично совпадают со свойствами логарифма (таблица 21).

Таблица- СВОЙСТВА ЭЛАСТИЧНОСТИ И ЛОГАРИФМА

ЭЛАСТИЧНОСТЬ

ЛОГАРИФМ

Примечание

1

Эластичность взаимно-обратной функции взаимно-обратна:

Логарифм взаимно-обратной функции равен той же функции с обратным знаком:

Совпадает по модулю (с точностью до знака)

2

Эластичность произведения двух функций одного аргумента равна сумме эластичностей функций:

Логарифм произведения двух функций одного аргумента равна сумме логарифмов функций:

Полностью совпадает

3

Эластичность частного двух функций одного аргумента равна разности эластичностей функций:

Логарифм частного двух функций одного аргумента равна разности логарифмов функций:

Полностью совпадает

4

Эластичность показательной функции пропорциональна показателю степени:

Логарифм показательной функции пропорционален показателю степени:

Полностью совпадает

5

Область значений эластичности:

< E < .

Область значений логарифма:

< ln < .

Полностью совпадает

Необходимо отметить, что ряд других свойств эластичности, таких как эластичность суммы функций, эластичность линейной функции и др., не совпадают со свойствами логарифма. Итак, учитывая свойства эластичности 2-5 (таблица 21) мы видим, что большинство свойств эластичности совпадают со свойствами логарифмической функции. Это позволяет высказать гипотезу, что свойства эластичности Ex(y) схожи со свойствами количества информации I, т.к. во все выражения для количества информации Хартли-Найквиста-Больцмана, Шеннона и Харкевича входит логарифмическая функция.

Какая же из этих мер информации в наибольшей степени соответствует понятию эластичности? Ключевым в решении этого вопроса является свойство 5 (таблица 21):

- область значений мер Хартли-Найквиста-Больцмана и Шеннона изменяется от 0 до ;

- область значений меры Харкевича, как и эластичности, изменяется от до , как и эластичности.

Однако классическая мера семантической целесообразности информации мера Харкевича не удовлетворяет принципу соответствия с мерой Хартли в детерминистском случае, поэтому автором данной работы в [64] предложена системная мера целесообразности информации (СМЦИ) - Iij(W,M). В отличие от эластичности Ex(y), которая определена для однозначной функции одного аргумента, Iij(W,M) определена для многозначной функции многих аргументов.

Таким образом, системная мера целесообразности информации, предложенная в настоящем исследовании, имеет математические свойства сходные со свойствами эластичности многозначной функции многих аргументов.

Связь семантической информационной модели с нейронными сетями

В 1943 году Дж. Маккалоки и У. Питт предложили формальную модель биологического нейрона как устройства, имеющего несколько входов (входные синапсы - дендриты), и один выход (выходной синапс - аксон). Дендриты получают информацию от источников информации (рецепторов) Li, в качестве которых могут выступать и нейроны. Набор входных сигналов {Li} характеризует объект или ситуацию, обрабатываемую нейроном. Каждому i-му входу j-го нейрона ставится в соответствие некоторый весовой коэффициент Iij, характеризующий степень влияния сигнала с этого входа на аргумент передаточной (активационной) функции, определяющей сигнал Yj на выходе нейрона. В нейроне происходит взвешенное суммирование входных сигналов, и далее это значение используется как аргумент активационной (передаточной) функции нейрона. На рисунке 37 данная модель приведена в обозначениях, принятых в настоящей работе.

Классическая модель нейрона Дж. Маккалоки и У. Питта (1943) в обозначениях системной теории информации

Метафора нейросетевого представления семантической информационной модели

В данной работе предлагается представление, согласно которому каждый нейрон отражает определенное будущее состояние активного объекта управления, а нейронная сеть в целом - систему будущих состояний, как желательных (целевых), так и нежелательных. Весовые коэффициенты на дендридах нейронов имеют смысл силы и направления влияния факторов на переход активного объекта управления в то или иное будущее состояние. Таким образом, предложенная в данной работе семантическая информационная модель в принципе допускает представление в терминах и понятиях нейронных сетей. Однако при более детальном рассмотрении выясняется, что семантическая информационная модель является более общей, чем нейросетевая и для полного их соответствия необходимо внести в нейросетевую модель ряд дополнений.

Соответствие основных терминов и понятий

Предлагается следующая система соответствий, позволяющая рассматривать термины и понятия из теории нейронных сетей и предложенной семантической информационной модели практически как синонимы. Нейрон - вектор обобщенного образа класса в матрице информативностей. Входные сигналы - факторы (признаки). Весовой коэффициент - системная мера целесообразности информации. Обучение сети - адаптация модели, т.е. перерасчет значений весовых коэффициентов дендридов для каждого нейрона (матрицы информативностей) и изменение вида активационной функции. Самоорганизация сети - синтез модели, т.е. изменение количества нейронов и дендридов, изменение количества нейронных слоев и структуры связей между факторами и классами, а затем адаптация (перерасчет матрицы информативностей). Таким образом, адаптация - это обучение сети на уровне изменения информационных весовых коэффициентов и активационной функции, а синтез - на уровне изменения размерности и структуры связей нейронов сети. 1-й (входной) слой нейронной сети - формирование обобщенных образов классов. Сети Хопфилда и Хэмминга - обучение с учителем, сопоставление описательной и классификационной информации, идентификация и прогнозирование. 2-й слой, сети Хебба и Кохонена - самообучение, анализ структуры данных без априорной классификационной информации, формирование кластеров классов и факторов. 3-й слой - формирование конструктов (в традиционных нейронных сетях не реализовано). Необходимо отметить, что любой слой нейронной сети является в предлагаемой модели не только обрабатывающим, но и выходным, т.е. с одной стороны дает результаты обработки информации, имеющие самостоятельное значение, а с другой - поставляет информацию для последующих слоев нейронной сети, т.е. более высоких уровней иерархии информационной системы (в полном соответствии с формализуемой когнитивной концепцией).

Недостатки нейронных сетей и пути их преодоления в семантической информационной модели

К основным недостаткам нейронных сетей можно отнести:

1. Сложность содержательной интерпретации смысла интенсивности входных сигналов и весовых коэффициентов ("проблема интерпретируемости весовых коэффициентов").

2. Сложность содержательной интерпретации и обоснования аддитивности аргумента и вида активационной (передаточной) функции нейрона ("проблема интерпретируемости передаточной функции").

3. "Комбинаторный взрыв", возникающий при определении структуры связей нейронов, подборе весовых коэффициентов и передаточных функций ("проблема размерности").

Проблемы интерпретируемости приводят к снижению ценности полученных результатов работы сети, а проблема размерности - к очень жестким ограничениям на количество выходных нейронов в сети, на количество рецепторов и на сложность структуры взаимосвязей нейронов с сети. Достаточно сказать, что количество выходных нейронов в реальных нейронных сетях, реализуемых на базе известных программных пакетов, обычно не превышает несколько сотен, а чаще всего составляет единицы и десятки.

Гипотеза о нелокальности нейрона и информационная нейросетевая парадигма

Модель нелокального нейрона: так как сигналы на дендридах различных нейронов вообще говоря коррелируют (или антикоррелируют) друг с другом, то, значения весовых коэффициентов, а значит и выходное значение на аксоне каждого конкретного нейрона вообще говоря не могут быть определены с использованием значений весовых коэффициентов на дендридах только данного конкретного нейрона, а должны учитывать интенсивности сигналов на всей системе дендридов нейронной сети в целом (рисунок 38).

Модель нелокального нейрона в обозначениях системной теории информации

За счет учета корреляций входных сигналов (если они фактически присутствуют в структуре данных), т.е. наличия общего самосогласованного информационного поля исходных данных всей нейронной сети (информационное пространство), нелокальные нейроны ведут себя так, как будто связаны с другими нейронами, хотя могут быть и не связаны с ними синаптически по входу и выходу ни прямо, ни опосредованно. Самосогласованность семантического информационного пространства означает, что учет любого одного нового факта в информационной модели вообще говоря приводит к изменению всех весовых коэффициентов всех нейронов, а не только тех, на рецепторе которых обнаружен этот факт и тех, которые непосредственно или опосредованно синаптически с ним связаны.

В традиционной (т.е. локальной) модели нейрона весовые коэффициенты на его дендридах однозначно определяются заданным выходом на его аксоне и никак не зависят от параметров других нейронов, с которыми с нет прямой или опосредованной синаптической связи. Это связано с тем, что в общепринятой энергетической парадигме Хопфилда весовые коэффициенты дендридов имеют смысл интенсивностей входных воздействий. В методе "обратного распространения ошибки" процесс переобучения, т.е. интерактивного перерасчета весовых коэффициентов, начинается с нейрона, состояние которого оказалось ошибочным и захватывает только нейроны, ведущие от рецепторов к данному нейрону. Корреляции между локальными нейронами обусловлены сочетанием трех основных причин:

- наличием в исходных данных определенной структуры: корреляцией входных сигналов;

- синаптической связью локальных нейронов;

- избыточностью (дублированием) нейронной сети.

Решение проблемы интерпретируемости весовых коэффициентов (семантическая мера целесообразности информации и закон Фехнера)

В данной работе предлагается использовать такие весовые коэффициенты дендридов, чтобы активационная функция была линейной, т.е. по сути была равна своему аргументу: сумме. Этому условию удовлетворяют весовые коэффициенты, рассчитываемые с применением системного обобщения формулы Харкевича (3.28).

Очень важно, что данная мера, удовлетворяет известному эмпирическому закону Г.Фехнера (1860), согласно которому существует логарифмическая зависимость между интенсивностью фактора и величиной отклика на него биологической системы (в частности, величина ощущения прямо пропорциональна логарифму интенсивности раздражителя).

Предлагается информационный подход к нейронным сетям, по аналогии с энергетическим подходом Хопфилда (1980).

Суть этого подхода состоит в том, что интенсивности входных сигналов рассматриваются не сами по себе и не с точки зрения только их интенсивности, а как сообщения, несущие определенное количество информации или дезинформации о переходе нейрона и моделируемого им активного объекта управления в некоторое будущее состояние.

Под интенсивностью входного сигнала на определенном дендриде мы будем понимать абсолютную частоту (количество) встреч фактора (признака), соответствующего данному дендриду, при предъявлении нейронной сети объекта, соответствующего определенному нейрону. Таким образом матрица абсолютных частот рассматривается как способ накопления и первичного обобщения эмпирической информации об интенсивностях входных сигналов на дендридах в разрезе по нейронам.

Весовые коэффициенты, отражающие влияние каждого входного сигнала на отклик каждого нейрона, т.е. величину его возбуждения или торможения, представляют собой элементы матрицы информативностей, получающиеся из матрицы абсолютных частот методом прямого счета с использованием выражения для семантической меры целесообразности информации (3.28).

При этом предложенная мера семантической целесообразности информации, как перекликается с нейронными сетями Кохонена, в которых также принято стандартизировать (нормализовать) входные сигналы, что позволяет в определенной мере уйти от многообразия передаточных функций.

Наличие ясной и обоснованной интерпретации весовых коэффициентов, как количества информации, позволяет предложить в качестве математической модели для их расчета системную теорию информации (СТИ).

Семантическая информационная модель, как нелокальная нейронная сеть

Учитывая большое количество содержательных параллелей между семантической информационной моделью и нейронными сетями предлагается рассматривать данную модель как нейросетевую модель, основанную на системной теории информации. В данной модели предлагается вариант решения важных нейросетевых проблем интерпретируемости и ограничения размерности за счет введения меры целесообразности информации (системное обобщение формулы Харкевича), обеспечивающей прямой расчет интерпретируемых весовых коэффициентов на основе непосредственно эмпирических данных. Итак, в данной работе предлагается новый класс нейронных сетей, основанных на семантической информационной модели и информационном подходе. Для этих сетей предлагается полное наименование: "Нелокальные интерпретируемые нейронные сети прямого счета" и сокращенное наименование: "Нелокальные нейронные сети".

Нелокальная нейронная сеть является системой нелокальных нейронов, обладающей качественно новыми (системными, эмерджентными) свойствами, не сводящимися к сумме свойств нейронов. В такой сети поведение нейронов определяется как их собственными свойствами и поступающими на них входными сигналами, так и свойствами нейронной сети в целом, т.е. поведение нейронов в нелокальной нейронной сети согласовано друг с другом не только за счет их прямого и опосредованного синаптического взаимодействия (как в традиционных нейронных сетях), но за счет общего информационного поля весовых коэффициентов всех нейронов данной сети.

Гипотеза о физической природе нелокального взаимодействия нейронов в нелокальной нейронной сети

В данной работе предлагается математическая модель, численный метод и программный инструментарий нелокальных нейронных сетей (универсальная когнитивная аналитическая система "Эйдос"), успешно апробированные в ряде предметных областей. Данная система обеспечивает неограниченное количество слоев ННС при максимальном количестве весовых коэффициентов в слое до 16 миллионов (в текущей версии 9.0) и до 4000 выходных нейронов. Но если рассматривать нелокальную нейронную сеть как модель реальных "биологических" нейронных сетей, то ясно, что формальной модели недостаточно и необходимо дополнить ее физической моделью о природе каналов нелокального взаимодействия нейронов в данной сети. По мнению автора данный механизм основан на парадоксе Эйнштейна-Подольского Розена (ЭПР) [165, 219]. По мнению автора, физическая реализация нелокальных нейронов может быть осуществлена за счет соединения как минимум одного дендрида каждого нейрона с датчиком микротелекинетического воздействия, на который человек может оказывать влияние дистанционно. Некоторые из подобных датчиков описаны в работе [165]. По мнению автора, квантовые компьютеры, основанные не на математических и программных моделях, а на физических нелокальных нейронах, могут оказаться во многих отношениях функционально эквивалентными физическому организму.

Решение проблемы интерпретируемости передаточной функции

Вопрос об интерпретируемости передаточной функции нейрона включает два основных аспекта:

- об интерпретируемости аргумента передаточной функции;

- об интерпретируемости вида передаточной функции.

1. Возникает естественный вопрос о том, чем обосновано включение в состав модели нейрона Дж. Маккалоки и У. Питтом именно аддитивного элемента, суммирующего входные сигналы, а не скажем мультипликативного или в виде функции общего вида.

По мнению автора такой выбор обоснован и имеет явную и убедительную интерпретацию именно в том случае, когда весовые коэффициенты имеют смысл количества информации, т.к. в этом случае данная мера представляет собой неметрический критерий сходства (3.37), основанный на лемме Неймана-Пирсона. Сумма весовых коэффициентов, соответствующих набору действующих факторов (входных сигналов) дает величину выходного сигнала на аксоне каждого нейрона.

2. Вид передаточной функции содержательно в теории нейронных сетей явно не обосновывается. Предлагается гипотеза, что на практике вид передаточной функции подбирается таким образом, чтобы соответствовать смыслу подобранных в данном конкретном случае весовых коэффициентов. Так как при применении в различных предметных областях смысл весовых коэффициентов в явном виде не контролируется и может отличаться, то выбор вида передаточной функции позволяет частично компенсировать эти различия.

Предлагаемый интерпретируемый вид весовых коэффициентов обеспечивает единую и стандартную интерпретацию аргумента и значения передаточной функции независимо от предметной области. Поэтому в нелокальной нейронной модели передаточная функция нейрона всегда линейна (аргумент равен функции).

Следовательно в модели нелокального нейрона блок суммирования по сути дела объединен с блоком нелинейного преобразования (точнее, второй отсутствует, а его роль выполняет блок суммирования), в отличие от стандартных передаточных функций локальных нейронов: логистической, гиперболического тангенса, пороговой линейной, экспоненциально распределенной, полиномиальной и импульсно-кодовой.

Нелокальные нейроны как бы "резонируют" на ансамбли входных сигналов, причем этот резонанс может быть обоснованно назван семантическим (смысловым), т.к. весовые коэффициенты рассчитаны на основе предложенной семантической меры целесообразности информации. Таким образом, разложение вектора идентифицируемого объекта в ряд по векторам обобщенных образов классов осуществляется на основе семантического резонанса нейронов выходного слоя на ансамбль входных сигналов (признаков, факторов).

Решение проблемы размерности

Вместо итерационного подбора весовых коэффициентов путем полного перебора вариантов их значений при малых вариациях (методы обратного распространения ошибки и градиентного спуска к локальному экстремуму) предлагается прямой расчет этих коэффициентов на основе процедуры и выражений, обоснованных в предложенных системной теории информации и семантической информационной модели. Выигрыш во времени и используемых вычислительных ресурсах, получаемый за счет этого, быстро возрастает при увеличении размерности нейронной сети.

Моделирование причинно-следственных цепочек в нейронных сетях и семантической информационной модели

Факторы описывают причины, а классы - следствия. Но и следствия в свою очередь являются причинами более отдаленных последствий. Предлагаемая семантическая информационная модель позволяет рассматривать события, обнаружение которых осуществляется в режиме идентификации, как причины последующих событий, т.е. как факторы, их вызывающие.

При этом факт наступления этих событий моделируется путем включения в модель факторов, соответствующих классам (событиям). В нейронных сетях этот процесс моделируется путем включения в сеть дополнительных нейронных слоев и создания обратных связей между слоями, обеспечивающих передачу в предыдущие слои результатов работы последующих слоев.

Моделирование иерархических структур обработки информации

Рассмотрим иерархическую структуру информации на примере использования психологического теста для оценки психологических качеств сотрудников и влияния этих качеств на эффективность работы фирмы.

В нейронной сети иерархическим уровням обработки информации соответствуют слои, поэтому далее будем использовать термины "слой нейронной сети" и "иерархический уровень обработки информации" как синонимы. Рецепторы дают информацию по ответам сотрудника на опросник, нейроны 1-го слоя дают оценку психологических качеств и сигнал с их аксонов является входным для нейронов 2-го слоя, дающих оценку качества работы фирмы.

В семантической информационной модели существует три варианта моделирования подобных иерархических структур обработки информации:

1. Заменить все слои одним слоем и выявлять зависимости непосредственно между исходными данными с первичных рецепторов и интересующими итоговыми оценками, например, ответами сотрудников на вопросы и результатами работы фирмы.

Этот подход эффективен с прагматической точки зрения, но дает мало информации для теоретических обобщений.

2. Каждый слой моделируется отдельной семантической информационной моделью, включающей свои классификационные и описательные шкалы и градации, обучающую выборку, матрицы абсолютных частот и информативностей.

Вся система иерархической обработки информации моделируется системой этих моделей, взаимосвязанных друг с другом по входу-выходу: результаты классификации объектов обучающей выборки 1-й моделью рассматриваются как свойства этих объектов во 2-й модели, в которой они используются для классификации 2-го уровня.

Например, психологические качества сотрудников, установленные в результате психологического тестирования, рассматриваются как свойства сотрудников, влияющие на эффективность работы фирмы. Данный подход эффективен и с прагматической, и с теоретической точек зрения, но является громоздким в программной реализации.

3. Моделирование каждого слоя соответствующими подматрицами матриц абсолютных частот и информативностей (таблица 22).

Таблица- ЛОГИЧЕСКАЯ МОДЕЛЬ СТРУКТУРЫ ДАННЫХ СЕМАНТИЧЕСКОЙ ИНФОРМАЦИОННОЙ МОДЕЛИ, СООТВЕТСТВУЮЩАЯ ТРЕХСЛОЙНОЙ НЕЛОКАЛЬНОЙ НЕЙРОННОЙ СЕТИ

Рецепторы - факторы,

влияющие на поведение

объекта управления

Нейроны - будущие состояния объекта управления

Дифференцирующая способность входного сигнала

Нейроны

1-го слоя:

психологические

качества

сотрудников

Нейроны

2-го слоя:

успешность деятельности

сотрудника

Нейроны

3-го слоя:

успешность

деятельности

фирмы

Рецепторы 1-го слоя:

ответы сотрудников

на вопросы анкеты

Весовые

коэффициенты

1-го слоя

- - -

- - -

Рецепторы 2-го слоя:

психологические

качества сотрудников

- - -

Весовые

коэффициенты

2-го слоя

- - -

Рецепторы 3-го слоя:

успешность деятельности сотрудника

- - -

- - -

Весовые

коэффициенты

3-го слоя

Степень

обученности

нейрона

Степень обученности нейронной сети

Этот вариант обладает преимуществами первых двух и преодолевает их недостатки. В нем применяется следующий итерационный алгоритм послойного расчета, где n={1, 2, …, N}, N - количество слоев нейронной сети:

Шаг n: расчет весовых коэффициентов n-го слоя, идентификация объектов обучающей выборки в нейронах n-го слоя, если слой (n+1) существует, то занесение в обучающую выборку в качестве свойств объектов (n+1)-го слоя результатов их идентификации в нейронах n-го слоя.

Примечание: в таблице 22 представлена именно логическая структура данных, т.е. в реальных базах данных нет записей, содержащих информацию о влиянии рецепторов n-го слоя на нейроны слоев, номера которых не равны n.

Нейронные сети и СК-анализ

Известные в литературе нейронные сети, в отличие от предлагаемой семантической информационной модели и нелокальных нейронных сетей, не обеспечивают реализацию всех базовых когнитивных операций, входящих в когнитивный конфигуратор.

В частности, традиционные нейронные сети решают лишь задачу идентификации (прогнозирования) и не обеспечивают решение обратной задачи (дедукции), необходимой для принятия решения о выборе многофакторного управляющего воздействия. Кроме того не решается вопрос об уменьшении размерности нейронной сети без ущерба для ее адекватности (абстрагирование).

Результаты численного моделирования и исследования свойств нейронных сетей этого класса при управлении в АПК и других предметных областях позволяют предположить, в качестве модели реальных когнитивных процессов они обладает более высокой адекватностью, чем нейронные сети других типов.

Графическое отображение нейронов и Паррето-подмножеств нелокальной нейронной сети

Ниже приводятся примеры графического отображения нелокального нейрона и Паретто-подмножества (нейронов с наиболее значимыми связями) нелокальной нейронной сети в системе "Эйдос" (рисунки 39 и 40).

Графическое отображение нелокального нейрона в системе "Эйдос"

Графическое отображение нелокальной нейронной сети в системе "Эйдос"

Математический метод СК-анализа в свете идей интервальной бутстрепной робастной статистики объектов нечисловой природы
Постановка проблемы

Современный этап развития информационных технологий характеризуется быстрым ростом производительности компьютеров облегчением доступа к ним. С этим связан возрастающий интерес к использованию компьютерных технологий для организации мониторинга различных объектов, анализа данных, прогнозирования и управления в различных предметных областях. И у исследователей, и у руководителей, имеются определенные ожидания и надежды на повышение эффективности применения компьютерных технологий.

Однако на пути реализации этих ожиданий имеются определенные сложности, связанные с относительным отставанием в развитии математических методов и реализующего их программного инструментария.

И анализ, и прогнозирование, и управление самым непосредственным образом основываются на математическом моделировании объектов. Математическое моделирование в свою очередь предполагают возможность выполнения всех арифметических операций (сложение, вычитание, умножение и деление) над отображениями объектов в моделях и над их элементами.

В практике интеллектуального анализа данных в экономике, социологии, психологии, педагогике и других предметных областях все чаще встречаются ситуации, когда необходимо в рамках единой математической модели совместно обрабатывать числовые и нечисловые данные.

В свою очередь числовые данные могут быть различной природы и, соответственно, измеряться в самых различных единицах измерения. Ясно, что арифметические операции можно выполнять только над числовыми данными, измеряемыми в одних единицах измерения.

Данные нечисловой природы, т.е. различные факты и события, характеризуются тем, что с ними вообще нельзя выполнять арифметические операции.

Соответственно, возникает потребность в математических методах и программном инструментарии, обеспечивающих совместную сопоставимую обработку разнородных числовых данных и данных нечисловой природы.

Традиционные пути решения проблемы

Традиционно при необходимости проведения подобных исследований реализуется один из двух вариантов, т.е. либо изучается подмножество однородных по своей природе данных, измеряемых в одних единицах измерения; либо перед исследованием данные приводятся к сопоставимому виду, например, широко используются процентные или другие относительные величины, реже - стандартизированные значения.

Ясно, что первый вариант является не решением проблемы, а лишь ее вынужденным обходом, обусловленным ограничениями реально имеющегося в распоряжении исследователей инструментария.

Второй вариант лишь частично решает проблему, т.к. хотя и снимает различие в единицах измерения, но не преодолевает принципиального различия между количественными и качественными (нечисловыми) величинами и не позволяет обрабатывать их совместно в рамках единой модели.

В последние годы развивается ряд новых методов статистики, полный обзор которых дан в работах А. И. Орлова [http://antorlov.chat.ru]. Прежде всего, это интервальная статистика, статистика объектов нечисловой природы, робастные, бутстрепные и непараметрические методы.

В частности методы интервальной статистики, позволяют сводить числовые величины к фактам попадания их значений в определенные интервалы, т.е. к событиям.

При этом преодолевается проблема различия в размерности числовых величин. Это обеспечивает также обработку числовых величин, как событий совместно с информацией о других событиях, связанных с объектами нечисловой природы. Таким образом, интервальные методы сводят обработку числовых величин к методам обработки нечисловой информации и позволяет обрабатывать их единообразно по одной методике. И это является очень важным достижением.

Идея решения проблемы

Это, в общем-то, вполне очевидный и естественный ход. Однако достигается этот результат дорогой ценой, т.е. путем сведения числовых величин к нечисловым, т.е. путем сведения их к "низменному типу", что приводит к утрате ряда возможностей обработки. Это происходит потому, что для числовых величин существует гораздо больше методов и возможностей обработки, чем для нечисловых.

По нашему мнению более предпочтительным является противоположный подход, основанный на введении некоторой количественной меры, позволяющей единым и сопоставимым образом описывать как числовые данные различной природы, так и нечисловые величины с использованием всего арсенала возможностей, имеющегося при обработке числовых данных.

Аналогично, если у нас есть документы стандартов "Документ Word" и "Текст-DOS" и мы хотели бы обрабатывать их все в одном редакторе, то это можно сделать либо преобразовав все документы Word в "низменный стандарт" "Текст-DOS", либо наоборот, преобразовав "досовские" документы в формат Word.

В 1979 году автором разработана [80], а в 1981 году впервые применена [66] математическая модель, обеспечивающая реализацию этой идеи. В последующем этот математический аппарат был развит в ряде работ, основной из которых является [5], был разработана соответствующая ему методика численных расчетов, включающая структуры данных и алгоритмы базовых когнитивных операций, а также создана программная система "Эйдос", реализующая математическую модель и методику численных расчетов [141, 142, 144, 145, 146].

Предложенный метод получил название "Системно-когнитивный анализ" (СК-анализ) [64]. В СК-анализе нечисловым величинам тем же методом, что и числовым, приписываются сопоставимые в пространстве и времени, а также между собой, количественные значения, позволяющие обрабатывать их как числовые.

СК-анализ включает следующие этапы:

1. Когнитивная структуризация, а затем и формализация предметной области.

2. Ввод данных мониторинга в базу прецедентов за период, в течение которого имеется необходимая информация в электронной форме.

3. Синтез семантической информационной модели (СИМ).

4. Оптимизация СИМ.

5. Проверка адекватности СИМ (измерение внутренней и внешней, дифференциальной и интегральной валидности).

6. Анализ СИМ.

7. Решение задач идентификации состояний объекта управления, прогнозирование и поддержка принятия управленческих решений по управлению с применением СИМ.

На первых двух этапах СК-анализа, детально рассмотренных в работе [64], числовые величины сводятся к интервальным оценкам, как и информация об объектах нечисловой природы (фактах, событиях). Этот этап реализуется и в методах интервальной статистики.

На третьем этапе СК-анализа всем этим величинам по единой методике, основанной на системном обобщении семантической теории информации А.Харкевича, сопоставляются количественные величины, с которыми в дальнейшем и производятся все операции моделирования.

Математическая модель СК-анализа

Системное обобщение формулы Хартли

В выражении (3) приведено системное обобщение формулы Хартли для равновероятных состояний объекта управления.

(1)

(4)

(2)

(5)

(3)

с очень малой
и быстро уменьшающейся погрешностью

(6)

W - количество чистых (классических) состояний системы.

- коэффициент эмерджентности Хартли (уровень системной организации объекта, имеющего W чистых состояний).

Гипотеза о Законе возрастания эмерджентности

Исследование математических выражений системной теории информации (7 - 12) позволило сформулировать гипотезу о существовании "Закона возрастания эмерджентности". Суть этой гипотезы в том, что в самих элементах системы содержится сравнительно небольшая доля всей содержащейся в ней информации, а основной ее объем составляет системная информация, содержащаяся в подсистемах различного уровня иерархии.

Различие между классическим и предложенным системным понятиями информации соответствует различию между понятиями МНОЖЕСТВА И СИСТЕМЫ, на основе которых они сформированы.

(7)

(8)

(9)

(10)

(11)

(12)

Математическая формулировка:

Интерпретация

Системное обобщение формулы Харкевича

Ниже приведен вывод системного обобщения формулы Харкевича, а именно:

- классическая формула Харкевича через вероятности перехода системы в целевое состояние при условии сообщения ей определенной информации и самопроизвольно (13);

- выражение классической формулы Харкевича через частоты (14, 15);

- вывод коэффициента эмерджентности Харкевича на основе принципа соответствия с выражением Хартли в детерминистском случае (16 -19);

- вывод системного обобщения формулы Харкевича;

- окончательное выражение для системного обобщения формулы Харкевича (21).

Классическая формула Харкевича

Pij - вероятность перехода объекта управления в j-е состояние в условиях действия i-го фактора;

Pj - вероятность самопроизвольного перехода объекта управления в j-е состояние, т.е. в условиях отсутствия действия i-го фактора или всреднем.

Известно, что корреляция не является мерой причинно-следственных связей. Если корреляция между действием некоторого фактора и переходом объекта управления в определенное состояние высока, то это еще не значит, что данный фактор является причиной этого перехода. Для того чтобы по корреляции можно было судить о наличии причинно-следственной связи необходимо сравнить исследуемую группу с контрольной группой, т.е. с группой, в которой данный фактор не действовал.

Также и высокая вероятность перехода объекта управления в определенное состояние в условиях действия некоторого фактора сама по себе не говорит о наличии причинно-следственной связи между ними, т.е. о том, что данный фактор обусловил переход объекта в это состояние. Это связано с тем, что вероятность перехода объекта в это состояние может быть вообще очень высокой независимо от действия фактора. Поэтому в качестве меры силы причинной обусловленности определенного состояния объекта действием некоторого фактора Харкевич предложил логарифм отношения вероятностей перехода в объекта в это состояние в условиях действия фактора и при его отсутствии или в среднем (13).

Таким образом семантическая мера информации Харкевича является мерой наличия причинно-следственных связей между факторами и состояниями объекта управления.

Выражение классической формулы Харкевича через частоты фактов

Вывод коэффициента эмерджентности Харкевича на основе принципа соответствия с выражением Хартли в детерминистском случае

Однако мера Харкевича (13) не удовлетворяет принципу соответствия мерой Хартли как мера Шеннона, т.е. не переходит в меру Хартли в детерминистском случае, т.е. когда каждому будущему состоянию объекта управления соответствует единственный уникальный фактор и между факторами и состояниями имеется взаимно однозначное соответствие (17).

(16)

(17)

Откуда:

(18)

(19)

Вывод системного обобщения формулы Харкевича

(20)

Окончательное выражение для системного обобщения формулы Харкевича

(21)

Связь системной теории информации (СТИ) с теорией Хартли-Найквиста-Больцмана и теорией Шеннона

Связь между выражениями для плотности информации в теориях Хартли, Шеннона и СТИ приведена на рисунке 41.

Связь между выражениями для плотности информации в теориях Хартли, Шеннона и СТИ

Интерпретация коэффициентов эмерджентности СТИ

Интерпретация коэффициентов эмерджентности, предложенных в рамках системной теории информации, приведена на рисунке 42.

Интерпретация коэффициентов эмерджентности СТИ

Коэффициент эмерджентности Хартли (4) представляет собой относительное превышение количества информации о системе при учете системных эффектов (смешанных состояний, иерархической структуры ее подсистем и т.п.) над количеством информации без учета системности, т.е. этот коэффициент является аналитическим выражением для уровня системности объекта.

Коэффициент эмерджентности Харкевича , изменяется от 0 до 1 и определяет степень детерминированности системы.

Таким образом, в предложенном системном обобщении формулы Харкевича (21) впервые непосредственно в аналитическом выражении для самого понятия "Информация" отражены такие фундаментальные свойства систем, как "Уровень системности" и "Степень детерминированности" системы.

Матрица абсолютных частот

Основной формой первичного обобщения эмпирической информации в модели является матрица абсолютных частот (таблица 23). В этой матрице строки соответствуют факторам, столбцы - будущим целевым и нежелательным состояниям объекта управления, а на их пересечении приведено количество наблюдения фактов (по данным обучающей выборки), когда действовал некоторый i-й фактор и объект управления перешел в некоторое j-е состояние.

Таблица- МАТРИЦА АБСОЛЮТНЫХ ЧАСТОТ

Матрица информативностей

Непосредственно на основе матрицы абсолютных частот с использованием системного обобщения формулы Харкевича (21) рассчитывается матрица информативностей (таблица 24).

Таблица- МАТРИЦА ИНФОРМАТИВНОСТЕЙ

Матрица информативностей является универсальной формой представления смысла эмпирических данных в единстве их дискретного и интегрального представления (причины - последствия, факторы - результирующие состояния, признаки - обобщенные образы классов, образное - логическое, дискретное - интегральное).

Весовые коэффициенты матрицы информативностей непосредственно определяют, какое количество информации Iij система управления получает о наступлении события: "объект управления перейдет в j-е состояние", из сообщения: "на объект управления действует i-й фактор".

Когда количество информации Iij>0 - i-й фактор способствует переходу объекта управления в j-е состояние, когда Iij<0 - препятствует этому переходу, когда же Iij=0 - никак не влияет на это.

Таким образом, предлагаемая семантическая информационная модель позволяет непосредственно на основе эмпирических данных и независимо от предметной области рассчитать, какие количество информации содержится в любом событии о любом другом событии.

Этот вывод является ключевым для данной работы, т.к. конкретно показывает возможность числовой обработки в СК-анализе как числовой, так и нечисловой информации.

Матрица информативностей является также обобщенной (неклассической) таблицей решений, в которой входы (факторы) и выходы (будущие состояния объекта управления) связаны друг с другом не с помощью классических (Аристотелевских) импликаций, принимающих только значения: "Истина" и "Ложь", а различными значениями истинности, выраженными в битах и принимающими значения от положительного теоретически-максимально-возможного, до теоретически неограниченного отрицательного. Некоторые неклассические высказывания, генерируемые на основе матрицы информативности, приведены на плакате.

Неметрический интегральный критерий сходства, основанный на лемме Неймана-Пирсона

В выражениях (22 - 24) приведен неметрический интегральный критерий сходства, основанный на фундаментальной лемме Неймана-Пирсона, обеспечивающий идентификацию и прогнозирование в предложенных неортонормированных семантических пространствах с финитной метрикой, в которых в качестве координат векторов будущих состояний объекта управления и факторов выступает количество информации, рассчитанное в соответствии с системной теорией информации (21), а не Булевы координаты или частоты, как обычно.

(22) (23)

Или в координатной форме:

(24) (25)

- вектор j-го состояния объекта управления;

- вектор состояния предметной области, включающий все виды факторов, характеризующих объект управления, возможные управляющие воздействия и окружающую среду (массив-локатор), т.е.:

(26)

- средняя информативность по вектору класса;

- среднее по вектору идентифицируемой ситуации (объекта).

- среднеквадратичное отклонение информативностей вектора класса;

- среднеквадратичное отклонение по вектору распознаваемого объекта.

Связь системной меры целесообразности информации с критерием 2

В (28 - 33) показана связь системной меры целесообразности информации с известным критерием 2, а также предложен новый критерий уровня системности предметной области, являющийся нормированным объемом семантического пространства (34, 35).

(28)

(29)

- Nij - фактическое количество встреч i-го признака у объектов j-го класса;

- t - ожидаемое количество встреч i-го признака у объектов j-го класса.

(30)

(31)

(32)

(33)

(34)

(35)

Предлагается более точный критерий уровня системности модели является объем неортонормированного семантического пространства, рассчитанный как объем многомерного параллелепипеда, ребрами которого являются оси семантического пространства. Однако для этой меры сложнее в общем виде записать аналитическое выражение и для ее вычисления могут быть использованы численные методы с использованием многомерного обобщения смешанного произведения векторов.

Абстрагирование (ортонормирование) существенно уменьшает размерность семантического пространства без существенного уменьшения его объема.

Оценка адекватности семантической информационной модели в СК-анализе и бутстрепные методы

Под адекватностью модели СК-анализа понимается ее внутренняя и внешняя дифференциальная и интегральная валидность. Понятие валидности является уточнением понятия адекватности, для которого определены процедуры количественного измерения, т.е. валидность - это количественная адекватность. Это понятие количественно отражает способность модели давать правильные результаты идентификации, прогнозирования и способность вырабатывать правильные рекомендации по управлению.

Под внутренней валидностью понимается валидность модели, измеренная после синтеза модели путем идентификации объектов обучающей выборки.

Под внешней валидностью понимается валидность модели, измеренная после синтеза модели путем идентификации объектов, не входящих в обучающую выборку.

Под дифференциальной валидностью модели понимается достоверность идентификации объектов в разрезе по классам.

Под интегральной валидностью средневзвешенная дифференциальная валидность. Возможны все сочетания: внутренняя дифференциальная валидность, внешняя интегральная валидность и т.д.

Основная идея бутстрепа по Б.Эфрону [110] состоит в том, что методом Монте-Карло (статистических испытаний) многократно извлекаются выборки из эмпирического распределения. Эти выборки, естественно, являются вариантами исходной, напоминают ее.

Эта идея позволяет сконструировать алгоритм измерения адекватности модели, состоящий из двух этапов:

1. Синтез модели на одном случайном подмножестве обучающей выборки.


Подобные документы

  • Анализ существующих алгоритмов обработки информации человеком и современных моделей памяти. Разработка алгоритмов и математической модели ассоциативного мышления. Имитационная модель обработки информации. Компьютерный эксперимент по тестированию модели.

    курсовая работа [2,3 M], добавлен 19.11.2014

  • Понятие математической модели, свойства и классификация. Характеристика элементов системы Mathcad. Алгоритмический анализ задачи: описание математической модели, графическая схема алгоритма. Реализация базовой модели и описание исследований MathCAD.

    реферат [1,0 M], добавлен 20.03.2014

  • Разработка программы в среде Microsoft Visual C++ для вывода системной информации о компьютере, его оперативной памяти, процессоре, ip-адресе, принтерах, текущем видеорежиме и дисках. Использование программы Sysinfo для анализа работы компьютера.

    курсовая работа [667,3 K], добавлен 24.04.2011

  • Общая характеристика и свойства системы Matlab - пакета прикладных программ для решения задач технических вычислений. Разработка математической модели в данной среде, программирование функций для задающего воздействия. Проектирование GUI-интерфейса.

    курсовая работа [1023,2 K], добавлен 23.05.2013

  • Метод решения математической модели на примере решения задач аналитической геометрии. Описание согласно заданному варианту методов решения задачи. Разработка математической модели на основе описанных методов. Параметры окружности минимального радиуса.

    лабораторная работа [310,6 K], добавлен 13.02.2009

  • Формы представления моделей: модели материальные и модели информационные. Формализация текстовой информации, представление данных в табличной форме. Граф как совокупность точек, соединённых между собой линиями. Упорядочение информации в форме графа.

    реферат [2,5 M], добавлен 10.04.2010

  • Создание математической модели системы массового обслуживания на примере банка. Разработка имитационной модели на языке программирования С++. Блок-схема программы, перевод модели на язык программирования. Верификация и валидация имитационной модели.

    курсовая работа [630,5 K], добавлен 01.06.2015

  • Классификация угроз конфиденциальной информации. Концепция математической модели оценки ущерба конфиденциальной информации от внешних угроз. Реализация и исследование модели. Безопасность и экологичность работы. Расчет технико-экономической эффективности.

    дипломная работа [1,5 M], добавлен 30.06.2011

  • Структурное и функциональное моделирование. Информационная модель базы данных для проектирования. Разработка технического задания и проекта (Visio, MathCad, BPWin). Задача синтеза (оптимизация в проектировании). Построение математической модели объектов.

    курсовая работа [1,5 M], добавлен 05.04.2014

  • Построение концептуальной модели и метод имитационного моделирования. Определение переменных уравнений математической модели и построение моделирующего алгоритма. Описание возможных улучшений системы и окончательный вариант модели с результатами.

    курсовая работа [79,2 K], добавлен 25.06.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.