Метод визуализации когнитивных функций – новый инструмент исследования эмпирических данных большой размерности

Рассмотрение нового перспективного инструмента автоматизированного системно-когнитивного анализа – системы "Эйдос". Изучение метода наглядной графической визуализации причинно-следственных зависимостей из эмпирических данных большой размерности.

Рубрика Экономико-математическое моделирование
Вид статья
Язык русский
Дата добавления 28.04.2017
Размер файла 2,7 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Кубанский государственный аграрный университет, Краснодар, Россия

Метод визуализации когнитивных функций - новый инструмент исследования эмпирических данных большой размерности

Луценко Евгений Вениаминович д.э.н., к.т.н., профессор

Трунев Александр Петрович

к. ф.-м. н., Ph.D.

Директор, A&E Trounev IT Consulting, Торонто, Канада

Бандык Дмитрий Константинович,

Аннотация

В статье рассматривается новый перспективный инструмент АСК-анализа и его программного инструментария - системы «Эйдос» для выявления и наглядной графической визуализации причинно-следственных зависимостей из эмпирических данных большой размерности

Ключевые слова: автоматизированный системно-когнитивный анализ, база знаний, когнитивная функция, семантическая информационная модель

Summary

Cognitive functions visualization method - the new instrument for the large dimension empirical data analysis

Lutsenko Evgeny Veniaminovich

Dr. Sci.Econ., Cand. Tech.Sci., professor

Kuban State Agrarian University, Krasnodar, Russia

Alexander Trunev

Cand.Phys.-Math.Sci., Ph.D.

Director, A&E Trounev IT Consulting, Toronto,

Canada

Bandyk Dmitry Konstantinovich,

Artificial intelligence developer, Belarus

The new methods for system-cognitive analysis to identify and present graphical visualization of causal functions from the large dimension empirical data and its software tools - «EIDOS» system are discussed.

Keywords: computerized system-cognitive analysis, knowledge base, cognitive function, semantic information model

Проблема, решаемая практически во всех экспериментальных исследованиях, состоит в выявлении причинно-следственных зависимостей из эмпирических данных и формальном представлении этих зависимостей в аналитической форме, т.е. в форме математических функций. Автоматизированный системно-когнитивный анализ (АСК-анализ) [1-30] предоставляет для этого ряд новых возможностей, рассмотрение которых является предметом данной статьи.

Информационные портреты градаций факторов (признаков) были исторически первой формой выявления их влияния на принадлежность объекта к классам, реализованной в системе «Эйдос» изначально, т.е. с самых первых версий этой системы [3], так и в более поздних версиях [4]. Аппарат визуализации полностью редуцированных когнитивных функций средствами системы «Эйдос» был реализован в системе в 2004 [5-7]. В 2009-2010 годах началось широкое использование в научных исследованиях [8-12] нередуцированных когнитивных функций, отображаемый внешними системами (например, SigmaPlot, MS Excel) на основе баз данных, сформированных системой «Эйдос» (в режимах _53 и _683). В 2010 году авторами начали использоваться прямые и обратные, редуцированные и нередуцированные когнитивные функции, отображаемые внешними системами на основе баз данных, подготовленных системой «Эйдос». В начале 2011 года авторами был разработан специальный режим визуализации когнитивных функций системы «Эйдос» [13], обеспечивающий визуализацию прямых и обратных, позитивных и негативных, полностью и частично редуцированных когнитивных функций.

Автоматизированный системно-когнитивный анализ (АСК-анализ) представляет собой новый метод искусственного интеллекта, развитый это системный анализ, автоматизированный путем структурирования по базовым когнитивным операциям системного анализа (БКОСА) и включающий: формализуемую когнитивную концепцию, математическую модель, методику численных расчетов и реализующий их программный инструментарий, в качестве которого в настоящее время выступает универсальная когнитивная аналитическая система "Эйдос" [2, 3, 4]. АСК-анализ был предложен в 2002 году одним из авторов [1].

Компоненты АСК-анализа:

- формализуемая когнитивная концепция и следующий из нее когнитивный конфигуратор;

- теоретические основы, методология, технология и методика АСК-анализа;

- математическая модель АСК-анализа, основанная на системном обобщении семантической меры целесообразности информации А. Харкевича;

- методика численных расчетов, в универсальной форме реализующая математическую модель СК-анализа, включающая иерархическую структуру данных и 24 детальных алгоритма 10 БКОСА;

- специальное инструментальное программное обеспечение, реализующее математическую модель и численный метод СК-анализа - Универсальная когнитивная аналитическая система "Эйдос";

- методика, технология и результаты синтеза рефлексивных АСУ активными объектами на основе АСК-анализа.

Этапы АСК-анализа обеспечивают последовательное повышение степени формализации знаний о предметной области до уровня, достаточного для представления знаний в автоматизированной системе искусственного интеллекта и решения в ней задач идентификации, прогнозирования и поддержки принятия решений (управления):

1) когнитивная структуризация предметной области;

2) формализация предметной области (конструирование классификационных и описательных шкал и градаций);

3) подготовка обучающей выборки (ввод данных мониторинга в базу прецедентов);

4) синтез семантической информационной модели (СИМ);

5) повышение эффективности СИМ;

6) проверка адекватности СИМ (измерение внутренней и внешней, дифференциальной и интегральной валидности);

7) системно-когнитивный анализ СИМ, исследование моделируемого объекта путем исследования его модели:

- решение задач идентификации и прогнозирования;

- генерация информационных портретов классов и факторов, т.е. решение обратной задачи прогнозирования, поддержка принятия решений по управлению (результаты отображаются в графической форме двухмерных и трехмерных профилей классов и факторов);

- кластерно-конструктивный анализ классов и факторов (результаты отображаются в форме семантических сетей классов и факторов);

- содержательное сравнение классов и факторов (результаты отображаются в форме когнитивных диаграмм классов и факторов);

- изучение системы детерминации состояний моделируемого объекта, нелокальные нейроны и интерпретируемые нейронные сети;

- построение классических когнитивных моделей (когнитивных карт).

- построение интегральных когнитивных моделей (интегральных когнитивных карт).

Математическая модель АСК-анализа основана на системной теории информации (СТИ).

Системная теория информации (СТИ) - Отличия СТИ от классической теории информации Больцмана-Найквиста-Хартли-Шеннона обусловлены отличиями понятия "система" от понятия "множество". СТИ рассматривает в качестве элементов не только первичные элементы множества, но и элементы, представляющие собой подсистемы различных уровней иерархии, образующиеся за счет взаимодействия первичных элементов, а также учитывает понятие цели. В рамках СТИ предложено системное обобщение семантической меры информации Харкевича, которое удовлетворяет принципу соответствия с мерой Хартли в детерминистском случае, как и мера Шеннона в случае равновероятных событий, чем преодолена несогласованность семантической теории информации и классической теории информации Шеннона. Так как данная мера учитывает понятие цели, то она является количественной мерой знаний. В рамках СТИ предложены гипотезы "О возрастании эмерджентности", следующие из нее: "О природе сложности системы", и "О видах системной информации".

Формализуемая когнитивная концепция - когнитивная концепция, предложенная с целью разработки СК-анализа. Из данной концепции выводятся структура когнитивного конфигуратора, система базовых когнитивных операций и обобщенная схема системного анализа, структурированного до уровня базовых когнитивных операций (АСК-анализ).

Рассматривает процесс познания, как многоуровневую иерархическую систему обработки информации, в которой когнитивные структуры каждого уровня являются результатом интеграции структур предыдущего уровня. На 1-м уровне этой системы находятся дискретные элементы потока чувственного восприятия, которые на 2-м уровне интегрируются в чувственный образ конкретного объекта. Те, в свою очередь, на 3-м уровне интегрируются в обобщенные образы классов и факторов, образующие на 4-м уровне кластеры, а на 5-м конструкты. Система конструктов на 6-м уровне образуют текущую парадигму реальности (т.е. человек познает мир путем синтеза и применения конструктов). На 7-м же уровне обнаруживается, что текущая парадигма не единственно-возможная.

Ключевым для когнитивной концепции является понятие факта, под которым понимается соответствие дискретного и интегрального, экстенсионального и интенсинального элементов познания (т.е. элементов разных уровней интеграции-иерархии), обнаруженное на опыте. Факт рассматривается как квант смысла, что является основой для его формализации. Таким образом, происхождение смысла связывается со своего рода "разностью потенциалов", существующей между смежными уровнями интеграции-иерархии обработки информации в процессах познания. Между когнитивными структурами разных уровней иерархии существует отношение "дискретное - интегральное". Объекты познания каждого уровня описываются как экстенсионально, т.е. с использованием элементов более низкого иерархического уровня познания, так и интенсионально, т.е. с использованием объекта более высокого иерархического уровня познания. Например, каждый объект исследуемой выборки экстенсионально описывается на языке признаков (градаций описательных шкал), а интенсионально на языке обобщенных образов классов (градаций классификационных шкал). Каждый класс экстенсионально описывается объектами, использованными для синтеза его обобщенного образа, а интенсионально - принадлежностью данного класса к некоторому кластеру. Кластеры экстенсионально описываются обобщенными образами классов, которые в них входят, а интенсионально - конструктами, представляющими собой оси координат в неортонормированном когнитивном пространстве, отражающим парадигму реальности. Именно это служит основой формализации смысла.

Когнитивный конфигуратор - минимальный полный набор познавательных (когнитивных от: "cognition" - "познание", англ.) операций, к которым сводятся различные процессы познания, в т.ч. системный анализ, как метод познания, достаточный для адекватного описания данной предметной области. В формализуемой когнитивной концепции выявлено 10 таких операций, каждая из которых оказалась достаточно элементарной для формализации и программной реализации:

1) присвоение имен;

2) восприятие;

3) обобщение (синтез, индукция);

4) абстрагирование;

5) оценка адекватности модели;

6) сравнение, идентификация и прогнозирование;

7) дедукция и абдукция;

8) классификация и генерация конструктов;

9) содержательное сравнение;

10) планирование и принятие решений об управлении.

Информационный портрет класса - это список факторов, ранжированных в порядке убывания силы их влияния на переход объекта управления в состояние, соответствующее данному классу. Информационный портрет класса отражает систему его детерминации. Генерация информационного портрета класса представляет собой решение обратной задачи прогнозирования, т.к. при прогнозировании по системе факторов определяется спектр наиболее вероятных будущих состояний объекта управления, в которые он может перейти под влиянием данной системы факторов, а в информационном портрете мы, наоборот, по заданному будущему состоянию объекта управления определяем систему факторов, детерминирующих это состояние, т.е. вызывающих переход объекта управления в это состояние. В начале информационного портрета класса идут факторы, оказывающие положительное влияние на переход объекта управления в заданное состояние, затем факторы, не оказывающие на это существенного влияния, и далее - факторы, препятствующие переходу объекта управления в это состояние (в порядке возрастания силы препятствования). Информационные портреты классов могут быть от отфильтрованы по диапазону факторов, т.е. мы можем отобразить влияние на переход объекта управления в данное состояние не всех отраженных в модели факторов, а только тех, коды которых попадают в определенный диапазон, например, относящиеся к определенным описательным шкалам.

Информационный (семантический) портрет фактора - это список классов, ранжированный в порядке убывания силы влияния данного фактора на переход объекта управления в состояния, соответствующие данным классам. Информационный портрет фактора называется также его семантическим портретом, т.к. в соответствии с концепцией смысла системно-когнитивного анализа, являющейся обобщением концепции смысла Шенка-Абельсона [5], смысл фактора состоит в том, какие будущие состояния объекта управления он детерминирует. Сначала в этом списке идут состояния объекта управления, на переход в которые данный фактор оказывает наибольшее влияние, затем состояния, на которые данный фактор не оказывает существенного влияния, и далее состояния - переходу в которые данный фактор препятствует. Информационные портреты факторов могут быть от отфильтрованы по диапазону классов, т.е. мы можем отобразить влияние данного фактора на переход объекта управления не во все возможные будущие состояния, а только в состояния, коды которых попадают в определенный диапазон, например, относящиеся к определенным классификационным шкалам.

Когнитивная функция представляет собой зависимость вероятностей перехода объекта управления в будущие состояния, соответствующие классам, под влиянием различных значений некоторого фактора.

Когнитивная функции стоится для подматриц матрицы информативностей (матрицы знаний) системы «Эйдос», образованных различными классификационными и описательными шкалами (одна из подматриц выделена жирной линией и фоном) (таблица 1):

Таблица 1 К пояснению понятия: «подматрицы матрицы знаний»

1-я классификационная шкала

2-я классификационная шкала

3-я классификационная шкала

1-я градация

2-я градация

3-я градация

1-я градация

2-я градация

3-я градация

1-я градация

2-я градация

3-я градация

1-я описательная шкала

1-я градация

2-я градация

3-я градация

2-я описательная шкала

1-я градация

2-я градация

3-я градация

3-я описательная шкала

1-я градация

2-я градация

3-я градация

Если взять несколько информационных портретов факторов, соответствующих градациям одной описательной шкалы, отфильтровать их по диапазону градаций некоторой классификационной шкалы и взять из каждого информационного портрета по одному состоянию, на переход в которое объекта управления данное значение фактора оказывает наибольшее влияние, то мы и получим зависимость, отражающую вероятность перехода объекта управления в будущие состояния под влиянием различных значений некоторого фактора, т.е. полностью редуцированную когнитивную функцию.

Когнитивные функции являются наиболее развитым средством изучения причинно-следственных зависимостей в моделируемой предметной области, предоставляемым системой "Эйдос". Необходимо отметить, что на вид функций влияния математической моделью СК-анализа не накладывается никаких ограничений, в частности, они могут быть и нелинейные.

Введем определение когнитивной функции: когда функция используется для отображения причинно-следственной зависимости, т.е. информации (согласно концепции Шенка-Абельсона [5]), или знаний, если эта информация полезна для достижении целей, то будем называть такую функцию когнитивной функцией [1, 5-7], от англ. «cognition».

Смысл когнитивной функциональной зависимости в том, что в значении аргумента содержится определенное количество знаний о том, какое значение примет функция, т.е. когнитивная функция отражает знания о полезных причинно-следственных зависимостях, а не корреляцию.

Кратко рассмотрим выявление, представление и использование знаний в АСК-анализе и системе «Эйдос» и соотношение смысла понятия «Когнитивная функция» с содержанием понятий: «Данные, информация и знание», «эмпирическая закономерность, эмпирический закон и научный закон».

Для выявления знаний из эмпирических данных необходимо осознанно и целенаправленно изменять форму их представления таким образом, чтобы последовательно повышать степень их формализации до уровня, который позволяет: а) ввести исходные данные в интеллектуальные системы; б) преобразовать их в информацию и знания; в) использовать знания для решения задач прогнозирования и принятия решений. Для этого в АСК-анализе предусмотрены следующие этапы [1]:

1. Когнитивная структуризация предметной области, при которой определяется, что мы хотим прогнозировать и на основе чего (конструирование классификационных и описательных шкал).

2. Формализация предметной области, т.е. 1) разработка градаций классификационных и описательных шкал номинального, порядкового и числового типа; 2) использование разработанных на предыдущих этапах классификационных и описательных шкал и градаций для формального описания (кодирования) исследуемой выборки [30].

3. Синтез и верификация (оценка степени адекватности) модели [31].

4. Если модель адекватна, то использование ее для решения задач идентификации, прогнозирования и принятия решений, а также для исследования моделируемой предметной области.

Данные - это информация, рассматриваемая безотносительно к ее смысловому содержанию, находящаяся на носителях или в каналах связи и представленная в определенной системе кодирования или на определенном языке (т.е. в формализованном виде).

Информация - это осмысленные данные. Смысл, семантика, содержание (согласно концепции смысла Шенка-Абельсона [5]) - это знание причинно-следственных зависимостей.

Знания - это информация, полезная для достижения целей.

Процесс преобразования данных в информацию - это анализ данных, т.е. 1) выявление в них событий; 2) выявление причинно-следственных связей (зависимостей) между этими событиями.

Факт наличия причинно-следственных зависимостей может быть установлен методом хи-квадрат, а ее вид - многофакторным анализом. Однако факторный анализ позволяет обрабатывать данные лишь очень небольших размерностей (по числу факторов) и предъявляет чрезвычайно жесткие требования к наличию полных повторностей всех вариантов сочетаний факторов в исходных данных (т.е. данные не должны быть фрагментарными), что на практике выполнить удается крайне редко.

Поэтому большой интерес представляют другие подходы к решению задачи выявления в эмпирических данных причинно-следственных зависимостей и их вида, отражения выявленных зависимостей в наглядной графической и аналитической форме.

Рассмотрим вариант решения этой задачи, развиваемый в АСК-анализе и реализованный в системе Эйдос».

Для этого сформулируем требования к форме представления данных, информации и знаний, позволяющие оценить степень их пригодности для решения задач прогнозирования и принятия решений, а также исследования предметной области (например, кластерного анализа).

Прежде всего, результаты решения вышеперечисленных задач должны быть инвариантны относительно:

- единиц измерения градаций факторов (признаков);

- типов шкал, используемых для формализации классов и факторов (номинальные, порядковые и числовые);

- различных статистических характеристик исходной выборки: частотных распределений объектов по классам (обобщенным категориям), частотных распределений градаций факторов, различий в количестве признаков в описаниях объектов исследуемой выборки, различий в суммарном количестве признаков по классам.

Кроме того, форма представления должна обеспечивать решение вышеперечисленных задач с минимальными дополнительными затратами ручного труда, а это значит, что вся предварительная обработка должна быть максимально автоматизирована.

Эти требования можно рассматривать и как критерии выбора наиболее подходящей для решения вышеперечисленных задач формы представления данных, информации и знаний.

Рассмотрим влияние единиц измерения в исходной выборке на результаты решения задач прогнозирования и принятия решений, а также исследования предметной области (например, кластерного анализа).

Если в исходных данных какие-то значения выражены в больших единицах измерения, то их числовые значения будут малыми, и наоборот, если единицы измерения мелкие, то числовые значения - большие. Большие значения оказывают большее влияние на результаты математической обработки, чем малые, и это приводит к возникновению зависимости результатов решения задач идентификации, прогнозирования и принятия решений, а также кластерного анализа, от выбранных размерностей исходных данных, что, на взгляд авторов, совершенно недопустимо и указывает на то, что такое решение нельзя признать корректным и даже вообще решением. По этой же причине некорректно совместно обрабатывать сами исходные данные, представленные в различных единицах измерения (натуральных или ценовых), например, складывать расстояния, представленные в километрах и в метрах, а затем прибавлять к ним тонны и килограммы, а затем еще и безразмерные величины, хотя, как ни удивительно, но как показывает опыт на практике это довольно часто делается. Странно, что обычно на это не обращают никакого внимания при использовании исходных данных, представленных в различных единицах измерения. Например, даже в таких популярных (причем, совершенно заслуженно) системах, как SPSS, в подсистеме кластерного анализа приводятся примеры кластерного анализа над исходными данными, представленными в различных единицах измерения.

Для решения поставленной задачи в АСК-анализе проводится последовательное повышение степени формализации исходных данных до уровня, обеспечивающего их обработку на компьютере в программной системе. После выполнения когнитивной структуризации и формализации предметной области осуществляется синтез модели. Он включает в себя расчет на основе эмпирических данных, представленных в исследуемой выборке, следующих матриц:

- матрицы абсолютных частот (большинство статических систем этим и ограничиваются);

- матрицы условных и безусловных процентных распределений (в некоторых системах это также делается);

- матрицы информативностей или матрицы знаний (что осуществляется только в АСК-анализе).

Рассмотрим, используя вышеперечисленные критерии, в какой степени эти матрицы пригодны для решения задач прогнозирования и принятия решений, а также исследования предметной области (например, кластерного анализа) и какую работу необходимо выполнять вручную и автоматизировать, чтобы повысить их пригодность для этого.

Матрица абсолютных частот отражает, сколько раз каждая градация факторов встречается у объектов каждого класса.

Проблема размерностей при расчете матрицы абсолютных частот решается тем, что сами размерные исходные данные с использованием шкал различных типов (номинальных, порядковых и числовых) заменяются на факты их встречи, т.е. на частоты встреч тех или иных их интервальных значений [31] в различных группах, соответствующих классам. Фактом является наблюдение определенного экстенсионального значения (признака, градации фактора) у объекта исходной выборки, относящегося к некоторой интенсиональной категории (классу).

Однако вышеперечисленные задачи решать на основе абсолютных частот можно только в том случае, если по каждому классу в исходных данных было приведено одинаковое количество примеров, что на практике встречается крайне редко и является трудно достижимым при сборе исходных данных, за исключением случая жестко спланированного управляемого эксперимента (обычно очень небольшой размерности). Можно, конечно, вручную учитывать это различие, однако реально это возможно сделать только на моделях очень небольшой размерности и требует специальных усилий (работы).

Чтобы результаты решения вышеперечисленных задач не зависели от количества примеров по разным классам (т.е. были инвариантны относительно формы частотных распределений примеров по классам, частотного распределения признаков и др.) можно перейти от матрицы абсолютных частот к матрице условных и безусловных процентных распределений (матрице относительных частот или частостей).

При неограниченном увеличении объема выборки частости стремятся (сходятся) к вероятностям, как своим пределам. Способ, которым частости приближаются к вероятностям, называется сходимостью модели. В системе «Эйдос» реализован специальный режим, позволяющий исследовать сходимость модели, в том числе скорость сходимости и погрешность различия частости и вероятности при различных объемах исследуемой выборки. Учитывая все это при достаточно больших выборках, по мнению авторов, допустимо вместо термина «частость» использовать термин «условная вероятность», тем более что в аналитических выражениях обычно оперируют именно вероятностями.

Однако и при решении вышеперечисленных задач на основе матрицы условных и безусловных процентных распределений приходится вручную осуществлять сравнение условных относительных частот, что реально возможно только на моделях очень малой размерности и требует довольно больших специальных усилий. Поэтому есть смысл автоматизировать и это сравнение, так, чтобы в нашем распоряжении была матрица, содержащая уже сами результаты сравнения условных относительных частот в количественной форме.

Для того чтобы реализовать эту автоматизацию необходимо выбрать базу сравнения и способ сравнения, т.е. ответить на два вопроса:

- с чем сравнивать условные относительные частоты: друг с другом или с безусловными частотами;

- как сравнивать условные относительные частоты: с помощью вычитания или с помощью деления.

Если в модели есть всего два класса, то можно сравнивать условные относительные частоты как друг с другом, так и с безусловными частотами, т.к. это одинаково как по трудоемкости (затрачиваемым вычислительным ресурсам), так и по результатам сравнения. Если же в модели хотя бы три класса, то уже возникают определенное затруднения в том, как сравнить условные процентные распределения по ним, а если их сотни или тысячи, то это становится даже в теоретическом плане непонятным. Поэтому в [1] предлагается использовать в качестве базы для сравнения (нормы) условных относительных частот их взвешенное среднее по всей исследуемой выборке или безусловные частоты.

Что касается вопроса о том, вычитание или деление для этого сравнения использовать, то этот вопрос не является принципиальным, т.к. различие между вычитанием и делением сводится к выбору единиц измерения результатов сравнения: если взять логарифм от отношения, то получится разность логарифмов, которая ведет себя точно также, как разность логарифмируемых выражений.

Переход от матрицы абсолютных частот к матрице условных и безусловных процентных распределений обеспечивает инвариантность результатов решения вышеперечисленных задач от формы частотного распределения примеров по классам, однако при этом никак не решается вопрос о зависимости этих результатов от размерностей различных градаций факторов (признаков) и типов шкал, используемых для формализации факторов.

Проблему размерностей можно было бы решить, перейдя к стандартизированным величинам или отношениям условных и безусловных вероятностей. Например, формулу Байеса можно рассматривать как дающую количественную оценку степени влияния фактора на наступление некоторого события. Отношение условной вероятности наблюдения некоторого значения фактора в группе (классе) к безусловной вероятности его наблюдения по всей исследуемой выборке также можно рассматривать как количественную меру силы и направления его влияния на переход объекта в состояние, соответствующее классу, т.е. как количественную оценку силы и направления причинно-следственной связи между ними.

Возникает вопрос о том, каким образом формально описать влияние на объект не отельных значений факторов, а всей их системы. Для того чтобы это сделать введем понятие частных критериев и интегрального критерия.

Частным критерием будем называть выраженное в количественной форме влияние отдельного значения фактора на переход объекта в различные состояния.

Это значит, что отношение условной вероятности наблюдения некоторого значения фактора в группе (классе) к безусловной вероятности его наблюдения по всей исследуемой выборке можно, рассматривать как частный критерий.

Тогда, если значение фактора способствует переходу объекта в некоторое состояние, то отношение условной вероятности наблюдения этого значения фактора в группе (классе), соответствующей данному состоянию, будет больше безусловной вероятности его наблюдения по всей исследуемой выборке и этот критерий будет иметь значение больше 1.

Если значение фактора препятствует переходу объекта в некоторое состояние, то отношение условной вероятности наблюдения этого значения фактора в группе (классе), соответствующей данному состоянию, будет меньше безусловной вероятности его наблюдения по всей исследуемой выборке и этот критерий будет иметь значение меньше 1.

Если же значение фактора никак не влияет на переход объекта в некоторое состояние, то отношение условной вероятности наблюдения этого значения фактора в группе (классе), соответствующей данному состоянию, будет равно безусловной вероятности его наблюдения по всей исследуемой выборке и этот критерий будет иметь значение равное 1.

Интегральным критерием будем называть некоторое аналитическое выражение от частных критериев, которое количественно отражает силу влияния системы факторов на переход объекта в различные состояния.

Моделируемый объект является линейным, если результат совместного действия на него совокупности факторов является суммой результатов влияния на него каждого из этих факторов в отдельности, т.е. выполняется принцип суперпозиции факторов. Чем меньше интенсивность взаимодействия между факторами в объекте, тем ближе система факторов к множеству [29] и тем ближе объект к линейному. Таким образом, для линейных объектов можно обоснованно считать, что взаимодействие между факторами в этих объектах отсутствует, т.е. по сути можно считать, что на них действует не система факторов, а множество факторов.

Для линейных объектов интегральный критерий, отражающий совместное влияние факторов на объект, можно представить в форме суммы влияния каждого из этих факторов в отдельности, т.е. в форме суммы частных критериев, т.е. для линейных объектов оправданно и обоснованно использовать аддитивный интегральный критерий.

Приведенные выше количественные меры силы и направления причинно-следственных связей очень неудобны для использования подобных в качестве частных критериев, в основном потому, что в случае отсутствия влияния фактора они равны 1. В результате в аддитивном интегральном критерии будет присутствовать некое слагаемое, равное количеству недействующих факторов, и для каждого класса это слагаемое будет свое. В результате подобный интегральный критерий окажется просто непригодным для оценки влияния совокупности факторов на поведение объекта.

Поэтому эти частные критерии необходимо нормировать так, чтобы в случае отсутствия влияния он принимали значение равное нулю, а не единице. Есть много вариантов осуществить подобную нормировку, из которых наиболее очевидными являются:

- вычесть 1 из отношения условной вероятности к безусловной;

- взять логарифм от отношения условной вероятности к безусловной.

Первый вариант нормировки приводит к показателям типа ROI (количественная оценка степени полезности инвестиций) и различным его обобщениям. Второй вариант сразу приводит к семантической мере целесообразности информации А.Харкевича. Из этих вариантов для количественной оценки степени полезности информации для достижения целей предпочтительным является применение меры А.Харкевича [7]. Это связано с тем, что использование логарифма в этой мере позволяет привлечь огромный пласт понятий, связанных с данными, информацией и знаниями, что является для нас очень ценным.

Очень важно, что этот подход позволяет автоматически решить проблему сопоставимой обработки многих факторов, измеряемых в различных единицах измерения, т.к. в этом подходе рассматриваются не сами факторы, какой бы природы они не были и какими бы шкалами не формализовались, а количество информации, которое в них содержится о поведении моделируемого объекта [30, 31].

Необходимо также отметить, что представление о полностью линейных объектах (системах) является абстракцией и реально все объекты являются принципиально нелинейными. Вместе с тем для большинства систем нелинейные эффекты можно считать эффектами второго и более высоких порядков и такие системы в первом приближении можно считать линейными. Возможны различные модели взаимодействия факторов, в частности, развиваемые в форме системного обобщения теории множеств [29]. Этот подход в перспективе может стать одним из вариантов развития теории нелинейных систем.

Отметим, что математическая модель АСК-анализа (системная теория информации) органично учитывает принципиальную нелинейность всех объектов. Это проявляется в нелокальности нейронной сети системы «Эйдос» [30], приводящей к зависимости всех информативностей от любого изменения в исходных данных, а не как в методе обратного распространения ошибки. В результате значения матрицы информативностей количественно отражают факторы не как множество, а как систему.

Объект может перейти в некоторое будущее состояние под действием различного количества факторов, но какая бы система факторов не обусловливала (детерминировала) этот переход, в ней не может содержаться информации больше, чем можно получить, точно узнав, что объект переходит в данное состояние. Это количество информации в АСК-анализе называется «Теоретически максимальное количество информации» и определяется только количеством классов (будущих состояний объекта), которые в детерминистском случае равновероятны, т.к. между классами и факторами выполняется взаимнооднозначное соответствие, когда каждое будущее состояние однозначно определяется единственным фактором. Формула А.Харкевича видоизменена в работе [1] таким образом, чтобы удовлетворять принципу соответствия с формулой Р.Хартли в детерминистском случае. Поэтому, чем меньше факторов, тем жестче ими детерминировано поведение объекта, и наоборот, чем больше этих факторов, тем меньше влияние каждого из них на поведение объекта. Например, если переход объекта в некоторое состояние однозначно определяется единственным фактором, то добавление в модель еще одного точно такого же фактора приводит к тому, что в сумме эти два фактора будут оказывать тоже самое влияние, которое делится между ними поровну.

Так в математической модели АСК-анализа учитывается взаимодействие факторов и отличие системы факторов от множества факторов [29], являющееся источником нелинейности моделируемого объекта.

Итак, в матрице информативнстей количественно отражены сила и направление влияния каждого значения фактора на переход объекта в каждое из состояний, а также учтено, что совокупность факторов является системой, а не множеством, т.е. учтены взаимодействие факторов и нелинейность моделируемого объекта. Результаты решения задач идентификации, прогнозирования, принятия решений и научного исследования моделируемой предметной области (в частности кластерно-конструктивного анализа), на основе матрицы информативностей инвариантны относительно формы частотного распределения объектов исследуемой выборки по классам, единиц измерения значений факторов и типа шкал, используемых для формализации факторов.

Это позволяет корректно использовать в АСК-анализе аддитивный интегральный критерий в форме суммы частных критериев не только для линейных, но и для нелинейных объектов.

Различие между матрицей информативностей и матрицей знаний. Если в модели отражены лишь причинно-следственные связи между факторами и будущими состояниями объекта, но не отражена степень желательности ли нежелательности этих будущих состояний, то мы имеем дело с матрицей информативностей. Если же некоторые из будущих событий классифицируются как желательные, т.е. целевые, а другие как нежелательные, то появляется возможность количественной оценки степени полезности информации о действии факторов для перевода объекта в эти состояния, т.е. для преобразования информации в знания.

Процесс преобразования информации в знания - это процесс оценки степени полезности информации для достижения желаемых будущих состояний, т.е. целей.

Таким образом, матрица знаний количественно отражает степень полезности (а также бесполезности и вредности) факторов для достижения целей: она содержит знания в количественной форме о величине и направлении влияния каждого значения фактора на перевод объекта в каждое из будущих состояний, как желаемое, так и нежелательное.

Факт - это единство экстенсионального и интенсинального описания события, обнаруженного эмпирическим путем, т.е. по сути, факт это определение события. Пример факта: «Кошка кормит котят молоком». Пример определения в науке: «Млекопитающее - это животное (более общее, интенсиональное понятие), вскармливающее своих детей молоком (экстенсиональный специфический признак)».

Закономерности - это причинно-следственные зависимости, выявленные на исследуемой выборке и распространяемые лишь на саму эту выборку.

Эмпирический закон - это причинно-следственные зависимости, выявленные на исследуемой выборке и распространяемые на некоторую предметную область, более широкую, чем исследуемая выборка, в которой действуют те же причины действия причинно-следственных зависимостей, что и в исследуемой выборке, на которой он обнаружены. Эта более широкая предметная область называется генеральной совокупностью, по отношению к которой исследуемая выборка репрезентативна. Эмпирический закон является феноменологическим, т.е. внешним описанием зависимости последствий от причин, который не раскрывает механизма или способа, которым реализуется эта зависимость.

Научный закон - это содержательная интерпретация механизма действия эмпирического закона, т.е. способа преобразования причин в следствия. Научный закон является содержательным объяснением и интерпретацией эмпирического закона. Это объяснение, когда оно разрабатывается, не сразу становится научным законом, а сначала имеет статус научной гипотезы и приобретает статус научного закона лишь после того, как на практике, т.е. эмпирически, подтверждаются предсказания существования новых, ранее неизвестных явлений, сделанные на основе научной гипотезы. Таким образом, научный закон - это научная гипотеза, адекватность и прогностическая сила которой подтверждены (верифицированы) эмпирически. Процесс преобразования научной гипотезы в научный закон - это процесс подтверждения на практике адекватности этой научной гипотезы.

Необходимо подчеркнуть, что существует принципиальная возможность создания многих различных моделей, одинаково адекватно отражающих одну и ту же предметную область. Иногда такие модели и действительно созданы. Тогда возникает вопрос о критериях выбора одной модели, в определенном смысле «наилучшей» из многих. Среди этих критериев следует отметить адекватность, удовлетворение принципу соответствия и широту адекватно отражаемой предметной области, а также ее простоту и красоту. Из многих моделей предпочтительная та, которая более адекватна, та, которая адекватно отражает более широкую предметную область и включает в себя на основе принципа соответствия другие известные модели, а также более простая и красивая модель. Однако часто бывает, что разработка многих моделей (научных теорий) весьма затруднительна и есть или известна всего лишь одна-единственная модель. Тогда эта модель автоматически становится наилучшей из всех известных.

Возникает соблазн неоправданно и необоснованно считать, что реальность устроена именно таким образом, какой она отражается в этой наилучшей по сформулированным выше критериям модели или научной теории, т.е. необоснованно придать онтологический статус абстрактной модели. В этом состоит широко распространенная малозаметная ошибка познания, называемая «Гипостазирование». Однако эта ошибка влечет за собой целый шлейф весьма заметных последствий, важнейшим из которых является отрицание существования фактов, закономерностей и эмпирических законов, не вписывающихся в те или иные научные теории, даже если эти факты в буквальном смысле слова очевидны. Например, апологеты воздухоплавания отрицали возможность летательных аппаратов тяжелее воздуха, не смотря на птиц, которые садились и взлетали перед ними (или даже смотря на них, но не осознавая, что они видят). При этом они исходили из того, что принцип действия летальных аппаратов может быть основан только на законе Архимеда, как это следовало из единственной известной им научной теории полета. Однако существуют и другие принципы полета: в частности, баллистический, аэродинамический, ракетный, электромагнитный, на которых может быть основан принцип действия летательных аппаратов тяжелее воздуха, причем эти аппараты ни в коей мере не нарушают закон Архимеда и полностью ему подчиняются.

Признание существования факта не зависит от обнаружения закономерности. Признание существования закономерности не зависит от обнаружения соответствующего эмпирического закона. Признание существования эмпирических законов не зависит от наличия верифицированной содержательной интерпретации или научного закона, а если она есть, то от того, является ли она «правильной» или «неправильной» по тем или иным критериям или по чьему-то мнению. Таким образом, признание существования факта не зависит от наличия теории, которая его объясняет, и отсутствие такой теории не является основанием для отрицания существования или непризнания существования факта.

Когнитивные функции представляют собой новый перспективный инструмент отражения и наглядной визуализации закономерностей и эмпирических законов. Разработка содержательной научной интерпретации когнитивных функций представляет собой способ познания природы, общества и человека.

Когнитивные функции могут быть:

- прямые, отражающие зависимость классов от признаков, обобщающие информационные портреты признаков;

- обратные, отражающие зависимость признаков от классов, обобщающие информационные портреты классов;

- позитивные, показывающие чему способствуют система детерминации;

- негативные, отражающие чему препятствуют система детерминации;

- средневзвешенные, отражающие совокупное влияние всех значений факторов на поведение объекта;

- с различной степенью редукции или степенью детерминации, которая отражает в графической форме (в форме полосы) количество знаний в аргументе о значении функции и является аналогом и обобщением доверительного интервала.

Прямая и обратная, а также позитивная и негативная когнитивные функции полностью совпадают (тождественны) друг с другом только для жестко (т.е. полностью) детерминированных систем. Это связано с тем, что матрица знаний, моделирующая полностью детерминированную систему, в которой между значениями аргумента и значениями функции существует взаимнооднозначное соответствие, представляет собой диагональную матрицу [1]. Можно обоснованно предположить, что степень совпадения прямой и обратной когнитивных функций пропорциональна степени детерминированности моделируемой системы. Если интерпретировать значения факторов, обусловливающих поведение системы, как ее экстениональное описание, относящееся к ее прошлому времени, а классы - как интенсиональное описание ее будущих состояний, то можно сказать, что степень детерминации поведения системы тем выше, чем более сходным являются влияние на нее прямой и обратной причинности, т.е. если влияние прошлого на будущее совпадет с влиянием будущего на прошлое. Чем сильнее влияние прошлого на будущее отличается от влияния будущего на прошлое, тем слабее детерминированность в поведении системы, тем ближе оно к случайному. При этом рассмотрение вопросов о физическом механизме прямой и обратной причинности, как и самом существовании обратной причинности, не входит в задачи данной работы.

Матрица информативности может быть использована для выявления и визуализации когнитивных функциональных зависимостей в фрагментированных и зашумленных данных большой размерности [8]. Кратко поясним суть этого метода. Матрица информативностей рассчитывается на основе системной теории информации [1] непосредственно на основе эмпирических данных и представляет собой таблицу, в которой столбцы соответствуют обобщенным образам классов, т.е. будущим состояниям моделируемой системы, строки - значениям факторов, влияющих на эту систему, а на пересечениях строк и столбцов находится количество информации, которое содержится в факте действия значения фактора, соответствующего строке, на переход системы в состояние, соответствующее столбцу. Максимальное количество информации, которое может быть в значении фактора, определяется числом будущих состояний моделируемой системы. Модуль количества информации отражает силу влияния значения фактора, а знак - направление этого влияния, т.е. то, способствует он или препятствует наступлению данного состояния. Если последовательности классов и значений факторов образуют порядковые шкалы или шкалы отношений, т.е. соответственно, на них определены отношения «больше-меньше» или, кроме того, единица измерения, начало отсчета и арифметические операции, то матрица информативностей допускает наглядную графическую визуализацию, традиционного для функций типа, когда значения факторов рассматриваются в качестве значений аргумента, а классы, о наступлении которых в этих значениях факторов содержится максимальное количество информации - в качестве значений функции. Другие классы, менее обусловленные данным значением фактора, а также те, наступлению которых это значение препятствует в большей или меньшей степени, также могут отображаться соответствующими цветами, и это также может представлять интерес, т.к. позволяет задействовать мощные способности человека к анализу изображений. Когнитивные функции, представляемые в форме матрицы информативностей, соответствуют очень общему виду функциональной зависимости: многозначной функции многих аргументов, т.к. каждое значение фактора влияет на все состояния моделируемого объекта, и каждое его состояние обусловлено всеми значениями факторов. Простой пример визуализации матрицы информативностей, полученной на выборке, отражающей зависимость амплитуды затухающего гармонического колебания от времени, приведен на нижеследующем рисунке 1, взятом из работы [8], в котором степень детерминации значения функции значением аргумента показана различными цветами: теплые цвета - высокая степень детерминации, холодные - низкая.

Рисунок 1 Количество информации в значении аргумента о значении функции для нечеткой взаимнооднозначной когнитивной функции

Для визуализации матрицы информативностей использовалась система SigmaPlot for Windows version 10.0. Для преобразования матрицы информативностей в форму, удобную для использования в системе SigmaPlot, применялся режим _683 системы «Эйдос».

На рисунке 2, взятом из работы [10], представлена когнитивная функция, отражающая причинно-следственную зависимость объемов производства молока по всем категориям хозяйств АПК от доли оплаты труда в затратах.

Рисунок 2 Когнитивная функция зависимости объемов производства молока по всем категориям хозяйств АПК от доли в затратах оплаты труда

Прямая полностью редуцированная когнитивная функция, представленная на рисунке 2, визуализирована средствами системы «Эйдос». Количество информации в значениях аргумента о значениях функции показано интервалами. Уравнение регрессии (R2=1), представляющее эту когнитивную функцию в аналитической форме, имеет вид:

y = 0,422x4 + 39,72x3 - 1414,9x2 + 14447x - 45629

Другие примеры применения аппарата когнитивных функций в экономических исследованиях приведены в работе [28].

Таким образом, использование интервальных значений аргумента и функции позволяет с применением теории информации непосредственно на основе эмпирических данных рассчитать, какое количество информации содержится в каждом значении аргумента о каждом значении функции. При этом получается, что каждому значению аргумента соответствует не одно, а много значений функции, но соответствуют в различной степени.

Заметим, что ход времени, т.е. процесс преобразования неопределенного многовариантного будущего в определенное безальтернативное настоящее, можно рассматривать как процесс редукции многозначных когнитивных функций, отражающих будущее, в однозначные когнитивные функции, отражающие настоящее. При преобразовании неопределенного будущего в определенное настоящее происходит генерация информации, количество которой соответствует степени уменьшения неопределенности, точно так же, как в процессе измерения или познания. Поэтому можно обоснованно утверждать, что многозначные когнитивные функции аналогичны по смыслу волновой функции (функция плотности вероятности) квантовой механики (КМ) и квантовой теории поля (КТП), а преобразование многозначной когнитивной функции в однозначную аналогично процессу редукции волновой функции в процессе измерения. Процесс редукции волновой функции и другие квантовые и волновые явления тесно связаны с информацией и могут рассматриваться как информационные процессы и явления [1]. Поэтому авторами вводятся понятия нередуцированной, полностью и частично редуцированной когнитивной функции. Отметим, что понятие частично-редуцированного состояния объекта (на примере электрона), по-видимому, впервые введено Ричардом Фейнманом [25].

Для визуализации матрицы информативностей (3) первоначально использовалась система SigmaPlot for Windows version 10.0. Для преобразования матрицы информативностей в форму, удобную для использования в системе SigmaPlot, применялись режимы _683 или _53 системы «Эйдос».

В дальнейшем была создана подсистема визуализации когнитивных (каузальных) функций системы «Эйдос» (Подсистема «Эйдос-VCF» или InfVisual) [26], вошедшая в состав базовой системы «Эйдос» (режим _54) и в состав системы «Эйдос-астра» [27], позволяющая осуществлять визуализацию, как всей матрицы информативностей, так и ее фрагментов, а также строить прямые и обратные когнитивные функции различной степени редукции.


Подобные документы

  • Построение и изучение математической модели случайного стационарного эргодического процесса с вероятностными характеристиками: ожидание и дисперсия. Построение графиков динамики изменения эмпирических данных и гистограмм распределения для всех выборок.

    курсовая работа [217,2 K], добавлен 18.03.2012

  • Линеаризация нелинейных зависимостей. Специальный вид линейной зависимости. Элементы теории корреляции. Вычисление прогнозных значений величины содержания ионов Cl- по сформированным уравнениям. Решение задачи с помощью средств MS Excel и MathCad.

    курсовая работа [1,7 M], добавлен 11.12.2012

  • Представление матрицы в виде произведения унитарной и верхнетреугольной матрицы. Листинг программы. Зависимость погрешности от размерности матрицы на примере метода Холецкого. Приближенные методы решения алгебраических систем. Суть метода Зейделя.

    контрольная работа [630,5 K], добавлен 19.05.2014

  • Анализ и описание различных подходов к определению вероятности. Примеры стохастических зависимостей в экономике, их особенности и теоретико-вероятностные способы их изучения. Классификация и характеристика основных этапов эконометрического исследования.

    реферат [25,1 K], добавлен 16.04.2009

  • Разработка и принятие правильного решения как задачи работы управленческого персонала организации. Деревья решений - один из методов автоматического анализа данных, преимущества их использования и область применения. Построение деревьев классификации.

    контрольная работа [91,6 K], добавлен 08.09.2011

  • Изучение методов моделирования и анализа панельных данных. Построение ABC-XYZ классификации среди данных широкой номенклатуры по товарным запасам торгового предприятия. Виды исходных данных и построение на их основе модели регрессии по панельным данным.

    курсовая работа [363,2 K], добавлен 23.02.2015

  • Основные свойства и виды функций. Общая схема исследования функций, признак возрастания и убывания. Применение функций при рассмотрении зависимостей экономических величин от различных факторов. Пример построения графика спроса и предложения на мороженое.

    реферат [358,6 K], добавлен 10.04.2011

  • Разработка и исследование эконометрических методов с учетом специфики экономических данных и в соответствии с потребностями экономической науки и практики. Применение эконометрических методов и моделей для статистического анализа экономических данных.

    реферат [43,1 K], добавлен 10.01.2009

  • Аппроксимация данных с учетом их статистических параметров. Математическая постановка задачи регрессии, ее принципы. Виды регрессии: линейная и нелинейная, полиномиальная. Сглаживание данных и предсказание зависимостей. Реализация задач в Mathcad.

    реферат [167,8 K], добавлен 12.04.2009

  • Описание конкретной экономической ситуации и исходных числовых данных. Конструирование числовых моделей Л.П. в аналитической и табличной формах. Решение параметрических задач Л.П., построение табличных зависимостей экономических показателей, общий анализ.

    задача [499,5 K], добавлен 11.07.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.