Модификация взвешенного метода наименьших квадратов путем применения в качестве весов наблюдений количества информации в аргументе о значении функции (алгоритм и программная реализация)
Характеристика особенностей метода автоматизированного системно-когнитивного анализа. Ознакомление с основными функциями программного инструментария – интеллектуальной системы "Эйдос". Определение сущности взвешенного метода наименьших квадратов.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 20.05.2017 |
Размер файла | 3,3 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Кубанский государственный аграрный университет
Модификация взвешенного метода наименьших квадратов путем применения в качестве весов наблюдений количества информации в аргументе о значении функции (алгоритм и программная реализация)
Луценко Евгений Вениаминович, д.э.н., к.т.н., профессор
Краснодар
Содержание
Аннотация
- 1. Проблема восстановления аналитической формы функции по ее графику или таблично заданным значениям
- 2. Взвешенный метод наименьших квадратов (ВМНК) как традиционный путь решения проблемы
- 3. Недостатки традиционного решения проблемы (ВМНК)
- 4. Предлагаемое решение проблемы: метод взвешенных наименьших квадратов, модифицированный путем применения теории информации для расчета весовых коэффициентов наблюдений
- 5. Численный пример
- Выводы
- Литература
- Аннотация
- Метод наименьших квадратов (МНК) широко известен и пользуется заслуженной популярностью. Вместе с тем не прекращаются попытки усовершенствования этого метода. Результатом одной из таких попыток является взвешенный метод наименьших квадратов (ВМНК), суть которого в том, чтобы придать наблюдениям вес обратно пропорциональный погрешностям их аппроксимации. Этим самым, фактически, наблюдения игнорируются тем в большей степени, чем сложнее их аппроксимировать. В результате такого подхода формально погрешность аппроксимации снижается, но фактически это происходит путем частичного отказа от рассмотрения «проблемных» наблюдений, вносящих большую ошибку. Если эту идею, лежащую в основе ВМНК довести до крайности (и тем самым до абсурда), то в пределе такой подход приведет к тому, что из всей совокупности наблюдений останутся только те, которые практически точно ложатся на тренд, полученный методом наименьших квадратов, а остальные просто будут проигнорированы. Однако, по мнению автора, фактически это не решение проблемы, а отказ от ее решения, хотя внешне и выглядит как решение. В работе предлагается именно решение, основанное на теории информации: считать весом наблюдения количество информации в аргументе о значении функции. Этот подход был обоснован в рамках нового инновационного метода искусственного интеллекта: метода автоматизированного системно-когнитивного анализа (АСК-анализа) и реализован еще 30 лет назад в его программном инструментарии - интеллектуальной системе «Эйдос» в виде так называемых «когнитивных функций». В данной статье приводится алгоритм и программная реализация данного подхода, проиллюстрированные на подробном численном примере. В будущем планируется дать развернутое математическое обоснование метода взвешенных наименьших квадратов, модифицированного путем применения теории информации для расчета весовых коэффициентов наблюдений, а также исследовать его свойства
- Ключевые слова: метод взвешенных наименьших квадратов, модифицированный путем применения теории информации для расчета весовых коэффициентов наблюдений, АСК-анализ, система «Эйдос»
1. Проблема восстановления аналитической формы функции по ее графику или таблично заданным значениям
После ряда основополагающих работ Рене Декарта стало понятно, что любой функции соответствует график, а любому графику - функция. Построение графика по аналитически заданной функции не представляет собой проблемы, т.к. известен способ, как это сделать, т.е. это задача.
Решается эта задача путем:
- расчета с использованием аналитического выражения для функции таблицы ее значений (таблица 1), соответствующих различным значениям аргумента;
- построения графика параметрически заданной функции (1).Если функциональная зависимость y от x не задана непосредственно y = f(x), а через промежуточную величину - t, то формулы (1)
(1)
задают параметрическое представление функции одной переменной.
Таблица 1 представляет собой таблицу значений функции y и ее аргумента x (1) для различных значений параметра t.
Таблица 1 - Параметрическое задание функции в виде таблицы
… |
|||||
… |
|||||
… |
Однако решение обратной задачи, т.е. задачи восстановления аналитической формы представления функции, т.е. формулы вида: , по ее графику или таблично заданным значениям до сих пор представляет собой проблему, не решенную в общем виде.
Решению этой проблемы посвящен регрессионный анализ [32, 33], в котором широко применяется метод наименьших квадратов (МНК), а также его взвешенный вариант. Однако этот метод позволяет точно восстановить неизвестный истинный вид функции лишь в редких частных случаях, а в общем виде решает лишь задачу поиска и подбора такого вида функции из заранее определенного набора, которая в определенном смысле или по определенным критериям наилучшим образом совпадает с этой неизвестной истинной функцией. автоматизированный программный эйдос
Одним из общепринятых и действительно наиболее убедительных критериев качества подбора функции, аппроксимирующей эмпирические данные (типа таблицы 1), является минимизация суммы квадратов отклонений эмпирических значений от этой аппроксимирующей их функции.
Однако исследование этих отклонений при аппроксимации различных эмпирических данных показало, что далеко не всегда эти отклонения равномерно зависят от значения функции. Иначе говоря, качество аппроксимации эмпирических данных ожжет изменяться для различных значений аргумента, т.е. качество аппроксимации различно для различных фрагментов функции и эмпирических данных.
Ясно, что качество аппроксимирующей функции не может быть выше качества ее фрагмента, наиболее плохо аппроксимирующего эти эмпирические данные. Вполне понятно и стремление математиков-практиков повысить качество аппроксимации. Но что предлагают в этом плане математики-теоретики?
Если эмпирических данных, выпадающих из закономерности, отражаемой аппроксимирующей функцией, не очень много, то их объявляют «артефактами» и это дает теоретические основания просто игнорировать их путем удаления из исследуемой выборки. Ясно, что после этой операции качество аппроксимации заметно улучшается.
Но является ли это решением проблемы? По мнению автора формально является, т.к. вроде как качество модели возрастает, но конечно фактически это не решение, т.к. основано на порочном принципе: «Если факты не вписываются в теорию (в нашем случае аналитическую модель), то тем хуже для фактов». Фактически это «страусиный» способ решения проблем, который состоит просто в том, чтобы не видеть их или делать вид, что их не существует. При этом исследователь часто не отдает себе в этом отчет и впадает в иллюзию (гипостазирование), что он моделирует саму реальность и исследует ее путем исследования созданной им ее модели, тогда как в действительности он исследует только ту часть реальности, которую смог смоделировать при своих ограниченных возможностях моделирования. Профессор А.И.Орлов пишет, что это равносильно тому, чтобы «искать под фонарем, а не там, где потеряли» [1]. Конечно, разработка таких более мощных методов моделирования ведется [2]. Но ознакомление с ними математиков-практиков, и даже руководителей науки, далеко отстает от фактической потребности применения этих методов [2]. Приведем простейший пример, иллюстрирующий высказанные мысли. Если данные не вписываются в линейную модель, то можно игнорировать или удалить из исследуемой те из них, которые вносят основной вклад в суммарную ошибку, а можно использовать квадратичную модель, которая точно описывает эти данные во всей их полноте (таблица 2, рисунки 1, 2 и 3):
Таблица 2 - Исходные данные для примера
Значение аргумента |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
|
Значение функции |
1 |
4 |
9 |
16 |
25 |
36 |
49 |
Рисунок 1. Линейная модель не адекватно отражает исходные данные
Рисунок 2. Линейная модель адекватно отражает исходные данные,
Из которых удалены все наблюдения, кроме 2-го и 6-го
Рисунок 3. Квадратичная модель адекватно отражает все исходные данные
2. Взвешенный метод наименьших квадратов (ВМНК) как традиционный путь решения проблемы
Но есть и более развитые идеи и методы улучшения модели по формальным критериям качества: не вообще удалять неудобные данные, а просто уменьшать их значение или вес и делать это тем в большей степени, чем более эти данные неудобны, т.е. с чем большей ошибкой они отражаются в модели. На этой идее основан взвешенный метод наименьших квадратов (ВМНК), который является традиционным путем решения поставленной проблемы. Фактически в этом методе данные сначала преобразуются взвешиванием наблюдений (делением на величину, пропорциональную предполагаемому стандартному отклонению случайных ошибок), а к предварительно взвешенным данным уже применяется обычный стандартный метод наименьших квадратов.
Профессор А.И. Орлов пишет о том, что:
- на подавление выбросов нацелены робастные методы;
- вероятностно-статистическая модель порождения данных - первична, а метод оценивания параметров качества модели - вторичен;
- точность восстановления зависимости традиционно оценивается дисперсиями и доверительным интервалами;
- если в разные моменты времени проводится различное количество наблюдений, вследствие чего их надежность, погрешности и другие характеристики, вообще говоря, оказываются зависящими от времени, то взвешивание данных действительно необходимо.
Тем ни менее к взвешенному методу наименьших квадратов также может быть адресован ряд критических замечаний, которые мы кратко рассмотрим ниже.
3. Недостатки традиционного решения проблемы (ВМНК)
Все те возражения, которые были высказаны выше в отношении процедуры удаления из исходных данных «артефактов» полностью сохранят силу и для взвешенного метода наименьших квадратов.
Но здесь появляются и дополнительные возражения.
Прежде всего, возникают взаимосвязанные вопросы о цели моделирования и цели повышения качества моделирования.
Если целью моделирования является наиболее полное и адекватное отражение реальности в моделях, а так по наивности обычно все и думают, то повышение качества моделирования должно осуществляться не путем выбора наиболее легко и просто моделируемой предметной области, а путем совершенствования математического аппарата и программного инструментария моделирования.
Но если исходить из этой логики, то в методе взвешенных наименьших квадратов вес наблюдений должен быть принят не обратно пропорциональным вносимым этими наблюдениями ошибкам аппроксимации простым МНК, а наоборот пропорциональным этим ошибкам. Проще говоря, чем сложнее некоторые данные отразить в модели, тем более пристальное внимание должно быть им уделено, а не наоборот, как в ВМНК, где фактически от таких данных просто отмахиваются игнорируя их и теоретически обосновывая их якобы «несущественность».
Но в чем фактически состоит причина, по которой эти данные вдруг стали считаться несущественными? Да просто в том, что «они портят всю картину», такую стройную и удобную, т.е. ухудшают формальное качество модели. Поэтому если цель (точнее ее называть самоцелью) моделирования состоит не в адекватном отражении реальности, а в повышении формального качества модели, то от таких данных надо избавиться, но уже не просто удалив их из исследуемой выборки как «артефакты», а более цивилизованным способом, т.е. приписав им меньший вес, в т.ч. вес, равный нулю.
Более того, в статистических пакетах предоставлена возможность задавать веса вручную, позволяет регулировать вклад тех или иных данных в результаты построения моделей. Иначе говоря, предоставляется возможность вручную практически произвольно по своему усмотрению влиять на модель путем подбора нужных весовых коэффициентов. Но если так, то может быть проще использовать не статистические пакеты, а просто взять и сразу написать в аналитическом отчете, что «компьютер посчитал так…» и нарисовать в графическом редакторе нужные выходные формы. С аналогичными подходами мы сталкиваемся и при проведении кластерного анализа [30].
4. Предлагаемое решение проблемы: метод взвешенных наименьших квадратов, модифицированный путем применения теории информации для расчета весовых коэффициентов наблюдений
В работах [1, 2] рассматриваются точки роста и перспективы статистических методов, и дается положительная оценка методу автоматизированного системно-когнитивного анализа (АСК-анализ) и его программному инструментарию - интеллектуальной системе «Эйдос».
В АСК-анализе факторы формально описываются шкалами, а значения факторов - градациями шкал [3]. Существует три основных группы факторов: физические, социально-экономические и психологические (субъективные) и в каждой из этих групп есть много различных видов факторов, т.е. есть много различных физических факторов, много социально-экономических и много психологических, но в АСК-анализе все факторы рассматриваются с одной единственной точки зрения: сколько информации содержится в их значениях о переходе объекта, на который они действуют, в определенные будущие состояния, и при этом сила и направление влияния всех значений факторов на объект измеряется в одних общих для всех факторов единицах измерения: единицах количества информации. Именно по этой причине вполне корректно складывать силу и направление влияния всех действующих на объект значений факторов, независимо от их природы, и определять результат совместного влияния на объект системы значений факторов. При этом в общем случае объект является нелинейным и факторы внутри него взаимодействуют друг с другом, т.е. для них не выполняется принцип суперпозиции.
Если же разные факторы измеряются в различных единицах измерения, то результаты сравнения объектов будут зависеть от этих единиц измерения, что совершенно недопустимо с теоретической точки зрения [3].
Введем определение когнитивной функции: когда функция используется для отображения причинно-следственной зависимости, т.е. информации (согласно концепции Шенка-Абельсона [34]), или знаний, если эта информация полезна для достижении целей [35], то будем называть такую функцию когнитивной функцией, от англ. «cognition» [3].
Смысл когнитивной функциональной зависимости в том, что в значении аргумента содержится определенное количество информации о том, какое значение примет функция, т.е. когнитивная функция отражает знания о степени соответствия значений функции значениям аргумента [3].
Очень важно, что этот подход позволяет автоматически решить проблему сопоставимой обработки многих факторов, измеряемых в различных единицах измерения, т.к. в этом подходе рассматриваются не сами факторы, какой бы природы они не были и какими бы шкалами не формализовались, а количество информации, которое в них содержится о поведении моделируемого объекта [3].
Необходимо также отметить, что представление о полностью линейных объектах (системах) является абстракцией и реально все объекты являются принципиально нелинейными. Вместе с тем для большинства систем нелинейные эффекты можно считать эффектами второго и более высоких порядков и такие системы в первом приближении можно считать линейными. Возможны различные модели взаимодействия факторов, в частности, развиваемые в форме системного обобщения теории множеств. Этот подход в перспективе может стать одним из вариантов развития теории нелинейных систем [3].
Отметим, что математическая модель АСК-анализа (системная теория информации) органично учитывает принципиальную нелинейность всех объектов. Это проявляется в нелокальности нейронной сети системы «Эйдос» [46], приводящей к зависимости всех информативностей от любого изменения в исходных данных, а не как в методе обратного распространения ошибки. В результате значения матрицы информативностей количественно отражают факторы не как множество, а как систему.
В АСК-анализе ставится задача метризации шкал, т.е. преобразования к наиболее формализованному виду, и предлагается 7 способов метризации всех типов шкал, обеспечивающих совместную сопоставимую количественную обработку разнородных факторов, измеряемых в различных единицах измерения за счет преобразования всех шкал к одним универсальным единицам измерения в качестве которых выбраны единицы измерения количества информации. Все эти способы метризации реализованы в АСК-анализе и системе «Эйдос» [3]. В работах [4, 5, 6] кратко описаны суть и история появления и развития метода АСК-анализа и его программного инструментария - интеллектуальной системы «Эйдос», поэтому здесь мы их излагать не будем. Отметим лишь, что эти методы созданы довольно давно и уже в 1987 году были акты внедрения интеллектуальных приложений, в которых формировались информационные портреты классов и и значений факторов [7].
Поэтому для нас является вполне естественным предположить, что в качестве весов наблюдений целесообразно использовать количество информации, которое содержится в этих наблюдениях о том, что интересующие нас выходные параметры объекта моделирования примут те или иные значения или сам объект моделирования перейдет в состояния, соответствующие тем или иным классам или окажется принадлежащим к определенным обобщающим категориям (группам). В этом и состоит основная идея предлагаемого решения поставленной проблемы.
В АСК-анализе на основе системной теории информации [7, 17] развит математический аппарат, обеспечивающий формальное описание поведения сложных нелинейных объектов моделирования под воздействием систем управляющих факторов и окружающей среды, а также созданы инструментальные средства, реализующие этот математический аппарат.
В частности в АСК-анализе предложено понятие когнитивных функций, которое рассмотрено и развито в ряде работ автора и соавторов [8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18] и поэтому здесь нет смысла подробно останавливаться на этом понятии. Отметим лишь суть. В работе [16] кратко рассматриваются классическое понятие функциональной зависимости в математике, определяются ограничения применимости этого понятия для адекватного моделирования реальности и формулируется проблема, состоящая в поиске такого обобщения понятия функции, которое было бы более пригодно для адекватного отражения причинно-следственных связей в реальной области. Далее рассматривается теоретическое и практическое решения поставленной проблемы, состоящие в том, что:
а) предлагается универсальный не зависящий от предметной области способ вычисления количества информации в значении аргумента о значении функции, т.е. когнитивные функции;
б) предлагается программный инструментарий: интеллектуальная система «Эйдос», позволяющая на практике осуществлять эти расчеты, т.е. строить когнитивные функции на основе фрагментированных зашумленных эмпирических данных большой размерности.
Предлагаются понятия нередуцированных, частично и полностью редуцированных прямых и обратных, позитивных и негативных когнитивных функций и метод формирования редуцированных когнитивных функций, являющийся вариантом известного взвешенного метода наименьших квадратов, отличающимся от стандартного ВМНК учетом в качестве весов наблюдений количества информации в значениях аргумента о значениях функции. Конечно, применение теории информации для решения проблем и развития статистики не является абсолютно новой идеей. Как указывает в своих работах [1, 2] профессор А.И. Орлов, сходные идеи развивал еще в середине XX века С. Кульбак [19], а в эпиграф данной статьи вынесено программное высказывание выдающегося российского математика А.Н. Колмогорова: «... навыки мысли и аналитический аппарат теории информации должны, по-видимому, привести к заметной перестройке здания математической статистики», которые содержится в его предисловии к той же книге С.Кульбака и также приведенное в работах [1, 2]. В наше время в этом направлении продуктивно работают Дуглас Хаббард [20], а также российский математик В.Б.Вяткин [21-28].
Кроме того, иногда авторы, излагающие в частности взвешенный метод наименьших квадратов, может быть не вполне осознанно используют слово «информация» не как научный термин, а в обиходном разговорном смысле. Например, в работе, приведенной на сайте: http://lib.alnam.ru/book_prs2.php?id=38, автор пишет: «Чтобы учесть разницу в информации, которую несет каждое наблюдение, для нахождения оценки необходимо минимизировать взвешенную сумму квадратов отклонений» (отмечено мной, авт.). Казалось бы, остается «лишь» посчитать это количество информации и вариант взвешенного метода наименьших квадратов, основанный на теории информации, готов, но, однако мы видим, что ниже идет изложение стандартного ВМНК.
Таким образом, даже если принять в принципе изложенные выше идеи о применении количества информации в наблюдении в качестве веса наблюдения во взвешенном методе наименьших квадратов, то все равно остается очень существенный и принципиальный вопрос о том, каким способом возможно реально посчитать это количество информации. Этот вопрос разбивается на две части:
- с помощью какого математического аппарата возможно посчитать количество информации в наблюдении?
- с помощью какого программного инструментария, реализующего этот математический аппарат, возможно посчитать количество информации в наблюдении?
Автоматизированный системно-когнитивный анализ (АСК-анализ) и его математическая модель (системная теория информации), а также реализующий их программный инструментарий АСК-анализа - система «Эйдос» - это и есть ответы на этот вопрос. Таким образом, АСК-анализ и система «Эйдос» представляют собой современную интеллектуальную инновационную (полностью готовую к внедрению) технологию взвешенного метода наименьших квадратов, модифицированного путем применения в качестве весов наблюдений количества информации в них.
При этом при принятии решений о применении для решения поставленной проблемы этой интеллектуальной инновационной технологии естественно возникает вопрос о степени точности восстановления в создаваемых с помощью нее моделях исследуемых эмпирических зависимостей в АСК-анализе и системе «Эйдос».
Традиционно точность восстановления зависимости оценивается дисперсиями и доверительным интервалами. В АСК-анализе смысловым аналогом доверительного интервала, в определенной степени, конечно, является количество информации в аргументе о значении функции. Поэтому необходимо исследовать соотношение смыслового содержания этих понятий: доверительного интервала и количества информации.
На математическом уровне это планируется сделать в будущем, а в данной статье отметим лишь, что чем больше доверительный интервал, тем выше неопределенность наших знаний о значении функции, соответствующем значению аргумента, а чем он меньше, тем эта определенность выше. Но информация и определяется как количественная мера степени снятия неопределенности. Учитывая это можно утверждать, что чем больше доверительный интервал, тем меньше информации о значении функции, соответствующем значению аргумента мы получаем, а чем он меньше, тем это количество информации больше. Забегая вперед, отметим, что в частично-редуцированных когнитивных функциях, например изображенных на рисунке 15, количество информации в значениях аргумента о значениях функции наглядно изображено шириной полосы функции, что не только по смыслу, но внешне очень сходно с доверительным интервалом. При этом отметим еще один интересный момент, который состоит в том, что если традиционный доверительный интервал при экстраполяции при удалении от эмпирических значений ко все далее отстоящим от них в будущим все время увеличивается, то в степень редукции когнитивной функции то увеличивается, то уменьшается. Это связано с тем, что АСК-анализ и система «Эйдос» позволяют не только прогнозировать будущие события, но и прогнозировать достоверность или риски этих прогнозов [7], т.е. прогнозировать продолжительность периодов эргодичности и точки бифуркации (качественного изменения закономерностей в моделируемой предметной области), что наглядно и отображается в такой форме. В частности при этом при нулевом доверительном интервале формально получается, что мы имеем бесконечное количество информации о значении функции, но на практике это вообще невозможно [17] и даже в теории возможно только для отдельных точек целых значений аргумента и функции. При бесконечном доверительном интервале в значении аргумента функции содержится ноль информации о значении функции.
Ниже на простом численном примере мы кратко рассмотрим технологию, позволяющую на практике и в любой предметной области посчитать, какое количество информации содержится в наблюдении. В связи с ограничениями на объем статьи автор не имеет возможности полностью раскрыть все позиции на приведенных ниже скриншотах и рисунках, т.е. фактически предполагается некоторое предварительное знакомство читателя с системой «Эйдос». Если же такое знакомство недостаточно полное, то автор отсылает автора к публикациям в списке литературы и к сайту: http://lc.kubagro.ru/.
5. Численный пример
В АСК-анализе и системе «Эйдос» реализован аппарат когнитивных функций, который может быть применен для иллюстрации варианта взвешенного метода наименьших квадратов. На важность подобных наглядных примеров также указывал А.Н. Колмогоров: «По-видимому, внедрение предлагаемых методов в практическую статистику будет облегчено, если тот же материал будет изложен более доступно и проиллюстрирован на подробно разобранных содержательных примерах» [1, 2, 19].
Для этой цели рассмотрим численный пример, основанный на исходных данных, приведенных в работе (таблица 3) [29].
Необходимо отметить, что данные в таблице 3 достаточно условные, поскольку не содержат полного (адекватного) набора исходных данных, от которых зависит цена предложения квартиры (которая, кстати, в них и не содержится). В частности в таблице 3 нет числа комнат, указаны не все возможные типы домов, не учтена инфраструктура, как на сайте: http://1bezposrednikov.ru/krasnodar/kalkulyator_stoimosti/, не указано, входит ли площадь кухни в площадь квартиры, т.е. что это за площадь: общая или жилая, и т.д. Вместе с тем для целей данной статьи, т.е. для иллюстрации излагаемых в ней идей и методов, они достаточны (после некоторых корректировок, о которых сказано ниже).
Таблица 3 - Исходные данные для эконометрического моделирования
№ наблюдения |
Стоимость 1 кв.м. квартиры (руб./м2) |
Жилая площадь квартиры (м2) |
Тип дома |
Наличие балкона |
Площадь кухни (м2) |
Тип жилья |
|
1 |
360,000 |
80 |
0 |
0 |
25 |
0 |
|
2 |
388,015 |
110 |
0 |
1 |
23 |
0 |
|
3 |
328,393 |
127 |
0 |
0 |
30 |
0 |
|
4 |
319,000 |
135 |
0 |
1 |
20 |
0 |
|
5 |
343,600 |
76 |
0 |
0 |
16 |
0 |
|
6 |
360,000 |
75 |
0 |
1 |
16 |
0 |
|
7 |
315,499 |
107 |
0 |
0 |
12 |
0 |
|
8 |
470,000 |
62 |
0 |
0 |
16 |
0 |
|
9 |
305,006 |
137 |
0 |
0 |
20 |
0 |
|
10 |
338,398 |
72 |
0 |
1 |
20 |
0 |
|
11 |
309,632 |
147 |
1 |
0 |
50 |
0 |
|
12 |
396,660 |
45 |
1 |
1 |
11,3 |
0 |
|
13 |
300,400 |
120 |
0 |
1 |
14 |
0 |
|
14 |
390,400 |
70 |
0 |
1 |
14 |
0 |
|
15 |
257,151 |
154 |
0 |
1 |
25 |
0 |
|
16 |
342,000 |
58 |
0 |
1 |
15 |
0 |
|
17 |
348,840 |
58 |
0 |
1 |
15,3 |
0 |
|
18 |
360,000 |
64 |
0 |
1 |
18 |
0 |
|
19 |
355,000 |
108 |
0 |
0 |
13 |
0 |
|
20 |
330,060 |
113 |
0 |
1 |
15 |
0 |
|
21 |
315,904 |
99 |
0 |
1 |
25 |
0 |
|
22 |
303,100 |
136 |
0 |
0 |
18 |
0 |
|
23 |
317,152 |
120 |
0 |
1 |
30 |
0 |
|
24 |
290,500 |
156 |
0 |
1 |
20 |
1 |
|
25 |
374,000 |
105 |
0 |
1 |
25 |
1 |
|
26 |
288,000 |
110 |
0 |
1 |
10,8 |
1 |
|
27 |
298,200 |
63 |
1 |
1 |
12 |
1 |
|
28 |
177,419 |
97 |
1 |
0 |
10 |
1 |
|
29 |
201,100 |
80 |
1 |
0 |
10 |
1 |
|
30 |
212,470 |
50 |
1 |
1 |
9 |
1 |
|
31 |
330,000 |
63 |
0 |
0 |
15 |
1 |
|
32 |
258,000 |
66 |
1 |
1 |
13 |
1 |
|
33 |
200,300 |
87 |
1 |
0 |
11 |
1 |
|
34 |
206,940 |
104 |
1 |
0 |
10 |
1 |
|
35 |
313,000 |
43 |
1 |
1 |
13 |
1 |
|
36 |
213,600 |
74 |
1 |
0 |
18 |
1 |
|
37 |
257,140 |
70 |
1 |
1 |
10 |
1 |
|
38 |
308,440 |
77 |
0 |
1 |
10,4 |
1 |
|
39 |
315,860 |
104 |
0 |
1 |
25 |
0 |
|
40 |
354,200 |
90 |
0 |
1 |
23 |
0 |
|
41 |
402,000 |
86 |
0 |
1 |
31 |
0 |
|
42 |
360,300 |
158 |
0 |
1 |
18 |
1 |
|
43 |
240,600 |
180 |
0 |
0 |
20 |
1 |
|
44 |
350,270 |
83 |
0 |
0 |
16 |
1 |
|
45 |
390,000 |
80 |
0 |
1 |
10 |
1 |
|
46 |
430,000 |
54 |
0 |
0 |
20 |
0 |
|
47 |
290,800 |
138 |
0 |
0 |
14 |
0 |
|
48 |
315,800 |
110 |
1 |
0 |
35 |
0 |
|
49 |
253,013 |
76 |
1 |
1 |
12 |
1 |
|
50 |
154,221 |
102 |
1 |
0 |
12,5 |
1 |
|
51 |
183,025 |
103 |
1 |
1 |
10,2 |
1 |
|
52 |
253,187 |
65 |
1 |
1 |
10 |
1 |
|
53 |
275,000 |
79 |
1 |
1 |
14 |
1 |
|
54 |
290,231 |
65 |
1 |
0 |
10 |
1 |
|
55 |
219,700 |
86 |
1 |
1 |
12 |
1 |
|
56 |
296,270 |
125 |
0 |
1 |
25 |
1 |
|
57 |
224,800 |
82 |
1 |
1 |
14 |
1 |
|
58 |
241,260 |
54 |
1 |
1 |
9,6 |
1 |
|
59 |
308,000 |
118 |
0 |
1 |
22,2 |
1 |
|
60 |
180,263 |
118 |
1 |
1 |
15 |
1 |
|
61 |
300,000 |
140 |
0 |
1 |
20 |
1 |
|
62 |
364,602 |
93 |
0 |
1 |
14 |
1 |
|
63 |
485,400 |
75 |
0 |
1 |
18 |
0 |
|
64 |
221,400 |
180 |
0 |
1 |
30 |
1 |
|
65 |
208,600 |
49 |
1 |
0 |
10 |
1 |
|
66 |
307,850 |
75 |
1 |
1 |
13 |
1 |
|
67 |
263,600 |
55 |
1 |
0 |
6,5 |
1 |
|
68 |
307,260 |
51 |
0 |
1 |
10 |
0 |
|
69 |
264,600 |
108 |
0 |
0 |
15 |
0 |
|
70 |
255,430 |
46 |
1 |
1 |
12 |
1 |
|
71 |
294,290 |
53 |
1 |
0 |
15 |
0 |
|
72 |
327,800 |
61 |
0 |
0 |
9 |
1 |
|
73 |
333,600 |
74 |
0 |
0 |
15 |
1 |
|
74 |
200,200 |
90 |
1 |
1 |
9 |
0 |
|
75 |
495,640 |
78 |
0 |
1 |
30 |
0 |
Факторы, от которых зависит стоимость квартиры, делятся на 2 типа:
1. Количественные:
- жилая площадь квартиры (без площади кухни);
- площадь кухни.
2. Качественные:
- тип дома: 0 - монолитный, 1 - панельный;
- наличие балкона: 0 - нет; 1 - есть;
- тип жилья: 0 - новостройка, 1 - вторичное жилье.
В таблице 3 произведена замена числовых кодов качественных факторов на лингвистические переменные. Это обеспечивает более высокую наглядность и читаемость выходных форм, а система «Эйдос» обеспечивает такую возможность, поэтому эта замена и была произведена. Кроме того добавлена расчетная колонка «Стоимость квартиры», равная произведению стоимости одного квадратного метра квартиры на ее общую площадь, а общая площадь (в явном виде не указанная в таблице) равна сумме жилой площади квартиры и площади кухни.
В результате этих операций получена таблица 4, которая является исходной для ввода в систему «Эйдос» с помощью одного и ее стандартных программных интерфейсов с внешними базами данных (режим 2.3.2.2).
Таблица 4 - Исходные данные для разработки интеллектуального приложения, иллюстрирующего модификацию взвешенного метода наименьших квадратов путем применения в качестве весов наблюдений количества информации в аргументе о значении функции
№ наблюдения |
Стоимость квартиры (руб.) |
Стоимость 1 кв.м. квартиры (руб./м2) |
Жилая площадь квартиры (м2) |
Тип дома |
Наличие балкона |
Площадь кухни (м2) |
Тип жилья |
|
1 |
30800,000 |
360,000 |
80 |
монолитный |
нет |
25,0 |
новостройка |
|
2 |
45211,650 |
388,015 |
110 |
монолитный |
есть |
23,0 |
новостройка |
|
3 |
45515,911 |
328,393 |
127 |
монолитный |
нет |
30,0 |
новостройка |
|
4 |
45765,000 |
319,000 |
135 |
монолитный |
есть |
20,0 |
новостройка |
|
5 |
27329,600 |
343,600 |
76 |
монолитный |
нет |
16,0 |
новостройка |
|
6 |
28200,000 |
360,000 |
75 |
монолитный |
есть |
16,0 |
новостройка |
|
7 |
35042,393 |
315,499 |
107 |
монолитный |
нет |
12,0 |
новостройка |
|
8 |
30132,000 |
470,000 |
62 |
монолитный |
нет |
16,0 |
новостройка |
|
9 |
44525,822 |
305,006 |
137 |
монолитный |
нет |
20,0 |
новостройка |
|
10 |
25804,656 |
338,398 |
72 |
монолитный |
есть |
20,0 |
новостройка |
|
11 |
52865,904 |
309,632 |
147 |
панельный |
нет |
50,0 |
новостройка |
|
12 |
18358,200 |
396,660 |
45 |
панельный |
есть |
11,3 |
новостройка |
|
13 |
37728,000 |
300,400 |
120 |
монолитный |
есть |
14,0 |
новостройка |
|
14 |
28308,000 |
390,400 |
70 |
монолитный |
есть |
14,0 |
новостройка |
|
15 |
43451,254 |
257,151 |
154 |
монолитный |
есть |
25,0 |
новостройка |
|
16 |
20706,000 |
342,000 |
58 |
монолитный |
есть |
15,0 |
новостройка |
|
17 |
21120,120 |
348,840 |
58 |
монолитный |
есть |
15,3 |
новостройка |
|
18 |
24192,000 |
360,000 |
64 |
монолитный |
есть |
18,0 |
новостройка |
|
19 |
39744,000 |
355,000 |
108 |
монолитный |
нет |
13,0 |
новостройка |
|
20 |
38991,780 |
330,060 |
113 |
монолитный |
есть |
15,0 |
новостройка |
|
21 |
33749,496 |
315,904 |
99 |
монолитный |
есть |
25,0 |
новостройка |
|
22 |
43669,600 |
303,100 |
136 |
монолитный |
нет |
18,0 |
новостройка |
|
23 |
41658,240 |
317,152 |
120 |
монолитный |
есть |
30,0 |
новостройка |
|
24 |
48438,000 |
290,500 |
156 |
монолитный |
есть |
20,0 |
вторичное жилье |
|
25 |
41895,000 |
374,000 |
105 |
монолитный |
есть |
25,0 |
вторичное жилье |
|
26 |
32868,000 |
288,000 |
110 |
монолитный |
есть |
10,8 |
вторичное жилье |
|
27 |
19542,600 |
298,200 |
63 |
панельный |
есть |
12,0 |
вторичное жилье |
|
28 |
18179,643 |
177,419 |
97 |
панельный |
нет |
10,0 |
вторичное жилье |
|
29 |
16888,000 |
201,100 |
80 |
панельный |
нет |
10,0 |
вторичное жилье |
|
30 |
11073,500 |
212,470 |
50 |
панельный |
есть |
9,0 |
вторичное жилье |
|
31 |
21735,000 |
330,000 |
63 |
монолитный |
нет |
15,0 |
вторичное жилье |
|
32 |
17886,000 |
258,000 |
66 |
панельный |
есть |
13,0 |
вторичное жилье |
|
33 |
18383,100 |
200,300 |
87 |
панельный |
нет |
11,0 |
вторичное жилье |
|
34 |
22561,760 |
206,940 |
104 |
панельный |
нет |
10,0 |
вторичное жилье |
|
35 |
14018,000 |
313,000 |
43 |
панельный |
есть |
13,0 |
вторичное жилье |
|
36 |
17138,400 |
213,600 |
74 |
панельный |
нет |
18,0 |
вторичное жилье |
|
37 |
18699,800 |
257,140 |
70 |
панельный |
есть |
10,0 |
вторичное жилье |
|
38 |
24550,680 |
308,440 |
77 |
монолитный |
есть |
10,4 |
вторичное жилье |
|
39 |
35449,440 |
315,860 |
104 |
монолитный |
есть |
25,0 |
новостройка |
|
40 |
33948,000 |
354,200 |
90 |
монолитный |
есть |
23,0 |
новостройка |
|
41 |
37238,000 |
402,000 |
86 |
монолитный |
есть |
31,0 |
новостройка |
|
42 |
59771,400 |
360,300 |
158 |
монолитный |
есть |
18,0 |
вторичное жилье |
|
43 |
46908,000 |
240,600 |
180 |
монолитный |
нет |
20,0 |
вторичное жилье |
|
44 |
30400,410 |
350,270 |
83 |
монолитный |
нет |
16,0 |
вторичное жилье |
|
45 |
32000,000 |
390,000 |
80 |
монолитный |
есть |
10,0 |
вторичное жилье |
|
46 |
24300,000 |
430,000 |
54 |
монолитный |
нет |
20,0 |
новостройка |
|
47 |
42062,400 |
290,800 |
138 |
монолитный |
нет |
14,0 |
новостройка |
|
48 |
38588,000 |
315,800 |
110 |
панельный |
нет |
35,0 |
новостройка |
|
49 |
20140,988 |
253,013 |
76 |
панельный |
есть |
12,0 |
вторичное жилье |
|
50 |
17005,542 |
154,221 |
102 |
панельный |
нет |
12,5 |
вторичное жилье |
|
51 |
19902,175 |
183,025 |
103 |
панельный |
есть |
10,2 |
вторичное жилье |
|
52 |
17107,155 |
253,187 |
65 |
панельный |
есть |
10,0 |
вторичное жилье |
|
53 |
22831,000 |
275,000 |
79 |
панельный |
есть |
14,0 |
вторичное жилье |
|
54 |
19515,015 |
290,231 |
65 |
панельный |
нет |
10,0 |
вторичное жилье |
|
55 |
19926,200 |
219,700 |
86 |
панельный |
есть |
12,0 |
вторичное жилье |
|
56 |
40158,750 |
296,270 |
125 |
монолитный |
есть |
25,0 |
вторичное жилье |
|
57 |
19581,600 |
224,800 |
82 |
панельный |
есть |
14,0 |
вторичное жилье |
|
58 |
13546,440 |
241,260 |
54 |
панельный |
есть |
9,6 |
вторичное жилье |
|
59 |
38963,600 |
308,000 |
118 |
монолитный |
есть |
22,2 |
вторичное жилье |
|
60 |
23041,034 |
180,263 |
118 |
панельный |
есть |
15,0 |
вторичное жилье |
|
61 |
44800,000 |
300,000 |
140 |
монолитный |
есть |
20,0 |
вторичное жилье |
|
62 |
35209,986 |
364,602 |
93 |
монолитный |
есть |
14,0 |
вторичное жилье |
|
63 |
37755,000 |
485,400 |
75 |
монолитный |
есть |
18,0 |
новостройка |
|
64 |
45252,000 |
221,400 |
180 |
монолитный |
есть |
30,0 |
вторичное жилье |
|
65 |
10711,400 |
208,600 |
49 |
панельный |
нет |
10,0 |
вторичное жилье |
|
66 |
24063,750 |
307,850 |
75 |
панельный |
есть |
13,0 |
вторичное жилье |
|
67 |
14855,500 |
263,600 |
55 |
панельный |
нет |
6,5 |
вторичное жилье |
|
68 |
16180,260 |
307,260 |
51 |
монолитный |
есть |
10,0 |
новостройка |
|
69 |
30196,800 |
264,600 |
108 |
монолитный |
нет |
15,0 |
новостройка |
|
70 |
12301,780 |
255,430 |
46 |
панельный |
есть |
12,0 |
вторичное жилье |
|
71 |
16392,370 |
294,290 |
53 |
панельный |
нет |
15,0 |
новостройка |
|
72 |
20544,800 |
327,800 |
61 |
монолитный |
нет |
9,0 |
вторичное жилье |
|
73 |
25796,400 |
333,600 |
74 |
монолитный |
нет |
15,0 |
вторичное жилье |
|
74 |
18828,000 |
200,200 |
90 |
панельный |
есть |
9,0 |
новостройка |
|
75 |
40999,920 |
495,640 |
78 |
монолитный |
есть |
30,0 |
новостройка |
По условиям задачи, рассматриваемой в данной работе в качестве численного примера применения предлагаемого метода, на основе исходных данных, приведенных в таблице 4, необходимо найти зависимости стоимости квартиры от всех ее характеристик, приведенных в этих исходных данных.
Для решения этой задачи прежде всего необходимо скачать и установить систему «Эйдос». Скачать систему «Эйдос-Х++» (самую новую на текущий момент версию) или обновление системы до текущей версии, можно на сайте: http://lc.kubagro.ru/ по адресу: http://lc.kubagro.ru/aidos/_Aidos-X.htm. По этой ссылке всегда находится наиболее полная на данный момент незащищенная от несанкционированного копирования портативная (portable) версия системы (не требующая инсталляции) с исходными текстами, находящаяся в полном открытом бесплатном доступе (около 50 Мб) (инструкция).
Инструкция по скачиванию и установке системы «Эйдос» (объем около 50 Мб)
Система не требует инсталляции, не меняет никаких системных файлов и содержимого папок операционной системы, т.е. является портативной (portable) программой. Но чтобы она работала необходимо аккуратно выполнить следующие пункты.
1. Скачать самую новую на текущий момент версию системы «Эйдос-Х++» по ссылке:
http://lc.kubagro.ru/a.rar (ссылки для обновления системы даны в режиме 6.2)
2. Разархивировать этот архив в любую папку с правами на запись с коротким латинским именем и путем доступа, включающим только папки с такими же именами (лучше всего в корневой каталог какого-нибудь диска).
3. Запустить систему. Файл запуска: _AIDOS-X.exe *
4. Задать имя: 1 и пароль: 1 (потом их можно поменять в режиме 1.2).
5. Перед тем как запустить новый режим НЕОБХОДИМО ЗАВЕРШИТЬ предыдущий (Help можно не закрывать). Окна закрываются в порядке, обратном порядку их открытия.
* Разработана программа: «_START_AIDOS.exe», полностью снимающая с пользователя системы «Эйдос-Х++» заботу о проверке наличия и скачивании обновлений. Эту программу надо просто скачать по ссылке: http://lc.kubagro.ru/Install_Aidos-X/_START_AIDOS.exe , поместить в папку с исполнимым модулем системы и всегда запускать систему с помощью этого файла.
При запуске программы _START_AIDOS.EXE система Эйдос не должна быть запущена, т.к. она содержится в файле обновлений и при его разархивировании возникнет конфликт, если система будет запущена.
1. Программа _START_AIDOS.exe определяет дату системы Эйдос в текущей папке, и дату обновлений на FTP-сервере не скачивая их, и, если система Эйдос в текущей папке устарела, скачивает обновления. (Если в текущей папке нет исполнимого модуля системы Эйдос, то программа пытается скачать полную инсталляцию системы, но не может этого сделать из-за ограниченной функциональности демо-версии библиотеки Xb2NET.DLL).
2. После этого появляется диалоговое окно с сообщением, что надо сначала разархивировать систему, заменяя все файлы (опция: «Yes to All» или «OwerWrite All»), и только после этого закрыть данное окно.
3. Потом программа _START_AIDOS.exe запускает обновления на разархивирование. После окончания разархивирования окно архиватора с отображением стадии процесса исчезает.
4. После закрытия диалогового окна с инструкцией (см. п.2), происходит запуск обновленной версии системы Эйдос на исполнение.
Для работы программы _START_AIDOS.exe необходима библиотека: Xb2NET.DLL, которую можно скачать по ссылке: http://lc.kubagro.ru/Install_Aidos-X/Xb2NET.DLL . Перед первым запуском этой программы данную библиотеку необходимо скачать и поместить либо в папку с этой программой, а значит и исполнимым модулем системы «Эйдос-Х++», либо в любую другую папку, на которую в операционной системе прописаны пути поиска файлов, например в папку: c:\Windows\System32\. Эта библиотека стоит около 500$ и у меня ее нет, поэтому я даю только бесплатную демо-версию, которая выдает сообщение об ограниченной функциональности, но для наших целей ее достаточно.
Необходимо отметить, что на папку с системой у пользователя должны быть все права доступа, иначе система не сможет корректировать свои базы данных и индексные массивы, что необходимо для ее нормальной работы.
Затем записываем таблицу 4 в виде Excel-файла с именем Inp_data.xls в папку: c:\Aidos-X\AID_DATA\Inp_data\Inp_data.xls и запускаем систему (файл запуска: _AIDOS-X.exe).
При запуске системы появляется окно авторизации:
Рисунок 4. Окно авторизации системы «Эйдос»
Вводим начальные имя 1 и пароль 1, которые в последующем можно изменить в режиме 1.2.
Отметим, что система «Эйдос» является программным инструментарием АСК-анализа и автоматизирует все его этапы, кроме первого:
1. Когнитивная структуризация предметной области (неформализованный этап). На этом этапе решается, что мы хотим прогнозировать и на основе чего.
2. Формализация предметной области. На этом этапе разрабатываются классификационные и описательные шкалы и градации, а затем с их использованием исходные данные кодируются и представляются в форме баз событий, между которыми могут быть выявлены причинно-следственные связи.
3. Синтез и верификация моделей (оценка достоверности, адекватности). Повышение качества модели. Выбор наиболее достоверной модели для решения в ней задач.
4. Решение задач идентификации и прогнозирования.
5. Решение задач принятия решений и управления.
6. Решение задач исследования моделируемой предметной области путем исследования ее модели.
На рисунке 5 приведены автоматизированные в системе «Эйдос» этапы АСК-анализа, которые обеспечивают последовательное повышение степени формализации модели путем преобразования исходных данных в информацию, а далее в знания:
Рисунок 5. Этапы последовательного преобразования данных в информацию, а ее в знания в системе "Эйдос"
Для выполнения 2-го этапа АСК-анализа запускаем универсальный программный интерфейс ввода данных из внешних баз данных (режим 2.3.2.2) (рисунок 6):
Рисунок 6. Запуск универсального программного интерфейса ввода данных из внешних баз данных
Появляется следующая экранная форма (рисунок 7):
Рисунок 7. Экранная форма задания параметров универсального программного интерфейса ввода данных из внешних баз данных
На рисунке 6 показаны нужные в данном случае значения задаваемых параметров.
Help данного режима приведен на рисунке 8:
Рисунок 8. Экранная форма Help универсального программного интерфейса ввода данных из внешних баз данных
Таблица 4 соответствует требованиям системы «Эйдос» к внешним базам данных, приведенным на рисунке 8.
Если кликнуть OK на экранной форме, приведенной на рисунке 6, то начинается автоматический процесс формализации предметной области, который начинается с конвертирования Excel-файла в dbf-файл. При этом на заднем фоне может возникнуть окно, приведенное на рисунке 9:
Рисунок 9. Окно на заднем фоне, возникающее при пересчете Excel-файла в процессе его преобразования в dbf-файл
Чтобы увидеть это окно надо кликнуть по иконке системы «Эйдос» на панели задач при всех свернутых окнах других приложений или их отсутствии. На этом окне можно выбрать любой вариант, кроме отмены.
Сразу же после этого система находит классификационные и описательные шкалы и градации, определяет тип данных в шкалах и отображает окно, приведенное на рисунке 10:
Рисунок 10. Внутреннего калькулятора универсального программного интерфейса импорта данных из внешних баз данных
Если в таблице исходных данных есть числовые шкалы, то появляется возможность задать количество интервальных числовых значений (интервалов в числовых шкалах) в них отдельно для классификационных и описательных шкал. Принцип определения разумного количества интервалов такой. Если их задать очень много, то в некоторых интервалах вообще не будет данных или будет очень мало (меньше 5), что нежелательно. Если задать интервалов очень мало, то они будут очень большого размера и точность модели будет не высока. Таким образом, можно сделать такой вывод, что чем больше объем выборки, тем меньшего размера мы можем позволить себе задавать интервалы. Но не нужно этим особенно увлекаться, т.е. если есть возможность сделать очень маленькие интервалы, но нам не нужна такая точность, то лучше делать интервалы такого размера, чтобы они обеспечили необходимую точность, но не меньшего размера. В режиме 2.3.2.2 есть возможность задавать либо равные интервалы с разным числом наблюдений, либо разные интервалы с примерно одинаковым числом измерений. Это может иметь смысл, если в исходных данных в числовых шкалах представлен широкий спектр частот, и мы не хотим терять высокочастотные гармоники, которые могут оказаться не оцифрованными при равных интервалах. Это позволяет автоматически ставить точки тем чаще, чем выше кривизна кривых, построенных на шкалах. Все эти рассуждения напоминает какие-то следствия теоремы Котельникова об отсчетах.
В данной экранной форме задаем количество интервалов в классификационных и описательных шкалах. Если оно изменяется, то необходимо кликнуть по кнопке «Пересчитать шкалы и градации», а затем, когда будет выбран окончательный вариант, выйти на создание модели.
Сразу же начинается процесс импорта данных в систему «Эйдос», этапы и прогноз времени исполнения которого отображаются на экранной форме (рисунок 11):
Рисунок 11. Внутреннего калькулятора универсального программного интерфейса импорта данных из внешних баз данных
Затем в режиме 3.5 системы «Эйдос»с параметрами по умолчанию (рисунок 12) выполняется 3-й этап АСК-анализа, т.е. синтез и верификация модели:
Рисунок 12. Экранная форма задания параметров режима синтеза и верификации модели системы «Эйдос»
Этапы выполнения данного режима и прогноз времени исполнения отображаются на экранной форме (рисунок 13):
Рисунок 13. Экранная форма с отображением этапов прогнозом времени исполнения режима синтеза и верификации модели системы «Эйдос»
Перейдем теперь в режим 4.5 «Визуализация когнитивных функций» (рисунок 14):
Рисунок 14. Начальная экранная форма режима визуализации когнитивных функций системы «Эйдос»
На рисунке 15 приведены визуализации когнитивной функции (КФ) зависимости стоимости квартиры от стоимости одного квадратного метра ее площади при разных способах определения и визуализации частично редуцированных когнитивных функций.
Программная реализация данного режима визуализации когнитивных функций разработан по постановке автора разработчиком интеллектуальных, графических и музыкальных систем из Белоруссии Дмитрием Константиновичем Бандык [30].
Рисунок 15-а. Визуализации когнитивной функции зависимости стоимости квартиры от стоимости 1 кв.метра: частично-редуцированная КФ проведена по значениям функции, о которых в аргументе содержится максимальное количество информации
Рисунок 15-б. Визуализации когнитивной функции зависимости стоимости квартиры от стоимости 1 кв.метра: частично-редуцированная КФ проведена по точкам, полученным путем применения предложенной модификации взвешенного метода наименьших квадратов, в котором в качестве весов наблюдений используется количество информации в аргументе о значении функции.
При этом применены настройки параметров отображения когнитивных функций, приведенные, приведенные на рисунке 16:
Рисунок 16. Настройки параметров отображения когнитивных функций в режиме 4.5 системы «Эйдос»
Из рисунка 15 мы видим, что у дешевых квартир минимальная стоимость 1 кв.метра, а максимальной она вопреки ожиданиям является у просто дорогих квартир, а не у самых дорогих.
По соям координат приведены интервальные числовые значения:
- по оси X: стоимости 1 квадратного метра жилья;
- по оси Y: стоимости квартиры.
Графики оцененной зависимости, полученные с помощью предложенной модификации взвешенного метода наименьших квадратов, основанного на применении в качестве весов наблюдений количества информации в аргументе о значении функции, будут приведены ниже.
Естественно возникает вопрос о степени точности восстановления исследуемых эмпирических зависимостей в моделях, созданных с применением АСК-анализе и системе «Эйдос».
Традиционно точность восстановления зависимости оценивается дисперсиями и доверительным интервалами. В АСК-анализе смысловым аналогом доверительного интервала, в определенной степени, конечно, является количество информации в аргументе о значении функции. Поэтому необходимо исследовать соотношение смыслового содержания этих понятий: доверительного интервала и количества информации.
На математическом уровне это планируется сделать в будущем, а в данной статье отметим лишь, что чем больше доверительный интервал, тем выше неопределенность наших знаний о значении функции, соответствующем значению аргумента, а чем он меньше, тем эта определенность выше. Но информация и определяется как количественная мера степени снятия неопределенности. Учитывая это можно утверждать, что чем больше доверительный интервал, тем меньше информации о значении функции, соответствующем значению аргумента мы получаем, а чем он меньше, тем это количество информации больше. Забегая вперед, отметим, что в частично-редуцированных когнитивных функциях, например изображенных на рисунке 15, количество информации в значениях аргумента о значениях функции наглядно изображено шириной полосы функции, что не только по смыслу, но внешне очень сходно с доверительным интервалом. При этом отметим еще один интересный момент, который состоит в том, что если традиционный доверительный интервал при экстраполяции при удалении от эмпирических значений ко все далее отстоящим от них в будущим все время увеличивается, то в степень редукции когнитивной функции то увеличивается, то уменьшается. Это связано с тем, что АСК-анализ и система «Эйдос» позволяют не только прогнозировать будущие события, но и прогнозировать достоверность или риски этих прогнозов [7], т.е. прогнозировать продолжительность периодов эргодичности и точки бифуркации (качественного изменения закономерностей в моделируемой предметной области), что наглядно и отображается в такой форме.
В частности при этом при нулевом доверительном интервале формально получается, что мы имеем бесконечное количество информации о значении функции, но на практике это вообще невозможно [17] и даже в теории возможно только для отдельных точек целых значений аргумента и функции. При бесконечном доверительном интервале в значении аргумента функции содержится ноль информации о значении функции.
Когнитивные функции, приведенные на рисунке 15, получены на основе модели знаний, основанной на мере А.Харкевича, в которой учтены все переменные, т.е. факторы или описательные шкалы модели и отражено их взаимное влияние друг на друга и выходные параметры. Это влияние отражено в результатах кластерно-конструктивного анализа, отображенных в форме семантических сетей на рисунках 17 и 18:
Рисунок 17. Результаты кластерно-конструктивного анализа классов, т.е. их сходство и различие по системе детерминации
Рисунок 18. Результаты кластерно-конструктивного анализа значений факторов, т.е. их сходство и различие по классам, принадлежность и не принадлежность к которым они обуславливают
Итак, из рисунка 17 мы видим, что классификационные шкалы, являющиеся осями в когнитивном пространстве классов, зависят друг от друга, т.е. неоротнормированны. Из рисунка 18 мы видим, что описательные шкалы (факторы), являющиеся осями в когнитивном пространстве факторов, также зависят друг от друга, т.е. неоротнормированны.
Таким образом, когнитивное (фазовое) пространство модели знаний системы «эйдос» является неортонормированным, а модель, следовательно, является нелинейной. Поэтому очень важно, что в АСК-анализе и системе «Эйдос» используется неметрический интегральный критерий, не основанный на предположении об ортонормированности пространства [7].
Рассмотрим теперь применение предложенной модификации взвешенного метода наименьших квадратов, в котором в качестве весов наблюдений используется количество информации в аргументе о значении функции. Для этой цели разработан режим 4.6 «Подготовка баз данных для визуализации когнитивных функций в MS Excel».
Подобные документы
Определение зависимости одной физической величины от другой. Применение метода наименьших квадратов с помощью программного обеспечения Mathcad. Суть метода наименьших квадратов. Корреляционный анализ, интерпретация величины корреляционного момента.
курсовая работа [63,8 K], добавлен 30.10.2013Разработка алгоритма аппроксимации данных методом наименьших квадратов. Средства реализации, среда программирования Delphi. Физическая модель. Алгоритм решения. Графическое представление результатов. Коэффициенты полинома (обратный ход метода Гаусса).
курсовая работа [473,6 K], добавлен 09.02.2015Обзор методов аппроксимации. Математическая постановка задачи аппроксимации функции. Приближенное представление заданной функции другими, более простыми функциями. Общая постановка задачи метода наименьших квадратов. Нахождение коэффициентов функции.
курсовая работа [1,5 M], добавлен 16.02.2013Развитие навыков работы с табличным процессором Microsoft Excel и программным продуктом MathCAD и применение их для решения задач с помощью электронно-вычислительных машин. Схема алгоритма. Назначение функции Линейн и метода наименьших квадратов.
курсовая работа [340,4 K], добавлен 17.12.2014Анализ методов идентификации, основанных на регрессионных процедурах с использованием метода наименьших квадратов. Построение прямой регрессии методом Асковица. Определение значения дисперсии адекватности и воспроизводимости, коэффициентов детерминации.
курсовая работа [549,8 K], добавлен 11.12.2012Определение параметров линейной зависимости из графика. Метод парных точек. Метод наименьших квадратов. Блок-схема программного комплекса в Microsoft Visual Studio и Microsoft Excel. Инструкция пользователя, скриншоты. Общий вид программного кода.
курсовая работа [2,1 M], добавлен 29.11.2014Содержание термина "планирование эксперимента". Сущность метода наименьших квадратов. Разработка программы анализа статистической оценки качества проектируемой системы: составление и графическое представление алгоритма решения, листинг программы.
курсовая работа [4,1 M], добавлен 16.09.2011Подбор параметров линейной функции. Вычисление значения функции в заданных промежуточных точках с использованием математических пакетов. Исследование математической модели решения задачи. Составление программы для вычисления коэффициента корреляции.
курсовая работа [2,3 M], добавлен 21.10.2014Построение эмпирических формул методом наименьших квадратов. Линеаризация экспоненциальной зависимости. Элементы теории корреляции. Расчет коэффициентов аппроксимации, детерминированности в Microsoft Excel. Построение графиков функций, линии тренда.
курсовая работа [590,9 K], добавлен 10.04.2014Построение эмпирических формул методом наименьших квадратов. Линеаризация экспоненциальной зависимости. Элементы теории корреляции. Расчет аппроксимаций в табличном процессоре Excel. Описание программы на языке Turbo Pascal; анализ результатов ее работы.
курсовая работа [390,2 K], добавлен 02.01.2015