Кластерный анализ

Основные понятия факторного анализа. Функционалы качества разбиения. Иерархические кластер-процедуры. Основная модель факторного анализа. Принцип работы иерархических алгомеративных (дивизимных) процедур. Расстояние между объектами и мера близости.

Рубрика Экономика и экономическая теория
Вид реферат
Язык русский
Дата добавления 20.02.2012
Размер файла 298,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Классификация без обучения

Кластерный анализ. Основные понятия

В статистических исследованиях группировка первичных данных является основным приемом решения задачи классификации, а значит и основой всей дальнейшей работы с собранной информацией.

Традиционно эта задача решается следующим образом. Из множества признаков, описывающих объект, отбирается один, наиболее информативный с точки зрения исследователя, и производится группировка в соответствии со значениями данного признака. Если требуется провести классификацию по нескольким признакам, ранжированным между собой по степени важности, то сначала производится классификация по первому признаку, затем каждый из полученных классов разбивается на подклассы по второму признаку, и т.д. Подобным образом строится большинство комбинационных статистических группировок.

В тех случаях, когда упорядочить классификационные признаки не предоставляется возможным, применяется наиболее простой метод многомерной группировки - создание интегрального показателя (индекса), функционально зависящего от исходных признаков, с последующей классификацией по этому показателю.

Развитием этого подхода является вариант классификации по нескольким обобщающим показателям (главным компонентам),полученным с помощью методов факторного анализа.

При наличии нескольких признаков (исходных или обобщенных) задача классификации может быть решена методами кластерного анализа, которые от других методов многомерной классификации отличаются отсутствием обычных выборок, т.е. априорной информации о распределении генеральной совокупности, которая представляет собой вектор Х.

Различия между схемами решения задач классификации во многом определяется тем, что понимают под понятиями «сходство» и «степень сходства».

После того, как сформулирована цель работы, необходимо попытаться определить критерии качества, целевую функцию, значения которой позволят сопоставить различные схемы классификации.

В экономических исследованиях целевая функция, как правило, должна минимизировать некоторый параметр, определенный на множестве объектов (например, целью классификации оборудования может явиться группировка, минимизирующая, совокупность затрат времени и средств на ремонтные работы).

В случаяx, когда формализовать цель задачи не удалось, критерием качества классификации может служить возможность содержательной интерпретации найденных групп.

Рассмотрим следующую задачу. Пусть исследуется совокупность n объектов, каждый из которых характеризуется по k замеренным но нем признакам X. Требуется разбить эту совокупность на однородные в некотором смысле группы (классы). При этом практически отсутствует априорная информация о характере распределения измерений Х внутри классов.

Полученные в результате разбиения группы обычно называют кластерами (от англ. cluster - группа элементов, характеризуемых каким - либо общим свойством), а также таксонами (от англ. taxon- систематизированная группа любой категории) и образами. Методы нахождения кластеров называется кластер - анализом (соответственно численной таксономией или распознаванием образов с самообучением).

При этом с самого начала необходимо четко представить, какая из двух задач классификации подлежит решению. Если решается обычная задача типизации, то совокупность наблюдений разбивают на сравнительно небольшое число областей группирования (например, интервальный вариационный ряд в случае одномерных наблюдений), так, чтобы элементы одной такой области по возможности находились друг от друга на небольшом расстоянии.

Решение другой задачи типизации заключается в определение естественного расслоения исходных наблюдений на четко выраженные кластеры, лежащие друг от друга на некотором расстоянии.

Если первая задача типизации всегда имеет решение, то при второй постановке может оказаться, что множество исходных наблюдений не обнаруживает естественного расслоения на кластеры, т.е образует один кластер.

Несмотря на то что многие методы кластерного анализа довольны элементарны, применение методов кластерного анализа стало возможным только в 80-е годы с возникновением и развитием вычислительной техники. Это объясняется тем, что эффективное решение задачи поиска кластеров требует большего числа арифметических и логических операций.

Рассмотрим три различных подхода к проблеме кластерного анализа: эвристический, экстремальный и статистический.

Эвристический подход характеризуется отсутствием формальной модели изучаемого явления и критерия для сравнения различных решений. Его основой является алгоритм, построенный исходя из интуитивных соображений.

При экстремальном подходе также не формулируется исходная модель, а задается критерий, определяющий качество разбиения на кластеры. Такой подход особенно полезен, если цель исследования четко определена. В этом случае качество разбиения может измеряется эффективностью выполнения цели.

Основой статистического подхода решения задачи кластерного анализа является вероятностная модель исследуемого процесса. Статистический подход особенно удобен для теоретического исследования проблем, связанных с кластерным анализом. Кроме того, он дает возможность ставить задачи, связанные с воспроизводимостью результатов кластерного анализа.

Рассмотрим формы представления исходных данных и определение мер близости.

В задачах кластерного анализа обычной формой представления исходных данных служит прямоугольная таблица, каждая строка которой представляет результат измерения k рассматриваемых признаков на одном из обследованных объектов

В конкретных ситуациях может представлять интерес как группировка объектов, так и группировка признаков. В случаях, когда разница между этими двумя задачами несущественна, например при описании некоторых алгоритмов, мы будем пользоваться только термином «объект», подразумевая в этом понятии и «признак».

Числовые значения, входящие в матрицу Х, могут соответствовать трем типам переменных: количественным, ранговым и качественным. Количественные переменные обладают свойством упорядоченности и над ними можно производить арифметические операции. Значения ранговых переменных тоже упорядочены, и их можно пронумеровать натуральными числами. Однако использование этих чисел в арифметических операциях будет некорректным. Качественными называются переменные, принимающие 2 (дихотомные) или более значения. Этим значением также можно поставить в соответствии некоторые числа, которые, однако, не будут отражать какой - либо упорядоченности значений качественной переменной. Исключением являются дихотомные переменные, два значения которых (как правило, они обозначаются числами 0 и 1) можно считать упорядоченными.

Желательно, чтобы таблица исходных данных соответствовала одному типу переменных. В противном случае разные типы переменных стараются свести к какому - то одному типу переменных. Например, все переменные можно свести к дихотомным, используя следующую процедуру. Количественные переменные переводят в ранговые, разбивая области значений количественной переменной на интервалы, которые затем нумеруются числами натурального ряда. Ранговые переменные автоматически становятся качественными, если не учитывать упорядоченности их значений. Что касается качественных переменных, то каждому из возможных ее значений приходится сопоставлять дихотомную переменную, которая будет равна 1, если качественная переменная приняла данное значение, и 0 - в противном случае.

Отметим, что форма записи исходных данных, их сведения к одному типу, возможность использования только части данных и т.п., играют определенную роль при оценке практической эффективности вычислительного комплекса, предназначенного для решения задач классификации.

Матрица X не является единственным способом представления исходных данных в задачах кластерного анализа. Иногда исходная информация задана в виде квадратной матрицы

R=

элемент rij которой определяет степень близости i-го объекта к j-му.

Большинство алгоритмов кластерного анализа либо полностью исходит из матрицы расстояний (или близостей), либо требует вычисления отдельных ее элементов, поэтому, если данные представлены в форме Х, то первым этапом решения задачи поиска кластеров будет выбор способа вычисления расстояний или близости между объектами или признаками (в этом отношении различие между объектами и признаками является существенным).

Относительно просто отделяется близость между признаками. Как правило, кластерный анализ признаков преследует те же цели, что и факторный анализ - выделение групп связанных между собой признаков, отражающих определенную сторону изучаемых объектов. В этом случае мерами близости служат различные статистические коэффициенты связи.

Если признаки количественные, то можно использовать оценки обычных парных выборочных коэффициентов корреляции rij, i, j =1,2,…,k. Однако, коэффициент корреляции измеряет только линейную связь, поэтому если связь нелинейна, то следует использовать корреляционное отношение, либо произвести подходящее преобразование шкалы признаков.

Существуют также различные коэффициенты связи, определенные для ранговых, качественных и дихотомных переменных.

Расстояние между объектами и мера близости

Наиболее трудным и наименее формализованным в задаче классификация является определение понятия однородности объектов.

В общем случае понятие однородности объектов задается либо введением правила вычислений расстояния между любой парой исследуемых объектов (Х12,..,Хn), либо заданий некоторой функций, характеризующей степень близости i-го и j-го объектов. Если задана функция , то близкие с точки зрения этой метрики объекты считаются однородными, принадлежащие одному классу. При этом необходимо сопоставлять с некоторым пороговым значением, определенным в каждом конкретном случае по-своему.

Аналогично используются и мера близости , при задании которой надо помнить о необходимости выполнения условий симметрии =; максимального сходства объекта с самим собой при , и монотонного убывания по , т.е. из ? должно следовать неравенство ?.

Выбор метрики или меры близости является узловым моментом исследования, от которого в основном зависит окончательный вариант разбиения объектов на классы при данном алгоритме разбиения. В каждом конкретном случае этот выбор должен производиться по - своему в зависимости от целей исследования, физической и статистической природы вектора наблюдений X, априорных сведений о характере вероятностного распределения Х.

Рассмотрим наиболее часто используемые расстояния и меры близости в задачах кластерного анализа.

Расстояние махаланобиса (общий вид)

В случае зависимости компонент вектора наблюдений Х и их различной значимости в решении вопроса квалификации обычно используют обобщенное (взвешенное) расстояние Махаланобиса, задаваемое формулой

где ковариационная матрица генеральной совокупности, из которой извлекаются наблюдения;

- некоторая симметрическая неотрицательно-определенная матрица «весовых» коэффициентов, которая чаще всего выбирается диагональной.

Следующие три вида расстояний являются частными случаями метрики с0.

ОБЫЧНОЕ ЭВКЛИДОВОЕ РАССТОЯНИЕ

где - величина l-й компоненты у i-го (j-го) объекта

Использование этого расстояния оправдано в случаях, если:

а) наблюдения берутся из генеральных совокупностей, имеющих многомерное нормальное распределение с ковариационной матрицей вида , т.е компоненты Х взаимно независимы и имеют одну и ту же дисперсию;

б) Компоненты вектора наблюдения Х однородны по физическому смыслу и одинаковы важны для классификации;

в) признаковое пространство совпадает с геометрическим пространством.

Естественно с геометрической точки зрения и содержательной интерпретации евклидовое расстояние может оказаться бессмысленным, если его признаки имеют разные единицы измерения.

Для приведения признаков к одинаковым единицам прибегают к нормировке каждого признака путем деления центрированной величины на среднее квадратическое отклонение и переходят от матрицы Х к нормированной матрице с элементами

где - значение l-го признака i-го объекта;

- среднее арифметическое значение l-го признака;

-среднеквадратическое отклонение l-го признака;

Однако это операция может привести к нежелательным последствиям. Если кластеры хорошо разделены по одному признаку и не разделены по другому, то после нормировки дискриминирующие возможности первого признака будут уменьшены в связи с увеличением «шумового» эффекта второго.

«ВЗЕШЕННОЕ» ЕВКЛИДОВО РАССТОЯНИЕ

Применяется в случаях, когда каждой компоненте вектора наблюдений Х удается приписать некоторый «вес» wl, пропорциональной степени важности признака задачи классификации. Обычно принимают 0?wt?1 где l=1, 2,…,k.

Определение «весов», как правило, связано с дополнительными исследованиями, например, организацией опроса экспертов и обработкой их мнений. Определение весов wl только по данным выборки может привести к ложным выводам.

ХЕММИНГОВО РАССТОЯНИЕ

Используя как мера различия объектов, задаваемых дихотомическими признаками. Хеммингово расстояние равно числу несовпадений значений соответствующих признаков в рассматриваемых i-м и j-м объектах.

В некоторых задачах квалификации в качестве меры близости объектов можно использовать некоторые физически содержательные параметры, так или иначе характеризующие взаимоотношение между объектами. Например, задачу квалификации отраслей народного хозяйства с целью агрегирования решают на основе матрицы межотраслевого баланса.

В данной задаче объектом квалификации являются отрасль народного хозяйства, а матрица межотраслевого баланса представлена элементами Sij, характеризующими сумму годовых поставок i-ой отросли в j-ю в денежном выражении. В качестве меры близости {rij} принимают симметризацию нормированной матрицы межотраслевого баланса. С целью нормирования денежное выражение поставок i-й отрасли j-ю заменяют долей этих поставок по отношению ко всем поставкам i-й отрасли. Симметризацию нормированной матрицы межотраслевого баланса можно выразить через среднее значение близость взаимных поставок между i-й и в j-й отраслью так, что в этом случае rij=rji.

Как правило, решение задач классификации многомерных данных предусматривает в качестве предварительного этапа исследования реализацию методов, позволяющих выбирать из компонент x1,x2,…,xk . рассматривают как объект, подлежащий классификации. После разбиении на небольшое число однородных в некотором смысле групп для дальнейшего исследования оставляют по одному представителю от каждой группы. При этом предполагается, что признаки, попавшие в одну группу, в определенном смысле связаны друг с другом и несут информацию о каком-то одном свойстве объекта.

В качестве близости между отдельными признаками обычно используют различные характеристики степени их коррелированности, в первую очередь коэффициенты корреляции. В ряде задач применяются и другие расстояния (метрики). Выбор метрики определяется структурой признакового пространства и целью классификации. Формализовать этот этап задачи классификации пока не представляется возможным.

Расстояние между кластерами

В ряде процедур классификации (кластер-процедур) используют понятия расстояния между группами объектов и меры близости двух групп объектов.

Пусть Si - i-я группа (класс, кластер), состоящая из ni объектов;

- среднее арифметическое векторных наблюдений Si группы, т.е. «центр тяжести» i-ой группы;

-расстояние между группами Sl и Sm..

Наиболее употребительными расстояниями и мерами близости между объектов являются:

- расстояние, измеряемое по принципу «ближайшего соседа»

- расстояние, измеряемое по принципу «дальнего соседа»

- расстояние, измеряемое по «центрам тяжести» групп

- расстояние, измеряемое по принципу «средней связи». Это расстояние определяется как среднее арифметическое всех парных расстояний между представителями рассматриваемых групп

Академиком А.Н.Колмогоровым было предположено «обобщенное расстояние» между классами, которое в качестве частных случаев включает в себя все рассмотренные выше виды расстояний.

Обобщенное расстояние основано на понятии так называемого «обобщенного среднего», а точнее - степенного среднего и определяется формулой

Можно показать, что при

при

при

.

Из формулы (7.9) следует, что если -группа элементов, полученная путем объединения кластеров , то обобщенное расстояние между кластерами и определяется по формуле

Расстояние между группами элементов особенно важно в так называемых агломеративных иерархических кластер - процедурах, так как принцип работы таких алгоритмов состоит в последовательном объединении сначала самых близких элементов, а затем и целых групп все более и более отдаленных друг от друга элементов.

При этом расстояние между классами и , являющимся объединением двух других классов , можно определить по формуле

где - расстояние между классами ;

-числовые коэффициенты, значение которых определяет специфику процедуры, ее алгоритм.

Например, при и приходим к расстоянию, построенному по принципу «ближайшего соседа». При и расстояние между классами определяется по принципу «дальнего соседа», как расстояние между двумя самыми дальними элементами этих классов. И наконец, при

Соотношение (7.11) приводит к расстоянию с между классами, вычисленному как среднее из расстояния между всеми парами элементов, один из которых берется из одного класса, а другой - из другого класса.

Функционалы качества разбиения

Существует большое количество различных способов разбиения на классы заданной совокупности элементов. Поэтому представляет интерес задача сравнительного анализа качества этих способов разбиения. С этой целью вводится понятие функционала качества разбиения Q (S), определенного на множество всех возможных разбиений.

Наилучшее разбиение S* представляет собой такое разбиение, при котором достигается экстремум выбранного функционала качества. Следует отметить, что выбор такого или иного функционала качества разбиения, как правило, опирается на эмпирическое соображения.

Рассмотрим некоторое наиболее распространенные функционалы качества разбиения. Пусть исследованием выбрана метрика в пространстве X и S=(S1,S2,…,Sp) некоторое фиксированное разбиение наблюдений X1, X2,…,Xn на заданное число классов S1,S2,…,SP.

Существуют следующие характеристики функционала качества:

- сумма внутриклассовых дисперсий

- сумма попарных внутриклассовых расстояний между элементами

или

, широко используются в задачах кластерного анализа для сравнения качества процедур разбиения;

- обобщенная внутриклассовая дисперсия

где det A- определитель матрицы А;

Wl = выборочная ковариационная матрица класса Sl, элементы которой определяются по формуле

где q,m=1,2,…,k,

где -q-я компонента многомерного наблюдения xi ;

- среднее значение q-й компоненты, вычисленное по наблюдениям l-го класса.

Качество разбиения характеризуют и другим видом обобщенной дисперсии, в которой операция суммирования Wi заменена операцией умножения

Отметим, что функционалы , обычно используют при решении вопроса: не сосредоточены ли наблюдения, разбитые на классы, в пространстве размерности, меньшей, чем k.

Иерархические кластер-процедуры

Иерархические(деревообразные) процедуры являются наиболее распрастраненными алгоритмами кластреного анализа по их реализации на ЭВМ. Они бывают двух типов: алгомеративные и дивизимные.

В алгомеративных процедурах начальным является разбиение, состоящий из n одноэлементных классов, а конечным - из одного класса; в дивизимных наоборот

Принцип работы иерархических алгомеративных (дивизимных) процедур состоит в последовательном объединение (разделении) групп элементов сначала самых близких (далеких), а затем все более отдаленных (близких) друг от друга. Большинство этих алгоритмов исходит из матрицы расстояний (сходства). К недостаткам иерархических процедур следует отнести громоздкость их вычислительной реализации. Алгоритмы требуют на каждом шаге матрицы вычисления расстояний, а следовательно, емкой машинной памяти и большого количества времени. В этой связи реализации таких алгоритмов при числе наблюдений, большем нескольких сотен, нецелесообразна, а в ряде случаев и невозможна.

Приведем пример алгомеративного иерарического алгоритма. На первом шаге каждое наблюдение Xi (i=1,2,…,n) рассматривается как отдельный кластер. В дальнейшем на каждом шаге работы алгоритма происходит объединение двух самых близких кластеров, и, с учетом принятого расстояния, по формуле пересчитывается матрица расстояний, размерность которой, очевидно, снижается на единицу. Работа алгоритма заканчивается, когда все наблюдения объединены в один класс. Большинство программ, реализующих алгоритм иерархической классификации, предусматривают графическое представление классификации в виде дендрограммы.

Пример

Провести классификацию n=6 объектов, каждый из которых характеризуется двумя признаками.

№ объекта i

1

2

3

4

5

6

xi1

xi2

5

10

6

12

5

13

10

9

11

9

10

7

Расположение объектов в виде точек на плоскости показано на рисунке

Рис. Классификация объектов

Решение

Воспользуемся алгомеративным иерархическим алгоритмом классификации. В качестве расстояниями между объектами возьмем обычное евклидово расстояние.

Тогда согласно формуле (7.2) расстояние между первым и вторым объектом

,

а между первым и третьим объектами

Очевидно, что

Аналогично находим расстояние между шестью объектами и строим матрицу расстояний.

Из матрицы расстояний следует, что четвертый и пятый объекты наиболее близки и поэтому объединяютcя в один кластер.

После объединения объектов имеем пять кластеров

Номер кластера

1

2

3

4

5

Состав кластера

(1)

(2)

(3)

(4,5)

(6)

Расстояние между кластерами определим по принципу «ближайшего соседа», воспользовавшись формулой пересчета (7.11). Так расстояние между объектом S1 и кластером S(4,5)

Таким образом, расстояние равно расстоянию от объекта 1 до ближайшего к нему объекта, входящего в кластер , т.е. . Тогда матрица расстояний

Объединим второй и третий объекты, имеющие наименьшее расстояние . После объединения объектов имеем четыре кластера

S(1) , S(2.3) , S(4.5) , S(6).

Вновь найдем матрицу расстояний. Для того чтобы рассчитать расстояние до кластера S(2.3) воспользуемся матрицей расстояний R2. Например, расстояние между кластерами S(4.5) и S(2.3) равно

Рис. Дендрограмма

Проведя аналогичные расчеты, получим

Объединим кластеры S(4.5) и S(6), расстояние между которыми, согласно матрице R3, наименьшее В результате получим три кластера

S(1) , S(2,3) , S(4.5,6) .

Матрица расстояний будет иметь вид:

Объединим теперь кластеры S(1) , S(2,3) , расстояние между которыми . В результате получим два кластера S(1,2,3) и S(4.5,6) , расстояние между которыми, найденное по принципу «ближайшего соседа»,

Результаты иерархической классификации объектов представлены на рис. 7.2. в виде дендограммы.

На рис. приводится расстояние между объединяемыми на данном этапе кластерами (объектами). В нашем примере предпочтение следует отдать предпоследнему этапу классификации, когда все объекты объединены в два кластера

S(1,2,3) и S(4.5,6)

Основные понятия факторного анализа

Основные проблемы факторного анализа

При использовании факторного анализа исследователь сталкивается со значительным числом проблем. Наиболее часто они возникают в процессе содержательной (экономической) интерпретации. Многие из них носят частный характер, присущий определенному классу задач, например, наличие слабо обусловленных матриц парных коэффициентов корреляции, присущее классу экономико-статистических задач. Однако это не относится непосредственно к факторному анализу.

Исходя из логической последовательности решения задач факторного анализа, первой следует считать проблему робастности (гл. 9), второй - общности, третьей - факторов, четвертой - вращения, пятой - оценки значений факторов, шестой - проблему динамических моделей.

Введем следующие пояснения к общей схеме факторного анализа, представленной на рис. 6.1.

На рис. 6.1 представлена матрица исходных признаков X размерности , где число признаков равно n, а количество исследуемых объектов - N.

Элементы матрицы представляют собой значения -х признаков на i-м объекте исследования. Каждый признак имеет свое наименование. Например, - производительность труда (выработка в год на одного производственного рабочего), - фондоотдача и т.д.

В классическом факторном анализе следующей матрицей является матрица нормированных значений исходных данных, которая получалась путем нормирования элементов X. Однако современные исследования и опыт решения практических задач показали, что отсутствие учета возможного засорения исходных признаков грубыми ошибками при многомерном анализе может привести к ошибкам интерпретации. В настоящее время эти две матрицы объединяет первая проблема - робастности. Технически на ЭВМ эта задача решается методом устойчивой (робастной) оценки среднего значения и оценки среднего квадратического отклонения (гл. 9).

Размещено на http://www.allbest.ru/

При этом используется тест на засорение. Если засорение отсутствует, то и определяются так же, как и в классическом случае. Если же засорение обнаружено, то вводится тест на симметричность распределения.

Для симметричных засоренных распределений применяются методы робастного оценивания и . Для асимметричных распределений данный подход не пригоден. Для случая асимметричного распределения было разработано математическое обеспечение для джекнайф - оценки, учитывающей наличие асимметрии.

Y - матрица нормированных значений исходных признаков. Размерность ее , как и у матрицы X, но исходные данные представлены как безразмерные величины.

R - матрица парных коэффициентов корреляции. Она является симметрической матрицей порядка n. На ее главное диагонали стоят единицы, соответствующие дисперсиям исходных нормированных показателей. Данная матрица R является исходной для проведения компонентного анализа. Для факторного анализа необходимо получить редуцированную матрицу Rh.

Rh - редуцированная корреляционная матрица, служащая основной для факторного анализа. Она также является симметрической порядка n, но на ее главной диагонали стоят вместо единиц общности . Итак, второй проблемой является определение общности .

Далее по стандартным программам получается матрица A - матрица весовых коэффициентов. Весовые коэффициенты являются характеристиками стохастической связи между исходными признаками и общими факторами.

Между матрицами Rh и A на схеме указана третья проблема - нахождение факторов, включающая вопросы определения числа извлекаемых общих факторов и их вида. Значения весовых коэффициентов являются координатами признаков на новых осях координат. Общие факторы и являются координатными осями.

В настоящее время чаще всего используется метод главных факторов, а также метод максимума правдоподобия. Иногда метод максимума правдоподобия служит для уточнения данных, полученных центроидным методом. (Задача снижения размерности достаточно часто решается также методом главных компонент.) Считается, что 90% задач факторного анализа решается при помощи метода главных факторов.

Общие факторы занимают произвольное положение относительно признаков, образующих конфигурацию векторов. Таким образом, весьма большое число матриц A может воспроизвести матрицу Rh.

Четвертой проблемой является вращение, включающее вопросы выбора одной матрицы A1 из возможного множества. Что же является критерием выбора этой матрицы? Подходов для решения этой задачи было выдвинуто много. Однако наиболее современным является подход, построенный на принципе простой структуры Тэрстоуна. В этом подходе является матрицей размерности , элементы (весовые коэффициенты) которой получены после вращения.

F - матрица индивидуальных значений факторов для каждого объекта исследования. Размерность данной матрицы Матрица примечательна тем, что содержит оценки значений факторов для каждого объекта исследования. Вначале на основе значений исходных признаков на каждом объекте исследования были получены общие факторы - новые интегральные единицы измерения. Они явились результатом исследования массовых случайных явлений.

Для получения матрицы F новые интегральные единицы измерения были использованы для оценки каждого из объектов исследования.

Пятая проблема - оценка значений факторов - включает вопросы перехода от матрицы A1 к матрице F.

Решением этих пяти задач (проблем) заканчивается вариант факторного анализа. На основе полученных данных (например, в конце года) имеем результаты измерения признаков на каждом из N объектов.

Если в течение нескольких лет проводить факторный анализ, затем сопоставить его результаты за несколько лет, то в ряде случаев можно получить интересные результаты исследования. Такой подход определяет шестую проблему факторного анализа. Она раскрывает принципы построения динамических моделей. При помощи динамических моделей представляется возможным выявить те признаки, влияние которых в будущем будет снижаться или, наоборот, возрастать. Динамические модели родились из потребностей практики в сопоставлении факторных решений в течение длительного периода.

факторный анализ кластер

Основная модель факторного анализа

Пусть задана система переменных x1, x2, …, xn. Дадим им некоторый содержательный смысл:

x1 - производительность труда;

x2 - фондоотдача;

xn - себестоимость.

Значения переменных или признаков x1, x2, …, xn известны для каждого из N предприятий. Представим полученную исходную информацию в виде матрицы размерности . Каждая строка состоит из значений одного показателя для каждого из N объектов исследования. Предполагаем, что каждый элемент этой матрицы является результатом воздействия некоторого числа m гипотетических общих факторов и одного характерного фактора.

После этих преобразований получим

где - центрированное значение j-го показателя (переменной) у i-го объекта исследования;

- r-й общий фактор;

- j-й характерный (индивидуальный) фактор, присущий только данной j-й переменной;

- значение r-го общего фактора на i-м объекте исследования;

- значение j-го характерного фактора на i-м объекте исследования;

-весовой коэффициент j-й переменной на r-м общем факторе или нагрузка j-й переменной на r-м общем факторе;

-нагрузка или весовой коэффициент j-й переменной на j-м характерном факторе.

Обычно предполагают, что характерные факторы некоррелированы между собой и с общими факторами.

Факторы, связанные значимыми коэффициентами веса более чем с одной переменной, называются общими. Общий фактор, связанный значимыми коэффициентами веса со всеми признаками, называется генеральным.

В выражении (6.1) имеют свою размерность. Для того чтобы перейти к безразмерным переменным, удобно провести нормирование исходных показателей. Проведем центрирование:

где - среднее значение i-м переменной;

- исходное значение j-й переменной на i-м объекте исследования.

Размерность при этом, естественно, не изменилась.

Проведем нормирование:

где - нормированное значение j-й переменной на i-м объекте (безмерная величина);

- среднее квадратическое отклонение j-го признака (исправленное).

Среднее значение переменных , а дисперсии . Формулы в виде (6.1) или (6.4) напоминают выражение для регрессионного анализа. Действительно, признак (зависимая переменная) описывается при помощи других показателей плюс остаток . Однако здесь есть большая разница. В регрессионном анализе система переменных предполагается измеряемой непосредственно. Например, взятые нами переменные могут быть получены из отчетной информации предприятий (объектов исследования). И действительно по ним можно было бы провести регрессионный анализ. Однако выражения (6.1) и (6.4) предназначены для решения другой задачи. В факторном анализе общие факторы и индивидуальные (характерные) являются гипотетическими. Мы должны их оценить при помощи методов математической статистики и линейной алгебры.

В дальнейшем будем пользоваться в основном выражением (6.4). Обращение к выражению (6.1) будет каждый раз оговариваться.

Из выражения (6.4) следует, что наблюдаемые значения переменных являются линейными комбинациями ненаблюдаемых, гипотетических, непосредственно не измеряемых факторов. Следовательно, любой метод факторного анализа имеет одну главную задачу: представить элемент матрицы в виде линейной комбинации некоторого числа общих факторов и одного характерного фактора.

Представим теперь выражение (6.4) в матричной форме. В матричной форме из выражения (6.4) следует, что A и D относятся к переменным разных типов. A - относится к m общим факторам, каждый из которых связан со всеми признаками, значимыми или незначимыми коэффициентами веса, следовательно, является прямоугольной матрицей. D связана только с индивидуальными факторами, каждый из которых связан только с одной переменной.

Следовательно, D - диагональная матрица. Матрица A не содержит весовых коэффициентов характерных факторов, а D - коэффициентов при общих факторах. Эти две матрицы надо сложить. При описанных условиях известная нам матрица A должна быть дополнена n нулевыми столбцами порядка n справа, а D - m нулевыми столбцами порядка n - слева.

Сумма матриц (6.5) и (6.6) дает

Представим матрицу индивидуальных значений общих факторов .

Иногда для удобства их представляют в одной таблице

После этих уточнений модель (6.4) можно записать в матричной форме

при этом учитывается, что нагрузки характерных факторов вычисляются из общности.

Отметим, что матрица А имеет размерность матрица - размерность а матрица Y - размерность М - матрица факторного отображения, включающая нагрузки характерных факторов. Ее называют полной факторной матрицей. - матрица значений факторов (общих и характерных) для всех объектов исследования.

Из трех матриц выражения (6.11) не известны две А и F.

Компоненты дисперсии в факторном анализе

Из теории измерений известно, что измеренная величина содержит, по крайней мере, две компоненты: истинное значение и ошибку измерения

где - измеренное (зарегистрированное) значение j-го признака у i-го объекта;

- истинное значение измеряемого признака;

- ошибка измерения при определении j-го признака у i-го объекта.

Когда же измерения ведутся в биологии, психологии, экономике, медицине и т.д., то добавляется третья компонента, зависящая от вариабельности изучаемого признака на данных объектах (субъектах) исследования. Следовательно, измеренное значение признака становится суммой трех составляющих

где - вариативное значение измеряемого признака у i-го объекта исследования.

Необходимо выяснить, что представляет собой истинное значение измеряемого признака и какова составляющая . Речь может идти о математическом ожидании, поэтому для случайных величин - математическое ожидание изучаемого признака, а две другие компоненты характеризуют отклонение от математического ожидания.

Ошибка измерения обычно оказывается значительно меньше вариативной компоненты, поэтому их часто объединяют. Однако поскольку вариативная составляющая и ошибки измерения возникают независимо друг от друга, то их легко разъединить и вычислить отдельно.

Если первая компонента является общей статистической характеристикой совокупности объектов исследования, то вторая и третья компоненты характеризуют отклонение отдельного показателя на данном объекте от среднего. Они являются носителем особенностей, присущих данному объекту и методу измерения. В процессе управления важнейшим моментом являются знание и умение учитывать индивидуальные возможности и способности отдельных объектов (субъектов) исследования.

Простейшей характеристикой этих особенностей является разность

Однако при множестве объектов исследования пользуются более обобщенными характеристиками. Самой распространенной характеристикой изменчивости объектов исследования является дисперсия или - среднее квадратическое отклонение. Рассмотрим компоненты дисперсии в факторном анализе. Для этого обратимся к выражению (6.4). Так как является нормированной случайной величиной, то его дисперсия равна единице и представляет собой сумму квадратов значений показателей по всем объектам исследования, деленную на число объектов N или N-1 (с учетом смещения характеристики)

где

Рассмотрим слагаемые, содержащие сомножитель

В рассматриваемом случае величина

является дисперсией нормированного общего фактора и равняется единице.

Значит,

где - ненормированное значение r-го общего фактора;

- среднее значение ненормированного фактора;

- среднее квадратическое отклонение ненормированного общего фактора.

Рассмотрим в (6.14) слагаемые, содержащие сомножитель . Это коэффициент корреляции между двумя общими факторами, т.е.

Следовательно, выражение (6.1) можно представить в виде

Откуда следует, что

Так как характерный фактор присущ только данной j-й переменной и всегда не коррелирован с общими факторами, следовательно, и выражение (6.15) можно упростить:

Дальнейшее упрощение может быть получено для некоррелированных общих факторов, когда и , тогда

В этом случае дисперсия признака равна сумме относительных вкладов в дисперсию этого признака каждого из m общих и одного характерного фактора.

Выражение

называется общностью показателя , т.е. суммой относительных вкладов всех m общих факторов в дисперсию признака . Вклад в дисперсию признака характерного фактора или характерность представляет собой .

Дисперсия характерного фактора состоит из двух компонент: компоненты, связанной со спецификой параметра , и компоненты, связанной с ошибками измерений .

Если факторы специфичности и ошибки не коррелированны между собой, то модель факторного анализа примет вид

Вклад же характерного фактора в дисперсию признака может быть представлен следующим образом

Если выделить из дисперсии признака составляющую ошибки, то получим характеристику, называемую надежностью

Составим сводную таблицу формул для определения вкладов факторов в дисперсию признака (табл.6.1).

Если исследователя интересует вклад фактора в суммарную дисперсию признаков, то это выразится так

Вклад всех общих факторов в суммарную дисперсию признаков рассчитывается следующим образом

Полнотой факторизации называют отношение

Таблица Формула долей дисперсии

Характеристики

Обозначение

Расчетные соотношения

Полная дисперсия

Надежность

Общность

Характерность

Специфичность

Дисперсия ошибки

При проведении анализа полученных результатов бывает полезным построение диаграмм, в которых отражаются доли дисперсии каждой переменной и вклады исходных признаков в дисперсии общих факторов.

Пример

В результате решения задачи, имеющей семь признаков, получено два общих фактора. Необходимо определить:

1) вклады общих и характерного факторов в дисперсию признаков, %;

2) вклад всех семи признаков в каждый общий фактор, %;

3) вклад каждого общего фактора в суммарную дисперсию, построить график вкладов признаков в каждый из общих факторов, %;

4) составить таблицу относительного вклада факторов в суммарную дисперсию.

Матрица А весовых коэффициентов общих факторов имеет вид

Признаки матрицы отображены на рис.

Пояснения. Первый столбец данной матрицы представляет собой вектор весовых коэффициентов первого общего фактора. Второй столбец матрицы - вектор весовых коэффициентов второго общего фактора. Так, является весовым коэффициентом связи между признаком и первым общим фактором, а - вклад третьей переменной в дисперсию первого общего фактора. Вклад первого признака в дисперсию второго общего фактора составляет .

Решение

1. Определим вклады общих и характерного факторов в дисперсию признаков.

а) вклад первого признака в дисперсию первого фактора составит , а его вклад во второй фактор - .

Следовательно, а

Результаты расчетов представлены в табл. 6.2.

Таблица Расчетные значения и

№ переменной j

А

1

2

3

4

1

2

3

4

5

6

7

0,81

0,64

0,36

0,25

0,25

0,09

0,04

0,09

0,09

0,09

0,04

0,25

0,36

0,64

0,90

0,73

0,45

0,29

0,50

0,45

0,68

0,10

0,27

0,55

0,71

0,50

0,55

0,32

2. Определим вклады признаков:

а) в дисперсию первого общего фактора. За 100% принимаем дисперсию первого общего фактора. Дисперсия первого фактора равна сумме элементов таблицы

Вклад первого признака в дисперсию первого фактора составит

б) в дисперсию второго общего фактора. За 100% принимаем дисперсию второго общего фактора

Вклад первой переменной в дисперсию второго фактора

в) составим таблицу вкладов переменных в дисперсию общих факторов (табл. 6.3).

Таблица Вклады признаков в дисперсии общих факторов

№ фактора r

Вклады признаков, %

1

2

33

6

26

6

15

6

10

2,5

10

16

4

23

2

41

3. Рассчитаем вклады общих факторов в суммарную общность и делим:

а) суммарную общность

б) вклад первого фактора в суммарную общность:

в) вклад второго фактора в суммарную общность:

г) вклады каждого признака в общность первого и второго фактора с точностью до 1% (табл. 6.4). Для этого надо вклад каждого признака (табл. 6.3) умножить на вес соответствующего фактора в суммарной общности процесса, или значения и (табл. 6.2) разделить на суммарную общность (4,0).

Таблица Вклады признаков с учетом вкладов факторов в суммарную общность

№ фактора r

Вклады признаков, %

1

2

20

2

16

2

9

2

6

1

6

6

2

9

1

16

График вкладов признаков в каждый из общих факторов представим читателю построить самостоятельно.

4. Составим итоговую таблицу долей дисперсий факторов (табл. 6.5)

Таблица Доли дисперсий факторов

№ фактора r

Наименование дисперсии

Формула

Значение вклада

Вклад, %

А

1

2

3

4

1

2

3

4

5

Дисперсия процесса (полная дисперсия)

Дисперсия первого фактора

Дисперсия второго фактора

Общность процесса (суммарная общность)

Суммарная характерная дисперсия

7,00

2,44

1,56

4,0

3,0

100

34,86

22,29

57,14

42,86

Следует отметить, что дисперсия процесса равна 7 и совпадает с числом признаков. Дисперсия каждого нормированного признака равна 1, поэтому полная дисперсия при семи показателях равна 7.

Естественно, что . Необходимо так же заметить, что весь анализ дисперсий был проведен только на основе заданной матрицы весовых коэффициентов общих факторов. Значит, значение аjr общих факторов однозначно определяет значения весовых коэффициентов характерных факторов.

Размещено на Allbest.ru


Подобные документы

  • Виды детерминированного факторного анализа. Показатели рентабельности производства на основе регрессионных моделей. Способы измерения влияния факторов в детерминированном анализе. Моделирование взаимосвязей между результативным и факторными показателями.

    курсовая работа [700,7 K], добавлен 18.05.2011

  • Теоретические аспекты факторного анализа себестоимости. Краткая экономическая характеристика предприятия ОАО "Дубовкарайгаз". Анализ практики факторного анализа себестоимости в организации. Основные направления его совершенствования в ОАО "Дубовкарайгаз".

    курсовая работа [108,0 K], добавлен 12.11.2009

  • Методика факторного анализа. Способ цепной подстановки. Сущность детерминированного факторного анализа. Способы абсолютных и относительных разниц. Детерминированная факторная система валовой продукции. Расчет 2-х факторной мультипликативной модели.

    лекция [18,7 K], добавлен 27.01.2010

  • Предмет экономического анализа и его научный аппарат, виды и связь со смежными дисциплинами, основные цели, задачи. Система показателей экономического анализа, его методика. Информационное обеспечение и последовательность. Особенности факторного анализа.

    контрольная работа [117,1 K], добавлен 23.06.2011

  • Методы анализа детерминированных моделей. Построение моделей факторного анализа. Методы анализа стохастических моделей. Методы оптимизации в экономическом анализе. Методы комплексного анализа. Рейтинговая оценка финансового состояния.

    курсовая работа [47,9 K], добавлен 12.05.2008

  • Понятие экономического анализа. Характеристика основных приемов и методов экономического анализа. Методика факторного анализа. Многофакторные мультипликативные модели. Построение факторной модели - первый этап детерминированного анализа.

    контрольная работа [105,1 K], добавлен 12.09.2006

  • Определение понятия метода в экономическом анализе, обозначение его основных характеристик. Выявление отличий метода от методики экономического анализа. Составление классификации методов. Описание неформальных (логистических) приемов, факторного анализа.

    курсовая работа [292,2 K], добавлен 12.01.2016

  • Детерминированные и стохастические методы факторного анализа. Финансовое состояние коммерческой организации и методы его анализа на примере ОАО "Смартс". Анализ финансовой структуры баланса. Расчет показателей эффективной деятельности предприятия.

    курсовая работа [599,9 K], добавлен 26.06.2011

  • Экономический анализ как необходимый элемент управления экономикой, характеристика его особенностей и основных приемов и методов. Классификация видов экономического анализа. Методика детерминированного факторного анализа. Типы детерминированных моделей.

    контрольная работа [115,4 K], добавлен 16.03.2013

  • Основные положения факторного анализа. Принципы и модели дисперсионного анализа, его роль и место в статистических исследованиях. Особенности применения дисперсионного анализа при исследовании социально-экономических показателей по Республике Беларусь.

    курсовая работа [762,4 K], добавлен 01.07.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.