Многомерный статистический анализ

Принципы измерения и шкалирования. Особенности дисперсионного, многофакторного и ковариационного, модели регрессионного и факторного анализа. Характеристика основных этапов выполнения факторного анализа. Описание этапов выполнения кластерного анализа.

Рубрика Экономико-математическое моделирование
Вид курс лекций
Язык русский
Дата добавления 23.09.2017
Размер файла 238,6 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Построение корреляционной матрицы. В основе анализа лежит матрица корреляции между переменными. Целесообразность выполнения факторного анализа определяется наличием корреляций между переменными. Если же корреляции между всеми переменными небольшие, то факторный анализ проводить бесполезно. Переменные, тесно взаимосвязанные между собой, как правило, тесно коррелируют с одним и тем же фактором или факторами.

Для проверки целесообразности использования факторной модели существует несколько статистик. С помощью критерия сферичности Бартлетта проверяется нулевая гипотеза об отсутствии корреляции между переменными в генеральной совокупности. Это значит, что рассматривается утверждение о том, что корреляционная матрица совокупности - это единичная матрица, в которой все диагональные элементы равны единице, а все остальные равны нулю. Проверка с помощью критерия сферичности основана на преобразовании детерминанта корреляционной матрицы в статистику хи-квадрат. При большом значении статистики нулевую гипотезу отклоняют. Если же нулевую гипотезу не отклоняют, то выполнение факторного анализа нецелесообразно. Другая полезная статистика - критерий адекватности выборки Кайзера-Мейера-Олкина (КМО). Данный коэффициент сравнивает значения наблюдаемых коэффициентов корреляции со значениями частных коэффициентов корреляции. Небольшие значения КМО - статистики указывают на то, что корреляции между парами переменных нельзя объяснить другими переменными, а это значит, что использование факторного анализа нецелесообразно.

20. ОПРЕДЕЛЕНИЕ МЕТОДА ФАКТОРНОГО АНАЛИЗА И ЧИСЛА ФАКТОРОВ

Определение метода факторного анализа. Различные методы факторного анализа различаются в зависимости от подходов, которые используются для выделения коэффициентов значения факторов. Существует два метода - анализ главных компонент и анализ общих факторов. Метод факторного анализа, который учитывает всю дисперсию данных - это анализ главных компонент.

Диагональ корреляционной матрицы состоит из единиц, и вся дисперсия введена в матрицу факторных нагрузок. Если основная задача исследователя - это определение минимального числа факторов, которые вносят максимальный вклад в дисперсию данных, то выполняют анализ главных компонент.

В анализе общих факторов факторы определяют только на основании общей дисперсии. Общности располагаются на диагонали корреляционной матрицы. Этот метод подходит, если основной задачей является определение латентных переменных и общей дисперсии. Этот метод иногда называют разложение матрицы.

Существуют и другие методы оценки общих факторов: метод невзвешенных наименьших квадратов, обобщенный метод наименьших квадратов, метод максимального правдоподобия, метод распознавания образов.

Определение числа факторов. Для решения этой задачи предлагается несколько процедур:

· определение, основанное на предварительной информации. Иногда известно, сколько факторов можно ожидать и таким образом заранее определить число выделяемых факторов. После извлечения желаемого числа факторов их выделение прекращают;

· определение, основанное на собственных значениях факторов. В этом методе учитывают только факторы, собственные значения которых выше 1,0; остальные факторы в модель не включают. Собственное значение представляет собой значение дисперсии, обусловленной действием этого фактора. Поэтому рассматривают только факторы с дисперсией выше 1,0. Если число переменных меньше 20, то этот метод завышает число факторов;

· определение, основанное на критерии «каменистой осыпи». Графическое изображение этого критерия представляет собой график зависимости собственных значений факторов от их номеров в порядке выделения.

Обычно график имеет четкий разрыв между крутой частью кривой (здесь факторам свойственны большие собственные значения) и плавной хвостовой частью (медленное убывание собственных значений). Вот это плавное убывание собственных значений и называется осыпью. Опыт показывает, что точка, с которой начинается особь, указывает на действительное число факторов;

· определение на основе процента объясненной дисперсии. В этом методе число выделяемых факторов определяют так, чтобы кумулятивный процент дисперсии, выделяемый факторами, достиг бы удовлетворительного уровня. Что считать удовлетворительным зависит от задачи. Однако рекомендуется выделять такое число факторов, которое объясняет, по крайней мере, 60% дисперсии;

· определение, основанное на оценке надежности, выполняемой расщеплением. В этом методе выборку расщепляют напополам, и факторный анализ выполняют для каждой половины. При этом оставляют только факторы с высокой степенью соответствия факторных нагрузок в двух подвыборках;

· определение, основанное на критериях значимости. Можно определить статистическую значимость отдельных собственных значений и оставить только статистически значимые факторы. Недостаток этого метода состоит в том, что при больших размерах выборок (больше 200) многие факторы статистически значимые, хотя с практической точки зрения, многие из них объясняют небольшую долю полной дисперсии.

21. ВРАЩЕНИЕ И ИНТЕРПРЕТАЦИЯ ФАКТОРОВ

Вращение факторов. Матрицу факторных нагрузок называют также матрицей факторного отображения. Она содержит коэффициенты, используемые для выражения нормированных переменных через факторы. Эти коэффициенты называют факторными нагрузками. Последние представляют собой корреляции между факторами и переменными. Если коэффициент имеет высокое абсолютное значение, то фактор и переменная тесно взаимосвязаны. Коэффициенты матрицы факторных нагрузок часто используют для интерпретации факторов.

Несмотря на то, что матрица исходных или неповернутых факторов указывает на взаимосвязь факторов и отдельных переменных, она редко приводит к факторам, которые можно интерпретировать, так как факторы коррелируют со многими переменными. Поэтому вращением матрицу факторных коэффициентов преобразуют в более простую, которую легче интерпретировать.

Вращение называется ортогональным, если при вращении сохраняется прямоугольная система координат. Самый распространенный метод вращения - это метод варимакс, который максимизирует дисперсию. Таким образом, метод варимакс - это ортогональный метод вращения факторов, который минимизирует число переменных с высокими значениями нагрузок, усиливая тем самым, интерпретируемость факторов. В результате ортогонального вращения получают некоррелированные факторы. Вращение называют косоугольным, если не сохраняется прямоугольная система координат и в результате получают коррелированные факторы.

Интерпретация факторов. Для интерпретации факторов необходимо определить переменные, которые имеют высокие значения нагрузок по одному и тому же фактору. После этого этот фактор анализируют с учетом этих переменных. Другое полезное средство интерпретации - графическое изображение переменных, координатами которых служат величины факторных нагрузок.

22. ВЫЧИСЛЕНИЕ ЗНАЧЕНИЙ ФАКТОРОВ, ОТБОР ПЕРЕМЕННЫХ-ИМИТАТОРОВ И ОПРЕДЕЛЕНИЕ ПОДГОНКИ МОДЕЛИ

Вычисление значений факторов. После интерпретации факторов вычисляют их значения. Фактор представляет собой линейную комбинацию исходных переменных. Значение для i-го фактора можно вычислить по формуле

Fi = Wi1X1 + Wi2X2 + + WiX

Все обозначения аналогичны приведенным выше.

Веса или коэффициенты значения фактора, которые используются для объединения нормированных переменных, получают из матрицы коэффициентов значения фактора. Большинство компьютерных программ позволяют вычислить значения факторов. В анализе главных компонент можно вычислить точные значения факторов, эти значения не взаимосвязаны. В анализе общих факторов оценки значений факторов получают, однако нет гарантии того, что факторы не будут коррелировать между собой. Значения факторов можно использовать вместо исходных переменных в последующем многомерном анализе.

Отбор переменных-заменителей. Переменные-заменители - это часть набора исходных переменных выбранных для последующего анализа. Такой анализ позволяет интерпретировать результаты с точки зрения исходных переменных, а не значения факторов. Из матрицы факторных коэффициентов можно выбрать для каждого фактора переменную с наивысшим значением нагрузки на данный фактор. Далее эту переменную используют в качестве переменной-заменителя для соответствующего фактора. Этот процесс протекает гладко, если одна из факторных нагрузок переменной значительно выше остальных. Однако сделать выбор трудно, если нагрузки двух или больше переменных одинаково высокие. В таком случае выбор осуществляют исходя из теоретических предпосылок. Например, теоретически полагают, что переменная с несколько меньшей нагрузкой важнее, чем переменная с несколько большей нагрузкой. Аналогично, если переменная имеет несколько меньшую, но более точно измеренную нагрузку, то в качестве переменной-имитатора следует выбрать именно ее.

Определение подгонки модели. Последняя стадия факторного анализа заключается в определении соответствия модели факторного анализа исходным данным, т.е. фактически идет разговор о степени подгонки модели. Необходимо иметь в виду, что основное допущение, лежащее в основе факторного анализа, состоит в том, что наблюдаемая корреляция между переменными может быть свойственна общим факторам. А это значит, что корреляции между переменными можно вывести или воспроизвести из определенных корреляций между переменными и факторами. Изучив разности между наблюдаемыми корреляциями (имеются в виду данные в исходной корреляционной матрице), а также разности между вычисленными корреляциями, которые определяются из матрицы факторных нагрузок всегда можно определить соответствие модели исходным данным. Эти разности называются остатками. В частности, если много остатков с большими значениями, то факторная модель не обеспечивает хорошее соответствие данным и требует пересмотра.

23. СУЩНОСТЬ КЛАСТЕРНОГО АНАЛИЗА

С помощью кластерного анализа, как и рассмотренного нами факторного анализа, можно проверить весь набор взаимозависимых связей. В кластерном анализе не проводят различия между зависимыми и независимыми переменными. В кластерном анализе проверяются взаимозависимые связи всего набора переменных.

Цель кластерного анализа - классификация объектов на относительно однородные (гомогенные) группы исходя из рассматриваемого набора переменных. Объекты в группе относительно схожи с точки зрения этих переменных и отличаются от объектов в других группах. При подобном использовании кластерного анализа он становится составной частью факторного анализа, так как снижает число объектов, а не число переменных, сгруппировывая их в меньшее число кластеров.

Кластерный анализ представляет собой класс методов, которые используются для классификации объектов или событий в относительно однородные группы. Эти группы называют кластерами. Объекты в каждом кластере должны быть похожи между собой и отличаться от объектов в других кластерах. Кластерный анализ часто называют классификационным анализом или численной таксономией (систематикой). Мы рассмотрим процедуры кластеризации, которые относят каждый объект к одному и только одному кластеру. На рис. 1 показана идеальная ситуация кластеризации. Здесь кластеры четко отделены друг от друга на основании различий двух переменных. Переменная 1 - это ориентация на качество продукции, переменная 2 - это ориентация на чувствительность к цене. Из рисунка видно, что каждый потребитель попадает в один из кластеров и нет пересекающихся областей.

Рис.1

На рис.2 показана такая ситуация кластеризации, которая чаще всего встречается на практике. Границы кластеров очерчены нечетко и некоторых

потребителей нельзя сгруппировать в тот или иной кластер. В кластерном анализе кластеры определяют с помощью собранных данных, а не заранее (т.е. используется апостериорная информация, а не априорная).

24. СТАТИСТИКИ КЛАСТЕРНОГО АНАЛИЗА

С кластерным анализом связаны следующие статистики и понятия:

· план агломерации (объединения). Он дает информацию об объектах, событиях, случаях, которые должны быть объединены на каждой стадии процесса иерархической кластеризации;

· кластерный центроид - это среднее значение переменных для всех случаев или объектов в конкретном кластере;

· кластерные центры - это исходные начальные точки в иерархической кластеризации. Кластеры строят вокруг этих центров (зерен кластеризации);

· принадлежность кластеру. Эта принадлежность указывает кластер, которому принадлежит каждый случай или объект;

· древовидная диаграмма (дендрограмма). Эту диаграмму называют также древовидным графом (графическое средство для показа результатов кластеризации). Она показана на рис.3. вертикальные линии представаляют объединяемые кластеры. Положение вертикальной линии на шкале расстояния (горизонтальная ось) показывает расстояние, при которых объединяли кластеры. Дендрограмму читают слева направо.

· расстояния между кластерными центрами - указывают насколько разнесены отдельные пары кластеров;

· сосульчатая диаграмма - это графическое отображение результатов кластеризации. Она названа так потому, что имеет сходство с рядом сосулек, свисающих с крыши дома. Эту диаграмму читают сверху вниз;

· матрица сходства (матрица расстояний между объединяемыми объектами). Матрица сходства - это нижняя треугольная матрица, которая содержит значение расстояний между парами объектов (случаев).

25. ЭТАПЫ ВЫПОЛНЕНИЯ КЛАСТЕРНОГО АНАЛИЗА

Все этапы выполнения кластерного анализа можно представить в виде следующей последовательности (рис.4)

Рис.4

ЛИТЕРАТУРА

1. Нэреш К., Малхотра. Маркетинговые исследования. Практическое руководство:Москва-Санкт-Петербург-Киев, Третье издание. 2002.-958с.

2. Звонников В.И. Измерение и шкалирование в образовании. Учебное пособие для Вузов:Логос, Университетская книга, 2006. -136с.

3. Аесэль Генри. Маркетинг: Принципы и стратегия. Учебник для вузов. - М.: ИНФРА-М., 2003;

4. Голубков Е.П. Маркетинг: выбор лучшего решения. - М.: Экономика, 2006;

5. Шеффе Г. Дисперсионный анализ, пер. с англ. -- М., 1963.

6. Смирнов Н. В., Дунин-Барковский И. В. Курс теории вероятностей и математической статистики для технических приложений. -- 3 издание. -- М., 1969.

7. Айвазян С. А., Статистическое исследование зависимостей, М., 1968

8. Дрейпер Н., Смит Г., Прикладной регрессионный анализ, пер. с англ., М., 1973. А. В. Прохоров.

9. А.Н.Асаул, М.П. Войнаренко, П.Ю. Ерофеев. Организация предпринимательск5ой деятельности. Учебник под редак. Д.э.н., проф. А.Н.Асаула - СПб.:»Гуманистика», 2004. -448с.

Размещено на Allbest.ru


Подобные документы

  • Основная терминология, понятие и методы факторного анализа. Основные этапы проведения факторного анализа и методика Чеботарева. Практическая значимость факторного анализа для управления предприятием. Метода Лагранжа в решении задач факторного анализа.

    контрольная работа [72,9 K], добавлен 26.11.2008

  • Моделирование. Детерминизм. Задачи детерминированного факторного анализа. Способы измерения влияния факторов в детерминированном анализе. Расчёт детерминированных экономико-математических моделей и методов факторного анализа на примере РУП "ГЗЛиН".

    курсовая работа [246,7 K], добавлен 12.05.2008

  • Факторный анализ. Задачи факторного анализа. Методы факторного анализа. Детерминированный факторный анализ. Модели детерминированного факторного анализа. Способы оценки влияния факторов детерминированном факторном анализе. Стохастический анализ.

    курсовая работа [150,0 K], добавлен 03.05.2007

  • Общая характеристика однофакторного дисперсионного анализа. Сущность двухфакторного дисперсионного анализа при перекрестной классификации факторов. Особенности дисперсионного анализа в системе MINITAB и формы выполнения работы в программе MS Excel.

    методичка [440,7 K], добавлен 15.12.2008

  • Принципы решения многофакторных оптимизационных задач методом крутого восхождения. Схема многофакторного эксперимента по взвешиванию образцов с равномерным и неравномерным дублированием: предпосылки регрессионного анализа, расчет дисперсии и регрессии.

    курсовая работа [195,9 K], добавлен 22.03.2011

  • Цели сегментации рынка в маркетинговой деятельности. Сущность кластерного анализа, основные этапы его выполнения. Выбор способа измерения расстояния или меры сходства. Иерархические, неиерархические методы кластеризации. Оценка надежности и достоверности.

    доклад [214,7 K], добавлен 02.11.2009

  • Теоретические основы прикладного регрессионного анализа. Проверка предпосылок и предположений регрессионного анализа. Обнаружение выбросов в выборке. Рекомендации по устранению мультиколлинеарности. Пример практического применения регрессионного анализа.

    курсовая работа [1,2 M], добавлен 04.02.2011

  • Статистический анализ по выборке. Проведение регрессионного анализа исходных данных и выбор аналитической формы записи производственной функции. Выполнение экономического анализа в выбранной регрессионной модели на основе коэффициентов эластичности.

    курсовая работа [2,2 M], добавлен 22.07.2015

  • Изучение сущности однофакторного дисперсионного анализа. Методы разбиения суммы квадратов и проверки значимости. Исследование вопроса планирования и организации отдельных этапов научных исследований, содержания и этапов научно-исследовательских работ.

    курсовая работа [148,0 K], добавлен 27.12.2012

  • Сущность корреляционно-регрессионного анализа и его использование в сельскохозяйственном производстве. Этапы проведения корреляционно-регрессионного анализа. Области его применения. Анализ объекта и разработка числовой экономико-математической модели.

    курсовая работа [151,0 K], добавлен 27.03.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.