Многомерный статистический анализ
Принципы измерения и шкалирования. Особенности дисперсионного, многофакторного и ковариационного, модели регрессионного и факторного анализа. Характеристика основных этапов выполнения факторного анализа. Описание этапов выполнения кластерного анализа.
Рубрика | Экономико-математическое моделирование |
Вид | курс лекций |
Язык | русский |
Дата добавления | 23.09.2017 |
Размер файла | 238,6 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Конспект лекций
Многомерный статистический анализ
1. ПРИНЦИПЫ ИЗМЕРЕНИЙ И ШКАЛИРОВАНИЯ
измерение шкалирование кластерный регрессионный
Измерение - это присвоение чисел или других символов характеристикам объектов по заранее определенным правилам.
Наиболее важный аспект измерения - определение правил присвоения чисел отдельным параметрам объекта. Процесс присвоения должен быть изоморфным, т.е. должно существовать полное соответствие между числами и измеряемыми параметрами.
Например, одинаковые значения в гривнах присваиваются домохозяйствам с идентичными годовыми доходами.
Изоморфность позволяет связывать числа со специфическими характеристиками измеряемых объектов, и наоборот.
Правила присвоения чисел должны быть стандартизованными и не зависеть от объекта или времени.
Шкалирование - создание континуума (последовательного ряда), на котором размещаются измеряемые объекты.
Шкалирование можно рассматривать как продолжение измерения.
В качестве иллюстрации рассмотрим шкалу размещения потребителей согласно характеристике «отношение к кинотеатрам».
Каждому респонденту присвоим число, характеризующее отношение
- положительное (равное 1),
- нейтральное (равное 2),
- отрицательное (равное 3).
Здесь измерение - это процесс присвоения 1,2 или 3 согласно определенному правилу. Тогда шкалирование - это процесс размещения респондентов вдоль этого ряда в зависимости от отношения к кинотеатрам.
Отобранные для анализа респонденты могут рассматриваться индивидуально или попарно.
Основные типы шкал.
Мы уже отметили основные виды шкал:
- номинальная,
- порядковая,
- интервальная,
- относительная.
Охарактеризуем каждую из них.
Номинальная шкала - это шкала, числа которой служат только как ярлыки (метки) для определения и классификации объектов со строгим, один к одному, соответствием между числами и объектами.
Номинальная шкала по сути - это условная схема маркировки.
Например, присваиваемые респондентам, участникам забега. Каждый номер соответствует только одному объекту (бегуну), а каждый бегун имеет один номер.
В маркетинговых исследованиях номинальные шкалы используются для идентификации респондентов, торговых марок, магазинов и др.
Числа в номинальной шкале используют также как метки для классов и категорий. Например, математический школьный класс можно классифицировать как группу 1, а исторический - как группу 2. Классы взаимно исключающие вместе охватывают выборку. Всем объектам внутри одного класса присваивается одно и то же число.
Допустимой математической операцией с числами в номинальной шкале является счет. Допустимо только ограниченное количество статистических расчетов, базирующееся на подсчете частот.
Порядковая шкала - это ранговая шкала, в которой числа присваиваются объектам для обозначения относительной степени, в которой определенные характеристики присущи тому или иному объекту. Порядковая шкала отображает относительную позицию, но не значительность разницы между объектами.
В маркетинговых исследованиях порядковые шкалы используются для измерения отношения, мнения, восприятия, предпочтения.
Вывод: порядковая шкала - это ранговая шкала, в которой числа присваиваются объектам для отражения относительной степени выраженности некоторых характеристик у тех или иных объектов.
Порядковые шкалы можно трансформировать любым способом, если при этом сохраняется первоначальный порядок расположения.
Кроме операций подсчета, допустимых для данных номинальной шкалы, для порядковых шкал можно использовать статистические методы.
Интервальная шкала - это числовая шкала, количественно равные промежутки которой отображают равные промежутки между значениями измеряемых характеристик.
Интервальная шкала содержит всю информацию, заложенную в порядковую шкалу, кроме того она позволяет сравнивать различия между объектами.
В маркетинговых исследованиях данные об отношении покупателей, полученные по рейтинговым шкалам часто обрабатываются как интервальные.
Общеизвестный пример повседневной жизни - шкала температуры.
В интервальной шкале расположение точки начала отсчета не фиксируется. Точка начала отсчета и единицы измерения выбираются произвольно. А это значит, что преобразование
y = a + bx
Сохранит свойства шкалы (x - первоначальное значение шкалы, y - преобразованное значение шкалы, b - положительная константа).
Пусть а=20, b = 2
Мы видим, что две интервальные шкалы с числами 1, 2, 3, 4 и 22, 24, 26, 28 эквивалентны.
Статистические методы для обработки интервальных шкал включают все методы, используемые для номинальных и порядковых данных: среднее арифметическое, среднеквадратическое отклонение, коэффициент корреляции и другие, применяемые в маркетинговых исследованиях.
Относительная шкала - это наиболее информативная шкала, которая позволяет идентифицировать и классифицировать объекты, ранжировать их, а также сравнивать интервалы и разницы.
Относительная шкала обладает всеми свойствами номинальной, порядковой и интервальной шкал, кроме того, имеет точку начала отсчета.
Относительные шкалы допускают только пропорциональные преобразования вида
y = bx
где b - положительная константа.
Общеизвестные примеры относительной шкалы: рост, вес, возраст и деньги.
В маркетинге с помощью относительной шкалы измеряются объемы продаж, затраты, доля рынка и число покупателей.
Рассмотренные четыре основных вида шкал не исчерпывают всех существующих вариантов методов измерения.
СОПОСТАВЛЕНИЕ МЕТОДОВ ШКАЛИРОВАНИЯ
Все методы шкалирования можно условно разделить на сравнительные и несравнительные.
Сравнительные шкалы - это метод шкалирования, заключающийся в прямом сравнении рассматриваемых объектов.
Например, респондентов спрашивают, предпочитают они квас или яблочный сок.
Данные сравнительных шкал являются относительными и имеют свойства только порядковых и ранговых величин.
Основное преимущество сравнительного шкалирования состоит в возможности распознавания незначительных различий между рассматриваемыми объектами.
При сравнении двух объектов респондентам приходится выбирать между ними.
Основной недостаток сравнительных шкал и порядковая природа и ограничение анализа рамками определенного количества рассматриваемых объектов.
Несравнительные шкалы - это один из методов шкалирования, заключающийся в самостоятельной оценке каждого объекта.
При использовании несравнительных шкал (иногда их называют метрическими) каждый объект исходной рассматриваемой совокупности оценивается независимо от других. Полученные данные считаются интервально или рейтингово отшкалированными.
2. МЕТОДЫ СРАВНИТЕЛЬНОГО ШКАЛИРОВАНИЯ
Шкалирование методом попарного сравнения - это метод сравнительного шкалирования, при котором респонденту дается два объекта для выбора по определенному критерию. Данные по своей природе порядковые.
Пример, респондент может утверждать, что он делает покупки гречневой каши чаще, чем рисовой.
Данные попарного сравнения упорядочиваются на основе свойства транзитивности. Транзитивность означает, что если торговой марке А отдается предпочтение перед торговой маркой В, а В перед С, то А будет отдано предпочтение перед С.
Шкалирование методом попарного сравнения полезно когда количество торговых марок ограничено. В противном случае проведение попарных сравнений весьма громоздко.
Упорядоченное шкалирование - это метод сравнительного шкалирования, при котором респондентам предлагается одновременно несколько объектов с тем, чтобы они проранжировали их по определенному критерию.
Например, респондентов просят проранжировать зубные пасты по предпочтению. Например, с 1-го по 10-й ранг.
При наличии n объектов необходимо сделать лишь (n-1) решений при упорядоченном щкалировании, а при парном сравнении [n(n-1)/2] решений.
Шкалирование с постоянной суммой - это метод сравнительного шкалирования, при котором респондентов просят распределить постоянную сумму баллов между объектами сравнения по определенному критерию.
Например, респондентов просят разделить 100 очков между свойствами туалетного мыла.
Свойства объекта шкалируются делением суммы баллов, присвоенных каждому из них всеми опрашиваемыми, на общее количество респондентов.
Шкалирование методом Q-сортировки - это метод сравнительного анализа, использующий процедуру упорядочения, при которой объекты разбиваются на группы в зависимости от схожести по определенному критерию.
Это шкалирование разработано для быстрого установления различий между большим количеством объектов.
Вербальные протоколы - этот метод используется для исследования познавательных реакций или мыслительных процессов через высказывание их вслух при выполнении задания или осуществления покупки.
Протоколы используются для измерения потребительских познавательных реакций при реальных покупках. Протокольный анализ также применяется для измерения потребительской реакции на рекламу.
Например, сразу после показа рекламы респондента просят перечислить все мысли, пришедшие в голову во время просмотра. При этом, опрашиваемому дается ограниченный промежуток времени для перечисления мыслей, чтобы минимизировать вероятность включения мыслей, возникших после просмотра сообщения. После составления протокола высказывание индивида или познавательные реакции распределяются на три категории. Категории следующие: высказывание «за», высказывание «против», и недоверие источнику.
3. ПОНЯТИЕ ДИСПЕРСИОННОГО АНАЛИЗА
Дисперсионный анализ - это статистический метод изучения различий между выборочными средними двух или больше совокупностей.
Как правило, нулевая гипотеза утверждает, что все выборочные сведения равны.
В своей простейшей форме дисперсионный анализ должен иметь зависимую переменную (например, предпочтение к сухому завтраку), которая является метрической и измеряется с помощью интервальной или относительной шкалы. Кроме того, должна быть одна или больше независимых переменных (например, потребление продукта: сильное, среднее, слабое, полное отсутствие потребления). Все независимые переменные - их называют факторами - должны быть категориальными (неметрическими).
Из сказанного следует вывод, что фактор - это категориальная независимая переменная и что дисперсионный анализ применяется только в случае, когда все независимые переменные являются категориальными (т.е. неметрическими).
Конкретная комбинация уровней факторов называется факторным экспериментом (попросту говоря, условиями испытаний).
Различают однофакторный, двух и более факторный дисперсиионый анализ. Следовательно, однофакторный дисперсионный анализ - это метод дисперсионного анализа, при котором используется только один фактор.
Многофакторный дисперсионный анализ - это модель дисперсионного анализа, которая включает два или больше факторов.
Если набор независимых переменных состоит из категориальных и метрических переменных, то их изучают методом ковариационного анализа.
Ковариационный анализ - это специальный метод анализа дисперсий, в котором эффекты одной или больше сторонних переменных, выраженных в метрической шкале удаляют из зависимой переменной перед выполнением дисперсионного анализа.
Дисперсионный и ковариационный анализ может включать несколько независимых переменных (например степень использования продукта, лояльность к торговой марке, важность и др.).
Следует отметить, что метрическая независимая переменная, используемая в ковариационном анализе, называется ковариатой.
ОДНОФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ
Довольно часто у маркетологов возникает необходимость установить различия в средних значениях зависимой переменной для нескольких категорий одной независимой переменной (фактора).
Этой задачей занимается однофакторный дисперсионный анализ.
Примером задач, которыми занимается однофакторный дисперсионный анализ являются:
- различаются ли разные сегменты рынка с точки зрения объема потребления товара?
- влияет ли осведомленность потребителей о магазине (высокая, средняя, низкая) на предпочтение данного магазина?
В однофакторном дисперсионном анализе используются следующие статистики:
эта-квадрат (2) - это корреляционное отношение, с помощью которого выражают степень влияния или силу эффекта независимой переменной (фактора) Х на зависимую переменную Y. Значение - 2 лежит в интервале от 0 до 1.
F-статистика. Нулевую гипотезу о том, что категориальные средние в двух выборочных совокупностях равны, проверяют с помощью F-статистики, которая представляет собой отношение межгрупповой дисперсии к дисперсии ошибки (отношение среднего квадрата Х к среднему квадрату ошибки);
средний квадрат - это сумма квадратов отклонений наблюдений, деленная на соответствующее ей число степеней свободы.
SSмежду, вариация переменной Y, обусловленная различием средних между группами (межгрупповая дисперсия)(SS betwttn, SS x). Вариация переменной Y, связанная с вариацией средних значений категорий переменной X. Она представляет собой вариацию между уровнями переменной X или долю в сумме квадратов переменной Y, связанную с переменной X.
SSвнутри, вариация переменной Y, обусловленная вариацией внутри каждой группы категорий (внутригрупповая дисперсия)(SS within, SS error). Это вариация переменной Y, обусловленная изменением внутри каждой из групп переменной X. Она осуществляется за счет всех факторов, кроме X (при исключенном X).
Общая сумма квадратов SSy. Полная дисперсия переменной Y.
Процедура выполнения однофакторного дисперсионного анализа включает:
- определение зависимых и независимых переменных;
- разложение общей вариации;
- измерение эффектов;
- проверку значимости результатов;
- интерпретацию результатов.
ОПРЕДЕЛЕНИЕ ЗАВИСИМЫХ И НЕЗАВИСИМЫХ ПЕРЕМЕННЫХ
Пусть Y - зависимая переменная, X - независимая переменная или категориальная переменная, имеющая с категорий (уровней групп). Для каждой группы Х существует n наблюдений Y.
Из таблицы видно, что размер выборки в каждой группе Х равен n , а размер общей выборки N = n x c. Для упрощений допускают, что размеры выборок в группах переменной Х (так называемые групповые размеры) равны, но это допущение необязательно.
С целью изучения различий между средними однофакторный дисперсионный анализ использует разложение полной вариации, наблюдаемой в зависимой переменной. По сути это:
разделение вариации зависимой переменной на вариацию, обусловленную различием средних внутри групп плюс вариацию, обусловленную внутригрупповой изменчивостью.
Полную вариацию зависимой переменной Y обозначаемую SS , можно разложить на два компонента
SSy = SSмежду + SSвнутри
где нижние индексы (между и внутри) относятся к группам переменной Х.
SSмежду - это вариация переменной Y, связанная с различием средних между группами переменной Х. Она представляет вариацию между категориями переменной Х (межгрупповая изменчивость). Другими словами,
SSмежду - это доля в сумме квадратов переменной Y, обусловленная действием независимой переменной (фактором Х). Поэтому SSмежду также обозначают как SSx.
SSвнутри - это вариация зависимой переменной Y, связанная с вариацией внутри каждой группы переменной Х, а вычисляют ее, не учитывая фактор Х. Поэтому SSвнутри также называют дисперсией ошибки, т.е. SSошибки.
SSy = SSx + SSошибкм
где SSy = 2
SSx = 2
SSошибкм = 2
- отдельное наблюдение
- среднее для группы j
- среднее для всей выборки или общая средняя
- i-наблюдение в j-группе
Смысл разложения полной вариации в переменной Y, SSy на компоненты SSмежду и SSвнутри в том, чтобы наглядно представить, а затем изучить различия в групповых средних.
ИЗМЕРЕНИЕ ЭФФЕКТА
Сила влияния переменной Х на Y измеряется с помощью SSx. Поскольку SSx связано с вариацией средних значений групп Х, то относительное значение SSx растет с увеличением различий между средними значениями Y в группах Х. Относительное значение SSx также увеличивается при уменьшении вариаций Y внутри групп Х. Эффект влияния переменной Х на Y вычисляют по формуле
SSx (SSy - SSошибкм)
2 = =
SSy SSy
Значение 2 равно нулю, когда все групповые средние равны, т.е. переменная Х не влияет на Y. Значение 2 равно единице, когда внутри каждой из групп переменной Х изменчивость отсутствует, но имеется некоторая изменчивость между группами. Вывод:
2 представляет собой меру вариации Y, которая объясняется влиянием независимой переменной Х.
В то же время мы в состоянии не только измерять влияние Х на Y, но и проверить его значимость.
ПРОВЕРКА ЗНАЧИМОСТИ.
В однофакторном дисперсионном анализе проверяют нулевую гипотезу, утверждающую, что групповые средние в рассматриваемой совокупности равны. Т.е. H0 :1 = 2 = 3 =………= с
В соответствии с нулевой гипотезой значение SSx и SSошибкм зависят от одного источника вариации. В этом случае оценка дисперсии совокупности Y может определяться межгрупповой или внутригрупповой вариации, т.е.
SSx
Sy2 = ;
(с-1)
что представляет собой средний квадрат, обусловленный действием Х, который можно записать по другому МSx.
В то же время оценка дисперсии совокупности Y
SSошибкм
Sy2 = ;
(N-c)
что представляет собой средний квадрат, обусловленный действием всех факторов кроме Х, что можно записать как МSошибкм.
Нулевую гипотезу H0 можно проверить с помощью F-статистики, рассчитываемой как отношение между этими двумя оценками дисперсий:
SSx / (с-1) МSx
F = =
SSошибкм / (N-c) МSошибкм
Эта статистика подчиняется F-распределению с числом степеней свободы равным (с-1) и (N-c). Напомним, что F-распределение представляет собой распределение вероятностей отношений выборочных дисперсий. Значение F зависит от числа степеней свободы в числителе и знаменателе.
Интерпретация результатов.
Если нулевую гипотезу о равенстве групповых средних не отклоняют, то независимая переменная не оказывает статистически значимого влияния на зависимую переменную.
Понятно, что если нулевую гипотезу отклонить, то эффект независимой переменной на зависимую трактуется как статистически значимый, т.е. среднее значение зависимой переменной различно для различных групп независимой переменной.
Необходимо отметить, что сравнение значений групповых средних показывает характер влияния независимой переменной.
4. ДОПУЩЕНИЯ В ДИСПЕРСИОННОМ АНАЛИЗЕ
Все допущения дисперсионного анализа можно обобщить в следующем виде.
1. Обычно считается, что уровни независимой переменной фиксированные. Статистический вывод касается только рассматриваемых конкретных уровней. Такой подход называется моделью с фиксированным влиянием уровней фактора. Однако существуют и другие модели. Так, например, для модели со случайным влиянием уровней фактора считают, что факторы представляют собой случайные выборки из генеральной совокупности факторного эксперимента. Модель со смешанными уровнями получают, если некоторые факторы (условия эксперимента) фиксированные, а некоторые - случайные.
2. Предварительно отметим, что однофакторная дисперсионная модель имеет вид
xij = + Fi + ij
где xij - значение исследуемой переменной, полученной на i-м уровне фактора (i = 1, 2,…,m) с j-м порядковым номером (j = 1, 2,…, n);
- общее среднее;
Fi- эффект, обусловленный влиянием i-го уровня фактора;
ij - остаточный член, или возмущение, вызванное влиянием неконтролируемых факторов, т.е. вариацией переменной внутри отдельного уровня.
Так вот, остаточный член в дисперсионной модели, определяющей значение зависимой переменной Y, имеет нормальное распределение, при этом, математическое ожидание равно нулю, а дисперсия является постоянной. Остаточный член не связан ни с одним уровнем переменной Х. Умеренное отклонение от этих допущений серьезно не влияет на достоверность анализа. Более того, данные можно преобразовать таким образом, чтобы они удовлетворяли допущению о нормальности распределения или постоянству дисперсий.
3. Остаточные члены не коррелируют. Если остаточные члены взаимосвязаны (т.е. наблюдения зависимые), то отношение дисперсий F может быть сильно искажено.
Очень часто при анализе ситуаций данные соответствуют описанным выше трем допущениям. Поэтому дисперсионный анализ достаточно распространен на практике.
5. МНОГОФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ
Часто при исследованиях приходится иметь дело с одновременным влиянием нескольких факторов. Например - влияет ли на выбор потребителем конкретной торговой марки уровень образования и возраст?
Главное преимущество МДА в том, что он позволяет изучать взаимодействие факторов. Взаимодействия имеют место, когда эффекты одного фактора на зависимую переменную зависят от уровня других факторов.
Взаимодействие имеет место при оценке зависимости между двумя переменными, если влияние Х1 зависит от уровня Х2 и наоборот.
Сама процедура МДА аналогична процедуре однофакторного дисперсионного анализа. Статистики, соответствующие МДА также определяются аналогично определению статистик в ОДА.
Рассмотрим пример, в который входят факторы Х1 и Х2 с уровнями с1 и с2 соответственно. В этом случае полная вариация раскладывается следующим образом.
SSполная = SS
за счет Х1 + SS, Х2 + SS и взаимодействия Х1 и Х2 + SSвнутри
Эту формулу можно записать по другому
SSy = SSx1 + SSx2 + SSx1x2 + SSошибкм
Большое влияние Х1 будет выражаться в большом отличии среднего в уровнях Х1 , а также более высоком значении SSx1. Это же касается и фактора Х2. Чем сильнее взаимодействие между факторами Х1 и Х2, тем больше значение SSx1x2. С другой стороны, если Х1 и Х2 не зависят один от другого, то значение SSx1x2 приближается к нулю.
Степень объединенного влияния, т.е. эффекта двух факторов называют полным эффектом или множественной корреляцией 2, которая вычисляется по формуле.
(SSx1 + SSx2 + SSx1x2)
2 =
SSy
Проверка наличия различий между некоторыми из групп факторного эксперимента определяет значимость полного эффекта.
Если полный эффект статистически значимый, то на следующем этапе изучают значимость эффектов взаимодействия.
Если нулевая гипотеза утверждает, что взаимодействие между факторами отсутствует, то соответствующий F-критерий вычисляют по формуле
SSx1x2/ dfnM Sx1x2
F = = ;
SSошибкм/dfd MSошибкм
где dfn = (с1 - 1) + (с2 - 1)
dfd = N - с1с2
Значимость эффекта взаимодействия выявляется с помощью проверки взаимодействия между двумя или больше независимыми переменными. При этом, если окажется, что эффект взаимодействия статистически значимый, то эффект Х1 зависит от Х2 и наоборот. Поскольку эффект, т.е. влияние одного фактора является неоднородным, а зависит от уровня другого фактора, то проверять значимость главных эффектов бессмысленно. В то же время имеет смысл проверить значимость главного эффекта каждого фактора, если эффект взаимодействия статистически незначимый.
Значимость главного эффекта каждого фактора, например, для Х1 можно проверить следующим образом
SSx1/ dfn MSx1
F = = ;
SSошибкм/dfd MSошибкм
где dfn = с1 - 1
dfd = N - с1с2
Все вышесказанное справедливо только тогда, когда план эксперимента сбалансированный, т.е. число случаев в каждой ячейке одинаково. В противном случае дисперсионный анализ усложняется.
При проверке различий в средних значениях зависимой переменной, связанных с влиянием контролируемых независимых переменных, часто необходимо учитывать неконтролируемые независимые переменные. Например, при определении влияния различных цен на потребление в семьях сухих завтраков может оказаться существенным такой фактор, как размер семьи. Для решения подобных задач служит
6. КОВАРИАЦИОННЫЙ АНАЛИЗ
По сути дела эта дисперсионный анализ, который включает, по крайней мере, одну категориальную независимую переменную и одну интервальную или метрическую независимую переменную.
Категориальную независимую переменную называют фактором, а метрическую - ковариатой. Обычно ковариату используют для удаления посторонней вариации из зависимой переменной, поскольку самыми важными являются эффекты факторов. Вариацию в зависимой переменной, обусловленную ковариатой, удаляют корректировкой среднего значения зависимой переменной в пределах каждого условия эксперимента. Затем, базируясь на скорректированных оценках, выполняют дисперсионный анализ. Значимость суммарного эффекта ковариат равно как и эффект каждой ковариаты, проверяют с помощью соответствующих F-критериев. Коэффициенты ковариат позволяют понять влияние, которое оказывается на зависимую переменную.
Ковариационный анализ наиболее целесообразен для применения тогда, когда ковариата линейно связана с зависимой переменной и при этом не связана с факторами.
7. ПАРНАЯ КОРРЕЛЯЦИЯ
Зачастую исследователя интересует связь между двумя метрическими переменными, например, связано ли восприятие качества товаров потребителями с их восприятием цены?
В подобных ситуациях наиболее широко используемой статистикой является коэффициент парной корреляции r, который характеризует степень тесноты связи между двумя метрическими переменными, например, Х и Y. Эта степень связи измеряется с помощью интервальной или относительной шкал.
Коэффициент корреляции показывает степень, в которой вариация одной переменной Х связана с вариацией другой переменной Y.
Получив выборку, размером n наблюдений, коэффициент корреляции для переменных Х и Y можно вычислить по формуле
X - )(Yi - )
r =
Разделив числитель и знаменатель на (n-1) получим
X - )(Yi - )
n-1
r = = COVxy / SxSy
n-1 n-1
В этих уравнениях и обозначают выборочные средние, а Sx и Sy - соответствующие стандартные отклонения. COVxy - это ковариация между Х и Y, т.е. мера зависимости между Х и Y.
Ковариация - это систематическая взаимосвязь между двумя переменными, при которой изменения одной переменной вызывает соответствующее изменение другой переменной.
Ковариация может быть как положительной, так и отрицательной. Деление ковариации на SxSy осуществляет нормировку, откуда видно, что коэффициент корреляции r находится в пределах от минус 1 до плюс 1. очевидно, что коэффициент корреляции никак не связан с единицами измерения, в которых выражены переменные, т.е. является безразмерной величиной.
8. ЧАСТНАЯ КОРРЕЛЯЦИЯ
Мы установили, что линейный коэффициент корреляции - это показатель силы связи, описывающий линейную зависимость между двумя переменными. Тогда частный коэффициент корреляции - это мера зависимости между двумя переменными при фиксированных или скорректированных эффектах одной или нескольких переменных.
Эта статистика позволяет ответить, например, на такой вопрос: связано ли восприятие качества товаров потребителями с их восприятием цены, если исключить эффект торговой марки? Предположим, что в этих ситуациях исследователь хочет вычислить силу связи между Х и Y, исключив при этом эффект влияния третьей переменной Z. Первоначально следует удалить эффект Z из значения переменной Х. С этой целью используют коэффициент парной корреляции rxz и вычисляют значения Х, руководствуясь информацией о Z. Затем полученное значение Х вычитают из фактического значения Х и получают скорректированное значение Х. Совершенно аналогично корректируют значения Y, чтобы исключить эффект. Скорректированный коэффициент обозначают rxyz . Если учесть, что простой коэффициент корреляции между двумя переменными полностью описывает линейную зависимость между ними, частный коэффициент корреляции можно вычислить, зная только эти простые коэффициенты корреляции, и при этом, не используя отдельные наблюдения.
rxy - (rxz)( ryz)
rxy =
9. УСЛОВИЯ, КОТОРЫЕ ДОПУСКАЮТ ИСПОЛЬЗОВАНИЕ РЕГРЕССИОННОГО АНАЛИЗА
Это статистический метод установления формы и изучения связей между метрической зависимой переменной и одной или несколькими независимыми переменными.
Как правило, регрессионный анализ используют в следующих случаях.
1. Действительно ли независимые переменные обуславливают значимую вариацию зависимой переменной. Другими словами, действительно ли эти переменные взаимосвязаны?
2. В какой степени вариацию зависимой переменной можно объяснить независимыми переменными (здесь идет разговор о тесноте связи)?
3. Требуется определить форму связи, т.е. математическое уравнение, описывающее зависимость между зависимой и независимой переменными.
4. Требуется предсказать значения зависимой переменной.
5. Требуется контролировать другие независимые переменные при определении вкладов конкретной переменной.
В регрессионном анализе используются такие термины, как зависимая или критериальная переменная и независимая переменная (предиктор). Эти термины отражают наличие математической зависимости между переменными.
Рассмотрим последовательно сперва парную, а затем множественную регрессию.
ПАРНАЯ РЕГРЕССИЯ
Это метод установления математической зависимости между одной метрической зависимой (критериальной) переменной и одной метрической независимой переменной (предиктором). В значительной мере этот анализ аналогичен определению простой корреляции между двумя переменными. Однако для того, чтобы вывести уравнение, необходимо одну переменную представить как зависимую, а другую как независимую.
С парным регрессионным анализом связаны следующие статистики.
Мы приведем статистики и термины, относящиеся к парному регрессионному анализу.
Модель парной регрессии. Основное уравнение регрессии имеет вид
Yi = o + 1Xi + ei,
где Y - зависимая или критериальная переменная,
Х - независимая переменная или предиктор,
o - точка пересечения прямой регрессии с осью OY,
1 - тангенс угла наклона прямой,
ei - остаточный член (остаток), связанный с i-м наблюдением, характеризующий отклонение от функции регрессии.
Примечание: в отдельных источниках этот член уравнения называют также ошибочным (ошибкой) или возмущающим членом (возмущением).
Коэффициент детерминации. Тесноту связи измеряют коэффициентом детерминации r2 . Он колеблется в диапазоне между 0 и 1 и указывает на долю полной вариации Y, которая обусловлена вариацией Х.
Вычисляемое (теоретическое) значение Y. Вычисляемое значение Y равно
= a + bx,
где - вычисляемое значение Yi,
параметры a и b - это вычисляемые оценки o и i соответственно
Коэффициент регрессии. Вычисляемый параметр b обычно называют ненормированным коэффициентом регрессии.
Диаграмма рассеяния (поле корреляции). Поле корреляции - это графическое представление точек с координатами, определяемыми значениями двух переменных (независимой и зависимой), для всех наблюдений.
Стандартная ошибка уравнения регрессии. Эта статистика SEE представляет собой стандартное отклонение фактических значений Y от теоретических значений .
Стандартная ошибка коэффициента регрессии b. Стандартное отклонение b, обозначаемое SEb, называется стандартной ошибкой.
Нормированный коэффициент регрессии. Его также называют бета-коэффициентом, или взвешенным бета-коэффициентом. Он показывет изменения Y в зависимости от изменения Х (угол наклона прямой уравнения регрессии) при условии, что все данные нормированы.
Сумма квадратов ошибок. Значения расстояний всех точек до линии регрессии возводят в квадрат и суммируют, получая сумму квадратов ошибок, которая является показателем общей ошибки .
t-статистика. Эту статистику с n-2 степенями свободы можно использовать для проверки нулевой гипотезы, которая утверждает, что между X и Y не существует линейной зависимости или
H0 : 1 = 0
где t = b/ SEb.
СТАДИИ ПАРНОГО РЕГРЕССИОННОГО АНАЛИЗА
тадии парного регрессионного анализа можно представить на следующем рисунке
ПОЛЕ КОРРЕЛЯЦИИ
Это графическое изображение точек с координатами, которые соответствуют значениям двух переменных для всех случаев. Обычно, значение зависимой переменной откладывают по вертикальной, а значение независимой - по горизонтальной. Поле корреляции используется при определении формы зависимости между переменными. График дает исследователю первое представление о форме данных и о возможных проблемах.
Самый распространенный метод для расчета уравнения линейной регрессии по данным наблюдений это метод наименьших квадратов.
Вывод: МНК - это метод, используемый для расчета параметров уравнения линейной регрессии, когда на основе поля корреляции минимизируются расстояния по вертикали всех точек поля от графика регрессии.
Наиболее подходящая прямая, определенная по МНК называется линией регрессии. Если точка поля не лежит на линии регрессии, то расстояние по вертикали от нее до линии регрессии называется ошибкой ej.
Расстояния от всех точек до линии регрессии возводят в квадрат и суммируют, получая сумму квадратов ошибок. Именно это число показывает суммарную ошибку . Для определения наиболее подходящей линии с помощью МНК минимизируют суммы квадратов ошибок. Если значения Y отложить по вертикальной оси, а значения Х - по горизонтальной, то полученная аппроксимированная линия называется регрессией Y по Х, так как расстояния по вертикали минимизированы. Поле корреляции показывает, можно ли зависимость Y по Х выразить прямой линией и, следовательно, подходит ли к этим данным парная регрессионная модель
Модель парной регрессии
В модели парной регрессии форма прямой линии выражается уравнением
Y = o + 1X ,
где Y - зависимая или критериальная переменная,
Х - независимая переменная, или предиктор,
o - отрезок прямой, отсекаемый на оси по Y,
1 - угловой коэффициент (тангенс угла наклона).
Эта модель исходит из того, что Y полностью определяется Х. при известных значениях o и 1 можно предсказать значение Y. Однако, в маркетинговом исследовании связи между переменными не всегда детерминированы. Поэтому, чтобы учесть вероятностную природу связи, в регрессионное уравнение вводят ошибочный член. Тогда, базовое уравнение регрессии принимает вид
Yi = o + 1X + ei
где ei - член уравнения, характеризующий ошибку i-го наблюдения. Оценка регрессионных параметров o и 1 относительно проста.
10. ОПРЕДЕЛЕНИЕ ПАРАМЕТРОВ УРАВНЕНИЯ РЕГРЕССИИ
В большинстве случаев 0 и 1 неизвестны. Их определяют (оценивают), исходя из имеющихся выборочных наблюдений с помощью следующего уравнения:
где - теоретическое значение Yi,
a и b - вычисленные значения o и 1, соответственно.
Константу b обычно называют ненормированным коэффициентом регрессии. Этот коэффициент выражает угол наклона линии регрессии и показывает ожидаемое изменение Y при изменении Х на единицу. Угловой коэффициент b можно вычислить через ковариацию между Х и Y(COVxy) и дисперсию Х по формуле
Отрезок, отсекаемый на оси OY - а, можно вычислить по формуле
a =
11. НОРМИРОВАННЫЙ КОЭФФИЦИЕНТ РЕГРЕССИИ И ПРОВЕРКА ЗНАЧИМОСТИ
Нормированный коэффициент регрессии
Нормирование представляет собой процедуру, посредством которой исходные данные преобразуют в новые переменные со значением средней, равным нулю и дисперсией, равной единице. После нормирования данных, отрезок, отсекаемый на оси OY, принимает значение 0. Нормированный коэффициент регрессии обозначают как «бета»-коэффициент или взвешенный «бета»-коэффициент. В этом случае угловой коэффициент регрессии Y по Х, обозначаемый Bxy, тот же, что и угловой коэффициент регрессии Х по Y, обозначаемый Byx. Более того, каждый из этих коэффициентов регрессии равен простому (линейному) коэффициенту корреляции между Х и Y.
Byx = Bxy = rxy
Существует простая связь между нормированным и ненормированным коэффициентами регрессии:
Проверка значимости
Статистическую значимость линейной связи между Х и Y можно проверить, исследовав гипотезы:
H0 : 1 = 0
H1 : i 0
Нулевая гипотеза предполагает, что между Х и Y не существует линейной зависимости. Альтернативная гипотеза утверждает, что между Х и Y существует зависимость, либо положительная, либо отрицательная. Обычно проводят двустороннюю проверку. Можно использовать t-статистику с n-2 степенями свободы, где
b
t =
SEb
SEb обозначает стандартное отклонение b, и этот показатель называют стандартной ошибкой коэффициента регрессии b.
12. ТЕСНОТА И ЗНАЧИМОСТЬ СВЯЗИ
Соответствующий статистический вывод включает определение тесноты и значимости связи между Х и Y. Тесноту связи измеряют коэффициентом детерминации r2 . В парной регрессии r2 представляет собой квадрат линейного коэффициента корреляции. Коэффициент r2 изменяется от нуля до единицы. Он показывает долю от полной вариации переменной Y, которая обусловлена вариацией переменной Х. Разложение полной вариации переменной Y аналогично разложению полной вариации в дисперсионном анализе. Как показано на рис.1, полная вариация SSy раскладывается на вариацию, которую можно объяснить, исходя из линии регрессии SSрегрессии и вариацию ошибки или остаточную вариацию, SSошибки или SSостаточная
Рис.1 Разложение полной вариации в парной регрессии
SSy = SSрегрессии + SSостаточная
где
SSy =
SSрегрессии =
SSостаточная =
Тесноту связи вычислим следующим образом
Другой равноценной проверкой значимости линейной зависимости между Х и Y (значимости b) является проверка значимости коэффициента детерминации. В этом случае гипотезы имеют следующий вид:
H0:R2совокупности = 0
H1:R2совокупности > 0
Соответствующей статистикой, лежащей в основе критерия, является F-статистика
SSрегрессии
F = ,
SSостаточная /(n-2)
которая подчиняется F-распределению с 1 и n-2 степенями свободы. F-критерий представляет собой обобщенную форму t-критерия. При этом, если случайная переменная подчиняется t-распределению с n степенями свободы, то значения r2 подчиняются F-распределению с 1 и n степенями свободы. Отсюда следует, что F-критерий для проверки значимости коэффициента детерминации эквивалентен проверке следующих гипотез:
H0 : 1 = 0
H1 : 1 0
или
H0: = 0
H1: 0
Если зависимость между Х и Y статистически значима, то имеет смысл вычислить значение Y, исходя из значений Х, и оценить точность предсказания.
13. ТОЧНОСТЬ ПРЕДСКАЗАНИЙ
Чтобы оценить точность предсказанных (теоретических) значений Y, полезно вычислить стандартную ошибку оценки уравнения регрессии SEE. Эта статистика представляет собой стандартное отклонение фактических значений Y от предсказанных значений .
SEE = ,
или, в общем виде, при наличии k независимых переменных
SEE =
SEE можно интерпретировать как среднее значение остатка или среднюю ошибку предсказания Y, исходя из уравнения регрессии.
Могут иметь место два варианта предсказания:
- необходимость предсказания среднего значения Y для всех вариантов с заданным значением Х, например Х0;
- необходимость предсказания среднего значения Y для одного варианта с заданным значением Х0.
В обеих вариантах, предсказанное значение одно и то же
= a + bX0
В то же время, стандартная ошибка для этих вариантов предсказания разная, хотя в обеих вариантах она является функцией SEE. Для больших выборок стандартная ошибка предсказания среднего значения Y равна SEE/, а ошибка предсказания отдельного значения Y равна SEE. А это значит, что построение доверительных интервалов для предсказанных значений варьируют в зависимости от того, необходимо ли предсказать единственное значение наблюдения или среднее значение наблюдений.
14. ДОПУЩЕНИЯ МОДЕЛИ РЕГРЕССИОННОГО АНАЛИЗА
Регрессионная модель при оценке параметров и проверке значимости исходит из ряда допущений:
1. Ошибочный член уравнения регрессии (остаточный компонент) подчиняется нормальному закону. Для каждого определенного значения Х распределение Y нормально.
2. Средние значения всех этих нормальных распределений Y при заданном Х, лежат на прямой линии с угловым коэффициентом b.
3. Среднее значение ошибочного члена равно 0.
4. Дисперсия ошибочного члена постоянна. Эта дисперсия не зависит от значений, принятых Х.
5. Между ошибочными членами автокорреляция отсутствует, т.е. значения ошибочных величин не зависимы между собой.
15. ФАКТОРНЫЙ АНАЛИЗ
В дисперсионном и регрессионном анализах одну переменную четко идентифицируют как зависимую. Факторный анализ не предполагает разделения переменных на зависимые и независимые. При факторном анализе проверяются все возможные варианты взаимозависимостей между переменными.
Факторный анализ - это название целого класса методов, используемых, главным образом, для сокращения числа переменных, а также их обобщения. При различных исследованиях приходится сталкиваться с множеством переменных, большинство из которых взаимосвязаны. Для удобства обработки данных число переменных целесообразно снизить до приемлемого уровня. Для того, чтобы осуществить эту процедуру, связи между коррелированными переменными анализируют и представляют в виде небольшого числа факторов. Факторный анализ - это метод анализа взаимозависимости, поскольку в факторном анализе проверяются всевозможные варианты взаимозависимых связей.
Факторный анализ используют в следующих случаях:
- для определения основных факторов, которые объясняют связи в наборе переменных;
- для определения нового, меньшего по размеру набора некоррелирующих переменных, заменяющих исходный набор коррелирующих переменных, на основании которого выполняется дальше многомерный анализ (например, регрессионный);
- для преобразования большего по размеру набора в меньший набор ясно выраженных переменных с целью использования их в последующем многомерном анализе.
Таким образом, фактор - это латентная переменная, конструируемая таким образом, чтобы можно было объяснить корреляцию между набором переменных.
16. ФАКТОРНАЯ МОДЕЛЬ ПРИ НОРМИРОВАННЫХ ПЕРЕМЕННЫХ
С математической точки зрения факторный анализ аналогичен множественному регрессионному анализу в том смысле, что каждая переменная выражена как линейная комбинация латентных факторов. Доля дисперсии отдельной переменной, принадлежащая общим факторам (и разделяемая с другими переменными) называется общностью. Ковариацию среди переменных описывают небольшим числом общих факторов, плюс характерный фактор для каждой переменной. Эти факторы явно не видны. Если переменные нормированы, то факторную модель можно представить следующим образом:
Xi = Ai1F1 + Ai2F2 + Ai3F3 +……….+ AimFm + ViUi,
где Xi - i-я нормированная переменная;
Aij - нормированный коэффициент множественной регрессии переменной i по общему фактору j;
Fi - общий фактор;
Vi - нормированный коэффициент регрессии переменной i по характерному фактору i;
Ui - характерный фактор для переменной i;
m - число общих факторов.
Характерные факторы не коррелируют между собой и с общими факторами.
Общие факторы в свою очередь также можно выразить линейными комбинациями наблюдаемых переменных:
Fi = Wi1X1 + Wi2X2 + Wi3X3 + ………+ WikXk ,
где Fi - оценка i-го фактора;
Wi - весовой коэффициент или коэффициент значения фактора;
k - число переменных.
Всегда можно подобрать веса так, чтобы первый коэффициент значения фактора объяснял наибольшую долю полной дисперсии. Затем отобрать второй набор весов так, чтобы второй фактор вносил наибольший вклад в остаточную дисперсию при условии, что он не коррелирует с первым фактором. Этот же принцип применяют для отбора дополнительных весов для дополнительных факторов. А это значит, что можно оценить факторы так, чтобы их значения, в отличие от значений исходных переменных не коррелировали. Более того, первый фактор объясняет наибольшую дисперсию в данных, второй фактор - вторую по величине дисперсию и т.д.
С факторным анализом связан целый ряд статистик.
17. СТАТИСТИКИ ФАКТОРНОГО АНАЛИЗА
Критерий сферичности Бартлетта. Статистика, проверяющая гипотезу о том, что переменные в генеральной совокупности не коррелируют между собой. Другими словами, корреляционная матрица в совокупности является характерной матрицей; каждая переменная коррелирует сама с собой (r = 1), но не взаимосвязана с другими переменными (r = 0).
Корреляционная матрица. Матрица попарных корреляций r между всеми возможными парами переменных, включенных в анализ. Это симметричная, неотрицательно определенная матрица.
Общность. Доля дисперсии отдельной переменной, которую переменная делит с другими рассматриваемыми переменными. Это доля дисперсии, объясняемая общими факторами.
Собственное значение. Представляет полную дисперсию, объясняемую каждым фактором.
Факторные нагрузки. Линейные корреляции между переменными и факторами.
График факторных нагрузок. График исходных переменных, где по осям координат откладывают значения факторных нагрузок.
Матрица факторных нагрузок. Содержит факторные нагрузки всех переменных по всем выделенным факторам.
Значения фактора. Суммарные значения, определенные для каждого респондента по производным факторам.
Критерий адекватности выборки Кайзера-Мейера-Олкина. Коэффициент для проверки целесообразности выполнения факторного анализа. Высокие значения (от 0,5 до 1) указывают, что факторный анализ целесообразен. Малые значения (до 0,5) указывают, что факторный анализ неприемлем.
Процент дисперсии. Процент от полной дисперсии, приписываемый каждому фактору.
Остатки. Разница между наблюдаемыми корреляциями, приведенными в исходной корреляционной матрице, и вычисленными корреляциями, определенными из матрицы факторных нагрузок.
Графическое изображение критерия «каменистой осыпи». График зависимости собственных значений от числа факторов в порядке их убывания.
18. ЭТАПЫ ВЫПОЛНЕНИЯ ФАКТОРНОГО АНАЛИЗА
Можно выделить девять этапов факторного анализа. Для наглядности представим эти этапы на схеме, а затем дадим им краткую характеристику.
Этапы выполнения факторного анализа приведены на рис.
Рис. Выполнение факторного анализа
19. ФОРМУЛИРОВКА ПРОБЛЕМЫ И ПОСТРОЕНИЕ КОРРЕЛЯЦИОННОЙ МАТРИЦЫ
Формулировка проблемы. Необходимо четко определить цели факторного анализа. Переменные, подвергаемые факторному анализу, задаются исходя из прошлых исследований, теоретических выкладок либо по усмотрению исследователя. Необходимо, чтобы переменные измерялись в интервальной или относительной шкале. Опыт показывает, что объем выборки должен быть больше в четыре - пять раз, чем число переменных.
Подобные документы
Основная терминология, понятие и методы факторного анализа. Основные этапы проведения факторного анализа и методика Чеботарева. Практическая значимость факторного анализа для управления предприятием. Метода Лагранжа в решении задач факторного анализа.
контрольная работа [72,9 K], добавлен 26.11.2008Моделирование. Детерминизм. Задачи детерминированного факторного анализа. Способы измерения влияния факторов в детерминированном анализе. Расчёт детерминированных экономико-математических моделей и методов факторного анализа на примере РУП "ГЗЛиН".
курсовая работа [246,7 K], добавлен 12.05.2008Факторный анализ. Задачи факторного анализа. Методы факторного анализа. Детерминированный факторный анализ. Модели детерминированного факторного анализа. Способы оценки влияния факторов детерминированном факторном анализе. Стохастический анализ.
курсовая работа [150,0 K], добавлен 03.05.2007Общая характеристика однофакторного дисперсионного анализа. Сущность двухфакторного дисперсионного анализа при перекрестной классификации факторов. Особенности дисперсионного анализа в системе MINITAB и формы выполнения работы в программе MS Excel.
методичка [440,7 K], добавлен 15.12.2008- Построение неполной квадратичной регрессионной модели по результатам полного факторного эксперимента
Принципы решения многофакторных оптимизационных задач методом крутого восхождения. Схема многофакторного эксперимента по взвешиванию образцов с равномерным и неравномерным дублированием: предпосылки регрессионного анализа, расчет дисперсии и регрессии.
курсовая работа [195,9 K], добавлен 22.03.2011 Цели сегментации рынка в маркетинговой деятельности. Сущность кластерного анализа, основные этапы его выполнения. Выбор способа измерения расстояния или меры сходства. Иерархические, неиерархические методы кластеризации. Оценка надежности и достоверности.
доклад [214,7 K], добавлен 02.11.2009Теоретические основы прикладного регрессионного анализа. Проверка предпосылок и предположений регрессионного анализа. Обнаружение выбросов в выборке. Рекомендации по устранению мультиколлинеарности. Пример практического применения регрессионного анализа.
курсовая работа [1,2 M], добавлен 04.02.2011Статистический анализ по выборке. Проведение регрессионного анализа исходных данных и выбор аналитической формы записи производственной функции. Выполнение экономического анализа в выбранной регрессионной модели на основе коэффициентов эластичности.
курсовая работа [2,2 M], добавлен 22.07.2015Изучение сущности однофакторного дисперсионного анализа. Методы разбиения суммы квадратов и проверки значимости. Исследование вопроса планирования и организации отдельных этапов научных исследований, содержания и этапов научно-исследовательских работ.
курсовая работа [148,0 K], добавлен 27.12.2012Сущность корреляционно-регрессионного анализа и его использование в сельскохозяйственном производстве. Этапы проведения корреляционно-регрессионного анализа. Области его применения. Анализ объекта и разработка числовой экономико-математической модели.
курсовая работа [151,0 K], добавлен 27.03.2009