Многофакторная регрессия: основные понятия
Описание и понимание взаимосвязи в факторном анализе. Прогнозирование и предсказание нового наблюдения. Регулирование и управление процессом. Входные данные для множественной регрессии. Результаты многомерной совокупности регрессионного анализа.
Рубрика | Математика |
Вид | реферат |
Язык | русский |
Дата добавления | 29.09.2013 |
Размер файла | 35,9 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Многофакторная регрессия: основные понятия
Окружающий нас мир многомерен. В подавляющем большинстве реальных экономических задач приходится рассматривать данные более чем об одном или двух факторах. Однако это не является неразрешимой проблемой: следующий шаг, множественная регрессия, представляет собой относительно несложную процедуру, которая позволяет вам расширить свои возможности за пределы простейших случаев одно- и двумерных данных. Более того, с соответствующими базовыми идеями вы уже знакомы: понятия среднего значения, изменчивости, корреляции, прогнозирования, доверительных интервалов и проверки гипотез.
Прогнозирование единственной переменной У на основании двух или нескольких переменных X называется множественной регрессией. Прогнозирование единственной переменной У на основании единственной переменной X называется простой регрессией; о простой регрессии речь шла ранее. Пользуясь множественной регрессией, мы преследуем, по сути, те же цели, что и в случае простой регрессии. Ниже приведен краткий обзор этих целей, сопровождаемый простыми примерами.
Первое. Описание и понимание взаимосвязи.
а) Рассмотрим взаимосвязь между заработной платой (У) и рядом базовых характеристик служащих, таких как пол (X1 представлен двумя значениями, 0 и 1 обозначают соответственно мужчин и женщин), стаж работы (Х2) и образование (Х3). Описание и понимание того, как эти Х-факторы влияют на Y, позволяет, например, выстраивать систему доказательств в судебных процессах, касающихся дискриминации по признаку пола. Коэффициент регрессии по признаку пола является оценкой величины разницы заработной платы между мужчинами и женщинами с учетом поправки на возраст и стаж работы. Даже если вашу фирму пока еще не обвиняют в дискриминации работников по признаку пола, все равно полезно было бы выполнить множественный регрессионный анализ, чтобы незначительные (пока еще!) проблемы не переросли в крупные, решать которые будет значительно сложнее.
б) Если ваша фирма участвует в конкурсе на реализацию тех или иных проектов, тогда - для тех проектов, конкурс на которые вам удалось выиграть - вы располагаете данными, касающимися фактических затрат (Y), оценки прямых трудозатрат (X1), оценки затрат на материалы (X2) и затрат на управленческие функции (X3). Допустим, что предложение цены, с которым вы выходите на конкурс, кажется вам неоправданно низким. Определив взаимосвязь между фактическими затратами и оценками, сделанными ранее, на этапе переговоров о заключении контрактов, вы сможете выяснить, какие из оценок вы систематически занижаете или, наоборот, завышаете (с точки зрения их вклада в фактические затраты).
Второе. Прогнозирование (предсказание) нового наблюдения.
а) Глубокое понимание структуры затрат в вашей фирме может быть полезно во многих отношениях. Например, у вас может сложиться более правильное представление о том, какие дополнительные расходы следует запланировать на сезон повышенного спроса на продукцию вашей фирмы (в частности, можно учесть дополнительные затраты, связанные с выполнением сверхурочных работ). Если ваш бизнес претерпевает определенные изменения, вы должны уметь прогнозировать влияние этих изменений на структуру затрат. Лучше разбираться в структуре затрат своей фирмы вам поможет множественная регрессия затрат (Y) на каждый из потенциально значимых (на ваш взгляд) факторов, таких как количество выпускаемых изделий (X1), количество работников (X2) и объем сверхурочных работ (X3). Результаты анализа, подобного этому, помогут вам принимать гораздо более продуманные решения, чем простое решение "посадить людей на сверхурочные работы на недельку-другую". Такой анализ поможет вам выявить скрытые расходы, которые обнаруживают тенденцию к возрастанию с ростом объемов сверхурочных работ, и делать более точные прогнозы фактических затрат, основанные на имеющейся у вас информации.
б) Ежемесячные объемы продаж в вашей фирме (временной ряд) могут объясняться сезонными колебаниями спроса. Один из способов анализа и прогнозирования объемов продаж заключается в использовании множественной регрессии, позволяющей объяснять объемы продаж (Y) на основании некоторого тренда (например, X1 = 1, 2, 3, ... , указывающего месяцы от начала регистрации объемов продаж) и переменной для каждого месяца (например, X2 равняется 1 для января и 0 в противном случае, X3 представляет февраль, и т.д.). Множественную регрессию можно использовать для прогнозирования объемов продаж на несколько месяцев вперед, а также для уяснения долгосрочных тенденций и понимания, в какие месяцы объемы продаж, как правило, оказываются больше, чем в другие.
Третье. Регулирование и управление процессом.
На вход технологической цепочки, используемой на целлюлозно-бумажном комбинате, поступает целлюлозная масса, а на выходе получается готовая к употреблению бумага. Как управлять столь сложным комплексом оборудования? Одного лишь внимательного изучения технической документации явно недостаточно - чтобы научиться правильно регулировать технологический процесс (с точки зрения минимизации расхода электроэнергии), нужны многие годы практического опыта. Если этот опыт выражается в числах, то анализ множественной регрессии позволяет вам выяснить, какая именно комбинация параметров технологического процесса (Х-переменные) позволяет добиться нужного результата (переменная Y).
Таким образом, прогнозирование одной переменной Y на основании двух или нескольких X-переменных называется множественной регрессией. Целями множественной регрессии являются: (1) описание и понимание соответствующей взаимосвязи, (2) прогнозирование (предсказание) нового наблюдения, (3) регулирование и управление процессом.
Как будут выглядеть результаты множественной регрессии? Прежде всего, мы приведем краткий обзор входных данных и основных результатов. Более подробное их объяснение будет дано позже.
Пусть k означает количество поясняющих переменных (Х- переменных); k может быть любым разумным числом. Ваши элементарные единицы нередко называются наблюдениями; это могут быть клиенты, фирмы, выпускаемые изделия и т.п. По "техническим" причинам у вас должно быть, по крайней мере, на одно наблюдение больше, чем имеется Х- переменных, т.е. n > k+1. Практические соображения диктуют необходимость намного большего числа наблюдений.
Входные данные для обычного множественного регрессионного анализа представлены в табл. 1.
Таблица 1. Входные данные для множественной регрессии
Y(зависимая, или объясняемая, переменная) |
X1(первая независимая, или объясняющая, переменная) |
X2(вторая независимая, или объясняющая, переменная) |
X… |
Xk(последняя независимая, или объясняющая, переменная) |
||
Наблюдение 1 |
10,9 |
2,0 |
4,7 |
… |
12,5 |
|
Наблюдение 2 |
23,6 |
4,0 |
3,4 |
… |
12,3 |
|
… |
… |
… |
… |
… |
… |
|
… |
… |
… |
… |
… |
… |
|
… |
… |
… |
… |
… |
… |
|
Наблюдение n |
6,0 |
0,5 |
3,1 |
… |
7 |
Сдвиг, или постоянный член, a, определяет прогнозируемое значение Y, когда все переменные X равны 0. Коэффициент регрессии для каждой X-переменной определяет влияние этой Х- переменной на Y при условии, что все остальные Х- переменные не меняются: коэффициент регрессии bj для j-ой X- переменной указывает, какое увеличение Y ожидается, когда все Х- переменные остаются неизменными, за исключением переменной Хj, которая увеличивается на одну единицу. Взятые вместе эти коэффициенты регрессии составляют уравнение прогнозирования, или уравнение регрессии, вида
прогнозируемое значение Y = а + b1X1 + b2X2 + ... + bkXk ,
которое можно использовать в целях прогнозирования или управления. Эти коэффициенты (а, b1, b2, ... bk) обычно вычисляются методом наименьших квадратов, который минимизирует сумму квадратов ошибок прогнозирования. Как известно, в основе процедуры МНК лежит решение системы нормальных уравнений. Например, для трех факторной регрессии система нормальных уравнений будет выглядеть следующим образом:
Решение данной системы не представляет большой сложности, но при наличии персонального компьютера нахождение коэффициентов а, b1, b2, ... bk не предусматривает наличия даже элементарных навыков в области МНК, - все процессы выполняются в автоматическом режиме.
Как и в случае простой регрессии (с единственной Х- переменной), стандартная ошибка оценки, Se указывает приблизительную величину ошибок прогнозирования. И как в случае простой регрессии, R2 является коэффициентом детерминации, который указывает, какой процент вариации Y «объясняется» всеми Х- переменными. В данном случае речь идет не просто о квадрате коэффициента корреляции Y с одной Х- переменной, а о квадрате коэффициента корреляции r переменной Y (фактических значений) с прогнозами (которые вычисляются с помощью уравнения регрессии, найденного методом наименьших квадратов). Такой показатель учитывает все Х- переменные.
Статистический вывод начинается с общей проверки, которую называют F-тестом (F-test). Цель F-теста заключается в том, чтобы выяснить, объясняют ли Х- переменные значимую долю вариации Y. Если ваша регрессия не является значимой, говорить больше не о чем. Если же регрессия оказывается значимой, можно продолжить анализ статистических выводов, используя t-тесты для отдельных коэффициентов регрессии, которые показывают, насколько значимой является влияние той или иной Х- переменной на Y при условии, что все другие Х- переменные остаются неизменными. Построение доверительных интервалов и проверки гипотез для отдельного коэффициента регрессии будут, конечно же, основываться на его стандартной ошибке. Каждый коэффициент регрессии имеет свою стандартную ошибку; они обозначаются Sb1, Sb2, ... , Sbk.
В табл. 2 приведены результаты множественного регрессионного анализа.
Таблица 2. Результаты множественного регрессионного анализа
Название |
Результат |
Описание |
|
Сдвиг или постоянный член |
а |
Прогнозируемое значение для У, когда все значения X- переменных равны 0 |
|
Коэффициенты регрессии |
b1, b2, ... bk |
Влияние каждой X- переменной на У при условии, что все другие X- переменные остаются неизменными |
|
Уравнение прогнозирования, или уравнение регрессии |
прогнозируемое значение Y = а + b1X1 + b2X2 + ... + bkXk |
Прогнозируемое значение У при заданных значениях X- переменных |
|
Ошибки прогнозирования, или остатки |
Y - прогнозируемое значение Y |
Ошибка, возникающая для каждого наблюдения в результате использования уравнения прогнозирования вместо фактического значения Y для этого наблюдения |
|
Стандартная ошибка оценки |
Se или S |
Приблизительная величина ошибок прогнозирования (типичная разница между фактическим значением Y и его прогнозом исходя из уравнения регрессии) |
|
Коэффициент детерминации |
R2 |
Процент изменчивости Y, объясняемый всей группой X- переменных |
|
F-тест |
Значимый или незначимый |
Проверяет, может ли прогноз на основе Х-переменных как группы быть лучше прогноза на основе простой случайности; по сути, проверяет, является ли R2 большим, чем в случае отсутствия взаимосвязи между Х- переменными и Y |
|
t-тесты для отдельных коэффициентов регрессии |
Значимый или незначимый, для каждой Х- переменной |
Проверяет, влияет ли на Y конкретная Х переменная при условии, что все другие Х переменные остаются неизменными; эту проверку выполняют только тогда, когда F-тест значим |
|
Стандартные ошибки коэффициентов регрессии |
Sb1 , Sb2 ,… Sbk |
Указывает выборочную оценку стандартного отклонения каждого коэффициента регрессии; используется обычным способом для нахождения доверительных интервалов и проверки гипотез для отдельных коэффициентов регрессии |
|
Число степеней свободы для стандартных ошибок коэффициентов регрессии |
m = k - 1 |
Используется, чтобы найти в t-таблице соответствующее значение для построения доверительных интервалов и проверки гипотез для отдельных коэффициентов регрессии |
Пример. Реклама в журналах
Тарифы на размещение рекламных объявлений в журналах определяются каждым журналом самостоятельно. Чем объясняются различия в тарифах? Возможно, здесь каким-то образом учитывается ценность рекламного объявления для рекламодателя. Журналы, располагающие большей читательской аудиторией (при равных прочих условиях), наверное, вправе устанавливать большие тарифы. Кроме того, журналы, рассчитанные на более состоятельные круги читателей, также вправе устанавливать более высокие тарифы. Несмотря то что наверняка имеются и другие, не менее важные факторы, мы ограничимся лишь указанными двумя, добавив к ним еще один -- предпочтения людей разного пола, и выясним, изменяют ли журналы свои тарифы в зависимости от соотношения мужчин и женщин в их читательской аудитории. Ответы на некоторые из этих вопросов можно получить с помощью множественного регрессионного анализа. Такой анализ поможет нам объяснить влияние на тарифы таких факторов, как величина читательской аудитории, структура читательской аудитории по полу и доходы читателей.
В табл. 3 представлена соответствующая многомерная совокупность данных, которую нам предстоит проанализировать. В качестве переменной Y (объясняемой) мы будем рассматривать стоимость одной страницы одноразовой полноцветной рекламы. Объясняющими переменными будут Х1, читательская аудитория (планируемая в тысячах человек), Х2, процент мужчин среди планируемой аудитории, и Х3, медиана дохода семьи. Размер выборки n = 55.
факторный регрессия множественный
Таблица 3. Тарифы на размещение рекламы и характеристики журналов
Название журнала |
Y, тариф (одна страница цветной рекламы), дол. |
X1, планируемая аудитория, тыс. человек |
Х2, процент мужчин |
Х3, медиана дохода семьи, дол |
|
Audubon |
25 315 |
1645 |
51,1 |
38 787 |
|
Better Homes & Gardens |
198 000 |
34 797 |
22,1 |
41933 |
|
Business Week |
103300 |
4760 |
68,1 |
63 667 |
|
Cosmopolitan |
94100 |
15 452 |
17,3 |
44 237 |
|
Elle |
55 540 |
3735 |
12,5 |
47 211 |
|
Entrepreneur |
40 355 |
2 476 |
60,4 |
47 579 |
|
Esquire |
51559 |
3037 |
71,3 |
44 715 |
|
Family Circle |
147 500 |
24 539 |
13,0 |
38 759 |
|
first For Women |
28 059 |
3 856 |
3,6 |
43 850 |
|
Forbes |
59 340 |
4191 |
68,8 |
66 606 |
|
Fortune |
60800 |
3 891 |
68,8 |
58 402 |
|
Glamour |
85 080 |
10891 |
7,8 |
46331 |
|
Goff Digest |
98760 |
6 250 |
78,9 |
61323 |
|
Good Housekeeping |
166 080 |
25 306 |
12,6 |
38 335 |
|
Gourmet |
49 640 |
4484 |
29,6 |
57 060 |
|
Harper's Bazaar |
52 805 |
2 621 |
11,5 |
44 992 |
|
Inc. |
70 825 |
2166 |
66,9 |
72493 |
|
Kiplinger's Personal Finance |
46580 |
3332 |
65,1 |
63 876 |
|
Ladies' Home Journal |
127 000 |
17040 |
6,8 |
38442 |
|
Life |
63 750 |
14 220 |
46,9 |
41770 |
|
Mademoiselle |
55 910 |
4804 |
8,0 |
46694 |
|
Martha Stewart's Living |
93 328 |
4 849 |
16,6 |
61890 |
|
McCalls |
113120 |
16301 |
7,6 |
33 823 |
|
Money |
98 250 |
9805 |
60,6 |
60549 |
|
Motor Trend |
79 800 |
5 281 |
88,5 |
48 739 |
|
National Geographic |
159345 |
32158 |
53,0 |
44 326 |
|
Natural History |
20180 |
1775 |
45,0 |
41499 |
|
Newsweek |
148 800 |
20 720 |
53,5 |
53 025 |
|
Parents Magazine |
72 820 |
12064 |
18,2 |
39369 |
|
PC Computing |
40 675 |
4606 |
67,0 |
57 916 |
|
People |
125 000 |
33 668 |
34,0 |
46171 |
|
Popular Mechanics |
78685 |
9036 |
86,9 |
40802 |
|
Reader's Digest |
193000 |
51925 |
42,4 |
38 060 |
|
Redbook |
95 785 |
13 212 |
8,9 |
41 156 |
|
Rolling Stone |
78 920 |
8 638 |
59,8 |
43 212 |
|
Runner's World |
36 850 |
2 078 |
62,9 |
60 222 |
|
Scientific American |
37 500 |
2 704 |
70,0 |
62372 |
|
Seventeen |
71 115 |
5 738 |
17,0 |
37 034 |
|
Ski |
32 480 |
2 249 |
64,5 |
58 629 |
|
Smart Money |
42 900 |
2 224 |
63,4 |
57170 |
|
Smithsonian |
73 075 |
8 253 |
47,9 |
50872 |
|
Soap Opera Digest |
35 070 |
7 227 |
10,3 |
31835 |
|
Sports Illustrated |
162 000 |
21602 |
78,8 |
45 897 |
|
Sunset |
56 000 |
5 276 |
38,7 |
52 524 |
|
Teen |
53 250 |
3 057 |
15,4 |
42640 |
|
The New Yorker |
62 435 |
3 223 |
48,9 |
49672 |
|
Time |
162 000 |
22 798 |
52,4 |
49166 |
|
True Story |
17100 |
3582 |
12,2 |
15734 |
|
TV Guide |
146400 |
40917 |
42,8 |
37 396 |
|
U.S. News & World Report |
98 644 |
9 825 |
57,5 |
52 018 |
|
Vanity Fair |
67 890 |
4 307 |
27,7 |
52189 |
|
Vogue |
63 900 |
8434 |
12,9 |
44 242 |
|
Woman's Day |
137 000 |
22 747 |
6,7 |
38463 |
|
Working Woman |
87 500 |
3312 |
6,3 |
44 674 |
|
YM |
73 270 |
3109 |
14,4 |
43 696 |
|
Среднее значение |
83 534 |
10913 |
39,7 |
47 710 |
|
Среднеквадратическое отклонение |
45446 |
11212 |
25,9 |
10 225 |
В табл. 4 представлена компьютерная распечатка результатов анализа множественной регрессии. Например, с помощью Excel можно выполнить анализ множественной регрессии. Найдите пункт Data Analysis (Анализ данных) в меню Tools (Сервис) и выберите команду Regression (Регрессия). Если в меню Tools (Сервис) отсутствует пункт Data Analysis (Анализ данных), то сначала убедитесь, что вы выбрали ячейку электронной таблицы (а не график, например). Если вы все же не можете найти Data Analysis (Анализ данных), поищите пункт меню Add-Ins (Надстройки) и поставьте отметку возле Analysis ToolPak (Пакет анализа). Если это не поможет, то, видимо, необходимо переустановить Excel.
Таблица 4. Результат множественной регрессионного анализа тарифов на размещение рекламы в журналах (вычисления сделаны в Excel)
ВЫВОД ИТОГОВ |
|||||||
Регрессионная статистика |
|||||||
Множествен. R |
0,887 |
||||||
R-квадрат |
0,787 |
||||||
НормированныйR-квадрат |
0,775 |
||||||
Стандартная ошибка |
21577,870 |
||||||
Наблюдения |
55 |
||||||
Дисперсионный анализ |
|||||||
df |
SS |
MS |
F |
ЗначимостьF |
|||
Регрессия |
3 |
87780733202 |
29260044401 |
62,843 |
0,000000 |
||
Остаток |
51 |
23745829151 |
465604493 |
||||
Итого |
54 |
111525962353 |
|||||
Коэффициенты |
Стандартная ошибка |
t- статистика |
P- значение |
Нижние 95% |
Верхние 95% |
||
Y-пересечение |
4042,799 |
16884,039 |
0,239 |
0,812 |
-29853,298 |
37938,895 |
|
Переменная X 1 |
3,788 |
0,281 |
13,484 |
0,000 |
3,224 |
4,352 |
|
Переменная X 2 |
-123,634 |
137,849 |
-0,897 |
0,374 |
-400,377 |
153,108 |
|
Переменная X 3 |
0,903 |
0,370 |
2,442 |
0,018 |
0,161 |
1,645 |
Размещено на Allbest.ru
Подобные документы
Описание способов нахождения коэффициентов регрессии модели полнофакторного эксперимента. Проверка многофакторных статистических гипотез на однородность ряда дисперсий, значимость и устойчивость математических коэффициентов множественной корреляции.
контрольная работа [1,2 M], добавлен 05.08.2010Установление корреляционных связей между признаками многомерной выборки. Статистические параметры регрессионного анализа линейных и нелинейных выборок. Нахождение функций регрессии и проверка гипотезы о значимости выборочного коэффициента корреляции.
курсовая работа [304,0 K], добавлен 02.03.2017Цели линейной модели множественной регрессии (прогноз, имитация, сценарий развития, управление). Анализ эконометрической сущности изучаемого явления на априорном этапе. Параметризация и сбор необходимой статистической информации, значимость коэффициентов.
контрольная работа [68,7 K], добавлен 21.09.2009Построение модели множественной регрессии теоретических значений динамики ВВП, определение средней ошибки аппроксимации. Выбор фактора, оказывающего большее влияние. Построение парных моделей регрессии. Определение лучшей модели. Проверка предпосылок МНК.
курсовая работа [352,9 K], добавлен 26.01.2010Предпосылки корреляционного анализа - математико-статистического метода выявления взаимозависимости компонентов многомерной случайной величины и оценки их связи. Точечные оценки параметров двумерного распределения. Аппроксимация уравнений регрессии.
контрольная работа [648,3 K], добавлен 03.04.2011Построение линейной множественной регрессии для моделирования потребления продукта в разных географических районах. Расчет оценки дисперсии случайной составляющей. Вычисление и корректировка коэффициентов детерминации. Расчет доверительного интервала.
контрольная работа [814,0 K], добавлен 19.12.2013Основные задачи регрессионного анализа в математической статистике. Вычисление дисперсии параметров уравнения регрессии и дисперсии прогнозирования эндогенной переменной. Установление зависимости между переменными. Применение метода наименьших квадратов.
презентация [100,3 K], добавлен 16.12.2014Прямолинейные, обратные и криволинейные связи. Статистическое моделирование связи методом корреляционного и регрессионного анализа. Метод наименьших квадратов. Оценка значимости коэффициентов регрессии. Проверка адекватности модели по критерию Фишера.
курсовая работа [232,7 K], добавлен 21.05.2015Характеристика экзогенных и эндогенных переменных. Теорема Гаусса-Маркова. Построение двухфакторного и однофакторных уравнения регрессии. Прогнозирование значения результативного признака. Оценка тесноты связи между результативным признаком и факторами.
курсовая работа [575,5 K], добавлен 19.05.2015Построение уравнения регрессии. Оценка параметров линейной парной регрессии. F-критерий Фишера и t-критерий Стьюдента. Точечный и интервальный прогноз по уравнению линейной регрессии. Расчет и оценка ошибки прогноза и его доверительного интервала.
презентация [387,8 K], добавлен 25.05.2015