Уравнения парной и двухфакторной линейной регрессии
Построение поля корреляции, расчет параметров уравнения линейной регрессии, оценка тесноты связи. Сравнительная оценка силы связи фактора с результатом. Анализ линейных коэффициентов парной и частной корреляции. Уравнение множественной регрессии.
Рубрика | Экономико-математическое моделирование |
Вид | контрольная работа |
Язык | русский |
Дата добавления | 30.03.2010 |
Размер файла | 209,2 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
1. Построение парной линейной регрессии
По данным таблицы 1 требуется:
1. Построить поле корреляции и сформулировать гипотезу о форме связи.
2. Рассчитать параметры уравнений линейной регрессии.
3. Оценить тесноту связи с помощью показателей корреляции и детерминации.
4. Дать с помощью среднего (общего) коэффициента эластичности сравнительную оценку силы связи фактора с результатом.
5. Оценить с помощью средней ошибки аппроксимации качество уравнений.
6. Оценить с помощью F - критерия Фишера и t - критерия Стьюдента статистическую надёжность результатов регрессивного моделирования.
7. Рассчитать прогнозное значение результата, если прогнозное значение фактора увеличится на 7% от его среднего уровня. Определить доверительный интервал прогноза для уровня значимости = 0,05.
8. Оценить полученные результаты, выводы оформить в аналитической записке.
Таблица 1 - Исходные данные к заданию 1
Решение:
Уравнение однофакторной (парной) линейной корреляционной связи имеет вид:
(1)
y = a + bx,
где у - теоретические значения результативного признака, полученные по уравнению регрессии;
х - независимая, объясняющая переменная (признак-фактор);
a, b - коэффициенты (параметры) уравнения регрессии.
Уравнение (1) показывает среднее значение изменения результативного признака у при изменении факторного признака х на одну единицу его измерения, т.е. вариацию у, приходящуюся на единицу вариации х. Знак b указывает направление этого изменения.
Параметры уравнения a, b находят методом наименьших квадратов (метод решения систем уравнений, при котором в качестве решения принимается точка минимума суммы квадратов отклонений), т.е. в основу этого метода положено требование минимальности сумм квадратов отклонений эмпирических данных yi, от выравненных у:
(2)
.
Для уточнения формы связи между рассматриваемыми признаками используем графический метод. Нанесём на график точки, соответствующие значениям х, у, получим корреляционное поле (рисунок 1).
Для нахождения минимума данной функции приравняем к нулю её частные производные и получим систему двух линейных уравнений, которая называется системой нормальных уравнений:
(3)
Определив значения а, b и подставив их в уравнение связи y = a + bx, находим значения у зависящие только от заданного значения х.
По исходным данным рассчитываем (результаты расчёта приведены в таблице 2).
Рисунок 1 - Корреляционное поле
(4)
;
(5)
.
Подставив данные расчётов таблицы 2 в формулы (4), (5) получаем
Тогда уравнение регрессии имеет вид:
На каждую тенге увеличения душевого дохода будет приходиться 0,20917 тенге увеличения расходов на питание.
Подставим значения х в уравнение регрессии и рассчитаем значения у (результаты приведены в таблице 2).
Таблица 2 - Промежуточные расчёты
При линейной форме уравнения для оценки тесноты связи применяется линейный коэффициент корреляции:
(6)
,
где n - число наблюдений, а .
.
Линейный коэффициент корреляции свидетельствует, что связь весьма высокая, прямая.
Коэффициент детерминации рассчитаем по формуле:
(7)
.
.
Переменная результата на 91,06% объясняется вариацией фактора х, то есть изменение у на 91,06% обусловлено изменением х.
Определим, на сколько в среднем расчётные значения у отклоняются от фактических, то есть найдём среднюю ошибку аппроксимации:
(8)
.
Результаты расчётов, представленные в таблице 2, показали, что в среднем расчетные значения у отклоняются от фактических на 2,16997%. Это отклонение укладывается в допустимый предел ошибки аппроксимации 8 - 10%.
Рассчитаем средний коэффициент эластичности :
(9)
,
то есть при изменении фактора х на 1% от своего среднего значения у в среднем по совокупности отклоняется на 0,72% от своей средней величины.
Оценим качество уравнения регрессии с помощью F-критерия Фишера. Выдвигаем гипотезу Но о статистической незначимости уравнения регрессии и показателя тесноты связи. Фактический F-критерий Фишера рассчитаем по формуле:
(10)
,
где m - число независимых переменных (для парной регрессии m = 1).
.
При = 0,05, Fтабл = 5,32. В нашем случае Fфакт > Fтабл, то есть с вероятностью 95% гипотеза Но о случайной природе оцениваемых характеристик отклоняется и статистическая значимость и надёжность параметров регрессии и индекса корреляции признаётся весьма высокой.
Значимость коэффициентов парной линейной регрессии (применительно к совокупностям, у которых n < 30) осуществляют с помощью t-критерия Стьюдента. Выдвигается гипотеза Но о случайной природе показателей, то есть о незначимом их отличии от нуля. При этом вычисляют расчётные (фактические) значения t-критерия:
(11)
,
(12)
,
(13)
.
где ma, mb, mr - случайные ошибки, которые рассчитываются по формулам:
(14)
,
(15)
,
(16)
.
tтабл для числа степеней свободы df = n - 2 = 10 - 2 = 8 и = 0,05 составит 2,3060.
Фактические значения t-статистики превосходят табличные значения для коэффициентов а и b и индекса корреляции, следовательно, коэффициенты регрессии а и b и индекс корреляции r не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х.
Таким образом, построенная модель адекватна, и выводы, полученные по результатам малой выборки можно с достаточной вероятностью распространить на всю гипотетическую генеральную совокупность.
Для расчёта доверительного интервала определяем предельную ошибку для каждого показателя:
(17)
,
(18)
.
Формулы для расчёта доверительных интервалов имеют следующий вид:
(19)
,
(20)
.
Если в границы доверительного интервала попадает ноль, то есть нижняя граница отрицательна, а верхняя - положительна, то оцениваемый параметр принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значение.
Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью 95% параметры а и b, находясь в указанных границах, не принимают нулевых значений.
Прогнозное значение у определяется путём подстановки в уравнение регрессии у = а + bx соответствующего прогнозного значения х. вычисляется средняя стандартная ошибка прогноза my:
(21)
.
Затем строится доверительный интервал прогноза:
(22)
,
(23)
.
Если прогнозное значение душевого дохода составит тенге, тогда прогнозное значение расхода на питание составит тенге.
Ошибка прогноза составит:
тенге.
Предельная ошибка прогноза, которая в 95% случаев не будет превышена, составит:
тенге.
Доверительный интервал прогноза:
Выполненный прогноз расходов на питание оказался надёжным при уровне значимости = 0,05 и точным, так как диапазон верхней и нижней границ доверительного интервала составляет:
(24)
.
2. Построение двухфакторной линейной регрессии
По данным таблицы 3 требуется:
1. Оценить показатели вариации каждого признака и сделать выводы о возможностях применения МНК для их изучения.
2. Проанализировать линейные коэффициенты парной и частной корреляции.
3. Написать уравнение множественной регрессии, оценить значимость его параметров, пояснить их экономический смысл.
4. С помощью F-критерия Фишера оценить статистическую надёжность уравнения регрессии и R2ух1х2. сравнить значения скорректированного и некорректированного линейных коэффициентов множественной детерминации.
5. С помощью частных F-критериев Фишера оценить целесообразность включения в уравнение множественной регрессии фактора х1 после х2 и фактора х2 после х1.
6. Рассчитать средние частные коэффициенты эластичности и дать на их основе сравнительную оценку силы влияния факторов на результат.
Таблица 2 - Исходные данные к заданию 2
Решение:
1. Оценка показателей вариации.
Сводную таблицу основных статистических характеристик для одного или нескольких массивов данных можно получить с помощью инструмента анализа данных Описательная статистика.
Таблица 3. - Сводная таблица основных статистических характеристик
Цена квартиры, тыс. долларов (у) |
Жилая площадь квартиры, кв. м (х1) |
Число комнат в квартире, (х2) |
||||
Среднее |
22,035 |
Среднее |
39,135 |
Среднее |
1,95 |
|
Стандартная ошибка |
1,8992 |
Стандартная ошибка |
2,31885 |
Стандартная ошибка |
0,169752 |
|
Медиана |
18,75 |
Медиана |
38,5 |
Медиана |
2 |
|
Мода |
#Н/Д |
Мода |
51 |
Мода |
2 |
|
Стандартное отклонение |
8,493482 |
Стандартное отклонение |
10,37021 |
Стандартное отклонение |
0,759155 |
|
Дисперсия выборки |
72,13924 |
Дисперсия выборки |
107,5413 |
Дисперсия выборки |
0,576316 |
|
Эксцесс |
0,617364 |
Эксцесс |
-1,01415 |
Эксцесс |
-1,15444 |
|
Асимметричность |
1,147022 |
Асимметричность |
0,58395 |
Асимметричность |
0,086213 |
|
Интервал |
29,7 |
Интервал |
31 |
Интервал |
2 |
|
Минимум |
13,3 |
Минимум |
27 |
Минимум |
1 |
|
Максимум |
43 |
Максимум |
58 |
Максимум |
3 |
|
Сумма |
440,7 |
Сумма |
782,7 |
Сумма |
39 |
|
Счет |
20 |
Счет |
20 |
Счет |
20 |
|
Наибольший(1) |
43 |
Наибольший(1) |
58 |
Наибольший(1) |
3 |
|
Наименьший(1) |
13,3 |
Наименьший(1) |
27 |
Наименьший(1) |
1 |
|
Уровень надежности (95,0%) |
3,975072 |
Уровень надежности (95,0%) |
4,85341 |
Уровень надежности (95,0%) |
0,355295 |
Определим коэффициенты вариации:
(25)
,
(26)
.
где Vy, Vxi - коэффициенты вариации соответственно y и xi;
у, хi - стандартные отклонения соответственно у и хi;
- средние значения соответственно y и xi.
Приходим к выводу о высоком уровне варьирования признаков у и х2, выходящем за границы допустимых пределов, равных 35%. Совокупности этих выборок неоднородны и для их изучения нельзя использовать метод наименьших квадратов и вероятностные методы оценки статистических гипотез. Чтобы снизить уровень варьирования этих признаков до допустимых пределов, необходимо произвести выравнивание их рядов.
Произведём выравнивание ряда Y по прямой
(27)
(28)
Расчёт представим в виде таблицы 4.
Таблица 4. - Выравнивание ряда y
Теперь по той же схеме произведём выравнивание ряда Х2i.
Расчёт представим в виде таблицы 5.
Таблица 5. - Выравнивание ряда х2
Теперь представим исходные данные с учётом выровненных рядов Y и Х2 (см. табл. 6).
Таблица 6. - Исходные данные к заданию 2 с учётом выровненных рядов Y и Х2
Снова оценим показатели вариации.
Таблица 7. - Сводная таблица основных статистических характеристик
Цена квартиры, тыс. долларов (у) |
Жилая площадь квартиры, кв. м (х1) |
Число комнат в квартире, (х2) |
||||
Среднее |
22,035 |
Среднее |
39,135 |
Среднее |
1,95 |
|
Стандартная ошибка |
0,891676 |
Стандартная ошибка |
2,31885 |
Стандартная ошибка |
0,072177 |
|
Медиана |
22,035 |
Медиана |
38,5 |
Медиана |
1,95 |
|
Мода |
#Н/Д |
Мода |
51 |
Мода |
#Н/Д |
|
Стандартное отклонение |
3,987698 |
Стандартное отклонение |
10,37021 |
Стандартное отклонение |
0,322784 |
|
Дисперсия выборки |
15,90173 |
Дисперсия выборки |
107,5413 |
Дисперсия выборки |
0,104189 |
|
Эксцесс |
-1,31038 |
Эксцесс |
-1,01415 |
Эксцесс |
-1,27784 |
|
Асимметричность |
-2,9E-15 |
Асимметричность |
0,58395 |
Асимметричность |
-4,1E-15 |
|
Интервал |
12,53 |
Интервал |
31 |
Интервал |
1,02 |
|
Минимум |
15,77 |
Минимум |
27 |
Минимум |
1,44 |
|
Максимум |
28,3 |
Максимум |
58 |
Максимум |
2,46 |
|
Сумма |
440,7 |
Сумма |
782,7 |
Сумма |
39 |
|
Счет |
20 |
Счет |
20 |
Счет |
20 |
Определим коэффициенты вариации:
Теперь приходим к выводу о среднем уровне варьирования признаков, находящемся в допустимых пределах, не превышающих 35%. Здесь совокупность выборки однородна, и для её изучения могут использовать метод наименьших квадратов и вероятностные методы оценки статистических гипотез.
2. Анализ линейных коэффициентов парной и частной корреляции.
Матрицу парных коэффициентов корреляции переменных можно рассчитать, используя инструмент анализа данных Корреляция.
Результаты вычислений матрицы коэффициентов парной корреляции приведены в таблице 8.
Таблица 8. - Матрица коэффициентов парной корреляции
Цена квартиры, тыс. долларов (у) |
Жилая площадь квартиры, кв. м (х1) |
Число комнат в квартире, (х2) |
||
Цена квартиры, тыс. долларов (у) |
1 |
|||
Жилая площадь квартиры, кв. м (х1) |
0,443512 |
1 |
||
Число комнат в квартире, (х2) |
0,999946 |
0,438211 |
1 |
Значения коэффициентов корреляции указывают на весьма тесную связь цены квартиры у с числом комнат в квартире х2, и на слабую связь цены квартиры с жилой площадью квартиры (ryx2 = 0,9999; ryx1 = 0,4435). В связи с этим, для улучшения данной модели можно исключить из неё фактор х1 как малоинформативный, недостаточно статистически надёжный.
Теперь рассчитаем коэффициенты частной корреляции:
(29)
(30)
(31)
где - линейные коэффициенты частной корреляции;
- линейные коэффициенты парной корреляции.
Расчёт коэффициентов частной корреляции ещё раз показал, что связь между ценой квартиры и количеством комнат квартиры достаточно тесная, тогда как связь между ценой квартиры и жилой площадью квартиры не имеет статистической значимости (ryx2x1=1,1124 и не принадлежит интервалу -1; 1).
Более того, ryx1x2 и rx1x2y равны по величине и имеют противоположные знаки. В первом случае связь прямая, а во втором - обратная. Иными словами, чем выше цена квартиры, тем большее количество комнат в этой квартире. И наоборот, чем больше комнат в квартире, тем выше её цена.
3. Вычисление параметров линейного уравнения множественной регрессии.
Эта операция проводится с помощью инструмента анализа данных Регрессия.
По результатам исчислений составим уравнение множественной регрессии.
(32)
Значения случайных ошибок параметров a, b1, b2 с учётом округления
ma = 0,0519 mb1 = 0,0009 mb2 = 0,0286
Они показывают, какое значение данной характеристики сформировалось под влиянием случайных факторов. Эти значения используются для расчёта t-критерия Стьюдента
ta = -40,1855 tb1 = 2,8452 tb2 = 430,5173
Если значения t-критерия больше 2,1098, можно сделать вывод о существенности данного параметра, который формируется под воздействием неслучайных причин. Здесь статистически значимыми являются а и b2 (минус у ta указывает лишь на обратный характер связи), а величина b1 сформировалась под воздействием случайных причин, поэтому фактор х1, силу влияния которого оценивает b1, можно исключить как несущественно влияющий, неинформативный (хоть tb1 и больше 2,1098, но он много меньше ta и совсем не сопоставим с tb2).
Тот же вывод можно сделать, анализируя показатели вероятности случайных значений параметров регрессии. Хоть х1 = 1,12% < 5%, но он намного меньше у и х2, значит фактор х1 можно исключить из уравнения множественной регрессии как неинформативный.
Величина а оценивает агрегированное влияние прочих (кроме учтённых в модели факторов х1 и х2) факторов на результат у.
Величины b1 и b2 указывают, что с увеличением х1 и х2 на единицу их значений результат увеличивается соответственно на 0,0025 и 12,3177 тыс. долл. Сравнивать эти величины не следует, так как они зависят от единицы измерения каждого признака и поэтому не совместимы между собой.
4. Оценка надёжности уравнения регрессии и показателя тесноты связи.
Оценку надёжности уравнения регрессии в целом и показателя тесноты связи Ryx1x2 даёт значение F-критерия Фишера:
(33)
По данным таблицы дисперсионного анализа, представленным на рисунке 1, Fфакт = 115367,3. Вероятность случайно получить такое значение F-критерия составляет 0,0000, что не превышает допустимый уровень значимости 5%; об этом свидетельствует величина Р-значения из этих же таблиц. Следовательно, полученное значение неслучайно, оно сформировалось под влиянием существенных факторов, т.е. подтверждается статистическая значимость всего уравнения и показателя тесноты связи R2yx1x2.
Значения скорректированного и некорректированного коэффициентов множественной детерминации приведены на рисунке 1 в рамках регрессионной статистики.
Некорректированный коэффициент множественной детерминации R2уx1x2=0,999926 оценивает долю вариации результата за счёт представленных в уравнении факторов в общей вариации результата. Здесь эта доля составляет 99,99% и указывает на весьма высокую степень обусловленности вариации результата вариацией факторов, иными словами - на весьма тесную связь факторов с результатом.
Скорректированный коэффициент множественной детерминации R2x1x2=0,999918 определяет тесноту связи с учётом степени свободы общей и остаточной дисперсии. Он даёт такую оценку тесноты связи, которая не зависит от числа факторов в модели и потому может сравниваться по разным моделям с разным числом факторов. Оба коэффициента указывают на весьма высокую (более 90%) детерминированность результата у в модели факторами х1 и х2.
5. Оценка целесообразности включения в уравнение множественной регрессии фактора х1 после х2 и фактора х2 после х1.
Оценка целесообразности включения в уравнение множественной регрессии фактора х1 после х2 и фактора х2 после х1 производится по формулам:
(34)
(35)
где , - линейные коэффициенты парной корреляции;
линейный коэффициент множественной корреляции.
Частный F-критерий Fчастный х2 показывает статистическую зависимость включения фактора х2 в модель после того, как в неё включён фактор х1. Fчастныйх2 = 184256,6723. Вероятность случайной природы его значения (Р-значение = 9,14Е-36) составляет 0,0000% против принятого уровня значимости = 0,05 (5%). Следовательно, включение в модель фактора х2 - число комнат в квартире - после того, как в уравнение включен фактор х1 - жилая площадь квартиры - целесообразно.
Если рассмотреть вариант включения х1 после х2, то результат расчёта частного F-критерия для х1 будет иным. Fчастныйх1 = 20,6741. Вероятность этого случайного формирования составила 1,1187%, это тоже меньше принятого стандарта = 0,05 (5%), но и несравнимо меньше Р-значения для х2. Следовательно, фактор х1 вообще можно исключить из уравнения.
Общий вывод состоит в том, что множественная модель с факторами х1 и х2, с R2уx1x2=0,999926 содержит неинформативный фактор х1. Если исключить фактор х1, то можно ограничиться уравнением парной регрессии (рисунок 2):
более простым, хорошо детерминированным, пригодным для анализа и прогноза.
6. Средние частные коэффициенты эластичности.
Средние частные коэффициенты эластичности рассчитаем по формуле:
(36)
По значениям частных коэффициентов эластичности можно сделать выводы о более сильном влиянии на результат у признака фактора х2, чем признака фактора х1: 1,09% против 0,00444%.
Подобные документы
Параметры парной линейной, линейно-логарифмической функции. Оценка статистической надёжности. Ошибка положения регрессии. Расчёт бета коэффициентов, уравнение множественной регрессии в стандартизованном масштабе. Задача на определение тесноты связи рядов.
контрольная работа [192,2 K], добавлен 23.06.2012Анализ метода наименьших квадратов для парной регрессии, как метода оценивания параметров линейной регрессии. Рассмотрение линейного уравнения парной регрессии. Исследование множественной линейной регрессии. Изучение ошибок коэффициентов регрессии.
контрольная работа [108,5 K], добавлен 28.03.2018Определение параметров линейной регрессии и корреляции с использованием формул и табличного процессора MS Excel. Методика расчета показателей парной нелинейной регрессии и корреляции. Вычисление значений линейных коэффициентов множественной детерминации.
контрольная работа [110,4 K], добавлен 28.07.2012Выбор факторных признаков для двухфакторной модели с помощью корреляционного анализа. Расчет коэффициентов регрессии, корреляции и эластичности. Построение модели линейной регрессии производительности труда от факторов фондо- и энерговооруженности.
задача [142,0 K], добавлен 20.03.2010Исследование зависимости часового заработка одного рабочего от общего стажа работы после окончания учебы с помощью построения уравнения парной линейной регрессии. Вычисление описательных статистик. Построение поля корреляции и гипотезы о форме связи.
контрольная работа [226,6 K], добавлен 11.08.2015Расчет линейного коэффициента парной и частной корреляции. Статистическая значимость параметров регрессии и корреляции. Анализ корреляционного поля данных. Точность прогноза, расчет ошибки и доверительный интервал. Коэффициент множественной детерминации.
контрольная работа [155,8 K], добавлен 11.12.2010Расчет параметров парной линейной регрессии. Оценка статистической значимости уравнения регрессии и его параметров с помощью критериев Фишера и Стьюдента. Построение матрицы парных коэффициентов корреляции. Статистический анализ с помощью ППП MS EXCEL.
контрольная работа [1,6 M], добавлен 14.05.2008Расчет параметров линейной регрессии. Сравнительная оценка тесноты связи с помощью показателей корреляции, детерминации, коэффициента эластичности. Построение поля корреляции. Определение статистической надежности результатов регрессионного моделирования.
контрольная работа [71,7 K], добавлен 17.09.2016Поля корреляции, характеризующие зависимость ВРП на душу населения от размера инвестиций в основной капитал. Оценка параметров уравнения парной линейной регрессии. Коэффициент множественной корреляции. Способы оценки параметров структурной модели.
контрольная работа [215,1 K], добавлен 22.11.2010Построение поля корреляции и формулирование гипотезы о форме связи. Параметры уравнений линейной, степенной и гиперболической регрессии. Оценка тесноты связи с помощью показателей корреляции и детерминации. Оценка средней ошибки аппроксимации уравнения.
контрольная работа [136,3 K], добавлен 25.09.2014