Уравнения парной и двухфакторной линейной регрессии

Построение поля корреляции, расчет параметров уравнения линейной регрессии, оценка тесноты связи. Сравнительная оценка силы связи фактора с результатом. Анализ линейных коэффициентов парной и частной корреляции. Уравнение множественной регрессии.

Рубрика Экономико-математическое моделирование
Вид контрольная работа
Язык русский
Дата добавления 30.03.2010
Размер файла 209,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

1. Построение парной линейной регрессии

По данным таблицы 1 требуется:

1. Построить поле корреляции и сформулировать гипотезу о форме связи.

2. Рассчитать параметры уравнений линейной регрессии.

3. Оценить тесноту связи с помощью показателей корреляции и детерминации.

4. Дать с помощью среднего (общего) коэффициента эластичности сравнительную оценку силы связи фактора с результатом.

5. Оценить с помощью средней ошибки аппроксимации качество уравнений.

6. Оценить с помощью F - критерия Фишера и t - критерия Стьюдента статистическую надёжность результатов регрессивного моделирования.

7. Рассчитать прогнозное значение результата, если прогнозное значение фактора увеличится на 7% от его среднего уровня. Определить доверительный интервал прогноза для уровня значимости = 0,05.

8. Оценить полученные результаты, выводы оформить в аналитической записке.

Таблица 1 - Исходные данные к заданию 1

Решение:

Уравнение однофакторной (парной) линейной корреляционной связи имеет вид:

(1)

y = a + bx,

где у - теоретические значения результативного признака, полученные по уравнению регрессии;

х - независимая, объясняющая переменная (признак-фактор);

a, b - коэффициенты (параметры) уравнения регрессии.

Уравнение (1) показывает среднее значение изменения результативного признака у при изменении факторного признака х на одну единицу его измерения, т.е. вариацию у, приходящуюся на единицу вариации х. Знак b указывает направление этого изменения.

Параметры уравнения a, b находят методом наименьших квадратов (метод решения систем уравнений, при котором в качестве решения принимается точка минимума суммы квадратов отклонений), т.е. в основу этого метода положено требование минимальности сумм квадратов отклонений эмпирических данных yi, от выравненных у:

(2)

.

Для уточнения формы связи между рассматриваемыми признаками используем графический метод. Нанесём на график точки, соответствующие значениям х, у, получим корреляционное поле (рисунок 1).

Для нахождения минимума данной функции приравняем к нулю её частные производные и получим систему двух линейных уравнений, которая называется системой нормальных уравнений:

(3)

Определив значения а, b и подставив их в уравнение связи y = a + bx, находим значения у зависящие только от заданного значения х.

По исходным данным рассчитываем (результаты расчёта приведены в таблице 2).

Рисунок 1 - Корреляционное поле

(4)

;

(5)

.

Подставив данные расчётов таблицы 2 в формулы (4), (5) получаем

Тогда уравнение регрессии имеет вид:

На каждую тенге увеличения душевого дохода будет приходиться 0,20917 тенге увеличения расходов на питание.

Подставим значения х в уравнение регрессии и рассчитаем значения у (результаты приведены в таблице 2).

Таблица 2 - Промежуточные расчёты

При линейной форме уравнения для оценки тесноты связи применяется линейный коэффициент корреляции:

(6)

,

где n - число наблюдений, а .

.

Линейный коэффициент корреляции свидетельствует, что связь весьма высокая, прямая.

Коэффициент детерминации рассчитаем по формуле:

(7)

.

.

Переменная результата на 91,06% объясняется вариацией фактора х, то есть изменение у на 91,06% обусловлено изменением х.

Определим, на сколько в среднем расчётные значения у отклоняются от фактических, то есть найдём среднюю ошибку аппроксимации:

(8)

.

Результаты расчётов, представленные в таблице 2, показали, что в среднем расчетные значения у отклоняются от фактических на 2,16997%. Это отклонение укладывается в допустимый предел ошибки аппроксимации 8 - 10%.

Рассчитаем средний коэффициент эластичности :

(9)

,

то есть при изменении фактора х на 1% от своего среднего значения у в среднем по совокупности отклоняется на 0,72% от своей средней величины.

Оценим качество уравнения регрессии с помощью F-критерия Фишера. Выдвигаем гипотезу Но о статистической незначимости уравнения регрессии и показателя тесноты связи. Фактический F-критерий Фишера рассчитаем по формуле:

(10)

,

где m - число независимых переменных (для парной регрессии m = 1).

.

При = 0,05, Fтабл = 5,32. В нашем случае Fфакт > Fтабл, то есть с вероятностью 95% гипотеза Но о случайной природе оцениваемых характеристик отклоняется и статистическая значимость и надёжность параметров регрессии и индекса корреляции признаётся весьма высокой.

Значимость коэффициентов парной линейной регрессии (применительно к совокупностям, у которых n < 30) осуществляют с помощью t-критерия Стьюдента. Выдвигается гипотеза Но о случайной природе показателей, то есть о незначимом их отличии от нуля. При этом вычисляют расчётные (фактические) значения t-критерия:

(11)

,

(12)

,

(13)

.

где ma, mb, mr - случайные ошибки, которые рассчитываются по формулам:

(14)

,

(15)

,

(16)

.

tтабл для числа степеней свободы df = n - 2 = 10 - 2 = 8 и = 0,05 составит 2,3060.

Фактические значения t-статистики превосходят табличные значения для коэффициентов а и b и индекса корреляции, следовательно, коэффициенты регрессии а и b и индекс корреляции r не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х.

Таким образом, построенная модель адекватна, и выводы, полученные по результатам малой выборки можно с достаточной вероятностью распространить на всю гипотетическую генеральную совокупность.

Для расчёта доверительного интервала определяем предельную ошибку для каждого показателя:

(17)

,

(18)

.

Формулы для расчёта доверительных интервалов имеют следующий вид:

(19)

,

(20)

.

Если в границы доверительного интервала попадает ноль, то есть нижняя граница отрицательна, а верхняя - положительна, то оцениваемый параметр принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значение.

Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью 95% параметры а и b, находясь в указанных границах, не принимают нулевых значений.

Прогнозное значение у определяется путём подстановки в уравнение регрессии у = а + bx соответствующего прогнозного значения х. вычисляется средняя стандартная ошибка прогноза my:

(21)

.

Затем строится доверительный интервал прогноза:

(22)

,

(23)

.

Если прогнозное значение душевого дохода составит тенге, тогда прогнозное значение расхода на питание составит тенге.

Ошибка прогноза составит:

тенге.

Предельная ошибка прогноза, которая в 95% случаев не будет превышена, составит:

тенге.

Доверительный интервал прогноза:

Выполненный прогноз расходов на питание оказался надёжным при уровне значимости = 0,05 и точным, так как диапазон верхней и нижней границ доверительного интервала составляет:

(24)

.

2. Построение двухфакторной линейной регрессии

По данным таблицы 3 требуется:

1. Оценить показатели вариации каждого признака и сделать выводы о возможностях применения МНК для их изучения.

2. Проанализировать линейные коэффициенты парной и частной корреляции.

3. Написать уравнение множественной регрессии, оценить значимость его параметров, пояснить их экономический смысл.

4. С помощью F-критерия Фишера оценить статистическую надёжность уравнения регрессии и R2ух1х2. сравнить значения скорректированного и некорректированного линейных коэффициентов множественной детерминации.

5. С помощью частных F-критериев Фишера оценить целесообразность включения в уравнение множественной регрессии фактора х1 после х2 и фактора х2 после х1.

6. Рассчитать средние частные коэффициенты эластичности и дать на их основе сравнительную оценку силы влияния факторов на результат.

Таблица 2 - Исходные данные к заданию 2

Решение:

1. Оценка показателей вариации.

Сводную таблицу основных статистических характеристик для одного или нескольких массивов данных можно получить с помощью инструмента анализа данных Описательная статистика.

Таблица 3. - Сводная таблица основных статистических характеристик

Цена квартиры, тыс. долларов (у)

Жилая площадь квартиры, кв. м (х1)

Число комнат в квартире, (х2)

Среднее

22,035

Среднее

39,135

Среднее

1,95

Стандартная ошибка

1,8992

Стандартная ошибка

2,31885

Стандартная ошибка

0,169752

Медиана

18,75

Медиана

38,5

Медиана

2

Мода

#Н/Д

Мода

51

Мода

2

Стандартное отклонение

8,493482

Стандартное отклонение

10,37021

Стандартное отклонение

0,759155

Дисперсия выборки

72,13924

Дисперсия выборки

107,5413

Дисперсия выборки

0,576316

Эксцесс

0,617364

Эксцесс

-1,01415

Эксцесс

-1,15444

Асимметричность

1,147022

Асимметричность

0,58395

Асимметричность

0,086213

Интервал

29,7

Интервал

31

Интервал

2

Минимум

13,3

Минимум

27

Минимум

1

Максимум

43

Максимум

58

Максимум

3

Сумма

440,7

Сумма

782,7

Сумма

39

Счет

20

Счет

20

Счет

20

Наибольший(1)

43

Наибольший(1)

58

Наибольший(1)

3

Наименьший(1)

13,3

Наименьший(1)

27

Наименьший(1)

1

Уровень надежности (95,0%)

3,975072

Уровень надежности (95,0%)

4,85341

Уровень надежности (95,0%)

0,355295

Определим коэффициенты вариации:

(25)

,

(26)

.

где Vy, Vxi - коэффициенты вариации соответственно y и xi;

у, хi - стандартные отклонения соответственно у и хi;

- средние значения соответственно y и xi.

Приходим к выводу о высоком уровне варьирования признаков у и х2, выходящем за границы допустимых пределов, равных 35%. Совокупности этих выборок неоднородны и для их изучения нельзя использовать метод наименьших квадратов и вероятностные методы оценки статистических гипотез. Чтобы снизить уровень варьирования этих признаков до допустимых пределов, необходимо произвести выравнивание их рядов.

Произведём выравнивание ряда Y по прямой

(27)

(28)

Расчёт представим в виде таблицы 4.

Таблица 4. - Выравнивание ряда y

Теперь по той же схеме произведём выравнивание ряда Х2i.

Расчёт представим в виде таблицы 5.

Таблица 5. - Выравнивание ряда х2

Теперь представим исходные данные с учётом выровненных рядов Y и Х2 (см. табл. 6).

Таблица 6. - Исходные данные к заданию 2 с учётом выровненных рядов Y и Х2

Снова оценим показатели вариации.

Таблица 7. - Сводная таблица основных статистических характеристик

Цена квартиры, тыс. долларов (у)

Жилая площадь квартиры, кв. м (х1)

Число комнат в квартире, (х2)

Среднее

22,035

Среднее

39,135

Среднее

1,95

Стандартная ошибка

0,891676

Стандартная ошибка

2,31885

Стандартная ошибка

0,072177

Медиана

22,035

Медиана

38,5

Медиана

1,95

Мода

#Н/Д

Мода

51

Мода

#Н/Д

Стандартное отклонение

3,987698

Стандартное отклонение

10,37021

Стандартное отклонение

0,322784

Дисперсия выборки

15,90173

Дисперсия выборки

107,5413

Дисперсия выборки

0,104189

Эксцесс

-1,31038

Эксцесс

-1,01415

Эксцесс

-1,27784

Асимметричность

-2,9E-15

Асимметричность

0,58395

Асимметричность

-4,1E-15

Интервал

12,53

Интервал

31

Интервал

1,02

Минимум

15,77

Минимум

27

Минимум

1,44

Максимум

28,3

Максимум

58

Максимум

2,46

Сумма

440,7

Сумма

782,7

Сумма

39

Счет

20

Счет

20

Счет

20

Определим коэффициенты вариации:

Теперь приходим к выводу о среднем уровне варьирования признаков, находящемся в допустимых пределах, не превышающих 35%. Здесь совокупность выборки однородна, и для её изучения могут использовать метод наименьших квадратов и вероятностные методы оценки статистических гипотез.

2. Анализ линейных коэффициентов парной и частной корреляции.

Матрицу парных коэффициентов корреляции переменных можно рассчитать, используя инструмент анализа данных Корреляция.

Результаты вычислений матрицы коэффициентов парной корреляции приведены в таблице 8.

Таблица 8. - Матрица коэффициентов парной корреляции

Цена квартиры, тыс. долларов (у)

Жилая площадь квартиры, кв. м (х1)

Число комнат в квартире, (х2)

Цена квартиры, тыс. долларов (у)

1

Жилая площадь квартиры, кв. м (х1)

0,443512

1

Число комнат в квартире, (х2)

0,999946

0,438211

1

Значения коэффициентов корреляции указывают на весьма тесную связь цены квартиры у с числом комнат в квартире х2, и на слабую связь цены квартиры с жилой площадью квартиры (ryx2 = 0,9999; ryx1 = 0,4435). В связи с этим, для улучшения данной модели можно исключить из неё фактор х1 как малоинформативный, недостаточно статистически надёжный.

Теперь рассчитаем коэффициенты частной корреляции:

(29)

(30)

(31)

где - линейные коэффициенты частной корреляции;

- линейные коэффициенты парной корреляции.

Расчёт коэффициентов частной корреляции ещё раз показал, что связь между ценой квартиры и количеством комнат квартиры достаточно тесная, тогда как связь между ценой квартиры и жилой площадью квартиры не имеет статистической значимости (ryx2x1=1,1124 и не принадлежит интервалу -1; 1).

Более того, ryx1x2 и rx1x2y равны по величине и имеют противоположные знаки. В первом случае связь прямая, а во втором - обратная. Иными словами, чем выше цена квартиры, тем большее количество комнат в этой квартире. И наоборот, чем больше комнат в квартире, тем выше её цена.

3. Вычисление параметров линейного уравнения множественной регрессии.

Эта операция проводится с помощью инструмента анализа данных Регрессия.

По результатам исчислений составим уравнение множественной регрессии.

(32)

Значения случайных ошибок параметров a, b1, b2 с учётом округления

ma = 0,0519 mb1 = 0,0009 mb2 = 0,0286

Они показывают, какое значение данной характеристики сформировалось под влиянием случайных факторов. Эти значения используются для расчёта t-критерия Стьюдента

ta = -40,1855 tb1 = 2,8452 tb2 = 430,5173

Если значения t-критерия больше 2,1098, можно сделать вывод о существенности данного параметра, который формируется под воздействием неслучайных причин. Здесь статистически значимыми являются а и b2 (минус у ta указывает лишь на обратный характер связи), а величина b1 сформировалась под воздействием случайных причин, поэтому фактор х1, силу влияния которого оценивает b1, можно исключить как несущественно влияющий, неинформативный (хоть tb1 и больше 2,1098, но он много меньше ta и совсем не сопоставим с tb2).

Тот же вывод можно сделать, анализируя показатели вероятности случайных значений параметров регрессии. Хоть х1 = 1,12% < 5%, но он намного меньше у и х2, значит фактор х1 можно исключить из уравнения множественной регрессии как неинформативный.

Величина а оценивает агрегированное влияние прочих (кроме учтённых в модели факторов х1 и х2) факторов на результат у.

Величины b1 и b2 указывают, что с увеличением х1 и х2 на единицу их значений результат увеличивается соответственно на 0,0025 и 12,3177 тыс. долл. Сравнивать эти величины не следует, так как они зависят от единицы измерения каждого признака и поэтому не совместимы между собой.

4. Оценка надёжности уравнения регрессии и показателя тесноты связи.

Оценку надёжности уравнения регрессии в целом и показателя тесноты связи Ryx1x2 даёт значение F-критерия Фишера:

(33)

По данным таблицы дисперсионного анализа, представленным на рисунке 1, Fфакт = 115367,3. Вероятность случайно получить такое значение F-критерия составляет 0,0000, что не превышает допустимый уровень значимости 5%; об этом свидетельствует величина Р-значения из этих же таблиц. Следовательно, полученное значение неслучайно, оно сформировалось под влиянием существенных факторов, т.е. подтверждается статистическая значимость всего уравнения и показателя тесноты связи R2yx1x2.

Значения скорректированного и некорректированного коэффициентов множественной детерминации приведены на рисунке 1 в рамках регрессионной статистики.

Некорректированный коэффициент множественной детерминации R2уx1x2=0,999926 оценивает долю вариации результата за счёт представленных в уравнении факторов в общей вариации результата. Здесь эта доля составляет 99,99% и указывает на весьма высокую степень обусловленности вариации результата вариацией факторов, иными словами - на весьма тесную связь факторов с результатом.

Скорректированный коэффициент множественной детерминации R2x1x2=0,999918 определяет тесноту связи с учётом степени свободы общей и остаточной дисперсии. Он даёт такую оценку тесноты связи, которая не зависит от числа факторов в модели и потому может сравниваться по разным моделям с разным числом факторов. Оба коэффициента указывают на весьма высокую (более 90%) детерминированность результата у в модели факторами х1 и х2.

5. Оценка целесообразности включения в уравнение множественной регрессии фактора х1 после х2 и фактора х2 после х1.

Оценка целесообразности включения в уравнение множественной регрессии фактора х1 после х2 и фактора х2 после х1 производится по формулам:

(34)

(35)

где , - линейные коэффициенты парной корреляции;

линейный коэффициент множественной корреляции.

Частный F-критерий Fчастный х2 показывает статистическую зависимость включения фактора х2 в модель после того, как в неё включён фактор х1. Fчастныйх2 = 184256,6723. Вероятность случайной природы его значения (Р-значение = 9,14Е-36) составляет 0,0000% против принятого уровня значимости = 0,05 (5%). Следовательно, включение в модель фактора х2 - число комнат в квартире - после того, как в уравнение включен фактор х1 - жилая площадь квартиры - целесообразно.

Если рассмотреть вариант включения х1 после х2, то результат расчёта частного F-критерия для х1 будет иным. Fчастныйх1 = 20,6741. Вероятность этого случайного формирования составила 1,1187%, это тоже меньше принятого стандарта = 0,05 (5%), но и несравнимо меньше Р-значения для х2. Следовательно, фактор х1 вообще можно исключить из уравнения.

Общий вывод состоит в том, что множественная модель с факторами х1 и х2, с R2уx1x2=0,999926 содержит неинформативный фактор х1. Если исключить фактор х1, то можно ограничиться уравнением парной регрессии (рисунок 2):

более простым, хорошо детерминированным, пригодным для анализа и прогноза.

6. Средние частные коэффициенты эластичности.

Средние частные коэффициенты эластичности рассчитаем по формуле:

(36)

По значениям частных коэффициентов эластичности можно сделать выводы о более сильном влиянии на результат у признака фактора х2, чем признака фактора х1: 1,09% против 0,00444%.


Подобные документы

  • Параметры парной линейной, линейно-логарифмической функции. Оценка статистической надёжности. Ошибка положения регрессии. Расчёт бета коэффициентов, уравнение множественной регрессии в стандартизованном масштабе. Задача на определение тесноты связи рядов.

    контрольная работа [192,2 K], добавлен 23.06.2012

  • Анализ метода наименьших квадратов для парной регрессии, как метода оценивания параметров линейной регрессии. Рассмотрение линейного уравнения парной регрессии. Исследование множественной линейной регрессии. Изучение ошибок коэффициентов регрессии.

    контрольная работа [108,5 K], добавлен 28.03.2018

  • Определение параметров линейной регрессии и корреляции с использованием формул и табличного процессора MS Excel. Методика расчета показателей парной нелинейной регрессии и корреляции. Вычисление значений линейных коэффициентов множественной детерминации.

    контрольная работа [110,4 K], добавлен 28.07.2012

  • Выбор факторных признаков для двухфакторной модели с помощью корреляционного анализа. Расчет коэффициентов регрессии, корреляции и эластичности. Построение модели линейной регрессии производительности труда от факторов фондо- и энерговооруженности.

    задача [142,0 K], добавлен 20.03.2010

  • Исследование зависимости часового заработка одного рабочего от общего стажа работы после окончания учебы с помощью построения уравнения парной линейной регрессии. Вычисление описательных статистик. Построение поля корреляции и гипотезы о форме связи.

    контрольная работа [226,6 K], добавлен 11.08.2015

  • Расчет линейного коэффициента парной и частной корреляции. Статистическая значимость параметров регрессии и корреляции. Анализ корреляционного поля данных. Точность прогноза, расчет ошибки и доверительный интервал. Коэффициент множественной детерминации.

    контрольная работа [155,8 K], добавлен 11.12.2010

  • Расчет параметров парной линейной регрессии. Оценка статистической значимости уравнения регрессии и его параметров с помощью критериев Фишера и Стьюдента. Построение матрицы парных коэффициентов корреляции. Статистический анализ с помощью ППП MS EXCEL.

    контрольная работа [1,6 M], добавлен 14.05.2008

  • Расчет параметров линейной регрессии. Сравнительная оценка тесноты связи с помощью показателей корреляции, детерминации, коэффициента эластичности. Построение поля корреляции. Определение статистической надежности результатов регрессионного моделирования.

    контрольная работа [71,7 K], добавлен 17.09.2016

  • Поля корреляции, характеризующие зависимость ВРП на душу населения от размера инвестиций в основной капитал. Оценка параметров уравнения парной линейной регрессии. Коэффициент множественной корреляции. Способы оценки параметров структурной модели.

    контрольная работа [215,1 K], добавлен 22.11.2010

  • Построение поля корреляции и формулирование гипотезы о форме связи. Параметры уравнений линейной, степенной и гиперболической регрессии. Оценка тесноты связи с помощью показателей корреляции и детерминации. Оценка средней ошибки аппроксимации уравнения.

    контрольная работа [136,3 K], добавлен 25.09.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.