Построение уравнения парной регрессии методом наименьших квадратов

Нормальная линейная модель парной регрессии. Альтернативный метод нахождения параметров уравнения парной регрессии, построение точечного и интервального прогноза. Классический, обобщенный и доступный метод наименьших квадратов, программная реализация.

Рубрика Экономико-математическое моделирование
Вид курсовая работа
Язык русский
Дата добавления 17.04.2010
Размер файла 661,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

27

Федеральное агентство по образованию

Филиал государственного образовательного учреждения высшего профессионального образования

«Кубанский государственный университет»

в г. Горячий Ключ

Факультет информационных технологий и прикладной математики

Кафедра прикладной математики

КУРСОВАЯ РАБОТА

на тему

«Построение уравнения парной регрессии методом наименьших квадратов»

Специальность 080801 Прикладная информатика (в экономике)

Работу выполнил:

Шведов В.С.

Курс 3 группа 304

Горячий Ключ 2008

Содержание

Введение

Глава 1. Парная регрессия

Глава 2. Метод наименьших квадратов

Глава 3. Программная реализация

Глава 4. Проверка результатов

Заключение

Список используемой литературы

Введение

Статистика широко используется в различных сферах деятельности. В статистических данных, отображающих развитие отдельных сторон жизни общества и служащих информационной базой прогнозирования и принятия решений, применяются инструменты статистики. С помощью статистической методологии вся полученная информация обобщается, анализируется и в результате дает возможность увидеть стройную систему взаимосвязей, яркую картину и динамику развития, позволяет делать сопоставления. Одним из непременных условий правильного восприятия и практического использования статистической информации, квалифицированных выводов и обоснованных решений является владение статистической методологией изучения количественной стороны массовых социально-экономических явлений: знание природы статистических совокупностей, назначения и познавательных возможностей показателей статистики, условий их применения в исследовании.

В данной работе рассматривается построение уравнения парной регрессии методом наименьших квадратов.

Глава 1. Парная регрессия

1.1 Общая модель парной регрессии

После того как в ходе экспериментов или в соответствии с экономической теорией установлено наличие взаимосвязи между изучаемыми переменными, встает задача определения точного вида выявленной зависимости с помощью регрессионного анализа.

Регрессионный анализ заключается в определении аналитического выражения связи (т.е. в определении вида функции - линейной, степенной и т.д.), в котором изменение одной величины (результативного признака) обусловлено изменением независимой величины (факторного признака). Количественно оценить данную взаимосвязь можно с помощью построения уравнения регрессии или регрессионной функции. Так как получить точное соотношение между изучаемыми экономическими показателями практически невозможно, то в регрессионном анализе в уравнение связи вводится случайная величина .

Базисной регрессионной моделью является модель парной (однофакторной) линейной регрессии. Данная регрессионная функция называется полиномом первой степени и используется для описания равномерно развивающихся во времени процессов. Общий вид парного линейного уравнения регрессии, описывающего зависимость от :

,

где - зависимая переменная, - независимая переменная;

- неизвестные параметры уравнения регрессии, подлежащие оцениванию;

- случайная ошибка модели регрессии, появление которой может быть обусловлено следующими объективными предпосылками:

1) нерепрезентативность выборки. В модель парной регрессии включается один фактор, не способный полностью объяснить вариацию результативного признака, который может быть подвержен влиянию множества других факторов в гораздо большей степени;

2) существует вероятность того, что переменные, участвующие в модели, могут быть измерены с ошибкой.

Исходными данными для определения коэффициентов уравнения регрессии являются значения зависимой переменной и соответствующие им значения независимой переменной , измеренные в наблюдениях (эмпирические данные)

.

Аналитическая форма зависимости между изучаемой парой признаков (регрессионная функция) определяется с помощью следующих методов:

на основе визуальной оценки характера связи. На линейном графике по оси абсцисс откладываются значения факторного (независимого) признака , по оси ординат - значения результативного признака . На пересечении соответствующих значений отмечаются точки. Полученный точечный график в указанной системе координат называется корреляционным полем. При соединении полученных точек получается эмпирическая линия, по виду которой можно судить не только о наличии, но и о форме зависимости между изучаемыми переменными;

на основе теоретического и логического анализа природы изучаемых явлений, их социально-экономической сущности.

Параметр уравнения парной регрессии называется наклоном. Его величина показывает, на сколько в среднем изменится результативный признак при изменении факторного признака на единицу своего измерения. Знак параметра в уравнении парной регрессии указывает на направление cвязи. Если > 0, то связь между изучаемыми показателями прямая, т. е. с увеличением факторного признака увеличивается и результативный признак , и наоборот. Если < 0, то связь между изучаемыми показателями обратная, т. е. с увеличением фактора результат уменьшается, и наоборот.

Значение параметра , который называется сдвигом, трактуется как среднее значение результативного признака упри условии, что факторный признак равен нулю. Такая трактовка параметра возможна только в том случае, если значение = 0 имеет смысл.

1.2 Нормальная линейная модель парной регрессии

Нормальная, или классическая, линейная модель парной регрессии (регрессии с одной переменной) строится исходя из следующих предположений:

1) факторный признак является неслучайной или детерминированной величиной, не зависящей от распределения случайной ошибки уравнения регрессии ;

2) математическое ожидание случайной ошибки уравнения регрессии равно нулю во всех наблюдениях:

где ;

3) дисперсия случайной ошибки уравнения регрессии является постоянной для всех наблюдений:

4) случайные ошибки уравнения регрессии не коррелированны между собой, т. е. ковариация случайных ошибок любых двух разных наблюдений равна нулю:

где .

Это предположение верно в том случае, если изучаемые данные не являются временными рядами;

5) основываясь на 3 и 4 предположениях, добавляется условие о том, что случайная ошибка уравнения регрессии является случайной величиной, подчиняющейся нормальному закону распределения с нулевым математическим ожиданием и дисперсией.

Исходя из указанных предпосылок, нормальную линейную модель парной регрессии можно записать в следующем виде:

(1)

где - значения зависимой переменной ;

- значения независимой переменной;

- коэффициенты уравнения регрессии, подлежащие оценке;

- случайная ошибка уравнения регрессии.

Матричная форма нормальной линейной модели парной регрессии:

(2)

где - вектор значений зависимой переменной размерности nх1;

- матрица значений независимой переменной размерности nх2.

Первый столбец является единичным, так как в уравнении регрессии параметр умножается на 1;

- вектор коэффициентов уравнения регрессии размерности 2х1;

- вектор случайных ошибок уравнения регрессии размерности nх1.

1.3 Альтернативный метод нахождения параметров уравнения парной регрессии

Традиционно параметры уравнения парной регрессии и оцениваются с помощью МНК, однако в случае парной регрессионной модели возможен и другой подход к оценке параметров регрессионной функции. Запишем уравнение парной регрессии в следующем виде:

.

Здесь y - значение зависимой переменной;

x - значение независимой переменной;

- случайная ошибка;

- среднее значение зависимой переменной, вычисленное на основе выборочных данных. Чаще всего это значение вычисляется по формуле среднего арифметического:

,

где yi - значения зависимой переменной, ;

n - объем выборки;

- среднее значение независимой переменной, которое вычисляется аналогично среднему значению зависимой переменной;

- выборочный коэффициент регрессии y по x. Он характеризует на сколько в среднем изменится результативный показатель y при изменении факторного показателя x на единицу своего измерения.

Оценка выборочного коэффициента регрессии y по x вычисляется с помощью следующей формулы:

,

где - выборочный парный коэффициент корреляции, определяемый как

.

Выборочный парный коэффициент корреляции показывает тесноту связи между изучаемыми признаками. Он изменяется в пределах [-1; +1]. Если , то связь между признаками прямая. Если , то связь между признаками обратная. Если , то связь между признаками отсутствует. Если или , то связь между изучаемыми признаками является функциональной, т. е. характеризуется полным соответствием между x и y: . Примером функциональной зависимости могут служить математические и статистические формулы, например: S=a2. При таком значении парного коэффициента корреляции регрессионный анализ между изучаемыми показателями не проводится. Данная связь не подлежит численной характеристике, так как на практике массовым социально-экономическим явлениям присущи иные виды связи (в частности, корреляционная связь).

- среднее арифметическое значение произведения результативного и факторного признаков;

Sy - выборочное среднеквадратическое отклонение зависимой переменной y. Этот показатель вычисляется по формуле:

,

где - среднее значение квадратов значений результативной переменной y:

,

- квадрат средних значений результативной переменной y:

,

Sx - выборочное среднеквадратическое отклонение независимой переменной x. Этот показатель вычисляется аналогично среднеквадратическому отклонению зависимого показателя y.

При оценивании коэффициента в модели регрессионной зависимости результативного показателя y от факторного показателя x с помощью рассмотренного метода следует помнить о том, что , но .

1.4 Построение точечного и интервального прогноза для модели парной линейной регрессии

Для модели парной линейной регрессии точечный прогноз зависимой переменной у при заданном значении независимой переменной хp

будет выглядеть следующим образом:

.

Чтобы получить интервальный прогноз, определим стандартную ошибку предсказываемого значения

.

С доверительной вероятностью г или (1-б) точечная оценка прогноза результативного признака yp попадает в интервал прогноза, который определяется по формуле:

,

Где tкрит - t-критерий Стьюдента, который определяется в зависимости от заданного уровня значимости б и числа степеней свободы (п - 2) (в случае парной регрессионной модели);

MSE - стандартная ошибка линейного уравнения парной регрессии, вычисляемая по формуле

.

1.5 Классический метод наименьших квадратов (МНК) для модели парной регрессии

Рассмотрим применение МНК для нахождения оценок неизвестных параметров уравнения регрессии на примере модели линейной парной регрессии.

Пусть подобрана эмпирическая линия, по виду которой можно судить о том, что связь между независимой переменной x и зависимой переменной y линейная и описывается функцией:

(1)

Необходимо найти такие значения параметров и , которые бы доставляли минимум функции:

. (2)

- уравнение регрессионной модели.(3)

При минимизации функции (2) значения зависимой и независимой переменных известны из наблюдений.

Для того чтобы найти минимум функции двух переменных, нужно вычислить частные производные этой функции по каждому из неизвестных параметров и приравнять их к нулю.

В результате получаем систему уравнений:

Если разделить обе части каждого уравнения системы на (-2), раскрыть скобки и привести подобные члены, то получим систему:

Это система нормальных уравнений относительно коэффициентов и для зависимости .

Решением системы нормальных уравнений являются и - оценки неизвестных параметров и уравнения регрессии (3):

,

,

где - среднее значение зависимого признака;

- среднее значение независимого признака;

- среднее арифметическое значение произведения зависимого и независимого признаков;

- дисперсия независимого признака;

Соv(x,y) - ковариация между зависимым и независимым признаком.

Глава 2. Метод наименьших квадратов

Метод наименьших квадратов -- один из методов регрессионного анализа для оценки неизвестных величин по результатам измерений, содержащим случайные ошибки. Метод наименьших квадратов применяется также для приближённого представления заданной функции другими (более простыми) функциями и часто оказывается полезным при обработке наблюдений.

2.1 Обобщённый метод наименьших квадратов

Состоятельные, несмещенные и эффективные оценки коэффициентов регрессионной модели с гетероскедастичными или коррелированными случайными ошибками определяются с помощью обобщенного метода наименьших квадратов (ОМНК).

Нормальная линейная регрессионная модель строится на основании следующих предпосылок о случайных ошибках:

1) дисперсия случайной ошибки уравнения регрессии является величиной, постоянной для всех наблюдений:

2) случайные ошибки уравнения регрессии не коррелированны между собой, т. е. ковариация случайных ошибок любых двух разных наблюдений равна нулю: , где ij.

В случае гетероскедастичности остатков нарушается первое из перечисленных свойств , где , а в случае автокорреляции остатков нарушается второе свойство .

Регрессионная модель, для которой не выполняются указанные свойства, называется обобщенной линейной регрессионной моделью.

В матричном виде обобщенную линейную регрессию можно записать как:, где X - неслучайная матрица факторных переменных; е - случайная ошибка регрессионной модели с нулевым математическим ожиданием Е(е) = 0 и дисперсией Щ - ковариационная матрица случайных ошибок обобщенного регрессионного уравнения.

Для нормальной линейной регрессионной модели дисперсия случайной ошибки определялась из условия постоянства дисперсий случайных ошибок.

В обобщенной регрессионной модели ковариационная матрица случайных ошибок строится исходя из условия непостоянства дисперсий регрессионных остатков :

В ковариационной матрице случайных ошибок и заключается основное отличие обобщенной линейной регрессионной модели от нормальной линейной модели регрессии.

Теорема Айткена. В классе линейных несмещенных оценок неизвестных коэффициентов обобщенной регрессионной модели оценка

будет иметь наименьшую ковариационную матрицу.

Формула для расчета матрицы ковариация ОМНК-оценок коэффициентов обобщенной регрессии:

Величину необходимо оценить для определения матрицы ковариаций ОМНК-оценок по формуле:

Здесь - объем выборочной совокупности;

- число оцениваемых по выборке параметров.

Значение не является дисперсией случайной ошибки регрессионного уравнения.

В оценке качества обобщенной регрессионной линейной модели коэффициент детерминации использовать нельзя, так как он не отвечает требованиям, предъявляемым к обычному множественному коэффициенту детерминации.

Для проверки гипотез значимости коэффициентов обобщенного нормального уравнения регрессии и регрессионной модели применяются те же статистические критерии, что в случае нормальной линейной регрессионной модели.

2.2 Доступный обобщённый метод наименьших квадратов

В случае авто коррелированности остатков регрессионной модели для определения оценок неизвестных коэффициентов используется доступный обобщенный метод наименьших квадратов (ДОМНК, или FGLS).

Оценки неизвестных коэффициентов обобщенной регрессионной модели находятся с помощью FGLS по формуле:

. где -

оценка матрицы ковариаций случайных ошибок обобщенной регрессии.

Оценивание матрицы ковариаций случайных ошибок в модели с автокоррелированными, но гомоскедастичными остатками рассмотрим на примере модели парной регрессии:

.

Исходя из предположения, что остатки данной регрессионной модели подчиняются авторегрессионому процессу первого порядка, исходную модель можно представить следующим образом:

где - коэффициент автокорреляции, || < 1 ; - независимые, одинаково распределенные случайные величины с нулевым математическим ожиданием и дисперсией .

Математическое ожидание случайной ошибки регрессионного уравнения равно нулю:

.

Предположим, что дисперсия случайной ошибки регрессии определяется как:

.

Ковариация между двумя случайными регрессионными ошибками и :

.

Дальнейший процесс расчета ковариаций продолжается для всех случайных ошибок обобщенного регрессионного уравнения по тому же принципу.

Тогда корреляционную матрицу остатков обобщенной линейной регрессионной модели можно представить:

Величина является дисперсией случайной ошибки регрессионного уравнения. Ее выборочную оценку вычисляют по формуле:

где - объем выборочной совокупности;

- число оцениваемых по выборке параметров.

Если остатки регрессионной модели являются некоррелированными величинами, но гетероскедастичными, имеет смысл применение взвешенного метода наименьших квадратов (ВМНК или WLS).

Суть взвешенного метода наименьших квадратов состоит в том, что остаткам обобщенной регрессионной модели придаются определенные веса, которые равны обратным величинам соответствующих дисперсий .

Ковариационная матрица случайных ошибок может определяться исходя из предположения о пропорциональности величины факторному признаку: , где г - ошибка высказанного предположения или некоторая поправка.

Матрицу ковариаций случайных ошибок регрессии можно представить в виде:

Если методом замен ввести новые переменные , , то модель станет классической - гомоскедастичной с единичной ковариационной матрицей.

Глава 3. Программная реализация

Программа написана языке Delphi7. Для демонстрации работы программы исходные значения прописаны в коде программы. Для продолжения построения необходимо нажать кнопки «итого» и «Ср.значение». Программа считает эти значения и предлагает нажать «Далее».

Фото 1. Ввод данных

Переходим к вычислению коэффициентов и построению графика.

Фото 2. Результаты.

Расчёт произведён по нажатию кнопки «РАСЧИТАТЬ». Строим график функции и выводим на него исходные данные и рассчитанные.

Глава 4. Проверка результатов

Для построения уравнения парной регрессии в данной работе были взяты данные территориальных округов страны: валовой региональный продукт за 2003 г., млрд руб.(Y) и инвестиции в основной капитал в предыдущем, 2002 г., млрд руб.(X).

Таблица 1.

Исходные данные

Территории федерального округа

Валовой региональный продукт (вновь созданная стоимость) за 2003 г., млрд руб., Y

Инвестиции в основной капитал в предыдущем, 2002 г., млрд руб., X

Республика Адыгея

10,20

1,77

Республика Алтай

7,80

1,12

Республика Бурятия

46,80

5,98

Республика Дагестан

54,90

5,50

Республика Ингушетия

4,80

0,60

Кабардино-Балкарская республика

27,00

3,60

Республика Калмыкия.

9,50

4,56

Карачаево-Черкесская республика

11,90

4,56

Республика Северная Осетия - Алания

20,90

2,60

Республика Хакасия

29,20

2,30

Алтайский край

90,20

9,81

Краснодарский край

275,80

67,16

Красноярский край

282,50

32,51

Ставропольский край

110,10

17,24

Астраханская обл.

54,30

12,79

Волгоградская обл.

137,50

18,73

Иркутская обл.

177,00

17,82

Кемеровская обл.

171,40

21,71

Новосибирская обл.

168,00

14,84

Омская обл.

125,70

11,99

Ростовская обл.

183,40

25,12

Томская обл.

103,70

17,05

Читинская обл.

55,60

5,67

Проверку производим на офисном приложении Excel.

Таблица 2.

Рассчитанные значения.

Номер измерения

Y

X

X*Y

X^2

Y^2

Xi-Xcp

1

10,2

1,77

18,05

3,13

104,04

-11,49

2

7,8

1,12

8,74

1,25

60,84

-12,14

3

46,8

5,98

279,86

35,76

2190,24

-7,28

4

54,9

5,5

301,95

30,25

3014,01

-7,76

5

4,8

0,6

2,88

0,36

23,04

-12,66

6

27

3,6

97,20

12,96

729,00

-9,66

7

9,5

4,56

43,32

20,79

90,25

-8,70

8

11,9

4,56

54,26

20,79

141,61

-8,70

9

20,9

2,6

54,34

6,76

436,81

-10,66

10

29,2

2,3

67,16

5,29

852,64

-10,96

11

90,2

9,81

884,86

96,24

8136,04

-3,45

12

275,8

67,16

18522,73

4510,47

76065,64

53,90

13

282,5

32,51

9184,08

1056,90

79806,25

19,25

14

110,1

17,24

1898,12

297,22

12122,01

3,98

15

54,3

12,79

694,50

163,58

2948,49

-0,47

16

137,5

18,73

2575,38

350,81

18906,25

5,47

17

177

17,82

3154,14

317,55

31329,00

4,56

18

171,4

21,71

3721,09

471,32

29377,96

8,45

19

168

14,84

2493,12

220,23

28224,00

1,58

20

125,7

11,99

1507,14

143,76

15800,49

-1,27

21

183,4

25,12

4607,01

631,01

33635,56

11,86

22

103,7

17,05

1768,09

290,70

10753,69

3,79

23

55,6

5,67

315,25

32,15

3091,36

-7,59

Итого

2158,2

305,03

52253,27

8719,30

357839,22

0,00

Среднее значение

93,8347826

13,2621739

2271,88

379,1

15558,23

0,00

Производим визуальную оценку взаимосвязи переменных

График 1. Визуальная оценка взаимосвязи переменных.

Производим теоретическую оценка взаимосвязи переменных.

Ковариация переменных x и y (1)

Вариация фактора x (2)

Вариация зависимой переменной y (3)

Парный коэффициент корреляции (4)

Коэффициент вариации x (5)

Этап моделирования

Уравнение парной линейной регрессии имеет вид (6)

Коэффициент b1 (7)

Коэффициент b0 (8)

Расчётное значение переменной y (9)

Производим визуальное сравнение модели с измеренными данными.

График 2. Визуальное сравнение модели с измеренными данными.

Вывод: т.к. коэффициент b1, равный 5,055875, больше нуля, то связь между переменными x и y прямая.

Получаем итоговое уравнение парной регрессии имеет вид

С помощью стандартной функции ЛИНЕЙН произведём проверочный расчёт

b1

b0

5,06

26,78

R2

Se

0,77

41,32

SSR

SSE

119474,60

35850,39

Все рассчитанные значения соответствуют полученным выше.

Заключение

1. Метод наименьших квадратов имеет следующие преимущества:

- не требуется знания закона распределения случайного возмущения;

- дает оценки, по крайней мере, состоятельные;

- в случае нормального распределения случайного возмущения оценки параметров линейной модели несмещенные и эффективные;

2. Для получения несмещенных и эффективных оценок параметров в случае, если случайное возмущение имеет закон распределения отличный от нормального, необходимо наложить на него дополнительные требования.

Список используемой литературы

1) Система программирования Delphi. Санкт-Петербург «БХВ-Петербург» 2004 год.

2) www.Википедия.ru

3) Шор. Я.Б. Статистические методы анализа и контроля качества и надежности. М.Госэнергоиздат, 1962 год.


Подобные документы

  • Анализ метода наименьших квадратов для парной регрессии, как метода оценивания параметров линейной регрессии. Рассмотрение линейного уравнения парной регрессии. Исследование множественной линейной регрессии. Изучение ошибок коэффициентов регрессии.

    контрольная работа [108,5 K], добавлен 28.03.2018

  • Основные методы анализа линейной модели парной регрессии. Оценки неизвестных параметров для записанных уравнений парной регрессии по методу наименьших квадратов. Проверка значимости всех параметров модели (уравнения регрессии) по критерию Стьюдента.

    лабораторная работа [67,8 K], добавлен 26.12.2010

  • Оценка коэффициентов парной линейной регрессии, авторегрессионное преобразование. Трехшаговый и двухшаговый метод наименьших квадратов, его гипотеза и предпосылки. Системы одновременных уравнений в статистическом моделировании экономических ситуаций.

    курсовая работа [477,2 K], добавлен 05.12.2009

  • Определение количественной зависимости массы пушного зверька от его возраста. Построение уравнения парной регрессии, расчет его параметров и проверка адекватности. Оценка статистической значимости параметров регрессии, расчет их доверительного интервала.

    лабораторная работа [100,5 K], добавлен 02.06.2014

  • Выборка и генеральная совокупность. Модель множественной регрессии. Нестационарные временные ряды. Параметры линейного уравнения парной регрессии. Нахождение медианы, ранжирование временного ряда. Гипотеза о неизменности среднего значения временного ряда.

    задача [62,0 K], добавлен 08.08.2010

  • Понятие регрессии. Оценка параметров модели. Показатели качества регрессии. Проверка статистической значимости в парной линейной регрессии. Реализация регрессионного анализа в программе MS Excel. Условия Гаусса-Маркова. Свойства коэффициента детерминации.

    курсовая работа [233,1 K], добавлен 21.03.2015

  • Исследование зависимости часового заработка одного рабочего от общего стажа работы после окончания учебы с помощью построения уравнения парной линейной регрессии. Вычисление описательных статистик. Построение поля корреляции и гипотезы о форме связи.

    контрольная работа [226,6 K], добавлен 11.08.2015

  • Расчет линейного коэффициента парной и частной корреляции. Статистическая значимость параметров регрессии и корреляции. Анализ корреляционного поля данных. Точность прогноза, расчет ошибки и доверительный интервал. Коэффициент множественной детерминации.

    контрольная работа [155,8 K], добавлен 11.12.2010

  • Экономическое моделирование хозяйственных процессов. Множественная модель уравнения регрессии. Уравнение парной линейной регрессии, поиск необходимых значений. Выбор одного из значимых признаков для построения парной модели, расчет показателей.

    контрольная работа [117,6 K], добавлен 17.04.2015

  • Параметры уравнения и экономическое толкование коэффициента линейной регрессии. Расчет коэффициентов детерминации и средних относительных ошибок аппроксимации. Построение структурной формы модели с использованием косвенного метода наименьших квадратов.

    контрольная работа [99,2 K], добавлен 27.04.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.