Множественный линейный регрессионный анализ

Использование Microsoft Excel для расчета матрицы парных коэффициентов корреляции. Анализ коэффициентов эластичности. Расчет стандартной ошибки модели линейной регрессии. Модуль оценки коэффициентов множественной корреляции и линейной детерминации.

Рубрика Экономика и экономическая теория
Вид контрольная работа
Язык русский
Дата добавления 24.05.2009
Размер файла 107,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

МОСКОВСКАЯ ВЫСШАЯ ШКОЛА БИЗНЕСА

Контрольная работа

на тему

«Множественный линейный регрессионный анализ»

(вариант № 10)

Работу выполнила:_______________

Работу проверил_________________

Москва 2009

Постановка задачи

Изучается линейная (в среднем) зависимость результативного признака Y от пяти факторных признаков -- регрессоров x(1), x(2), x(3), x(4), x(5) по числовым данным, собранным на n = 52 объектах. Варианты результативного признака, регрессоров и их числовые значения приведены для варианта №10 в табл. 1.

Таблица 1

п/п

Страна

Y

X(1)

X(2)

X(3)

X(4)

X(5)

1

Австралия

80

17800

15

8

7,3

16848

2

Австрия

79

8000

12

11

6,7

18396

3

Аргентина

75

33900

20

9

25,6

3408

4

Бангладеш

53

125000

35

11

106

202

5

Беларусь

76

10300

13

11

19

6500

6

Бельгия

79

10100

12

11

7,2

17912

7

Бразилия

67

156600

21

9

66

2354

8

Буркина-Фасо

50

10000

47

18

118

357

9

Великобритания

80

58400

13

11

7,2

15974

10

Вьетнам

68

73100

27

8

46

230

11

Гаити

47

6500

40

19

109

383

12

Германия

79

81200

11

11

6,5

17539

13

Гондурас

70

5600

35

6

45

1030

14

Гонконг

80

5800

13

6

5,8

14641

15

Египет

63

60000

29

9

76,4

748

16

Замбия

45

9100

46

18

85

573

17

Индия

59

911600

29

10

79

275

18

Ирландия

78

3600

14

9

7,4

12170

19

Испания

81

39200

11

9

6,9

13047

20

Италия

81

58100

11

10

7,6

17500

21

Канада

81

29100

14

8

6,8

19904

22

Китай

69

1,21E+06

21

7

52

377

23

Колумбия

75

35600

24

6

28

1538

24

Коста-Рика

79

3300

26

4

11

2031

25

Куба

78

11100

17

7

10,2

1382

26

Малайзия

72

19500

29

5

25,6

2995

27

Марокко

70

28600

29

6

50

1062

28

Мексика

77

91800

28

5

35

3604

29

Нидерланды

81

15400

13

9

6,3

17245

30

Новая Зеландия

80

3524

16

8

8,9

14381

31

Норвегия

81

4300

13

10

6,3

17755

32

ОАЭ

74

2800

28

3

22

14193

33

Польша

77

38600

14

10

13,8

4429

34

Португалия

78

10500

12

10

9,2

9000

35

Россия

74

149200

13

11

27

6680

36

Саудовская Аравия

70

18000

38

6

52

6651

37

Северная Корея

73

23100

24

6

27,7

1000

38

Сингапур

79

2900

16

6

5,7

14990

39

США

79

260800

15

9

8,11

23474

40

Таиланд

72

59400

19

6

37

1800

41

Турция

73

62200

26

6

49

3721

42

Украина

75

51800

12

13

20,7

2340

43

Филиппины

68

69800

27

7

51

867

44

Финляндия

80

5100

13

10

5,3

15877

45

Франция

82

58000

13

9

6,7

18944

46

Чили

78

14000

23

6

14,6

2591

47

Швейцария

82

7000

12

9

6,2

22384

48

Швеция

81

8800

14

11

5,7

16900

49

Эфиопия

54

55200

45

14

110

122

50

ЮАР

68

43900

34

8

47,1

3128

51

Южная Корея

74

45000

16

6

21,7

6627

52

Япония

82

125500

11

7

4,4

19860

Здесь Y -- ожидаемая продолжительность жизни женщины (в годах), х(1) -- численность населения (в тыс.чел.), х(2) -- рождаемость (на 1000 чел.),

х(3) -- смертность (на 1000 чел.), х(4) -- младенческая смертность - число детей, умерших в возрасте до 1г. (на 1000 чел.), х(5) -- ВВП на душу населения (в долл. США по покупательной способности валют).

Решение

1. Модель множественного линейного регрессионного анализа признака Y записывается следующим образом:

; i=1,2,…,52.

где все случайные величины i (случайные эффекты влияния на результативный признак неконтролируемых факторов) независимы и имеют одинаковое нормальное распределение , или, иначе, все наблюдения Yi независимы и имеют нормальное распределение

Функция

называется линейной функцией множественной регрессии.

2. Для расчета матрицы парных коэффициентов корреляции воспользуемся программой «Корреляция» меню надстройки «Анализ данных» Microsoft Excel. Результаты представлены на рис. 1.

Y

X(1)

X(2)

X(3)

X(4)

X(5)

Y

1

X(1)

-0,18734

1

X(2)

-0,86801

0,042169

1

X(3)

-0,54578

-0,03583

0,236172

1

X(4)

-0,96226

0,226597

0,872252

0,459138

1

X(5)

0,68232

-0,19491

-0,69164

-0,03905

-0,69959

1

Рис.1 Матрица парных коэффициентов корреляции.

В результате работы программы «Корреляция» рассчитана матрица парных коэффициентов корреляции [ввиду симметричности этой матрицы (гij.) в результатах работы программы «Корреляция» приводится только часть матрицы -- не выше главной диагонали]. Жирным шрифтом выделены коэффициенты корреляции, по модулю большие 0,7.

На основе анализа матрицы парных коэффициентов корреляции можно сделать следующие выводы. Наиболее сильна линейная связь результативного признака Y (ожидаемой продолжительности жизни женщины) с факторными признаками: X(2) -- рождаемость (на 1000 чел.), X(4) -- младенческая смертность - число детей, умерших в возрасте до 1г. (на 1000 чел.), поскольку оценки соответствующих парных коэффициентов корреляции г(Y;Х(2)) = -0,868, г(Y;Х(4)) = -0,962 достаточно велики. Связь Y с Х(5) также достаточно сильна: г(Y;Х(5)) = -0,682. Связь Y с Х(1) и Х(3) признаками выражена слабее. Достаточно сильна линейная связь между регрессорами X(4) и X(2) (соответственно младенческая смертность и рождаемость), так как велика оценка парных коэффициентов корреляции г(Х(4)(2))=0,872. Связь X(4) и X(5) также достаточно сильна: г(Х(4)(5)) = 0,7. Малые значения оценок коэффициентов корреляции между остальными регрессорами говорят об относительно слабой линейной связи между ними. Коллинеарными следует признать пары регрессоров X(4) и X(2) .

3. Рассчитаем оценки ,,,,, и параметров модели линейной регрессии. Для этого воспользуемся программой «Регрессия» меню надстройки «Анализ данных» Microsoft Excel.

Результаты представлены в таблице 2. Оценки , , , , , параметров ,,,,, содержатся в табл.2 в столбце «Коэффициенты» под заголовками «Y-пересечение», «х(1)», «х(2)», «х(3)», «х(4)», «х(5)» соответственно. Таким образом, оценка линейной функции регрессии такова:

ВЫВОД ИТОГОВ

Таблица 2

Регрессионная статистика

Множественный R

0,978495647

R-квадрат

0,957453732

Нормированный R-квадрат

0,952829137

Стандартная ошибка

2,027414765

Наблюдения

52

Дисперсионный анализ

df

SS

MS

F

Значимость F

Регрессия

5

4254,998034

850,9996068

207,0351806

2,4551E-30

Остаток

46

189,0788889

4,110410628

Итого

51

4444,076923

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

88,48045597

1,603273896

55,18736144

1,09746E-43

85,25323609

91,70767586

X(1)

-1,93817E-06

1,58482E-06

-1,222962131

0,227572625

-5,12824E-06

1,2519E-06

X(2)

-0,250925127

0,068374495

-3,669864429

0,000629167

-0,388555716

-0,113294539

X(3)

-0,656622286

0,119543591

-5,492743539

1,65499E-06

-0,897250823

-0,415993748

X(4)

-0,158998238

0,026998509

-5,889148944

4,24423E-07

-0,213343365

-0,104653111

X(5)

0,00012074

5,7925E-05

2,084418932

0,042702427

4,1431E-06

0,000237337

ВЫВОД ИТОГОВ

Таблица 3

Регрессионная статистика

Множественный R

0,97778852

R-квадрат

0,956070389

Нормированный R-квадрат

0,952331699

Стандартная ошибка

2,038076735

Наблюдения

52

Дисперсионный анализ

df

SS

MS

F

Значимость F

Регрессия

4

4248,850355

1062,212589

255,7233477

2,98722E-31

Остаток

47

195,2265686

4,153756778

Итого

51

4444,076923

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

87,63185519

1,452939715

60,31348327

3,54861E-46

84,70892026

90,55479012

X(2)

-0,215479373

0,062253264

-3,461334522

0,001154813

-0,340716669

-0,090242077

X(3)

-0,613123626

0,114729805

-5,344065805

2,60528E-06

-0,843930005

-0,382317248

X(4)

-0,173722312

0,024292462

-7,151284575

4,82103E-09

-0,222592396

-0,124852227

X(5)

0,000121608

5,82252E-05

2,088577928

0,042188373

4,47398E-06

0,000238742

Продолжение таблицы 2

ВЫВОД ОСТАТКА

Наблюдение

Предсказанное Y

Остатки

1

80,30263951

-0,302639509

2

79,38684637

-0,386846369

3

73,82777544

1,172224555

4

55,40353625

-2,403536245

5

75,73946364

0,260536357

6

79,24483899

-0,244838994

7

66,78824812

0,211751884

8

46,12970419

3,870295807

9

78,66630635

1,333693652

10

69,02467018

-1,024670183

11

48,67046478

-1,670464775

12

79,42422297

-0,424222968

13

68,7169304

1,283069598

14

82,11301685

-2,113016852

15

63,1205845

-0,1205845

16

51,65539534

-6,655395338

17

60,34291052

-1,342910518

18

79,34374345

-1,343743447

19

80,21290793

0,78709207

20

79,94601008

1,053989916

21

80,98014346

0,019856537

22

68,04709609

0,952903905

23

74,18326758

0,816732424

24

77,81975961

1,180240388

25

78,14193958

-0,141939585

26

74,17398254

-2,173982535

27

69,38677572

0,613224277

28

72,86372505

4,136274948

29

80,35945105

0,640548946

30

79,52712127

0,472878728

31

79,7859198

1,214080202

32

77,69495839

-3,694958394

33

76,66704913

0,332950866

34

78,50665583

-0,506655825

35

74,21999898

-0,219998981

36

67,50581284

2,494187162

37

74,19023613

-1,190236134

38

81,4239002

-2,423900203

39

79,8462755

-0,846275497

40

73,99241445

-1,99241445

41

70,55447411

2,445525888

42

73,82413525

1,175864751

43

68,96960854

-0,969608539

44

79,71661803

0,283381974

45

80,41842272

1,581577284

46

76,73377266

1,266227335

47

81,26303883

0,736961174

48

78,86181697

2,138183029

49

50,4140503

3,585949699

50

67,49979496

0,500205041

51

77,78858388

-3,78858388

52

82,57898468

-0,578984675

Продолжение таблицы 3

ВЫВОД ОСТАТКА

Наблюдение

Предсказанное Y

Остатки

1

80,27535217

-0,275352166

2

79,37490178

-0,374901783

3

73,77130354

1,22869646

4

54,95571698

-1,955716982

5

75,5759907

0,424009296

6

79,22918242

-0,229182416

7

66,40926807

0,590731926

8

46,0122806

3,987719403

9

78,77802698

1,221973018

10

68,94566657

-0,94566657

11

48,47417519

-1,474175194

12

79,52090767

-0,52090767

13

68,71908745

1,280912552

14

81,92475305

-1,924753055

15

62,6834188

0,3165812

16

51,98686356

-6,986863557

17

61,56109664

-2,561096639

18

79,29145405

-1,291454046

19

80,13140343

0,868596572

20

79,93819405

1,061805953

21

80,94932636

0,050673641

22

69,82720892

-0,827208924

23

74,10441665

0,895583347

24

77,91293714

1,08706286

25

78,07293496

-0,07293496

26

74,23425963

-2,234259634

27

69,14724358

0,852756419

28

72,89080847

4,109191527

29

80,31518792

0,684812076

30

79,48191047

0,518089532

31

79,76408431

1,235915687

32

77,66315156

-3,663151557

33

76,62514107

0,374858929

34

78,41109204

-0,411092044

35

74,20810163

-0,208101628

36

67,54015101

2,459848993

37

74,09110831

-1,09110831

38

81,33812831

-2,338128314

39

80,32728724

-1,327287242

40

73,65017398

-1,650173977

41

70,29075935

2,70924065

42

73,76400614

1,235993862

43

68,76764285

-0,767642854

44

79,70942704

0,290572963

45

80,45231078

1,547689222

46

76,77582809

1,224171905

47

81,17298239

0,827017606

48

78,93573997

2,064260032

49

50,25693449

3,743065507

50

67,59863603

0,401363966

51

77,54156468

-3,541564675

52

82,62047091

-0,620470907

Стандартная ошибка модели линейной регрессии (т. е. оценка параметра ) приводится в табл.2 под заголовком «Регрессионная статистика»: =2,03.

В таблице 2 под заголовком «Вывод остатка», содержится предсказанное Y -- это , рассчитанные по построенному уравнению регрессии, и остатки -- это разности . Зная эти остатки, можно рассчитать среднюю относительную ошибку предсказаний (в процентах):

.

4. а) В таблице 2 под заголовком «Дисперсионный анализ» в столбце «df» приводятся количества степеней свободы m=5, n-m=46, n-1=51 соответственно; в столбце «SS»:

,

,

В столбце «MS»:

,

В таблице 2 под заголовком «Регрессионная статистика» приведены:

*оценка коэффициента линейной детерминации

(R-квадрат) -- судя по наблюдениям, 96% вариации ожидаемой продолжительности жизни женщины связано с линейным влиянием численности населения, рождаемостью, смертностью, младенческой смертностью и ВВП на душу населения.

*модуль оценки множественного коэффициента корреляции

(множественный R) -- такова, судя по наблюдениям, степень линейной зависимости Y от ;

*оценка нормированного коэффициента линейной детерминации

(нормированный R-квадрат) -- в отличие от коэффициента , который при увеличении числа m регрессоров увеличивается, нормированный коэффициент детерминации при этом может и уменьшаться; чем больше его значение, тем качественнее уравнение регрессии,

*стандартная ошибка

Проверка гипотезы H0: а1 = а2 = … = аm = 0 производится на основе анализа статистики имеющей (в предположении справедливости H0) распределение Фишера -- Сне декора с m и (n-m-1) степенями свободы. В данном случае наблюдаемое значение статистики равно 207,035, что больше критической точки f0,05;5;46 = 2,4, поэтому гипотеза Н0 отвергается на 5%-ном уровне значимости.

Гипотезу H0 можно проверить и так: если значимость F (рассчитанный уровень значимости гипотезы H0) оказывается больше принятого уровня значимости (в данном случае = 0,05), то гипотезу Н0 принимают (и говорят, что уравнение регрессии статистически незначимо), а если значимость F оказывается меньше , гипотезу H0 отвергают (уравнение значимо). Для данной модели значимость F равна 2,5*10-30-- уравнение значимо.

Наблюдаемое значение статистики F;m;n-m-1 и рассчитанный уровень значимости гипотезы H0 приводятся в таблице 2 под заголовком «Дисперсионный анализ» (столбцы «F» и «Значимость F»).

б) Проверим теперь гипотезы H0(j): аj =0 при альтернативах Н1: аj ?0, j= 1,2, 3,4,5.

В нижней таблице 2 в столбце «t-статистика» приводятся наблюдаемые значения статистики , которая при выполнении гипотезы H0(j) имеет распределение Стьюдента с (n-m-1) степенью свободы.

Наблюдаемое значение статистики равно 1,22; наблюдаемое значение статистики равно 3,67; наблюдаемое значение статистики равно 5,49; наблюдаемое значение статистики равно 5,89; наблюдаемое значение статистики равно 2,08; критическая точка t005;46 = 2,0, поэтому гипотезы H0(2): а2 =0, H0(3): а3 =0, H0(4): а4 =0, H0(5): а5 =0 отвергаются и оценка коэффициентов а2, а3, а4, а5 признается значимой, а гипотеза H0(1): а1 =0 отвергается и оценка коэффициента а1 признается незначимой.

В той же таблице в столбце «Р-значение» приводятся рассчитанные уровни значимости гипотез H0(j), т.е. вероятности (гипотезу H0(j) отвергают при альтернативе H1(j), если рj < ).

Так как р1 = 0,23, р2 = 0,0006, р3 = 1,7*10-6, р4 =4,2 *10-7, р5 = 0,04, гипотезы H0(2): а2 =0, H0(3): а3 =0, H0(4): а4 =0, H0(5): а5 =0 отвергаются, а гипотеза H0(1): а1 =0, не отвергается.

5. Таким образом, в построенной модели регрессии большинство коэффициентов оказались значимы, и такую модель можно считать приемлемой.

Исключим из модели регрессор х(1), при котором коэффициент незначим, соответствующая этому коэффициенту абсолютная величина наблюдаемого значения статистики является наименьшей, а рассчитанный уровень значимости р1 = 0,23 является наибольшим.

При этом оценка новой линейной функции регрессии будет такой (Таблица 3):

стандартная ошибка , средняя относительная ошибка , модуль оценки множественного коэффициента корреляции равен 0,98, оценка коэффициента линейной детерминации равна 0,96, оценка нормированного коэффициента линейной детерминации равна 0,95.

Гипотеза Н0 о том, что все коэффициенты при регрессорах одновременно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F (равная 3*10-31) оказалась меньше принятого уровня значимости = 0,05.

Так как р2 = 0,001, р3 = 2,6*10-6, р4 =4,8 *10-9, р5 = 0,042 гипотезы H0(2): а2 =0, H0(3): а3 =0, H0(4): а4 =0, H0(5): а5 =0 отвергаются.

7. Результаты пошаговой регрессии систематизированы в табл. 2-3.

8. Наилучшим уравнением является полученное на втором шаге, поскольку и само уравнение, и все его коэффициенты значимы. Судя потому уравнению:

а) более 90% дисперсии ожидаемой продолжительности жизни женщины Y связано с линейным влиянием х(2) -- рождаемость (на 1000 чел.), х(3) -- смертность (на 1000 чел.), х(4) -- младенческая смертность - число детей, умерших в возрасте до 1г. (на 1000 чел.), х(5) -- ВВП на душу населения (в долл. США по покупательной способности валют). (так как , );

б) рассчитанное по уравнению число -- это средняя продолжительность жизни женщины при условии, что значения факторных признаков (х(2) -- рождаемость, х(3) -- смертность, х(4) -- младенческая смертность и х(5) -- ВВП на душу населения) зафиксированы на каких-то уровнях, а именно x(2)=x(2)(j), x(3)=x(3)(j), x(4)=x(4)(j), x(5)=x(5)(j); точечная оценка генерального среднего значения признака Y при значениях регрессоров на первом объекте равна 80,55, а реальное значение Y на первом объекте (в Австралии) равно 80,28, остаток =-0,28; в тех странах, в которых остатки положительны, продолжительность жизни женщины выше среднего уровня, а в тех странах, где остатки отрицательны -- ниже среднего уровня. Так, например, в Австралии =-0,28, а в Аргентине =1,23;

в) увеличение рождаемости х(2) на единицу (при неизменном значении х(3), х(4), х(5)) ведет к наибольшему изменению ожидаемой продолжительности жизни (к ее уменьшению на 0,21 год); наибольшие максимально возможные с 95%-ной вероятностью значения результативного признака:

(-0,340716669<a2<-0,090242077)

(-0,843930005<a3<-0,382317248)

(-0,222592396<a4<-0,124852227)

(4,47398E-06<a4<0,000238742)

г)анализ коэффициентов эластичности показывает, что увеличение х(2) -- рождаемости на 1% (при неизменном значении других факторов ведет к уменьшению на 6,3% ожидаемой продолжительности жизни с 95% вероятностью; аналогично увеличение х(3) -- смертность, на 1% ведет к уменьшению на 7,4%; увеличение х(4) -- младенческая смертность и х(5) -- ВВП на душу населения ведет соответственно к уменьшению на 5,1% и увеличению на 1,5*10-3% ожидаемой продолжительности жизни.

9. Анализ графиков остатка и графиков подбора, полученных для последней модели с помощью программы «Регрессия» позволяет предположить, что предположение об однородности остатков (гомоскедастичности) не выполняется (графики остатков по х(2) , х(3), х(4) и х(2) приведены на рис. 2).


Подобные документы

  • Основы линейного регрессионного анализа. Особенности использования функции Кобба-Дугласа. Применение множественной линейной регрессии. Сущность метода наименьших квадратов. Пути избегания ложной корреляции. Проверка значимости коэффициентов регрессии.

    реферат [101,8 K], добавлен 31.10.2009

  • Классическая линейную модель множественной регрессии. Значимость уравнения регрессии и его коэффициентов. Доверительный интервал. Матрица парных коэффициентов корреляции. Модель множественной регрессии. Автокорреляция.

    контрольная работа [172,9 K], добавлен 17.01.2004

  • Основные этапы многофакторного корреляционного анализа и интерпретация его параметров. Назначение коэффициентов эластичности и стандартизированных бетта-коэффициентов. Расчет значимости коэффициентов регрессии и корреляции с помощью f-критерия Стьюдента.

    контрольная работа [605,2 K], добавлен 29.07.2010

  • Расчет коэффициентов корреляции Пирсона и ранговой корреляции Спирмена по регионам Российской Федерации для заданных показателей. Построение линейной и нелинейной (квадратической) модели регрессии. Проведение проверки значимости для полученных данных.

    контрольная работа [464,0 K], добавлен 28.05.2012

  • Экономическая интерпретация коэффициентов регрессии. Графическое представление фактических и модельных значений точки прогноза, уравнений регрессии (гиперболической, степенной, показательной). Нахождение коэффициентов детерминации и эластичности.

    контрольная работа [324,1 K], добавлен 13.04.2010

  • Составление матрицы парных коэффициентов корреляции. Построение уравнения регрессии, характеризующего зависимость цены от всех факторов. Проведение регрессионного анализа с помощью пакета SPSS. Экономическая интерпретация коэффициентов модели регрессии.

    лабораторная работа [2,5 M], добавлен 27.09.2012

  • Составление матрицы парных коэффициентов корреляции переменных. Построение линейного уравнения регрессии, характеризирующее зависимость цены от факторов. Оценка статистической значимости параметров в регрессионной модели с помощью t-критерия Стьюдента.

    лабораторная работа [1,6 M], добавлен 13.04.2010

  • Расчет матрицы выборочных парных коэффициентов корреляции при помощи пакета анализа программы Excel. Однофакторный и двухфакторный дисперсионный анализ. Построение регрессионной модели. Модальный интервал по значению числа видов производимой продукции.

    контрольная работа [281,7 K], добавлен 29.03.2010

  • Парная линейная регрессия. Полный регрессионный анализ. Коэффициент корреляции и теснота линейной связи. Стандартная ошибка регрессии. Значимость уравнения регрессии. Расположение доверительных интервалов. Расчет параметров множественной регрессии.

    контрольная работа [932,7 K], добавлен 09.06.2012

  • Порядок построения линейного уравнения парной регрессии, расчет коэффициентов и оценка статической значимости параметров регрессии и корреляции. Точность прогноза. Множественная регрессия и корреляция. Системы эконометрических уравнений. Временные ряды.

    контрольная работа [1,3 M], добавлен 24.09.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.