Исследование эконометрической модели с использованием пакета Eviews

Разработка эконометрической модели в пакете Econometric Views. Расчет модели множественной регессии для всей совокупности независимых факторов методом наименьших квадратов. Определение коэффициентов эластичности и детерминации. Анализ характера остатков.

Рубрика Экономико-математическое моделирование
Вид курсовая работа
Язык русский
Дата добавления 04.12.2013
Размер файла 3,2 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

УФИМСКИЙ ГОСУДАРСТВЕННЫЙ АВИАЦИОННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ

Курсовая работа по эконометрике

на тему:

" Исследование эконометрической модели с использованием пакета Eviews"

Уфа - 2009

Содержание

1. Постановка задачи

2. Описание статистического материала

3. Построение и анализ модели в среде EViews

4. Выводы

5. Список использованной литературы

1. Постановка задачи

Имеются данные о численности населения РФ. Данные приведены за период от 1997 года по 2006 год (зависимая переменная). Были собраны статистические данные по шести факторам за этот же период, которые, теоретически, влияют на численность населения РФ.

Цель исследования: изучить процесс построения и анализа эконометрической модели в пакете Econometric Views, составить, рассчитать и проанализировать модель данной проблемы; проверить адекватность модели реальной ситуации на числовых данных в среде Eviews.

Подтвердить правильность предположения о влиянии данных факторов с использованием математической модели и статистических данных.

В итоге будет выявлена статистическая значимость (незначимость) выбранных факторов.

2. Описание статистического материала

1997

1998

1999

2000

2001

2002

2003

2004

2005

2006

Y

147137

146740

146328

145678

146304

145548

145649

144168

143474

142754

X1

1,231

1,242

1,171

1,195

1,223

1,286

1,319

1,340

1,287

1,296

X2

-456

-605

-830

-859

-243

-935

-889

-793

-847

-687

X3

131130

101345

79126

601196

90958

30504

60726

9891

2114

1577

X4

255,2

301,7

332,5

427,7

663,5

653,6

798,8

635,8

604,9

640,8

X5

828,4

848,7

911,2

897,3

901,6

1019,8

1091,8

979,7

1066,4

1113,6

X6

597,7

513,6

379,7

359,3

184,6

193,5

119,1

117,2

50,2

186,4

Y - Численность населения РФ (тыс.).

Х1-Возрастной коэффициент рождаемости (среднее число детей, рожденных женщиной за свою жизнь);

Х2 - Естественный прирост населения (тыс.);

Х3 - Численность вынужденных переселенцев и беженцев;

Х4 - Разводы (тыс.);

Х5 - Браки (тыс.);

Х6 - Международная миграция (тыс.);

Переменная Y - зависимая (эндогенная), переменные X1, X2, X3, X4, X5, X6 - независимые (экзогенные).

Модель будет выглядеть следующим образом:

y= b0+b1x1+b2x2+b3x3+b4x4+b5x5+b6x6+u,

где b0 - свободный член уравнения;

b1,.., b6 - оценки параметров модели;

u - ошибка модели(остатки).

3. Построение и анализ модели в среде EViews

Ввод исходных данных

Данная работа осуществляется в пакете Econometric Views. Начальным этапом является ввод данных.

Создаем новый рабочий файл. В строке главного меню выбираем File/New/Workfile, после чего откроется диалоговое окно (рис.1):

Рис. 1

В пакете допускается восемь типов данных:

Годовые (Annual) - годы 20 века идентифицируются по последним двум цифрам (97 эквивалентно 1997), для данных, относящихся к 21 веку необходима полная идентификация (например, 2020);

Полугодовые (Semi-annual) - 1999:1, 2001:2 (формат - год и номер полугодия);

Квартальные (Quarterly) - 1992:1, 2005:3 (формат - год и номер квартала);

Ежемесячные (Monthly) - 1956:1, 1990:11 (формат - год и номер месяца);

Недельные (Weekly);

Дневные (5 day weeks);

Дневные (7 day weeks);

Недатированные или нерегулярные (Undated or irregular) - допускают работу с данными, строго не привязанными к определенным временным периодам;

Воспользуемся типом (Annual). В окнах Start date и End date вводим соответственно начальную (1997) и конечную (2006) даты наблюдения. Нажав кнопку ОК, создастся рабочий файл, содержащий вектор коэффициентов C и серию Resid (рис.2):

Рис. 2

Ввод данных может осуществляться двумя способами:

Первый заключается в импорте данных из файла. Осуществляется это следующим образом. В строке главного меню выберем File/ Import/Read Text-Lotus-Excel. Появится окно (рис. 3):

Рис. 3

В окне Names for series or Number of series if names in file можно сразу же задать имена переменных либо поставить цифру 7, т.е. общее количество факторов. Нажимаем кнопку OK:

Рис. 4

В этом окне С - вектор, который будет содержать коэффициенты уравнения, построенного в процессе работы с Eviews, Resid - вектор остатков.

Для того чтобы просмотреть итоговую таблицу, необходимо, выделив переменные, выбрать опцию Open->as Group

Рис. 5

Второй способ заключается в создании пустой таблицы и простом переносе данных из Excel. Для этого необходимо выбрать в меню Quick/Empty Group (Edit Series). Появится таблица (рис. 6):

Рис. 6

Для того чтобы ввести имена переменных необходимо указать ячейку и нажать Edit+/-. Затем набрать название переменной.

Далее вставляем данные из Excel:

Рис. 7

Построение регрессионной модели.

Просмотр числовых характеристик переменных.

Для просмотра числовых характеристик отмеченных переменных необходимо выбрать в рабочем файле View/Descriptive Stats/Common Sample. В результате появится окно (рис.8):

Рис. 8

Данное окно содержит:

· Mean - среднее значение.

· Median - медиана. В случае симметричного модального распределения медиана совпадает со средним значением.

· Maximum, Minimum - минимальное и максимальное значения ряда.

· Std. Dev. - стандартное среднеквадратическое отклонение. Используется для характеристики степени рассеивания случайной величины.

· Skewness - асимметрия. Для симметричного распределения, в частности для нормального распределения, асимметрия равна нулю.

· Kurtosis - эксцесс

· Статистика Jarque-Bera - используется для проверки гипотезы о нормальности распределения исследуемого ряда. Статистика основана на проверке того, насколько отличается эксцесс и асимметрия ряда от соответствующих характеристик нормального распределения.

Нулевая гипотеза: распределение не отличается от нормального.

Альтернативная гипотеза: распределение существенно отличается от нормального. Probability - это вероятность того, что статистика Jarque-Bera превышает (по абсолютному значению) наблюдаемое значение для нулевой гипотезы.

· Observations - количество проведенных наблюдений (в нашем случае их 10, т.к. наблюдения проводились за 10 лет).

Регрессионный анализ модели

Построим и рассчитаем модель множественной регрессии для всей совокупности независимых факторов (для этого воспользуемся схемой пошагового исследования назад). Выбрать Procs/Make Equation.

В строке Method есть методы:

· LS - метод наименьших квадратов, минимизируется сумма квадратов отклонения для каждого уравнения.

· TSLS - двустадийный метод наименьших квадратов, применяется, когда присутствует корреляция между переменными, стоящими в правой части уравнения регрессии.

· ARCH - метод авторегрессии с условием гетероскедастичности, используется для моделирования и прогнозирования условных колебаний и изменений.

· GMM - общий метод моментов, принадлежит к классу оценочных методов, известных как М-оценка, определяемых минимизацией некоторой функции критерия.

· Binary - двоичный отбор (логит-преобразование, метод пробитов, экстремальное значение) используется для тех моделей, в которых зависимая переменная Y может принимать два значения.

· Ordered - упорядоченный отбор, применяется когда присутствует многообразие скрытых ошибок распределения. Наблюдаемая переменная Y представляется на выходе в виде упорядоченной или ранжированной категории.

· Cencored - модель для цензурированной зависимой переменной, наблюдения над которой проводились только частично (например, наблюдаемые отрицательные значения записывались как 0). С наблюдениями над нашей эндогенной переменной такие действия не проводились.

· Count - целые, натуральные числовые данные. Применяется, когда Y принимает целые значения, представляющие число событий.

Рис. 9

Для оценки параметров уравнения множественной регрессии применим метод наименьших квадратов (Least Squares), так как он позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака от расчетных (теоретических) минимальна.

Рис. 10

· Coefficient - в колонке указаны оценки параметров модели.

· Standart error - указаны стандартные ошибки коэффициентов уравнения. Стандартные ошибки показывают статистическую надежность коэффициента. Значение стандартных ошибок используется для построения доверительных интервалов.

· t - statistics - дает наблюдаемое значение t - статистики. Ее значение используется для проверки значимости соответствующей оценки параметра регрессии. Имеются две гипотезы: Гипотеза Н0 о равенстве нулю соответствующего коэффициента (фактор X не влияет на Y). И гипотеза Н1 о неравенстве нулю соответствующего коэффициента.

· Probability - показывает вероятность принять или отвергнуть гипотезу о равенстве нулю соответствующего коэффициента. При этом предполагается, что ошибки имеют нормальное или асимптотически нормальное распределение. Значения вероятности, указанные в таблице, известны в статистике как уровни значимости б. Если значение вероятности ниже уровня значимости б, то гипотеза Н0 отвергается и соответствующий коэффициент не равен нулю.

· R - Squared - коэффициент детерминации - одна из наиболее эффективных оценок адекватности регрессионной модели, мера качества уравнения регрессии, характеристика прогностической силы анализируемой регрессионной модели. В общем случае показывает, какая часть зависимой переменной - может быть объяснена с помощью независимых переменных включенных в модель. Если значение R2 равно 1, то между переменными существует точная линейная связь. Если R2 равно нулю, то статистическая линейная связь отсутствует

· Adjusted R - Squared - скорректированный коэффициент детерминации. Важным свойством коэффициента детерминации является то, что R2 - неубывающая функция от количества факторов, входящих в модель. Поэтому для сравнения коэффициентов детерминации разных моделей надо уравнивать количество факторов. Для сравнения моделей по коэффициенту детерминации корректируют коэффициент детерминации так, чтобы он как можно меньше зависел от количества факторов. Скорректированный коэффициент детерминации может быть использован для выбора лучшей модели при небольшом объеме выборки. Он учитывает число степеней свободы. Т.к. в моем случае объем наблюдений равен 10 годам, то я не могу говорить о небольшом объеме выборки, поэтому буду рассматривать не скорректированный коэффициент детерминации, а простой коэффициент детерминации

· S.E. of regression - стандартная ошибка регрессии в результате решения уравнения. Прогнозы производятся с ошибками, где ошибки - это разность между фактическим и прогнозируемым значением yt- yt.

· Sum Squared Resid - сумма квадратов остатков.

· Log likelihood - показывает значение функции максимального правдоподобия

· Durbin-Watson Stat - Статистика Дарбина-Уотсона. Используется для выявления автокорреляции. Нулевая гипотеза состоит в отсутствии автокорреляции. В качестве альтернативной гипотезы - гипотеза о наличии автокорреляции. Далее, по приведенной ниже таблице можно сделать более точные выводы о наличии или отсутствии автокорреляции:

Значение статистики DW

Вывод

4-dL<DW<4

Гипотеза Н0 отвергается, есть отрицательная корреляция

4-du<DW<4-dL

Неопределенность

du<DW<4-du

Гипотеза Н0 не отвергается

dL<DW<du

Неопределенность

0<DW<dL

Гипотеза Н0 отвергается, есть положительная корреляция

DW - значение статистики Дарбина-Уотсона

dl - нижняя граница критерия Дарбина-Уотсона

du - верхняя граница критерия Дарбина-Уотсона

Значения dl и du берем из таблицы при уровне значимости равном 0,05, учитывая число наблюдений n и число объясняющих переменных p. В моем случае n = 10 и p = 6.

· Mean dependent var - среднее арифметическое значение зависимой переменной.

· S.D. Dependent var - стандартное среднее квадратическое отклонение зависимой переменной.

· Akaike info criterion - информационный критерий Акаике, AIC.

Критерий является попыткой свести в один показатель два требования: уменьшение числа параметров модели и качество подгонки модели. Согласно этому критерию из двух моделей следует выбрать модель с меньшим значением AIC.

· Schwarz criterion - критерий Шварца. Его отличие от AIC состоит в большем штрафе за количество параметров.

· F-Statistic - F-статистика. Значение F-статистики служит для проверки модели на адекватность. Для проверки модели на адекватность с помощью F - статистики Фишера используют значение вероятности Prob (F-Statistic). Выдвигается нулевая гипотеза о равенстве нулю всех коэффициентов регрессии. Если значение вероятности меньше принятого значения б, то нулевая гипотеза отвергается. Обратите внимание на то, что F-тест - это суммарный тест. Поэтому может возникнуть ситуация когда все t-статистики являются незначимыми, а F-статистика показывает адекватность модели.

Чтобы показать уравнение с коэффициентами и уравнение с уже подставленными значениями коэффициентов воспользуемся View/Representations:

Рис. 11

Уравнение регрессии имеет вид:

Y =-4217.196572*X1 - 3.777026419*X2 + 0.03634073978*X3 + 4.883264939*X4 - 7.337717306*X5 + 0.361023724*X6 + 150509.8134

Уравнение регрессии позволяет понять, как формируется рассматриваемая переменная "Численность населения РФ":

1. При увеличении возрастного коэффициента рождаемости на 1 численность населения уменьшается на 4217,17 тыс. человек

2. При увеличении естественного прироста населения на 1 тыс. численность населения уменьшается на 3,77 тыс. человек

3. При возрастании численности вынужденных переселенцев и беженцев на 1 тыс. численность населения увеличивается на 36 человек

4. При увеличении количества разводов на 1 тыс. численность населения увеличивается на 4,88 тыс. человек

5. При увеличении количества браков на 1 тыс. численность населения уменьшается на 7,33 тыс. человек

6. При возрастании международной миграции на 1 тыс. численность населения увеличивается на 361 человек

При равенстве нулю всех факторов модели, Y = 150509,8134 тыс. человек.

Оценим статистическую значимость прогнозного уравнения:

· Коэффициент детерминации R2=0,998548>0,7 говорит о том, что доля влияния независимых переменных на зависимую значительна (99%).

· Адекватность регрессии опытным данным можно проверить с помощью критерия Фишера F-statistic и вероятности Prob (F-statistic). Выдвигается нулевая гипотеза H0 о статистической незначимости линейного уравнения регрессии в целом и отсутствии связи между зависимой и независимыми переменными (bi = 0 и ryxi = 0). Если Prob (F-statistic) > =0,05, то H0 принимаем.

Будем проводить проверку с помощью Prob (F-statistic).

Т.к. Prob (F-statistic)= 0,000242 > 0,05, то отвергаем гипотезу H0 о незначимости регрессии.

· Значимость оценок регрессии можно проверить с помощью критерия Стьюдента и вероятности Prob. Выдвигается нулевая гипотеза H0 о статистической незначимости коэффициента линейного уравнения регрессии (bi = 0). В отличие от критерия Фишера, каждый коэффициент проверяется отдельно. Если Prob > =0,05, то H0 принимаем.

Получение стандартизованного уравнения регрессии.

В исследуемой задаче число экзогенных переменных больше двух (равно 6). В этом случае рекомендуется преобразовать эндогенную и экзогенные переменные одним из способов нормирования (выберем один из таких способов - стандартизацию). В этом случае исходные данные преобразуются по формулам:

Стандартизованное уравнение регрессии удобно тем, что коэффициенты в этом уравнении безразмерны.

Стандартизованное уравнение регрессии в среде EViews можно получить в 3 этапа: сначала находим для Y и Xk, значения среднего и среднеквадратического отклонения, т.е. для каждой серии группы данных находим значения Mean и Std. Dev (воспользуемся для этого таблицей на рис. 8).

Следующим этапом является стандартизация исходных данных по указанным выше формулам. В окне группы выделяем каждый столбец, а затем набираем формулу, используя значения Mean и Std. Dev., указанные на рис. 8. Таким образом, получаются значения Y/ и X/ (рис. 12):

Рис. 12

Заключительным этапом является получение стандартизованного уравнения регрессии. В меню окна стандартизованных данных выбираем Procs/Make Equation. Перед нами появится диалоговое окно (рис.13):

Рис. 13

В окне (рис. 13) перечисляем стандартизованные переменные, входящие в уравнение регрессии (на первом месте - зависимая переменная (Y), затем - независимые переменные, которые включены в уравнение (X1, X2, X3, X4, X5, X6); C - это свободный член уравнения регрессии. В строке Method выбираем LS - Least Squares (NLS and ARMA) - метод наименьших квадратов. Нажав ОК, получаем результат (рис. 14):

Рис.14

Для просмотра полной записи уравнения необходимо выбрать View/Representations (рис.15):

Рис. 15

Коэффициенты стандартизованного уравнения регрессии показывают скорость изменения среднего значения Y для соответствующего значения Xk, .

Стандартизованное уравнение регрессии позволяет отметить, что наибольшее влияние на Y (численность населения РФ) оказывает Х3 (численность вынужденных переселенцев и беженцев), т.к. коэффициент при Х3 самый большой (1,126360129).

Параметры стандартизованного уравнения регрессии определяют, что с возрастанием численности вынужденных переселенцев и беженцев на величину стандартного отклонения при постоянных значениях Х1, Х2, Х4, Х5 и Х6 численность населения возрастет на величину, равную стандартному отклонению Y, умноженному на 1,126360129.

Коэффициент при Х6 мал (0,045612), что говорит о том, что при большом изменении фактора Х6, Y изменится незначительно.

Расчёт коэффициентов эластичности.

Эффективность воздействия факторов на зависимую переменную можно оценивать не только с помощью коэффициента корреляции, но и с помощью коэффициента эластичности.

Коэффициент эластичности определяет изменение Y при изменении Xk на 1%.

,

где - коэффициент эластичности; - среднее значение Xk; - среднее значение Y; - коэффициент при Xk в стандартизованном уравнении регрессии.

Рассчитаем коэффициенты эластичности для всех Xk, входящих в уравнение регрессии:

-1,39*10-6; 0,00236; 0,44; 0,0023; -0,0035; 0,000085.

Опираясь на эти данные, можно сделать вывод, что наибольшее влияние на Y оказывает фактор Х3, а наименьшее - фактор Х1.

Исследование уравнения регрессии

Рис. 16

Коэффициент детерминации.

Мерой качества уравнения регрессии, характеристикой прогностической силы анализируемой регрессионной модели является коэффициент детерминации (R-squared). Он показывает, какая часть вариации зависимой переменной обусловлена вариацией объясняющей переменной. Чем ближе коэффициент детерминации к единице, тем лучше регрессия аппроксимирует эмпирические данные.

В нашем случае коэффициент детерминации равен 0,998548. Это значит, что изменение численности населения на 99,85% объясняется изменением факторов Х1- Х6.

Проверка значимости коэффициентов регрессии.

Для проверки значимости уравнения регрессии используем критерий Фишера.

F-критерий обозначается F-statistic=343,93.

Выдвинем нулевую гипотезу Н0: не существует статистической зависимости между эндогенной и экзогенными переменными и параметры регрессии не значимы. Также выберем устраивающую нас вероятность ошибки I рода б=0,05.

Вероятность Prob(F-statistic) = 0.000242<0,05, значит, с вероятностью ошибки I рода б=0,05 нам следует отвергнуть нулевую гипотезу и решить, что существует статистическая зависимость между эндогенной и экзогенными переменными и параметры регрессии значимы.

Средняя ошибка аппроксимации

Стандартная ошибка аппроксимации S.E. of regression = 0,0659, или, другими словами, построенная регрессия на 6,59 % отклоняется от опытных данных (рис. 14).

Проверка значимости оценок параметров регрессии.

Для проверки значимости оценок параметров регрессии используется критерий Стъюдента.

Выдвинем нулевую гипотезу Н0: оценки параметров регрессии и истинные значения параметров вk в генеральной совокупности существенно различаются, т.е. фактор X не влияет на Y. Также выберем устраивающую нас вероятность ошибки I рода б=0,05.

Вероятности для t-статистики параметров регрессии указаны в столбце Prob: рХ1=0.0216, рХ2=0.0007, рХ3=0.0004, рХ4=0.0054, рХ5=0.002, рХ6 = 0.6451, рс = 0.0001. Сравнив их с б = 0.05, можно сделать вывод: коэффициенты при X1, X2, X3, X4, X5 значимы, а при X6 - незначим. Продолжим исследование и попытаемся улучшить модель.

Построение корреляционной матрицы

Мы выдвигаем гипотезу о наличии линейной связи между Y и Xk, . При этом предположении мы можем исследовать интенсивность связи между переменными с помощью корреляционного анализа.

Корреляционный анализ исследует силу стохастической связи между переменными. Теснота этой связи количественно выражается величиной коэффициента корреляции r є [-1: +1] .

Принято считать, что существует сильная связь между двумя переменными, если модуль коэффициента корреляции больше либо равен 0,7. Причём, если коэффициент корреляции отрицательный, то связь между переменными обратная, если положительный - прямая; равный же 0 коэффициент корреляции позволяет говорить об отсутствии линейной зависимости между переменными.

В строке меню выбираем View/Correlations/Common Sample.Получаем:

Рис. 17

Проанализируем полученные данные: коэффициент корреляции между Y и X3,X5,X6 больше 0,7, т. е. можно говорить о наличии сильной зависимости между этими переменными.

Проверка на мультиколлинеарность.

При выборе объясняющих переменных может возникнуть явление высокой взаимной коррелированности экзогенных переменных (мультиколлинеарность).

Мультиколлинерность приводит к уменьшению точности оценки параметров или невозможности получения объективных оценок из-за связи независимых переменных между собой.

Для выявления связи между независимыми переменнми проводится анализ корреляционной матрицы между экзогенными переменными и выявляются пары переменных, имеющих высокие коэффициенты корреляции (больше 0,4). Если такие переменные существуют, то говорят о явлении мультиколлинеарности между ними.

Как видим, коэффициент корреляции больше 0,4 для следующих пар переменных: (X1,X2), (X1,X3), (X1,X4), (X1,X5), (X1,X6), (X2,X3), (X2,X5), (X3,X4), (X3,X5), (X3,X6), (X4,X5), (X4,X6), (X5,X6).

Мы столкнулись с явлением мультиколлинеарности.

Воспользуемся методом исключения переменных: по парной корреляции наибольшая связь между зависимыми переменными у X4 и X6. Теперь чтобы исключить какой-либо фактор воспользуемся коэффициентами частной корреляции.

Частная корреляция.

Частная корреляция оценивает силу связи между зависимой переменной и одной из независимых переменных при исключении влияния остальных, то есть связь оценивается в чистом виде.

С помощью частного коэффициента корреляции определяют, какая из экзогенных переменных наиболее сильно связана с эндогенной переменной.

Рис. 18

Коэффициенты частной корреляции X4 и X6 соответственно равны 0,566619 и -0,037893, следовательно наибольшее влияние на Y оказывает X4, поэтому фактор X6 можно исключить из модели.

Так как мы исключили фактор X6, нужно опять строить модель множественной регрессии, но только для факторов Xk, k=1,2,3,4,5.

Рис. 19

Оценим статистическую значимость прогнозного уравнения:

Коэффициент детерминации R2=0.998422>0,7, что говорит о том, что доля влияния независимых переменных на зависимую значительна.

Адекватность регрессии опытным данным

Т.к. Prob (F-statistic)= 0,000011 < 0,05, то отвергаем гипотезу H0 о незначимости регрессии.

Значимость оценок регрессии:

В исследовании оказывается, что все Prob < 0,05. Это говорит о статистической значимости коэффициентов линейного уравнения регрессии.

Продолжим исследование.

Оценим наличие мультиколлинеарности:

Рис. 20

Мы столкнулись с явлением мультиколлинеарности. Снова применяем метод исключения переменных: воспользуемся коэффициентом частной корреляции

Рис. 21

Для X3 и X5 они соответственно равны: 0,95690 и -0,804111, следовательно наибольшее влияние на Y оказывает X3, поэтому фактор X5 можно исключить из модели.

Так как мы исключили фактор X5, нужно опять строить модель множественной регрессии, но только для факторов Xk, k=1,2,3,4.

Рис. 22

Оценим статистическую значимость прогнозного уравнения:

Коэффициент детерминации R2=0.954215>0,7, что говорит о том, что доля влияния независимых переменных на зависимую значительна (95%).

Адекватность регрессии опытным данным

Т.к. Prob (F-statistic)= 0,0015 < 0,05, то отвергаем гипотезу H0 о незначимости регрессии.

Значимость оценок регрессии

В исследовании оказывается, что Prob для X1, X4> 0,05 это говорит о статистической незначимости коэффициентов при X1, X4.

Продолжим исследование и попытаемся улучшить модель.

Оценим наличие мультиколлинеарности:

Рис. 23

Мы столкнулись с явлением мультиколлинеарности. Снова применяем метод исключения переменных: воспользуемся коэффициентом частной корреляции:

Рис. 24

Для X1 и X4 они соответственно равны: -0,192656 и 0,399056, значит X4 больше влияет на Y, чем X1. Поэтому фактор X1 можно исключить из модели.

Так как мы исключили фактор X1, нужно опять строить модель множественной регрессии, но только для факторов Xk, k=2,3,4.

Рис. 25

Оценим статистическую значимость прогнозного уравнения:

Коэффициент детерминации R2=0.941552>0,7, что говорит о том, что доля влияния независимых переменных на зависимую значительна (94%).

Адекватность регрессии опытным данным

Т.к. Prob (F-statistic)= 0,000427< 0,05, то отвергаем гипотезу H0 о незначимости регрессии.

Значимость оценок регрессии

В исследовании оказывается, что Prob для X4> 0,05 это говорит о статистической незначимости коэффициента при X4.

Продолжим исследование и попытаемся улучшить модель.

Оценим наличие мультиколлинеарности:

Рис. 26

Мы столкнулись с явлением мультиколлинеарности. Снова применяем метод исключения переменных: воспользуемся коэффициентом частной корреляции:

Рис. 27

Для X2 и X3 они соответственно равны: -0,641672 и 0,941165, следовательно наибольшее влияние на Y оказывает X3, поэтому фактор X2 можно исключить из модели.

Так как мы исключили фактор X2, нужно опять строить модель множественной регрессии, но только для факторов Xk, k=3,4.

Рис. 28

Оценим статистическую значимость прогнозного уравнения:

Коэффициент детерминации R2=0.879018>0,7, что говорит о том, что доля влияния независимых переменных на зависимую значительна (87%).

Адекватность регрессии опытным данным

Т.к. Prob (F-statistic)= 0,000616< 0,05, то отвергаем гипотезу H0 о незначимости регрессии.

Значимость оценок регрессии

В исследовании оказывается, что Prob для X4> 0,05 это говорит о статистической незначимости коэффициента при X4.

Продолжим исследование и попытаемся улучшить модель.

Оценим наличие мультиколлинеарности:

Рис. 29

Мы столкнулись с явлением мультиколлинеарности. Снова применяем метод исключения переменных: воспользуемся коэффициентом частной корреляции:

Рис. 30

Для X3 и X4 они соответственно равны: 0,907697 и 0,149805, следовательно наибольшее влияние на Y оказывает X3, поэтому фактор X4 можно исключить из модели.

Так как мы исключили фактор X4, нужно опять строить модель множественной регрессии, но только для фактора X3.

Рис. 31

Оценим статистическую значимость прогнозного уравнения:

Коэффициент детерминации R2=0.876241>0,7, что говорит о том, что доля влияния независимых переменных на зависимую значительна (87%).

Адекватность регрессии опытным данным

Т.к. Prob (F-statistic)= 0,000068 < 0,05, то отвергаем гипотезу H0 о незначимости регрессии.

Значимость оценок регрессии

В исследовании оказывается, что Prob для X3 < 0,05 это говорит о статистической значимости коэффициентов при X3.

Следовательно, получаем адекватность модели нашим данным.

В итоге получили модель со значимым коэффициентом при X3 и С. Получили значимую регрессию.

Рис. 32

Стандартизованное уравнение регрессии имеет вид:

Рис. 33

Рис. 34

· Коэффициент детерминации R2= 0,876241, говорит о том, что изменение численности населения РФ на 87,62 % объясняется выбранным фактором.

· Адекватность модели опытным данным можно проверить с помощью критерия Фишера F-statistic и вероятности Prob (F-statistic). Выдвигается нулевая гипотеза H0 о статистической незначимости линейного уравнения регрессии в целом и отсутствии связи между зависимой и независимыми переменными (bi = 0 и ryxi = 0). Если Prob (F-statistic) > =0,05, то H0 принимаем. Будем проводить проверку с помощью Prob (F-statistic).

Т.к. Prob (F-statistic)= 0,000068 < 0,05, то принимаем гипотезу H1 об адекватности модели опытным данным.

· Значимость оценок параметров множественной регрессии можно проверить с помощью критерия Стьюдента и вероятности Prob. Выдвигается нулевая гипотеза H0 о статистической незначимости коэффициента линейного уравнения регрессии (bi = 0). Если Prob > =0,05, то H0 принимаем.

В исследовании оказывается, что Prob=0,0001<0,05. Это говорит о статистической значимости коэффициента линейного уравнения регрессии.

· Стандартная ошибка аппроксимации S.E. of regression = 0,373134 или, другими словами, на 37,31 % построенная регрессия отклоняется от опытных данных.

· Критерий Акаике является эвристической попыткой свести в один показатель 2 требования: уменьшение числа параметров модели и качество подгонки модели. Согласно этому критерию из 2-х моделей следует выбрать модель с наименьшим значением AIC. Значение данного критерия однофакторной модели уменьшился на 0,17731 по сравнению со значением двухфакторной модели (было 15,77659, стало 15,59928).

· Отличие критерия Schwarz от AIC состоит в большем штрафе за количество параметров. По своему смыслу оба критерия близки и направлены на отыскание таких моделей, которые дают наименьшую среднеквадратическую ошибку. Однако на практике они имеют смысл только в сравнении со значениями, вычисленными по другим моделям. Значение данного критерия однофакторной модели уменьшился на 0,20756 по сравнению со значением двухфакторной модели. Было 15,86736, стало 15,65980.

Согласно критериям Schwarz и AIC, из двух моделей следует выбрать однофакторную модель.

В итоге получили модель со значимым коэффициентом X3, значимым коэффициентом регрессии при С и получили значимую регрессию.

Регрессионное уравнение метода наименьших квадратов, включающее фактор, имеет вид: Y = 0,0302014860*X3 + 143663,8633.

Исследование остатков

Остатки - это разность между исходными (наблюдаемыми) значениями зависимой переменной и предсказанными значениями. Исследуя остатки, мы можем оценить степень адекватности модели опытным данным.

При изменении спецификации модели значение оценок остатков могут меняться. Поэтому в задачу регрессионного анализа входит не только построение самой модели, но и исследование остаточных величин.

Для проверки статистической достоверности уравнения регрессии, коэффициентов регрессии и корреляции используются критерий Фишера и Стьюдента. При использовании этих критериев делались предположения относительно поведения остатков, которые позволяют получить несмещенные (EUi=0), состоятельные и эффективные оценки.

Поэтому после построения уравнения регрессии исследуется выполнение следующих предпосылок относительно остатков:

1. Случайный характер остатков.

2. Нулевое значение математического ожидания остатков.

3. Наличие гомоскедастичности.

4. Отсутствие автокорреляции остатков.

5. Подчинение остатков нормальному закону распределения.

Если распределение случайных остатков не соответствует некоторым предпосылкам МНК, то следует корректировать модель, изменяя ее спецификацию, добавлять (исключать) некоторые факторы, преобразовывать исходные данные для того, чтобы получить оценки коэффициентов регрессии, которые обладают свойством несмещенности, имеют меньшее значение дисперсии остатков и обеспечивают в связи с этим более эффективную статистическую проверку значимости параметров регрессии.

1-ая предпосылка. Случайный характер остатков Residi, i=1,m.

Чтобы построить график остатков, нужно войти в окно параметров регрессии и в строке меню этого окна выбрать View/Actual,Fitted,Residual/ Actual,Fitted,Residual - Table.

Рис. 35

Actual - исходное значение Y (экспериментальные данные);

Fitted - значение (вычислено из уравнения регрессии);

Residual - оценки остатков ().

Из графика видно, что:

· остатки не имеют никакой закономерности

· остатки (за исключением двух) не выходят за границы

Это означает, что остатки представляют собой случайные величины и МНК оправдан, теоретические значения хорошо аппроксимируют фактические значения.

2-ая предпосылка. E(Residi)=0

Неравное нулю математическое ожидание позволяет сделать вывод, что зависит от Х и что модель неадекватна. Равенство нулю нарушается либо из-за неправильной спецификации модели (зависимость не линейная, а иная), либо из-за нарушения 3-ей предпосылки МНК (о постоянном значении дисперсии).

Получить значение математического ожидания можно следующим образом: View/Residual Tests/Histogram-Normality Test:

Рис. 36

Mean = 8,71е-12. Т.е. среднее значение остатков примерно равно 0. предпосылка E(Ui)=0 выполняется.

3-ая предпосылка. Наличие гомоскедастичности.

Равенство дисперсий возмущений (ошибок) регрессии является существенным условием линейной классической регрессионной модели множественной регрессии.

Свойство постоянства дисперсий ошибок регрессии называется гомоскедастичностью. Наиболее простой и часто употребляемый тест на гомоскедастичность - тест Уайта. Выдвинем нулевую гипотезу Н0: дисперсии возмущений регрессии постоянны (т.е. наблюдается гомоскедастичность). Также выберем устраивающую нас вероятность ошибки I рода б=0,05.

Оригинальная версия теста базируется на следующем утверждении: если регрессионная зависимость имеет вид

yi = b0 + b1x1i + b2x2i + b3x3i + ui,

где b0, b1, b2, b3 - параметры регрессии, x1, x2, x3 - факторы, ui - остаток, то дисперсия остатка ui2 представляет собой квадратичную функцию от значений факторов:

ui2 = a0 + a1x1i + a2x2i + a3x3i + a4 (x1i)2 + a5(x2i)2+ a6 (x3i)2 + a7x1x2i + a8x1x3i + a9x2x3i + vi,

т.е. дисперсия остатка зависит от наблюдаемых значений факторов и не постоянна (явление гетероскедастичности). Далее для данной квадратичной регрессии рассчитываются F-статистика и специфическая статистика Уайта, которая, если нулевая гипотеза верна, имеет распределение, близкое к хи-квадрат с числом степеней свободы, равным числу параметров регрессии, кроме свободного члена.

Если расчетная F-статистика для квадратичной модели больше табличного значения, то мы должны отвергнуть гипотезу о незначимости квадратичной регрессии, а значит, принять утверждение о наличии гетероскедастичности. Если же F-статистика окажется меньше табличного значения, то это будет означать, что гипотеза о незначимости квадратичной регрессии не должна быть отвергнута, а предположение о наличии гетероскедастичности, напротив, надо отклонить.

Итак, проведем данный тест для нашей модели: View/Residual Tests/White Heteroskedasticity. Здесь имеются две версии теста: Cross Terms и No Cross Terms. Cross Terms представляет собой описанную выше оригинальную версию теста Уайта. No Cross Terms отличается тем, что из квадратичной модели регрессии для дисперсии остатков исключаются слагаемые - произведения факторов (a7x1x2i, a8x1x3i, a9x2x3i). Это полезно, если в модель входит большое число факторов.

Для проведения теста в среде EViews в меню окна с характеристиками модели выбираем View/Residual Tests/White Heteroskedascity ( no cross terms).

Когда в правой части уравнения регрессии много переменных, количество возможных перекрестных произведений довольно велико и становится практически невозможным включить их все. Когда мы используем White Heteroskedascity (no cross terms), то no cross terms использует тест регрессии без использования этих произведений. Чем больше перекрестных произведений, тем допускается больше ошибок.

У нас остался только один Х, в этом случае нет разницы при использовании cross terms или no cross terms.

Рис. 37

Полученное значение F-статистики: Prob(F-statistic)=0.442838 больше уровня б=0,05, значит, гипотеза о наличии гомоскедастичности принимается.

Также есть значение Obs*R-squared, по которому тоже проверяется наличие гетероскедастичности. Prob(Obs*R-squared)=0.354106 больше уровня 0,05, значит, гипотеза о наличии гомоскедастичности принимается.

4-ая предпосылка. Проверка на автокорреляцию остатков (зависимость остатков).

В соответствии с предпосылками метода наименьших квадратов, возмущения должны быть случайными. Однако нередко встречается ситуация, когда остатки содержат тенденцию или циклические колебания, т.е. каждое следующее значение возмущения зависит от предшествующих. В этом случае говорят об автокорреляции остатков.

При использовании Q-статистики для определения наличия автокорреляции, остаётся практической проблемой выбор количества лагов, используемых в тесте. Пакет EViews сам предлагает пользователю оптимальное количество лагов, однако мы можем изменить данную величину самостоятельно, но это не целесообразно. Т.к., если выбрать небольшое количество лагов, тест, возможно, не обнаружит автокорреляцию на больших лагах. А если же выбрать большое количество лагов, тест может упустить наличие автокорреляции.

Для определения наличия автокорреляции используется тест Q-statistics. Выберем View/Residual Tests/Correlogram-Q-statistics. Теперь нужно задать лаг.

Рис. 38

Лаг - порядок коэффициента автокорреляции, т.е. число периодов, по которым рассчитывается коэффициент. Например если лаг равен 1, то будет рассчитан коэффициент автокорреляции первого порядка, измеряющий зависимость между соседними остатками. Q-statistic для лага k - это тестовая статистика для нулевой гипотезы о том, что до порядка k явление автокорреляции не наблюдается. Если Prob(Q-Stat)>0.05, а коэффициенты автокорреляции и частной автокорреляции близки к нулю, то значение этой статистики может считаться незначимым, а автокорреляция - отсутствующей.

Рис. 39

Выдвинем нулевую гипотезу Н0: автокорреляция отсутствует. Также выберем устраивающую нас вероятность ошибки I рода б=0,05.

Мы видим, что все Prob>0.05. Значит нулевая гипотеза принимается. Автокорреляция отсутствует.

5-ая предпосылка. Остатки подчиняются нормальному закону распределения.

Чтобы определить нормальность распределения остатков воспользуемся статистикой Jarque-Bera, которая используется для проверки гипотезы о нормальности распределения исследуемого ряда.

Н0: распределение не отличается от нормального.

Н1: распределение существенно отличается от нормального.

Вероятность Probability - это вероятность того, что статистика Jarque-Bera превышает (по абсолютному значению) наблюдаемое значение для нулевой гипотезы.

Так как 0.983802 > 0,05, то нулевая гипотеза Н0 принимается, т.е. остатки подчиняются нормальному закону распределения.

4. Вывод

Таким образом, в результате исследования зависимости Численности населения РФ от шести факторов были выявлены следующие результаты:

При анализе матрицы коэффициентов корреляции пришлось отбросить пять факторов (х1, х2, x4, х5, x6). Поэтому модель следующая: зависимый фактор - численность населения РФ (Y), на который влияет один независимый фактор - число вынужденных переселенцев и беженцев (X3).

Итак, в результате проделанной курсовой работы и проведённых исследований в среде EViews можно сделать следующие выводы:

1) Стандартизованное уравнение регрессии позволяет подтвердить, что наибольшее влияние на Y (численность населения РФ) оказывает Х3 (число вынужденных переселенцев и беженцев), т.к. коэффициент при Х3 самый большой.

2) Коэффициент детерминации равен 0,876241, а это значит, что уравнение регрессии на 87,62 % объясняется экзогенными переменными, т.е. изменение Y на 87,62 % объясняется изменением фактора Х3.

3) после проверки адекватности регрессионной зависимости опытным данным с помощью критерия Фишера делаем вывод: параметры регрессии значимы, т.е. модель адекватна опытным данным;

4) Проверив значимость оценок параметров регрессии с помощью критерия Стъюдента, решаем, что коэффициент С(3), а также свободный член в уравнении регрессии значимы.

5) Исследование остатков дало следующие результаты: остатки имеют случайный характер, т.е. достаточно хорошо аппроксимирует опытные данные Y; предпосылка E(Ui)=0 выполняется; гипотеза о наличии гомоскедастичности не отвергается; гипотеза об отсутствии автокорреляции принимается; остатки подчиняются нормальному закону распределения.

Полученная математическая модель является удачным описанием реальной экономической ситуации.

Y = 0,0302014860*X3 + 143663,8633.

При увеличении числа беженцев и вынужденных переселенцев на 1 тыс. человек, численность населения РФ увеличивается в среднем на 30,201486 человек.

При равенстве нулю фактора модели X3 (т.е. число беженцев и вынужденных переселенцев равно 0), Y = 143663,8633 тыс. человек.

эконометрический регрессия эластичность детерминация

Список использованной литературы

1. Молчанов И.Н., Герасимова И.А, "Компьютерный практикум по начальному курсу эконометрики (реализация на Eviews)", Ростов-н/Д., - 2001.

2. И.И. Елисеева, "Эконометрика", Москва - 2007 г.

3. Сайт Федеральной служба государственной статистики: www. gks.ru

Размещено на Allbest.ru


Подобные документы

  • Процесс построения и анализа эконометрической модели в пакете Econometric Views. Составление, расчет и анализ существующей проблемы. Проверка адекватности модели реальной ситуации на числовых данных в среде Eviews. Построение регрессионного уравнения.

    курсовая работа [1,3 M], добавлен 17.02.2014

  • Построение и анализ классической многофакторной линейной эконометрической модели. Вид линейной двухфакторной модели, её оценка в матричной форме и проверка адекватности по критерию Фишера. Расчет коэффициентов множественной детерминации и корреляции.

    контрольная работа [131,9 K], добавлен 01.06.2010

  • Публикация данных: источники информации и влияние факторов на деятельность. Статистическая автокоррелированность ряда и проверка ее порядков, статистика Дарбина–Уотсона. Регрессионные зависимости и леммы эконометрической модели, доверительный интервал.

    практическая работа [327,4 K], добавлен 15.03.2009

  • Построение и анализ однофакторной и многофакторной эконометрической модели. Вычисление парных и частичных коэффициентов корреляции. Проверка адекватности модели по критерию Фишера. Исследование наличия мультиколлениарности по алгоритму Феррара-Глобера.

    контрольная работа [172,4 K], добавлен 28.05.2010

  • Построение эконометрической модели, описывающей линейную зависимость результативного признака факторов, входящих в нее, методом матрицы. Проверка ее на адекватность по критерию Фишера. Определение дисперсии, ковариации, корреляции и детерминации.

    контрольная работа [180,5 K], добавлен 03.12.2014

  • Оценка влияния разных факторов на среднюю ожидаемую продолжительность жизни по методу наименьших квадратов. Анализ параметров линейной двухфакторной эконометрической модели с помощью метода наименьших квадратов. Графическое изображение данной зависимости.

    практическая работа [79,4 K], добавлен 20.10.2015

  • Построение эконометрической модели спроса в виде уравнений парной и множественной регрессии. Отбор факторов для построения функции потребления. Расчет коэффициентов корреляции и детерминации, проверка правильности выбранных факторов и формы связи.

    контрольная работа [523,7 K], добавлен 18.08.2010

  • Анализ и выявление значимых факторов, влияющих на объект. Построение эконометрической модели затрат предприятия для обоснований принимаемых решений. Исследование трендов временных рядов. Оценка главных параметров качества эконометрической модели.

    курсовая работа [821,1 K], добавлен 21.11.2013

  • Построение качественной и адекватной эконометрической модели по методу наименьших квадратов и ее анализ на наличие автокорреляции, мультиколлинеарности, гетероскедастичности с применением статистики Дарвина-Уотсона, тестов Парка и Голдфелда-Квандта.

    курсовая работа [434,0 K], добавлен 04.12.2013

  • Ознакомление с основами модели простой регрессии. Рассмотрение основных элементов эконометрической модели. Характеристика оценок коэффициентов уравнения регрессии. Построение доверительных интервалов. Автокорреляция и гетероскедастичность остатков.

    лекция [347,3 K], добавлен 23.12.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.