Связь миграции населения РФ с социальной сферой

Регрессионный анализ связи миграции населения Российской Федерации с социальной сферой. Факторная модель миграции населения. Отбор значимых факторов модели путем корреляционного анализа. Регрессионный анализ модели и исключение незначимых факторов.

Рубрика Экономика и экономическая теория
Вид курсовая работа
Язык русский
Дата добавления 22.10.2012
Размер файла 138,6 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

32

Размещено на http://www.allbest.ru/

Курсовая работа

Связь миграции населения РФ с социальной сферой

Содержание работы

Введение

Глава I. Множественная линейная регрессия

1.1 Отбор факторов при построении модели множественной регрессии

1.2 Линейная модель множественной регрессии

1.3 Определение коэффициентов методом наименьших квадратов

1.4 Анализ качества эмпирического уравнения множественной линейной регрессии

Глава II. Регрессионный анализ связи миграции населения РФ с социальной сферой

2.1 Факторная модель миграции населения

2.2 Отбор наиболее значимых факторов модели путем корреляционного анализа

2.3 Регрессионный анализ модели и исключение незначимых факторов

Заключение

Список литературы

Введение

Показатели статистики находятся между собой в связи, отражая объективную взаимную обусловленность и взаимную зависимость общественных явлений. Эти связи многообразны и по своему характеру различны. Чтобы раскрыть и измерить их, необходимо применять различные статистические приемы анализа.

Суть корреляционных связей заключается в том, что значению признака, рассматриваемого как факторный, соответствует не одно определенное значение другого признака следствия, а несколько их значений, то есть известное распределение этих значений.

Построение корреляционно-регрессионной модели позволяет решить следующие задачи:

· определение формы связи;

· установление тесноты связи между факторными и результативными признаками; миграция население социальный сфера

· выявление влияния отдельных факторов.

В предлагаемой курсовой работе ставится цель изучения связи миграции населения РФ с социальной сферой.

Работа состоит из введения, двух основных разделов, заключения и списка литературы по теме исследования.

Статистической базой для написания работы явились данные Федеральной службы государственной статистики Российской Федерации за 2000-2006 гг.

Глава I. Множественная линейная регрессия

На любой экономический показатель чаще всего оказывает влияние не один, а несколько факторов. В этом случае связь результативного признака с факторными рассматривается в виде множественной регрессии

(1)

В настоящее время множественная регрессия - один из наиболее распространенных методов в эконометрике и статистическом анализе.

Основной целью множественной регрессии является построение модели с большим числом факторов, а также определение влияния каждого фактора в отдельности и совокупного их воздействия на моделируемый показатель.

1.1 Отбор факторов при построении модели множественной регрессии

Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели (выбор факторов, вида уравнения и др.)

Факторы, включаемые в модель множественной регрессии, должны отвечать следующим требованиям:

· должны быть количественно измеримы;

· не должны быть интеркоррелированы или находится в функциональной зависимости;

· в одну модель нельзя включать совокупный фактор и образующие его частные факторы, что может привести к неоправданному увеличенному их влияние на зависимый показатель, к искажению реальной действительности;

· количество включаемых в модель факторов не должно превышать одной трети числа наблюдений в выборке.

Отбор факторов обычно осуществляется в две стадии: на первой подбираются факторы, исходя из сущности проблемы; на второй - на основе матрицы показателей корреляции определяют t-статистики (характеризуют значимость параметров) для параметров регрессии.

Коэффициенты интеркорреляции (т.е. корреляции между объясняющими переменными) позволяют исключать из модели дублирующие факторы. Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если .

Из двух явно коллинеарных факторов уравнения регрессии - рекомендуется исключить один. Предпочтение при этом отдается тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.

При отборе влияющих факторов используются статистические методы отбора. Так, существенного сокращения числа влияющих факторов можно достичь с помощью пошаговых процедур отбора переменных. Ни одна их этих процедур не гарантирует получения оптимального набора переменных. Однако при практическом применении они позволяют получить достаточно хорошие наборы существенно влияющих факторов.

Наиболее широкое применение получили следующие методы отбора факторов: метод исключения, метод включения, шаговый регрессионный анализ.

Метод исключения предполагает построение уравнения, включающего всю совокупность переменных, с последующим последовательным (пошаговым) сокращением числа переменных в модели до тех пор, пока не выполнится некоторое, наперед заданное, условие.

Суть метода включения состоит - в последовательном включении переменных в модель до тех пор, пока регрессионная модель не будет отвечать заранее установленному критерию качества. Последовательность включения определяется с помощью частных коэффициентов корреляции: переменные, имеющие относительно исследуемого показателя большие значения частного коэффициента корреляции, первыми включаются в регрессионное уравнение.

Шаговый регрессионный анализ состоит в исключении ранее введенного фактора. Матрица частных коэффициентов корреляции наиболее широко используется в процедуре отсева факторов.

1.2 Линейная модель множественной регрессии

Самой употребляемой и наиболее простой из моделей множественной регрессии является линейная модель множественной регрессии:

(1)

По математическому смыслу коэффициенты в уравнении (2) равны частным производным результативного признака y по соответствующим факторам:

,,…,.

Параметр б называется свободным членом и определяет значение y в случае, когда все объясняющие переменные равны нулю. Однако, как и в случае парной регрессии, факторы по своему экономическому содержанию часто не могут принимать нулевых значений, и значение свободного члена не имеет экономического смысла. При этом, в отличие от парной регрессии, значение каждого регрессионного коэффициента равно среднему изменению y при увеличении xj на одну единицу лишь при условии, что все остальные факторы остались неизменными. Величина е представляет собой случайную ошибку регрессионной зависимости.

Попутно отметим, что наиболее просто можно определять оценки параметров , изменяя только один фактор xj, оставляя при этом значения других факторов неизменными. Тогда задача оценки параметров сводилась бы к последовательности задач парного регрессионного анализа по каждому фактору. Однако такой подход, широко используемый в естественнонаучных исследованиях, (физических, химических, биологических), в экономике является неприемлемым. Экономист, в отличие от экспериментатора - естественника, лишен возможности регулировать отдельные факторы, поскольку не удаётся обеспечить равенство всех прочих условий для оценки влияния одного исследуемого фактора.

Получение оценок параметров уравнения регрессии (1) - одна из важнейших задач множественного регрессионного анализа. Самым распространенным методом решения этой задачи является метод наименьших квадратов (МНК). Его суть состоит в минимизации суммы квадратов отклонений наблюдаемых значений зависимой переменной y от её значений , получаемых по уравнению регрессии. Поскольку параметры являются неизвестными константами, вместо теоретического уравнения регрессии (1) оценивается так называемое эмпирическое уравнение регрессии, которое можно представить в виде:

(2)

Здесь - оценки теоретических значений , или эмпирические коэффициенты регрессии, е - оценка отклонения е. Тогда расчетное выражение имеет вид:

(3)

Пусть имеется n наблюдений объясняющих переменных и соответствующих им значений результативного признака:

(4)

Для однозначного определения значений параметров уравнения (3) объем выборки n должен быть не меньше количества параметров, т.е. . В противном случае значения параметров не могут быть определены однозначно. Если n=p+1, оценки параметров рассчитываются единственным образом без МНК простой подстановкой значений (4) в выражение (3). Получается система (p+1) уравнений с таким же количеством неизвестных, которая решается любым способом, применяемым к системам линейных алгебраических уравнений (СЛАУ).

Однако с точки зрения статистического подхода такое решение задачи является ненадежным, поскольку измеренные значения переменных (4) содержат различные виды погрешностей.

Поэтому для получения надежных оценок параметров уравнения (3) объём выборки должен значительно превышать количество определяемых по нему параметров.

Практически объём выборки должен превышать количество параметров при xj в уравнении (3) в 6-7 раз.

Для проведения анализа в рамках линейной модели множественной регрессии необходимо выполнение ряда предпосылок МНК:

1. Математическое ожидание случайного отклонения равно нулю для всех наблюдений:

.

2. Дисперсия случайных отклонений постоянна:

.

Выполнимость данной предпосылки называется гомоскедастичностью (постоянством дисперсии отклонений). Невыполнимость данной предпосылки называется гетероскедастичностью (непостоянством дисперсии отклонений)

3. Случайные отклонения еi и еj являются независимыми друг от друга для :

Выполнимость этого условия называется отсутствием автокорреляции.

4. Случайное отклонение должно быть независимо от объясняющих переменных.

5.Спецификация модели имеет вид (1).

6.Отсутствие мультиколлинеарности: между объясняющими переменными отсутствует строгая линейная зависимость, что играет важную роль в отборе факторов при решении проблемы спецификации модели.

7.Ошибки

имеют нормальное распределение . Выполнимость этого условия нужна для проверки статистических гипотез и построения интервальных оценок.

При выполнимости всех этих предпосылок имеет место многомерный аналог теоремы Гаусса - Маркова: оценки , полученные по МНК, являются наиболее эффективными (в смысле наименьшей дисперсии) в классе линейных несмещенных оценок.

1.3 Определение коэффициентов методом наименьших квадратов

Представим данные наблюдений и параметры модели в матричной форме.

- n - мерный вектор - столбец наблюдений зависимой переменной;

- (p+1)

- мерный вектор - столбец параметров уравнения регрессии (3);

- n - мерный вектор - столбец отклонений выборочных значений yi от значений , получаемых по уравнению (4).

Для удобства записи столбцы записаны как строки и поэтому снабжены штрихом для обозначения операции транспонирования.

Наконец, значения независимых переменных запишем в виде прямоугольной матрицы размерности :

Каждому столбцу этой матрицы отвечает набор из n значений одного из факторов, а первый столбец состоит из единиц, которые соответствуют значениям переменной при свободном члене.

В этих обозначениях эмпирическое уравнение регрессии выглядит так:

(5)

Отсюда вектор остатков регрессии можно выразить таким образом:

(6)

Таким образом, функционал

,

который, собственно, и минимизируется по МНК, можно записать как произведение вектора - строки е' на вектор - столбец е:

(7)

В соответствии с МНК дифференцирование Q по вектору В приводит к выражению:

(8)

которое для нахождения экстремума следует приравнять к нулю. В результате преобразований получаем выражение для вектора параметров регрессии:

(9)

Здесь - матрица, обратная к

1.4 Анализ качества эмпирического уравнения множественной линейной регрессии

Проверка статистического качества оцененного уравнения регрессии проводится, с одной стороны, по статистической значимости параметров уравнения, а с другой стороны, по общему качеству уравнения регрессии. Кроме этого, проверяется выполнимость предпосылок МНК.

Сначала рассмотрим первые два вида проверок и связанные с ними вопросы. Некоторые предпосылки МНК и проверки их выполнимости будем рассматривать отдельно.

Как и в случае парной регрессии, статистическая значимость параметров множественной линейной регрессии с р факторами проверяется на основе t - статистики:

(10)

где величина называется стандартной ошибкой параметра . Она определяется так. Обозначим матрицу:

и в этой матрице обозначим j - й диагональный элемент как . Тогда выборочная дисперсия эмпирического параметра регрессии равна:

(11)

а для свободного члена выражение имеет вид:

(11')

если считать, что в матрице индексы изменяются от 0 до р. Здесь S2 - несмещенная оценка дисперсии случайной ошибки е:

(12)

Стандартные ошибки параметров регрессии равны

(13)

Полученная по выражению (10) t - статистика для соответствующего параметра имеет распределение Стьюдента с числом степеней свободы (n-p-1). При требуемом уровне значимости б эта статистика сравнивается с критической точкой распределения Стьюдента t(б; n-p-1) (двухсторонней).

Если |t|>t(б; n-p-1), то соответствующий параметр считается статистически значимым, и нуль - гипотеза в виде Н0:bj=0 или Н0=0 отвергается.

В противном случае (|t|<t(б; n-p-1)) параметр считается статистически незначимым, и нуль - гипотеза не может быть отвергнута. Поскольку bj не отличается значимо от нуля, фактор хj линейно не связан с результатом. Его наличие среди объясняющих переменных не оправдано со статистической точки зрения. Не оказывая какого - либо серьёзного влияния на зависимую переменную, он лишь искажает реальную картину взаимосвязи. Поэтому после установления того факта, что коэффициент bj статистически незначим, переменную хj рекомендуется исключить из уравнения регрессии. Это не приведет к существенной потере качества модели, но сделает её более конкретной.

К анализу значимости коэффициента bj можно подойти по - другому. Для этого строится интервальная оценка соответствующего коэффициента. Если задать уровень значимости б, то доверительный интервал, в который с вероятностью (1-б) попадает неизвестное значение параметра , определяется неравенством:

(14)

или

(14')

Если доверительный интервал не содержит нулевого значения, то соответствующий параметр является статистически значимым, в противном случае гипотезу о нулевом значении параметра отвергать нельзя.

Для проверки общего качества уравнения регрессии используется коэффициент детерминации R2, который в общем случае рассчитывается по формуле:

(15)

Он показывает, как и в парной регрессии, долю общей дисперсии у, объясненную уравнением регрессии. Его значения находятся между нулем и единицей. Чем ближе этот коэффициент к единице, тем больше уравнение регрессии объясняет поведение у.

Для множественной регрессии R2 является неубывающей функцией числа объясняющих переменных. Добавление новой объясняющей переменной никогда не уменьшает значение R2. Действительно, каждая следующая объясняющая переменная может лишь дополнить, но никак не сократить информацию, объясняющую поведение зависимой переменной.

В формуле (15) используется остаточная дисперсия, которая имеет систематическую ошибку в сторону уменьшения, тем более значительную, чем больше параметров определяется в уравнении регрессии при заданном объёме наблюдений n. Если число параметров (р+1) приближается к n, то остаточная дисперсия будет близка к нулю и коэффициент детерминации приблизится к единице даже при слабой связи факторов с результатом.

Поэтому в числителе и знаменателе дроби в (15) делается поправка на число степеней свободы остаточной и общей дисперсии соответственно:

(16)

Поскольку величина (15), как правило, увеличивается при добавлении объясняющей переменной к уравнению регрессии даже без достаточных на то оснований, скорректированный коэффициент (16) компенсирует это увеличение путем наложения «штрафа» за увеличение числа независимых переменных. Перепишем (16) следующим образом:

(17)

По мере роста р увеличивается отношение р/(n-p-1) и, следовательно, возрастает размер корректировки коэффициента R2 в сторону уменьшения.

Из (17) очевидно, что при р>1. С ростом р растет медленнее, чем R2. Другими словами, он корректируется в сторону уменьшения с ростом числа объясняющих переменных. При этом только при R2=1. может даже принимать отрицательные значения (например, при R2=0). Поэтому для корректировки (16) нет строгого математического обоснования.

Доказано, что увеличивается при добавлении новой объясняющей переменной тогда и только тогда, когда t - статистика для этой переменной по модулю больше единицы. Из этого отнюдь не следует, как можно было бы предположить, что увеличение означает улучшение спецификации уравнения. Тем не менее, добавление в модель новых факторов осуществляется до тех пор, пока растет скорректированный коэффициент детерминации.

Обычно приводятся данные как по R2 , так и по , являющиеся суммарными мерами общего качества уравнения регрессии. Однако не следует абсолютизировать значимость коэффициентов детерминации. Существует немало примеров неправильно построенных моделей, имеющих высокие коэффициенты детерминации. Поэтому коэффициент детерминации в настоящее время рассматривается лишь как один из ряда показателей, которые нужно проанализировать, чтобы уточнить строящуюся модель.

Анализ статистической значимости коэффициента детерминации проводится на основе проверки нуль - гипотезы Н0: R2=0 против альтернативной гипотезы Н1: R2>0. Для проверки данной гипотезы используется следующая F - статистика:

(18)

Величина F при выполнении предпосылок МНК и при справедливости нуль - гипотезы имеет распределение Фишера.

Из (18) видно, что показатели F и R2 равны или не равны нулю одновременно. Если F=0, то R2=0, и линия регрессии является наилучшей по МНК, и, следовательно, величина у линейно не зависит от .

Для проверки нуль - гипотезы при заданном уровне значимости б по таблицам критических точек распределения Фишера находится критическое значение Fтабл(б; p; n-p-1). Если F>Fтабл, нуль - гипотеза отклоняется, что равносильно статистической значимости R2, т.е. R2>0.

Эквивалентный анализ может быть предложен рассмотрением другой нуль - гипотезы, которая формулируется как .

Эту гипотезу можно назвать гипотезой об общей значимости уравнения регрессии. Если данная гипотеза не отклоняется, то делается вывод о том, что совокупное влияние всех р объясняющих переменных на зависимую переменную у можно считать статистически несущественным, а общее качество уравнения регрессии невысоким.

Проверка такой гипотезы осуществляется на основе дисперсионного анализа сравнения объясненной и остаточной дисперсий, т.е. нуль - гипотеза формулируется как Н0:Dфакт=Dост против альтернативной гипотезы Н1:Dфакт>Dост. При этом строится F - статистика:

(19)

Здесь в числителе - объясненная (факторная) дисперсия в расчете на одну степень свободы (число степеней свободы равно числу факторов, т.е. р). В знаменателе - остаточная дисперсия на одну степень свободы. Её число степеней свободы равно (n-p-1). Потеря (р+1) степени свободы связана с необходимостью решения системы (р+1) линейных уравнений при определении параметров эмпирического уравнения регрессии. Если учесть, что число степеней свободы общей дисперсии равно (n-1), то число степеней свободы объясненной дисперсии равна разности (n-1) - (n-p-1), т.е. р. Следует отметить, что выражение (19) эквивалентно (18). Это становится ясно, если числитель и знаменатель (19) разделить на общую СКО:

Поэтому методика принятия или отклонения нуль - гипотезы для статистики (19) ничем не отличается от таковой для статистики (18).

Анализ статистики F позволяет сделать вывод о том, что для принятия гипотезы об одновременном равенстве нулю всех коэффициентов линейной регрессии коэффициент детерминации R2 должен существенно отличаться от нуля. Его критическое значение уменьшается при росте числа наблюдений и может стать сколь угодно малым.

Глава II. Регрессионный анализ связи миграции населения РФ с социальной сферой

2.1 Факторная модель миграции населения

Для определения влияния социальных показателей на миграцию населения будем изучать множественную связь между сальдо миграции и факторными признаками, характеризующими образование, здравоохранение и уровень жизни.

Таблица 1

Общие итоги миграции населения РФ за 2000-2006 гг.

Год

Прибывшие из зарубежных стран, всего (чел)

Выбывшие в зарубежные страны, всего (чел)

Сальдо миграции (чел)

2000

359330

145720

213610

2001

193450

121166

72284

2002

184612

106685

77927

2003

129144

94018

35126

2004

119157

79795

39362

2005

177230

69798

107432

2006

186380

54061

132319

Рис. 1. Сальдо миграции населения РФ за 2000-2006 гг.

Для характеристики образования населения РФ за период 2000-2006 гг. будем рассматривать следующие показатели: Доля воспитанников дошкольных образовательных учреждений в численности детей соответствующего возраста, %;

· Охват молодежи программами начального, среднего и высшего профессионального образования (удельный вес численности студентов (учащихся) учреждений начального, среднего и высшего профессионального образования в численности населения в возрасте 15-34 года), %.

В таблице 2 приведены значения данных показателей за 2000-2006 гг.

Таблица 2

Показатели, характеризующие образование населения РФ за 2000-2006 гг.

Год

Доля воспитанников дошкольных образовательных учреждений в численности детей соответствующего возраста, %

Охват молодежи программами начального, среднего и высшего профессионального образования, %

2000

51,3

20,5

2001

50

21,9

2002

48,9

23

2003

47,8

24

2004

47,2

24,6

2005

46,5

24,8

Для наглядности динамика данных показателей представлена на рис. 2.

Рис. 2. Динамика показателей образования населения РФ за 2000-2006 гг.

Для характеристики здравоохранения в РФ за период 2000-2006 гг. будем рассматривать следующие показатели:

· Заболеваемость населения по основным классам болезней на 1000 чел. (зарегистрировано больных с диагнозом, установленным впервые в жизни);

· Осложнения беременности, родов и послеродового периода на 1000 женщин фертильного возраста.

Структура основных классов болезней содержит:

· некоторые инфекционные и паразитарные болезни;

· новообразования;

· болезни крови, кроветворных органов и отдельные нарушения, вовлекающие иммунный механизм;

· болезни эндокринной системы, расстройства питания, нарушения обмена веществ;

· болезни нервной системы;

· болезни глаза и его придаточного аппарата;

· болезни уха и сосцевидного отростка;

· болезни системы кровообращения;

· болезни органов дыхания;

· болезни органов пищеварения;

· болезни кожи и подкожной клетчатки;

· болезни костно-мышечной системы и соединительной ткани;

· болезни мочеполовой системы.

В таблице 3 приведены значения данных показателей за 2000-2006 гг.

Таблица 3

Показатели, характеризующие здравоохранение в РФ за 2000-2006 гг.

Год

Заболеваемость населения по основным классам болезней на 1000 чел

Осложнения беременности, родов и послеродового периода на 1000 женщин фертильного возраста

2000

612,9

52,9

2001

598,7

55,1

2002

614,2

60,2

2003

620,6

63,3

2004

616,8

62,4

2005

617,6

62,9

2006

635,3

64,1

Для наглядности динамика данных показателей представлена на рис. 3, 4.

Рис.3. Динамика заболеваемости населения РФ по основным классам болезней на 1000 чел. за 2000-2006 гг.

Рис.4. Динамика осложнений беременности, родов и послеродового периода на 1000 женщин фертильного возраста в РФ за 2000-2006 гг.

Для характеристики уровня жизни населения РФ за период 2000-2006 гг. будем рассматривать следующие показатели:

· Фактическое конечное потребление домашних хозяйств в процентах к ВВП;

· Численность населения с денежными доходами ниже величины прожиточного минимума в процентах от общей численности населения.

Таблица 4

Показатели, характеризующие уровень жизни населения в РФ за 2000-2006 гг.

Год

Фактическое конечное потребление домашних хозяйств в процентах к ВВП

Численность населения с денежными доходами ниже величины прожиточного минимума в процентах от общей численности населения

2000

52,3

29

2001

59,3

24,6

2002

58

20,3

2003

57,6

17,6

2004

57,3

17,7

2005

56,6

15,2

2006

56,9

13,4

Для наглядности динамика данных показателей представлена на рис. 5.

Рис. 5. Динамика показателей уровня жизни населения РФ за 2000-2006 гг.

Таким образом, исходные данные можно сгруппировать в виде следующей таблицы:

Таблица 5

Исходные данные для проведения корреляционно-регрессионного анализа

Год

Y

X1

X2

X3

X4

X5

X6

2000

213610

51,3

20,5

612,9

52,9

52,3

29

2001

72284

50

21,9

598,7

55,1

59,3

24,6

2002

77927

48,9

23

614,2

60,2

58

20,3

2003

35126

47,8

24

620,6

63,3

57,6

17,6

2004

39362

47,2

24,6

616,8

62,4

57,3

17,7

2005

107432

46,5

24,8

617,6

62,9

56,6

15,2

2006

132319

46,2

25,1

635,3

64,1

56,9

13,4

Здесь:

· Y - сальдо миграции населения РФ, чел.

· X1 - доля воспитанников дошкольных образовательных учреждений в численности детей соответствующего возраста, %;

· X2 - Охват молодежи программами начального, среднего и высшего профессионального образования, %;

· X3 - заболеваемость населения по основным классам болезней на 1000 чел;

· X4 - осложнения беременности, родов и послеродового периода на 1000 женщин фертильного возраста;

· X5 - фактическое конечное потребление домашних хозяйств в процентах к ВВП;

· X6 - численность населения с денежными доходами ниже величины прожиточного минимума в процентах от общей численности населения.

Анализ множественной линейной регрессии по исходным данным таблицы 6 будем проводить с помощью пакета анализа табличного процессора MS Excel. Данный пакет анализа, включает методологию корреляционно-регрессионного анализа, описанию в первой главе настоящей курсовой работы.

Для проведения анализа данных с помощью пакета анализа MS Excel следует указать входные данные и выбрать параметры; анализ будет проведен с помощью подходящей статистической или инженерной макрофункции, а результат будет помещен в выходной диапазон. Другие средства MS Excel позволяют представить результаты анализа в графическом виде.

2.2 Отбор наиболее значимых факторов модели путем корреляционного анализа

С помощью компонента «Корреляция» пакета анализа MS Excel построим корреляционную матрицу совокупности результативного и факторного признаков (по исходным данным табл.5).

Таблица 6

Корреляционная матрица

 

Y

X1

X2

X3

X4

X5

X6

Y

1

 

 

 

 

 

 

X1

0,42

1

 

 

 

 

 

X2

-0,51

-0,99

1

 

 

 

 

X3

0,12

-0,70

0,67

1

 

 

 

X4

-0,54

-0,96

0,97

0,72

1

 

 

X5

-0,84

-0,38

0,44

-0,18

0,41

1

 

X6

0,46

0,99

-0,99

-0,72

-0,97

-0,44

1

Из таблицы, очевидно, что факторы X1, X2, X4, X6, попарно коррелированны друг с другом. В уравнение регрессии целесообразно включить фактор X4 и не включать в него факторы X1, X2, X6, так как корреляция X4 с Y наиболее сильная по сравнению с исключаемыми факторами. Поэтому в уравнение множественной регрессии включаются факторы X3, X4, X5:

Y = a0 + a3*X3 + a4*X4 + a5*X5.

2.3 Регрессионный анализ модели и исключение незначимых факторов

С помощью компонента «Регрессия» пакета анализа MS Excel рассчитаем показатели регрессионного анализа модели регрессии:

Y = a0 + a3*X3 + a4*X4 + a5*X5.

Результаты расчетов представим в таблице 6. Так, исследуемая регрессионная модель принимает вид:

Y = -1085040,37 + 4057,54*X3 -12815,05*X4 -9662,21*X5.

С вероятностью 0,91 (1-0,09) уравнение регрессии является значимым, при этом вариация результативного признака на 86% (R2=0,86) объясняется вариацией факторных признаков и только на 14% вариацией неучтенных в модели факторов.

Таблица 7

Показатели регрессионного анализа модели регрессии

Y = a0 + a3*X3 + a4*X4 + a5*X5

Регрессионная статистика

 

 

 

 

 

 

Множественный R

0,93

 

 

 

 

 

R-квадрат

0,86

 

 

 

 

 

Нормированный R-квадрат

0,71

 

 

 

 

 

Стандартная ошибка

33146,22

 

 

 

 

 

Наблюдения

7

 

 

 

 

 

 

 

 

 

 

 

 

Дисперсионный анализ

 

 

df

SS

MS

F

Значимость F

 

Регрессия

3

19783198739

6594399580

6,00

0,09

 

Остаток

3

3296016422

1098672141

 

 

 

Итого

6

23079215161

 

 

 

 

 

 

 

 

 

 

 

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

-1085040,37

1772327,00

-0,61

0,58

-6725375,87

4555295,13

Переменная X3

4057,54

2732,27

1,49

0,23

-4637,76

12752,85

Переменная X4

-12815,05

7251,69

-1,77

0,18

-35893,16

10263,05

Переменная X5

-9662,21

10247,24

-0,94

0,42

-42273,49

22949,08

На рис. 6 представлены кривые фактических уровней результативного признака и его значений, рассчитанных в соответствии с полученным уравнением регрессии.

Рис. 6. Кривые фактических уровней результативного признака и его значений, рассчитанных в соответствии с уравнением регрессии

Y = a0 + a3*X3 + a4*X4 + a5*X5.

Величины t-статистики, рассчитанные для каждого параметра модели указывают на значимость того или иного фактора модели. В рассматриваемом случае (табл. 6) факторы X3, X4 и X5 являются незначимыми с вероятностями превышающими 0,23, 0,18 и 0,42% соответственно. Таким образом, из полученной модели целесообразно исключить фактор X5, поскольку вероятность его незначимости значительно превышает соответствующие вероятности для прочих факторов.

Таким образом, будем далее рассматривать двухфакторную регрессионную модель:

Y = a0 + a3*X3 + a4*X4.

Результаты расчетов показателей регрессионного анализа представим в таблице 7.

Таблица 8

Показатели регрессионного анализа модели регрессии

Y = a0 + a3*X3 + a4*X4

Регрессионная статистика

 

 

 

 

 

 

Множественный R

0,90

 

 

 

 

 

R-квадрат

0,81

 

 

 

 

 

Нормированный R-квадрат

0,72

 

 

 

 

 

Стандартная ошибка

32683,41

 

 

 

 

 

Наблюдения

7

 

 

 

 

 

 

 

 

 

 

 

 

Дисперсионный анализ

 

 

 

 

 

 

 

df

SS

MS

F

Значимость F

 

Регрессия

2

18806394867

9403197434

8,80

0,03

 

Остаток

4

4272820294

1068205074

 

 

 

Итого

6

23079215161

 

 

 

 

 

 

 

 

 

 

 

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

-2503940,23

923241,02

-2,71

0,05

-5067268,26

59387,79

Переменная X3

5994,93

1775,84

3,38

0,03

1064,42

10925,44

Переменная X4

-18220,65

4378,81

-4,16

0,01

-30378,19

-6063,11

Регрессионная модель принимает вид:

Y = -2503940,23 + 5994,93*X3 -18220,65*X4.

С вероятностью 0,97 (1-0,03) уравнение регрессии является значимым, при этом вариация результативного признака на 81% (R2=0,81) объясняется вариацией факторных признаков и только на 19% вариацией неучтенных в модели факторов.

На рис. 7 представлены кривые фактических уровней результативного признака и его значений, рассчитанных в соответствии с полученным уравнением регрессии.

Рис. 7. Кривые фактических уровней результативного признака и его значений, рассчитанных в соответствии с уравнением регрессии

Y = a0 + a3*X3 + a4*X4.

Величины t-статистики, рассчитанные для каждого параметра модели указывают на значимость того или иного фактора модели. В рассматриваемом случае (табл. 7) факторы X3, X4 являются незначимыми с вероятностями не превышающими 0,03 и 0,01 соответственно.

Таким образом, построенная модель является адекватной и пригодной для целей прогнозирования.

Заключение

Для определения влияния социальных показателей на миграцию населения в работе изучалась множественную связь между сальдо миграции населения и факторными признаками, характеризующими образование, здравоохранение и уровень жизни. Конкретными числовыми показателями, выражающими результативный и факторные признаки, явились:

· Y - сальдо миграции населения РФ, чел.

· X1 - доля воспитанников дошкольных образовательных учреждений в численности детей соответствующего возраста, %;

· X2 - охват молодежи программами начального, среднего и высшего профессионального образования, %;

· X3 - заболеваемость населения по основным классам болезней на 1000 чел;

· X4 - осложнения беременности, родов и послеродового периода на 1000 женщин фертильного возраста;

· X5 - фактическое конечное потребление домашних хозяйств в процентах к ВВП;

· X6 - численность населения с денежными доходами ниже величины прожиточного минимума в процентах от общей численности населения.

В результате корреляционного анализа из набора данных факторных признаков были выбраны 3 независимых: X3, X4 и X5. При этом установлена сильная корреляционная зависимость между факторами X1, X2, X4, X6.

В ходе регрессионного анализа регрессионная модель была сокращена до двухфакторной модели:

Y = -2503940,23 + 5994,93*X3 -18220,65*X4

Таким образом, наиболее значимая связь прослеживается между миграцией и показателями здравоохранения. При этом следует учитывать, что показатели здравоохранения существенно зависят от показателей образования и уровня жизни, что установлено в ходе корреляционного анализа.

С вероятностью 0,97 уравнение регрессии является значимым, при этом вариация результативного признака (сальдо миграции) на 81% объясняется вариацией факторных признаков (показателей здравоохранения) и только на 19% вариацией неучтенных в модели факторов.

Факторы X3, X4 являются незначимыми с вероятностями не превышающими 0,03 и 0,01 соответственно.

Таким образом, построенная модель является адекватной и пригодной для целей прогнозирования.

Список литературы

1. Ежеманская С.Н. Эконометрика. - Ростов н/Д.:Феникс, 2003.

2. Елисеева И.И., Юзбашев М.М. Общая теория статистики - М.: Финансы и статистика, 2001.

3. Кремер Н.Ш. Теория вероятностей и математическая статистика. - М.:ЮНИТИ, 2002.

4. Кремер Н.Ш., Путко Б.А. Эконометрика: Учебник для вузов. - М.:ЮНИТИ-ДАНА, 2002.

5. Нименья И.Н. Эконометрика. - СПб.:Изд. Дом “Нева”, 2002.

6. Новикова А.И. Эконометрика: Учеб. Пособие. - М.:ИНФРА-М, 2003.

7. Практикум по эконометрике: Учеб. Пособие/Под ред. И.И. Елисеевой. - М.:Финансы и статистика, 2001.

8. Теория статистики: Учебник/ Под ред. Р.А. Шмойловой - М.:Финансы и статистика, 2000.

9. Демографический ежегодник России - 2007г. Федеральная служба государственной статистики.

Размещено на Allbest.ru


Подобные документы

  • Усиление социальной напряженности на рынке труда. Основные миграционные потоки. Отток квалифицированной рабочей силы. Последствия миграции как фактор экономического развития. Меры по снижению негативных последствий миграции населения в современной России.

    дипломная работа [330,7 K], добавлен 26.04.2015

  • Задачи демографической статистики. Источники данных о населении. Текущий учет населения. Определение перспективной численности населения. Регистрация рождений, смертей, браков, миграции. Естественное движение населения. Коэффициенты движения населения.

    презентация [320,6 K], добавлен 18.02.2015

  • Выявление основных социоэкономических детерминантов, оказывающих влияние на студенческую миграцию. Исследование процесса поступления выпускников в ВУЗы. Корреляционная матрица факторов образовательной миграции. Кластерный и регрессионный анализ.

    курсовая работа [118,0 K], добавлен 19.09.2016

  • Анализ масштабов внутренней миграции в России. Причины сокращения численности населения. Замещение естественной убыли населения миграционным приростом. Общие итоги миграции за 2006 и 2007 гг. Определение численности экономически неактивного населения.

    практическая работа [22,1 K], добавлен 12.01.2010

  • Расчет коэффициентов рождаемости, смертности, естественного прироста, прибытия, выбытия и миграции населения в Республике Казахстан. Определение численности экономически активного населения, структуры и размера трудовых ресурсов, уровня безработицы.

    контрольная работа [115,1 K], добавлен 05.04.2015

  • Сущность, характеристика и виды внутренней миграции, ее влияние на демографические и социально-экономические процессы в России. Анализ статистических данных внутренней миграции. Урбанизация, процесс роста городов и увеличения доли городского населения.

    курсовая работа [335,4 K], добавлен 15.05.2014

  • Основные показатели миграции населения. Анализ социально-экономического положения России. Статистическое исследование структуры и динамики миграционных процессов в стране. Оценка факторов и прогнозирование уровня миграционной активности населения.

    курсовая работа [294,9 K], добавлен 05.08.2011

  • Причины, виды и направления международной миграции, её показатели. Последствия трудовой миграции для стран-доноров и принимающих стран. Оценка влияния миграции трудовых ресурсов и миграционных установок населения на развитие регионального рынка труда.

    курсовая работа [320,3 K], добавлен 12.12.2016

  • Спрос на рабочую силу на международном рынке труда, перспективы развития трудовой миграции населения. Причины внешней миграции в Кыргызской Республике. Анализ рынка труда и занятости населения. Пути оптимизации трудовых миграционных перемещений.

    магистерская работа [683,0 K], добавлен 05.10.2012

  • Расчет показателей численности населения. Анализ миграции населения и расчет перспективной численности населения. Основные показатели уровня жизни населения. Выявление основной тенденции развития уровня потребления методом аналитического выравнивания.

    курсовая работа [404,9 K], добавлен 22.10.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.