Оценка факторов, влияющих на динамику развития города
Теоретические подходы к исследованию процесса социально-экономического развития города. Общие сведения о городах России, выявление факторов, влияющих на их развитие. Построение базовой регрессионной модели для заданной численности населения, ее проверка.
Рубрика | Экономика и экономическая теория |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 06.07.2016 |
Размер файла | 558,0 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Для оценки качества подбора линейной функции рассчитывается коэффициент детерминации (R2):
[6, с. 48]
Как только построено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных ее параметров.
Оценка значимости уравнения регрессии в целом проверяется с помощью F-критерия Фишера:
,
где p - число независимых переменных в уравнении регрессии.
Более того, одним из важных тестов является Redundant Variables test - тест на лишние переменные. При помощи данного теста можно улучшить спецификацию модели, удалив из неё некоторые на первый взгляд незначимые переменные, у которых мала t-статистика и высокая вероятность незначимости.
В этом исследовании необходим тест Хаусмана. Он проводится, когда требуется сравнить модели, которые оцениваются разными методами. [9] Тест на правильность спецификации проверяется тестом Рамсея. RESET-тест Рамсея на пропущенные регрессоры генерирует степени предсказанных значений зависимой переменной, включает их в модель в качестве регрессора и проверяет его значимость.
Необходимо отметить, что одной из главных предпосылок МНК является условие постоянства дисперсий случайных отклонений: дисперсия случайных отклонений постоянна. Выполнение этой предпосылки называется гомоскедастичностью (постоянство дисперсий отклонений). Невыполнимость предпосылки - гетероскедастичностью. [3, с. 209].
Разделяют два вида гетероскедастичности:
Истинная гетероскедастичность: модель при таком виде гетероскедастичности правильно специфицирована; однако даже в такой, правильно специфицированной модели присутствует разная дисперсия ошибок у разных наблюдений. В этом случае гетероскедастичность не ведет к смещению коэффициентов.
Ложная гетероскедастичность: такая гетероскедастичность вызвана неправильной спецификацией (пропущена переменная или же использована линейная регрессия вместо нелинейной). Гетероскедастичность этого типа ведет к смещению коэффициентов. Именно поэтому обязательно нужно проверять модель на наличие гетероскедастичности. Чтобы определить есть ли в модели гетероскедастичность или нет, используют определенные тесты:
· Тест Парка.
· Тест Глейзера.
· Тест Голдфелда-Квандта.
· Тест Уайта.
· Тест Бреуша-Пагана-Годфри.
· Тест Харви.
Если в регрессионной модели присутствует гетероскедастичность, то нужно сделать попытку её устранения. Это можно сделать следующими способами:
1. Возможно, следует скорректировать спецификацию, к примеру:
использовать логарифмическую или иную нелинейную модель
добавить переменные, которые позволяют точнее описать взаимосвязь
2. Другим способом является использование скорректированных стандартных ошибок (наиболее распространенный способ - увеличивает стандартные ошибки по сравнению с обычным МНК; если уж коэффициент значим, то такому выводу можно доверять).
3. Также возможно использование взвешенного метода наименьших квадратов. Лучше всего попробовать разделить обе части уравнения на какую-то переменную, тогда очень часто гетероскедастичность пропадает.
После устранения гетероскедастичности последнее, что необходимо провести - это тест на наличие или отсутствие мультиколлинеарности. Мультиколлинеарность - это ситуация, в которой одна переменная достаточно хорошо объясняется другими переменными. Она возможна если две переменные коррелированны, и нельзя различить их влияние на зависимую. Последствия мультиколлинеарности:
· большие дисперсии ошибок. Это затрудняет нахождение истинных значений определяемых величин;
· оценки коэффициентов по МНК и их стандартные ошибки становятся неустойчивыми, так как становятся более чувствительными даже к незначительным изменениям данных;
· возможность получения неверного знака у коэффициента регрессии.
В некоторых случаях мультиколлинеарность устранять не стоит. Нужно ли устранять её или нет, зависит от целей исследования. Если, к примеру, модель строится для того, чтобы в дальнейшем прогнозировать будущие значения зависимой переменной, то при достаточно большом (>=0,9) значении коэффициента детерминации, наличие мультиколлинеарности чаще всего не сказывается на прогнозных качествах модели. Если же цель исследования - определение степени влияния каждой из объясняющих переменных на зависимую, то наличие мультиколлинеарности исказит истинные зависимости. Для устранения мультиколлинеарности существуют следующие методы:
· Исключение переменной (-ых) из модели.
· Получение дополнительных данных или новой выборки.
· Изменение спецификации модели.
· Преобразование переменных. [3, с.247-253]
2.3 Особенности использования панельных данных в эконометрическом исследовании
Прежде чем перейти к теоретическим аспектам, касающимся панельных данных, следует обратиться к такому типу данных, как временной ряд. На сегодняшний день данные этого типа используются очень часто, так как собрать информацию по ним довольно просто, причем количество объектов по наблюдаемой переменной очень велико. К примеру, это могут быть данные по усредненному значению квартплаты за кв. метр в месяц за 25 лет. Провести исследование по временным рядам не составит труда, так как анализируется всего лишь один объект за определенный период. Переходя к теории панельных данных, нужно сказать, что в отличие от временных рядов, ситуация обстоит гораздо сложнее. Для начала следует дать определение этого типа данных. Панельные данные - это (panel data)"пространственная выборка объектов, прослеживаемая во времени, и, следовательно, она предоставляет множество наблюдений над каждым отдельным объектом". [10, с.271]
Панельные данные довольно трудно собрать по сравнению с пространственными данными или временными рядами. Для проведения исследования в какой-либо области требуется набор переменных, значения которых требуется собирать в течение всего периода. Очень часто бывает не найти конкретных данных за прошедшие периоды времени по всем исследуемым объектам. Именно поэтому значений переменных гораздо меньше в панельных данных, нежели во временных рядах, однако самих переменных больше.
Чаще всего панельные данные используются в маркетинговых обследованиях, а также социологических. Панельными данными являются результаты репрезентативных национальных опросов домохозяйств, предприятий, индивидуумов.
Следует перечислить основные преимущества использования панельных данных:
1) Предоставляя большое количество наблюдений, они уменьшают коллинеарность между объясняющими переменными, а, значит, улучшаю эффективность оценок.
2) Используя панельные данные можно проследить за индивидуальным изменением характеристик объектов во времени.
3) Панельные данные дают возможность исследовать множество важных экономических вопросов, в то время как пространственные данные и временные ряды не справятся с этой задачей.
4) Они также дают возможность предотвратить смещение агрегированности, которое постоянно возникает при анализе пространственных данных (там, где не берутся во внимание ненаблюдаемые индивидуальные характеристики объектов), а также временных рядов (там, где анализируется временное изменение усредненного "репрезентативного" объекта). [11]
Для исследования панельных данных есть возможность строить три типа регрессии:
· Общая модель регрессии.
· Модель с фиксированными эффектами.
· Модель со случайными эффектами. [27, c.346-347]
Первый тип регрессионный модели, можно сказать, является исключительно теоретическим, потому как вводятся сильные ограничения относительно переменных. Дело в том, что для построения регрессии предпосылка для данных заключается в том, что других переменных, кроме уже выбранных для исследования, не существует. К примеру, если необходимо проанализировать систему здравоохранения какого-либо города, исследователь может собрать данные по таким переменным, как количество больничных учреждений в городе, количество проделанных операций и, допустим, уровень смертности в городе. Построив общую регрессионную модель, исследователь будет руководствоваться предпосылкой о том, что других переменных просто не существует для исследования системы здравоохранения, однако в реальности это не так.
Второй тип регрессии - модель с фиксированными эффектами - имеют уже другую предпосылку о данных, и построение модели регрессии осуществляется, соответственно, принимая её во внимание. Предпосылка заключается в следующем. К примеру, оценивается всё та же модель регрессии, связанная со здравоохранением. Однако различие по сравнению с общей моделью регрессии заключается в том, что в модели учитываются не только те факторы, которые были собраны для исследования. Предполагается, что помимо данных, собранных для проведения исследования, существуют другие факторы, которые не учтены в модели. Такие переменные принято называть ненаблюдаемыми. Стоит отметить, что в модели с фиксированными эффектами ненаблюдаемые переменные обязательно должны коррелировать с теми, которые включены в регрессию. В примере со здравоохранением такими ненаблюдаемыми переменными могут выступать количество определенного рода лекарственных препаратов в детских больницах или же среднее количество пациентов, приходящих на прием к специалисту за месяц. Эти ненаблюдаемые переменные связаны или коррелируют с теми, которые включены в регрессию. Безусловно, нельзя найти их количественные значения, в связи с отсутствием информации о них, но, в ходе построения модели с фиксированными эффектами оценивается качество всех ненаблюдаемых переменных за счет знания о том, что они коррелируют с переменными, включенными в регрессию.
Последний тип регрессионной модели - модель со случайными эффектами. Помимо ненаблюдаемых факторов, описанных во втором типе регрессионной модели, в реальности существуют некие другие факторы, которые не коррелируют с теми, что включены в регрессию. Это и есть допущение, которое отличает эту модель от модели с фиксированными эффектами. (Термины коррелированны и не коррелированны более понятно описывают в данном случае различия в моделях, нежели термины фиксированный и случайный, соответственно). В модели со случайными эффектами учитывается влияние некоррелируемых ненаблюдаемых переменных на зависимую переменную. В итоге все три модели будут построены в данной работе, после чего будет проведен тест Хаусмана, который позволит выявить, какая модель является оптимальной для данного исследования.
2.4 Описание данных
В данной работе используются панельные данные. Количественные значения переменных были взяты из базы данных Мультистат (Многофункциональный статистический портал). Данные брались за 7 лет с 2005 по 2011 гг. База данных по городам огромна, поэтому, прежде всего, данные выбирались, исходя из их наличия за эти годы и из соответствия переменных заданной тематике работы. Предположительно, были выбраны все данные, которые могут влиять на развитие города.
Первоначально был выбран 41 фактор (без зависимой переменной), которые могут влиять на динамику развития города. Зависимая переменная - это численность населения, ведь именно увеличение численности населения стимулирует рост и устойчивое развитие городов. В базе Мультистата данные предоставляются для городов с постоянной численностью жителей от 10000 человек. Однако в процессе работы с базой было выявлено, что по всем имеющимся городам не хватает огромного количества наблюдений. В связи с этим необходимо было убрать некоторые переменные. Более того, были отобраны города, численность которых была от 50000человек. Так как панельные данные, это данные в которых ряд имеющихся объектов, по которым ведется исследование, одинаков на протяжении всего периода вместе со всеми переменными, то было нужно устранить еще несколько переменных и объектов, чтобы панельные данные были сбалансированными. Это также было сделано в связи с отсутствием большого количества наблюдений. В итоге для исследования, связанного с развитием городов РФ были отобраны следующие переменные:
Таблица 7. Описание переменных
№ |
Название переменной |
Интерпретация |
|
1 |
pop_0 |
Численность постоянного населения (на конец года), человек |
|
2 |
agents_0 |
Всего субъектов хозяйственной деятельности, учтенных в статистическом регистре хозяйствующих субъектов, единиц |
|
3 |
empl_0 |
Среднесписочная численность работников организаций - человек |
|
4 |
empl_1 |
Среднемесячная заработная плата работников, рублей |
|
5 |
empl_4 |
Количество человек, получающих пособие по безработице, человек |
|
6 |
ind_1 |
Количество действующих организаций по видам экономической деятельности (без субъектов малого предпринимательства) - обрабатывающие производства, единиц |
|
7 |
ind_2 |
Количество действующих организаций по видам экономической деятельности (без субъектов малого предпринимательства) - производство и распределение электроэнергии, газа и воды, единиц |
|
8 |
inv_13 |
Совместная российская и иностранная форма собственности, тыс. руб. |
|
9 |
constr_0 |
Ввод в действие жилых зданий, квартир в них и общей площади квартир за счет всех источников финансирования: жилые дома и общежития (общая площадь), тыс. кв. м |
|
10 |
hous_0 |
Жилищный фонд города: общая площадь жилых помещений, тыс. кв. метров |
|
11 |
health_0 |
Численность врачей - всего, человек |
|
12 |
health_4 |
Число больничных учреждений, единиц |
|
13 |
sport_1 |
Число спортивных сооружений, единиц |
|
14 |
envir_0 |
Выбросы загрязняющих атмосферу веществ, отходящих от стационарных источников, - всего, тыс. тонн |
|
15 |
cult_3 |
Число учреждений культурно-досугового типа, единиц |
|
16 |
educ_0 |
Число дошкольных образовательных учреждений, единиц |
|
17 |
educ_2 |
мест (в дошкольных образовательных учреждениях), единиц |
|
18 |
educ_5 |
Число государственных и муниципальных образовательных учреждений среднего профессионального образования (включая филиалы), единиц |
|
19 |
educ_12 |
Число государственных и муниципальных образовательных учреждений высшего профессионального образования (включая филиалы), единиц |
|
20 |
soc_3 |
Число стационарных учреждений социального обслуживания (домов-интернатов), единиц |
Названия переменных соответствуют названиям базы данных Мультистат. Нужно также отметить, что для обработки массива данных используется офисный пакет Microsoft Excel (в нем лучше всего работать со сбором данных), а для проведения исследования используется программа EViews. Это один из лучших инструментов для статического и эконометрического анализа данных.
Глава 3. Выявление основных факторов, влияющих на развитие городов России
3.1 Изучение основных описательных статистик
Описательный анализ данных необходимо начать с построения гистограммы и расчета описательных статистик зависимой переменной Pop_0. Так как данные являются панельными, следует проанализировать описательные статистики за первый период - 2005 год и, соответственно, за последний период - 2011 год.
Рисунок 4. Описательные статистики зависимой переменной за 2005 год
На графике (Рисунок 4) по вертикальной оси расположено количество наблюдений, по горизонтальной - количество человек в городе. На рисунке видно, что среднее количество населения, проживающее в городах равно 462670 человек. Медианное значение равно 230837 человек, это означает, что в половине городов проживает такое количество человек, которое не выше этого значения. Размах составляет 10371974 человек, что можно видеть на ящичковой диаграмме (Рисунок 2). Размах очень велик. Два значения очень сильно отличаются от других. Это два крупнейших города России, Москва и Санкт-Петербург. Для того, чтобы они не искажали результаты исследования, необходимо исключить выбросы.
Рисунок 5. Ящичковая диаграмма
После удаления двух городов, получились следующие результаты описательных статистик:
Рисунок 6. Описательные статистики зависимой переменой после устранения выбросов за 2005 год
В 2005 году среднее значение населения, проживающего в городах, было равно 333492 человек. Размах равен 1343914 человек. Он является большим, так как в России лишь малая часть городов миллионников. Именно эти города и являются причиной столь большого разброса. Но так как взятый для исследования массив данных - это не генеральная совокупность по всем городам, и так как главная цель - выявление факторов, влияющих на развитие городов РФ, то различие в минимальных и максимальных пределах не столь влиятельно для анализа.
На Рисунке 6 можно видеть, что распределение населения несимметрично:
1) Асимметрия равна 1,58. Это значение больше нуля, следовательно, у распределения длинный правый хвост.
2) Эксцесс равен 4,85, что больше 3. Значит, распределение имеет острый пик по сравнению с нормальный распределением.
3) Медиана отличается от среднего. Это также можно видеть на Рис. 2.
Теперь следует построить гистограмму для 2011 года. Это поможет сравнить значения на начало и конец взятого периода. Из данных заранее были удалены два крупнейших города.
Рисунок 7. Описательные статистики зависимой переменой за 2011 год
Сравнение графиков за 2005 и 2011 гг. дает понять, что за 6 лет население в городах росло. Все описательные статистики увеличились. К примеру, с 333492 человек в 2005 году среднее количество населения увеличилось до 342169 человек, значит, за 6 лет в среднем в городах стало жить на 8677 человек больше. Распределение также осталось распределенным неравномерно:
Рисунок 8. Распределение зависимой переменой за 2011 год
На Рисунке 8 показано ненормальное распределение зависимой переменной, так как график эмпирической плотности расходится с графиком теоретической плотности нормального распределения.
3.2 Корреляционный анализ
Теперь обратимся к количественным независимым переменным. До построения модели регрессии необходимо выявить те факторы, которые тесно связаны между собой. Ведь если не устранить тесную взаимосвязь между ними, это приведет к неверным значениям коэффициентов в самой регрессии. В процессе корреляционного анализа рассчитываются коэффициенты корреляции. Именно по их значениям будет определено, какие факторы нужно оставить, а какие следует исключить из выборки. Матрица корреляций представлена в Приложении.
В таблице выделены значения, которые говорят о высокой корреляции. Всего получилось 32 взаимосвязей между переменными с сильной корреляцией. Сильно коррелируемые между собой переменные связаны с образованием, сферой здравоохранения, спорта, жилья, а также занятостью населения. Следует устранить некоторые из переменных во избежание искажения коэффициентов регрессии. В данном случае, следует удалить переменные, между которыми присутствует очень сильная связь (больше или равно 0,9). В ином случае, если устранять переменные, между которыми коэффициент корреляции принадлежит промежутку от 0,8 до 0,9, имеется большая вероятность того, что для исследования останутся факторы, большинство из которых могут оказаться незначимыми.
Прежде всего, одними из первых следует удалить переменные Educ_2 (места в дошкольных образовательных учреждениях) и Educ_0 (число дошкольных образовательных учреждений, единиц) в силу принадлежности обеих переменных к дошкольным образовательным учреждениям. Они сильно коррелируют с двумя другими переменными, связанными с образованием Educ_5 и Educ_12 (число учреждений среднего и высшего профессионального образования). Было решено удалить первые две переменные, в связи с предположением о том, что число студентов (в основном приезжих) и школьников в большей степени влияют на рост населения.
Empl_0 (Среднесписочная численность работников организаций, человек) сильно коррелирует с некоторыми другими переменными. Её следует удалить, так как в будущем возможно смещение коэффициентов регрессии.
Более того, необходимо убрать регрессор Health_0 (Численность врачей, человек). Этот фактор играет важную роль в развитии города. Так как врачи востребованы в каждом городе и люди зачастую стремятся попасть в определенный город на прием к специалисту. Очень часто приходится быть под постоянным наблюдением у врача, и люди ради этого готовы переехать и жить в другом городе. Логично то, что чем в городе больше проживает отличных специалистов, тем больше становится население. Однако, так как этот регрессор сильно коррелирует с другими регрессорами, его необходимо устранить. Более того, переменная измеряется в людях, а следовательно, велика вероятность того, что она будет сильно коррелировать с зависимой переменной и приведет к смещению коэффициентов.
Независимая переменная Ind_1 (обрабатывающие производства, единиц) сильно взаимодействует с Ind_2 (производство и распределение электроэнергии, газа и воды, единиц). Для людей в городе, прежде всего, важно наличие газа, воды и электричества. Следовательно, оставляем переменную Ind_2.
После удаления некоторых из переменных с целью недопущения смещения коэффициентов, следующим шагом является построение базовой или общей модели регрессии.
3.3 Построение базовой модели
Построим базовую регрессионную модель для численности населения по городам РФ за период с 2005 по 2011 гг. Следует использовать линейную спецификацию для базовой модели регрессии, так как по ней лучше всего интерпретировать влияние переменных (прямое соотношение). Прежде всего, необходимо построить первичную модель регрессии, которая включает в себя все переменные, за исключением тех, которые были извлечены из выборки в ходе корреляционного анализа, а затем следует решить, какие из этих характеристик имеет смысл оставить в модели.
Таблица 8. Первоначальная модель регрессии
Dependent Variable: POP_0 |
|||||
Method: Panel Least Squares |
|||||
Sample: 2005 2011 |
|||||
Periods included: 7 |
|||||
Cross-sections included: 109 |
|||||
Total panel (balanced) observations: 763 |
|||||
Variable |
Coefficient |
Std. Error |
t-Statistic |
Prob. |
|
AGENTS_0 |
0.181329 |
0.054066 |
3.353880 |
0.0008 |
|
CONSTR_0 |
0.023911 |
0.081251 |
0.294288 |
0.7686 |
|
CULT_3 |
437.9117 |
90.87410 |
4.818884 |
0.0000 |
|
EDUC_5 |
2196.812 |
336.8400 |
6.521824 |
0.0000 |
|
EDUC_12 |
549.8166 |
374.4065 |
1.468502 |
0.1424 |
|
EMPL_1 |
-0.773057 |
0.141294 |
-5.471282 |
0.0000 |
|
EMPL_4 |
1.609319 |
0.739217 |
2.177059 |
0.0298 |
|
ENVIR_0 |
80.89477 |
17.79732 |
4.545334 |
0.0000 |
|
HEALTH_4 |
1159.481 |
249.7417 |
4.642718 |
0.0000 |
|
HOUS_0 |
37.51265 |
0.599939 |
62.52745 |
0.0000 |
|
IND_2 |
-77.83770 |
43.11021 |
-1.805551 |
0.0714 |
|
INV_13 |
-0.000496 |
0.000364 |
-1.363050 |
0.1733 |
|
SOC_3 |
2362.482 |
851.9652 |
2.772980 |
0.0057 |
|
SPORT_1 |
30.35636 |
5.969679 |
5.085092 |
0.0000 |
|
C |
2376.458 |
3161.857 |
0.751602 |
0.4525 |
|
R-squared |
0.991989 |
Mean dependent var |
335876.9 |
||
Adjusted R-squared |
0.991839 |
S. D. dependent var |
325692.5 |
||
S. E. of regression |
29422.58 |
Akaike info criterion |
23.43638 |
||
Sum squared resid |
6.48E+11 |
Schwarz criterion |
23.52754 |
||
Log likelihood |
-8925.977 |
Hannan-Quinn criter. |
23.47148 |
||
F-statistic |
6615.882 |
Durbin-Watson stat |
0.220478 |
||
Prob (F-statistic) |
0.000000 |
По результатам построенной модели (Таблица 8) можно сделать вывод о том, что она значима в целом (Prob (F-statistic) <0.05, на 5% -ом уровне значимости, есть основания отвергнуть нулевую гипотезу о том, что модель не значима в целом). Коэффициент детерминации, который показывает долю объясненной дисперсии, очень большой - 99% фактических значений модель описала. Помимо этого, также очень высокий скорректированный на количесвто объясняющих переменных коэффициент детерминации (Adjusted R-squared) составляет 99%.
Для улучшения спецификации регрессионной модели можно убрать некоторые на первый взгляд незначимые переменные, у которых t-статистика мала и высока вероятность незначимости (такие факторы выделены в Таблице 8). Для проверки надо использовать тест на лишние переменные (Redundant Variables).
Таблица 9. Тесты на лишние переменные
Redundant Variables: CONSTR_0 |
||||
F-statistic |
0.086606 |
Prob. F (1,748) |
0.7686 |
|
Log likelihood ratio |
0.088337 |
Prob. Chi-Square (1) |
0.7663 |
Redundant Variables: EDUC_12 |
||||
F-statistic |
2.156497 |
Prob. F (1,748) |
0.1424 |
|
Log likelihood ratio |
2.196578 |
Prob. Chi-Square (1) |
0.1383 |
Redundant Variables: IND_2 |
||||
F-statistic |
3.260016 |
Prob. F (1,748) |
0.0714 |
|
Log likelihood ratio |
3.318165 |
Prob. Chi-Square (1) |
0.0685 |
Redundant Variables: INV_13 |
||||
F-statistic |
1.857907 |
Prob. F (1,748) |
0.1733 |
|
Log likelihood ratio |
1.892814 |
Prob. Chi-Square (1) |
0.1689 |
Значение вероятности превысило значение 0,05, следовательно, указанные переменные можно исключить из модели. Новая модель выглядит следующим образом:
социальное экономическое развитие город
Таблица 10. Базовая модель
Dependent Variable: POP_0 |
|||||
Method: Panel Least Squares |
|||||
Sample: 2005 2011 |
|||||
Periods included: 7 |
|||||
Cross-sections included: 109 |
|||||
Total panel (balanced) observations: 763 |
|||||
Variable |
Coefficient |
Std. Error |
t-Statistic |
Prob. |
|
AGENTS_0 |
0.186457 |
0.053793 |
3.466187 |
0.0006 |
|
CULT_3 |
442.5020 |
90.32871 |
4.898797 |
0.0000 |
|
EDUC_5 |
2301.232 |
306.2413 |
7.514439 |
0.0000 |
|
EMPL_1 |
-0.760401 |
0.139829 |
-5.438085 |
0.0000 |
|
EMPL_4 |
1.740031 |
0.736657 |
2.362065 |
0.0184 |
|
ENVIR_0 |
70.97753 |
16.88941 |
4.202487 |
0.0000 |
|
HEALTH_4 |
1103.609 |
241.7053 |
4.565926 |
0.0000 |
|
HOUS_0 |
37.40999 |
0.591894 |
63.20391 |
0.0000 |
|
SOC_3 |
2436.025 |
849.9781 |
2.865985 |
0.0043 |
|
SPORT_1 |
31.51700 |
5.928385 |
5.316288 |
0.0000 |
|
C |
1484.502 |
3107.320 |
0.477744 |
0.6330 |
|
R-squared |
0.991920 |
Mean dependent var |
335876.9 |
||
Adjusted R-squared |
0.991813 |
S. D. dependent var |
325692.5 |
||
S. E. of regression |
29469.94 |
Akaike info criterion |
23.43444 |
||
Sum squared resid |
6.53E+11 |
Schwarz criterion |
23.50130 |
||
Log likelihood |
-8929.239 |
Hannan-Quinn criter. |
23.46018 |
||
F-statistic |
9231.846 |
Durbin-Watson stat |
0.215598 |
||
Prob (F-statistic) |
0.000000 |
Новая модель также осталась значимой.
Не осталось незначимых переменных и при этом, значения коэффициента детерминации и скорректированного коэффициента детерминации остались столь же высокими, что подтверждает правильной выбор удаления лишних переменных.
Эконометрические тесты (базовая модель).
После построения регрессионной модели требуется провести тест на спецификацию модели.
Для этого используется RESET-тест Рамсея на пропущенные регрессоры. Нулевая гипотеза: в модели нет пропущенных регрессоров.
Таблица 11. Тест Рамсея
Ramsey RESET Test: |
|||||
F-statistic |
12.12738 |
Prob. F (1,751) |
0.0005 |
||
Log likelihood ratio |
12.22274 |
Prob. Chi-Square (1) |
0.0005 |
||
Test Equation: |
|||||
Dependent Variable: POP_0 |
|||||
Method: Least Squares |
|||||
Sample: 1 763 |
|||||
Included observations: 763 |
|||||
Variable |
Coefficient |
Std. Error |
t-Statistic |
Prob. |
|
AGENTS_0 |
0.143479 |
0.054807 |
2.617895 |
0.0090 |
|
CULT_3 |
464.8929 |
89.89797 |
5.171340 |
0.0000 |
|
EDUC_5 |
2260.746 |
304.2226 |
7.431222 |
0.0000 |
|
EMPL_1 |
-0.787170 |
0.139018 |
-5.662345 |
0.0000 |
|
EMPL_4 |
1.781190 |
0.731362 |
2.435442 |
0.0151 |
|
ENVIR_0 |
76.04882 |
16.82895 |
4.518929 |
0.0000 |
|
HEALTH_4 |
1103.296 |
239.9367 |
4.598281 |
0.0000 |
|
HOUS_0 |
35.73938 |
0.758528 |
47.11676 |
0.0000 |
|
SOC_3 |
2242.790 |
845.5811 |
2.652365 |
0.0082 |
|
SPORT_1 |
33.20070 |
5.904831 |
5.622633 |
0.0000 |
|
C |
7511.652 |
3536.956 |
2.123762 |
0.0340 |
|
FITTED^2 |
3.27E-08 |
9.38E-09 |
3.482439 |
0.0005 |
|
R-squared |
0.992049 |
Mean dependent var |
335876.9 |
||
Adjusted R-squared |
0.991932 |
S. D. dependent var |
325692.5 |
||
S. E. of regression |
29254.30 |
Akaike info criterion |
23.42104 |
||
Sum squared resid |
6.43E+11 |
Schwarz criterion |
23.49398 |
||
Log likelihood |
-8923.128 |
Hannan-Quinn criter. |
23.44912 |
||
F-statistic |
8517.875 |
Durbin-Watson stat |
0.531659 |
||
Prob (F-statistic) |
0.000000 |
Согласно тесту, на 5% уровне значимости мы не отвергаем нулевую гипотезу о равенстве нулю коэффициентов при добавленных переменных, другими словами, нет ошибки спецификации.
Тесты на гетероскедастичность.
Проведем несколько тестов на наличие гетероскедастичности.
Таблица 12. Тест на гетероскедастичность: Глейзер
Heteroskedasticity Test: Glejser |
||||
F-statistic |
44.39485 |
Prob. F (10,752) |
0.0000 |
|
Obs*R-squared |
283.2335 |
Prob. Chi-Square (10) |
0.0000 |
|
Scaled explained SS |
401.2206 |
Prob. Chi-Square (10) |
0.0000 |
Таблица 13. Тест на гетероскедастичность: Харви
Heteroskedasticity Test: Harvey |
||||
F-statistic |
22.81651 |
Prob. F (10,752) |
0.0000 |
|
Obs*R-squared |
177.6129 |
Prob. Chi-Square (10) |
0.0000 |
|
Scaled explained SS |
223.5021 |
Prob. Chi-Square (10) |
0.0000 |
Таблица 14. Тест на гетероскедастичность: Уайт
Heteroskedasticity Test: White |
||||
F-statistic |
14.68340 |
Prob. F (65,697) |
0.0000 |
|
Obs*R-squared |
440.9676 |
Prob. Chi-Square (65) |
0.0000 |
|
Scaled explained SS |
986.9910 |
Prob. Chi-Square (65) |
0.0000 |
Тест Глейзера проверяет значимость регрессии, в которой зависимой переменной являются абсолютные значения остатков, а регрессоры взяты из исходной модели. Поэтому, если значимость регрессии не будет отвергнута, тест подтвердит наличие гетероскедастичности. В этом случае нулевая гипотеза принимается на 1% уровне значимости.
Тест Харви говорит о том, что на 5-% -ном уровне есть основания отвергнуть нулевую гипотезу о гомоскедастичности. Т.е. выявлена гетероскедастичность. Тест Уайта строит регрессию квадратов значений остатков на все комбинации исходных регрессоров. С помощью этого теста выявлена гетероскедастичность.
Итак, было выяснено, что гетероскедастичность по результатам всех тестов присутствует. Однако это истинная гетероскедастичность, т.к. регрессионная модель правильно специфицирована, а значит, гетероскедастичность является неизбежным свойством этих данных. Об истинности гетероскедастичности говорит следующий график, на котором практически не видно отклонений значений и остатков.
Рисунок 9. График отклонения значений и остатков
Диагностика мультиколлинеарности.
Диагностика мультиколлинеарности проводилась на этапе анализа данных. Это значит, что модель не включает сильно коррелированные регрессоры. Для подтверждения следует рассчитать показатель VIF:
Таблица 15. Тест VIF
Variance Inflation Factors |
||||
Date: 05/27/14 Time: 01: 24 |
||||
Sample: 1 763 |
||||
Included observations: 763 |
||||
Coefficient |
Uncentered |
Centered |
||
Variable |
Variance |
VIF |
VIF |
|
AGENTS_0 |
0.002894 |
4.317196 |
2.866257 |
|
CULT_3 |
8159.054 |
2.296225 |
1.302641 |
|
EDUC_5 |
93780.12 |
14.35868 |
6.505800 |
|
EMPL_1 |
0.019552 |
5.924161 |
1.061033 |
|
EMPL_4 |
0.542655 |
4.006417 |
2.309689 |
|
ENVIR_0 |
285.2567 |
1.613236 |
1.248095 |
|
HEALTH_4 |
58420.57 |
23.71489 |
10.65282 |
|
HOUS_0 |
0.350330 |
32.07002 |
15.44331 |
|
SOC_3 |
722439.0 |
2.345001 |
1.363127 |
|
SPORT_1 |
35.14816 |
11.30264 |
5.660535 |
|
C |
9655619. |
8.483040 |
NA |
Такие результаты не были ожидаемыми. Необходимо проводить оценку по коэффициенту Centered VIF, который должен быть меньше 10. Результат: две данные вызывают этот эффект. Мультиколлинеарность - это такая ситуация, при которой одна переменная очень хорошо объясняется другими переменными. Эта ситуация возможна, если 2 переменные коррелированны между собой, и поэтому становится очень сложно различить их влияние на зависимую переменную. Однако в построенной модели регрессоры не коррелируют сильно между друг другом. Это означает, что результаты, полученные при помощи теста VIF, можно обосновать, как внутренние факторы каждой переменной. Скорее всего, такие переменные могут коррелировать с каким-то определенные набором других переменных (множественная корреляция). Мультиколлинеарность же чаще всего возникает при взаимосвязи на парном уровне. Следовательно, с моделью ничего не следует делать (это позволяют правила эконометрики), чтобы избежать смещения коэффициентов из-за неверной спецификации, при условии того, что сильная корреляция между факторами была заранее предотвращена).
3.4 Построение моделей с фиксированными и случайными эффектами. Выбор регрессионной модели
Построим модель с фиксированными эффектами, которая учитывает ненаблюдаемые переменные, которые коррелируют с переменными в модели.
После построения модели с фиксированными эффектами (Таблица 16), можно сделать вывод о том, что модель значима в целом, так как Prob (F-statistic) <0,05. Коэффициент детерминации по-прежнему очень высокий. Однако, последствием изменения общей регрессионной модели на модель с коррелируемыми между собой наблюдаемыми и ненаблюдаемыми переменными привела к тому, что явно сократилось количество не зависимых переменных. Пять переменных из десяти регрессоров стали незначимыми.
Таблица 16. Модель с фиксированными эффектами
Dependent Variable: POP_0 |
|||||
Method: Panel Least Squares |
|||||
Sample: 2005 2011 |
|||||
Periods included: 7 |
|||||
Cross-sections included: 109 |
|||||
Total panel (balanced) observations: 763 |
|||||
Variable |
Coefficient |
Std. Error |
t-Statistic |
Prob. |
|
AGENTS_0 |
-0.028173 |
0.015948 |
-1.766543 |
0.0778 |
|
CULT_3 |
286.3074 |
73.73873 |
3.882728 |
0.0001 |
|
EDUC_5 |
-311.2042 |
160.4362 |
-1.939738 |
0.0528 |
|
EMPL_1 |
-0.138843 |
0.061258 |
-2.266537 |
0.0237 |
|
EMPL_4 |
-0.857739 |
0.250468 |
-3.424546 |
0.0007 |
|
ENVIR_0 |
18.64554 |
16.36240 |
1.139536 |
0.2549 |
|
HEALTH_4 |
-182.6333 |
172.3138 |
-1.059887 |
0.2896 |
|
HOUS_0 |
13.73294 |
0.636430 |
21.57810 |
0.0000 |
|
SOC_3 |
-21.62404 |
350.7875 |
-0.061644 |
0.9509 |
|
SPORT_1 |
-13.26904 |
5.222408 |
-2.540790 |
0.0113 |
|
C |
247137.3 |
5061.631 |
48.82563 |
0.0000 |
|
Effects Specification |
|||||
Cross-section fixed (dummy variables) |
|||||
R-squared |
0.999552 |
Mean dependent var |
335876.9 |
||
Adjusted R-squared |
0.999470 |
S. D. dependent var |
325692.5 |
||
S. E. of regression |
7499.150 |
Akaike info criterion |
20.82533 |
||
Sum squared resid |
3.62E+10 |
Schwarz criterion |
21.54858 |
||
Log likelihood |
-7825.865 |
Hannan-Quinn criter. |
21.10379 |
||
F-statistic |
12175.02 |
Durbin-Watson stat |
0.914125 |
||
Prob (F-statistic) |
0.000000 |
Перейдем к построению модели со случайными эффектами.
Следует отметить, что значения обоих коэффициентов детерминации снизились до 88% (Таблица 17). Но это значение все также является довольно высоким. Модель является значимой. Кроме того, в модели имеется всего одна незначимая переменная, в то время как другие являются на 100% значимыми, их вероятность незначимости равно 0.
Таблица 17. Модель со случайными эффектами
Dependent Variable: POP_0 |
|||||
Method: Panel EGLS (Cross-section random effects) |
|||||
Sample: 2005 2011 |
|||||
Periods included: 7 |
|||||
Cross-sections included: 109 |
|||||
Total panel (balanced) observations: 763 |
|||||
Swamy and Arora estimator of component variances |
|||||
Variable |
Coefficient |
Std. Error |
t-Statistic |
Prob. |
|
AGENTS_0 |
-0.021655 |
0.015886 |
-1.363135 |
0.1732 |
|
CULT_3 |
619.8475 |
68.09677 |
9.102450 |
0.0000 |
|
EDUC_5 |
2173.859 |
146.7745 |
14.81087 |
0.0000 |
|
EMPL_1 |
-1.053625 |
0.056628 |
-18.60609 |
0.0000 |
|
EMPL_4 |
-1.211914 |
0.247866 |
-4.889397 |
0.0000 |
|
ENVIR_0 |
77.56576 |
14.51179 |
5.345016 |
0.0000 |
|
HEALTH_4 |
1842.426 |
155.9606 |
11.81341 |
0.0000 |
|
HOUS_0 |
32.46385 |
0.458361 |
70.82588 |
0.0000 |
|
SOC_3 |
1647.504 |
343.7681 |
4.792485 |
0.0000 |
|
SPORT_1 |
20.37471 |
4.710998 |
4.324923 |
0.0000 |
|
C |
46173.92 |
3192.455 |
14.46345 |
0.0000 |
|
Effects Specification |
|||||
S. D. |
Rho |
||||
Cross-section random |
22277.35 |
0.8982 |
|||
Idiosyncratic random |
7499.150 |
0.1018 |
|||
Weighted Statistics |
|||||
R-squared |
0.881595 |
Mean dependent var |
42392.84 |
||
Adjusted R-squared |
0.880020 |
S. D. dependent var |
42264.83 |
||
S. E. of regression |
14639.72 |
Sum squared resid |
1.61E+11 |
||
F-statistic |
559.9076 |
Durbin-Watson stat |
0.612743 |
||
Prob (F-statistic) |
0.000000 |
||||
Unweighted Statistics |
|||||
R-squared |
0.976016 |
Mean dependent var |
335876.9 |
||
Sum squared resid |
1.94E+12 |
Durbin-Watson stat |
0.050942 |
Проведем тест Хаусмана, который поможет выявить, какую из двух моделей следует использовать. Нулевая гипотеза: модель со случайными эффектами является оптимальной.
Таблица 18. Тест Хаусмана на определение модели
Correlated Random Effects - Hausman Test |
||||
Equation: Untitled |
||||
Test cross-section random effects |
||||
Test Summary |
Chi-Sq. Statistic |
Chi-Sq. d. f. |
Prob. |
|
Cross-section random |
2123.890402 |
10 |
0.0000 |
Так как p-уровень <0,01, значит, мы отклоняем нулевую гипотезу. Полученные результаты позволяют сделать вывод, что из двух моделей подходит модель с фиксированными эффектами. Этот результат корректен, так как для исследования брались конкретные населенные пункты, состав городов не менялся от года к году. Выводы по полученной модели.
Итак, наша регрессионная модель имеет следующий вид:
Y = 286,3*CULT_3 - 0,14*EMPL_1 - 0,86*EMPL_4 + 13,73*HOUS_0 - 13,27*SPORT_1 + 247137,3*C
В среднем за рассматриваемый период с 2005 года по 2011 год можно сделать следующие выводы.
1. Если в городе строилось учреждение культурно-досугового центра, то в среднем численность постоянного населения в городе увеличивалось на 286 человек. Для российских городов этот показатель является оптимальным, во-первых в связи с тем, что из выборки были изъяты два города - Москва и Санкт-Петербург. В этих двух городах сосредоточено самое большое число учреждений культурно-досугового центра, в то время как во многих других города, при численности населения 50000 человек имеется 1-2 культурно-образовательных учреждения. Понятно, что с меньшим населением, ситуация обстоит еще сложнее.
2. Следующий вывод имеет отношение к средней заработной плате рабочих. На данный момент показатель не подается интерпретации, так как он равен 0,14, что нельзя округлить до 1. Так как речь идет о людях, нельзя использовать нецелочисленные значения. Можно умножить этот коэффициент на 100, и получится, что с увеличением зарплаты на 1 рубль, в среднем из города будут уезжать 14 человек. Это связано с тем, что в городах России помимо Москвы и Санкт-Петербурга, заработные платы небольшие. И жители уезжают в два крупнейших города нашей страны, так как заработная плата в исследуемых городах не может резко возрасти до уровня Москвы и Санкт-Петербурга, а значит, небольшие увеличения минимальной ставки заработной платы не являются чем-то существенным для людей, что могло бы заставить их остаться в своем городе. Безусловно, важно, что перед показателем стоит отрицательный знак. Это значит что нашей стране, нужно обратить внимание на минимальную ставку оплачиваемого труда, чтобы в дальнейшем избежать отток населения из городов в более существенных масштабах. Сейчас, как было отмечено, люди часто уезжают в Москву и Санкт-Петербург, ведь зарплаты в этих городах куда больше тех, которые имеются в их городах. Отрицательный знак перед показателем в большей степени указывает именно на это, но показатель совсем невелик.
3. Еще один вывод связан с занятостью населения - количество человек, которые получают пособие по безработице. При появлении одного безработного человека, происходит отток населения в среднем также на 1 человека. Это вывод о том, что чем больше уровень безработицы в городе, тем меньше там народу. Этот факт подтверждается все теми же двумя городами - Москвой и Санкт-Петербургом - в которых численность самая большая и в которых уровень безработицы очень низкий.
4. Что касается жилищной сферы города, то вывод следующий: с увеличением общей площади жилищного фонда на 1000 кв. м. численность постоянного населения увеличивается в среднем на 14 человек. Возможно, столь небольшое увеличение количества человек говорит о том, что их желание переехать из поселка/деревни в город или из одного города в другой город зависит в большей степени от работы, которую они найдут или им предложат. Так как уже выяснилось, что в стране зарплаты не высоки, а за жилье платить надо, люди предпочитают оставаться там, где они сейчас находятся, ведь платить приходится за жилье в любом городе, а если нет достойной работы, то смысла переезжать нет. Так и с деревнями и поселками. Без работы с достойной заработной платой попросту нет смысла переезжать в город.
5. Последний показатель относится к числу спортивных сооружений в городе. Коэффициент показателя довольно странный, потому как имеет отрицательный знак, ведь наоборот, должно быть так, что с увеличением сооружений спортивного типа, число людей должно увеличиваться. В нашем случае результат такой, что при построении одного спортивного сооружения, численность населения уменьшается в среднем на 13 человек. По этому поводу можно сказать, что для людей, которые переезжают в город, наличие спортивных сооружений остается второстепенной причиной переезда, в отличие от работы и жилья. Также, есть предположение о том, что строительство спортивных сооружений проходит довольно долго, и для строительства, к примеру, стадионов, требуются высоко квалифицированные люди в этой области. Именно поэтому, на период строительства специалисты переезжают в этот город на несколько лет, а затем обратно возвращаются в свои города.
Нужно отметить, что коэффициент перед константой очень велик. Это подтверждает то, что изменение численности постоянного населения зависит от большого числа других показателей, причем тех, которые коррелируют с уже найденными регрессорами, ведь выбрана модель с фиксированными эффектами. Однако, панельные данные сложно собрать, их надо собирать регулярно, в течение каждого года на основе одних и тех показателей и объектов. Российская база данных не удовлетворят таким жестким требованиям, так как большой число данных отсутствует и очень много городов, по которым за первую часть периода за 2-3 года есть данные, а за другую нет и наоборот, по другим городам за последние годы периода есть данные, а за первые нет. Вывод таков, что необходимо совершенствовать российскую информационную систему, чтобы данные по городам были зафиксированы в определенные сроки и были полными.
3.5 Проверка модели
В теоретической информатике есть раздел под названием машинное обучение (Machine Learning). Машинное обучение - это "обширный подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться". [19] Машинное обучение располагается на стыке методов оптимизации, мат. статистики, а также на стыке классических математических дисциплин. Различают индуктивное и дедуктивное обучение. В нашем случае для проверки будет использован первый тип, так как большинство методов индуктивного машинного обучения разрабатывались в качестве альтернативных методов классической статистики. Многие из методов являются неотъемлемой частью интеллектуального анализа данных, который используется в экономических дисциплинах.
Постановка задачи индуктивного обучения или обучения по прецедентам: дается конечное множество прецедентов (ситуации, объекты). Также собраны данные по каждому из них. Совокупность всех данных по прецедентам называется обучающей выборкой. Задача состоит в том, чтобы выявить общие взаимосвязи, которые характеризуют не только эту конкретную выборку, но и всем объектам и ситуациям, которые даже еще не наблюдались.
В данном исследовании это возможно сделать, если из исходных данных удалить 2-3 переменные за все года. Построить регрессию по оставшимся данным. И если коэффициенты при переменных в уравнении примерно совпадут с теми, которые были найдены в регрессионной модели (Таблица 13), то можно говорить о правильности модели, о том, что она верна не только для конкретных наблюдений, а для всех.
Цель проверки также заключается в том, что модель будет проверена сразу. Чаще всего при построении модели, исследователям приходится ждать определенное время, чтобы собрать новые данные для проверки своей модели. В нашем случае, этого делать не придется, поскольку модель будет проверена сразу.
Удалим из выборки три переменные: EDUC_12, INV_13 и уберем для более качественной проверки одну переменную, которая включена в уравнение регрессии - EMPL_1. После удаления тех, переменных, которые коррелированны между собой, строим модель с фиксированными эффектами.
Таблица 19. Проверка модели. Модель с фиксированными эффектами - 2.
Dependent Variable: POP_0 |
|||||
Method: Panel Least Squares |
|||||
Sample: 2005 2011 |
|||||
Periods included: 7 |
|||||
Cross-sections included: 109 |
|||||
Total panel (balanced) observations: 763 |
|||||
Variable |
Coefficient |
Std. Error |
t-Statistic |
Prob. |
|
AGENTS_0 |
-0.029550 |
0.015987 |
-1.848326 |
0.0650 |
|
CULT_3 |
284.5662 |
73.97007 |
3.847046 |
0.0001 |
|
EDUC_5 |
-287.7465 |
160.6101 |
-1.791584 |
0.0737 |
|
EMPL_4 |
-0.821215 |
0.250733 |
-3.275261 |
0.0011 |
|
ENVIR_0 |
21.58256 |
16.36042 |
1.319194 |
0.1876 |
|
HEALTH_4 |
-104.5886 |
169.3961 |
-0.617420 |
0.5372 |
|
HOUS_0 |
13.13583 |
0.581415 |
22.59286 |
0.0000 |
|
SOC_3 |
42.36204 |
350.7625 |
0.120771 |
0.9039 |
|
SPORT_1 |
-15.73124 |
5.124166 |
-3.070010 |
0.0022 |
|
C |
248560.7 |
5038.042 |
49.33677 |
0.0000 |
|
Effects Specification |
|||||
Cross-section fixed (dummy variables) |
|||||
R-squared |
0.999548 |
Mean dependent var |
335876.9 |
||
Adjusted R-squared |
0.999466 |
S. D. dependent var |
325692.5 |
||
S. E. of regression |
7523.080 |
Akaike info criterion |
20.83064 |
||
Sum squared resid |
3.65E+10 |
Schwarz criterion |
21.54780 |
||
Log likelihood |
-7828.888 |
Hannan-Quinn criter. |
21.10675 |
||
F-statistic |
12201.05 |
Durbin-Watson stat |
0.911361 |
||
Prob (F-statistic) |
0.000000 |
Таблица 20.2 Сравнение коэффициентов двух фиксированных регрессий
Переменные |
Регрессия 1 |
Регрессия 2 (проверочная) |
|
CULT_3 |
286,3 |
284,5 |
|
EMPL_1 |
-0,14 |
- |
|
EMPL_4 |
-0,86 |
-0,82 |
|
HOUS_0 |
13,73 |
13,14 |
|
SPORT_1 |
-13,27 |
-15,73 |
|
C |
247137,3 |
248650,7 |
Как видно по результатам Таблицы 20, даже при том, что была удалена независимая переменная, влияющая на изменение населения, коэффициенты изменились не существенно, что говорит о правильности модели. Теперь известно, каким общим зависимостям подчиняются прецеденты в этой области.
Заключение
Город представляет собой очень сложную систему взаимосвязей между политической, экономической, социальной, культурной и экологической сферами жизни. Однако далеко не всегда удается достичь той ситуации, когда все эти сферы функционируют налажено без каких-либо проблем. Такую модель устойчивого развития города можно смело назвать теоретической, поскольку в реальном мире, дело обстоит иначе. Немногие города имеют высокие показатели по всем сферам городской жизни. Что же касается Российской Федерации, то она одна из тех стран, которым непременно нужно стремиться к ситуации, характеризующейся устойчивым развитием городов.
В данной работе было проведено исследование, в ходе которого была достигнута цель - оценить влияние факторов, которые способствуют развитию города. Прежде всего, были рассмотрены теоретические аспекты, связанные с общей информацией о городах, а также, в частности, о городах России. Были представлены классификации факторов, которые имеются на сегодняшний день в литературе, в основном, в зарубежной. Важным этапом работы является рассмотрение исследовательских работ зарубежных авторов, которые занимаются изучением городского развития. Очень важно знать, какие факторы авторы этих работ выделяют среди других, которые тоже влияют на развитие города, но не в такой степени. Более того, их работы очень информативны, так как у каждого автора представлена своя методика проведения анализа.
На следующем этапе работы было крайне важно проанализировать инструменты эконометрического анализа, так как именно при помощи него была достигнута цель исследования. В частности в работе рассматривается построение разного рода регрессионных моделей с использованием данных панельного типа в эконометрическом методе, ведь именно такой тип данных и был использован в проведенном исследовании. Данные для исследования были взяты из базы данных Мультистата за 7 лет по 19 факторам. Следует отметить, что по данным о городах России эта база является самой большой. Однако в ней все еще отсутствуют наблюдения по значительному количеству объектов, что затрудняло проведение исследования. Наиболее адекватные регрессионные модели строятся на основе большого количества данных по заданной тематике. Регрессионная модель в этой работе говорит о том, что большинство переменных не учтено в работе (об этом говорит несоизмеримо большой коэффициент перед константой), поскольку другие показатели отсутствуют в базе данных.
Исследование было проделано по всем правилам эконометрики. Перед построением модели, была проанализирована зависимая переменная (число постоянного населения), взаимосвязи между независимыми переменными, что дало возможность удалить из выборки часть сильно коррелируемых между собой факторов. Затем была построена модель. В дальнейшем она была проверена различными тестами, которые выявили правильность её построения. Дальше были построены две альтернативные модели, позволяющие более адекватно оценить панельные данные. В итоге была выбрана единственная модель, которая также была проверена методом обучающей выборки. По результатам построенной модели, можно сказать, что наиболее значимыми факторами для увеличения населения, а, следовательно, и развития города являются: среднемесячная заработная плата работников, количество человек, получающих пособие по безработице, общая площадь жилых помещений города, число спортивных сооружений и наличие учреждений культурно-досугового типа. Важным оказалось то, что большая роль принадлежит социально-культурной сфере города, а не только экономической.
Хотя модель и была проверена, но в будущем возможно проведение похожего исследования, но уже другому периоду и по большему числу данных. Два исследования можно будет сравнить между собой, а затем провести сравнение с аналогичными зарубежными исследованиями. Сравнение даст стимул к выявлению причин различия или же сходства показателей. Несомненно, это будет способствовать накоплению чрезмерно важного опыта в области развития городов
Список литературы
1. Баранский Н.Н. Об экономико-географическом изучении городов // Становление советской экономической географии. - М.: Мысль, 1980.
2. Битюкова В.Р. Социально-экологические проблемы развития городов России. - М.: Книжный дом "Либроком", 2012. - 448с.
3. Бородич С.А. Вводный курс эконометрики. - Мн.: БГУ, 2000. - 354 с.
4. Велихов Л.А. Основы городского хозяйства. М.: Наука, 1996.
5. Доугерти К. Введение в эконометрику: Учебник.3-е изд. / Пер. с англ. - М.: ИНФРА-М, 2009. - XIV, 465 с.
6. Елисеева И.И., Курышева С.В., Костеева Т.В., Бабаева И.В., Михайлов Б.А. Эконометрика/Под ред.И. И. Елисеевой. - М.: Финансы и статистика, 2003.
7. Изотов А.Н. Проблемы и пути развития малых городов России (на примере республики Башкортостан) - (электронный ресурс) - http://municipal-sd.ru/sites/default/files/Izotov. pdf
8. Коломак Е.А. Эконометрический анализ панельных данных. - Новосибирск: НГУ, 2007.
9. Научно-практический журнал "Прикладная эконометрика". №4 (32). Синергия Пресс2013
10. Ратникова Т.А. "Введение в эконометрический анализ панельных данных". Экономический журнал ВШЭ №2, 2006 г.
11. Ратникова Т.А. Анализ панельных данных в пакете "Stata". М.: 2004 г.
12. Россия 2013: Статистический справочник/Росстат. - М., 2013. - 62с.
13. Чекалин В.С. Экономические основы функционирования городского хозяйства. - СПб.: СПбГИЭУ, 2010
14. Яновский В.В. Город как система и объект управления: введение в проблемы управления городского хозяйства. - СПб.: Сев. - Запад. акад. гор. хоз-ва, 1999. - 231с.
15. Воронов В.И., Воронов А.В., Лазарев В.А., Степанов В.Г. "Международные аспекты логистики". Сайт abc. vvsu - (электронный +ресурс) - http://abc. vvsu.ru/Books/m_asp_log/default. asp [4.05.2014]
16. Сайт Агенство РиФ - (электронный ресурс) - http://www.rf-agency.ru [28.04.2014]
17. Сайт Мультистат - (электронный ресурс) - http://www.multistat.ru/ [9.05.2014]
18. Сайт Univer-nn - (электронный ресурс) - http://univer-nn.ru/econometrica [12.05.2014]
19. Сайт MachineLearning - (электронный ресурс) - http://www.machinelearning.ru/wiki/index. php? title=Машинное_обучение [15.05.2014]
20. Сайт InvenTech - (электронный ресурс) - http://inventech.ru/pub/methods/metod-0013/ [10.05.2014]
21. Сайт E-Reading - (электронный ресурс) - http://www.e-reading. ws/chapter. php/84338/31/Shevchuk_-_Ekonomicheskaya_zhurnalistika.html [11.05.2014]
22. Сайт Statsoft - (электронный ресурс) - http://www.statsoft.ru/home/textbook/modules/stfacan.html [16.05.2014]
23. Устойчивое развитие городов. Сайт ООН - (электронный ресурс) - http://www.un.org/ru/sustainablefuture/cities. shtml#overview [28.04.2014]
24. Adams R. Cities: the Problems and Solutions. - (электронный ресурс) - http://udf.org. au/udf-quarterly/udfq-94-may-2011/article/cities-the-problems-and-the-solutions/
Подобные документы
Проблемы и резервы социально-экономического развития города Кемерово в долгосрочной перспективе. Основные задачи роста экономического потенциала города. Развитие образовательного, научного и культурного потенциала. Особенности улучшения городской среды.
курсовая работа [1,3 M], добавлен 15.03.2009Краткая история развития города. Активность развития рынка недвижимости в городе. Влияние на его динамику деятельности двух крупных предприятий - НТМК и УВЗ. Разброс цен на жилье. Анализ основных факторов, влияющих на платежеспособность покупателей.
реферат [9,2 K], добавлен 19.05.2014Обзор факторов, влияющих на эффективность производственно-хозяйственной деятельности предприятия. Анализ социальных, внешних и технических факторов, влияющих на систему перевозки груза на примере перевозки пакетированных досок. Порядок укладки пакета.
курсовая работа [644,0 K], добавлен 13.01.2014Существующие подходы к исследованию проблем экономического роста. Количественный анализ факторов влияния на динамику экономического роста по продуктам перегонки нефти. Проверка на аномальность и гипотеза о существовании тренда, расчет по критерию Ирвина.
контрольная работа [638,2 K], добавлен 26.02.2013Место и роль города в экономике Российской Федерации. Специфика города Набережные Челны. Итоги социально-экономического развития города. Экономические проблемы и перспективы развития города Набережные Челны. Пищевая и перерабатывающая отрасль.
дипломная работа [57,9 K], добавлен 03.12.2008Показатели естественного движения населения, структура его доходов и расходов. Построение и анализ вариационного ряда по уровню номинальной оплаты труда. Применение статистических методов в анализе факторов, влияющих на изменение уровня жизни населения.
курсовая работа [831,9 K], добавлен 06.11.2014Оценка уровня развития инженерной и социальной инфраструктуры города Москвы. Анализ тенденций инвестиционной деятельности в регионе. Оценка уровня развития отраслей московской промышленности. Определение показателей уровня жизни населения Москвы.
реферат [1,5 M], добавлен 15.04.2018Концептуальные основы разработки и обеспечения реализации стратегии социально-экономического развития г. Ханты-Мансийска до 2020 г. Оценка существующего состояния экономики города, его потенциал, конкурентоспособность, проблемы и перспективы развития.
научная работа [1,6 M], добавлен 01.05.2011Систематизация и теоретическое исследование основных факторов эффективного экономического роста. Анализ состояния промышленности, сельского хозяйства и научного потенциала России. Основные приоритеты и оценка факторов эффективного развития экономики РФ.
дипломная работа [170,5 K], добавлен 30.09.2011Разработка модели для анализа зависимости между объясняемой и объясняющими переменными. Построение матрицы парных коэффициентов корреляции; диаграммы рассеивания. Тесты, определяющие зависимость занятого населения в РФ от социально-экономических факторов.
курсовая работа [904,7 K], добавлен 09.05.2016