Моделирование территориальных процессов в российских городах методом географически взвешенной регрессии
Применение классической модели регрессии для анализа однородных объектов. Разделение территории на зоны, определение административных границ. Использование методов движущегося окна, фиксированных и адаптивных ядер при вычислении весовых коэффициентов.
Рубрика | Математика |
Вид | статья |
Язык | русский |
Дата добавления | 24.02.2019 |
Размер файла | 125,2 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://allbest.ru
1Саратовского института РГТЭУ
2Саратовского государственного университета
Моделирование территориальных процессов в российских городах методом географически взвешенной регрессии
1Балаш О.С. к.э.н., доц., кафедры
высшей математики и информационных технологий
2А.В. Харламов, ст. преподаватель
Условиями применения классической модели регрессии, используемой при анализе однородных объектов, являются некоррелированность ошибок, подчиняющихся нормальному распределению с нулевым средним и постоянной дисперсией. Но при моделировании процессов, имеющую большую территориальную неоднородность, классическая модель может давать неверный результат.
Для анализа пространственных данных обследуемую область разделяют на районы и для учета влияния этих областей в модель вводят фиктивные переменные. Зонирование зависит от выбора масштаба и определения вида границ. Различают районы с четкими и нечеткими границами.
При разделении исследуемой территории на зоны с четкими границами предполагают, что они определяют отличия в социально-экономических явлениях. Часто берут административные границы, но такое деление не всегда верно. Поэтому проблема выделения однородных зон ложится на исследователя. Субъективное и необоснованное определение границ может приводить к ошибочным результатам, и предпочтительнее использовать нечеткие границы.
Нечеткие границы означают, что каждый объект с той или иной вероятностью имеет возможность попасть в любую зону. Вероятность зависит от близости объекта к центру зоны и с увеличением расстояния уменьшается.
Кроме определения границ возникает проблема влияния масштаба выделяемых областей на значимость коэффициентов модели. Возможна ситуация, когда применяя различные масштабы или перегруппировывая зоны, получают различные и даже совершенно противоположные результаты в оценках и значимости параметров модели, что затрудняет выбор модели и трактовку результатов.
Для избежания этих трудностей, применяют метод географически взвешенной регрессии, который можно рассматривать как некоторое обобщение фиктивных переменных, позволяющий сгладить перечисленные проблемы и получать модель с непрерывно меняющейся структурой.
Модель географически взвешенной регрессии имеет вид:
. (1)
где пара переменных (ui,vi) представляет координаты точки (местоположение) i, ; yi - значение наблюдаемой зависимой переменной; - независимые детерминированные регрессоры, , p - число регрессоров;
- неизвестные коэффициенты, подлежащие оценке, ; - случайные ошибки.
Для вычисления оценок коэффициентов в местоположении i может использоваться метод наименьших квадратов. В целях выявления местных особенностей используются не все имеющиеся наблюдения, а только соседние с i.
Предполагается, что регрессионные модели для соседних точек схожи, но могут варьироваться по территории. Степень близости учитывается с помощью весов wij. Вектор оценок коэффициентов для каждого местоположения i вычисляется:
,
где W(ui,vi) - диагональная матрица весовых коэффициентов размерности (nn):
.
Элемент матрицы wij, определяет степень влияния соседей j на зависимости в местоположении i. Матрица весовых коэффициентов вычисляется для каждого местоположения.
Так как расчеты коэффициентов проводятся для всех измерений, то в результате получают матрицу оценок параметров:
,
где i-ая строка представляет собой вектор оценок коэффициентов в точке (ui,vi), :
.
Для определения весовых коэффициентов используют методы административно-территориального деления, движущегося окна, фиксированных и адаптивных ядер.
Если административное деление раскрывает специфические закономерности, присущим административным единицам, то для точек, принадлежащих одному району, элемент весовой матрицы полагают равным единице и нулю в противном случае:
, если ();
, если ().
Если административные районы сформированы исторически и не отражают естественное расслоение объектов, то дискретные веса определяются с учетом расстояния между объектами.
При этом задают предельно допустимую удаленность, то есть некоторое фиксированное расстояние b, относительно которого определяют категорию ближайшего соседа.
Вес принимают равным единице, если расстояние dij между объектами не превосходит заданного расстояния b, и нулю в противном случае:
, если ;
, если .
Расстояние dij вычисляется как расстояние между точками на плоскости. Это так называемый метод движущегося фиксированного окна. b фиксировано и называется шириной окна или полосы пропускания.
Использование дискретного подхода при определении весов учитывает территориальную неоднородность, но влияние соседей, попавших в полосу пропускания, считается одинаковым.
Во многих случаях влияние соседей уменьшается с увеличением расстояния. Поэтому более близким соседям придают больший вес, чем дальним. Подход, в котором веса строятся с учетом непрерывного изменения расстояния между исследуемыми объектами, называют ядерным. Наиболее часто применяют ядра Гаусса:
,
где dij - расстояние между местоположением i и соседом j, а b - ширина полосы пропускания.
Альтернативными вариантами являются ядра би-квадрат и три-куб:
,
Влияние соседей в непосредственной близости к местоположению практически равно единице и уменьшается при приближении к границе полосы пропускания.
Применим метод географически взвешенной регрессии для построения модели ценообразования на рынке недвижимости на примере модели стоимости однокомнатных квартир г. Саратова.
Информационной базой послужили данные о продажах однокомнатных квартир на вторичном рынке жилья (http://www.ks.sarbc.ru) за январь 2006 года. Численность выборки составила 1813 объектов.
Зависимой переменной является y - цена квартиры (тыс. руб.), регрессорами:
x1 - жилая площадь, м2;
x2 - площадь кухни, м2;
x3 - дополнительная площадь, м2;
x4 - логарифм расстояния, ln(м);
x5 - расположение на первом этаже;
x6 - расположение на последнем этаже;
x7 - дом малой этажности;
x8 - пятиэтажка;
x9 - кирпичный дом;
x10 - в хорошем или отличном состоянии;
x11 - имеются балкон или лоджия.
В качестве центра г. Саратова выбран район Главпочтамта.
Глобальная линейная регрессионная модель, построенная по исходным, данным имеет вид:
Все коэффициенты при переменных оказались значимыми, как и вся модель в целом.
Коэффициент детерминации R2=0,7 показывает, что модель объясняет только 70% имеющейся зависимости.
Для применения географически взвешенной регрессии в исходные данные были добавлены условные координаты объектов, полученные с помощью электронной базы данных «Все города России».
При построении весовой матрицы использовалась функция «три-куб», в качестве критерия оптимизации ширины «окна» - критерий Акайка:
,
где - оценка стандартного отклонения, .
Географически взвешенный метод дал следующие результаты.
Оптимальное число ближайших соседей, дающее минимум критерия Акайка, равно 295.
Коэффициент детерминации R2=0,8.
Проанализируем значения полученных оценок коэффициентов при каждом регрессоре.
Для удобства анализа представим результаты в виде таблиц, в которых значения оценок коэффициентов усреднены по целым значениям координат, а также представлены в виде диаграмм.
Центр города располагается в квадрате Х=61, Y=32.
Оценки коэффициента при регрессоре «жилая площадь» показано в таблице 1 и на рисунке 1.
Таблица 1
Зависимость оценок коэффициентов регрессии от координат
координаты |
Х |
|||||||||||||
Жилая площадь |
53 |
54 |
55 |
56 |
57 |
58 |
59 |
60 |
61 |
62 |
63 |
64 |
||
27 |
9.8 |
|||||||||||||
28 |
9.8 |
10.0 |
10.3 |
|||||||||||
29 |
9.6 |
11.0 |
13.3 |
13.7 |
14.0 |
12.7 |
||||||||
Y |
30 |
10.3 |
12.9 |
14.2 |
13.6 |
14.7 |
16.4 |
18.6 |
||||||
31 |
13.0 |
15.7 |
17.2 |
19.7 |
22.4 |
17.4 |
11.6 |
13.5 |
||||||
32 |
14.1 |
16.6 |
23.2 |
28.4 |
21.4 |
14.1 |
14.1 |
|||||||
33 |
11.2 |
12.0 |
15.7 |
20.3 |
19.1 |
15.7 |
||||||||
34 |
11.9 |
11.5 |
11.8 |
14.7 |
16.6 |
15.2 |
16.6 |
16.8 |
||||||
35 |
9.7 |
10.9 |
11.9 |
12.9 |
9.8 |
12.4 |
16.7 |
|||||||
36 |
9.1 |
8.6 |
12.2 |
11.2 |
8.9 |
8.6 |
Соответствующие уровни значимости представлены в таблице 2.
Таблица 2
Уровни значимости оценок при регрессоре «жилая площадь»
Х |
||||||||||||||
t |
53 |
54 |
55 |
56 |
57 |
58 |
59 |
60 |
61 |
62 |
63 |
64 |
||
27 |
0 |
|||||||||||||
28 |
0 |
0 |
0 |
|||||||||||
29 |
0 |
0 |
0 |
0 |
0 |
0 |
||||||||
Y |
30 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
||||||
31 |
0 |
0 |
0 |
0 |
0 |
0 |
0.005 |
0.001 |
||||||
32 |
0 |
0 |
0 |
0 |
0 |
0 |
0.001 |
|||||||
33 |
0 |
0 |
0 |
0 |
0 |
0 |
||||||||
34 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
||||||
35 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
|||||||
36 |
0 |
0 |
0 |
0 |
0 |
0 |
Рисунок 1 - Значения оценок коэффициента при регрессии «жилая площадь»
Как видно из рис.1 оценки коэффициента значимы на всей территории. В центральной части города выделяется квадрат с координатами X=60, Y=32 с самыми дорогими квартирами, практически по 30 тыс. рублей за квадратный метр. регрессия административный граница
Около этого квадрата можно выделить некоторый район, стоимость метра жилой площади в котором превышает 20 тыс. рублей или находится в районе этого значения.
Четко выделяются окраины города, где цена квадратного метра жилой площади порядка 10 тыс. рублей.
Можно проследить дрейф убывающей цены от центра в направлении Ленинского района («левого верхнего» и «левого нижнего» углов представленной таблицы).
Аналогично рассчитаны показатели по остальным регрессорам.
Размещено на Allbest.ru
Подобные документы
Прямолинейные, обратные и криволинейные связи. Статистическое моделирование связи методом корреляционного и регрессионного анализа. Метод наименьших квадратов. Оценка значимости коэффициентов регрессии. Проверка адекватности модели по критерию Фишера.
курсовая работа [232,7 K], добавлен 21.05.2015Построение модели множественной регрессии теоретических значений динамики ВВП, определение средней ошибки аппроксимации. Выбор фактора, оказывающего большее влияние. Построение парных моделей регрессии. Определение лучшей модели. Проверка предпосылок МНК.
курсовая работа [352,9 K], добавлен 26.01.2010Значения коэффициента регрессии (b) и сводного члена уравнения регрессии (а). Определение стандартной ошибки предсказания являющейся мерой качества зависимости величин Y и х с помощью уравнения линейной регрессии. Значимость коэффициента регрессии.
задача [133,0 K], добавлен 21.12.2008Определения оптимизации схемы планирования эксперимента при работе со швейной машиной. Расчёт коэффициентов уравнения регрессии и выделение значимых коэффициентов прочности ткани и растяжения между лапкой и иглой. Проверка гипотезы адекватности модели.
курсовая работа [1,2 M], добавлен 30.12.2014Описание способов нахождения коэффициентов регрессии модели полнофакторного эксперимента. Проверка многофакторных статистических гипотез на однородность ряда дисперсий, значимость и устойчивость математических коэффициентов множественной корреляции.
контрольная работа [1,2 M], добавлен 05.08.2010Цели линейной модели множественной регрессии (прогноз, имитация, сценарий развития, управление). Анализ эконометрической сущности изучаемого явления на априорном этапе. Параметризация и сбор необходимой статистической информации, значимость коэффициентов.
контрольная работа [68,7 K], добавлен 21.09.2009Построение многофакторной корреляционно-регрессионной модели доходности предприятия: оценка параметров функции регрессии, анализ факторов на управляемость, экономическая интерпретация модели. Прогнозирование доходности на основе временных рядов.
дипломная работа [5,1 M], добавлен 28.06.2011Построение математической модели технологического процесса напыления резисторов методами полного и дробного факторного эксперимента. Составление матрицы планирования. Рандомизация и проверка воспроизводимости. Оценка коэффициентов уравнения регрессии.
курсовая работа [694,5 K], добавлен 27.12.2021Знакомство с уравнениями линейной регрессии, рассмотрение распространенных способов решения. Общая характеристика метода наименьших квадратов. Особенности оценки статистической значимости парной линейной регрессии. Анализ транспонированной матрицы.
контрольная работа [380,9 K], добавлен 05.04.2015Построение уравнения регрессии. Оценка параметров линейной парной регрессии. F-критерий Фишера и t-критерий Стьюдента. Точечный и интервальный прогноз по уравнению линейной регрессии. Расчет и оценка ошибки прогноза и его доверительного интервала.
презентация [387,8 K], добавлен 25.05.2015