Регрессионный анализ данных

Исследование возможности проведения корреляционно-регрессионного анализа и использования методов динамических рядов прогнозирования цен на бензин на будущие периоды. Анализ на основе трендовых и регрессионных моделей: линейной, полинома, нелинейной.

Рубрика Экономика и экономическая теория
Вид курсовая работа
Язык русский
Дата добавления 07.08.2013
Размер файла 422,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Введение

В экономике основой практически любой деятельности является прогноз. Уже на основе прогноза составляется план действий и мероприятий. Таким образом, можно сказать, что прогноз макроэкономических переменных является основополагающей составляющей планов всех субъектов экономической деятельности. Эконометрическое прогнозирование в настоящее время переживает новый этап своего развития, претерпевая существенные изменения. Отметим некоторые особенности современного прогнозирования.

Во-первых, изменились объекты прогнозирования: изучаются мега -, мезо - и микрообъекты. Народнохозяйственный аспект прогнозирования углубился до всех уровней иерархии: появились принципиально новые объекты прогноза, такие, как территориальные комплексы, социально-экономические структуры, человек. В связи с этим появилось понятие “сложные системы”. Под “сложной системой” подразумевается составной объект, обладающий следующими свойствами:

-состоит из подсистем;

-подсистемы связаны отношениями;

-подсистемы объединены в единое целое;

-объединение в единое целое осуществляется по каким-то принципам (критериям).

Эффективным методом изучения сложных систем является имитационное моделирование, которое позволяет исследовать их поведение в течение продолжительных периодов времени.

Во-вторых, изменились задачи прогнозирования. Теперь уже прогнозы даже на макроэкономическом уровне носят сценарный характер, разрабатываются по принципу: “что будет, если…”, - и нередко являются предварительным этапом и обоснованием крупных народнохозяйственных программ. Макроэкономические прогнозы, как правило, выполняются с периодом упреждения в один год. Современная практика функционирования экономики требует краткосрочных прогнозов (полгода, месяц, декада, неделя). Предназначенных для задач обеспечения опережающей информацией отдельных участников экономики.

В-третьих, соответственно изменениям в объектах и задачах прогнозирования изменился перечень методов прогнозирования. Бурное развитие получили адаптивные методы краткосрочного прогнозирования.

В-четвёртых, современное экономическое прогнозирование требует от разработчиков разносторонней специализации, владения знаниями из различных областей науки и практики. В задачи прогнозиста входят владение знаниями о научном (как правило, математическом) аппарате прогнозирования, о теоретических основах прогнозируемого процесса, об информационных потоках, о программном обеспечении, интерпретации результатов прогнозирования.

Основная функция прогноза - обоснование возможного состояния объекта в будущем или определение альтернативных путей.

Значение бензина как основного вида топлива на сегодняшний день сложно переоценить. И настолько же сложно переоценить влияние его цены на экономику любой страны. От динамики цен на топливо зависит характер развития экономики страны в целом. Повышение цен на бензин вызывает увеличение цен на промышленные товары, приводит к усилению инфляционных издержек в экономике и снижению рентабельности энергоёмких производств. Затраты на нефтепродукты являются одной из составных частей цен товаров потребительского рынка, а транспортные расходы оказывают влияние на структуру цены всех без исключения потребительских товаров и услуг.

Особое значение приобретает вопрос стоимости бензина в развивающейся российской экономике, где любое изменение цен вызывает незамедлительную реакцию во всех её отраслях. Однако влияние этого фактора не ограничивается только сферой экономики, к последствиям его колебаний могут быть также отнесены многие политические и социальные процессы.

Таким образом, исследование и прогнозирование динамики данного показателя приобретает особую значимость.

Целью данной работы является выявление факторов, непосредственно влияющих на изменение цен на бензин и прогнозирование цен на топливо на ближайшее время.

1. Описание предметной области и постановка задачи исследования

корреляционный регрессивный прогнозирование полином

Российский рынок бензина сложно назвать постоянным или предсказуемым. И этому есть множество причин, начиная с того факта, что сырьем для производства горючего является нефть, цены и объем производства которой определяются не только спросом и предложением на внутренних и внешнем рынкам, но и политикой государства, а также специальными соглашениями компаний-производителей. В условиях сильной зависимости российской экономики от выработки нефти и объема продажи её заграницу, внутренний рынок нефтепродуктов неизбежно остро реагирует на любые изменения на рынке сырья. И говоря о ценах на бензин нельзя не отметить их тенденцию к росту. Несмотря на проводимую государством сдерживающую политику, привычным для большинства потребителей является именно их рост.

Цена на бензин в России (за вычетом акцизов) - это экспортная цена минус экспортные пошлины и расходы по транспортировке нефтепродуктов. При росте цен на них в Европе происходит аналогичный рост и в России.

Исследование цен на бензин очень актуально в настоящее время, поскольку именно от этих цен зависят цены других товаров и услуг.

В данной работе будет рассмотрена зависимость цен на бензин от времени и таких факторов, как

ь цены на нефть, руб. за тонну (X1),

ь официальный курс доллара на конец периода, рублей за доллар США (Х2),

ь объем производства нефти, млн.тонн (Х3),

ь индекс потребительских цен (X4) (базисные индексы к декабрю предыдущего года).

Данные показатели выбраны неслучайно. Цена бензина, являющегося продуктом нефтепереработки, непосредственно связана с ценой указанного природного ресурса и объемами его выработки. Курс же доллара оказывает существенное влияние на всю российскую экономику, в частности на формирование цен на её внутренних рынках. Непосредственная связь этого параметра с ценами на бензин может также быть найдена в том, что объем нефти, экспортируемой из страны, а следовательно не идущий на производство топлива, напрямую зависит от курса доллара США, ведь чем выше этот показатель, тем выгоднее для поставщиков продавать сырье заграницу. ИПЦ отражает общее изменение цен внутри страны, а поскольку экономически доказанным является то, что изменение цен на одни товары в абсолютном большинстве случаев (в условиях свободной конкуренции) ведет к росту цен других товаров, резонно предположить, что изменение цен товаров по стране влияет на исследуемый в работе показатель.

В связи с поставленной для данной работы целью было сформулировано несколько взаимосвязанных задач:

1. Обоснование возможности использования методов динамических рядов и корреляционно-регрессионного анализа для построения моделей, описывающих изменение цен на бензин.

2. Использование данных методов для построения моделей, описывающих изменение цен на бензин.

3. Прогнозирование цен на бензин на будущие периоды с помощью полученных моделей и выбор наиболее адекватной из них.

2. Описание используемого математического аппарата при проведении расчетов

Регрессионный анализ

Регрессионный анализ -- метод моделирования измеряемых данных и исследования их свойств. Данные состоят из пар значений зависимой переменной (переменной отклика) и независимой переменной (объясняющей переменной). Регрессионная модель есть функция независимой переменной и параметров с добавленной случайной переменной. Параметры модели настраиваются таким образом, что модель наилучшим образом приближает данные. Критерием качества приближения (целевой функцией) обычно является среднеквадратичная ошибка: сумма квадратов разности значений модели и зависимой переменной для всех значений независимой переменной в качестве аргумента. Регрессионный анализ -- раздел математической статистики и машинного обучения. Предполагается, что зависимая переменная есть сумма значений некоторой модели и случайной величины. Относительно характера распределения этой величины делаются распределения, называемые гипотезой порождения данных. Для подтверждения или опровержения этой гипотезы выполняются статистические тесты, называемые анализом остатков. При этом предполагается, что независимая переменная не содержит ошибок. Регрессионный анализ используется для прогноза, анализа временных рядов, тестирования гипотез и выявления скрытых взаимосвязей в данных.

Определение регрессионного анализа

Регрессия - зависимость математического ожидания (например, среднего значения) случайной величины от одной или нескольких других случайных величин (свободных переменных), то есть . Регрессионным анализом называется поиск такой функции , которая описывает эту зависимость. Регрессия может быть представлена в виде суммы неслучайной и случайной составляющих.

где  -- функция регрессионной зависимости, а  -- аддитивная случайная величина с нулевым матожиданием. Предположение о характере распределения этой величины называется гипотезой порождения данных. Обычно предполагается, что величина  имеет гауссово распределение с нулевым средним и дисперсией .

Задача нахождения регрессионной модели нескольких свободных переменных ставится следующим образом. Задана выборка -- множество значений свободных переменных и множество соответствующих им значений зависимой переменной. Эти множества обозначаются как , множество исходных данных . Задана регрессионная модель -- параметрическое семейство функций  зависящая от параметров  и свободных переменных . Требуется найти наиболее вероятные параметры :

Функция вероятности зависит от гипотезы порождения данных и задается Байесовским выводом или методом наибольшего правдоподобия.

Линейная регрессия

Линейная регрессия предполагает, что функция  зависит от параметров  линейно. При этом линейная зависимость от свободной переменной  необязательна,

В случае, когда функция  линейная регрессия имеет вид

здесь  -- компоненты вектора .

Значения параметров в случае линейной регрессии находят с помощью метода наименьших квадратов. Использование этого метода обосновано предположением о гауссовском распределении случайной переменной.

Разности между фактическими значениями зависимой переменной и восстановленными называются регрессионными остатками (residuals). В литературе используются также синонимы: невязки и ошибки. Одной из важных оценок критерия качества полученной зависимости является сумма квадратов остатков:

Здесь  -- Sum of Squared Errors.

Дисперсия остатков вычисляется по формуле

Здесь  -- Mean Square Error, среднеквадратичная ошибка.

Нелинейная регрессия

Нелинейная регрессия -- частный случай регрессионного анализа, в котором рассматриваемая регрессионная модель есть функция, зависящая от параметров и от одной или нескольких свободных переменных. Зависимость от параметров предполагается нелинейной.

Нелинейные регрессионные модели -- модели вида

которые не могут быть представлены в виде скалярного произведения

где  -- параметры регрессионной модели,  -- свободная переменная из пространства ,  -- зависимая переменная,  -- случайная величина и  -- функция из некоторого заданного множества.

Постановка задачи

Задана выборка из пар . Задана регрессионная модель , которая зависит от параметров  и свободной переменной . Требуется найти такие значения параметров, которые доставляли бы минимум сумме квадратов регрессионных остатков

где остатки  для .

Для нахождения минимума функции , приравняем к нулю её первые частные производные параметрам :

Так как функция  в общем случае не имеет единственного минимума[1], то предлагается назначить начальное значение вектора параметров  и приближаться к оптимальному вектору по шагам:

Здесь  - номер итерации,  - вектор шага.

На каждом шаге итерации линеаризуем модель с помощью приближения рядом Тейлора относительно параметров 

Здесь элемент матрицы Якоби  - функция параметра ; значение свободной переменной фиксировано. В терминах линеаризованной модели

и регрессионные остатки определены как

Подставляя последнее выражение в выражение (*), получаем

Преобразуя, получаем систему из  линейных уравнений, которые называются нормальным уравнением

Запишем нормальное уравнение в матричном обозначении как

В том случае, когда критерий оптимальности регрессионой модели задан как взвешенная сумма квадратов остатков

нормальное уравнение будет иметь вид

Для нахождения оптимальных параметров нелинейных регрессионных моделей используются метод сопряжённых градиентов, алгоритм Гаусса-Ньютона или алгоритм Левенберга-Марквардта.

Анализ регрессионных остатков

Для получения информации об адекватности построеной модели многомерной линейной регрессии исследуют регрессионные остатки. Если выбранная регрессионная модель хорошо описывает истинную зависимость, то остатки должны быть независимыми нормально распределенными случайными величинами с нулевым средним, и в их значениях должен отсутствовать тренд. Анализ регрессионных остатков - это процесс проверки выполнения этих условий.

Пусть дана последовательность наблюдаемых величин и получены их оценки:

- предикторные переменные, - коэффициенты регрессионной модели, - ответ.

Регрессионные остатки обозначим через , .

Свойства регрессионных остатков

Для того, чтобы регрессионная модель хорошо описывала истинные данные, регрессионные остатки должны обладать следующими свойствами:

Эту гипотезу можно проверять любым параметрическим или непараметрическим критерием сравнения среднего с заданным значением(в данном случае - с нулём).

- т.е. одинаковая дисперсия.

Проверяется аналогично, любым параметрическим или непараметрическим критерием сравнения дисперсии с заданным значением. Например, Критерий Зигеля-Тьюки.

Это дополнительное предположение. Его важно проверить, если для проверки других свойств регрессионных остатков мы хотим использовать статистический критерий, предполагающий нормальность данных. Для проверки этой гипотезы можно использовать Критерий нормальности.

- независимы.

Независимость остатков может быть проверена при помощи статистики Дарбина-Уотсона.

.

Для проверки этих условий используется визуальный анализ.

Гипотеза случайности. Один из вариантов проверки этой гипотезы критерий экстремумов.

Гипотеза отсутствия тренда. Отсутствие тренда удобно проверять с помощью U-критерия. Также можно применить визуальный анализ.

Метод наименьших квадратов (МНК)

Метод наименьших квадратов -- метод нахождения оптимальных параметров линейной регрессии, таких, что сумма квадратов ошибок (регрессионных остатков) минимальна. Метод заключается в минимизации евклидова расстояния между двумя векторами -- вектором восстановленных значений зависимой переменной и вектором фактических значений зависимой переменной.

Постановка задачи

Задача метода наименьших квадратов состоит в выборе вектора , минимизирующего ошибку . Эта ошибка есть расстояние от вектора  до вектора . Вектор  лежит в простанстве столбцов матрицы , так как  есть линейная комбинация столбцов этой матрицы с коэффициентами . Отыскание решения  по методу наименьших квадратов эквивалентно задаче отыскания такой точки , которая лежит ближе всего к  и находится при этом в пространстве столбцов матрицы . Таким образом, вектор  должен быть проекцией  на пространство столбцов и вектор невязки  должен быть ортогонален этому пространству. Ортогональность состоит в том, что каждый вектор в пространстве столбцов есть линейная комбинация столбцов с некоторыми коэффициентами , то есть это вектор . Для всех  в пространстве , эти векторы должны быть перпендикулярны невязке :

Так как это равенство должно быть справедливо для произвольного вектора , то

Решение по методу наименьших квадратов несовместной системы , состоящей из  уравнений с неизвестными, есть уравнение

которое называется нормальным уравнением. Если столбцы матрицы  линейно независимы, то матрица  обратима и единственное решение

Проекция вектора  на пространство столбцов матрицы имеет вид

Матрица  называется матрицей проектирования вектора  на пространство столбцов матрицы . Эта матрица имеет два основных свойства: она идемпотентна, , и симметрична, . Обратное также верно: матрица, обладающая этими двумя свойствами есть матрица проектирования на свое пространство столбцов.

Пусть имеем статистические данные о параметре y в зависимости от х. Эти данные представим в виде

х

х1

х2

…..

хi

…..

хn

y*

y1*

y2*

......

yi*

…..

yn*

Метод наименьших квадратов позволяет при заданном типе зависимости y=ц(x) так выбрать ее числовые параметры, чтобы кривая y=ц(x) наилучшим образом отображала экспериментальные данные по заданному критерию. Рассмотрим обоснование с точки зрения теории вероятностей для математического определения параметров, входящих в ц(x).

Предположим, что истинная зависимость y от х в точности выражается формулой y=ц(x). Экспериментальные точки, представленные в табл.2, отклоняются от этой зависимости следствие ошибок измерения. Ошибки измерения подчиняются по теореме Ляпунова нормальному закону. Рассмотрим какое-нибудь значение аргумента хi. Результат опыта есть случайная величина yi,распределенная по нормальному закону с математическим ожиданием ц(xi) и со средним квадратическим отклонением уi, характеризующим ошибку измерения. Пусть точность измерения во всех точках х=(х1, х2, …, хn) одинакова, т.е. у12=…=уn=у. Тогда нормальный закон распределения Yi имеет вид:

(1)

В результате ряда измерений произошло следующее событие: случайные величины (y1*, y2*, …, yn*). Поставим следующую задачу.

3.Описание выбранного программного продукта

Для расчетов будет использоваться СПП STATISTICA

Пакет STATISTICA был создан в начале 1990-х годов сразу для среды Windows. В пакете нашли отражение многие последние достижения теоретической и прикладной статистики.

У пакета есть специальная версия для обучения основам статистических методов - Studеnt Еditiоn оf STATISTICA. Эта версия позволяет анализировать файлы данных, включающих не более 400 наблюдений, и представляет собой урезанный вариант пакета.

Основная версия пакета может дополнительно комплектоваться специализированными модулями: Роwеr Analysis (планирование статистических исследовании), Nеural Nеtwоrks (нейросетевой анализ) и др.

С помощью реализованных в системе STATISTICA мощных языков программирования, снабженных специальными средствами поддержки, легко создаются законченные пользовательские решения и встраиваются в различные другие приложения или вычислительные среды. Очень трудно представить себе, что кому-то могут понадобиться абсолютно все статистические процедуры и методы визуализации, имеющиеся в системе STATISTICA, однако опыт многих людей, успешно работающих с пакетом, свидетельствует о том, что возможность доступа к новым, нетрадиционным методам анализа данных помогает находить новые способы проверки рабочих гипотез и исследования данных.

STATISTICA является наиболее динамично развивающимся статистическим пакетом и по многочисленным рейтингам является мировым лидером на рынке статистического программного обеспечения. СПП STATISTICA является универсальной системой, предназначенной для статистического анализа и визуализации данных, управления базами данных и разработки пользовательских приложений, содержащей широкий набор процедур анализа для применения в научных исследованиях, технике, бизнесе.

Она состоит из следующих основных компонент, объединенных в рамках одной системы:

· электронных таблиц для ввода и задания исходных данных;

· специальных таблиц для вывода численных результатов анализа;

· графической системы для визуализации данных и результатов статистического анализа;

· набора специализированных статистических модулей, в которых собраны группы логически связанных между собой статистических процедур;

· специального инструментария для подготовки отчетов.

Статистический анализ данных в системе STATISTICA может быть разбит на следующие основные этапы:

· ввод данных в электронную таблицу с исходными данными и их предварительное преобразование перед анализом;

· визуализация данных при помощи того или иного типа графиков;

· применение конкретной процедуры статистической обработки;

· вывод результатов анализа в виде графиков и электронных таблиц с численной и текстовой информацией;

Пакет содержит следующие модули:

Basic Statistic/Tables - Основные статистики и таблицы: позволяет провести предварительную обработку данных, осуществить разведочный анализ, определить зависимости между переменными, разбить их различными способами на группы;

Nonparametrics/Distrib. - Модуль Непараметрическая статистика/Распределеня: дает возможность проверить гипотезы о характере распределения ваших данных;

ANOVA/MANOVA - Модуль дисперсионного анализа: представляет собой набор процедур общего одномерного и многомерного дисперсионного и ковариационного анализа;

Multiple Regression - Модуль Множественная регрессия: помогает построить зависимости между многомерными переменными, подобрать простую линейную модель и оценить ее адекватность;

Nonlinear Estimation - Модуль Нелинейное оценивание: предоставляет возможность определения нелинейной зависимости в данных и подгонки к ним функциональных кривых;

Time Series/Forecasting - Анализ временных рядов и прогнозирование: общее назначение модуля - построить простую модель, описывающую ряд, сгладить его, спрогнозировать будущие значения временного ряда на основе наблюдаемых до данного момента, построить регрессионные зависимости одного ряда от другого, провести спектральный или Фурье - анализ ряда;

Claster Analysis - Модуль Кластерный анализ: позволяет произвести сложную иерархическую классификацию данных или выделить в них кластеры;

Data Management/MFM - Управление данными: специализированный модуль, который содержит большое количество вспомогательных процедур по работе с данными (иерархическая сортировка, проверка, категоризация и ранжирование и др.);

Factor Analysis - Модуль Факторный анализ: дает возможность сжать данные или выделить основные общие факторы, влияющие на наблюдаемые характеристики сложного объекта и объясняющие связи между ними;

Canonical Analysis - Модуль Канонический анализ: включает в себя широкий набор процедур для выполнения канонического корреляционного анализа, исследования связи между двумя множествами переменных;

Multidimensional Scaling - Модуль Многомерное шкалирование: помогает представить данные о близости объектов какой-либо простой пространственной моделью, в которой объекты интерпретируются, например, как города на обычной карте, а различия между ними есть просто расстояния, в частности данные о странах, политических партиях и т.д., и всесторонне диагностировать модель;

SEPATH - Модуль Моделирование структурными уравнениями: позволяет строить и тестировать различные модели, объясняющие структуру связей между наблюдаемыми переменными;

Reliability/Item Analysis - Модуль Анализ надежности: включает широкий набор процедур для разработки и вычислений надежности сложных объектов на основе результатов обследований и диагностики отдельных узлов;

Discriminant Analysis - Модуль Дискриминантный анализ: позволяет построить на основе ряда предположений классификационное правило отнесения объекта к одному из нескольких классов, минимизируя некоторый разумный критерий;

Log-linear Analysis - Модуль Лог-линейный анализ: проводит анализ сложных многоуровневых таблиц;

Survival Analysis - Модуль Анализ длительностей жизни: предлагает обширный набор методов анализа данных из социологии, биологии, медицины, так же, как процедуры, используемые в инженерии и маркетинге;

Commmand Language (SCL) - Командный язык STATISTICA: позволяет автоматизировать рутинные процессы обработки данных в системе;

STATISTICA File Server - позволяет быстро открыть для просмотра/редактирования как графики и таблицы, так и отчеты.

Выбор системы STATISTICA в качестве инструмента для обработки данных может быть обусловлен возможностью проведения наиболее полного анализа, т.к. система содержит все необходимые нам статистические процедуры.

Основные преимущества системы STATISTICA:

· содержит полный набор классических методов анализа данных: от основных классических методов статистики, до самых современных, что позволяет гибко организовывать анализ;

· является средством построения приложений в конкретных областях;

· отвечает всем стандартам Windows, что позволяет сделать анализ высокоинтерактивным;

· система может быть интегрирована в Интернет;

· поддерживает web-форматы:HTML, JPEG, PNG;

· данные системы STATISTICA легко конвертировать в различные базы данных и электронные таблицы;

· поддерживает высококачественную графику, позволяющую эффективно визуализировать данные и проводить графический анализ;

· является открытой системой: содержит языки программирования, которые позволяют расширить систему, запускать ее из других Windows-приложений, например из Excel;

· используются разнообразные методы, позволяющие провести всесторонне исследование ретроспективных данных (в виде временных рядов);

· доступны различные возможности преобразования временных рядов;

· позволяют построить объективный прогноз данных, который включает в себя вычисление верхних и нижних границ, в которых, можно утверждать, что с определенной вероятностью лежат значения прогнозируемых показателей.

4. Практическая часть

Полное исследование проблем, связанных с прогнозированием конкретного показателя, сводится к выполнению следующих этапов:

1. Постановка задачи исследования и сбор исходной информации;

2. Предварительная обработка данных;

3. Выбор моделей прогнозирования;

4. Численное оценивание параметров моделей;

5. Получение точечного интервального прогнозов;

6. Анализ и интерпретация полученных прогнозных значений.

Исходные данные

Задачей данного исследование является прогнозирование цен на бензин. Исходная информация представляет из себя временной ряд размерностью 34 - с января 2007 г. по октябрь 2009 г.

 

Цена АИ-92 (Y)

Цены на нефть(X1)

Курс доллара (X2)

Объем пр-ва нефти(X3)

ИПЦ (X4)

янв.07

14,16

2943

26,5

39,1

98,3

фев.07

14,13

2814

26,3

35,7

98,11

мар.07

14,19

3359

26,1

39,4

98,52

апр.07

14,65

3807

25,8

38,1

101,67

май.07

14,84

4336

25,7

39,2

103,01

июн.07

14,85

4312

25,8

38,5

103,06

июл.07

15,15

4362

25,5

39,8

105,16

авг.07

15,51

4855

25,6

40

107,67

сен.07

16,69

5555

25,3

39

115,9

окт.07

16,76

5713

24,9

40,5

116,39

ноя.07

16,8

5469

24,5

39,3

116,65

дек.07

16,79

4812

24,6

39,9

100,04

янв.08

16,79

4443

24,5

36,1

101.35

фев.08

17,01

4930

24,5

40,3

101,83

мар.08

17,09

5499

23,8

39,3

101,75

апр.08

17,08

5419

23,5

40,7

102,07

май.08

17,13

5476

23,7

39,5

102,31

июн.08

17,17

5614

23,6

40,8

103,59

июл.08

17,39

5674

23,3

41,4

109,47

авг.08

18,37

5928

24,5

39,7

112,83

сен.08

18,94

6215

25,3

40,9

112,27

окт.08

18,84

5365

26,1

39,9

111,56

ноя.08

18,72

4343

27,4

41,4

111,28

дек.08

18,68

4434

28,3

41,6

99,87

янв.09

18,65

4604

32,3

37,8

99,23

фев.09

18,53

4105

35,5

41,8

99,7

мар.09

18,48

3926

34,6

39,9

100,04

апр.09

14,65

3807

33,6

38,1

101,67

май.09

14,84

4336

32,0

39,2

103,01

июн.09

14,85

4312

31,2

38,5

103,06

июл.09

15,15

4362

32,0

39,8

105,16

авг.09

15,51

4855

31,8

40

107,67

сен.09

16,69

5555

30,9

39

115,9

окт.09

18,84

5365

29,5

39,9

111,56

Предварительная обработка данных

Предварительная обработка данных необходима для определения возможности использования методов динамических рядов и корреляционно-регрессионного анализа для построения моделей, описывающих изменение цен на бензин.

Расчет выборочных характеристик

Средняя

15,60077

Медиана

15,51

Мода

16,79

Минимум

11,34

Максимум

18,94

Размах вариации

7,6

Дисперсия

5,393387

Среднеквадратическое отклонение

2,322367

Коэффициент вариации

14,9%

По соотношению средней, моды, медианы можно сказать, что распределение приблизительно близко к нормальному закону, а по значению коэффициента вариации видно, что совокупность достаточно однородна, следовательно, средняя достаточно типична.

2) Аномальных наблюдений не обнаружено на уровне значимости 5%

3)Проверка гипотезы о нормальном законе распределения.

На основе исходных данных, представленных в таблице Приложения 1, можно построить гистограмму и график на нормальной вероятностной бумаге для исследуемого показателя Yt.

По гистограмме и графику на нормальной вероятностной бумаге видно, что распределение величины Yt относительно близко к нормальному закону.

По диаграмме рассеивания видно, что можно построить такую прямую, которая бы описывала имеющуюся тенденцию цен к повышению, т.е. распределение Yt не случайно. Следовательно, результирующий показатель Yt имеет прямую функциональную зависимость от времени, а значит, необходимо проверить его на автокорреляцию уровней временного ряда. Для этого вычисляются коэффициенты автокорреляции. Величина максимального лага определяется по формуле , где Т- объем выборки. Следовательно, .

Коррелограмма имеет вид:

Все коэффициенты автокорреляции положительны и постепенно снижаются Следовательно, можно сделать вывод о том, что в ряду наблюдается долгосрочная тенденция, для такого ряда лучше всего подходит трендовая модель вида

Выбор моделей прогнозирования

Построение трендовой модели. Прогнозирование при помощи трендовой модели

Для исследуемого временного ряда Y можно подобрать несколько трендовых моделей: линейную, полином, нелинейную. Используя пошаговые процедуры отбора переменных, выбрана наиболее адекватная из них. В данном случае это линейная модель.

Линейная модель имеет вид:

Regression Summary for Dependent Variable: Y R=,96060625 RI=,9226437 Adjusted RI=,92067692 F(1,37)=442,05 p<0,0000 Std.Error of estimate:,66263

BETA

St. Err. of BETA

B

St. Err.of B

 t(37)

p-level

Intercpt

11,80362

0,209464

56,35156

0,000000

T

0,960606

0,045689

0,19257

0,009159

21,02507

0,000000

У=11,8+ 0,193

Исследуя данную модель на адекватность при помощи коэффициента детерминации, критерия Фишера, критерия Стьюдента и проведения анализа остатков, можно прийти к выводу, что поскольку общий и скорректированный коэффициенты детерминации достаточно близки к 1, то можно сделать вывод о достаточно сильном влиянии факторных признаков на результирующий показатель Y. Уравнение значимо по критерию Фишера. Рассмотрев критерий Стьюдента для коэффициентов регрессии в0 и в1 можно сделать вывод, что оба коэффициента также значимы. Выполняются 2 условия Гаусса-Маркова из 3. Таким образом, видно, что линейная модель достаточно адекватна, но, тем не менее, нельзя сказать, что она описывает поведение цен на бензин полностью. Поэтому обоснованным будет построение регрессии, выявляющую зависимость не только от времени, но и от других факторов.

При прогнозировании цен на бензин АИ-92 на следующие 4 периода, т.е. на ноябрь, декабрь, январь, февраль при помощи трендовой модели получены следующий данные:

Точечные прогнозы составляют 19,50655 руб. за литр в ноябре, 19, 69912 руб. за литр в декабре, 19, 8917 руб. за литр в январе и 20,08427 руб. за литр в феврале. Соответствующие интервальные прогнозные значения представлены следующими интервалами [19,07;19,94], [19,25;20,15], [19,43;20,36] и [19,60; 20,57].

Построение регрессионных моделей. Прогнозирование при помощи регрессионных моделей

Прежде чем проводить корреляционный анализ необходимо устранить долгосрочную тенденцию (тренд) в уровнях временных рядов. Для этого используется процедура взятия последовательных разностей, а дальнейший корреляционный анализ ведется с помощью остатков. Ряды проверяются на долгосрочную тенденцию с помощью коррелограммы. Были устранены долгосрочные тенденции во всех показателях. Только после этого был проведен корреляционный анализ.

По графикам функций можно сказать, что признаки Х1 (цены на нефть) и Х4 (ИПЦ) оказывают достаточно сильное прямое влияния на Y (цена на аи-92) в текущем периоде, а признак Х3 (объем производства нефти) оказывает значительное обратное влияние на Y с запаздыванием в 8 месяцев. Х2 (курс доллара США) оказывает незначительное влияние на зависимую переменную в периоде T-2, то есть с запаздыванием в 2 месяца. Таким образом, будет строиться зависимость Y от Х1, Х2t-2, Х4 и Х3t-7.

Линейная модель

Regression Summary for Dependent Variable: Y

R=,93580485 RI=,87573073 Adjusted RI=,86476579

F(3,34)=79,866 p<,00000 Std.Error of estimate:,83708

BETA

St. Err.of BETA

B

St. Err.of B

 t(36)

 p-level

Intercpt

44,88042

5,364096

8,36682

0,000000

X1

0,569918

0,071597

0,00106

0,000133

7,96005

0,000000

X4

0,235686

0,070247

0,05802

0,017294

3,35508

0,001962

Х2t-2

-0,561348

0,080791

-1,42428

0,204987

-6,94812

0,000000

Y = 43,76 + 0,001*X1 - 1,42*X2t-2 + 0,06*X4

Исследовав данную модель на адекватность при помощи коэффициента детерминации, критерия Фишера, критерия Стьюдента и проведения анализа остатков, можно прийти к выводу, что поскольку общий и скорректированный коэффициенты детерминации достаточно близки к 1, то можно сделать вывод о достаточно сильном влиянии факторных признаков на результирующий показатель Y. Уравнение значимо по критерию Фишера. Рассмотрев критерий Стьюдента для коэффициентов регрессии в0 и в1 можно сделать вывод, что оба коэффициента также значимы. Выполняются 2 условия Гаусса-Маркова из 3. Таким образом, Таким образом, можно сказать, что линейная модель достаточно адекватна, хотя выполняются не все условия Гаусса-Маркова, однако прогнозирование по данной модели также представляется возможным.

Для того чтобы прогнозировать показатель с помощью регрессионной линейной модели, необходимо рассчитать факторы, влияющие на данный показатель, т.е. факторные переменные. Они рассчитываются так же, как и показатель Y, построением различных трендовых моделей: полинома, линейной, нелинейной моделей. Далее эти модели оцениваются с точки зрения адекватности, и выявляется наиболее подходящая для прогнозирования модель.

При прогнозировании цен на бензин АИ-92 на следующие 4 периода, т.е. на ноябрь, декабрь, январь, февраль при помощи линейной регрессионной модели получены следующий данные:

Точечные прогнозы составляют 17,5777 руб. за литр в ноябре, 13,6282 руб. за литр в декабре, 13,2731 руб. за литр в январе и 17,607 руб. за литр в феврале. Соответствующие интервальные прогнозные значения представлены следующими интервалами [16,73;18,42], [13,17;14,09], [12,796;13,75] и [12,399;13,41].

Нелинейная модель

Regression Summary for Dependent Variable: Y

R=,86159959 RI=,74235385 Adjusted RI=,69941283

F(3,18)=17,288 p<,00002 Std.Error of estimate: 1,0297

 

St. Err.

St. Err.

 

 

BETA

of BETA

B

of B

t(35)

p-level

Intercpt

39,4

11,017

3,57764

0,002152

1/X1

-0,4881

0,134468

-15978,8

4402,448

-3,62953

0,001917

X3t-7**5

10,9096

4,750669

0,0

0,000

2,29644

0,033871

X3t-7**4

-10,4466

4,747561

0,0

0,000

-2,20041

0,041075

Y = 39,4 - 15978,8*1/X1 + 1,19628000342225*10-6 *X3t-7^5 -0,0000551697094847616* X3t-7^4

Исследовав данную модель на адекватность при помощи коэффициента детерминации, критерия Фишера, критерия Стьюдента и проведения анализа остатков, можно прийти к выводу, что поскольку общий и скорректированный коэффициенты детерминации достаточно близки к 1, то можно сделать вывод о достаточно сильном влиянии факторных признаков на результирующий показатель Y. Уравнение значимо по критерию Фишера. Рассмотрев критерий Стьюдента для коэффициентов регрессии в0 и в1 можно сделать вывод, что оба коэффициента также значимы. Выполняются не все условия Гаусса-Маркова. Таким образом, нельзя сказать, что нелинейная регрессионная модель полностью адекватна, однако прогнозирование по данной модели также представляется возможным.

Для того чтобы прогнозировать показатель с помощью регрессионной нелинейной модели, также необходимо рассчитать факторные переменные. Их расчет и получаемые модели представлены в Приложении 8.

При прогнозировании цен на бензин АИ-92 на следующие 4 периода, т.е. на ноябрь, декабрь, январь, февраль при помощи нелинейной регрессионной модели получены следующий данные:

Точечные прогнозы составляют 17,581 руб. за литр в ноябре, 16,827 руб. за литр в декабре, 17,607 руб. за литр в январе и 17,318 руб. за литр в феврале. Соответствующие интервальные прогнозные значения представлены следующими интервалами [16,48;18,69], [15,13;19,52], [15,798;19,42] и [15,058;19,58].

Получение точечного интервального прогнозов

Точечные прогнозы

Тип модели

Т=40

Т=41

Т=42

Т=43

Трендовая

19,50655

19, 69912

19, 8917

20,08427

Линейная регрессия

17,5777

13,6282

13,2731

17,607

Нелинейная регрессия

17,581

16,827

17,607

17,318

Интервальные прогнозы

Тип модели

Т=40

Т=41

Т=42

Т=43

Трендовая

[19,07;19,94]

[19,25;20,15]

[19,43;20,36]

[19,60; 20,57]

Линейная регрессия

[16,73;18,42]

[13,17;14,09]

[12,796;13,75]

[12,399;13,41]

Нелинейная регрессия

[16,48;18,69]

[15,13;19,52]

[15,798;19,42]

[15,058;19,58]

Основываясь на реальные цены на бензин АИ-92, можно сделать вывод о том, что нелинейная регрессионная модель наиболее адекватна для прогнозирования.

Заключение

В данной работе была показана возможность проведения корреляционно-регрессионного анализа и использования методов динамических рядов для моделирования и прогнозирования цен на бензин на будущие периоды.

В результате работы было выявлено, что все факторы, предложенные к рассмотрению, оказывают различное по силе влияние на цены на бензин. Однако наиболее значимыми из них оказались два, включенных в наиболее адекватную с точки зрения прогнозирования модель. Первый из них - это объем производства нефти, а второй - цены на нефть. Неудивительно, что эти факторы значительно влияют на цены на бензин, ведь нефть является главным и основополагающим сырьём для производства бензина и поэтому напрямую влияет на цену бензина. В тоже время в цене на нефть уже отражено много факторов влияющих на цену бензина, таких как постановления ОПЕК или таможенные пошлины, а так же мировые цены и объём добычи нефти. Также хотелось бы отметить тот факт, что объем производства нефти, непосредственно влияющий на цену горючего, оказывает это влияние со значительным запаздыванием, что вполне логично, ведь у производителей всегда имеются запасы сырья, и изменения в его производстве влияют на объемы их выработки не сразу. То же, что изменение цен на нефть оказывает влияние на цену бензина в этом же периоде, можно объяснить как экономическими, так и психологическими факторами. С экономической точки зрения, цена закупаемого сырья вне зависимости от момента его использования сразу же включается в себестоимость продукции, что ведет к её изменению с изменением цены, с другой стороны, производитель получает обоснование для повышения цены своего товара, часто увеличивая её значительнее, чем это может быть мотивировано.

Прогноз относительно будущей цены бензина, конечно, не однозначен, что связано с особенностями изначальных данных и разработанных моделей. Однако, исходя из полученной информации, резонно предположить, что в ближайшее время цены на бензин, конечно, не снизятся, но, скорее всего, останутся на прежнем уровне или будут слабо расти. Конечно, здесь не учтены факторы, связанные с ожиданиями потребителей, политикой в области таможенных пошлин и многие другие факторы, но хочется отметить, что они в значительной мере “взаимнопогашаемы”. И достаточно обоснованным будет заметить, что в резкий скачок цен на бензин на данный момент действительно крайне сомнителен, что в первую очередь связано с проводимой правительством политикой.

Таким образом, возможно предположить, что цены на бензин в ближайшие периоды уложатся в интервалы, рассчитанные по нелинейной регрессионной модели, тяготея при этом к верхней границе интервала, а не к расчетному точечному значению.

Список литературы

корреляционный регрессивный прогнозирование полином

1. Боровиков В. SТАТ1SТ1СА: искусство анализа данных на компьютере: для профессионалов.- СПб.: Питер, 2001.- 656 с.

2. Бююль А., Цёфель П. SРSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей.- СПб.: ООО "ДиаСофтЮП", 2001.- 608 с.

3. Эконометрика под ред. И.И.Елисеевой М.: изд-во «Финансы и кредит», 2002.

4. В.П.Носко "Эконометрика" «Введение в регрессионный анализ временных рядов» - Москва, 2002г.

5. Ресурсы Интернет http://www.gks.ru/

6. Ресурсы Интернет http://www.cbr.ru/

Размещено на Allbest.ru


Подобные документы

  • Роль корреляцонно-регрессионного анализа в обработке экономических данных. Корреляционно-регрессионный анализ и его возможности. Предпосылки корреляционного и регрессионного анализа. Пакет анализа Microsoft Excel.

    курсовая работа [68,4 K], добавлен 11.06.2002

  • Расчет основных характеристик рядов динамики показателей денежного обращения в России. Выявление тенденций показателей денежного обращения на основе метода аналитического выравнивания и прогнозирования. Построение динамических регрессионных моделей.

    курсовая работа [322,9 K], добавлен 23.10.2014

  • Организационно-экономическая характеристика ООО Торговый дом "Владимир". Особенности осуществления статистического, корреляционно-регрессионного анализа цен. Оценка динамических рядов объема продаж по показателям коэффициента роста и темпов наращивания.

    курсовая работа [370,9 K], добавлен 23.01.2011

  • Направление деятельности ОАО "Татнефть", его место на рынке. Система управления компанией. Исследование зависимости прибыли от совокупных активов компании методом корреляционно-регрессионного анализа. Анализ и прогнозирование деятельности предприятия.

    курсовая работа [600,9 K], добавлен 30.10.2011

  • Задачи, классификация, этапы и принципы прогнозов, сущность системного подхода. Характеристика методов экономического прогнозирования, его информационное обеспечение. Методические приемы использования типовых прогнозов, суть регрессионного анализа.

    учебное пособие [2,5 M], добавлен 22.06.2012

  • Корреляционно-регрессионный анализ как объект статистического изучения, система статистических показателей, его характеризующих. Особенности и принципы применения метода корреляционно-регрессионного анализа. Построение статистического ряда распределения.

    курсовая работа [453,1 K], добавлен 28.01.2014

  • Характеристика методов выполнения оценок параметров больших множеств по данным выборочного наблюдения. Особенности работы с большими массивами данных. Расчет основных показателей совокупности. Корреляционно-регрессионный анализ. Анализ рядов динамики.

    курсовая работа [1,2 M], добавлен 24.08.2010

  • Этапы корреляционно-регрессионного анализа, построение корреляционной модели и определение функции, отражающей механизм связи между факторным и результативным признаками. Измерение тесноты корреляционной связи, расчет индекса корреляции и дисперсии.

    лекция [38,1 K], добавлен 13.02.2011

  • Применение дисперсионного анализа для исследования влияния качественных переменных на зависимую количественную переменную. Регрессионный анализ со статистической значимостью. Процесс проведения дисперсионного, кластерного, регрессионного анализов.

    курсовая работа [498,5 K], добавлен 11.05.2022

  • Система статистических показателей состава персонала. Методы корреляционно-регрессионного анализа в обработке экономических данных. Моделирование методов по показателям финансовой отчетности ЗАО "Зеленстрой", прогнозирование по показателям отчетности.

    курсовая работа [1001,2 K], добавлен 09.07.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.