Регрессионный анализ данных средствами Microsoft Excel
Изучение обработки статистических данных методами корреляционного и регрессионного анализа с использованием пакета "Анализ данных программы Microsoft Excel". Суть регрессионного анализа - метода моделирования измеряемых данных и исследования их свойств.
Рубрика | Математика |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 10.07.2012 |
Размер файла | 127,0 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Содержание
Введение
1. Регрессионный анализ
2. Пакет «Анализ данных Microsoft Excel»
3. Пример регрессионного анализа данных
Заключение
Список использованных источников
Введение
Обработка статистических данных уже давно применяется в самых разнообразных видах человеческой деятельности. Вообще говоря, трудно назвать ту сферу, в которой она бы не использовалась. Всесторонний и глубокий анализ информации, так называемых статистических данных, предполагает использование различных специальных методов, важное место среди которых занимает корреляционный и регрессионный анализы обработки статистических данных.
Задача выявления факторов, определяющих уровень и динамику какого-либо процесса чаще всего решается методами корреляционного и регрессионного анализа. Для достоверного отображения объективно существующих процессов необходимо выявить существенные взаимосвязи и не только выявить, но и дать им количественную оценку. Этот подход требует вскрытия причинных зависимостей. Под причинной зависимостью понимается такая связь между процессами, когда изменение одного из них является следствием изменения другого [1].
Основными задачами корреляционного анализа являются оценка силы связи и проверка статистических гипотез о наличии и силе корреляционной связи. Не все факторы, влияющие на процессы, являются случайными величинами, поэтому при анализе обычно рассматриваются связи между случайными и неслучайными величинами. Такие связи называются регрессионными, а метод математической статистики, их изучающий, называется регрессионным анализом.
Использование возможностей современной вычислительной техники, оснащенной пакетами программ машинной обработки статистической информации на ЭВМ, делает практически осуществимым оперативное решение задач изучения взаимосвязи показателей биржевых ставок методами корреляционно-регрессионного анализа.
При машинной обработке исходной информации на ЭВМ, оснащенных пакетами стандартных программ ведения анализов, вычисление параметров применяемых математических функций является быстро выполняемой счетной операцией [2].
Данная работа посвящена изучению обработки статистических данных методами корреляционного и регрессионного анализа с использованием пакета «Анализ данных программы Microsoft Excel».
1. Регрессионный анализ
Регрессионный анализ -- метод моделирования измеряемых данных и исследования их свойств. Данные состоят из пар значений зависимой переменной (переменной отклика) и независимой переменной (объясняющей переменной). Регрессионная модель есть функция независимой переменной и параметров с добавленной случайной переменной.
Корреляционный анализ и регрессионный анализ являются смежными разделами математической статистики, и предназначаются для изучения по выборочным данным статистической зависимости ряда величин; некоторые из которых являются случайными. При статистической зависимости величины не связаны функционально, но как случайные величины заданы совместным распределением вероятностей.
Исследование зависимости случайных величин приводит к моделям регрессии и регрессионному анализу на базе выборочных данных. Теория вероятностей и математическая статистика представляют лишь инструмент для изучения статистической зависимости, но не ставят своей целью установление причинной связи. Представления и гипотезы о причинной связи должны быть привнесены из некоторой другой теории, которая позволяет содержательно объяснить изучаемое явление.
Числовые данные обычно имеют между собой явные (известные) или неявные (скрытые) связи.
Явно связаны показатели, которые получены методами прямого счета, т. е. вычислены по заранее известным формулам. Например, проценты выполнения плана, уровни, удельные веса, отклонения в сумме, отклонения в процентах, темпы роста, темпы прироста, индексы и т. д.
Связи же второго типа (неявные) заранее неизвестны. Однако необходимо уметь объяснять и предсказывать (прогнозировать) сложные явления для того, чтобы управлять ими. Поэтому специалисты с помощью наблюдений стремятся выявить скрытые зависимости и выразить их в виде формул, т. е. математически смоделировать явления или процессы. Одну из таких возможностей предоставляет корреляционно-регрессионный анализ.
Математические модели строятся и используются для трех обобщенных целей:
* для объяснения;
* для предсказания;
* для управления.
Пользуясь методами корреляционно-регрессионного анализа, аналитики измеряют тесноту связей показателей с помощью коэффициента корреляции. При этом обнаруживаются связи, различные по силе (сильные, слабые, умеренные и др.) и различные по направлению (прямые, обратные). Если связи окажутся существенными, то целесообразно будет найти их математическое выражение в виде регрессионной модели и оценить статистическую значимость модели.
Регрессионный анализ называют основным методом современной математической статистики для выявления неявных и завуалированных связей между данными наблюдений.
Постановка задачи регрессионного анализа формулируется следующим образом.
Имеется совокупность результатов наблюдений. В этой совокупности один столбец соответствует показателю, для которого необходимо установить функциональную зависимость с параметрами объекта и среды, представленными остальными столбцами. Требуется: установить количественную взаимосвязь между показателем и факторами. В таком случае задача регрессионного анализа понимается как задача выявления такой функциональной зависимости y = f (x2, x3, …, xт), которая наилучшим образом описывает имеющиеся экспериментальные данные.
Допущения:
количество наблюдений достаточно для проявления статистических закономерностей относительно факторов и их взаимосвязей;
обрабатываемые данные содержат некоторые ошибки (помехи), обусловленные погрешностями измерений, воздействием неучтенных случайных факторов;
матрица результатов наблюдений является единственной информацией об изучаемом объекте, имеющейся в распоряжении перед началом исследования.
Функция f (x2, x3, …, xт), описывающая зависимость показателя от параметров, называется уравнением (функцией) регрессии. Термин "регрессия" (regression (лат.) - отступление, возврат к чему-либо) связан со спецификой одной из конкретных задач, решенных на стадии становления метода.
Решение задачи регрессионного анализа целесообразно разбить на несколько этапов:
предварительная обработка данных;
выбор вида уравнений регрессии;
вычисление коэффициентов уравнения регрессии;
проверка адекватности построенной функции результатам наблюдений.
Предварительная обработка включает стандартизацию матрицы данных, расчет коэффициентов корреляции, проверку их значимости и исключение из рассмотрения незначимых параметров.
Выбор вида уравнения регрессии Задача определения функциональной зависимости, наилучшим образом описывающей данные, связана с преодолением ряда принципиальных трудностей. В общем случае для стандартизованных данных функциональную зависимость показателя от параметров можно представить в виде
y = f (x1, x2, …, xm) + e
где f - заранее не известная функция, подлежащая определению;
e - ошибка аппроксимации данных.
Указанное уравнение принято называть выборочным уравнением регрессии. Это уравнение характеризует зависимость между вариацией показателя и вариациями факторов. А мера корреляции измеряет долю вариации показателя, которая связана с вариацией факторов. Иначе говоря, корреляцию показателя и факторов нельзя трактовать как связь их уровней, а регрессионный анализ не объясняет роли факторов в создании показателя.
Еще одна особенность касается оценки степени влияния каждого фактора на показатель. Регрессионное уравнение не обеспечивает оценку раздельного влияния каждого фактора на показатель, такая оценка возможна лишь в случае, когда все другие факторы не связаны с изучаемым. Если изучаемый фактор связан с другими, влияющими на показатель, то будет получена смешанная характеристика влияния фактора. Эта характеристика содержит как непосредственное влияние фактора, так и опосредованное влияние, оказанное через связь с другими факторами и их влиянием на показатель.
В регрессионное уравнение не рекомендуется включать факторы, слабо связанные с показателем, но тесно связанные с другими факторами. Не включают в уравнение и факторы, функционально связанные друг с другом (для них коэффициент корреляции равен 1). Включение таких факторов приводит к вырождению системы уравнений для оценок коэффициентов регрессии и к неопределенности решения.
Функция f должна подбираться так, чтобы ошибка e в некотором смысле была минимальна. В целях выбора функциональной связи заранее выдвигают гипотезу о том, к какому классу может принадлежать функция f, а затем подбирают "лучшую" функцию в этом классе. Выбранный класс функций должен обладать некоторой "гладкостью", т.е. "небольшие" изменения значений аргументов должны вызывать "небольшие" изменения значений функции.
Частным случаем, широко применяемым на практике, является полином первой степени или уравнение линейной регрессии
Для выбора вида функциональной зависимости можно рекомендовать следующий подход:
в пространстве параметров графически отображают точки со значениями показателя. При большом количестве параметров можно строить точки применительно к каждому из них, получая двумерные распределения значений;
по расположению точек и на основе анализа сущности взаимосвязи показателя и параметров объекта делают заключение о примерном виде регрессии или ее возможных вариантах;
после расчета параметров оценивают качество аппроксимации, т.е. оценивают степень близости расчетных и фактических значений;
если расчетные и фактические значения близки во всей области задания, то задачу регрессионного анализа можно считать решенной. В противном случае можно попытаться выбрать другой вид полинома или другую аналитическую функцию, например периодическую.
Вычисление коэффициентов уравнения регрессии
Систему уравнений на основе имеющихся данных однозначно решить невозможно, так как количество неизвестных всегда больше количества уравнений. Для преодоления этой проблемы нужны дополнительные допущения. Здравый смысл подсказывает: желательно выбрать коэффициенты полинома так, чтобы обеспечить минимум ошибки аппроксимации данных. Могут применяться различные меры для оценки ошибок аппроксимации. В качестве такой меры нашла широкое применение среднеквадратическая ошибка. На ее основе разработан специальный метод оценки коэффициентов уравнений регрессии - метод наименьших квадратов (МНК). Этот метод позволяет получить оценки максимального правдоподобия неизвестных коэффициентов уравнения регрессии при нормальном распределения вариант, но его можно применять и при любом другом распределении факторов.
В основе МНК лежат следующие положения:
значения величин ошибок и факторов независимы, а значит, и некоррелированы, т.е. предполагается, что механизмы порождения помехи не связаны с механизмом формирования значений факторов;
математическое ожидание ошибки e должно быть равно нулю (постоянная составляющая входит в коэффициент a0), иначе говоря, ошибка является центрированной величиной;
выборочная оценка дисперсии ошибки должна быть минимальна.
Если же линейная модель неточна или параметры измеряются неточно, то и в этом случае МНК позволяет найти такие значения коэффициентов, при которых линейная модель наилучшим образом описывает реальный объект в смысле выбранного критерия среднеквадратического отклонения.
Качество полученного уравнения регрессии оценивают по степени близости между результатами наблюдений за показателем и предсказанными по уравнению регрессии значениями в заданных точках пространства параметров. Если результаты близки, то задачу регрессионного анализа можно считать решенной. В противном случае следует изменить уравнение регрессии и повторить расчеты по оценке параметров.
При наличии нескольких показателей задача регрессионного анализа решается независимо для каждого из них.
Анализируя сущность уравнения регрессии, следует отметить следующие положения. Рассмотренный подход не обеспечивает раздельной (независимой) оценки коэффициентов - изменение значения одного коэффициента влечет изменение значений других. Полученные коэффициенты не следует рассматривать как вклад соответствующего параметра в значение показателя. Уравнение регрессии является всего лишь хорошим аналитическим описанием имеющихся данных, а не законом, описывающим взаимосвязи параметров и показателя. Это уравнение применяют для расчета значений показателя в заданном диапазоне изменения параметров. Оно ограниченно пригодно для расчета вне этого диапазона, т.е. его можно применять для решения задач интерполяции и в ограниченной степени для экстраполяции.
Главной причиной неточности прогноза является не столько неопределенность экстраполяции линии регрессии, сколько значительная вариация показателя за счет неучтенных в модели факторов. Ограничением возможности прогнозирования служит условие стабильности неучтенных в модели параметров и характера влияния учтенных факторов модели. Если резко меняется внешняя среда, то составленное уравнение регрессии потеряет свой смысл.
Прогноз, полученный подстановкой в уравнение регрессии ожидаемого значения параметра, является точечным. Вероятность реализации такого прогноза ничтожна мала. Целесообразно определить доверительный интервал прогноза. Для индивидуальных значений показателя интервал должен учитывать ошибки в положении линии регрессии и отклонения индивидуальных значений от этой линии [2].
2. Пакет Анализ данных Microsoft Excel
Анализ данных - область информатики, занимающаяся построением и исследованием наиболее общих математических методов и вычислительных алгоритмов извлечения знаний из экспериментальных (в широком смысле) данных.
Ms Excel представляет широкие возможности для проведения анализа данных, находящихся в списке. К средствам анализа относятся:
· Обработка списка с помощью различных формул и функций;
· Построение диаграмм и использование карт Ms Excel;
· Проверка данных рабочих листов и рабочих книг на наличие ошибок;
· Структуризация рабочих листов;
· Автоматическое подведение итогов (включая мастер частичных сумм);
· Консолидация данных;
· Сводные таблицы;
· Специальные средства анализа выборочных записей и данных - подбор параметра, поиск решения, сценарии и др [3].
В состав Microsoft Excel входит набор средств анализа данных (так называемый пакет анализа), предназначенный для решения сложных статистических и инженерных задач. Для проведения анализа данных с помощью этих инструментов следует указать входные данные и выбрать параметры; анализ будет проведен с помощью подходящей статистической или инженерной макрофункции, а результат будет помещен в выходной диапазон. Другие средства позволяют представить результаты анализа в графическом виде.
Статистические данные приводятся в виде длинных и сложных статистических таблиц, поэтому бывает весьма трудно обнаружить в них имеющиеся неточности и ошибки.
Графическое же представление статистических данных помогает легко и быстро выявить ничем не оправданные пики и впадины, явно не соответствующие изображаемым статистическим данным, аномалии и отклонения.
Графическое представление статистических данных является не только средством иллюстрации статистических данных и контроля их правильности и достоверности. Благодаря своим свойствам оно является важным средством толкования и анализа статистических данных, а в некоторых случаях - единственным и незаменимым способом их обобщения и познания.
Регрессия является инструментом пакета анализа данных Microsoft Excel. Линейный регрессионный анализ заключается в подборе графика для набора наблюдений с помощью метода наименьших квадратов. Регрессия используется для анализа воздействия на отдельную зависимую переменную значений одной или более независимых переменных [4].
3. Пример регрессионного анализа данных
Имеется матрица данных следующего вида
y |
X1 |
X2 |
X3 |
X4 |
X5 |
||
1 |
10,9 |
1,59 |
0,26 |
2,05 |
0,32 |
0,14 |
|
2 |
9,6 |
0,34 |
0,28 |
0,46 |
0,59 |
0,66 |
|
3 |
10,2 |
2,53 |
0,31 |
2,46 |
0,30 |
0,31 |
|
4 |
11,1 |
4,63 |
0,40 |
6,44 |
0,43 |
0,59 |
|
5 |
10,8 |
2,16 |
0,26 |
2,16 |
0,39 |
0,16 |
|
6 |
9,8 |
2,16 |
0,30 |
2,69 |
0,32 |
0,17 |
|
7 |
13,7 |
0,68 |
0,29 |
0,73 |
0,42 |
0,23 |
|
8 |
8,8 |
0,35 |
0,26 |
0,42 |
0,21 |
0,08 |
|
9 |
8,1 |
0,52 |
0,24 |
0,49 |
0,20 |
0,08 |
|
10 |
14,7 |
3,42 |
0,31 |
3,02 |
1,37 |
0,73 |
|
11 |
10,9 |
1,78 |
0,30 |
3,19 |
0,73 |
0,17 |
|
12 |
11,9 |
2,40 |
0,32 |
3,30 |
0,25 |
0,14 |
|
13 |
13,3 |
9,36 |
0,40 |
11,51 |
0,39 |
0,38 |
|
14 |
10,9 |
1,72 |
0,28 |
2,26 |
0,82 |
0,17 |
|
15 |
8,2 |
0,59 |
0,29 |
0,60 |
0,13 |
0,35 |
|
16 |
8,4 |
0,28 |
0,26 |
0,30 |
0,09 |
0,15 |
|
17 |
9,4 |
1,64 |
0,29 |
1,44 |
0,20 |
0,08 |
|
18 |
9,6 |
0,09 |
0,22 |
0,05 |
0,43 |
0,20 |
|
19 |
14,3 |
0,08 |
0,25 |
0,03 |
0,73 |
0,20 |
|
20 |
9,9 |
1,36 |
0,26 |
0,17 |
0,99 |
0,42 |
Требуется:
- построить уравнения линейной регрессии, последовательно увеличивая число факторных переменных от одной до пяти;
- определить качество полученных уравнений регрессии и их статистическую значимость;
- оценить статистическую значимость параметров регрессии;
- построить графики остатков для полученных регрессий;
- рассчитать нормированные коэффициенты j для наилучшего уравнения регрессии
Для выполнения задания используется регрессионный метод пакета «Анализ данных» MS Excel.
1) Построим уравнения линейной регрессии. Последовательно увеличивая число факторных переменных от одной до пяти.
а) от одной факторной переменной Х1
Коэффициенты |
||
Y-пересечение |
9,97163595 |
|
Переменная X 1 |
0,399874761 |
у = 9,97163 + 0,399875Х1
б) от двух факторных переменных Х1 и Х2
Коэффициенты |
||
Y-пересечение |
9,706038131 |
|
Переменная X 1 |
0,380673647 |
|
Переменная X 2 |
1,044196257 |
у = 9,70604 + 0,38067Х1 + 1,044196Х2
в) от трех факторных переменных Х1, Х2 и Х3
Коэффициенты |
||
Y-пересечение |
8,653244923 |
|
Переменная X 1 |
0,785736428 |
|
Переменная X 2 |
4,944652942 |
|
Переменная X 3 |
-0,38271741 |
у = 8,653245 + 0,785736Х1 + 4,944653Х2 - 0,38272Х3
г) от четырех факторных переменных Х1, Х2, Х3 и Х4
Коэффициенты |
||
Y-пересечение |
7,677330754 |
|
Переменная X 1 |
-0,235283224 |
|
Переменная X 2 |
3,134736056 |
|
Переменная X 3 |
0,415261305 |
|
Переменная X 4 |
3,600869504 |
у = 7,67733 - 0.23528Х1 + 3,13474Х2 + 0,41526Х3 + 3,6009Х4
д) от пяти факторных переменных Х1, Х2, Х3, Х4 и Х5
Коэффициенты |
||
Y-пересечение |
4,714595106 |
|
Переменная X 1 |
-0,006130619 |
|
Переменная X 2 |
15,54245541 |
|
Переменная X 3 |
0,109899373 |
|
Переменная X 4 |
4,474575267 |
|
Переменная X 5 |
-2,932510898 |
у = 4,7146 - 0,00613Х1 + 15,5425Х2 + 0,1099Х3 + 4.47458Х4 - 2,9325Х5
2) определим качество уравнений регрессии
Для этого определим индекс детерминации для каждого уравнения регрессии.
а) от одной факторной переменной Х1
Регрессионная статистика |
||
Множественный R |
0,430250475 |
|
R-квадрат |
0,185115471 |
|
Нормированный R-квадрат |
0,139844108 |
|
Стандартная ошибка |
1,83226938 |
|
Наблюдения |
20 |
б) от двух факторных переменных Х1 и Х2
Регрессионная статистика |
||
Множественный R |
0,430434127 |
|
R-квадрат |
0,185273538 |
|
Нормированный R-квадрат |
0,089423366 |
|
Стандартная ошибка |
1,88520677 |
|
Наблюдения |
20 |
в) от трех факторных переменных Х1, Х2 и Х3
Регрессионная статистика |
||
Множественный R |
0,441693304 |
|
R-квадрат |
0,195092975 |
|
Нормированный R-квадрат |
0,044172908 |
|
Стандартная ошибка |
1,931480855 |
|
Наблюдения |
20 |
г) от четырех факторных переменных Х1, Х2, Х3 и Х4
Регрессионная статистика |
||
Множественный R |
0,69729285 |
|
R-квадрат |
0,486217319 |
|
Нормированный R-квадрат |
0,349208604 |
|
Стандартная ошибка |
1,593755296 |
|
Наблюдения |
20 |
д) от пяти факторных переменных Х1, Х2, Х3, Х4 и Х5
Регрессионная статистика |
||
Множественный R |
0,719238654 |
|
R-квадрат |
0,517304242 |
|
Нормированный R-квадрат |
0,344912899 |
|
Стандартная ошибка |
1,599006627 |
|
Наблюдения |
20 |
Чем выше индекс детерминации, тем точнее уравнение регрессии. Наивысший R-квадрат наблюдается для пятого уравнения.
3) проверим существенность связи (значимость R-квадрат)
Для этого используют критерий Фишера, который либо сравнивают с критическим значением (F > Fкр - статистически значимая связь), либо сравнивается с показателем значимости б = 0,05 (значимость F < б - статистически значимая связь). Если связь не является статистически значимой, то R-квадрат равен 0. В данном случае значимость критерия Фишера сравнивается с показателем значимости.
а) от одной факторной переменной Х1
Дисперсионный анализ |
||||||
df |
SS |
MS |
F |
Значимость F |
||
Регрессия |
1 |
13,72770055 |
13,7277005 |
4,0890192 |
0,058282142 |
|
Остаток |
18 |
60,42979945 |
3,35721108 |
|||
Итого |
19 |
74,1575 |
Значимость F > б, следовательно, связь не является значимой и R-квадрат приравнивается к 0.
б) от двух факторных переменных Х1 и Х2
Дисперсионный анализ |
||||||
df |
SS |
MS |
F |
Значимость F |
||
Регрессия |
2 |
13,73942239 |
6,869711197 |
1,93294946 |
0,175226784 |
|
Остаток |
17 |
60,41807761 |
3,554004565 |
|||
Итого |
19 |
74,1575 |
Значимость F > б, следовательно, связь не является значимой и R-квадрат приравнивается к 0.
в) от трех факторных переменных Х1, Х2 и Х3
Дисперсионный анализ |
||||||
df |
SS |
MS |
F |
Значимость F |
||
Регрессия |
3 |
14,46760728 |
4,82253576 |
1,292690749 |
0,311003552 |
|
Остаток |
16 |
59,68989272 |
3,7306183 |
|||
Итого |
19 |
74,1575 |
Значимость F > б, следовательно, связь не является значимой и R-квадрат приравнивается к 0.
г) от четырех факторных переменных Х1, Х2, Х3 и Х4
Дисперсионный анализ |
||||||
df |
SS |
MS |
F |
Значимость F |
||
Регрессия |
4 |
36,05666083 |
9,014165208 |
3,5488058 |
0,031476326 |
|
Остаток |
15 |
38,10083917 |
2,540055945 |
|||
Итого |
19 |
74,1575 |
Значимость F < б, следовательно, связь является значимой.
д) от пяти факторных переменных Х1, Х2, Х3, Х4 и Х5
Дисперсионный анализ |
||||||
df |
SS |
MS |
F |
Значимость F |
||
Регрессия |
5 |
38,36198931 |
7,672397861 |
3,00075535 |
0,047874271 |
|
Остаток |
14 |
35,79551069 |
2,556822192 |
|||
Итого |
19 |
74,1575 |
Значимость F < б, следовательно, связь является значимой.
4) проверим значимость каждого коэффициента в уравнении регрессии
Это осуществляется с помощью t-критерия Стьюдента, или по P-уровню. В данном случае Р-значение сравнивается с уровнем значимости б. Если P < б, то проверяемый коэффициент статистически значим, в противном случае Р приравнивается к 0.
а) от одной факторной переменной Х1
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
||
Y-пересечение |
9,97163595 |
0,553769742 |
18,006827 |
5,85084E-13 |
|
Переменная X 1 |
0,399874761 |
0,197749056 |
2,022132338 |
0,058282142 |
Р-значение коэффициента у-пересечения меньше б, коэффициент статистически значим. Р-значение коэффициента переменной Х1 больше б, коэффициент статистически не значим, следовательно он приравнивается к 0.
б) от двух факторных переменных Х1 и Х2
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
||
Y-пересечение |
9,706038131 |
4,659686165 |
2,082981082 |
0,052664 |
|
Переменная X 1 |
0,380673647 |
0,391381766 |
0,97264022 |
0,34436934 |
|
Переменная X 2 |
1,044196257 |
18,18206074 |
0,057430028 |
0,95487228 |
Р-значение коэффициента у-пересечения больше б, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х1 больше б, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х2 больше б, коэффициент статистически не значим, следовательно он приравнивается к 0.
в) от трех факторных переменных Х1, Х2 и Х3
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
||
Y-пересечение |
8,653244923 |
5,335734462 |
1,62175329 |
0,124393179 |
|
Переменная X 1 |
0,785736428 |
1,000690311 |
0,7851944 |
0,443811718 |
|
Переменная X 2 |
4,944652942 |
20,6144942 |
0,23986293 |
0,813482451 |
|
Переменная X 3 |
-0,38271741 |
0,866259074 |
-0,4418048 |
0,664543474 |
Р-значение коэффициента у-пересечения больше б, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х1 больше б, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х2 больше б, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х3 больше б, коэффициент статистически не значим, следовательно, он приравнивается к 0.
г) от четырех факторных переменных Х1, Х2, Х3 и Х4
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
||
Y-пересечение |
7,677330754 |
4,415471592 |
1,738734039 |
0,1025575 |
|
Переменная X 1 |
-0,235283224 |
0,896917246 |
-0,26232434 |
0,7966398 |
|
Переменная X 2 |
3,134736056 |
17,02130971 |
0,184165385 |
0,8563503 |
|
Переменная X 3 |
0,415261305 |
0,765405201 |
0,542537866 |
0,5954176 |
|
Переменная X 4 |
3,600869504 |
1,235128725 |
2,915379937 |
0,0106569 |
Р-значение коэффициента у-пересечения больше б, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х1 больше б, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х2 больше б, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х3 больше б, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х4 меньше б, коэффициент статистически значим.
д) от пяти факторных переменных Х1, Х2, Х3, Х4 и Х5
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
||
Y-пересечение |
4,714595106 |
5,418530581 |
0,870087385 |
0,39892577 |
|
Переменная X 1 |
-0,006130619 |
0,931670562 |
-0,00658024 |
0,99484261 |
|
Переменная X 2 |
15,54245541 |
21,50311175 |
0,72280029 |
0,48170389 |
|
Переменная X 3 |
0,109899373 |
0,832544569 |
0,132004192 |
0,89685934 |
|
Переменная X 4 |
4,474575267 |
1,543454363 |
2,899065481 |
0,01166357 |
|
Переменная X 5 |
-2,932510898 |
3,088328512 |
-0,9495463 |
0,35844766 |
Р-значение коэффициента у-пересечения больше б, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х1 больше б, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х2 больше б, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х3 больше б, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х4 меньше б, коэффициент статистически значим. Р-значение коэффициента переменной Х5 больше б, коэффициент статистически не значим, следовательно он приравнивается к 0.
5) построим графики остатков для полученных регрессий
Исследование графиков остатков определяет границы применения метода наименьших квадратов. Который используется для вычисления коэффициентов уравнения регрессии по наблюдаемым данным.
а) от одной факторной переменной Х1
ВЫВОД ОСТАТКА |
|||
Наблюдение |
Предсказанное Y |
Остатки |
|
1 |
10,60743682 |
0,29256318 |
|
2 |
10,10759337 |
-0,507593369 |
|
3 |
10,9833191 |
-0,783319096 |
|
4 |
11,82305609 |
-0,723056094 |
|
5 |
10,83536543 |
-0,035365434 |
|
6 |
10,83536543 |
-1,035365434 |
|
7 |
10,24355079 |
3,456449212 |
|
8 |
10,11159212 |
-1,311592117 |
|
9 |
10,17957083 |
-2,079570826 |
|
10 |
11,33920763 |
3,360792367 |
|
11 |
10,68341302 |
0,216586975 |
|
12 |
10,93133538 |
0,968664623 |
|
13 |
13,71446371 |
-0,414463714 |
|
14 |
10,65942054 |
0,240579461 |
|
15 |
10,20756206 |
-2,007562059 |
|
16 |
10,08360088 |
-1,683600883 |
|
17 |
10,62743056 |
-1,227430558 |
|
18 |
10,00762468 |
-0,407624679 |
|
19 |
10,00362593 |
4,296374069 |
|
20 |
10,51546563 |
-0,615465625 |
б) от двух факторных переменных Х1 и Х2
ВЫВОД ОСТАТКА |
|||
Наблюдение |
Предсказанное Y |
Остатки |
|
1 |
10,58280026 |
0,317199744 |
|
2 |
10,12784212 |
-0,527842123 |
|
3 |
10,9928433 |
-0,792843297 |
|
4 |
11,88623562 |
-0,786235619 |
|
5 |
10,79978424 |
0,000215765 |
|
6 |
10,84155209 |
-1,041552085 |
|
7 |
10,26771313 |
3,432286875 |
|
8 |
10,11076493 |
-1,310764934 |
|
9 |
10,15459553 |
-2,054595529 |
|
10 |
11,33164284 |
3,368357157 |
|
11 |
10,6968961 |
0,2031039 |
|
12 |
10,95379769 |
0,946202314 |
|
13 |
13,68682197 |
-0,386821969 |
|
14 |
10,65317176 |
0,246828244 |
|
15 |
10,2334525 |
-2,033452497 |
|
16 |
10,08411778 |
-1,684117779 |
|
17 |
10,63315983 |
-1,233159826 |
|
18 |
9,970021936 |
-0,370021936 |
|
19 |
9,997541087 |
4,302458913 |
|
20 |
10,49524532 |
-0,595245318 |
в) от трех факторных переменных Х1, Х2 и Х3
ВЫВОД ОСТАТКА |
|||
Наблюдение |
Предсказанное Y |
Остатки |
|
1 |
10,40360492 |
0,496395084 |
|
2 |
10,12884812 |
-0,528848123 |
|
3 |
11,23251567 |
-1,032515667 |
|
4 |
11,80436564 |
-0,704365637 |
|
5 |
10,80937576 |
-0,009375765 |
|
6 |
10,80432166 |
-1,004321655 |
|
7 |
10,34211134 |
3,357888663 |
|
8 |
10,05312112 |
-1,253121125 |
|
9 |
10,06101304 |
-1,96101304 |
|
10 |
11,71749934 |
2,982500662 |
|
11 |
10,31438311 |
0,585616893 |
|
12 |
10,85833384 |
1,041666164 |
|
13 |
13,58052167 |
-0,280521669 |
|
14 |
10,52427305 |
0,375726945 |
|
15 |
10,32114832 |
-2,121148322 |
|
16 |
10,04404566 |
-1,644045664 |
|
17 |
10,82468895 |
-1,424688946 |
|
18 |
9,792648978 |
-0,192648978 |
|
19 |
9,94078555 |
4,35921445 |
|
20 |
10,94239427 |
-1,042394269 |
г) от четырех факторных переменных Х1, Х2, Х3 и Х4
ВЫВОД ОСТАТКА |
|||
Наблюдение |
Предсказанное Y |
Остатки |
|
1 |
10,12182572 |
0,778174281 |
|
2 |
10,79059376 |
-1,190593761 |
|
3 |
10,15563604 |
0,044363964 |
|
4 |
12,06452054 |
-0,96452054 |
|
5 |
10,28545389 |
0,51454611 |
|
6 |
10,37887096 |
-0,578870958 |
|
7 |
10,24191756 |
3,458082438 |
|
8 |
9,340605344 |
-0,540605344 |
|
9 |
9,230972071 |
-1,130972071 |
|
10 |
14,03171067 |
0,668289333 |
|
11 |
12,15226573 |
-1,252265733 |
|
12 |
10,38634624 |
1,513653763 |
|
13 |
12,91297093 |
0,387029073 |
|
14 |
12,04157325 |
-1,141573247 |
|
15 |
9,164856926 |
-0,964856926 |
|
16 |
8,875139472 |
-0,475139472 |
|
17 |
9,518689903 |
-0,118689903 |
|
18 |
9,914934148 |
-0,314934148 |
|
19 |
11,08328469 |
3,216715313 |
|
20 |
11,80783217 |
-1,907832175 |
д) от пяти факторных переменных Х1, Х2, Х3, Х4 и Х5
ВЫВОД ОСТАТКА |
|||
Наблюдение |
Предсказанное Y |
Остатки |
|
1 |
9,992492103 |
0,907507897 |
|
2 |
9,819494137 |
-0,219494137 |
|
3 |
10,22089248 |
-0,020892476 |
|
4 |
11,8048304 |
-0,704830401 |
|
5 |
10,25565663 |
0,544343368 |
|
6 |
10,59305614 |
-0,793056138 |
|
7 |
10,502809 |
3,197190998 |
|
8 |
9,504705467 |
-0,704705467 |
|
9 |
9,155761357 |
-1,055761357 |
|
10 |
13,83312083 |
0,866879168 |
|
11 |
12,48491132 |
-1,58491132 |
|
12 |
10,74422757 |
1,155772426 |
|
13 |
12,76986667 |
0,530133329 |
|
14 |
12,47493541 |
-1,574935405 |
|
15 |
8,839545704 |
-0,639545704 |
|
16 |
8,749721891 |
-0,349721891 |
|
17 |
10,03042224 |
-0,630422238 |
|
18 |
9,476443695 |
0,123556305 |
|
19 |
11,28295326 |
3,017046744 |
|
20 |
11,9641537 |
-2,064153701 |
6) из пяти моделей отберем наилучшую
Для этого используется скорректированный индекс детерминации (исправленный R-квадрат). При введении дополнительной переменной значение R-квадрат автоматически растет, даже если качество уравнения регрессии уменьшается, поэтому отбор наилучшей модели из набора моделей полученных путем введения дополнительной переменной осуществляется по скорректированному R-квадрат.
Из пункта 2 видно, что наибольшее значение скорректированного R-квадрат имеет уравнение регрессии с четырьмя факторными переменными. Следовательно это уравнение и будет наилучшей моделью.
7) рассчитаем нормированные коэффициенты j для наилучшего уравнения регрессии
ty = 0 + 1tX1 + 2tX2 + 3tX3 + 4tX4 - нормализованная форма уравнения регрессии.
в-коэффициенты позволяют оценить степень влияния фактической переменной на результат в порядковой шкале.
Для расчета в-коэффициентов необходимо рассчитать стандартное квадратичное отклонение для всех переменных.
y |
X1 |
X2 |
X3 |
X4 |
X5 |
||
СКО |
1,925584 |
2,071858 |
0,044598 |
2,639411 |
0,313552 |
0,189565 |
Формула для расчета в-коэффициентов:
Y-пересечение |
8,260524 |
|
Переменная X 1 |
-0,00545 |
|
Переменная X 2 |
4,2968 |
|
Переменная X 3 |
0,067619 |
|
Переменная X 4 |
-0,28869 |
ty = 8,260524 - 0,00545tX1 + 4,2968tX2 + 0.067619tX3 - 0,28869tX4 - нормализованная форма уравнения регрессии.
Заключение
корреляционный статистический регрессионный анализ
Наиболее сложным этапом, завершающим регрессионный анализ, является интерпретация полученных результатов.
Интерпретация моделей регрессии осуществляется методами той отрасли знаний, к которой относятся исследуемые явления. Всякая интерпретация начинается со статистической оценки уравнения регрессии в целом и оценки значимости входящих в модель факторных признаков, т.е. с изучения, как они влияют на величину результативного признака. Чем больше величина коэффициента регрессии, тем значительнее влияние данного признака на моделируемую обработку биржевых ставок. Особое значение при этом имеет знак перед коэффициентом регрессии. Знаки коэффициентов регрессии говорят о характере влияния на результативный признак статистической обработки биржевых ставок. Если факторный признак имеет плюс, то с увеличением данного фактора результативный признак возрастает; если факторный признак со знаком минус, то с его увеличением результативный признак уменьшается. Интерпретация этих знаков полностью определяется социально-экономическим содержанием моделируемого признака. Если его величина изменяется в сторону увеличения, то плюсовые знаки факторных признаков имеют положительное влияние. При изменении результативного признака в сторону снижения положительные значения имеют минусовые знаки факторных признаков.
Регрессионный анализ позволяет определить зависимость между факторами, а так же проследить влияние задействованных факторов. Эти показатели имеют широкое применение в обработке статистических данных [5].
Список использованных источников
1 В.А. Колемаев, О.В. Староверов, В.Б. Турундаевский Теория вероятностей и математическая сатистика / Колемаев В.А., Староверов О.В., Турундаевский В.Б. / М. - 1991.
2 А.А. Френкель, Е.В. Адамова Корреляционно-регрессионный анализ в экономических приложениях / Френкель А.А., Адамова Е.В. / М. - 1987.
3 М. Ланджер Microsoft Office Excel 2003 для Windows / Ланджер М. / «НТ Пресс» - 2005.
4 Дж. Саймон Анализ данных в Excel / Саймон Дж. / «Диалектика» - 2004.
5 И.Д.Одинцов Теория статистики / Одинцов И.Д. / М. - 1998.
Размещено на Allbest.ru
Подобные документы
Функциональные и стохастические связи. Статистические методы моделирования связи. Статистическое моделирование связи методом корреляционного и регрессионного анализа. Проверка адекватности регрессионной модели.
курсовая работа [214,6 K], добавлен 04.09.2007Понятие доверительного интервала, сущность и определение критерия согласия Пирсона. Особенности точечного оценивания неизвестных параметров, основные требования к оценкам и статистикам. Характеристика классической линейной модели регрессионного анализа.
дипломная работа [440,4 K], добавлен 23.07.2013Анализ исследований в области лечения диабета. Использование классификаторов машинного обучения для анализа данных, определение зависимостей и корреляции между переменными, значимых параметров, а также подготовка данных для анализа. Разработка модели.
дипломная работа [256,0 K], добавлен 29.06.2017Алгоритм проведения регрессионного анализа для создания адекватной модели, прогнозирующей цены на бензин на будущий период. Основы разработки программного обеспечения, позволяющего автоматизировать исследования операций в заданной предметной области.
контрольная работа [182,0 K], добавлен 06.02.2013Основные этапы обработки данных натуральных наблюдений методом математической статистики. Оценка полученных результатов, их использование при принятии управленческих решений в области охраны природы и природопользования. Проверка статистических гипотез.
практическая работа [132,1 K], добавлен 24.05.2013Статистика – наука о массовых явлениях в природе и обществе; получение, обработка, анализ данных. Демографическая статистика, прогноз численности населения России. Методы обработки статистических данных: элементы логики, комбинаторики, теории вероятности.
презентация [2,3 M], добавлен 19.12.2012Обзор возможностей финансовых вычислений в Excel. Подключение пакета анализа в Excel. Финансовые функции для расчетов по кредитам и оценкам инвестиций. Синтаксис функции ФУО. Исчисление величины потока платежей, нормы доходности в виде процентной ставки.
отчет по практике [877,0 K], добавлен 31.10.2014Определение математического ожидания и среднеквадратического отклонения с целью подбора закона распределения к выборке статистических данных об отказах элементов автомобиля. Нахождения числа событий в заданном интервале; расчет значения критерия Пирсона.
контрольная работа [336,3 K], добавлен 01.04.2014Прямолинейные, обратные и криволинейные связи. Статистическое моделирование связи методом корреляционного и регрессионного анализа. Метод наименьших квадратов. Оценка значимости коэффициентов регрессии. Проверка адекватности модели по критерию Фишера.
курсовая работа [232,7 K], добавлен 21.05.2015Общее понятие о дисперсионном анализе, его сущность и значение. Использование INTERNET и компьютера для проведения дисперсионного анализа, особенности работы в среде MS Excel. Примеры применения однофакторного и двухфакторного дисперсионного анализа.
курсовая работа [820,4 K], добавлен 17.02.2013