Регрессионный анализ данных средствами Microsoft Excel

Изучение обработки статистических данных методами корреляционного и регрессионного анализа с использованием пакета "Анализ данных программы Microsoft Excel". Суть регрессионного анализа - метода моделирования измеряемых данных и исследования их свойств.

Рубрика Математика
Вид курсовая работа
Язык русский
Дата добавления 10.07.2012
Размер файла 127,0 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Содержание

Введение

1. Регрессионный анализ

2. Пакет «Анализ данных Microsoft Excel»

3. Пример регрессионного анализа данных

Заключение

Список использованных источников

Введение

Обработка статистических данных уже давно применяется в самых разнообразных видах человеческой деятельности. Вообще говоря, трудно назвать ту сферу, в которой она бы не использовалась. Всесторонний и глубокий анализ информации, так называемых статистических данных, предполагает использование различных специальных методов, важное место среди которых занимает корреляционный и регрессионный анализы обработки статистических данных.

Задача выявления факторов, определяющих уровень и динамику какого-либо процесса чаще всего решается методами корреляционного и регрессионного анализа. Для достоверного отображения объективно существующих процессов необходимо выявить существенные взаимосвязи и не только выявить, но и дать им количественную оценку. Этот подход требует вскрытия причинных зависимостей. Под причинной зависимостью понимается такая связь между процессами, когда изменение одного из них является следствием изменения другого [1].

Основными задачами корреляционного анализа являются оценка силы связи и проверка статистических гипотез о наличии и силе корреляционной связи. Не все факторы, влияющие на процессы, являются случайными величинами, поэтому при анализе обычно рассматриваются связи между случайными и неслучайными величинами. Такие связи называются регрессионными, а метод математической статистики, их изучающий, называется регрессионным анализом.

Использование возможностей современной вычислительной техники, оснащенной пакетами программ машинной обработки статистической информации на ЭВМ, делает практически осуществимым оперативное решение задач изучения взаимосвязи показателей биржевых ставок методами корреляционно-регрессионного анализа.

При машинной обработке исходной информации на ЭВМ, оснащенных пакетами стандартных программ ведения анализов, вычисление параметров применяемых математических функций является быстро выполняемой счетной операцией [2].

Данная работа посвящена изучению обработки статистических данных методами корреляционного и регрессионного анализа с использованием пакета «Анализ данных программы Microsoft Excel».

1. Регрессионный анализ

Регрессионный анализ -- метод моделирования измеряемых данных и исследования их свойств. Данные состоят из пар значений зависимой переменной (переменной отклика) и независимой переменной (объясняющей переменной). Регрессионная модель есть функция независимой переменной и параметров с добавленной случайной переменной.

Корреляционный анализ и регрессионный анализ являются смежными разделами математической статистики, и предназначаются для изучения по выборочным данным статистической зависимости ряда величин; некоторые из которых являются случайными. При статистической зависимости величины не связаны функционально, но как случайные величины заданы совместным распределением вероятностей.

Исследование зависимости случайных величин приводит к моделям регрессии и регрессионному анализу на базе выборочных данных. Теория вероятностей и математическая статистика представляют лишь инструмент для изучения статистической зависимости, но не ставят своей целью установление причинной связи. Представления и гипотезы о причинной связи должны быть привнесены из некоторой другой теории, которая позволяет содержательно объяснить изучаемое явление.

Числовые данные обычно имеют между собой явные (известные) или неявные (скрытые) связи.

Явно связаны показатели, которые получены методами прямого счета, т. е. вычислены по заранее известным формулам. Например, проценты выполнения плана, уровни, удельные веса, отклонения в сумме, отклонения в процентах, темпы роста, темпы прироста, индексы и т. д.

Связи же второго типа (неявные) заранее неизвестны. Однако необходимо уметь объяснять и предсказывать (прогнозировать) сложные явления для того, чтобы управлять ими. Поэтому специалисты с помощью наблюдений стремятся выявить скрытые зависимости и выразить их в виде формул, т. е. математически смоделировать явления или процессы. Одну из таких возможностей предоставляет корреляционно-регрессионный анализ.

Математические модели строятся и используются для трех обобщенных целей:

* для объяснения;

* для предсказания;

* для управления.

Пользуясь методами корреляционно-регрессионного анализа, аналитики измеряют тесноту связей показателей с помощью коэффициента корреляции. При этом обнаруживаются связи, различные по силе (сильные, слабые, умеренные и др.) и различные по направлению (прямые, обратные). Если связи окажутся существенными, то целесообразно будет найти их математическое выражение в виде регрессионной модели и оценить статистическую значимость модели.

Регрессионный анализ называют основным методом современной математической статистики для выявления неявных и завуалированных связей между данными наблюдений.

Постановка задачи регрессионного анализа формулируется следующим образом.

Имеется совокупность результатов наблюдений. В этой совокупности один столбец соответствует показателю, для которого необходимо установить функциональную зависимость с параметрами объекта и среды, представленными остальными столбцами. Требуется: установить количественную взаимосвязь между показателем и факторами. В таком случае задача регрессионного анализа понимается как задача выявления такой функциональной зависимости y = f (x2, x3, …, xт), которая наилучшим образом описывает имеющиеся экспериментальные данные.

Допущения:

количество наблюдений достаточно для проявления статистических закономерностей относительно факторов и их взаимосвязей;

обрабатываемые данные содержат некоторые ошибки (помехи), обусловленные погрешностями измерений, воздействием неучтенных случайных факторов;

матрица результатов наблюдений является единственной информацией об изучаемом объекте, имеющейся в распоряжении перед началом исследования.

Функция f (x2, x3, …, xт), описывающая зависимость показателя от параметров, называется уравнением (функцией) регрессии. Термин "регрессия" (regression (лат.) - отступление, возврат к чему-либо) связан со спецификой одной из конкретных задач, решенных на стадии становления метода.

Решение задачи регрессионного анализа целесообразно разбить на несколько этапов:

предварительная обработка данных;

выбор вида уравнений регрессии;

вычисление коэффициентов уравнения регрессии;

проверка адекватности построенной функции результатам наблюдений.

Предварительная обработка включает стандартизацию матрицы данных, расчет коэффициентов корреляции, проверку их значимости и исключение из рассмотрения незначимых параметров.

Выбор вида уравнения регрессии Задача определения функциональной зависимости, наилучшим образом описывающей данные, связана с преодолением ряда принципиальных трудностей. В общем случае для стандартизованных данных функциональную зависимость показателя от параметров можно представить в виде

y = f (x1, x2, …, xm) + e

где f - заранее не известная функция, подлежащая определению;

e - ошибка аппроксимации данных.

Указанное уравнение принято называть выборочным уравнением регрессии. Это уравнение характеризует зависимость между вариацией показателя и вариациями факторов. А мера корреляции измеряет долю вариации показателя, которая связана с вариацией факторов. Иначе говоря, корреляцию показателя и факторов нельзя трактовать как связь их уровней, а регрессионный анализ не объясняет роли факторов в создании показателя.

Еще одна особенность касается оценки степени влияния каждого фактора на показатель. Регрессионное уравнение не обеспечивает оценку раздельного влияния каждого фактора на показатель, такая оценка возможна лишь в случае, когда все другие факторы не связаны с изучаемым. Если изучаемый фактор связан с другими, влияющими на показатель, то будет получена смешанная характеристика влияния фактора. Эта характеристика содержит как непосредственное влияние фактора, так и опосредованное влияние, оказанное через связь с другими факторами и их влиянием на показатель.

В регрессионное уравнение не рекомендуется включать факторы, слабо связанные с показателем, но тесно связанные с другими факторами. Не включают в уравнение и факторы, функционально связанные друг с другом (для них коэффициент корреляции равен 1). Включение таких факторов приводит к вырождению системы уравнений для оценок коэффициентов регрессии и к неопределенности решения.

Функция f должна подбираться так, чтобы ошибка e в некотором смысле была минимальна. В целях выбора функциональной связи заранее выдвигают гипотезу о том, к какому классу может принадлежать функция f, а затем подбирают "лучшую" функцию в этом классе. Выбранный класс функций должен обладать некоторой "гладкостью", т.е. "небольшие" изменения значений аргументов должны вызывать "небольшие" изменения значений функции.

Частным случаем, широко применяемым на практике, является полином первой степени или уравнение линейной регрессии

Для выбора вида функциональной зависимости можно рекомендовать следующий подход:

в пространстве параметров графически отображают точки со значениями показателя. При большом количестве параметров можно строить точки применительно к каждому из них, получая двумерные распределения значений;

по расположению точек и на основе анализа сущности взаимосвязи показателя и параметров объекта делают заключение о примерном виде регрессии или ее возможных вариантах;

после расчета параметров оценивают качество аппроксимации, т.е. оценивают степень близости расчетных и фактических значений;

если расчетные и фактические значения близки во всей области задания, то задачу регрессионного анализа можно считать решенной. В противном случае можно попытаться выбрать другой вид полинома или другую аналитическую функцию, например периодическую.

Вычисление коэффициентов уравнения регрессии

Систему уравнений на основе имеющихся данных однозначно решить невозможно, так как количество неизвестных всегда больше количества уравнений. Для преодоления этой проблемы нужны дополнительные допущения. Здравый смысл подсказывает: желательно выбрать коэффициенты полинома так, чтобы обеспечить минимум ошибки аппроксимации данных. Могут применяться различные меры для оценки ошибок аппроксимации. В качестве такой меры нашла широкое применение среднеквадратическая ошибка. На ее основе разработан специальный метод оценки коэффициентов уравнений регрессии - метод наименьших квадратов (МНК). Этот метод позволяет получить оценки максимального правдоподобия неизвестных коэффициентов уравнения регрессии при нормальном распределения вариант, но его можно применять и при любом другом распределении факторов.

В основе МНК лежат следующие положения:

значения величин ошибок и факторов независимы, а значит, и некоррелированы, т.е. предполагается, что механизмы порождения помехи не связаны с механизмом формирования значений факторов;

математическое ожидание ошибки e должно быть равно нулю (постоянная составляющая входит в коэффициент a0), иначе говоря, ошибка является центрированной величиной;

выборочная оценка дисперсии ошибки должна быть минимальна.

Если же линейная модель неточна или параметры измеряются неточно, то и в этом случае МНК позволяет найти такие значения коэффициентов, при которых линейная модель наилучшим образом описывает реальный объект в смысле выбранного критерия среднеквадратического отклонения.

Качество полученного уравнения регрессии оценивают по степени близости между результатами наблюдений за показателем и предсказанными по уравнению регрессии значениями в заданных точках пространства параметров. Если результаты близки, то задачу регрессионного анализа можно считать решенной. В противном случае следует изменить уравнение регрессии и повторить расчеты по оценке параметров.

При наличии нескольких показателей задача регрессионного анализа решается независимо для каждого из них.

Анализируя сущность уравнения регрессии, следует отметить следующие положения. Рассмотренный подход не обеспечивает раздельной (независимой) оценки коэффициентов - изменение значения одного коэффициента влечет изменение значений других. Полученные коэффициенты не следует рассматривать как вклад соответствующего параметра в значение показателя. Уравнение регрессии является всего лишь хорошим аналитическим описанием имеющихся данных, а не законом, описывающим взаимосвязи параметров и показателя. Это уравнение применяют для расчета значений показателя в заданном диапазоне изменения параметров. Оно ограниченно пригодно для расчета вне этого диапазона, т.е. его можно применять для решения задач интерполяции и в ограниченной степени для экстраполяции.

Главной причиной неточности прогноза является не столько неопределенность экстраполяции линии регрессии, сколько значительная вариация показателя за счет неучтенных в модели факторов. Ограничением возможности прогнозирования служит условие стабильности неучтенных в модели параметров и характера влияния учтенных факторов модели. Если резко меняется внешняя среда, то составленное уравнение регрессии потеряет свой смысл.

Прогноз, полученный подстановкой в уравнение регрессии ожидаемого значения параметра, является точечным. Вероятность реализации такого прогноза ничтожна мала. Целесообразно определить доверительный интервал прогноза. Для индивидуальных значений показателя интервал должен учитывать ошибки в положении линии регрессии и отклонения индивидуальных значений от этой линии [2].

2. Пакет Анализ данных Microsoft Excel

Анализ данных - область информатики, занимающаяся построением и исследованием наиболее общих математических методов и вычислительных алгоритмов извлечения знаний из экспериментальных (в широком смысле) данных.

Ms Excel представляет широкие возможности для проведения анализа данных, находящихся в списке. К средствам анализа относятся:

· Обработка списка с помощью различных формул и функций;

· Построение диаграмм и использование карт Ms Excel;

· Проверка данных рабочих листов и рабочих книг на наличие ошибок;

· Структуризация рабочих листов;

· Автоматическое подведение итогов (включая мастер частичных сумм);

· Консолидация данных;

· Сводные таблицы;

· Специальные средства анализа выборочных записей и данных - подбор параметра, поиск решения, сценарии и др [3].

В состав Microsoft Excel входит набор средств анализа данных (так называемый пакет анализа), предназначенный для решения сложных статистических и инженерных задач. Для проведения анализа данных с помощью этих инструментов следует указать входные данные и выбрать параметры; анализ будет проведен с помощью подходящей статистической или инженерной макрофункции, а результат будет помещен в выходной диапазон. Другие средства позволяют представить результаты анализа в графическом виде.

Статистические данные приводятся в виде длинных и сложных статистических таблиц, поэтому бывает весьма трудно обнаружить в них имеющиеся неточности и ошибки.

Графическое же представление статистических данных помогает легко и быстро выявить ничем не оправданные пики и впадины, явно не соответствующие изображаемым статистическим данным, аномалии и отклонения.

Графическое представление статистических данных является не только средством иллюстрации статистических данных и контроля их правильности и достоверности. Благодаря своим свойствам оно является важным средством толкования и анализа статистических данных, а в некоторых случаях - единственным и незаменимым способом их обобщения и познания.

Регрессия является инструментом пакета анализа данных Microsoft Excel. Линейный регрессионный анализ заключается в подборе графика для набора наблюдений с помощью метода наименьших квадратов. Регрессия используется для анализа воздействия на отдельную зависимую переменную значений одной или более независимых переменных [4].

3. Пример регрессионного анализа данных

Имеется матрица данных следующего вида

y

X1

X2

X3

X4

X5

1

10,9

1,59

0,26

2,05

0,32

0,14

2

9,6

0,34

0,28

0,46

0,59

0,66

3

10,2

2,53

0,31

2,46

0,30

0,31

4

11,1

4,63

0,40

6,44

0,43

0,59

5

10,8

2,16

0,26

2,16

0,39

0,16

6

9,8

2,16

0,30

2,69

0,32

0,17

7

13,7

0,68

0,29

0,73

0,42

0,23

8

8,8

0,35

0,26

0,42

0,21

0,08

9

8,1

0,52

0,24

0,49

0,20

0,08

10

14,7

3,42

0,31

3,02

1,37

0,73

11

10,9

1,78

0,30

3,19

0,73

0,17

12

11,9

2,40

0,32

3,30

0,25

0,14

13

13,3

9,36

0,40

11,51

0,39

0,38

14

10,9

1,72

0,28

2,26

0,82

0,17

15

8,2

0,59

0,29

0,60

0,13

0,35

16

8,4

0,28

0,26

0,30

0,09

0,15

17

9,4

1,64

0,29

1,44

0,20

0,08

18

9,6

0,09

0,22

0,05

0,43

0,20

19

14,3

0,08

0,25

0,03

0,73

0,20

20

9,9

1,36

0,26

0,17

0,99

0,42

Требуется:

- построить уравнения линейной регрессии, последовательно увеличивая число факторных переменных от одной до пяти;

- определить качество полученных уравнений регрессии и их статистическую значимость;

- оценить статистическую значимость параметров регрессии;

- построить графики остатков для полученных регрессий;

- рассчитать нормированные коэффициенты j для наилучшего уравнения регрессии

Для выполнения задания используется регрессионный метод пакета «Анализ данных» MS Excel.

1) Построим уравнения линейной регрессии. Последовательно увеличивая число факторных переменных от одной до пяти.

а) от одной факторной переменной Х1

Коэффициенты

Y-пересечение

9,97163595

Переменная X 1

0,399874761

у = 9,97163 + 0,399875Х1

б) от двух факторных переменных Х1 и Х2

Коэффициенты

Y-пересечение

9,706038131

Переменная X 1

0,380673647

Переменная X 2

1,044196257

у = 9,70604 + 0,38067Х1 + 1,044196Х2

в) от трех факторных переменных Х1, Х2 и Х3

Коэффициенты

Y-пересечение

8,653244923

Переменная X 1

0,785736428

Переменная X 2

4,944652942

Переменная X 3

-0,38271741

у = 8,653245 + 0,785736Х1 + 4,944653Х2 - 0,38272Х3

г) от четырех факторных переменных Х1, Х2, Х3 и Х4

Коэффициенты

Y-пересечение

7,677330754

Переменная X 1

-0,235283224

Переменная X 2

3,134736056

Переменная X 3

0,415261305

Переменная X 4

3,600869504

у = 7,67733 - 0.23528Х1 + 3,13474Х2 + 0,41526Х3 + 3,6009Х4

д) от пяти факторных переменных Х1, Х2, Х3, Х4 и Х5

Коэффициенты

Y-пересечение

4,714595106

Переменная X 1

-0,006130619

Переменная X 2

15,54245541

Переменная X 3

0,109899373

Переменная X 4

4,474575267

Переменная X 5

-2,932510898

у = 4,7146 - 0,00613Х1 + 15,5425Х2 + 0,1099Х3 + 4.47458Х4 - 2,9325Х5

2) определим качество уравнений регрессии

Для этого определим индекс детерминации для каждого уравнения регрессии.

а) от одной факторной переменной Х1

Регрессионная статистика

Множественный R

0,430250475

R-квадрат

0,185115471

Нормированный R-квадрат

0,139844108

Стандартная ошибка

1,83226938

Наблюдения

20

б) от двух факторных переменных Х1 и Х2

Регрессионная статистика

Множественный R

0,430434127

R-квадрат

0,185273538

Нормированный R-квадрат

0,089423366

Стандартная ошибка

1,88520677

Наблюдения

20

в) от трех факторных переменных Х1, Х2 и Х3

Регрессионная статистика

Множественный R

0,441693304

R-квадрат

0,195092975

Нормированный R-квадрат

0,044172908

Стандартная ошибка

1,931480855

Наблюдения

20

г) от четырех факторных переменных Х1, Х2, Х3 и Х4

Регрессионная статистика

Множественный R

0,69729285

R-квадрат

0,486217319

Нормированный R-квадрат

0,349208604

Стандартная ошибка

1,593755296

Наблюдения

20

д) от пяти факторных переменных Х1, Х2, Х3, Х4 и Х5

Регрессионная статистика

Множественный R

0,719238654

R-квадрат

0,517304242

Нормированный R-квадрат

0,344912899

Стандартная ошибка

1,599006627

Наблюдения

20

Чем выше индекс детерминации, тем точнее уравнение регрессии. Наивысший R-квадрат наблюдается для пятого уравнения.

3) проверим существенность связи (значимость R-квадрат)

Для этого используют критерий Фишера, который либо сравнивают с критическим значением (F > Fкр - статистически значимая связь), либо сравнивается с показателем значимости б = 0,05 (значимость F < б - статистически значимая связь). Если связь не является статистически значимой, то R-квадрат равен 0. В данном случае значимость критерия Фишера сравнивается с показателем значимости.

а) от одной факторной переменной Х1

Дисперсионный анализ

df

SS

MS

F

Значимость F

Регрессия

1

13,72770055

13,7277005

4,0890192

0,058282142

Остаток

18

60,42979945

3,35721108

Итого

19

74,1575

Значимость F > б, следовательно, связь не является значимой и R-квадрат приравнивается к 0.

б) от двух факторных переменных Х1 и Х2

Дисперсионный анализ

df

SS

MS

F

Значимость F

Регрессия

2

13,73942239

6,869711197

1,93294946

0,175226784

Остаток

17

60,41807761

3,554004565

Итого

19

74,1575

Значимость F > б, следовательно, связь не является значимой и R-квадрат приравнивается к 0.

в) от трех факторных переменных Х1, Х2 и Х3

Дисперсионный анализ

df

SS

MS

F

Значимость F

Регрессия

3

14,46760728

4,82253576

1,292690749

0,311003552

Остаток

16

59,68989272

3,7306183

Итого

19

74,1575

Значимость F > б, следовательно, связь не является значимой и R-квадрат приравнивается к 0.

г) от четырех факторных переменных Х1, Х2, Х3 и Х4

Дисперсионный анализ

df

SS

MS

F

Значимость F

Регрессия

4

36,05666083

9,014165208

3,5488058

0,031476326

Остаток

15

38,10083917

2,540055945

Итого

19

74,1575

Значимость F < б, следовательно, связь является значимой.

д) от пяти факторных переменных Х1, Х2, Х3, Х4 и Х5

Дисперсионный анализ

df

SS

MS

F

Значимость F

Регрессия

5

38,36198931

7,672397861

3,00075535

0,047874271

Остаток

14

35,79551069

2,556822192

Итого

19

74,1575

Значимость F < б, следовательно, связь является значимой.

4) проверим значимость каждого коэффициента в уравнении регрессии

Это осуществляется с помощью t-критерия Стьюдента, или по P-уровню. В данном случае Р-значение сравнивается с уровнем значимости б. Если P < б, то проверяемый коэффициент статистически значим, в противном случае Р приравнивается к 0.

а) от одной факторной переменной Х1

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Y-пересечение

9,97163595

0,553769742

18,006827

5,85084E-13

Переменная X 1

0,399874761

0,197749056

2,022132338

0,058282142

Р-значение коэффициента у-пересечения меньше б, коэффициент статистически значим. Р-значение коэффициента переменной Х1 больше б, коэффициент статистически не значим, следовательно он приравнивается к 0.

б) от двух факторных переменных Х1 и Х2

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Y-пересечение

9,706038131

4,659686165

2,082981082

0,052664

Переменная X 1

0,380673647

0,391381766

0,97264022

0,34436934

Переменная X 2

1,044196257

18,18206074

0,057430028

0,95487228

Р-значение коэффициента у-пересечения больше б, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х1 больше б, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х2 больше б, коэффициент статистически не значим, следовательно он приравнивается к 0.

в) от трех факторных переменных Х1, Х2 и Х3

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Y-пересечение

8,653244923

5,335734462

1,62175329

0,124393179

Переменная X 1

0,785736428

1,000690311

0,7851944

0,443811718

Переменная X 2

4,944652942

20,6144942

0,23986293

0,813482451

Переменная X 3

-0,38271741

0,866259074

-0,4418048

0,664543474

Р-значение коэффициента у-пересечения больше б, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х1 больше б, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х2 больше б, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х3 больше б, коэффициент статистически не значим, следовательно, он приравнивается к 0.

г) от четырех факторных переменных Х1, Х2, Х3 и Х4

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Y-пересечение

7,677330754

4,415471592

1,738734039

0,1025575

Переменная X 1

-0,235283224

0,896917246

-0,26232434

0,7966398

Переменная X 2

3,134736056

17,02130971

0,184165385

0,8563503

Переменная X 3

0,415261305

0,765405201

0,542537866

0,5954176

Переменная X 4

3,600869504

1,235128725

2,915379937

0,0106569

Р-значение коэффициента у-пересечения больше б, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х1 больше б, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х2 больше б, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х3 больше б, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х4 меньше б, коэффициент статистически значим.

д) от пяти факторных переменных Х1, Х2, Х3, Х4 и Х5

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Y-пересечение

4,714595106

5,418530581

0,870087385

0,39892577

Переменная X 1

-0,006130619

0,931670562

-0,00658024

0,99484261

Переменная X 2

15,54245541

21,50311175

0,72280029

0,48170389

Переменная X 3

0,109899373

0,832544569

0,132004192

0,89685934

Переменная X 4

4,474575267

1,543454363

2,899065481

0,01166357

Переменная X 5

-2,932510898

3,088328512

-0,9495463

0,35844766

Р-значение коэффициента у-пересечения больше б, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х1 больше б, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х2 больше б, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х3 больше б, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х4 меньше б, коэффициент статистически значим. Р-значение коэффициента переменной Х5 больше б, коэффициент статистически не значим, следовательно он приравнивается к 0.

5) построим графики остатков для полученных регрессий

Исследование графиков остатков определяет границы применения метода наименьших квадратов. Который используется для вычисления коэффициентов уравнения регрессии по наблюдаемым данным.

а) от одной факторной переменной Х1

ВЫВОД ОСТАТКА

Наблюдение

Предсказанное Y

Остатки

1

10,60743682

0,29256318

2

10,10759337

-0,507593369

3

10,9833191

-0,783319096

4

11,82305609

-0,723056094

5

10,83536543

-0,035365434

6

10,83536543

-1,035365434

7

10,24355079

3,456449212

8

10,11159212

-1,311592117

9

10,17957083

-2,079570826

10

11,33920763

3,360792367

11

10,68341302

0,216586975

12

10,93133538

0,968664623

13

13,71446371

-0,414463714

14

10,65942054

0,240579461

15

10,20756206

-2,007562059

16

10,08360088

-1,683600883

17

10,62743056

-1,227430558

18

10,00762468

-0,407624679

19

10,00362593

4,296374069

20

10,51546563

-0,615465625

б) от двух факторных переменных Х1 и Х2

ВЫВОД ОСТАТКА

Наблюдение

Предсказанное Y

Остатки

1

10,58280026

0,317199744

2

10,12784212

-0,527842123

3

10,9928433

-0,792843297

4

11,88623562

-0,786235619

5

10,79978424

0,000215765

6

10,84155209

-1,041552085

7

10,26771313

3,432286875

8

10,11076493

-1,310764934

9

10,15459553

-2,054595529

10

11,33164284

3,368357157

11

10,6968961

0,2031039

12

10,95379769

0,946202314

13

13,68682197

-0,386821969

14

10,65317176

0,246828244

15

10,2334525

-2,033452497

16

10,08411778

-1,684117779

17

10,63315983

-1,233159826

18

9,970021936

-0,370021936

19

9,997541087

4,302458913

20

10,49524532

-0,595245318

в) от трех факторных переменных Х1, Х2 и Х3

ВЫВОД ОСТАТКА

Наблюдение

Предсказанное Y

Остатки

1

10,40360492

0,496395084

2

10,12884812

-0,528848123

3

11,23251567

-1,032515667

4

11,80436564

-0,704365637

5

10,80937576

-0,009375765

6

10,80432166

-1,004321655

7

10,34211134

3,357888663

8

10,05312112

-1,253121125

9

10,06101304

-1,96101304

10

11,71749934

2,982500662

11

10,31438311

0,585616893

12

10,85833384

1,041666164

13

13,58052167

-0,280521669

14

10,52427305

0,375726945

15

10,32114832

-2,121148322

16

10,04404566

-1,644045664

17

10,82468895

-1,424688946

18

9,792648978

-0,192648978

19

9,94078555

4,35921445

20

10,94239427

-1,042394269

г) от четырех факторных переменных Х1, Х2, Х3 и Х4

ВЫВОД ОСТАТКА

Наблюдение

Предсказанное Y

Остатки

1

10,12182572

0,778174281

2

10,79059376

-1,190593761

3

10,15563604

0,044363964

4

12,06452054

-0,96452054

5

10,28545389

0,51454611

6

10,37887096

-0,578870958

7

10,24191756

3,458082438

8

9,340605344

-0,540605344

9

9,230972071

-1,130972071

10

14,03171067

0,668289333

11

12,15226573

-1,252265733

12

10,38634624

1,513653763

13

12,91297093

0,387029073

14

12,04157325

-1,141573247

15

9,164856926

-0,964856926

16

8,875139472

-0,475139472

17

9,518689903

-0,118689903

18

9,914934148

-0,314934148

19

11,08328469

3,216715313

20

11,80783217

-1,907832175

д) от пяти факторных переменных Х1, Х2, Х3, Х4 и Х5

ВЫВОД ОСТАТКА

Наблюдение

Предсказанное Y

Остатки

1

9,992492103

0,907507897

2

9,819494137

-0,219494137

3

10,22089248

-0,020892476

4

11,8048304

-0,704830401

5

10,25565663

0,544343368

6

10,59305614

-0,793056138

7

10,502809

3,197190998

8

9,504705467

-0,704705467

9

9,155761357

-1,055761357

10

13,83312083

0,866879168

11

12,48491132

-1,58491132

12

10,74422757

1,155772426

13

12,76986667

0,530133329

14

12,47493541

-1,574935405

15

8,839545704

-0,639545704

16

8,749721891

-0,349721891

17

10,03042224

-0,630422238

18

9,476443695

0,123556305

19

11,28295326

3,017046744

20

11,9641537

-2,064153701

6) из пяти моделей отберем наилучшую

Для этого используется скорректированный индекс детерминации (исправленный R-квадрат). При введении дополнительной переменной значение R-квадрат автоматически растет, даже если качество уравнения регрессии уменьшается, поэтому отбор наилучшей модели из набора моделей полученных путем введения дополнительной переменной осуществляется по скорректированному R-квадрат.

Из пункта 2 видно, что наибольшее значение скорректированного R-квадрат имеет уравнение регрессии с четырьмя факторными переменными. Следовательно это уравнение и будет наилучшей моделью.

7) рассчитаем нормированные коэффициенты j для наилучшего уравнения регрессии

ty = 0 + 1tX1 + 2tX2 + 3tX3 + 4tX4 - нормализованная форма уравнения регрессии.

в-коэффициенты позволяют оценить степень влияния фактической переменной на результат в порядковой шкале.

Для расчета в-коэффициентов необходимо рассчитать стандартное квадратичное отклонение для всех переменных.

y

X1

X2

X3

X4

X5

СКО

1,925584

2,071858

0,044598

2,639411

0,313552

0,189565

Формула для расчета в-коэффициентов:

Y-пересечение

8,260524

Переменная X 1

-0,00545

Переменная X 2

4,2968

Переменная X 3

0,067619

Переменная X 4

-0,28869

ty = 8,260524 - 0,00545tX1 + 4,2968tX2 + 0.067619tX3 - 0,28869tX4 - нормализованная форма уравнения регрессии.

Заключение

корреляционный статистический регрессионный анализ

Наиболее сложным этапом, завершающим регрессионный анализ, является интерпретация полученных результатов.

Интерпретация моделей регрессии осуществляется методами той отрасли знаний, к которой относятся исследуемые явления. Всякая интерпретация начинается со статистической оценки уравнения регрессии в целом и оценки значимости входящих в модель факторных признаков, т.е. с изучения, как они влияют на величину результативного признака. Чем больше величина коэффициента регрессии, тем значительнее влияние данного признака на моделируемую обработку биржевых ставок. Особое значение при этом имеет знак перед коэффициентом регрессии. Знаки коэффициентов регрессии говорят о характере влияния на результативный признак статистической обработки биржевых ставок. Если факторный признак имеет плюс, то с увеличением данного фактора результативный признак возрастает; если факторный признак со знаком минус, то с его увеличением результативный признак уменьшается. Интерпретация этих знаков полностью определяется социально-экономическим содержанием моделируемого признака. Если его величина изменяется в сторону увеличения, то плюсовые знаки факторных признаков имеют положительное влияние. При изменении результативного признака в сторону снижения положительные значения имеют минусовые знаки факторных признаков.

Регрессионный анализ позволяет определить зависимость между факторами, а так же проследить влияние задействованных факторов. Эти показатели имеют широкое применение в обработке статистических данных [5].

Список использованных источников

1 В.А. Колемаев, О.В. Староверов, В.Б. Турундаевский Теория вероятностей и математическая сатистика / Колемаев В.А., Староверов О.В., Турундаевский В.Б. / М. - 1991.

2 А.А. Френкель, Е.В. Адамова Корреляционно-регрессионный анализ в экономических приложениях / Френкель А.А., Адамова Е.В. / М. - 1987.

3 М. Ланджер Microsoft Office Excel 2003 для Windows / Ланджер М. / «НТ Пресс» - 2005.

4 Дж. Саймон Анализ данных в Excel / Саймон Дж. / «Диалектика» - 2004.

5 И.Д.Одинцов Теория статистики / Одинцов И.Д. / М. - 1998.

Размещено на Allbest.ru


Подобные документы

  • Функциональные и стохастические связи. Статистические методы моделирования связи. Статистическое моделирование связи методом корреляционного и регрессионного анализа. Проверка адекватности регрессионной модели.

    курсовая работа [214,6 K], добавлен 04.09.2007

  • Понятие доверительного интервала, сущность и определение критерия согласия Пирсона. Особенности точечного оценивания неизвестных параметров, основные требования к оценкам и статистикам. Характеристика классической линейной модели регрессионного анализа.

    дипломная работа [440,4 K], добавлен 23.07.2013

  • Анализ исследований в области лечения диабета. Использование классификаторов машинного обучения для анализа данных, определение зависимостей и корреляции между переменными, значимых параметров, а также подготовка данных для анализа. Разработка модели.

    дипломная работа [256,0 K], добавлен 29.06.2017

  • Алгоритм проведения регрессионного анализа для создания адекватной модели, прогнозирующей цены на бензин на будущий период. Основы разработки программного обеспечения, позволяющего автоматизировать исследования операций в заданной предметной области.

    контрольная работа [182,0 K], добавлен 06.02.2013

  • Основные этапы обработки данных натуральных наблюдений методом математической статистики. Оценка полученных результатов, их использование при принятии управленческих решений в области охраны природы и природопользования. Проверка статистических гипотез.

    практическая работа [132,1 K], добавлен 24.05.2013

  • Статистика – наука о массовых явлениях в природе и обществе; получение, обработка, анализ данных. Демографическая статистика, прогноз численности населения России. Методы обработки статистических данных: элементы логики, комбинаторики, теории вероятности.

    презентация [2,3 M], добавлен 19.12.2012

  • Обзор возможностей финансовых вычислений в Excel. Подключение пакета анализа в Excel. Финансовые функции для расчетов по кредитам и оценкам инвестиций. Синтаксис функции ФУО. Исчисление величины потока платежей, нормы доходности в виде процентной ставки.

    отчет по практике [877,0 K], добавлен 31.10.2014

  • Определение математического ожидания и среднеквадратического отклонения с целью подбора закона распределения к выборке статистических данных об отказах элементов автомобиля. Нахождения числа событий в заданном интервале; расчет значения критерия Пирсона.

    контрольная работа [336,3 K], добавлен 01.04.2014

  • Прямолинейные, обратные и криволинейные связи. Статистическое моделирование связи методом корреляционного и регрессионного анализа. Метод наименьших квадратов. Оценка значимости коэффициентов регрессии. Проверка адекватности модели по критерию Фишера.

    курсовая работа [232,7 K], добавлен 21.05.2015

  • Общее понятие о дисперсионном анализе, его сущность и значение. Использование INTERNET и компьютера для проведения дисперсионного анализа, особенности работы в среде MS Excel. Примеры применения однофакторного и двухфакторного дисперсионного анализа.

    курсовая работа [820,4 K], добавлен 17.02.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.