Регрессионный анализ. Линейная регрессия

Построение уравнения регрессии с помощью метода наименьших квадратов. Матричный подход в регрессионном анализе. Оценка вариации уравнения регрессии и проверка гипотез о наклоне и коэффициенте корреляции. Оценка математического ожидания значений отклика.

Рубрика Экономико-математическое моделирование
Вид учебное пособие
Язык русский
Дата добавления 22.11.2012
Размер файла 249,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

1

Учебный модуль

Регрессионный анализ. Линейная регрессия

2009

Учебный модуль «Регрессионный анализ» предназначен для студентов специальности «Управление качеством». Основная направленность модуля углубленное и самостоятельное изучение студентами дисциплины «Статистические методы в управлении качеством».

Модуль может быть использован также при подготовке студентов к государственному экзамену и в процессе дипломного проектирования, а также в процессе подготовки аспирантов по специальности 05.02.23 «Стандартизация и управление качеством продукции».

Модуль рассчитан также на широкий круг лиц, занимающихся разработкой систем качества и практическим управлением качеством.

Требования к уровню подготовки студентов:

Студенты должны предварительно освоить курс «Математическая статистика», знать основные статистические законы и формулы вычисления их параметров: математического ожидания; дисперсии; коэффициента корреляции.

В результате изучения данного модуля и выполнения самостоятельной работы студент должен овладеть следующими компетенциями:

* Уметь применять методологию регрессионного анализа в различных областях производственной и управленческой деятельности и знать условия его применения

* Применять регрессионный анализ для предсказания значений зависимой переменной по значениям независимой

* Понимать смысл регрессионных коэффициентов b0 и b1

* Оценивать предположения, которые должны выполняться при регрессионном анализе, и выявлять их нарушения

* Делать выводы о параметрах регрессионной модели и коэффициенте корреляции

* Оценивать средние значения и предсказывать индивидуальные величины

* Уметь решать задачи регрессионного анализа в матричной форме

* Прогнозировать динамику, тенденции развития объекта, процесса, задач, проблем, их систем, пользоваться для этого формализованными моделями и методами регрессионного анализа

* Осуществлять мониторинг и оценку прогресса в области улучшения качества на основе методологии регрессионного анализа

* Уметь анализировать состояние и динамику показателей развития систем управления качеством продукции и услуг

*Уметь разрабатывать вербальные модели бизнес-процессов, качество функционирования которых может быть описано уравнением линейной регрессии.

Качество усвоения студентами данного модуля оценивается по результатам защиты индивидуальной контрольной работы, оформляемой каждым студентом в письменном виде.

Содержание учебного модуля

Введение

1. Методы максимального правдоподобия и наименьших квадратов

2. Общий случай построения уравнения регрессии с помощью МНК

3. Матричный подход в регрессионном анализе

4. Решение задачи регрессионного анализа в случае ортогонального плана

5. Оценка вариации уравнения регрессии

6. Условия применения регрессионного анализа

7. Проверка гипотез о наклоне и коэффициенте корреляции

8. Оценка математического ожидания и предсказания индивидуальных значений отклика

9. Ошибочная оценка условий применимости линейного уравнения регрессии

10. Рекомендации к практическому применению регрессионного анализа

Введение

Регрессионный анализ - это методология решения задач, связанных с построением функциональных зависимостей между одной зависимой (эндогенной) переменной и одной или более независимыми (экзогенными) переменными . Независимую переменную часто называют регрессором или предикторной переменной, а зависимую переменную - откликом. Необходимо различать кросс-секционную регрессию и регрессию временных рядов. Кросс-секционная регрессия проверяет связь между переменными в определенный момент времени, например, построение уравнения калибровки датчиков определенного типа. При анализе регрессии во временных рядах данные по установлению зависимости переменных собираются в течение последовательных интервалов времени. Независимо от того, проводится ли кросс-секционный анализ или анализ временных рядов, основные принципы регрессионного анализа остаются неизменными. Вид функциональной связи между переменными предварительно обосновывается и включается в модель как гипотеза, а регрессионный анализ проверяет статистическую состоятельность модели при данной гипотезе.

Рассмотрим модель линейной функциональной связи между зависимой переменной Y и одной независимой переменной X. При этом истинный характер зависимости искажен внешними помехами или внутренними шумами, т.е. модель вида

Y = +X + ? (1)

где - постоянная составляющая при X = 0;

- коэффициент регрессии, отражает наклон линии, вдоль которой рассеяны данные наблюдений;

? - ошибка, также называемая остатком. Она отражает тот факт, что обычно кроме независимой переменной X присутствуют другие факторы, не включенные в данную модель, но которые искажают истинный характер функциональной зависимости.

В результате анализа экспериментальных данных мы пытаемся дать оценку параметрам и . Обозначим оценочные значения параметров и через а и b соответственно. По этим оценочным значениям затем можно рассчитать ожидаемое значение Y, т.е. , решая уравнение

(2)

Поэтому непосредственной задачей регрессионного анализа является статистическое оценивание неизвестных параметров постулированной регрессионной модели.

Для отыскания оценок широко применяется метод наименьших квадратов (МНК). Он дает наиболее вероятные (максимально правдоподобные) оценки параметров в том случае, когда результаты эксперимента представляют собой выборку, данные которой искажены нормально распределенными помехами со средним равным нулю и постоянной дисперсией, т.е. ? ~ N(0,). В этом частном, но широко распространенном случае, МНК совпадает с общим статистическим методом максимального правдоподобия (ММП). Метод максимального правдоподобия можно использовать при любых распределениях случайной величины, а метод наименьших квадратов вытекает из ММП только в случае нормального распределения. Однако в ряде случаев МНК дает хорошие результаты и при существенных отклонениях закона распределения от нормального.

1. Методы максимального правдоподобия и наименьших квадратов

Предположим, что при всех значениях Xi = (X1, X2,...,Xn) имеет место нормальный закон распределения случайной величины Yi с параметрами

M(Yi) , i2:

(3)

Согласно методу максимального правдоподобия параметры модели а и b в уравнении (2) следует выбирать так, чтобы при данных Yi максимизировать произведение-функцию

, (4)

именуемую функцией правдоподобия.

Чтобы получить максимум L, необходимо минимизировать абсолютную величину

. (5)

Таким образом, в случае нормального распределения отклика задача максимизации функции правдоподобия (4) сводится к минимизации суммы квадратов (5). Решение данной задачи составляет сущность метода наименьших квадратов.

2. Общий случай построения уравнения регрессии с помощью МНК

С учетом принятой модели регрессии (2) представим функцию минимизации (5) в следующем виде

. (6)

Из структуры соотношения (6) видно, что минимум по переменным a и b определяется решением системы уравнений:

;

Данные уравнения можно записать в более компактном виде:

;

. (7)

В системе уравнений (7) все суммы берутся по i в пределах от 1 до n.

Неоднородная, линейная относительно неизвестных a, b система уравнений (7) называется системой нормальных уравнений. В этой системе число уравнений равно числу неизвестных параметров и в общем случае ее неизвестные находятся из решения уравнений

;

,

где обозначено

Выражение для определения коэффициента b может быть представлено и в таком виде

. (8)

Из первого уравнения (7) следует, что при известном значении b, число a находится из решения уравнения

. (9)

В связи с тем, что для решения задач по исследованию уравнений регрессии широко используются результаты, получаемые с помощью программы Microsoft Excel, в дальнейшем будем приводить терминологию и обозначения, принятые в этом программном продукте. В частности, запись формулы (8) будет иметь вид:

где SS обозначает сумму квадратов (sum of squares).

Пример 1. Для исследования линейной системы (см. рис.1) и определения параметров ее передаточной характеристики на вход системы подаются калиброванные по уровню дискретные сигналы Xi, i = 1,…,5. Преобразованные сигналы Yi, измеряются на выходе системы. Результаты экспериментальных исследований системы приведены в табл.1 (столбцы 2 и 3). По данным эксперимента необходимо подобрать уравнение прямой, которая наиболее правдоподобно описывает зависимость между входом и выходом линейной системы.

Таблица 1

i

Xi

Yi

Xi

1

5

49

25

245

2

10

103

100

1030

3

15

151

225

2265

4

20

197

400

3940

5

25

248

625

6200

75

748

1375

13680

Решение. Результаты, необходимые для расчета элементов системы нормальных уравнений, приведены в табл. 1. Подставив полученные значения в уравнения (7), получим:

;

.

Отсюда находим коэффициенты уравнения регрессии:

;

.

Таким образом, передаточная характеристика линейной системы может быть описана следующим уравнением регрессии:

.

Построенное по экспериментальным точкам табл. 1 уравнение регрессии показано на рис. 2, а результаты регрессионного анализа, выполненные с помощью программы Microsoft Excel, представлены в табл. 2.

Если связь между признаками X и Y нелинейная, например, описывается уравнением параболы второго порядка

то для определения неизвестных параметров b0, b1 и b2 также используется метод наименьших квадратов, который приводит к решению 3-х нормальных уравнений вида:

В общем случае по методу наименьших квадратов может быть построена регрессионная модель и более высоких порядков, однако анализ подобных моделей и их практическая значимость с позиций критерия качества, как правило, лишены смысла.

Рис. 2. Уравнение регрессии

Таблица 2 Регрессионный анализ

Регрессионная статистика

Множественный R

0,999653

Множественный R- это коэффициент корреляции Пирсона

R-квадрат

0,9993

Нормирован R-квадрат

0,999

Стандартная ошибка

2,36643

Наблюдения

5

Дисперсионный анализ

df

SS

MS

F

Fкр.

Регрессия

1

24206,4

24206,4

4322,57

7,75347E-06

Остаток

3

16,8

5,6

Итого

4

24223,2

Коэффициенты

Стандартная ошибка

t-статис

P-знач

Нижние 95%

Верхние 95%

Y-пересечение

2

2,48193

0,806

0,4793

-5,8986

9,8986

Xi

9,84

0,149666295

65,746

7,753E-06

9,36369

10,3163

Таблица 3

ВЫВОД ОСТАТКА

Наблюдения

Предсказанные значения. Yi

Остатки

1

51,2

-2,2

2

100,4

2,6

3

149,6

1,4

4

198,8

-1,8

5

248

0

3. Матричный подход в регрессионном анализе

Обычно регрессионный анализ и МНК излагаются в матричной форме.

Напомним, что матрица - это массив данных, объединенных в прямоугольную форму, размер которой определяется числом строк и числом столбцов. Для идентификации каждой ячейки матрицы используется двойная индексация, указывающая сперва номер строки, а затем - номер столбца. Матрицы с одной строкой или с одним столбцом называются векторами. При определенных условиях с матрицами можно выполнять арифметические действия: сложение, вычитание, умножение. Делить матрицы нельзя. Часто для получения желаемого результата (деления) используются обратные матрицы. Однако только некоторые из квадратных матриц имеют обратные матрицы. Обратная матрица это такая, произведение которой на исходную матрицу равно единичной матрице.

Пусть дана система линейных преобразований с матрицей

:

(10)

В матричной форме такая система уравнений записывается как

Если матрица B является невырожденной, т.е. определитель системы (10) не равен нулю , то, воспользовавшись формулами Крамера, можно выполнить обратное линейное преобразование переменных

(11)

где через обозначены алгебраические дополнения элементов 1-го столбца определителя матрицы B.

Матрица преобразования (12) называется обратной для невырожденной матрицы B и ее обозначают через .

Таким образом, если

,, то

При этом имеем , где E- единичная матрица.

В матричной форме уравнение регрессии (1) принимает вид
(12)
где введены следующие матрицы:
1) матрица-столбец (вектор) значений отклика в i-х точках эксперимента
.
Здесь индекс «Т» означает операцию транспонирования матрицы - перевод столбца в строку матрицы;
2) матрица планирования эксперимента, которая задает координаты всех опытных точек
,
где введена фиктивная переменная , тождественно равная единице при всех значениях плана;
3) матрица-столбец (вектор) искомых коэффициентов регрессии
.
Здесь постоянная регрессии, которая в уравнении (1) обозначена через а;
4) матрица-строка (вектор) флюктуаций или помех
.
С учетом матричных обозначений сумму квадратов остатков можно представить в виде
. (13)
Дифференцируя по В и приравнивая полученную производную нулю, получим систему нормальных уравнений в матричной форме:
или (14)

Матричная форма нормальных уравнений (14) для линейного уравнения регрессии равносильна системе алгебраических уравнений

В уравнении (14) матрица называется информационной матрицей, или матрицей системы нормальных уравнений.

Матрица-столбец b - коэффициентов определяется из уравнения (14) путем умножения слева обеих его частей на матрицу , которая называется дисперсионной, так как с ее помощью устанавливаются оценки дисперсий b - коэффициентов. В результате имеем

(15)

Пример 2. Для исходных данных, приведенных в табл. 3 определите параметры уравнения регрессии, решая задачу в матричной форме.

Таблица 3

i

Xi

Yi

1

3

6

2

6

9

3

9

19

4

12

21

5

15

32

Решение. Выполним матричные вычисления, необходимые для решения уравнения (15):

;

.

Откуда с учетом (15), имеем

.

Таким образом, уравнение регрессии выражается формулой

.

При этом следует отметить, что даже незначительные погрешности, допускаемые при вычислении дисперсионной матрицы , приводят к существенным изменениям величины коэффициентов и . Так, если повысить точность вычисления элементов дисперсионной матрицы до пяти знаков после десятичной запятой, то результат изменится следующим образом

;

,

что соответствует результату

.

Если же при вычисле6нии дисперсионной матрицы, ее элемент будет увеличен до величины 0,012, то в результате вычислений получим

,

т.е. уравнение регрессии примет вид

.

4. Решение задачи регрессионного анализа в случае ортогонального плана

Методика построения моделей на основе ортогональных планов состоит в переходе к кодированной переменной U обладающей свойствами симметрии относительно нового начала координат, совпадающего со средним значением физической переменной X . Связь между физической переменной X и кодированной переменной U устанавливается с помощью уравнения кодирования

, (16)

где d--шаг квантования переменной X.

При этом предполагается, что отклик Y измеряется при равноотстоящих значениях фактора X . Кодирование переменной по формуле (16) приводит к тому, что кодированная переменная принимает симметричные относительно нуля значения такие, что имеет место условие

.

Кроме того, ортогональность кодированных переменных ui означает, что сумма смешанных произведений элементов столбцов матрицы U равна нулю, т.е.

.

Ортогональность плана приводит к диагональной информационной матрице

.(17)

Например, соответственно для пяти и семи опытных точек плана получим следующие информационные матрицы:

;

.

Таким образом, в случае ортогонального плана информационная матрица является диагональной. Из нее легко получается обратная (дисперсионная) матрица

. (18)

Задача ортогонализации состоит в том, чтобы получить диагональную форму матрицы М. Ортогональность обеспечивается выбором симметричных относительно центра опытных точек плана и кодированием фактора Х по формуле (16).

Например, для пяти и семи опытных точек плана дисперсионные матрицы соответственно равны:

;

В общем случае при ортогонализации и кодировании факторов значения элементов дисперсионной матрицы не зависит от реальных значений фактора X, а зависит только от числа опытных точек плана n.

Зная матрицу С, нетрудно найти b - коэффициенты. Так как для кодированных переменных ui

, (19)

то из формулы (15) после подстановки соотношений (18) и (19) получим

(20)

Отсюда находим выражения для b - коэффициентов:

;.(21)

Выражения для расчета b - коэффициентов можно обобщить и на случай многофакторного эксперимента. Для k-го фактора в случае ортогональных планов и линейных моделей имеем

Пример 3. Для исходных данных, приведенных в табл. 4 определите параметры уравнения регрессии, приведя исходные данные к ортогональному плану.

Таблица 4

Исходные данные

Расчет элементов определителей

i

Xi

Yi

U0i

U1i

U0i Yi

U1i Yi

1

3

6

1

-2

6

-12

2

6

9

1

-1

9

-9

3

9

19

1

0

19

0

4

12

21

1

1

21

21

5

15

32

1

2

32

64

87

64

Решение. Выполним необходимые расчеты (см. табл. 4) для решения уравнений (21). В результате получим:
; .
С учетом формулы (16) кодирования фактора
перейдем к физической переменной X и получим уравнение регрессии в том же виде, который ранее был найден без допущений об ортогональности плана
.
5. Оценка вариации уравнения регрессии
Хотя метод наименьших квадратов дает нам линию регрессии, которая обеспечивает минимум вариации, регрессионное уравнение не является идеальным в смысле предсказания, поскольку не все значения зависимого признака Yi удовлетворяют уравнению регрессии. Нам необходима статистическая мера вариации фактических значений Yi от предсказанных значений . Изменчивость фактических значений признака Y относительно линии регрессии показана на рис. 3.
Рассмотрим способ оценки изменчивости значений Yi вокруг среднего значения , основанный на использовании общей суммы квадратов (total sum of squares -- SST). В регрессионном анализе полная вариация, представляющая собой полную сумму квадратов, разделяется на объяснимую вариацию, или сумму квадратов регрессии (regression sum of squares -- SSR, or explained variation), и необъяснимую вариацию (unexplained variation), или сумму квадратов ошибок (error sum of squares -- SSE). Объяснимая вариация характеризует взаимосвязь между переменными X и Y, а необъяснимая зависит от других факторов.
Сумма квадратов регрессии (SSR) представляет собой сумму квадратов разностей между (предсказанным значением переменной Y) и (средним значением переменной Y). Сумма квадратов ошибок (SSE) является частью вариации переменной Y, которую невозможно описать с помощью регрессионной модели. Эта величина зависит от разностей между наблюдаемыми и предсказанными значениями.
Полная сумма квадратов (SST) равна сумме квадратов разностей между наблюдаемыми значениями переменной Y и ее средним значением:
. (22)
Сумма квадратов регрессии (SSR) равна сумме квадратов разностей между предсказанными значениями переменной Y и ее средним значением:
(23)
Сумма квадратов ошибок (SSE) равна сумме квадратов разностей между наблюдаемыми и предсказанными значениями переменной
(24)

Размещено на http://www.allbest.ru/

1

Рис. 3. Оценка изменчивости в модели регрессии
Полная сумма квадратов (SST) равна сумме квадратов регрессии плюс сумма квадратов ошибок:
SST = SSR + SSE (25)
Величины SSR, SSE и SST не имеют очевидной интерпретации. Однако отношение суммы квадратов регрессии (SSR) к полной сумме квадратов (SST) представляет собой оценку полезности регрессионного уравнения. Это отношение называется коэффициентом смешанной корреляции (R-квадрат). Иногда используют термин «коэффициент детерминации».
Коэффициент смешанной корреляции равен результату деления суммы квадратов регрессии на полную сумму квадратов:
(26)
Коэффициент смешанной корреляции оценивает долю вариации переменной Y, которая объясняется независимой переменной X в регрессионной модели.
Хотя метод наименьших квадратов позволяет вычислить линию, минимизирующую отклонение от наблюдаемых значений, наличие суммы квадратов ошибок (SSE) свидетельствует о том, что линейная регрессия не дает абсолютной точности прогноза, если, конечно, точки наблюдения не лежат на регрессионной прямой. Однако ожидать этого так же неестественно, как предполагать, что все выборочные значения точно равны их среднему арифметическому. Следовательно, необходима статистика, которая позволила бы оценить отклонение предсказанных значений переменной Y от ее реальных значений, аналогично тому, как стандартное отклонение позволяет оценить колебание данных вокруг их средней величины. Стандартное отклонение наблюдаемых значений переменной Y от ее регрессионной прямой называется среднеквадратичной ошибкой оценки. Она вычисляется по формуле:
, (27)
где Yi -- фактическое значение переменной Y при заданном значении Xi;
-- предсказанное значение переменной Y при заданном значении Xi;
SSE -- сумма квадратов ошибок.
Величина измеряется в тех же единицах, что и переменная Y. По смыслу среднеквадратичная ошибка очень похожа на стандартное отклонение. В то время как стандартное отклонение характеризует разброс данных вокруг их среднего значения, среднеквадратичная ошибка позволяет оценить колебание точек наблюдения вдоль регрессионной прямой. Среднеквадратичная ошибка оценки позволяет обнаружить статистически значимую зависимость, существующую между двумя переменными, и предсказать значения переменной Y.
6. Условия применения регрессионного анализа
Применяя методы регрессионного анализа, следует подчеркнуть важность условий, которые должны обеспечивать корректность сделанных выводов.
1. Ошибка должна иметь нормальное распределение.
2. Вариация данных вдоль линии регрессии должна быть постоянной (свойство гомоскедастичности).
3. Ошибки должны быть независимыми.
Первое предположение, о нормальном распределении ошибок (normality), требует, чтобы при каждом значении переменной X ошибки линейной регрессии имели нормальное распределение. Наряду с этим, регрессионный анализ довольно устойчив к нарушениям этого условия. Если распределение ошибок относительно линии регрессии при каждом значении X не слишком сильно отличается от нормального, выводы относительно линии регрессии и коэффициентов регрессии изменяются незначительно.
Второе условие, гомоскедастичность, заключается в том, что вариация данных вокруг линии регрессии должна быть постоянной при любом значении переменной X. Это означает, что величина ошибки, как при малых, так и при больших значениях переменной X должна изменяться в одном и том же интервале. Свойство гомоскедастичности очень важно для метода наименьших квадратов, с помощью которого определяются коэффициенты регрессии. Если это условие нарушается, следует применять либо преобразование данных, либо метод наименьших квадратов с весами.
Третье предположение, о независимости ошибок, заключается в том, что ошибки регрессии не должны зависеть от значения переменной X. Это условие особенно важно, если данные собираются на протяжении определенного отрезка времени. В этих ситуациях ошибки, присущие конкретному отрезку времени, часто коррелируют с ошибками, характерными для предыдущего периода.
Обнаружить потенциальные нарушения условий применения регрессионного анализа можно с помощью графика остатков.
Остаток, или оценка ошибки еi, представляет собой разность между наблюдаемым (Yi) и предсказанным () значениями зависимой переменной при заданном значении Xi:
Для оценки пригодности эмпирической модели регрессии остатки откладываются по вертикальной оси, а значения Xi -- по горизонтальной. Если эмпирическая модель пригодна, график не должен иметь ярко выраженной закономерности. Если же модель регрессии не пригодна, на рисунке проявится зависимость между значениями Xi и остатками еi. В частности, график остатков позволяет оценить гомоскедастичность ошибок. Если на графике нет особых различий между ошибками, соответствующими разным значениям Xi, то вариации ошибок при разных значениях Xi приблизительно одинаковы.
Предположение о независимости ошибок также проверяется с помощью графика остатков. Данные, собранные на протяжении некоторого периода времени, иногда демонстрируют эффект автокорреляции между последовательными наблюдениями. В таких ситуациях остатки зависят от значений предыдущих остатков. Подобная связь между остатками нарушает предположение о независимости ошибок Эффект автокорреляции хорошо выявляется на графике. Кроме того, его можно измерить с помощью процедуры Дурбина-Уотсона.
Чтобы проверить предположение о нормальном распределении ошибок, обычно строят гистограмму распределения, т.к. без построения гистограммы, блочной диаграммы или графика проверить предположение о нормальном распределении ошибок бывает очень трудно.
7. Проверка гипотез о наклоне и коэффициенте корреляции
Если анализ остатков подтверждает, что условия применимости метода наименьших квадратов не нарушаются, и модель простой линейной регрессии является адекватной, на основе выборочных данных можно утверждать, что между переменными в генеральной совокупности существует линейная зависимость.
Наряду с этим, проверяя, равен ли наклон генеральной совокупности нулю, можно определить, существует ли статистически значимая зависимость между переменными X и Y. Если эта гипотеза отклоняется, можно утверждать, что между переменными X и Y существует линейная зависимость. Нулевая и альтернативная гипотезы формулируются следующим образом:
Но: = 0 (нет линейной зависимости),
Н1: не равно 0 (есть линейная зависимость).
Тестовая статистика для проверки гипотезы о наклоне генеральной совокупности b1 вычисляется по формуле (30) с помощью t-критерия.
По определению t-статистика равна разности между выборочным наклоном и гипотетическим значением наклона генеральной совокупности, деленной на среднеквадратичную ошибку оценки наклона:
, где ;
,
а тестовая статистика t имеет t-распределение с n-2 степенями свободы.
Иными словами, на изменения параметров X и Y оказывают влияние не только случайные факторы, а имеется устойчивая функциональная связь.
Применение F-критерия для проверки наличия наклона уравнения регрессии
Альтернативным подходом к проверке гипотез о наклоне линейной регрессии является использование F-критерия. Напомним, что F-критерий применяется для проверки отношения между двумя дисперсиями. При проверке гипотезы о наклоне мерой случайных ошибок является дисперсия ошибки (сумма квадратов ошибок, деленная на количество степеней свободы), поэтому F-критерий использует отношение дисперсии, объясняемой регрессией (т.е. величины SSR, деленной на количество независимых переменных k), к дисперсии ошибок (MSE = ).
(29)
Где
k -- количество независимых переменных в регрессионной модели (k=1).
Тестовая статистика F имеет F распределение с k и (n - k - 1) степенями свободы в числителе и знаменателе соответственно.
При заданном уровне значимости ? решающее правило формулируется так если F > Fкр, нулевая гипотеза отклоняется; в противном случае она не отклоняется.
Доверительный интервал, содержащий наклон
Для проверки гипотезы о существовании линейной зависимости между переменными можно построить доверительный интервал, содержащий наклон и убедиться, что гипотетическое значение не принадлежит этому интервалу.
Центром доверительного интервала, содержащего наклон , является выборочный наклон b1, а его границами -- величины,
(32)
Если границы интервала для внутри себя не содержат нуль, то можно утверждать, что параметрами X и Y существует статистически значимая линейная зависимость. Если бы доверительный интервал содержал нуль, между переменными не было бы зависимости.
8. Оценка математического ожидания и предсказания индивидуальных значений отклика
В этом разделе рассматриваются методы оценки математического ожидания отклика и предсказания индивидуальных значений Yi при заданных значениях переменной Xi.
Доверительный интервал для математического ожидания отклика
Поскольку для построения регрессионных моделей используются данные выборок, то зачастую интерпретация взаимоотношений между переменными в генеральной совокупности базируется на выборочных результатах.
Однако это значение -- только точечная оценка истинного среднего значения, и для определения истинного значения генерального параметра с той или иной степенью доверия применяется интервальная оценка.
Доверительный интервал в регрессионной модели для оценки неизвестного генерального значения находится по формуле:
(33)
где
- предсказанное значение переменной Y при X;
S-- среднеквадратичная ошибка;
n -- объем выборки;
X -- заданное значение переменной X;
- математическое ожидание переменной Y при Х = X;
SSX=.
Анализ формулы (33) показывает, что ширина доверительного интервала зависит от нескольких факторов. При заданном уровне значимости возрастание величины среднеквадратичной ошибки измерения приводит к увеличению ширины интервала. С другой стороны, как и следовало, ожидать, увеличение объема выборки сопровождается сужением интервала. Кроме того, ширина интервала изменяется в зависимости от значений X. Если значение переменной Y предсказывается для величин X, близких к среднему значению , доверительный интервал оказывается уже, чем при прогнозировании отклика для значений, далеких от среднего.
Рис. 4. Изменение величины доверительного интервала для математического ожидания отклика в зависимости от значения независимой переменной X
Доверительный интервал для предсказанного значения Yi
Кроме доверительного интервала для математического ожидания отклика при заданном значении переменной X, часто необходимо знать доверительный интервал для предсказанного значения. Несмотря на то, что формула для вычисления такого доверительного интервала очень похожа на формулу (34), этот интервал содержит предсказанное значение, а не оценку его математического ожидания.
Доверительный интервал для предсказанного значения отклика находится по формуле:
где
предсказанное значение переменной Y при X=Xi.
9. Ошибочная оценка условий применимости линейного уравнения регрессии
Широкое распространение электронных таблиц и программного обеспечения для статистических расчетов ликвидировало вычислительные проблемы, препятствовавшие применению регрессионного анализа. Однако это привело к тому, что регрессионный анализ стали применять пользователи, не обладающие достаточной квалификацией и знаниями. Многие из них вообще не имеют ни малейшего понятия об условиях применимости метода наименьших квадратов и не умеют проверять их выполнение. Используют регрессионный анализ без глубоких знаний о предмете исследования. Зачастую пытаются экстраполировать полученную регрессионную модель за пределы диапазона изменения объясняющей переменной.
Исследователь не должен увлекаться перемалыванием чисел -- вычислением коэффициентов регрессии и коэффициента смешанной корреляции. Ему нужны более глубокие знания. Проиллюстрируем это рядом примеров, представленных ниже в виде 4-х наборов статистических данных.

Набор I

Набор II

Набор III

Набор IV

X

Y

X

Y

X

Y

X

Y

10

8,04

10

9,14

10

7,46

8

6,58

14

9,96

14

8,10

14

8,84

8

5,76

5

5,68

5

4,74

5

5,73

8

7,71

8

6,95

8

8,14

8

6,77

8

8,84

9

8,81

9

8,77

9

7,11

8

8,47

12

10,84

12

9,13

12

8,15

8

7,04

4

4,26

4

3,10

4

5,39

8

5,25

7

4,82

7

7,26

7

6,42

19

12,50

11

8,33

11

9,26

11

7,81

8

5,56

13

7,58

13

8,74

13

12,74

8

7,91

6

7,24

6

6,13

6

6,08

8

6,89

Все представленные виды экспериментальных данных, если к ним применить модель линейной регрессии, имеют одни и те же статистические параметры:
Итак, с точки зрения регрессионного анализа все эти наборы данных совершенно идентичны. Если бы анализ был на этом закончен, мы потеряли бы много полезной информации. Диаграммы разброса и графики остатков свидетельствуют о том, что эти данные отличаются друг от друга. Единственный набор, распределенный вдоль прямой линии, -- набор I. График остатков, вычисленных по набору I, не имеет никакой закономерности. Этого нельзя сказать о наборах II, III и IV. График разброса, построенный по набору II, демонстрирует ярко выраженную квадратичную модель. Этот вывод подтверждается графиком остатков, имеющим параболическую форму. Диаграмма разброса и график остатков показывают, что набор данных III содержит выброс. В этой ситуации необходимо исключить выброс из набора данных и повторить анализ. После исключения выброса результат повторной оценки модели может оказаться совершенно иным. Диаграмма разброса, построенная по данным из набора IV, иллюстрирует необычную ситуацию, в которой эмпирическая модель значительно зависит от отдельного отклика (Х8 = 19, Y8 = 12,5). Такие регрессионные модели необходимо вычислять особенно тщательно.
Итак, графики остатков и диаграммы разброса являются крайне необходимыми инструментами регрессионного анализа и должны быть его неотъемлемой частью. Без них регрессионный анализ не заслуживает доверия.
10. Рекомендации к практическому применению регрессионного анализа
1. Анализ возможной взаимосвязи между переменными X и Y всегда начинайте с построения диаграммы разброса.
2. Прежде чем интерпретировать результаты регрессионного анализа, проверяйте условия его применимости.
3. Постройте график зависимости остатков от независимой переменной. Это позволит определить, насколько эмпирическая модель соответствует результатам наблюдения, и обнаружить нарушение условия гомоскедастичности.
4. Для проверки предположения о нормальном распределении ошибок используйте гистограммы, блочные диаграммы и графики нормального распределения.
5. Если условия применимости метода наименьших квадратов не выполняются, используйте альтернативные методы (например, модели квадратичной или множественной регрессии).
6. Если условия применимости метода наименьших квадратов выполняются, необходимо проверить гипотезу о статистической значимости коэффициентов регрессии и построить доверительные интервалы, содержащие математическое ожидание и предсказанное значение отклика.

Подобные документы

  • Анализ метода наименьших квадратов для парной регрессии, как метода оценивания параметров линейной регрессии. Рассмотрение линейного уравнения парной регрессии. Исследование множественной линейной регрессии. Изучение ошибок коэффициентов регрессии.

    контрольная работа [108,5 K], добавлен 28.03.2018

  • Основные параметры уравнения регрессии, оценка их параметров и значимость. Интервальная оценка для коэффициента корреляции. Анализ точности определения оценок коэффициентов регрессии. Показатели качества уравнения регрессии, прогнозирование данных.

    контрольная работа [222,5 K], добавлен 08.05.2014

  • Параметры уравнения линейной регрессии. Вычисление остаточной суммы квадратов, оценка дисперсии остатков. Осуществление проверки значимости параметров уравнения регрессии с помощью критерия Стьюдента. Расчет коэффициентов детерминации и эластичности.

    контрольная работа [248,4 K], добавлен 26.12.2010

  • Расчет параметров A и B уравнения линейной регрессии. Оценка полученной точности аппроксимации. Построение однофакторной регрессии. Дисперсия математического ожидания прогнозируемой величины. Тестирование ошибок уравнения множественной регрессии.

    контрольная работа [63,3 K], добавлен 19.04.2013

  • Поле корреляции и гипотеза о виде уравнения регрессии. Оценка величины влияния фактора на исследуемый показатель с помощью коэффициента корреляции и детерминации. Определение основных параметров линейной модели с помощью метода наименьших квадратов.

    контрольная работа [701,1 K], добавлен 29.03.2011

  • Экономическая интерпретация коэффициента регрессии. Нахождение статочной суммы квадратов и оценка дисперсии остатков. Проверка значимости параметров уравнения регрессии с помощью t-критерия Стьюдента. Расчет средней относительной ошибки аппроксимации.

    контрольная работа [261,1 K], добавлен 23.03.2010

  • Построение модели для зависимой переменной, используя пошаговую множественную регрессию. Рассчет индекса корреляции, оценка качества полученного уравнения регрессии с помощью коэффициента детерминации. Оценка статистической значимости уравнения регрессии.

    лабораторная работа [2,1 M], добавлен 25.05.2009

  • Построение регрессионных моделей. Смысл регрессионного анализа. Выборочная дисперсия. Характеристики генеральной совокупности. Проверка статистической значимости уравнения регрессии. Оценка коэффициентов уравнения регрессии. Дисперсии случайных остатков.

    реферат [57,4 K], добавлен 25.01.2009

  • Определение параметров линейной регрессии и корреляции с использованием формул и табличного процессора MS Excel. Методика расчета показателей парной нелинейной регрессии и корреляции. Вычисление значений линейных коэффициентов множественной детерминации.

    контрольная работа [110,4 K], добавлен 28.07.2012

  • Нахождение уравнения линейной регрессии, парного коэффициента корреляции. Вычисление точечных оценок для математического ожидания, дисперсии, среднеквадратического отклонения показателей x и y. Построение точечного прогноза для случая расходов на рекламу.

    контрольная работа [216,6 K], добавлен 12.05.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.