Факторный дисперсионный анализ

Особенности техники дисперсионного анализа для расчета ряда статистических задач. Анализ факторных эффектов повторяемого и неповторяемого элемента исследования. Особенности применения на практике примеров расчета многофакторного дисперсионного анализа.

Рубрика Математика
Вид лекция
Язык русский
Дата добавления 15.11.2012
Размер файла 116,0 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

1.1 Анализ факторных эффектов (дисперсионный анализ)

Техника дисперсионного анализа полезна для ряда статистических задач, связанных с исследованием влияния одной или нескольких качественных переменных (факторов) на одну зависимую количественную переменную (отклик). Метод применим и в случае количественных факторов, если их значения могут быть сгруппированы в классы или блоки, однако такие данные допускают и более детальное исследование зависимости отклика от факторов, выполняемое методами регрессионного анализа.

Ковариационный анализ основан на допущении о нормальном распределении исходных данных.

Модели факторного эксперимента

Факторный эксперимент, предполагающий применение дисперсионного параметрического анализа, состоит в измерении значений некоторой количественной переменной-отклика при определенных значениях или уровнях одного или нескольких количественных или качественных факторов.

Фиксированные и случайные эффекты

Наиболее разработаны и распространены схемы организации однофакторного и двухфакторного эксперимента с использованием следующих двух моделей:

а) модель с фиксированными эффектами (модель 1): экспериментатор намеренно устанавливает в эксперименте факторы на определенных уровнях с целью проверки нулевой гипотезы о том, что средние значения отклика для выбранных уровней фактора не различаются между собой;

б) модель со случайными эффектами (модель 2): экспериментатор случайно выбирает несколько уровней значения фактора с целью проверки нулевой гипотезы о том, что дисперсия популяции средних значений отклика, вычисленных для различных уровней фактора, не отлична от нуля.

1.2 Повторяемый и неповторяемый эксперимент

Для каждого сочетания значений факторов может быть измерено одно значение отклика (неповторяемый эксперимент) или же несколько значений отклика (повторяемый эксперимент).

В случае однофакторного эксперимента, проводимого всегда по схеме с повторными измерениями, а также в случае двухфакторного неповторяемого эксперимента, процедуры и результаты анализа для моделей 1 и 2 совпадают (следует только помнить о различии в проверяемых гипотезах).

В случае двухфакторного эксперимента с повторными наблюдениями имеются еще два дополнительных варианта его планирования:

в) модель с рандомизированными блоками (модель 1+2) - в этом случае первый фактор А отвечает модели 1, а второй фактор В отвечает модели 2;

г) модель с группировкой или иерархическая модель, если каждый уровень фактора В встречается в паре не более чем с одним уровнем фактора А.

Часто результаты одного и того же эксперимента можно трактовать в терминах нескольких моделей. При этом следует иметь в виду, что модель 2 по сравнению с моделью 1 будет давать результаты с более высоким уровнем значимости нулевых гипотез.

Взаимодействие факторов.

Отметим также, что в случае моделей 1, 2 и 1+2 двухфакторного повторного эксперимента, кроме нулевых гипотез по каждому фактору отдельно, можно проверить нулевую гипотезу об отсутствии взаимодействия факторов: наблюдается ли изменение эффекта фактора B в зависимости от уровня фактора А. При этом, если эффект взаимодействия не обнаружен, то можно провести дополнительный анализ уже без учета взаимодействия А и В. Такой дополнительный анализ, как правило, дает результаты со сравнительно более низким уровнем значимости нулевых гипотез.

Однофакторный дисперсионный анализ.

Назначение.

С помощью данного метода в зависимости от типа модели по исследуемому фактору (с фиксированными или же со случайными эффектами) на основе параметрического критерия Фишера проверяется одна из двух нулевых гипотез:

средние значения для групп откликов, измеренных при различных значениях фактора, не имеют существенных различий между собой (модель 1);

дисперсия средних значений для групп откликов, измеренных при различных значениях фактора, не отлична от нуля (модель 2).

В случае наличия факторного эффекта нередко представляет интерес более детальный анализ на наличие различий между конкретными уровнями фактора или группами фактора. Эту задачу решает метод парных сравнений Шеффе (Sheffe).

Исходные данные.

Исходные данные представляются в виде псевдоматрицы (то есть столбцы не обязаны быть одинаковой длинны), в которой переменные отвечают различным уровням исследуемого фактора и каждая переменная содержит отклики, измененные при соответствующем значении фактора.

Диалог и результаты.

После запуска процедуры однофакторного анализа в последующем меню необходимо выбрать параметрический метод.

Выдача включает стандартную дисперсионную таблицу со столбцами: сумма квадратов, число степеней свободы, средняя сумма квадратов, сила влияния фактора (по Снедекору), а строки содержат межгрупповые, внутригрупповые и общие значения (см. формулы).

Далее вычисляется статистика Фишера F с уровнем значимости P. Если P>0.05, нулевая гипотеза об отсутствии влияния фактора может быть принята.

В случае наличия факторного эффекта выдается таблица парных сравнений Шеффе, в которой для всех пар уровней исследуемого фактора приведены следующие параметры (по столбцам): разность средних значений, размах доверительного интервала разности, уровень значимости нулевой гипотезы об отсутствии различий между средними значениями.

Далее можно продолжить анализ Шеффе уже по групповому сравнению факторного эффекта для двух выбранных групп откликов. Для этого в последующем бланке необходимо сформировать две группы переменных из электронной таблицы. Такой бланк будет повторяться до его отмены.

Формулы.

Дисперсионная таблица:

Источник

Сумма

Квадратов

Степени

свободы

Средн.

квадр.

Сила

Влияния

Фактор 1

SA

k-1

SA/(k-1)

Остаточная

SE

N-k

SE/(N-k)

Общее

ST

N-1

где:

- число измерений в i-ой группе; k - число уровней фактора;

, F - статистика.

Доверительный интервал сравнения Шеффе =

где: - размер j-ой группы.

Примеры

Пример 1

Файл Primer1 содержит матрицу четыре переменные в которой представляют среднюю температуру одного климатического пояса замерявшуюся в разные времена года (зима, весна, лето, осень - 1-й, 2-й, 3-й, 4-й столбцы соответственно) в течении пяти лет. Необходимо выяснить, изменяется ли средняя температура на планете при удалении ее от солнца.

Исходные данные:

Зима

Весна

Лето

Осень

-10

10

25

9

-13

9

34

11

-5

7

28

6

-8

11

36

13

-9

12

30

12

Результаты: 1-ФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ. Файл: параметрический

Источник

Сум.квадр

Ст.своб

Ср.квадр

Сила влияния

Факт.1

3,92E3

3

1,31E3

0,199

Остат.

159

16

9,92

Общая

4,08E3

19

215

F(фактор1)=132, Значимость=0, степ.своб = 3,16

Гипотеза 1: <Есть влияние фактора на отклик>

Параметры модели:

Среднее = 10,4, доверит.инт.=8,9

Эффект1 = -19,4, доверит.инт.=13,2

Эффект2 = -0,6, доверит.инт.=13,2

Эффект3 = 20,2, доверит.инт.=13,2

Эффект4 = -0,2, доверит.инт.=13,2

Парные сравнения Шеффе

Переменные

Разность

Интервал

Значим

Гипотеза H1

1-2

18,8

6,2

0

Да

1-3

39,6

6,2

0

Да

1-4

19,2

6,2

0

Да

2-3

20,8

6,2

0

Да

2-4

0,7

6,2

0,997

3-4

20,4

6,2

0

Да

Вывод: Дисперсионный анализ показывает наличие влияния удаления планеты от солнца на среднюю температуру.

Пример 2.

Исходные данные:

X1

X2

X3

X4

12.3

11.9

12.0

12.0

12.1

11.9

12.2

12.3

12

11.7

11.8

11.9

12.5

11.6

12.6

11.6

12.6

11.8

12.5

12.4

В данном примере под индексами X1,X2,X3,X4 представлены 4 страны. В столбиках под ними расположены резуьтаты забегов на 100 метров бегунов из этих стран.Требуется выяснить: влияет ли система подготовки каждой из этих стран на результат?

Результаты: 1-ФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ. Файл: параметрический

Источник Сум.квадр Ст.своб Ср.квадр Сила влияния

Факт.1 0,797 3 0,266 -0,0757

Остат. 1,19 16 0,0742

Общая 1,99 19 0,104

F(фактор1)=3,58, Значимость=0,0369, степ.своб = 3,16

Гипотеза 1: <Есть влияние фактора на отклик>

Параметры модели:

Среднее = 12,1, доверит.инт.=0,77

Эффект1 = 0,215, доверит.инт.=1,14

Эффект2 = -0,305, доверит.инт.=1,14

Эффект3 = 0,135, доверит.инт.=1,14

Эффект4 = -0,045, доверит.инт.=1,14

Парные сравнения Шеффе

Переменные Разность Интервал Значим Гипотеза H1

1-2 0,52 0,536 0,059

1-3 0,08 0,536 0,974

1-4 0,26 0,536 0,536

2-3 0,44 0,536 0,13

2-4 0,26 0,536 0,536

3-4 0,18 0,536 0,782

Вывод: Дисперсионный анализ показывает наличие влияния системы подготовки отдельной страны на результаты забега.

Анализ данных с использованием таблиц EXCEL.

Для возможности анализа данных надо выбрать в меню СЕРВИС пункт

НАДСТРОЙК и подключить пакет Анализа.

Теперь в меню СЕРВИС появится пункт АНАЛИЗ ДАННЫХ , где вы можете найти разделы Однофакторного и Многофакторного дисперсионного анализа.

Пример 1

Исходные данные ( из примера 1 , реализованного в пакете STADIA):

Зима

Весна

Лето

Осень

-10

10

25

9

-13

9

34

11

-5

7

28

6

-8

11

36

13

-9

12

30

12

Результат :

Однофакторный дисперсионный анализ

ИТОГИ

Группы

Счет

Сумма

Среднее

Дисперсия

Столбец 1

5

-45

-9

8,5

Столбец 2

5

49

9,8

3,7

Столбец 3

5

153

30,6

19,8

Дисперсионный анализ

Источник вариации

SS

df

MS

F

P-Значение

Между группами

3923,733333

2

1961,866667

183,925

9,94065E-10

Внутри групп

128

12

10,66666667

Итого

4051,733333

14

Вывод: Анализируя полученное Р-значение = 9,94065Е-10 , делаем вывод о влиянии исследуемого фактора на отклик.

Пример 1

Исходные данные ( из примера 2 , реализованного в пакете STADIA):

X1

X2

X3

X4

12.3

11.9

12.0

12.0

12.1

11.9

12.2

12.3

12

11.7

11.8

11.9

12.5

11.6

12.6

11.6

12.6

11.8

12.5

12.4

Результат :

Однофакторный дисперсионный анализ

ИТОГИ

Группы

Счет

Сумма

Среднее

Дисперсия

Столбец 1

5

61,5

12,3

0,065

Столбец 2

5

58,9

11,78

0,017

Столбец 3

5

61,1

12,22

0,112

Столбец 4

5

60,2

12,04

0,103

Дисперсионный анализ

Источник вариации

SS

df

MS

F

P-Значение

Между группами

0,7975

3

0,265833333

3,580246914

0,037453621

Внутри групп

1,188

16

0,07425

Итого

1,9855

19

Вывод: Анализируя полученное Р-значение = 0,037453629 , делаем вывод о влиянии исследуемого фактора на отклик.

Двухфакторный дисперсионный анализ.

Назначение.

Посредством данного метода в зависимости от типа модели по каждому фактору (с фиксированными или же со случайными эффектами) с помощью параметрического критерия Фишера проверяется одна из двух нулевых гипотез:

средние значения для групп откликов, измеренных при различных значениях фактора, не имеют существенных различий между собой (модель 1);

дисперсия средних значений для групп откликов, измеренных при различных значениях фактора, не отлична от нуля (модель 2).

Разновидности метода.

Имеется две разновидности метода в зависимости от того, производились ли повторные измерения при каждом сочетании двух исследуемых факторов или нет:

Нет повторных измерений. При эксперименте без повторных измерений исходные данные должны представлять собой матрицу размером mn, в которой столбцы отвечают различным уровням первого фактора j=1,...,m, строки отвечают различным уровням второго фактора i=1,...,n, а каждая ячейка содержит отклик измеренный при соответствующем сочетании уровней исследуемых факторов.

Выдача: выдача включает дисперсионную таблицу со столбцами: сумма квадратов, число степеней свободы, средняя сумма квадратов, сила влияния фактора (по Снедекору), а строки содержат значения для первого и второго факторов, а так же остаточные и общие параметры.

Далее для каждого фактора вычисляется статистика Фишера F с уровнем значимости P. Если P>0.05, нулевая гипотеза об отсутствии влияния фактора может быть принята.

Есть повторные измерения. При эксперименте с повторными измерениями исходные данные должны представлять собой псевдоматрицу (не обязательно одинаковой длинны столбцов), в которой переменные (i=1,..., mn) отвечают различным уровням исследуемых факторов в порядке изменения значений первого фактора: все уровни первого фактора для первого уровня второго фактора, все уровни первого фактора для второго уровня второго фактора и т.д., а каждая переменная содержит откликов (>1), измеренных при данном сочетании значений факторов.

Поскольку такое представление данных может отвечать различным сочетаниям числа градаций факторов, то в поле меню необходимо указать число уровней первого фактора, после чего нажать кнопку исследуемой модели:

0 = с фиксированными эффектами;

1 = со случайными эффектами;

2 = с рандомизованными блоками;

3 = с группировкой.

Выдача: выдача включает дисперсионную таблицу со столбцами: сумма квадратов, число степеней свободы, средняя сумма квадратов, сила влияния фактора (по Снедекору), а строки содержат значения для первого и для второго факторов, для эффекта межфакторного взаимодействия, а так же остаточные и общие параметры.

Далее для каждого фактора вычисляется статистика Фишера F с уровнем значимости P. Если P>0.05, нулевая гипотеза об отсутствии влияния фактора может быть принята.

Если эффект взаимодействия не обнаружен, то проводится дополнительный анализ по факторам A и B, но без учета их взаимодействия. Такой дополнительный анализ, как правило, дает более низкий уровень значимости нулевых гипотез. Полученными результатами рекомендуется пользоваться, если уровень значимости гипотезы отсутствия взаимодействия факторов достаточно велик (P>0.05).

Формулы.

Бесповторный эксперимент. В случае двухфакторного эксперимента без повторных измерений дисперсионная таблица имеет вид:

Источник

Сумма

Квадратов

Степени

свободы

Средн.

квадр.

Сила

влияния

Фактор 1

m-1

A=SA/(m-1)

Фактор 2

n-1

B=SB/(n-1)

Остаточная

(m-1)(n-1)

Общее

m+n-1

F - статистика.

Повторы и фиксированные эффекты. В случае двухфакторного эксперимента с повторными измерениями и с фиксированными эффектами дисперсионная таблица имеет вид:

Повторы и фиксированные эффекты. В случае двухфакторного эксперимента с повторными измерениями и с фиксированными эффектами дисперсионная таблица имеет вид:

где:

Источник

Сумма

Квадратов

Степени

свободы

Средн.

квадр.

Сила

влияния

Фактор 1

SA

m-1

A=SA/(m-1)

Фактор 2

SB

n-1

B=SB/(n-1)

Мефактор.

(m-1)(n-1)

Остаточная

N-mn

Общее

N-1

где:

- сумма откликов для i - ой группы, i = 1,2,...,nm; N - общее число откликов;

() - сумма средних значений откликов для a - уровня (b - уровня) фактора 1 (фактора 2);

F - статистики с n-1, nm(k-1); m-1, nm(k-1); (n-1)(m-1), nm(k-1) степенями свободы, k=N/ .

Примечания.

Отличие модели со случайными эффектами состоит в замене второго числа степеней свободы в , - статистиках (n-1)(m-1);

Отличие модели с рандомизованными блоками состоит в замене второго числа степеней свободы в - статистике (n-1)(m-1);

Отличие модели с группировкой - вычисляются два F - значения: =A/B с n-1, nm(k-1) степенями свободы; =B/E с n(m-1), nm(k-1) степенями свободы, вычисление межфакторного взаимодействия не производится;

В случае незначительного межфакторного взаимодействия при повторных вычислениях , используется E=E+AB с (n-1)(m-1)+N-nm степенями свободы.

Пример.

Файл Primer2 содержит матрицу четыре переменные в которой представляют результаты побед в четырех видах спорта (плавание, борьба, прыжки в высоту, шахматы - 1-й, 2-й, 3-й, 4-й столбцы соответственно). Необходимо выяснить, влияет ли вес и рост спортсменов на их спортивные достижения. Замеры веса и роста проводились через равные промежутки времени у спортсменов примерно одинаковой квалификации, но с разными показателями роста и веса.

Исходные данные:

Плавание

Борьба

Прыжки в высоту

Шахматы

6

12

9

10

8

11

7

9

10

8

9

9

11

12

15

12

10

9

12

8

Результаты:

2-ФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ. Файл:

Факторный план: неповторяемый

Источник

Сум.квадр

Ст.своб

Ср.квадр

Сила влияния

Факт.1

6,95

3

2,32

Факт.2

37,3

4

9,33

Остат.

40,3

12

3,36

Общая

84,6

19

4,45

F(фактор1)=0,69, Значимость=0,578, степ.своб = 3,12

Гипотеза 0: <Нет влияния фактора на отклик>

F(фактор2)=2,78, Значимость=0,0758, степ.своб = 4,12

Гипотеза 0: <Нет влияния фактора на отклик>

Параметры модели:

Среднее = 9,85, доверит.инт.=3,48

Эффект1-1 = -0,85, доверит.инт.=28

Эффект1-2 = 0,55, доверит.инт.=28

Эффект1-3 = 0,55, доверит.инт.=28

Эффект1-4 = -0,25, доверит.инт.=28

Эффект2-1 = -0,6, доверит.инт.=33,5

Эффект2-2 = -1,1, доверит.инт.=33,5

Эффект2-3 = -0,85, доверит.инт.=33,5

Эффект2-4 = 2,65, доверит.инт.=33,5

Эффект2-5 = -0,1, доверит.инт.=33,5

Вывод: Дисперсионный анализ не обнаруживает существенного влияния роста и веса спортсменов на количество побед в соревнованиях.

Пример 2.

Исходные данные:

1 год

2 год

3 год

4 год

5 год

6

9

6

6

4

4

7

8

5

3

5

9

10

7

4

4

8

14

10

6

15

11

13

9

14

12

14

15

11

9

В данном примере строки представляют 6 пород коров, а столбцы - возраст. Таблица показывает у разных пород коров удой в разные периоды жизни. Требуется выяснить: влияют ли возраст и порода на показатели удоя?

F(фактор1)=3,96, Значимость=0,0158, степ.своб = 4,20

Гипотеза 1: <Есть влияние фактора на отклик>

F(фактор2)=10,2, Значимость=0,0001, степ.своб = 5,20

Гипотеза 1: <Есть влияние фактора на отклик>

Параметры модели:

Среднее = 8,6, доверит.инт.=1,01

Эффект1-1 = -0,933, доверит.инт.=2,73

Эффект1-2 = 1,07, доверит.инт.=2,73

Эффект1-3 = 2,4, доверит.инт.=2,73

Эффект1-4 = -0,6, доверит.инт.=2,73

Эффект1-5 = -1,93, доверит.инт.=2,73

Эффект2-1 = -2,4, доверит.инт.=2,74

Эффект2-2 = -3,2, доверит.инт.=2,74

Эффект2-3 = -1,6, доверит.инт.=2,74

Эффект2-4 = -0,2, доверит.инт.=2,74

Эффект2-5 = 3,8, доверит.инт.=2,74

Эффект2-6 = 3,6, доверит.инт.=2,74

Вывод: Дисперсионный анализ показывает наличие влияний породы и возраста животного на удой.

Двухфакторный дисперсионный анализ без повторений

ИТОГИ

Счет

Сумма

Среднее

Дисперсия

Строка 1

5

31

6,2

3,2

Строка 2

5

27

5,4

4,3

Строка 3

5

35

7

6,5

Строка 4

5

42

8,4

14,8

Строка 5

5

62

12,4

5,8

Строка 6

5

61

12,2

5,7

Столбец 1

6

46

7,666667

21,86667

Столбец 2

6

58

9,666667

6,266667

Столбец 3

6

66

11

12,8

Столбец 4

6

48

8

5,6

Столбец 5

6

40

6,666667

17,46667

Дисперсионный анализ

Источник вариации

SS

df

MS

F

P-Значение

F критическое

Строки

230

5

46

10,22222

5,64E-05

2,710891

Столбцы

71,2

4

17,8

3,955556

0,015941

2,866081

Погрешность

90

20

4,5

Итого

391,2

29

Вывод : Анализируя полученное Р-значение = 5,64E-05 , делаем вывод о влиянии исследуемых факторов на отклик , т.е. o наличии влияний породы и возраста животного на удой.

Многофакторный дисперсионный анализ.

Назначение. Данная процедура расширяет возможности однофакторного и двухфакторного анализа на большее число (m>2) факторов. Процедура производит проверку гипотез об отсутствии влияния каждого фактора на отклик и не учитывает эффектов взаимодействия факторов второго и большего порядков. Однако она позволяет выявлять факторные эффекты даже в том случае, когда произведены измерения не при всех сочетаниях значений факторов, то есть в случае неполного факторного планирования.

Исходные данные. Исходные данные представляют собой матрицу размером (m+1)*n (n - число измерений), в которой в качестве первых m переменных содержатся градаций m факторов, а m+1-я переменная содержит значение отклика, измеренного при указанных градациях фактора. Каждый фактор должен иметь не менее двух градаций, значение которых нумеруются целыми числами, начиная с 1. Для каждого фактора должны быть произведены измерения по крайней мере при двух его уровнях, при этом допускаются повторные измерения при каждом сочетании значений факторов. Общее число измерений должно быть больше числа факторов.

Результаты. На экран выдаётся стандартная таблица дисперсионного анализа и результаты проверки каждой гипотезы.

Формулы и алгоритмы.

Исходная модель представляется в виде :

yij…k=m+ai+bj+…ck+eij…k

где :

yij…k - отклики;

m - общее среднее ;

ai - средний эффект фактора a на уровне i=1,2,…I;

bi - средний эффект фактора a на уровне j=1,2,…J;

ci - средний эффект фактора c на уровне k=1,2,…K;

eij…k - ошибки.

Исходные данные отображаются в пространство I-1+J-1+…+K-1 независимых переменных со значениями 0,1,-1 с использованием дополнительных условий вида:

aj=-a1-a2-…-aI-1.

Анализ производится методом множественной линейной регрессии. Остаточная сумма квадратов (ОСК) определяется ОСК полной регрессии. Факторные СК для каждой нулевой гипотезы вида a1=a2=…aI=0 определяется ОСК регрессии в усечённом пространстве после удаления переменных a1,a2,…,aI-1.

Пример.

Данные: В качестве примера рассмотрим данные двухфакторного эксперимента с повторными измерениями, где фактор 1 имеет три градации, а фактор 2 имеет две градации:

Фактор 2

Фактор 1

1

2

3

1

17.5

16.2

13.2

12.8

10.4

9.9

2

10.1

8.6

11.3

5.4

3.7

10.3

В этом случае матрица исходных данных имеет следующий вид:

F1

F2

Y

1

1

17.5

1

1

16.2

2

1

13.2

3

1

12.8

3

1

10.4

3

1

9.9

1

2

10.1

1

2

8.6

1

2

11.3

2

2

5.4

2

2

3.7

3

2

10.3

Диалог: выберите метод или нажмите его ключ >> н

Нажмите Enter=продолжить или f2=печать экрана >> Enter

Выдача: Файл: mav Переменных=3 Измерений=36

МНОГОФАКОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ.

Источник Сум.квадр Ст.своб Ср.квадр Сила влияния

Фактор 1 92,1 2 46,1 0,165

F(фактор 1)=6,07, Значимость=0,0247, степ.своб = 2,8

Гипотеза 1: <Есть влияние фактора на отклик>

Фактор 2 117 1 117 0,663

F(фактор 2)=17,7, Значимость=0, степ.своб = 8

Гипотеза 1: <Есть влияние фактора на отклик>

Остат. 36,6 8 4,57

Для сравнения приведём результаты анализа тех же самых данных по методу двухфакторного анализа.

Источник

Сумма квадр

Ст. своб

Ср. квадр

Сила явления

Факт.1

40.78

2

20.39

0.4349

Факт.2

85.23

1

85.23

0.4843

Межфак

33.42

2

16.71

0.4061

Остат.

10.76

6

1.793

Общая

170.2

11

15.47

F(фактор1)=11.37, Значимость=0.0097, степ.своб=2, 6

F(фактор2)=47.54, Значимость=0, степ.своб=6

F(межфак)=9.32, Значимость=0.0149, степ.своб=2, 6

Пример 2.

Исследуем факторы, возможно влияющие на успеваемость студентов:

Фактор 1 - количество часов в день, отдаваемых занятиям

3 градации:

1. - не занимается

2. - занимается 2 часа

3. - занимается 4 часа

Фактор 2 - квалификация преподавателя

1. - средняя

2. - хорошая

Фактор 3 - посещаемость студентами дополнительных занятий

1. - плохая

2. - удовлетворительная

3. - хорошая

Исходные данные имеют вид:

Фактор1

Фактор2

Фактор3

Оценки студентов

1

1

1

2

2

1

1

3

3

1

1

4

1

1

2

4

2

1

2

4

3

1

2

5

1

1

3

3

2

1

3

4

3

1

3

5

1

2

1

2

2

2

1

4

3

2

1

5

1

2

2

3

2

2

2

4

3

2

2

5

1

2

3

3

2

2

3

4

3

2

3

5

Результат выполнения многофакторного анализа

Фактор 1 влияет на отклик со степенью значимости 0

Фактор 2 не влияет на отклик со степенью значимости 0.755

Фактор 3 влияет на отклик со степенью значимости 0.0114

Вывод: Квалификация преподавателя в общем случае не влияет на успеваемость,

тогда как дополнительные и самостоятельные занятия имеют большое

значение .

Выводы: Как можно заметить, в результатах рассмотренных двух методов имеются некоторые расхождения по величине суммы квадратов и степеней свободы, которые объясняются тем, что многофакторный метод не учитывает межфакторных взаимодействий. Тем не менее, результирующие значимости нулевых гипотез находятся в очень хорошем согласии.

Ковариационный анализ

Назначение

Основной задачей ковариационного анализа является проверка влияния качественного или количественного фактора на отклик. Однако здесь при каждом измерении вместе со значением отклика регистрируются значения одной или нескольких сопутствующих переменных (количественных со-факторов), которые также могут оказывать влияние на отклик, но это влияние желательно исключить при проверке основного факторного эффекта, то есть требуется рафинировать основной эффект от влияния сопутствующих переменных.

Ковариационный анализ используется для вычисления среднего произведения отклонений точек данных от относительных средних. Ковариация является мерой связи между двумя диапазонами данных.

Ковариационный анализ дает возможность установить, ассоциированы ли наборы данных по величине, то есть, большие значения из одного набора данных связаны с большими значениями другого набора (положительная ковариация), или, наоборот, малые значения одного набора связаны с большими значениями другого (отрицательная ковариация), или данные двух диапазонов никак не связаны (ковариация близка к нулю).

Ковариация - это среднее произведений отклонений для каждой пары точек данных. Ковариация используется для определения связи между двумя множествами данных.

Исходные данные

Исходные данные представляют собой матрицу из m переменных по n измерений: первые m-2 переменных являются сопутствующими переменными; m-1-я переменная является откликом в смысле дисперсионного анализа; каждое значение m-ой переменной представляет номер уровня фактора (целое число), при котором было произведено данное измерение. Матрица должна быть упорядочена по возрастанию значений m-ой переменной.

Результаты

Сначала производится проверка гипотез о равенстве средних значений сопутствующих переменных и отклика (гомогенность) для групп, соответствующих различным уровням фактора. Нулевая гипотеза гомогенности сопутствующих переменных говорит о сбалансированности проведенного эксперимента, когда их значения для разных групп примерно одинаково распределены. Принятие нулевой гипотезы гомогенности переменной отклика может быть следствием отсутствия факторного эффекта.

Далее производится множественный линейный регрессионный анализ первых m-1 переменных.

В завершении процедуры производится однофакторный дисперсионный анализ m-той переменной, значения которой скорректированы вычитанием вычисленных регрессионных значений.

Формулы и алгоритмы

Исходная модель представляется в виде:

yij = m + ai + b Ч (xij - mx) + c Ч (yij - my) + ј + eij

где:

yij - отклики; m - общее среднее;

ai - средний эффект фактора на уровне i = 1, 2, ј, I;

xij , yij , ј - сопутствующие переменные со средними значениями mx, my, ј; eij - ошибки.

Значения каждой сопутствующей переменной модифицируются вычитанием среднего значения. По модифицированной матрице производится многомерный линейный регрессионный анализ. Из каждого отклика вычитается соответствующее регрессионное значение и по полученным данным проводится однофакторный дисперсионный анализ.

Ковариация определяется следующим образом:

,

дисперсионный анализ многофакторный

где:

X, Y - первый и второй массивы данных; n - количество испытаний;

xi - сопутствующие переменные со средними значениями mx;

yi - отклики со средними значениями my.

Если факторов больше одного, то находятся ковариации для каждой пары фактор-отклик, составляется матрица ковариаций, и по ней определяется влияние того или иного фактора на отклик.

Пример 1

В эксперименте изучалось влияние тренировки на способность человека близко подойти к устрашающему объекту (живой змее), прежде чем он почувствует дискомфорт или беспокойство. Набрали 4 группы по 10 добровольцев, с которыми провели различные по длительности и по используемому манекену тренировки (одна из групп была контрольной). Затем провели испытания, фиксируя минимальное расстояние приближения к живой змее (переменная Y). Однако это расстояние может зависеть от множества других сопутствующих факторов (смелость, возраст, острота зрения и пр.), поэтому при неудачном разбиении испытуемых на группы статистический результат может быть сильно искажен. В данном случае решили учитывать один сопутствующий фактор - природную смелость, оцениваемую аналогичной пробой до начала тренировки (переменная X). В данном примере содержится значение сопутствующей переменной X, переменной-отклика Y и уровня фактора F:

X

Y

F

X

Y

F

25

25

1

32

24

3

13

25

1

30

18

3

10

12

1

12

2

3

25

30

1

30

24

3

10

37

1

10

2

3

17

25

1

8

0

3

9

31

1

5

0

3

18

26

1

11

1

3

27

28

1

5

1

3

17

29

1

25

10

3

17

11

2

10

8

4

9

2

29

17

4

19

16

2

7

8

4

25

17

2

17

12

4

6

1

2

8

7

4

23

12

2

30

26

4

7

4

2

5

8

4

5

3

2

29

29

4

30

26

2

5

29

4

19

20

2

13

9

4

2.5.2 Результаты

В среде «Stadia 6.0».

Гомогенность Х: F=0.0749, Значимость=0.972, степ.своб. = 3,36

Гипотеза 0: <Нет влияния фактора на отклик>

Гомогенность Y: F=8.85, Значимость=0.0003, степ.своб. = 3,36

Гипотеза 1: <Есть влияние фактора на отклик>

Коэфф.

а0

а1

Значение

4.26E -12

0.643

Ст.ошиб.

0.932

0.105

Значим.

0.995

0

Источник

Сум.квадр.

Степ.св.

Средн.квадр.

Регресс.

1.31E3

1

1.31E3

Остаточн.

1.32E3

38

34.8

Вся

2.63E3

39

Множеств R

R^2

R^2прив

Ст.ошиб.

F

Значим

0.70563

0.49791

0.4847

5.8951

37.7

0

Гипотеза 1: <Есть влияние фактора на отклик>

Источник

Сум.квадр.

Ст.своб.

Ср.квадр.

Сила влияния

Факт.1

1.94E3

3

647

0.367

Остат.

1.32E3

35

37.7

Общая

3.26E3

38

85.8

F(фактор1)=17.6, Значимость=0, степ.своб. = 3,36

Гипотеза 1: <Есть влияние фактора на отклик>

В среде «Microsoft Excel 97».

Ковариация равна 52,61.

2.5.3 График

2.5.4 Выводы

Предварительные результаты показывают, что значения сопутствующей переменной достаточно однородно распределены по уровням фактора (17.1, 16, 16.8, 15.3), что говорит о сбалансированности проведенного эксперимента, а значения переменной-отклика существенно различается в этих же группах (26.8, 11.9, 71.2, 15.3). Регрессионная модель также достаточно хорошо воспроизводит зависимость отклика от сопутствующей переменной. Заключительный дисперсионный анализ позволяет отклонить гипотезу об отсутствии влияния фактора на уровне значимости равном нулю и принять гипотезу о присутствии фактора тренировки.

Результаты в «Microsoft Excel 97» показали, что ковариация положительная, т.е. большие значения из одного набора данных связаны с большими значениями другого набора.

2.6 Пример 2

2.6.1 Данные

Рассмотрим предыдущий пример, но теперь возьмем два фактора: природную смелость (переменная Х1) и возраст (переменная Х2) и рассмотрим их влияние на отклик - минимальное расстояние приближения к живой змее (переменная Y).

X1

X2

Y

F

X1

X2

Y

F

25

34

25

1

32

19

24

3

13

27

25

1

30

28

18

3

10

28

12

1

12

36

2

3

25

20

30

1

30

31

24

3

10

38

37

1

10

21

2

3

17

31

25

1

8

38

0

3

9

36

31

1

5

20

0

3

18

19

26

1

11

19

1

3

27

25

28

1

5

32

1

3

17

30

29

1

25

24

10

3

17

18

11

2

10

28

8

4

9

24

9

2

29

17

17

4

19

32

16

2

7

37

8

4

25

28

17

2

17

27

12

4

6

19

1

2

8

19

7

4

23

37

12

2

30

23

26

4

7

26

4

2

5

28

8

4

5

31

3

2

29

32

29

4

30

35

26

2

5

38

29

4

19

27

20

2

13

19

9

4

2.6.2 Результаты

В среде «Stadia 6.0».

Гомогенность Х1: F=0.0914, Значимость=0.963, степ.своб = 3,28

Гипотеза 0: <Нет влияния фактора на отклик>

Гомогенность Х2: F=0.189, Значимость=0.903, степ.своб = 3,28

Гипотеза 0: <Нет влияния фактора на отклик>

Гомогенность Х3: F=2.39, Значимость=0.089, степ.своб = 3,28

Гипотеза 0: <Нет влияния фактора на отклик>

Коэфф.

a0

a1

a2

Значение

- 6.66E -13

0.715

0.272

Ст.ошиб.

0.893

0,0949

0.138

Значим.

0.995

0

0.056

Источник

Сум.квадр.

Степ.св.

Средн.квадр.

Регресс.

1.52E3

2

761

Остаточн.

740

29

25.5

Вся

2.26E3

31

Множеств R

R^2

R^2прив

Ст.ошиб.

F

Значим

0. 82034

0. 67297

0. 65041

5.0513

29.8

0

Гипотеза 1: <Есть влияние фактора на отклик>

Источник

Сум.квадр.

Ст.своб.

Ср.квадр.

Сила влияния

Факт.1

579

3

193

- 0.241

Остат.

740

27

27.4

Общая

1.32E3

30

44

F(фактор1)=7.3, Значимость=0.0011, степ.своб = 3,28

Гипотеза 1: <Есть влияние фактора на отклик>

В среде «Microsoft Excel 97».

Ковариация для Х1 и Y равна 52,61.

Ковариация для Х2 и Y равна 15,29.

График

- фактор Х1; - фактор Х2; - отклик..

2.6.4 Выводы

Заключительный дисперсионный анализ позволяет отклонить гипотезу об отсутствии влияния фактора на уровне значимости равном нулю и принять гипотезу о присутствии факторов тренировки и возраста.

Результаты в «Microsoft Excel 97» показали, что ковариация положительная в обоих случаях, т.е. большие значения из одного набора данных связаны с большими значениями другого набора. Но, т.к. ковариация для Х1 и Y больше ковариации для Х2 и Y, то это значит, что фактор тренировки больше влияет на отклик, чем фактор возраста.

2.7 Пример 3

2.7.1 Данные

В эксперименте рассматривался процент выброса свинца в атмосферу до (переменная Х) и после (переменная Y) применения фильтра для четырех видов промышленности: химической, черной металлургии, цветной металлургии и топливно-энергетического комплекса.

X

Y

F

X

Y

F

17

13

1

13

8

3

5

5

1

8

3

3

9

7

1

17

10

3

1

1

1

3

1

3

30

18

1

8

4

3

15

13

1

5

2

3

10

8

1

10

4

3

26

20

1

4

1

3

16

10

1

18

9

3

12

8

1

20

11

3

25

12

2

7

3

4

10

11

2

12

5

4

5

3

2

29

20

4

7

1

2

16

12

4

15

12

2

3

1

4

21

14

2

12

5

4

3

2

2

5

2

4

11

5

2

25

12

4

7

7

2

16

15

4

19

7

2

1

1

4

2.7.2 Результаты

В среде «Stadia 6.0».

Гомогенность Х1: F=0.322, Значимость=0.811, степ.своб = 3,36

Гипотеза 0: <Нет влияния фактора на отклик>

Гомогенность Х2: F=1.47, Значимость=0.239, степ.своб = 3,36

Гипотеза 0: <Нет влияния фактора на отклик>

Коэфф.

а0

а1

Значение

2.02E -12

0.64

Ст.ошиб.

0.338

0.0446

Значим.

0.995

0

Источник

Сум.квадр.

Степ.св.

Средн.квадр.

Регресс.

857

1

857

Остаточн.

174

38

4.57

Вся

1.03E3

39

Множеств R

R^2

R^2прив

Ст.ошиб.

F

Значим

0.91185

0.83147

0.82704

2.1383

187

0

Гипотеза 1: <Есть влияние фактора на отклик>

Источник

Сум.квадр.

Ст.своб.

Ср.квадр.

Сила влияния

Факт.1

126

3

42

- 0.31

Остат.

174

35

4.96

Общая

300

38

7.89

F(фактор1)=8.71, Значимость=0.0003, степ.своб = 3,36

Гипотеза 1: <Есть влияние фактора на отклик>

В среде «Microsoft Excel 97».

Ковариация равна 37,29.

2.7.3 График

- фактор; - отклик.

2.7.4 Выводы

Предварительные результаты показывают, что значения сопутствующей переменной достаточно однородно распределены по уровням фактора, а значения переменной-отклика существенно различается в этих же группах. Регрессионная модель также достаточно хорошо воспроизводит зависимость отклика от сопутствующей переменной. Заключительный дисперсионный анализ позволяет отклонить гипотезу об отсутствии влияния фактора на уровне значимости близком к нулю и принять гипотезу о присутствии фактора зависимости процента выброса свинца от вида промышленности. Результаты в «Microsoft Excel 97» показали, что ковариация положительная, т.е. большие значения из одного набора данных связаны с большими значениями другого набора.

2.8 Использование Excel

Алгоритм вычисления коэффициента ковариации:

1) Поставьте курсор на свободную ячейку;

2) В меню “Вставка” выберите пункт “Функция”;

3) В диалоговом окне “Мастер функций (шаг 1 из 2)” в окне “Категория” выберите пункт “Статистические”, а в окне “Функция” - пункт “КОВАР”;

4) В строке “Массив1” введите 1-ый диапазон данных (например, А1:А40), а в строке “Массив2” введите 2-ый диапазон данных и нажмите “OK”.

Алгоритм построения графика:

1) Поставьте курсор на свободную ячейку;

2) В меню “Вставка” выберите пункт “Диаграмма”;

3) В диалоговом окне “Мастер диаграмм (шаг 1 из 4): тип диаграммы” во вкладке “Стандартные” в окне “Тип” выберите пункт “График”, а в окне “Вид” - 1-ый график и нажмите кнопку “Далее”;

4) Выделите курсором область данных и нажмите кнопку “Готово”.

Размещено на Allbest.ru


Подобные документы

  • Дисперсионный анализ. Применение дисперсионного анализа в различных задачах и исследованиях. Дисперсионный анализ в контексте статистических методов. Векторные авторегрессии. Факторный анализ.

    курсовая работа [139,8 K], добавлен 29.05.2006

  • Общее понятие о дисперсионном анализе, его сущность и значение. Использование INTERNET и компьютера для проведения дисперсионного анализа, особенности работы в среде MS Excel. Примеры применения однофакторного и двухфакторного дисперсионного анализа.

    курсовая работа [820,4 K], добавлен 17.02.2013

  • Изучение раздела математической статистики, посвященного методам выявления влияния отдельных факторов на результат эксперимента. Эффекты взаимодействия. Использование однофакторного дисперсионного анализа для сравнения средних значений нескольких выборок.

    презентация [110,0 K], добавлен 09.11.2014

  • Построение статистических таблиц. Оценка достоверности влияния организованных и неучтенных факторов на величину результативного признака. Определение числа степеней свободы в однофакторном комплексе. Обработка двухфакторного дисперсионного комплекса.

    презентация [134,4 K], добавлен 14.04.2013

  • Сущность закона распределения и его практическое применение для решения статистических задач. Определение дисперсии случайной величины, математического ожидания и среднеквадратического отклонения. Особенности однофакторного дисперсионного анализа.

    контрольная работа [328,2 K], добавлен 07.12.2013

  • Проведение аналитической группировки и дисперсионного анализа данных, с целью количественно определить тесноту связи. Определение степени корреляции между группировочными признаками и вариационной зависимости переменной, обусловленной регрессией.

    контрольная работа [140,5 K], добавлен 17.08.2014

  • Особенности применения степенных рядов для вычислений с различной степенью точности значений функций и определенных интегралов. Рассмотрение примеров решения ряда задач этим математическим методом с условием принятия значений допустимой погрешности.

    презентация [68,4 K], добавлен 18.09.2013

  • Понятие и история развития криптографии как науки, предмет и методы ее исследования. Существующие шифры и закономерности процесса шифрования. Сравнительное описание шифров Плейфера и Тритемиуса, условия и анализ примеров их применения на практике.

    курсовая работа [66,2 K], добавлен 07.05.2016

  • Непрерывная случайная величина и функция распределения. Математическое ожидание непрерывной случайной величины. Среднее квадратичное отклонение. Кривая распределения для непрерывной случайной величины. Понятие однофакторного дисперсионного анализа.

    контрольная работа [165,5 K], добавлен 03.01.2012

  • Дисперсионный анализ по одному признаку для проверки равенства нескольких средних. Множественная линейная регрессия. Зависимость ВАШБП и ВАШСП от показателей активности в динамике. Дисперсионный анализ и линейная регрессия, артрит реактивный.

    курсовая работа [2,2 M], добавлен 08.08.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.