Основы математической статистики
Характеристика моделей дисперсионного анализа с фиксированными уровнями факторов. Анализ статистических данных. Определение среднего арифметического урожайности. Рассмотрение схемы однофакторного дисперсионного анализа. Изучение метода нулевых гипотез.
Рубрика | Математика |
Вид | контрольная работа |
Язык | русский |
Дата добавления | 19.04.2015 |
Размер файла | 74,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Содержание
1. Основные понятия дисперсионного анализа
2. Однофакторный дисперсионный анализ
3. Многофакторный дисперсионный анализ
1. Основные понятия дисперсионного анализа
В процессе наблюдения за исследуемым объектом качественные факторы произвольно или заданным образом изменяются. Конкретная реализация фактора (например, определенный температурный режим, выбранное оборудование или материал) называется уровнем фактора или способом обработки. Модель дисперсионного анализа с фиксированными уровнями факторов называют моделью I, модель со случайными факторами - моделью II. Благодаря варьированию фактора можно исследовать его влияние на величину отклика. В настоящее время общая теория дисперсионного анализа разработана для моделей I.
В зависимости от количества факторов, определяющих вариацию результативного признака, дисперсионный анализ подразделяют на однофакторный и многофакторный.
Основными схемами организации исходных данных с двумя и более факторами являются:
- перекрестная классификация, характерная для моделей I, в которых каждый уровень одного фактора сочетается при планировании эксперимента с каждой градацией другого фактора;
- иерархическая (гнездовая) классификация, характерная для модели II, в которой каждому случайному, наудачу выбранному значению одного фактора соответствует свое подмножество значений второго фактора.
Если одновременно исследуется зависимость отклика от качественных и количественных факторов, т.е. факторов смешанной природы, то используется ковариационный анализ
2. Однофакторный дисперсионный анализ
В общем виде эту задачу можно поставить следующим образом: пусть мы наблюдаем m независимых нормально распределенных случайных величин предполагая, что все они имеют одинаковую дисперсию (эту гипотезу можно проверить с помощью F-критерия). Средние значения случайных величин вообще говоря, различны. Пусть в одинаковых экспериментальных условиях над каждой из переменных производится некоторая серия наблюдений (для простоты ограничимся случаем равночисленных наблюдений, хотя это обстоятельство несущественно для теории). Данные k-й серии пусть будут (k=1,2,…..,m).
Опираясь на эти статистические данные, мы хотим проверить гипотезу, согласно которой средние значения равны, т.е. a1=a2=…..=am.
Если проверяемая гипотеза, называемая нулевой гипотезой, верна. поставив средние в каждой серии, мы не должны получить ш расхождения между ними; если такое расхождение обнаружено то гипотезу (3) приходится отбросить.
Примером подобной ситуации может служить статистическое исследование урожайности сельскохозяйственной культуры в зависимости от 1 из m сортов почвы при некотором способе ее обработки. Истинное значение урожайности для каждого из m сортов почвы неизвестно, а экспериментально наблюдаемые урожайности (3) в каждом из n экспериментов на этих сортах почвы содержат ошибки, возникающие из-за тех или иных случайных причин. Будет ли одинаковой урожайность на всех сортах почвы, если предположить, что измерения (3) проводились с ‚одинаковой точностью и в одинаковых условиях? Иначе говоря, мы хотим проверить влияние одного фактора сорта почвы -- на урожайность .сельскохозяйственной культуры. В другой постановке та же задача возникает, если мы хотим проверить, насколько влияют и влияют ли вообще на плодородие почвы источники загрязнения. В этом случае сорт почвы может меняться и давать разную урожайность в зависимости от удаленности обрабатываемого участка земли от источника загрязнения.
Таблица результатов измерений будет иметь следующий вид:
Результаты измерений урожайности
Номер сорта почвы |
Номер эксперимента |
||||
1 |
2 |
3 |
n |
||
1 |
x11 |
X12 |
X13 |
X1n |
|
2 |
X21 |
X22 |
X23 |
X2n |
|
3 |
X31 |
X32 |
X33 |
X3n |
|
m |
Xm1 |
Xm2 |
Xm3 |
xnm |
Обозначим через среднее арифметическое из n наблюдаемых урожайностей на почве первого сорта, через -- среднее из урожайностей в почве второго сорта и т. д., так, что
, ,
Систематические ошибки наблюдений урожайностей на разных почвах неодинаковы, то мы должны ожидать повышенного рассеивания выборочных средних.
Обозначим через общее среднее арифметическое всех n m измерений так, что
Суммирование по k при постоянном i дает сумму по всем наблюдениям i-той серии (т.е. по i-му сорту почвы). Дальнейшее суммирование по i дает итог по всем сортам почвы. Так как
, то .
В то же время
,
причем
.
Но , так как представляет собой сумму отклонений наблюдений i-й серии от средней этой же серии и потому S=0.
По этому приняв во внимание, что
,
мы можем основное тождество записать в следующем виде
,
где , ,
Таким образом, общая сумма квадратов ‚ распадается на две составные части, первая из которых связана с оценкой дисперсии урожайности между сортами почвы, а вторая -- с оценкой дисперсии внутри всех сор почвы.
Предположим теперь, что гипотеза верна, и потому нормальные распределения всех величин (урожайностей) тождественны. имеют одинаковые среднее значение и дисперсию .Тогда же nm наблюдений можно рассматривать как выборку из одной и той же нормальной совокупности .
Можно показать, что при этой гипотезе статистики , и распределены по закону соответственно с ,, степенями свободы, а по тому Q, Q1, Q2 могут быть использованы в этом случае для оценки . Эта оценка может быть поведена с помощью несокращенных характеристик
, , .
При более детальном изучение показывает, что Q1 и Q2 при нашей гипотезе независимы друг от друга. Заметим, этот вывод справедлив при любых предположениях относительно ai.
Из сказанного вытекает, что критерий
в гипотезе будет следовать F-распределению с и степенями свободы. Выбирая q%-й уровень значимости при известных , , найдем соответствующий q% предел так, что P(F>Fq).
Пусть с другой стороны наша гипотеза неверна и средние значения (2) не равны друг другу, но параметр во всехm совокупностях один и тот же, когда сумма Q2, не изменяющаяся при замене на , имеет, как можно доказать. По-прежнему распределение и степенями свободы, . дисперсионный статистический арифметический урожайность
По-прежнему является несмещенной оценкой для . В то же время числитель F учитывает систематические расхождения между средними значениями ai, и имеет тенденцию расти и становится тем больше, чем больше отклонения от предполагаемого равенства значений ai. Поэтому правила проверки гипотезы дается в следующем виде: a1=a2=…..=am принимается, если ; в этом случае и несмещенными оценками параметров a и нормально распределенных случайных величин.
Если ,то нулевая гипотеза отклоняется, и следует считать, что среди значений имеются хотя бы два не равных друг другу.
Схема однофакторного дисперсионного анализа
Компонента дисперсии |
Сумма квадратов |
Число степеней свободы |
Выборочная дисперсия |
|
Между сортами почвы |
||||
Внутри сортов почвы |
||||
Полная (общая) |
Сравнивая дисперсию между сортами почвы с дисперсией «внутри» почвы, по величине их отношения судят, насколько рельефно проявляется влияние такого фактора, как сорт почвы; в этом сравнении как раз и заключается основная идея дисперсионного анализа. Схему однофакторного дисперсионного анализа можно представить в таблице.
В качестве числового примера рассмотрим данные пятикратного (n=5) измерения урожайности на трех (т =3) сортах почвы. В таблице приведены данные не фактического, а условного эксперимента;
Результаты измерения урожайности в относительных единицах
Номер Сорта почвы |
Номер эксперимента |
Выборочное среднее |
|||||
1 |
2 |
3 |
4 |
N=5 |
|||
i |
|||||||
1 |
12 |
15 |
17 |
13 |
16 |
14.6 |
|
2 |
20 |
17 |
16 |
25 |
14 |
18.4 |
|
m=3 |
10 |
12 |
11 |
13 |
8 |
10.8 |
Из таблицы имеем:
;
;
; ; ; .
Для нашего примера таблица однофакторного анализа будет иметь следующий вид
Дисперсионный анализ урожайности на различных сортах почвы
Компонента дисперсии |
Сумма квадратов |
Число степеней свободы |
Выборочная дисперсия |
|
Между сортами почвы |
Q1=137 |
2 |
||
Внутри сортов почвы |
Q2=102.2 |
12 |
||
Полная (общая) |
Q3=239.2 |
14 |
Произведя теперь проверку нулевой гипотезы (4) с помощью распределения, находим
При двух степенях свободы большей дисперсии (k1 = 2) и 12 е свободы меньшей дисперсии (k2 = 12) находим критические границы для F, равные при 5%-м уровне pзначимости и 3.88 и 1%-м уровне -- 6.93. Полученное нами из наблюдений значение превышает указанные границы, и потому нулевая гипотеза должна быть отвергнута, т.е. урожайность на рассматриваемых сортах почвы неодинакова.
3. Многофакторный дисперсионный анализ
Многофакторный анализ не меняет общую логику дисперсионного анализа, а лишь несколько усложняет ее, поскольку, кроме учета влияния на зависимую переменную каждого из факторов по отдельности, следует оценивать и их совместное действие. Таким образом, то новое, что вносит в анализ данных многофакторный дисперсионный анализ, касается в основном возможности оценить межфакторное взаимодействие. Тем не менее, по-прежнему остается возможность оценивать влияние каждого фактора в отдельности. В этом смысле процедура многофакторного дисперсионного анализа (в варианте ее компьютерного использования) несомненно более экономична, поскольку всего за один запуск решает сразу две задачи: оценивается влияние каждого из факторов и их взаимодействие /3/.
Данные, подвергаемые многофакторному дисперсионному анализу, часто обозначают в соответствии с количеством факторов и их уровней.
Предположив, что в рассматриваемой задаче о качестве различных m партий изделия изготавливались на разных t станках и требуется выяснить, имеются ли существенные различия в качестве изделий по каждому фактору:
А - партия изделий;
B - станок.
В результате получается переход к задаче двухфакторного дисперсионного анализа.
Все данные представлены в таблице, в которой по строкам - уровни Ai фактора А, по столбцам - уровни Bj фактора В, а в соответствующих ячейках, таблицы находятся значения показателя качества изделий xijk (i=1,2,...,m; j=1,2,...,l; k=1,2,...,n).
Показатели качества изделий
B1 |
B2 |
Bj |
Bl |
||
A1 |
x11l,…,x11k |
x12l,…,x12k |
x1jl,…,x1jk |
x1ll,…,x1lk |
|
A2 |
x21l,…,x21k |
x22l,…,x22k |
x2jl,…,x2jk |
x2ll,…,x2lk |
|
Ai |
xi1l,…,xi1k |
xi2l,…,xi2k |
xijl,…,xijk |
xjll,…,xjlk |
|
Am |
xm1l,…,xm1k |
xm2l,…,xm2k |
xmjl,…,xmjk |
xmll,…,xmlk |
Двухфакторная дисперсионная модель имеет вид:
xijk=м+Fi+Gj+Iij+еijk,
где xijk - значение наблюдения в ячейке ij с номером k;
м - общая средняя;
Fi - эффект, обусловленный влиянием i-го уровня фактора А;
Gj - эффект, обусловленный влиянием j-го уровня фактора В;
Iij - эффект, обусловленный взаимодействием двух факто-ров, т.е. отклонение от средней по наблюдениям в ячейке ij от суммы первых трех слагаемых в модели;
еijk - возмущение, обусловленное вариацией переменной внутри отдельной ячейки.
Предполагается, что еijk имеет нормальный закон распределения N(0; с2), а все математические ожидания F*, G*, Ii*, I*j равны нулю.
В таблице представлен общий вид вычисления значений, с помощью дисперсионного анализа.
Базовая таблица дисперсионного анализа
Компоненты дисперсии |
Число степеней свободы |
|
Межгрупповая (фактор А) |
m-1 |
|
Межгрупповая (фактор B) |
l-1 |
|
Взаимодействие |
(m-1)(l-1) |
|
Остаточная |
mln - ml |
|
Общая |
mln - 1 |
Проверка нулевых гипотез HA, HB, HAB об отсутствии влияния на рассматриваемую переменную факторов А, B и их взаимодействия AB осуществляется сравнением отношений, (для модели I с фиксированными уровнями факторов) или отношений, (для случайной модели II) с соответствующими табличными значениями F - критерия Фишера - Снедекора. Для смешанной модели III проверка гипотез относительно факторов с фиксированными уровнями производится также как и в модели II, а факторов со случайными уровнями - как в модели I.
Если n=1, т.е. при одном наблюдении в ячейке, то не все нулевые гипотезы могут быть проверены так как выпадает компонента Q3 из общей суммы квадратов отклонений, а с ней и средний квадрат , так как в этом случае не может быть речи о взаимодействии факторов.
С точки зрения техники вычислений для нахождения сумм квадратов Q1, Q2, Q3, Q4, Q целесообразнее ис-пользовать формулы:
Q3 = Q - Q1 - Q2 - Q4.
Отклонение от основных предпосылок дисперсионного анализа - нормальности распределения исследуемой переменной и равенства дисперсий в ячейках (если оно не чрезмерное) - не сказывается существенно на результатах дисперсионного анализа при равном числе наблюдений в ячейках, но может быть очень чувствительно при неравном их числе. Кроме того, при неравном числе наблюдений в ячейках резко возрастает сложность аппарата дисперсионного анализа. Поэтому рекомендуется планировать схему с равным числом наблюдений в ячейках, а если встречаются недостающие данные, то возмещать их средними значениями других наблюдений в ячейках. При этом, однако, искусственно введенные недостающие данные не следует учитывать при подсчете числа степеней свободы.
Размещено на Allbest.ru
Подобные документы
Общее понятие о дисперсионном анализе, его сущность и значение. Использование INTERNET и компьютера для проведения дисперсионного анализа, особенности работы в среде MS Excel. Примеры применения однофакторного и двухфакторного дисперсионного анализа.
курсовая работа [820,4 K], добавлен 17.02.2013Изучение раздела математической статистики, посвященного методам выявления влияния отдельных факторов на результат эксперимента. Эффекты взаимодействия. Использование однофакторного дисперсионного анализа для сравнения средних значений нескольких выборок.
презентация [110,0 K], добавлен 09.11.2014Сущность закона распределения и его практическое применение для решения статистических задач. Определение дисперсии случайной величины, математического ожидания и среднеквадратического отклонения. Особенности однофакторного дисперсионного анализа.
контрольная работа [328,2 K], добавлен 07.12.2013Основные этапы обработки данных натуральных наблюдений методом математической статистики. Оценка полученных результатов, их использование при принятии управленческих решений в области охраны природы и природопользования. Проверка статистических гипотез.
практическая работа [132,1 K], добавлен 24.05.2013Методы регистрации, описания и анализа статистических экспериментальных данных, получаемых в результате наблюдения массовых случайных явлений. Обзор задач математической статистики. Закон распределения случайной величины. Проверка правдоподобия гипотез.
презентация [113,3 K], добавлен 01.11.2013Понятие математической статистики как науки о математических методах систематизации и использования статистических данных для научных и практических выводов. Точечные оценки параметров статистических распределений. Анализ вычисления средних величин.
курсовая работа [215,1 K], добавлен 13.12.2014Проведение аналитической группировки и дисперсионного анализа данных, с целью количественно определить тесноту связи. Определение степени корреляции между группировочными признаками и вариационной зависимости переменной, обусловленной регрессией.
контрольная работа [140,5 K], добавлен 17.08.2014Дисперсионный анализ. Применение дисперсионного анализа в различных задачах и исследованиях. Дисперсионный анализ в контексте статистических методов. Векторные авторегрессии. Факторный анализ.
курсовая работа [139,8 K], добавлен 29.05.2006Построение статистических таблиц. Оценка достоверности влияния организованных и неучтенных факторов на величину результативного признака. Определение числа степеней свободы в однофакторном комплексе. Обработка двухфакторного дисперсионного комплекса.
презентация [134,4 K], добавлен 14.04.2013Непрерывная случайная величина и функция распределения. Математическое ожидание непрерывной случайной величины. Среднее квадратичное отклонение. Кривая распределения для непрерывной случайной величины. Понятие однофакторного дисперсионного анализа.
контрольная работа [165,5 K], добавлен 03.01.2012