Критерий согласия

Знакомство с законами Менделя. Критерии согласия как критерии проверки гипотез о соответствии эмпирического распределения теоретическому распределению вероятностей. Способы проверки согласия экспериментальных данных теоретическому распределению.

Рубрика Математика
Вид реферат
Язык русский
Дата добавления 05.11.2016
Размер файла 134,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Введение

Актуальность данной темы в том, что в течение изучения основ биостатистики мы предполагали, что закон распределения генеральной совокупности известен. Но что, если закон распределения неизвестен, но есть основания предполагать, что он имеет определенный вид (назовем его А), то проверяют нулевую гипотезу: генеральная совокупность распределена по закону А. Проверка этой гипотезы производится при помощи специально подобранной случайной величины - критерия согласия.

Критерии согласия - это критерии проверки гипотез о соответствии эмпирического распределения теоретическому распределению вероятностей. Такие критерии подразделяются на два класса:

Ш Общие критерии согласия применимы к самой общей формулировке гипотезы, а именно к гипотезе о согласии наблюдаемых результатов с любым априорно предполагаемым распределением вероятностей.

Ш Специальные критерии согласия предполагают специальные нулевые гипотезы, формулирующие согласие с определенной формой распределения вероятностей.

1.Критерий согласия

Наиболее распространенные критерии согласия - омега-квадрат, хи-квадрат, Колмогорова и Колмогорова-Смирнова.

Непараметрические критерии согласия Колмогорова, Смирнова, омега квадрат широко используются. Однако с ними связаны и широко распространенные ошибки в применении статистических методов.

Дело в том, что перечисленные критерии были разработаны для проверки согласия с полностью известным теоретическим распределением. Расчетные формулы, таблицы распределений и критических значений широко распространены. Основная идея критериев Колмогорова, омега квадрат и аналогичных им состоит в измерении расстояния между функцией эмпирического распределения и функцией теоретического распределения. Различаются эти критерии видом расстояний в пространстве функций распределения.

Критерии согласия ч2 Пирсона для простой гипотезы

Теорема К. Пирсона относится к независимым испытаниям с конечным числом исходов, т.е. к испытаниям Бернулли (в несколько расширенном смысле). Она позволяет судить о том, согласуются ли наблюдения в большом числе испытаний частоты этих исходов с их предполагаемыми вероятностями.

Во многих практических задачах точный закон распределения неизвестен. Поэтому выдвигается гипотеза о соответствии имеющегося эмпирического закона, построенного по наблюдениям, некоторому теоретическому. Данная гипотеза требует статистической проверки по результатам которой будет либо подтверждена, либо опровергнута.

Пусть X - исследуемая случайная величина. Требуется проверить гипотезу H0 о том, что данная случайная величина подчиняется закону распределения F(x). Для этого необходимо произвести выборку из n независимых наблюдений и по ней построить эмпирический закон распределения F'(x). Для сравнения эмпирического и гипотетического законов используется правило, называемое критерием согласия. Одним из популярных является критерий согласия хи-квадрат К. Пирсона. В нем вычисляется статистика хи-квадрат:

где N - число интервалов, по которому строился эмпирический закон распределения (число столбцов соответствующей гистограммы), i - номер интервала, pt i -вероятность попадания значения случайной величины в i-й интервал для теоретического закона распределения, pe i - вероятность попадания значения случайной величины в i-й интервал для эмпирического закона распределения. Она и должна подчиняться распределению хи-квадрат.

Если вычисленное значение статистики превосходит квантиль распределения хи-квадрат с k-p-1 степенями свободы для заданного уровня значимости, то гипотеза H0 отвергается. В противном случае она принимается на заданном уровне значимости. Здесь k - число наблюдений, p число оцениваемых параметров закона распределения.

Рассмотрим статистику:

Статистика ч2 называется статистикой хи-квадрат Пирсона для простой гипотезы.

Ясно, что ч2 представляем собой квадрат некоего расстояния между двумя r-мерными векторами: вектором относительных частот (mi /n, …, mr /n) и вектором вероятностей (pi , …, pr ). От евклидового расстояния это расстояние отличается лишь тем, что разные координаты входят в него с разными весами.

Обсудим поведение статистики ч2 в случае, когда гипотеза Н верна, и в случае, когда Н неверна. Если верна Н, то асимптотическое поведение ч2 при n > ? указывает теорема К. Пирсона. Чтобы понять, что происходит с (2.2), когда Н неверна, заметим, что по закону больших чисел mi /n > pi при n > ?, для i = 1, …, r. Поэтому при n > ?:

Эта величина равна 0. Поэтому если Н неверна, то ч2 >? (при n > ?).

Из сказанного следует, что Н должна быть отвергнута, если полученное в опыте значение ч2 слишком велико. Здесь, как всегда, слова «слишком велико» означают, что наблюденное значение ч2 превосходит критическое значение, которое в данном случае можно взять из таблиц распределения хи-квадрат. Иначе говоря, вероятность Р(ч2 npi ч2 ) - малая величина и, следовательно, маловероятно случайно получить такое же, как в опыте, или еще большее расхождение между вектором частот и вектором вероятностей.

Асимптотический характер теоремы К. Пирсона, лежащий в основе этого правила, требует осторожности при его практическом использовании. На него можно полагаться только при больших n. Судить же о том, достаточно ли n велико, надо с учетом вероятностей pi , …, pr . Поэтому нельзя сказать, к примеру, что ста наблюдений будет достаточно, поскольку не только n должно быть велико, но и произведения npi , …, npr (ожидаемые частоты) тоже не должны быть малы. Поэтому проблема аппроксимации ч2 (непрерывное распределение) к статистике ч2 , распределение которой дискретно, оказалась сложной. Совокупность теоретических и экспериментальных доводов привела к убеждению, что эта аппроксимация применима, если все ожидаемые частоты npi>10. если число r (число различных исходов) возрастает, граница для снижена (до 5 или даже до 3, если r порядка нескольких десятков). Чтобы соблюсти эти требования, на практике порой приходится объединять несколько исходов, т.е. переходить к схеме Бернулли с меньшим r.

Описанный способ для проверки согласия можно прилагать не только к испытаниям Бернулли, но и к произвольным выборкам. Предварительно их наблюдения надо превратить в испытания Бернулли путем группировки. Делают это так: пространство наблюдений разбивают на конечное число непересекающихся областей, а затем для каждой области подсчитывают наблюденную частоту и гипотетическую вероятность.

В данном случае к перечисленным ранее трудностям аппроксимации прибавляется еще одна - выбор разумного разбиения исходного пространства. При этом надо заботится о том, чтобы в целом правило проверки гипотезы об исходном распределении выборки было достаточно чувствительным к возможным альтернативам. Наконец, отмечу, что статистические критерии, основные на редукции к схеме Бернулли, как правило, не являются состоятельными против всех альтернатив. Так что такой метод проверки согласия имеет ограниченную ценность.

Критерий согласия Колмогорова - Смирнова в своем классическом виде является более мощным, чем критерий ч2 и может быть использован для проверки гипотезы о соответствии эмпирического распределения любому теоретическому непрерывному распределению F(x) с заранее известными параметрами. Последнее обстоятельство накладывает ограничения на возможность широкого практического приложения этого критерия при анализе результатов механических испытаний, так как параметры функции распределения характеристик механических свойств, как правило, оценивают по данным самой выборки.

Критерий Колмогорова - Смирнова применяют для негруппированных данных или для группированных в случае малой ширины интервала (например, равной цене деления шкалы силоизмерителя, счетчика циклов нагружения и т. д.). Пусть результатом испытаний серии из n образцов является вариационный ряд характеристики механических свойств

x1 ? x2 ? ... ? xi ? ... ? xn. (3.93)

Требуется проверить нулевую гипотезу о принадлежности выборочного распределения (3.93) теоретическому закону F(x).

Критерий Колмогорова - Смирнова базируется на распределении максимального отклонения накопленной частности от значения функции распределения. При его использовании вычисляют статистики

являющуюся статистикой критерия Колмогорова. Если выполняется неравенство

Dnvn ? лб (3.97)

для больших объемов выборки (n > 35) или

Dn(vn + 0.12 + 0.11/vn) ? лб (3.98)

для n ? 35, то нулевую гипотезу не отвергают.

При невыполнении неравенств (3.97) и (3.98) принимают альтернативную гипотезу о принадлежности выборки (3.93) неизвестному распределению.

Критические значения лб составляют: л0.1 = 1.22; л0.05 = 1.36; л0.01 = 1.63.

Если параметры функции F(x) заранее не известны, а оцениваются по данным выборки, критерий Колмогорова - Смирнова теряет свою универсальность и может быть использован только для проверки соответствия опытных данных лишь некоторым конкретным функциям распределения.

При использовании в качестве нулевой гипотезы принадлежность опытных данных нормальному или логарифмически нормальному распределению вычисляют статистики:

где Ц(zi) - значение функции Лапласа для

Ц(zi) = (xi - xср)/s Критерий Колмогорова - Смирнова для любых объемов выборки n записывают в виде

Критические значения лб в этом случае составляют: л0.1 = 0.82; л0.05 = 0.89; л0.01 = 1.04.

Если проверяют гипотезу о соответствии выборки ***экспоненциальному распределению, параметр которого оценивают по опытным данным, вычисляют аналогичные статистики:

критерий эмпирический вероятность

и составляют критерий Колмогорова - Смирнова.

Критические значения лб для этого случая: л0.1 = 0.99; л0.05 = 1.09; л0.01 = 1.31.

2.Закон Менделя

В некоторых классических экспериментах с селекцией гороха Мендель наблюдал частоты различных видов семян, получаемых при скрещивании растений с круглыми желтыми семенами и растений с морщинистыми зелеными семенами. Они приводятся ниже вместе с теоретическими вероятностями, вычисленными в соответствии с теорией наследственности Менделя.

Таблица 2

Семена

Наблюденная численность

Ожидаемая численность

Круглые и желтые

315

Морщинистые и желтые

101

Круглые и зеленые

108

Морщинистые и зеленые

32

Всего

556

556

В этом случае теоретическое распределение дискретно и известно полностью. Для проверки согласия экспериментальных данных теоретическому распределению используем критерий для простой гипотезы. Значение статистики, вычисленное по выборке равно:

что меньше 5%-ного критического значения

критерий эмпирический вероятность

Следовательно, теория наследственности Менделя не противоречит полученным экспериментальным данным.

Практические примеры применения критерия согласия.

Применение хи-квадрат критерия для проверки простых гипотез.

Пример. При 100 бросаниях монеты число гербов равно O1= 65, а решек O2= 35. Число разрядов M=2. Если монета симметрична, то ожидаемые частоты E1=50, E2=50.

X 2Pearson = S(Oi-Ei) 2/Ei = (65-50) 2/50 + (35-50) 2/50 = 2*225/50 = 9.

Полученное значение следует сравнивать с теми, которые может принимать случайная величина ч2n=1 , определенная как квадрат стандартной нормальной величины ч2n=1 =T12 ? 9 у T1?3 или T1?-3. Вероятность такого события весьма мала P(ч2n=1?9) = 0.006. Поэтому монету нельзя считать симметричной: H0 следует отвергнуть. То, что число степеней свободы не может быть равно числу разрядов видно из того, что сумма наблюдаемых частот всегда равна сумме ожидаемых, например O1+O2 =65+35 = E1+E2=50+50=100. Поэтому случайные точки с координатами O1 и O2 располагаются на прямой: O1+O2 =E1+E2 =100 и расстояние до центра оказывается меньше, чем, если бы этого ограничения не было, и они располагались на всей плоскости. Действительно для двух независимые случайных величин с математическими ожиданиями E1=50, E2=50, сумма их реализаций не должна быть всегда равной 100 - допустимыми были бы, например, значения O1=60, O2=55.

Пояснение. Сравним результат, критерия Пирсона при M=2 с тем, что дает формула Муавра Лапласа при оценке случайных колебаний частоты появления события н=K/N имеющего вероятность p в серии N независимых испытаний Бернулли (K-число успехов):

ч2n=1=S (Oi-Ei) 2/Ei = (O1-E1) 2/E1 + (O2-E2)2/E2 = (Nн-Np)2/(Np) + (N(1-н)-N(1-p))2/(N(1-p))=(Nн-Np)2(1/p + 1/(1-p))/N=(Nн-Np)2/(Np(1-p))=( (K-Np)/(Npq) Ѕ ) 2= T2

Величина T=(K-Np)/(Npq) Ѕ = (K-m(K))/у(K) ?N(0,1) при у(K)=(Npq) Ѕ?3. Мы видим, что в этом случае результат Пирсона в точности совпадает с тем, что дает применение нормальной аппроксимации для биномиального распределения.

Применение хи-квадрат критерия для проверки сложных гипотез.

Пример. При исследовании 10 серий из 100 семян подсчитывалось число зараженных мухой-зеленоглазкой. Получены данные: Oi =(16, 18, 11, 18, 21, 10, 20, 18, 17, 21);

Можно ли считать эти данные однородными?

Здесь неизвестен заранее вектор ожидаемых частот. Если данные однородны и получены для биномиального распределения, то неизвестен один параметр доля p зараженных семян. Заметим, что в исходной таблице фактически имеется не 10 а 20 частот, удовлетворяющих 10 связям: 16+84=100, … 21+79=100.

X2 = (16-100p) 2/100p +(84-100(1-p)) 2/(100(1-p))+…+

(21-100p) 2/100p +(79-100(1-p)) 2/(100(1-p))

Объединяя слагаемые в пары (как в примере с монетой), получаем ту форму записи критерия Пирсона, которую обычно пишут сразу:

X2 = (16-100p) 2/(100p(1-p))+…+ (21-100p) 2/(100p(1-p)).

Теперь если в качестве метода оценки р использовать минимум расстояния Пирсона, то необходимо найти такое p, при котором X2=min. (Модель старается по возможности “подстроиться” под данные эксперимента.) Пример. Пусть получена следующая выборка 50 значений случайной величины с неизвестным распределением:

Таблица 2

45

89

93

40

91

60

2

59

87

78

57

39

50

0

35

91

67

62

25

93

19

98

55

78

34

45

86

31

15

95

50

52

35

66

0

44

93

36

29

44

17

85

17

63

34

43

100

75

84

9

Проверим гипотезу о том, что эта случайная величина имеет нормальное распределение. После разбиения области изменения выборочных значений на 5 равных интервалов получаем следующие наблюденные и гипотетические частоты:

Таблица 3

Интервал

(20, 40]

(40, 60]

(60, 80]

Наблюденная частота, nI

8

10

12

7

13

Гипотетическая

Частота, npi

6.1

9.7

13.4

11.6

9.2

Гипотетические частоты вычислялись для нормального распределения

с параметрами, оцененными по выборке - соответственно, число степеней свободы статистики критерия равно 5-1-2=2. Выборочное значение статистики равно , что не выходит за критический 5%-ный предел, равный . Следовательно, у нас нет оснований отвергнуть гипотезу о нормальности.

В действительности, выборка была получена с помощью датчика случайных чисел, равномерно распределенных на отрезке [0, 100]. Т.е. мы видим, что при данном числе наблюдений (в общем-то, конечно, небольшом для проверки гипотезы о типе распределения) критерий не обнаруживает отклонения от нормальности в направлении равномерности.

Величина статистики одновыборочного критерия Колмогорова - Смирнова равна D=0.11, что также не выходит за 5%-ный предел этого критерия в предположении, что гипотетические средние равны выборочным. Однако в случае неизвестных параметров гипотетического нормального распределения лучше пользоваться модификацией критерия Колмогорова - Смирнова, предложенной Cтефенсом (Лиллифорсом). Но в этом случае значение.

т.е. нет оснований отвергнуть гипотезу и по этому критерию.

Заключение

И в заключении мне хотелось бы отметить что, критерий Пирсона - это наиболее универсальный из всех используемых в статистике. Его можно применять к одномерным и многомерным данным, количественным и качественным признакам. Однако именно в силу универсальности следует быть осторожным, чтобы не совершить ошибки.

Но стоит учесть что, несмотря на всю универсальность данного критерия, нужно знать что, критерий Пирсона не всесилен. Существует бесконечное множество альтернатив для H0, которые он не в состоянии учесть. Пусть вы проверяете гипотезу о том, что признак имел равномерное распределение, у вас имеется 10 разрядов и вектор наблюдаемых частот равен (130,125,121,118,116,115,114,113,111,110). Критерий Пирсона не может “заметить” того, что частоты монотонно уменьшаются и H0 не будет отклонена. Если бы его дополнить критерием серий то да!

Список использованной литературы

1. Кобзарь А. И. Прикладная математическая статистика. -- М.: Физматлит, 2006.

2. Лагутин М. Б. Наглядная математическая статистика. В двух томах. -- М.: П-центр, 2003.

3. Статистический анализ данных, моделирование и исследование вероятностных закономерностей. Компьютерный подход: монография / Б. Ю. Лемешко, С. Б. Лемешко, С. Н. Постовалов, Е. В. Чимитова. -- Новосибирск : Изд-во НГТУ, 2011

4. Жижин К.С. Медицинская статистика. -Высшая школа. Феникс.2007

Размещено на Allbest.ru


Подобные документы

  • Суть понятия "критерии согласия". Критерии согласия Колмогорова и омега-квадрат в случае простой гипотезы. Критерии согласия Пирсона для простой гипотезы, Фишера для сложной гипотезы. Теоретическое обоснование и практическое применение критерия согласия.

    курсовая работа [3,6 M], добавлен 18.11.2010

  • Критерий согласия – критерий проверки гипотезы о предполагаемом законе распределения генеральной совокупности. Критерий Колмогорова-Смирнова и его практическое применение. Критические значения статистик Стефенса. Критерии Пирсона и Смирнова-Крамера.

    курсовая работа [629,9 K], добавлен 26.08.2012

  • Предельные теоремы теории вероятностей. Сходимость последовательностей случайных величин и вероятностных распределений. Метод характеристических функций. Закон больших чисел. Особенности проверки статистических гипотез (критерия согласия w2 Мизеса).

    курсовая работа [1,0 M], добавлен 27.01.2012

  • Основные понятия математической статистики, интервальные оценки. Метод моментов и метод максимального правдоподобия. Проверка статистических гипотез о виде закона распределения при помощи критерия Пирсона. Свойства оценок, непрерывные распределения.

    курсовая работа [549,1 K], добавлен 07.08.2013

  • Доверительное оценивание параметров законов распределения (дисперсия, математическое ожидание), классический регрессионный анализ. Проверка гипотез, методики расчета доверительных интервалов и критериев согласия для различных числовых характеристик.

    курсовая работа [302,9 K], добавлен 25.07.2013

  • Проведение проверки гипотезы о нормальности закона распределения вероятности результатов измерения случайной величины по критерию согласия Пирсона. Определение ошибок в массивах данных: расчет периферийных значений, проверка серии на равнорассеянность.

    контрольная работа [1,8 M], добавлен 28.11.2011

  • Определение закона распределения вероятностей результатов измерения в математической статистике. Проверка соответствия эмпирического распределения теоретическому. Определение доверительного интервала, в котором лежит значение измеряемой величины.

    курсовая работа [2,0 M], добавлен 11.02.2012

  • Случайная выборка объема как совокупность независимых случайных величин. Математическая модель в одинаковых условиях независимых измерений. Определение длины интервала по формуле Стерджесса. Плотность относительных частот, критерий согласия Пирсона.

    контрольная работа [90,4 K], добавлен 17.10.2009

  • Числовые характеристики непрерывных величин. Точечные оценки параметров распределения. Статистическая проверка гипотез. Сравнение средних известной и неизвестной точности измерений. Критерий Хи-квадрат для проверки гипотезы о виде распределения.

    курсовая работа [79,0 K], добавлен 23.01.2012

  • Использование вероятностной модели для описания неопределенностей. Распределение Пирсона, Стьюдента и Фишера при статистической обработке данных. Использование "Хи-квадрата" при оценивании дисперсии, проверке гипотез согласия качественных переменных.

    контрольная работа [794,7 K], добавлен 02.02.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.