Проверка статистических гипотез
Простые и сложные статистические гипотезы. Параметрические и непараметрические критерии оценки их достоверности. Анализ гипотез в практике лесного хозяйства, базирующихся на анализе параметров выборочной совокупности и распределении случайных величин.
Рубрика | Математика |
Вид | лекция |
Язык | русский |
Дата добавления | 29.03.2018 |
Размер файла | 590,3 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ
План лекции
1. Статистические гипотезы. Простые и сложные гипотезы
2. Параметрические методы оценки гипотез
3. Непараметрические критерии оценки статистических гипотез
4. Проверка статистических гипотез в практике лесного хозяйства
1. Статистические гипотезы. Простые и сложные гипотезы
Гипотеза - это научно обоснованное предположение о вероятности некоторого события, явления, закона и т.д. Гипотезой может считаться не любое предположение, а только такое, которое имеет некоторое научное обоснование, хотя еще недостаточно доказанное и проверенное. Поэтому гипотеза может как подтвердиться, так и быть отвергнутой. Но предварительное научное обоснование сделать надо, чтобы не выполнять явно ненужную работу, проверяя предположения, которые ни на чем не основаны.
Гипотеза, которая находит подтверждение и обоснование, перерастает в теорию, закон, закономерность и т.д. Примером подтвердившихся гипотез, ставших теориями и законами, служит периодическая система элементов Д.И. Менделеева (1834-1907), атомное строение материи, строение атома, наличие кварков. В лесном хозяйстве теория строения древостоев, выдвинутая в 19 веке, являлась лишь гипотезой, которая затем подтвердилась работой известных лесоводов А.В. Тюрина (1882-1979), В.К. Захарова (1882-1966), Н.В. Третьякова (1880-1957), Ф.П. Моисеенко (1894-1979) и других.
В настоящем пособии мы будем рассматривать не все гипотезы, а только статистические, т.е. относящиеся к области математической статистики. Для их проверки существует стандартная процедура. Для того, чтобы ее пояснить, возьмем простой пример с появлением перед наблюдателем в крупном городе мужчин или женщин. Мы уже видели, что вероятности появления лиц одного пола равны и составляют Pм = Pж = 0,5. Такое соотношение будет наблюдаться, если общее число лиц, прошедших мимо наблюдателя N, достаточно велико > 30, а лучше > 100, а в соотношении мужчин и женщин нет асимметрии, т.е. соблюдена симметрия, что обычно для крупных белорусских городов. Допустим, что такая симметрия нарушена, скажем проводим наблюдение в военном городке или в российском "городе невест" - Иваново. В этом случае соотношение полов нарушится, что будет свидетельствовать о некорректности опыта.
При анализе гипотез в начале необходимо остановиться на следующем важном факте: результат эксперимента, подтверждающий справедливость выдвинутой гипотезы, почти никогда не может служить основанием для принятия этой гипотезы. В то же время результат, несовместный с выдвинутой гипотезой, вполне достаточен для отклонения ее как ложной. Конечно, ошибки всегда могут иметь место, однако высказанное положение является важным и требует тщательного обоснования. Причина того, что результат, подтверждающий выдвинутую гипотезу, не обязательно может являться основанием для ее принятия, состоит в том, что данный результат может быть совместным также и с другими гипотезами и, следовательно, не обязательно может служить доказательством справедливости данной гипотезы против других выдвинутых альтернатив. Например, встреча 53 мужчин из 100, встреченных лиц обоих полов совместно с гипотезой о том, что количество мужчин и женщин в городе примерно одинаково. Этот результат совместен и с предположением, что мужчин в городе не на много, но больше. Таким образом, результат, совместный с первоначально выдвинутой гипотезой, не является стопроцентным доказательством ее достоверности. Даже встреча 50 мужчин не может служить основанием для заключения, что в городе имеется строго одинаковое количество лиц обоих полов. С другой стороны, встреча 90 мужчин при 100 прошедших прохожих могло бы на практике служить для опровержения гипотезы об одинаковом количестве мужчин и женщин в исследуемом населенном пункте, скажем в вахтовом поселке нефтяников в Сибири.
В следующем примере предположим, что средний коэффициент умственного развития некоторой совокупности людей составляет 100. Результат выборки, показавший, что средний показатель равен 102, совместен с выдвинутой нами гипотезой. Однако этот результат совместен также и с предположением, что средний коэффициент умственного развития равен 101 или 99, и, конечно же, совместен с гипотезой о том, что средний показатель исходной совокупности составляет 102. Следовательно, данный результат никоим образом не может являться свидетельством предпочтительности гипотезы, в соответствии с которой средний коэффициент равен 100. Допустим теперь, что некоторая выборка дала средний коэффициент умственного развития, равный 135. Предположив, что объем выборки был достаточно большим, мы могли бы показать следующее: если исходная гипотеза является достоверной, то мы практически никогда не получили бы подобного результата. На основании этого вывода полученный результат вполне обоснованно может быть использован нами в качестве свидетельства ложности выдвинутой гипотезы, причем риск совершения ошибки в данном случае был бы минимальным.
Все вышесказанное основывается на уже высказанном факте, что обычно результат эксперимента, совместный с выдвинутой гипотезой, оказывается также совместным и с рядом других гипотез. В итоге подобный результат не может быть принят в качестве обоснования предпочтительности некоторой гипотезы перед другими гипотезами. Однако мы всегда можем получить расходящийся с выдвинутой гипотезой результат, который может вызвать существенные сомнения в ее достоверности. Гипотезу можно сравнить с показаниями обвиняемого в суде. Он не может доказать истинности своих слов. В то же время некоторые приведенные им факты оставляют открытой возможность для выдвижения предположений о том, что он мог действовать не так, как описывал. И прокурор может подвергнуть сомнению точность его рассказа, показав, что можно интерпретировать приведенные факты по-другому.
В то же время для доказательства виновности обвиняемого должны быть предоставлены неопровержимые доказательства. Во всех цивилизованных странах действует принцип "презумпции невиновности". Это значит, что все сомнительные гипотезы трактуются в пользу обвиняемого с целью исключения осуждения невиновно, т.е. соблюдается правило, что для общества менее вредно не осудить виновного, чем наказать невиновного. К сожалению этот принцип в нашей стране долгое время (с 20 и до середины 50-х годов 20 века) нарушался, а господствовала презумпция виновности, что привело к тяжелым последствиям и гибели миллионов граждан.
В биометрии для доказательства некоторого утверждения часто применяют метод, известный в математике, как "доказательство от противного". Для этого в качестве рабочего инструмента используют так называемую "нулевую гипотезу". Поясним ее суть.
Нулевая гипотеза. Когда мы не в состоянии отвергнуть гипотезу, мы тем самым признаем, что эта гипотеза может оказаться верной. С другой стороны, если мы можем отвергнуть выдвинутую гипотезу, то тем самым делаем вполне определенный вывод о ее ложности.
Последнее положение является очень важным. При проверке гипотез мы можем сделать окончательный вывод только в случае, когда в состоянии отвергнуть выдвинутую гипотезу. Следовательно, цель проводимого нами эксперимента должна заключаться в опровержении проверяемой гипотезы. Это означает, что в качестве гипотезы мы должны сформулировать предположение, альтернативное тому, во что верим.
Например, если надо показать, что деревья дуба в целом выше, чем деревья граба, то выдвинем гипотезу об отсутствии различий в их росте. Затем попробуем отвергнуть эту гипотезу. В другом случае чтобы доказать, что между анатомическим строением древесины дуба и березы есть существенные различия, нужно подвергнуть проверке гипотезу, что между ними не существует различий. И вновь мы должны попытаться отвергнуть эту последнюю гипотезу, чтобы тем самым установить истинность нашего исходного предположения.
Определение. Гипотеза, в соответствии с которой отсутствуют различия между различными совокупностями, называется нулевой гипотезой.
Гипотеза, которую мы будем в состоянии проверить, не может быть сформулирована на основе любого суждения. Мы это уже наблюдали на примере встречи с лицами разных полов. Суждение о том, что мужчин и женщин в городе имеется одинаковое количество при встрече 50 мужчин и столько же женщин, недостаточно, чтобы на его основе можно было сформулировать некоторую определенную гипотезу. Подобные случаи обычны в практике исследований. Из сказанного следует, что экспериментатор должен сформулировать альтернативу тому, что он пытается доказать, в виде вполне определенной гипотезы. Только в случае, если это возможно, он может попытаться отвергнуть ее с тем, чтобы доказать справедливость своих исходных предположений.
Таким образом, первый шаг, предпринятый экспериментатором, должен состоять в формулировке статистической гипотезы, которую он надеется опровергнуть с тем, чтобы показать истинность своего исходного предположения. После этого он будет в состоянии применить процедуру проверки гипотезы.
В биометрии (статистике) применяются достаточно конкретные гипотезы, связанные с проведением числовых вычислений. Из этого следует, что понятие статистической гипотезы уже, чем понятие научной гипотезы вообще, и предполагает возможность статистического эксперимента для объективного подтверждения (или отклонения) рассматриваемого предположения. Иначе говоря, статистические гипотезы относятся к статистическим моделям.
Примерами гипотез такого рода являются предположения относительно параметров распределения - среднего, дисперсии и т.д. (параметрические гипотезы), либо относительно типа распределения или связи - непараметрические гипотезы. Так, параметрическими гипотезами являются утверждения: среднее значение в некоторой генеральной совокупности равно числу а (обозначается Н 0: = а), среднее и (или) дисперсии двух выборок равны (не равны) между собой:
Н0: 1 = 2, Н0: =
и т.д.). Непараметрическая гипотеза, например, одна из следующих: распределение диаметра данного древостоя подчиняется нормальному закону, рост древостоя в высоту есть экспоненциальная кривая и т.д. Гипотезы называют простыми, если они относятся к конкретному значению параметра (числу); сложные гипотезы представляют объединение простых.
На основании эксперимента, т.е. выборочных данных, решают вопрос: принять или отвергнуть гипотезы, т.е. свидетельствуют полученные данные "за" или "против" испытуемой гипотезы. Для решения этого вопроса мало рассматривать только проверяемую гипотезу Н 0; необходимо знать и область "против" гипотезы Н 0 - некоторую (их может быть несколько) исключающую ее альтернативную гипотезу На.
Для проверки необходимо выбрать статистическую характеристику критерия - показатель, разделяющий зоны, каждая из которых свидетельствует в пользу гипотезы Н 0 или На. Если речь идет о параметрических гипотезах, то в качестве статистической характеристики обычно используют определенные значения рассматриваемого параметра, а основой для заключений служит распределение статистики, оценивающей данный параметр. Поэтому проверка гипотез теснейшим образом связана с интервальным оцениванием, но позволяет делать более глубокие заключения.
Рассмотрим в качестве примера гипотезу о том, что количество осадков в мае - июле влияет на текущий прирост древостоев. Для этого рассмотрим текущий прирост за разные годы с разным количеством осадков, выпавших за исследуемый период, например, 200 мм и 600 мм. Мы считаем, что при 600 мм осадков прирост будет выше. Проверке подлежит утверждение, что среднее значение текущего прироста (обусловленного влиянием осадков) в генеральной совокупности равно нулю, т.е. испытуемой является гипотеза Н0: = 0 против альтернативной На: 0. Выбор такой альтернативы говорит о том, что нас интересуют как положительные отклонения от проверяемой гипотезы (осадки в количестве 600 мм увеличивают прирост), так и отрицательные. В этом случае проверку гипотезы называют двусторонней. Если бы нас интересовали отклонения в одну сторону - только положительные (тогда альтернативная гипотеза На: > 0) или отрицательные (На: < 0), то проверка была бы односторонней. В данном случае испытуемая гипотеза простая, а все три альтернативные - сложные.
Основные идеи проверки гипотез рассмотрим на примере среднего значения. Пусть проверяется гипотеза Н0: =Х0 и распределение статистики известно (рисунок 10.1).
Рисунок 10.1 Зоны принятия (1) и отклонения (2) гипотез при уровне значимости : а - двусторонняя проверка; б - односторонняя
На основании выборки получено выборочное среднее =а 1. Если а 1 не отличается сильно от Х 0, то естественно считать, что экспериментальные данные не противоречат проверяемой гипотезе, в противном случае ее отклоняют. В оценку величины различия вкладывается более конкретный смысл, а именно: еще до получения выборки задаются некоторой вероятностью , которая делит распределение статистики на две зоны. В первую относят все те значения статистики, которые признаются практически возможными (область допустимых значений), в другую - те значения статистики, появление которых в отдельном испытании (на основе одной выборки) признаются практически невозможными при условии, что проверяемая гипотеза верна. Поэтому величина должна быть достаточно мала, например 0,05 и 0,01. При двусторонней проверке критическая область имеет вид:
р (>х 1-/2) = р (<х/2)+ p(>х 1-/2) = /2+/2=, (10.1)
а при левосторонней и правосторонней односторонних проверках соответственно:
р(<х) = ; р(>х 1-) = ; (10.2)
где - выборочное значение статистики;
х и х 1- - соответствующие квантили распределения данной статистики (статистические характеристики критерия).
Далее вычисляют конкретное выборочное значение . Если оно попадает в область допустимых значений - гипотеза не отклоняется, если в критическую - гипотеза отклоняется, в связи с чем эти две области называют соответственно областью принятия и непринятия гипотез.
Число называют уровнем значимости критерия. От его величины зависит решение относительно испытуемой гипотезы. Если гипотеза Н 0 верна, то дает нам вероятность того, что статистика попадет в критическую область, и правильная гипотеза ошибочно будет отвергнута: при =0,001 - в одном случае из 1000, при =0,05 - в пяти случаях из 100 и т.д. Следует различать уровни значимости (), уровень достоверности (р) и доверительный коэффициент (t). Между ними есть тесная связь, которая видна из таблицы 10.1
Таблица 10.1 - Соотношение между различными критериями оценки статистических величин
Уровень значимости, |
Уровень достоверности, P |
Доверительный коэффициент, t |
|
32 % |
68 % |
1,00 |
|
5 % |
95 % |
1,96 |
|
1 % |
99 % |
2,58 |
|
0,1 % |
99,9 % |
3,39 |
Дадим пояснение к таблице 10.1. Уровень значимости () - это значение вероятности, которое показывает, что различия между средними значениями можно считать несущественными.
Уровень достоверности (P) - это случайная величина, для которой известен закон ее распределения. Обычно используют его критические значения для определенного уровня значимости () и числа степеней свободы (г). Например, t = I - критическое значение t-критерия Стьюдента.
Методы оценки достоверности подразделяются на параметрические и непараметрические, о чем речь пойдет ниже.
Чем меньше уровень значимости, тем меньше вероятность ошибочного отклонения правильной гипотезы. Однако уменьшение величины уровня значимости не всегда целесообразно. Если нулевая гипотеза неверна (например, среднее генеральной совокупности в действительности отличается от Х 0), то с уменьшением уменьшается критическая область и увеличивается область допустимых значений, т.е. статистика при очень малых попадет в область допустимых значений проверяемой гипотезы Н 0: =Х 0 и последняя не отклоняется, являясь в действительности ложной. Поэтому мало проверить гипотезу Н 0, одновременно нужно испытывать альтернативную гипотезу На. Только в таком случае можно оценить риск отклонения гипотезы, когда она верна, или принятия гипотезы, когда она неверна, а верна альтернативная.
Итак, при оценке гипотез возможны ошибки двух типов:
1) гипотеза верна, но отвергается; вероятность этой ошибки дается уровнем значимости и равна . Величина 1- дает нам вероятность принять гипотезу, если гипотеза верна;
2) гипотеза не верна, но принимается; если обозначить вероятность ошибки второго рода , то 1- (мощность критерия) есть вероятность отклонить гипотезу, если она не верна, а верна альтернативная.
Соотношение между ошибками первого и второго рода иллюстрирует рисунок 10.2 применительно к среднему значению .
Рисунок 10.2 - Ошибки первого и второго рода: 1 - зона принятия Н 0; 2 - вероятность ошибки 1-го рода; 3 - вероятность ошибки 2-го рода; 4 - мощность критерия
Если гипотеза верна, то площадь 1- дает вероятность принять гипотезу:
Н0, =/2+/2
- уровень значимости или вероятность ошибки 1-го рода. Пусть в действительности среднее генеральной совокупности равно +. Кривая распределения статистики не изменяется, но центр распределения сдвигается на величину . Тогда заштрихованная площадь , соответствующая области допустимых значений проверяемой гипотезы, даст вероятность принять гипотезу Н 0: =Х 0, в то время как в действительности верна гипотеза:
На: =Х 0+,
а площадь 1- дает величину мощности критерия.
Критическую область для проверяемой гипотезы выбирают так, чтобы обеспечивалась максимальная мощность используемого критерия; в таком случае при заданном уровне значимости гарантирована минимальная вероятность ошибки 2-го рода . Критерии, для которых обеспечивается это условие, называют наиболее мощными.
Из рисунка 10.2 видно, что мощность критерия при прочих равных условиях есть функция , а величины и взаимосвязаны; для выборки фиксированного объема N (от которого также зависит распределение данной статистики) уменьшение вероятности одной из ошибок и ведет к увеличению вероятности другой.
Уменьшить одновременно обе вероятности можно только путем увеличения объема выборки. Но это связано с техническими и экономическими проблемами и потому не всегда возможно. Поэтому с учетом того, что практические последствия ошибок 1 и 2-го рода неодинаковы, поступают следующим образом. Если, например, практический риск, связанный с ошибками 1-го рода, больше, чем риск, связанный с ошибками 2-го рода, то следует уменьшить за счет увеличения 1-. Если же представляется возможность оценить последствия ошибочных решений численно (в кубометрах древесины, в стоимостном выражении или как-нибудь иначе), то соотношение величин и может быть установлено на этой основе.
Так, при проверке гипотезы о влиянии удобрений на прирост древостоев ошибка 1-го рода приводит к отклонению гипотезы о том, что удобрения не влияют на увеличение текущего прироста, хотя в действительности это может быть не так, т. е. влияния нет или оно незначительно. Эта ошибка влечет за собой неоправданные затраты на внесение удобрений, которые не увеличивают продуктивности древостоев. Ошибка 2-го рода приводит к потере некоторого дополнительного количества древесины.
Очевидно, что последствия ошибки 1-го рода более существенны. Соотношение ошибок 1 и 2-го рода можно оценить с учетом, с одной стороны, стоимости удобрений и затрат на их внесение и, с другой, - стоимости дополнительно полученной древесины, с учетом того, что эта древесина может быть использована лишь через А лет, а А достигает и 30, и 60 лет.
Конечно, далеко не всегда стоимость определяет уровень допускаемых ошибок. Приведем несколько отвлеченный пример. Если в системе ПВО проверяют гипотезу о наличии в зоне обороны вражеской ракеты, то ошибка 1-го рода приведет к пропуску ракеты к цели, а ошибка 2-го рода - к объявлению ложной тревоги, и обе ошибки нежелательны, но следствия первой ошибки более значимы.
2. Параметрические методы оценки гипотез
Параметрические методы оценки достоверности статистических гипотез базируются на основе анализа некоторых параметров выборочной совокупности. Для применения таких оценок вычисляют среднее значение (), среднеквадратическое отклонение (у) или дисперсию (у2).
Наиболее часто употребляемым методом параметрической оценки является уже упомянутый выше критерий Стьюдента. Этот критерий всегда обозначается латинской буквой t, в интерпретации автора критерия.
Стьюдент установил, что закон распределения случайной величины зависит от объема выборки и основного отклонения. Опуская достаточно сложные описания распределения вероятностей, которые вывел Стьюдент, т.к. это выходит за пределы относительно небольшого курса лесной биометрии, значение t можно определить по формуле:
,
где - среднее значение выборочной совокупности;
- стандартное (среднеквадратическое) отклонение;
M - среднее значение в генеральной совокупности;
N - объем ряда распределения.
В практике наибольшее значение t-критерия Стьюдента выбирают из специальных таблиц (приложение Е), где критическая величина t-критерия определяется уровнем значимости (Р) и числом степеней свободы х, где
х = N1 + N2-2,
где N1 и N2 - величина выборок.
Критерий Стьюдента (t) используют для сравнения существенности разницы между средними значениями двух выборок в следующих вариантах
1. При N1 = N2
2. При
,
;
N1, N2 - объем соответствующих выборок;
m1 и m2 - основные ошибки средних значений ( и ) исследуемых двух выборок;
у2 - объединенная дисперсия двух выборок.
Интересующиеся описанием уравнений, выведенных Стьюдентом, могут найти их в книге Митропольского А.К. "Техника статистических вычислений", а также в других пособиях, например, М.П. Горошко, С.И. Миклуш, П.Г. Хамюк "Бiаметрiя", которые приведены в списке литературы.
Наряду с проверкой нулевой гипотезы равенства средних величин в генеральной совокупности выполняется проверка равенства среднеквадратического отклонения () и коэффициента вариации (V). Это вызвано тем, что при и , а, соответственно V1 и V2 могут отличаться и целесообразно знать, насколько эти отличия существенны.
Для этого используют следующие формулы:
, .
Критические значения t при заданном уровне значимости берут из уже упомянутых специальных таблиц (приложение Е) для х степеней свободы,
х = N1 + N2-2.
Сравнивая вычисленные и табличные величины t выбираем нулевую (Н 0) (нулевую) или альтернативную гипотезу, а именно:
; .
Примеры использования t критерия будут приведены ниже в 10.4.
Критерий Фишера. Помимо критерия Стьюдента в ряде случаев проверка нулевой гипотезы проводится по критерию Фишера. Этот критерий считается более точным при оценке равенства дисперсий в генеральной и выборочной совокупностях или двух генеральных совокупностей.
Р. Фишер открыл закон F-распределения, который описал специальной F-функцией. Учитывая краткость курса биометрии для лесоводов, мы описание этой функции опускаем. Отметим только, что функция Ф. Фишера (F) является непрерывной и зависит только от числа степеней свободы.
При выборках не очень малого размера (n>30) значимость различия между стандартными отклонениями 1 и 2 оценивают с помощью
t=(1 -2) / (10.4)
где и - ошибки стандартного отклонения, определяемые по формуле:
р=( / ) 100 %.
При выборках малого объема разности стандартных отклонений имеют распределение, отличающееся от нормального, и рассмотренный метод оценки этих разностей (по доверительным границам или проверкой Н 0 на основе t-критерия) является неточным. Здесь можно воспользоваться формулой:
t=,
которая подчиняется t-распределению Стьюдента с k=n-1 степенями свободы.
Р.А. Фишер предложил вместо разностей 1 и 2 оценивать разность
Z=ln 1 - ln 2,
которая имеет нормальное распределение и при выборках среднего объема. При вычислении Z можно пользоваться десятичными логарифмами^
Z=1,15131 lg (12 / 22).
Критерий Фишера (F) для оценки различия между выборочными дисперсиями обычно применяют в виде, который предложил Д. Снедекор.
(10.2)
В уравнении (10.2) значение . Критические значения F для разных уровней значимости в практике определяют по специальным таблицам в зависимости от числа степеней свободы х 1 и х2. При этом
х 1 = N1-1, а х 2 = N2-1.
Первой совокупностью (N1) будет та, где величина больше^
.
Для уровней достоверности 0,95, 0,99 и 0,999 критические значения F приведены в приложении Ж.
После сравнения вычисленного и критического (табличного) значений F выбирают нулевую (Н 0) или рабочую (альтернативную) - Нр-гипотезу.
; .
Примеры применения F критерия приведены ниже в 10.4.
Значимость различий качественных признаков. Качественные признаки, распределяющиеся по модели биномиального распределения, оценивают на основе долей. Методы оценки аналогичны вышерассмотренным для средних, выраженных в количественной мере.
Ошибка разности выборочных долей р 1 и р 2 определяется по формуле:
p1-p2 = (10.6)
Для критерия t с числом степеней свободы = N1- N2-2 имеем
t=(p1-p2) / p1-p2 (10.7)
Когда имеется одна выборка, значение средней ее доли может быть оценено путем сравнения с гипотетической (теоретической) долей. Например, в отношении теоретической доли рождаемости мальчиков может быть выдвинута нулевая гипотеза Н 0: Р=0,5.
В этом случае критерий:
t=Р-р / , (10.8)
где Р - теоретическая доля или вероятность, р - выборочная доля, N - численность выборки.
При Н 0: Р = 0,
t=р / . (10.9)
3. Непараметрические критерии оценки статистических гипотез
Непараметрические критерии оценки статистических гипотез не требуют вычисления показателей (, и v) в выборочной совокупности. Они не базируются на нормальном распределении случайных величин в совокупности, и здесь часто применяют другие законы распределения. В ряде случаев для определения этих оценок используют условные значения, порядковые номера и т. д.
В современной практике математической статистики из непараметрических критериев чаще всего применяют следующие критерии: -критерий Ван-дер-Вардена, Т-критерй Уайта, Z-критерий знаков и W-критерий Вилкоксона
Не приводя доказательств соответствующих теорем, дадим формулы для их применения в практике.
-критерий Ван-дер-Вардена находят по формуле^
,
где R - порядковый номер (ранг);
N1, N2 - объемы выборок
Ш - значение функции, определенное по специальной таблице в зависимости от величины R/(N1+N2+1) (приложение З).
-критерий Ван-дер-Вардена используется для выборок с несвязанными парными вариантами. Для этого варианты обоих рядов ранжируют по мере их возрастания. В результате ранжирования каждое значение xi получает порядковый номер (ранг). Затем находят отношение^
.
Критическое значение -критерия находят по специальной таблице (приложение И) для разных уровней значимости (5 %, 1 %) с числом степеней свободы
и при разнице между объемами выборок: N1-N2. По -критерию выбираем нулевую (Н 0) и рабочую (Нр) гипотезу.
; .
Поясним изложенное примером. Пусть мы измерим высоты в двух дубовых древостоях II класса бонитета в возрасте 80 лет в типе леса дубрава кисличная (Д. кис) и дубрава папоротниковая (Д. пап). (таблица 10.2)
Таблица 10.2 - Результаты измерений высот в двух древостоях дуба
Тип леса |
Высота измеренных деревьев (xi), м |
Среднее значение () |
||||||||||
Д. кис. |
22,0 |
22,5 |
21,7 |
17,9 |
20,8 |
28,4 |
25,6 |
19,6 |
23,6 |
20,9 |
22,3 |
|
Д. пап. |
26,3 |
18,8 |
20,6 |
21,9 |
17,5 |
22,4 |
22,6 |
28,3 |
17,8 |
- |
21,8 |
Проведем ранжирование данных таблицы 10.2 и найдем К и ш (таблица 10.3).
Таблица 10.3 - Расчет -критерия Ван-дер-Вардена
Высоты (м) по типам () леса |
Ранг дерева (R) |
||||
Д. кис. |
Д. пап. |
||||
- |
17,5 |
1 |
0,050 |
-1,64 |
|
- |
17,8 |
2 |
0,100 |
-1,28 |
|
17,9 |
- |
3 |
- |
- |
|
- |
18,8 |
4 |
0,200 |
-0,84 |
|
19,6 |
- |
5 |
- |
- |
|
- |
20,6 |
6 |
0,300 |
-0,53 |
|
20,8 |
- |
7 |
- |
- |
|
20,9 |
- |
8 |
- |
- |
|
21,7 |
- |
9 |
- |
- |
|
- |
21,9 |
10 |
0,500 |
0,00 |
|
22,0 |
- |
11 |
- |
- |
|
- |
22,4 |
12 |
0,600 |
0,25 |
|
22,5 |
- |
13 |
- |
- |
|
- |
22,6 |
14 |
0,700 |
0,52 |
|
23,6 |
- |
15 |
- |
- |
|
25,6 |
- |
16 |
- |
- |
|
- |
26,3 |
17 |
0,850 |
1,04 |
|
- |
28,3 |
18 |
0,900 |
1,28 |
|
28,4 |
- |
19 |
- |
- |
|
N1 = 10 |
N2=9 |
-1,20 |
В таблице 10.3 мы вычислили K1 = R/ N1+N2+1 для второй (меньшей) совокупности (N2). Затем, используя таблицу в приложении И, где даны величины x, ш в зависимости от величины R, нашли критерий Ван-дер-Вардена для наших рядов. Он оказался равен -1,2. По таблице в приложении И нашли критические значения критерия х при N1-N2=1. Он равен (при 1 % уровне значимости) для Y=19
Y = N1+N2 4.77.
Так как у нас 1,20 < 4,77, то принимается нулевая гипотеза, т. е., что различие при разнице в средних значениях на 0,5 м не значимы. Это значит, что обе выборки принадлежат к одной статистической совокупности высот дуба II класса бонитета, а тип леса не оказал существенного влияния на величину средней высоты.
Критерий Уайта. Этот критерий тоже используют для оценки разницы между средними значениями ( и ) двух выборок с попарно несвязанными вариантами. Схема вычисления Т-критерия Уайта показана в таблице 10.5. Для примера воспользуемся вышеприведенными данными замеров высот дуба (таблица 10.2). Приведем парные величины высот в порядке их возрастания и покажем объем каждой выборки (таблица 10.4)
Таблица 10.4 - Попарные замеры высот () дуба по мере возрастания
№ ряда |
Высоты, м |
Объем выборки |
Сумма хi |
Среднее значение |
||||||||||
1 |
17,9 |
19,6 |
20,8 |
20,9 |
21,7 |
22,0 |
22,5 |
23,6 |
25,6 |
28,4 |
10 |
223 |
22,3 |
|
2 |
17,5 |
17,8 |
18,8 |
20,6 |
21,9 |
22,4 |
22,6 |
26,3 |
28,3 |
- |
9 |
196,2 |
21,8 |
На основе таблицы 10.4 построим таблицу 10.5.
В таблице 10. 5 мы выписали ранги деревьев по мере возрастания высот: Х ранги равны от от 1 до 19, т.к. N1+N2 = 19. Затем против каждого дерева указываем номер выборки, из которой оно взято (графа 2). В графе 3 суммируем ранги деревьев (графа 1), которые попарно размещены в таблице 10. 4. Например, ранг дерева с высотой 20,8 м в первом ряду равен 7, а парного ему дерева в ряду 2 (18,8 м) - 4. Средний ранг этой пары будет (7+4)/2=5,5. В графы 5 и 6 выписываем средние ранги, принадлежащие первой и второй выборкам.
статистическая гипотеза достоверность случайная
Таблица 10.5 - Порядок расчетов для нахождения Т-критерия Уайта
Ранги |
Номер выборки |
Высота, м |
Совместный ранг |
Ранги для первой выборки |
Ранги для второй выборки |
|
1 |
2 |
3 |
4 |
5 |
6 |
|
1 |
2 |
17,5 |
2 |
- |
2 |
|
2 |
2 |
17,8 |
3,5 |
- |
3,5 |
|
3 |
1 |
17,9 |
2 |
2 |
- |
|
4 |
2 |
18,8 |
5,5 |
- |
5,5 |
|
5 |
1 |
19,6 |
3,5 |
3,5 |
- |
|
6 |
2 |
20,6 |
7,0 |
- |
7,0 |
|
7 |
1 |
20,8 |
9,5 |
5,5 |
- |
|
8 |
1 |
20,9 |
9,5 |
7,0 |
- |
|
9 |
1 |
21,7 |
11,5 |
9,5 |
- |
|
10 |
2 |
21,4 |
11,5 |
- |
9,5 |
|
11 |
1 |
22,0 |
13,5 |
11,5 |
- |
|
12 |
2 |
22,4 |
13,5 |
- |
11,5 |
|
13 |
1 |
22,5 |
16 |
13,5 |
- |
|
14 |
2 |
22,6 |
- |
13,5 |
||
15 |
1 |
23,6 |
16 |
16 |
- |
|
16 |
1 |
25,6 |
17 |
17 |
- |
|
17 |
2 |
26,3 |
19 |
- |
16 |
|
18 |
2 |
28,3 |
- |
17 |
||
19 |
1 |
28,4 |
19 |
- |
||
Итого |
173 |
104,5 |
85,5 |
Проверка правильности вычислений проводится по формуле^
, где .
В нашем примере .
. Таким образом, требуемое равенство соблюдено, т. е. вычисления сделаны правильно.
За значение Т-критерия Уайта принимается меньшая сумма рангов. В нашем примере это 85,5. По таблице в приложении К находим критическое значение Т-критерия для большего (N1) и меньшего (N2) объемов выборки при 1 % уровне значимости. Для N1 = 10 и N2 = 9 Т-критерий Уайта равен 58. Сравнив вычисленную нами величину (Rmin = 85.5) c критическим значением Т-критерия при 1 % уровне значимости, видим, что Тфакт > Ткрит, т. е. 85,5 > 58. Таким образом, Т-критерий Уайта тоже подтверждает, что измеримые высоты дуба в возрасте 80 лет из типов леса кисличный и папоротниковый принадлежат к одной статистической совокупности, определяемой вторым классом бонитета.
Z-критерий знаков используется для сравнения попарно связанных вариант, которые можно обозначить знаками (+) или (-). Обычно этот критерий используют при сравнении опытных и контрольных измерений после проведения лесохозяйственных опытов.
Применение Z-критерия знаков основано на предположении, что количество опытов со знаком (+) и (-) одинаково при однородной выборке, и наоборот - неоднородная выборка показывает различное количество знаков как следствие влияния исследуемого фактора.
Опыт применения названного критерия покажем на следующем примере. Пусть имеем 2 однорядных участка ольхи черной в типе леса черноольшанник болотно-папоротниковый в возрасте 20 лет, класс бонитета - III. Разница в высотах этих участков, выявленная путем замеров, несущественна. В одном из участков провели гидротехническую мелиорацию. Через 10 лет провели повторные замеры высот как на контрольном (без мелиорации), так и на опытном участке и получили следующие результаты (таблица 10.6).
Таблица 10.6 - Расчет Z-критерия знаков для двух черноольховых древостоев
Вариант |
Высоты измеренных деревьев, м |
? |
||||||||||||||||
Опыт |
16,3 |
17,0 |
17,9 |
10,9 |
10,8 |
14,3 |
13,0 |
18,2 |
10,6 |
11,5 |
16,4 |
14,1 |
14,3 |
11,9 |
12,7 |
210,8 |
14,1 |
|
Контроль |
15,4 |
17,2 |
16,8 |
10,6 |
11,8 |
13,2 |
13,4 |
17,0 |
10,8 |
11,0 |
13,6 |
14,1 |
14,5 |
10,7 |
10,9 |
200,8 |
13,4 |
|
Эффект с (+) |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
10 |
|||||||
Эффект с (-) |
- |
- |
- |
3 |
||||||||||||||
Нет эффекта (0) |
0 |
0 |
2 |
Значение Z-критерия знаков соответствует большему количеству эффектов без учета нулевых. В нашем примере положительный эффект наблюдали в 10 случаях, отрицательный - в 3, нулевой - 2. Объем выборки без нулевых эффектов равен 15-2 = 13. Число степеней свободы - 12*(N - 1).
По специальной таблице (приложение Л) находим величину Z-критерия для N = 12 при 1 % уровне значимости он равен 11. Нулевая гипотеза предполагает отсутствие влияния исследуемого фактора, т. е.
Z < Zкр = Н 0 - нулевая гипотеза
Z Zкр = Н 0 - рабочая (альтернативная) гипотеза.
Поскольку Zфактическое > Zкритическое, то применяется альтернативная гипотеза о том, что мелиорация за 10 лет (с возраста 20 до 30 лет) повлияла положительно (знаков "+" больше, чем "-") на рост черноольшанника болотно-папоротникового.
W-критерий Вилкоксона. Определение этого критерия базируется на ранжировании положительных и отрицательных эффектов (без учета нулевых) при сравнении попарно связанных вариантов в опытной и контрольной выборке. За вычисленное (фактическое) значение W-критерия принимается сумма рангов, которая имеет наименьший знак.
Критическое значение W-критерия при заданном уровне значимости берем из специальных таблиц (приложение М). Нулевая (влияния нет) и альтернативная (рабочая) гипотезы определяются по методу, описанному выше.
Wфакт Wкр = Н 0
Wфакт < Wкр = Нр
Сказанное последним примером. Возьмем те же два насаждения ольхи черной (таблица 10. 6) и проведем вычисления W-критерия. Результаты показаны в таблице 10. 7.
Таблица 10.7 - Вычисление W-критерия Вилкоксона
№ п/п |
Значение вариант |
Ранги |
Общий попарный ранг |
Ранги с |
||||
Опыт |
Контроль |
Опыт |
Контроль |
+ |
- |
|||
1 |
16,3 |
15,4 |
10 |
12 |
11 |
11 |
||
2 |
17,0 |
17,2 |
12 |
15 |
13,5 |
13,5 |
||
3 |
17,9 |
16,8 |
13 |
13 |
13 |
13 |
||
4 |
10,9 |
10,6 |
2 |
1 |
1,5 |
1,5 |
||
5 |
11,8 |
11,8 |
4 |
6 |
5 |
- |
- |
|
6 |
14,3 |
13,2 |
9 |
7 |
8 |
8 |
||
7 |
13,0 |
13,4 |
7 |
8 |
7,5 |
7,5 |
||
8 |
18,2 |
17,0 |
14 |
14 |
14 |
14 |
||
9 |
10,6 |
10,8 |
1 |
3 |
2 |
2 |
||
10 |
11,5 |
11,0 |
3 |
5 |
4 |
4 |
||
11 |
16,4 |
13,6 |
11 |
9 |
10 |
10 |
||
12 |
14,1 |
14,1 |
8 |
10 |
9 |
- |
- |
|
13 |
14,3 |
14,5 |
9 |
11 |
10 |
10 |
||
14 |
11,9 |
10,7 |
5 |
2 |
3,5 |
3,5 |
||
15 |
12,7 |
10,9 |
6 |
4 |
5 |
5 |
||
? |
83,5 |
19,5 |
По таблице (приложение М) необходим критический W-критерий при N = Nф - N0 = 15-2 = 13, который при 1 % уровне значимости равен 11.
В нашем случае сумма рангов с (-) меньше, и ее принимаем за фактический W-критерий, который равен 19,5. Тогда Wфакт = 19, Wкр = 13, т. е. Wфакт > Wкр.
Таким образом, W-критерий Вилкоксона показывает недостоверность имеющихся различий.
В практике чаще применяются параметрические критерии как более научно обоснованные. Как видно из приведенных примеров применение двух разных непараметрических критериев для одного и того же опыта с влиянием мелиорации на черноольховый древостой (Z-критерий знаков и W-критерий Вилкоксона) показывает противоположные результаты.
Если бы мы для приведенных двух примеров (таблицы 10.2 и 10.6) применили параметрические (верность вычисления , и предлагается проверить самостоятельно), то получили бы следующие результаты.
При сравнении высот древостоев дуба.
Для первого ряда: 10; 22,3; = 3,03; = 0,96.
Для второго ряда: N = 9; = 21,8; = 3,68; = 1,23.
При сравнении высот древостоев черной ольхи.
Для первого ряда: 15; 14,1; = 2,55; = 0,92.
Для второго ряда: 15; 13,4; = 2,33; = 0,60.
Сделаем сравнение по критерию Стьюдента и Фишера. Сравнение высот дуба
/
/
Критерий Стьюдента меньше его критического значения (приложение Е) при уровне значимости в 5 % и 10 %, т. е. различия несущественные. То же показывает и критерий Фишера, который оказался ниже порогового значения (приложение Ж). Следовательно, оба критерия подтверждают случайность расхождений в величинах высот.
Сравнение высот ольхи черной
/
/
Полученные данные также свидетельствуют о несущественной разнице.
Оценка двух выборок при качественных признаках. Если применить количественную шкалу для оценки свойств того или иного явления невозможно, применяют оценки качественные. Можно, например, расположить отдельные единицы в ранжированный ряд от худших к лучшим, допустим, по форме, вкусу, запаху или другим свойствам. Если подобного рода ранжирование ряда объектов или вариантов эксперимента будут проведены при помощи случайной выборки из числа экспертов, то можно сделать определенные выводы о ранжированном ряде в генеральной совокупности. Предположим, шесть случайных экспертов оценивают лекции, сделанные двумя лекторами. В основу оценки положен учет ряда не измеряемых количественно факторов: содержание прочитанного материала, форма его подачи, культура чтения и пр. Предположим, независимые оценки с подразделением их на два ранга (1-лучше, 2-хуже) были такие: первый лектор получил пять оценок 1-го ранга и одну 2-го ранга, второй лектор, наоборот.
Нулевая гипотеза состоит в том, что нет значимого различия в качественной оценке лекций. Для оценки используют критерий 2 (хи-квадрат), формула для которого при малых выборках имеет выражение:
2=(n1-n2-1)2 / N,
где n1 - число однородных оценок;
n2 - число неоднородных оценок.
Для рассматриваемого примера имеем 2=(5-1-1)2 / 6=1,5. Число степеней свободы при двух группах оценок равно 1. Из таблицы приложения Н находим =3,8.
Нулевая гипотеза на уровне значимости 5 % (т.е. при вероятности безошибочности заключения р=0,95) не отвергается. Она отвергается с вероятностью 0,90, которую в подобных случаях можно было бы считать достаточной, если повторение эксперимента было бы найдено затруднительным.
4. Проверка статистических гипотез в практике лесного хозяйства
В практике лесного хозяйства и, особенно при проведении научных исследований в лесном хозяйстве, часто возникают вопросы оценки эффекта от проведенных лесохозяйственных мероприятий или от причиненного вреда: рубки ухода, применение удобрений, селекция, мелиорация, вредители и болезни леса, пожары и т. д.. Примеры таких оценок с помощью критериев Стьюдента и Фишера, а также при использовании непараметрических оценок приведены выше. Наиболее часто, как уже отмечено, для этих целей используют параметрические оценки как более строгие. Здесь мы опишем типичную методику проведения таких оценок, которая принципиально применима к большинству оценок гипотез в лесном хозяйстве.
В опытах, чаще всего, возникают проблемы оценки эффектов, например, между высотами, диаметрами, приростами деревьев, получивших разные дозы удобрений, остающиеся при проведении рубок ухода разной интенсивности, при повреждениях пожарами или вредителями. При проведение таких исследований образуются парные наблюдения, где одно из них относится к первому варианту опытов (обычно это контроль), а другое ко второму. Разности между значениями признаков по парам образуют выборку, анализируя которую с помощью t-критерия Стьюдента, F-критерия Фишера или непараметрических критериев, делают соответствующее заключение.
Разности в опытах могут быть следствием достигнутого эффекта, но бывают из-за случайных причин, которые обычно остаются неизвестными. Если бы действовали только случайные причины, то по законам теории вероятности они имели бы разные знаки и их средняя в одной выборке равнялась бы нулю. Если же средняя здесь не равна нулю, то ее значимость требуется оценить.
Методику такой оценки покажем на искусственной модели двух выборок из одной совокупности. Допустим, заложена пробная площадь насаждений дуба в возрасте 95 лет II класса бонитета на площади в 1 га - 100100 м. На этой пробной площади замерено 238 диаметров и высот (таблица 10.8). Данные замеры примем как генеральную совокупность и найдем ее статистические оценки. Для упрощения сделаем группировку диаметров по ступеням толщины через 4 см (таблица 10.8), а высот по ступеням высоты через 2 м (таблица 10.10). На основе распределения сгруппированных данных вычислим статистические показатели.
Для распределения диаметров схема вычислений показана в таблице 10.9 Методика расчетов (вычисление , начальных моментов) ранее излагалась в главе 3.
Таблица 10.9 - Исходные данные для вычисления статистических показателей ряда распределения диаметров в древостое дуба
Ступени толщины, |
Численности, |
Отклонения, |
Вычисления для правила |
||||||||||
12 |
3 |
36 |
-4 |
-12 |
48 |
-192 |
768 |
-3 |
243 |
-18.7 |
349,7 |
1049,1 |
|
16 |
9 |
144 |
-3 |
-27 |
81 |
-243 |
729 |
-2 |
144 |
-14.7 |
216,1 |
1944,9 |
|
20 |
21 |
420 |
-2 |
-42 |
84 |
-168 |
336 |
-1 |
21 |
-10.7 |
114,5 |
2404,5 |
|
24 |
30 |
720 |
-1 |
-30 |
30 |
-30 |
30 |
0 |
0 |
-6.7 |
44,9 |
1347,0 |
|
28 |
44 |
1232 |
0 |
0 |
0 |
0 |
0 |
1 |
44 |
-2.7 |
7,3 |
321,2 |
|
32 |
54 |
1728 |
1 |
54 |
54 |
54 |
54 |
2 |
864 |
1.3 |
1,7 |
91,8 |
|
36 |
35 |
1260 |
2 |
70 |
140 |
280 |
560 |
3 |
2835 |
5.3 |
28,1 |
983,5 |
|
40 |
23 |
920 |
3 |
69 |
207 |
621 |
1863 |
4 |
5888 |
9.3 |
86,5 |
1989,5 |
|
44 |
17 |
748 |
4 |
68 |
272 |
1088 |
4352 |
5 |
10625 |
13.3 |
176,9 |
3007,3 |
|
48 |
2 |
96 |
5 |
10 |
50 |
250 |
1250 |
6 |
2592 |
17.3 |
219,2 |
598,4 |
|
? |
238 |
7304 |
- |
160 |
966 |
1660 |
9942 |
- |
23256 |
- |
- |
13737,2 |
Таблица 10.8 - Ведомость измерения диаметров (Д) и высот (Н) дуба
№ дер. |
Д, см |
Н, м |
№ дер. |
Д, см |
Н, м |
№ дер |
Д, см |
Н, м |
№ дер |
Д, см |
Н, м |
№ дер |
Д, см |
Н, м |
№ дер |
Д, см |
Н, м |
№ дер |
Д, см |
Н, м |
|
1 |
44,3 |
25,4 |
35 |
22,6 |
22,1 |
69 |
16,3 |
17,1 |
103 |
40,0 |
28,1 |
137 |
11,8 |
16,5 |
171 |
45,9 |
28,8 |
205 |
28,2 |
24,4 |
|
2 |
23,6 |
22,7 |
36 |
25,4 |
24,1 |
70 |
21,5 |
21,0 |
104 |
28,1 |
23,3 |
138 |
40,5 |
28,3 |
172 |
25,9 |
24,0 |
206 |
32,7 |
25,8 |
|
3 |
18,2 |
17,4 |
37 |
24,4 |
25,7 |
71 |
28,8 |
26,0 |
105 |
44,0 |
28,3 |
139 |
40,0 |
27,5 |
173 |
32,0 |
24,6 |
207 |
24,4 |
25,3 |
|
4 |
36,6 |
18,7 |
38 |
10,5 |
29,3 |
72 |
28,0 |
26,2 |
106 |
33,5 |
24,6 |
140 |
36,3 |
26,6 |
174 |
24,9 |
24,1 |
208 |
38,8 |
27,6 |
|
5 |
30,5 |
26,0 |
39 |
36,7 |
28,4 |
73 |
24,3 |
20,5 |
107 |
36,4 |
26,7 |
141 |
33,0 |
25,7 |
175 |
39,6 |
27,3 |
209 |
24,0 |
23,1 |
|
6 |
33,4 |
26,5 |
40 |
30,1 |
24,7 |
74 |
30,2 |
25,8 |
108 |
28,7 |
24,1 |
142 |
44,1 |
29,6 |
176 |
33,8 |
25,6 |
210 |
36,2 |
25,6 |
|
7 |
40,1 |
29,1 |
41 |
33,0 |
26,6 |
75 |
36,0 |
27,4 |
109 |
32,4 |
25,8 |
143 |
30,7 |
25,8 |
177 |
28,8 |
26,1 |
211 |
27,0 |
24,2 |
|
8 |
29,3 |
24,7 |
42 |
32 |
27,1 |
76 |
34,1 |
28,1 |
110 |
45,6 |
29,3 |
144 |
40,5 |
30,2 |
178 |
26,1 |
23,3 |
212 |
30,3 |
27,0 |
|
9 |
28,4 |
24,4 |
43 |
27,6 |
22,3 |
77 |
33,2 |
27,5 |
111 |
29,4 |
25,6 |
145 |
28,4 |
25,1 |
179 |
44,3 |
27,2 |
213 |
31,9 |
27,2 |
|
10 |
27,5 |
24,2 |
44 |
28,1 |
24,6 |
78 |
38,5 |
27,7 |
112 |
29,6 |
25,5 |
146 |
42,6 |
30,8 |
180 |
31,7 |
26,0 |
214 |
27,4 |
25,0 |
|
11 |
15,5 |
16,0 |
45 |
31,4 |
26,4 |
79 |
40,9 |
28,8 |
113 |
24,3 |
23,3 |
147 |
18,7 |
20,3 |
181 |
24,8 |
23,3 |
215 |
43,3 |
28,5 |
|
12 |
32,2 |
25,5 |
46 |
16,3 |
25,1 |
80 |
49,9 |
30,6 |
114 |
18,1 |
20,7 |
148 |
36,0 |
26,1 |
182 |
39,0 |
26,3 |
216 |
23,3 |
24,0 |
|
13 |
30,6 |
25,3 |
47 |
21,7 |
20,2 |
81 |
45,7 |
30,1 |
115 |
44,8 |
30,0 |
149 |
42,7 |
30,3 |
183 |
28,0 |
23,0 |
217 |
31,1 |
26,6 |
|
14 |
28,5 |
24,7 |
48 |
34,5 |
26,3 |
82 |
12,2 |
16,1 |
116 |
26,1 |
27,1 |
150 |
33,1 |
25,7 |
184 |
30,6 |
24,0 |
218 |
22,1 |
22,7 |
|
15 |
27,1 |
24,2 |
49 |
37,7 |
26,8 |
73 |
14,7 |
15,5 |
117 |
24,5 |
20,9 |
151 |
34,0 |
25,6 |
185 |
24,0 |
23,5 |
219 |
36,0 |
25,8 |
|
16 |
26,6 |
23,7 |
50 |
19,5 |
19,5 |
84 |
26,6 |
24,8 |
118 |
40,6 |
27,3 |
152 |
36,2 |
26,8 |
186 |
48,1 |
31,0 |
220 |
23,5 |
23,0 |
|
17 |
36,8 |
27,1 |
51 |
18,2 |
18,4 |
85 |
32,0 |
26,3 |
119 |
25,6 |
23,5 |
153 |
38,3 |
27,0 |
187 |
32,0 |
25,1 |
221 |
30,6 |
25,1 |
|
18 |
34,1 |
26,5 |
52 |
24,4 |
22,3 |
86 |
33,4 |
26,4 |
120 |
32,0 |
25,0 |
154 |
33,4 |
26,6 |
188 |
23,5 |
23,1 |
222 |
28,7 |
25,0 |
|
19 |
32,5 |
28,8 |
53 |
41,2 |
30,5 |
87 |
34,5 |
26,8 |
121 |
39,7 |
28,7 |
155 |
36,1 |
26,9 |
189 |
36,9 |
26,2 |
223 |
45,7 |
28,5 |
|
20 |
30,6 |
25,4 |
54 |
40,1 |
29,3 |
88 |
37,8 |
26,6 |
122 |
26,8 |
24,4 |
156 |
27,7 |
24,4 |
190 |
30,1 |
21,4 |
224 |
24,0 |
22,8 |
|
21 |
33,8 |
26,0 |
55 |
20,5 |
18,4 |
89 |
42,2 |
29,3 |
123 |
36,0 |
27,8 |
157 |
44,0 |
30,0 |
191 |
32,8 |
25,8 |
225 |
33,3 |
26,1 |
|
22 |
23,0 |
21,7 |
56 |
20,4 |
18,9 |
90 |
33,5 |
27,2 |
124 |
19,4 |
21,5 |
158 |
32,1 |
25,0 |
192 |
35,1 |
24,3 |
226 |
28,8 |
26,0 |
|
23 |
17,7 |
17,0 |
57 |
32,5 |
27,0 |
91 |
16,6 |
19,1 |
125 |
40,1 |
27,1 |
159 |
25,0 |
22,1 |
193 |
20,6 |
20,5 |
227 |
40,3 |
28,2 |
|
24 |
31,5 |
25,6 |
58 |
31,9 |
25,2 |
92 |
36,1 |
26,5 |
126 |
20,0 |
18,8 |
160 |
36,0 |
27,3 |
194 |
22,1 |
22,0 |
228 |
33,8 |
27,6 |
|
25 |
11,3 |
14,6 |
59 |
30,6 |
25,8 |
93 |
18,0 |
20,3 |
127 |
33,7 |
24,7 |
161 |
29,1 |
25,3 |
195 |
18,1 |
20,0 |
229 |
32,2 |
26,8 |
|
26 |
39,8 |
28,8 |
60 |
29,5 |
24,1 |
94 |
36,5 |
32,0 |
128 |
36,1 |
25,8 |
162 |
32,3 |
25,4 |
196 |
40,2 |
19,1 |
230 |
29,5 |
26,2 |
|
27 |
22,5 |
20,5 |
61 |
26,1 |
23,5 |
95 |
30,8 |
25,4 |
129 |
22,0 |
22,0 |
163 |
37,0 |
26,7 |
197 |
25,7 |
24,1 |
231 |
40,6 |
28,5 |
|
28 |
20,0 |
21,6 |
62 |
27,0 |
24,0 |
96 |
40,6 |
27,5 |
130 |
40,1 |
28,8 |
164 |
32,0 |
24,4 |
198 |
28,0 |
23,4 |
232 |
43,9 |
30,4 |
|
29 |
16,4 |
18,0 |
63 |
28,1 |
24,7 |
97 |
26,6 |
18,2 |
131 |
20,5 |
20,4 |
165 |
31,6 |
24,6 |
199 |
19,9 |
18,6 |
233 |
34,0 |
27,7 |
|
30 |
37,2 |
28,4 |
64 |
34,6 |
27,4 |
98 |
36,0 |
25,7 |
132 |
34,4 |
26,5 |
166 |
38,0 |
26,7 |
200 |
34,9 |
25,3 |
234 |
32,1 |
27,6 |
|
31 |
35,4 |
28,1 |
65 |
36,6 |
28,2 |
99 |
37,2 |
28,9 |
133 |
40,8 |
27,4 |
167 |
28,2 |
25,0 |
201 |
24,0 |
25,0 |
235 |
38,8 |
23,5 |
|
32 |
31,1 |
26,5 |
66 |
40,8 |
29,0 |
100 |
16,2 |
19,7 |
134 |
20,7 |
20,8 |
168 |
32,0 |
25,0 |
202 |
26,3 |
22,4 |
236 |
40,1 |
29,4 |
|
33 |
30,8 |
25,8 |
67 |
23,0 |
22,4 |
101 |
15,1 |
16,8 |
135 |
19,4 |
17,6 |
169 |
36,2 |
25,5 |
203 |
22,8 |
20,5 |
237 |
28,4 |
26,6 |
|
34 |
29,1 |
25,5 |
68 |
28,5 |
26,6 |
102 |
44,8 |
29,5 |
136 |
20,2 |
19,6 |
170 |
28,3 |
24,4 |
204 |
36,1 |
26,7 |
238 |
36,3 |
27,7 |
На основе таблицы 10.9 вычислим и начальные моменты.
Среднее значение см.
Среднеквадратическое отклонение
.
Основная ошибка среднего значения .
Коэффициент вариации .
; .
Для полной характеристики статистического ряда необходимо определить показатели асимметрии (б) и эксцесса (E). Их найдем через моменты.
Начальные моменты, используя таблицу 10.9 определим по формулам.
;
;
;
;
Сделаем проверку правильности вычисления начальных моментов.
;
.
Учитывая, что m0 = 1, запишем
41,773+4*6,975+6*4,059+4*0,672+1=41,773+27,9+24,354+2,688+1=97,71.
Равенство величин вычисленного разными способами, выдерживается, т. е. начальные моменты верны.
.
.
.
.
Сделаем проверку вычисления центральных моментов.
.
.
.
Равенство и , вычисленных разными способами, говорит о верности расчетов.
С помощью моментов сделаем проверку вычисления и .
. Учитывая, что величина ступени толщины (k) равна 4 см, запишем , , .
Как видим, величины и , вычисленные разными способами, совпали в пределах точности округления.
Теперь находим третий и четвертый основные моменты, помня, что ; ; .
; ; .
Тогда ; ; ; .
Теперь проведем аналогичные вычисления для распределения высот в исследованном древостое дуба (таблица 10.10)
Среднее значение .
Вычисленные коэффициенты вариации для ряда распределения диаметров и высот в древостоях дуба соответствуют величине варьирования этих показателей для приспевающих и спелых насаждений, которые установлены крупнейшими нашими учеными-таксаторами: В.К. Захаровым, М.Л. Дворецким, Ф.П. Моисеенко, А.Г. Мошкалевым и др.
На основе таблицы 10.10 найдем начальные, центральные и основные моменты для определения асимметрии и эксцесса рядов распределения, используя формулы, приведены выше.
; ; ; .
Сделаем проверку:
.
Таким образом, величины , вычисленные разными способами, равны (в пределах точности округления), т. е. расчеты сделаны верно.
Таблица 10.10 - Исходные данные для вычисления статистических показателей для распределения высот в дубовом древостое
Ступени высоты, |
Численности, |
Отклонение, |
Данные для проверки |
Данные для вычисления |
||||||||||
16 |
8 |
128 |
-4 |
-32 |
128 |
-512 |
2048 |
-3 |
81 |
648 |
-9 |
81 |
648 |
|
18 |
10 |
180 |
-3 |
-30 |
90 |
-270 |
810 |
-2 |
16 |
160 |
-7 |
49 |
490 |
|
20 |
15 |
300 |
-2 |
-30 |
60 |
-120 |
240 |
-1 |
1 |
15 |
-5 |
25 |
375 |
|
22 |
18 |
396 |
-1 |
-18 |
18 |
-18 |
18 |
0 |
0 |
0 |
-3 |
9 |
162 |
|
24= |
46 |
1104 |
0 |
0 |
0 |
0 |
0 |
1 |
1 |
46 |
-1 |
1,0 |
46 |
|
26 |
75 |
1950 |
1 |
75 |
75 |
75 |
75 |
2 |
16 |
1200 |
1,0 |
11,0 |
75 |
|
28 |
46 |
1288 |
2 |
92 |
184 |
368 |
736 |
3 |
81 |
3726 |
3,0 |
9,0 |
414 |
|
30 |
18 |
540 |
3 |
54 |
162 |
486 |
1458 |
4 |
256 |
4608 |
5,0 |
5,0 |
450 |
|
32 |
2 |
64 |
4 |
8 |
32 |
128 |
512 |
5 |
625 |
1250 |
7,0 |
49 |
98 |
|
ИТОГО (?) |
238 |
5950 |
- |
119 |
749 |
137 |
5897 |
- |
- |
11653 |
- |
- |
2758 |
Находим центральные моменты.
;
.
Вычисленные вторым способом величины и подтверждают верность расчетов.
Проверим правильность нахождения и .
; ;
.
Как видим величины и тоже совпадают с ранее найденными непосредственным способом.
.
.
Тогда б=r3=-0,79; E=r4-3=0,35.
Из приведенных статистик следует, что ряд сильно скошен влево.
Вычислив данные для всей совокупности, сделаем ее оценку по двум частичным выборкам и проверим их принадлежность к одной или нескольким совокупностям, т. е. проведем проверку статистических гипотез. Для этого из совокупности, представленной в таблице 10.8 возьмем по 2 выборки для диаметров и высот. Для этого отберем каждое 10 дерево и выпишем в таблицу 10.11 данные парных выборок для диаметров и высот. Первую выборку начнем с дерева №1, вторую с дерева №5. Тогда отбираемые деревья будут иметь следующие номера.
Для диаметров: №№1, 11, 21, 31, …, 231.
Для высот: №№5, 15, 25, 35, …, 235.
Таблица 10.11 - Частичные выборки деревьев с замеренными диаметрами и высотами из 238 деревьев на пробной площади в дубовом насаждении
Выборка №1 |
Выборка №2 |
|||||
№ деревьев |
Диаметры, см (Д) |
Высоты, м (H) |
№ деревьев |
Диаметры, см (Д) |
Высоты, м (H) |
|
1 |
44,3 |
25,4 |
5 |
30,5 |
26,0 |
|
11 |
15,5 |
16,0 |
15 |
27,1 |
24,2 |
|
21 |
33,8 |
26,0 |
25 |
11,3 |
14,6 |
|
31 |
35,4 |
28,1 |
35 |
22,6 |
22,1 |
|
41 |
33,0 |
26,6 |
45 |
31,4 |
26,4 |
|
51 |
18,2 |
18,4 |
55 |
20,5 |
18,4 |
|
61 |
26,1 |
23,5 |
65 |
36,6 |
28,2 |
|
71 |
28,8 |
26,0 |
75 |
36,0 |
27,4 |
|
81 |
45,7 |
30,1 |
85 |
32,0 |
26,3 |
|
91 |
16,6 |
19,1 |
95 |
30,8 |
25,4 |
|
101 |
15,1 |
16,8 |
105 |
44,0 |
28,3 |
|
111 |
29,4 |
25,6 |
115 |
44,8 |
30,0 |
|
121 |
39,7 |
28,7 |
125 |
40,1 |
27,1 |
|
131 |
20,5 |
20,4 |
135 |
19,4 |
17,6 |
|
141 |
33,0 |
25,7 |
145 |
28,4 |
25,1 |
|
151 |
34,0 |
25,6 |
155 |
36,1 |
26,9 |
|
161 |
29,1 |
25,3 |
165 |
31,6 |
24,6 |
|
171 |
45,9 |
28,8 |
175 |
39,6 |
27,3 |
|
181 |
24,8 |
23,3 |
185 |
24,0 |
23,5 |
|
191 |
32,8 |
25,8 |
195 |
18,1 |
20,0 |
|
201 |
24,0 |
25,0 |
205 |
28,2 |
24,4 |
|
211 |
27,0 |
24,2 |
215 |
43,3 |
28,5 |
|
221 |
30,6 |
25,1 |
225 |
33,3 |
26,1 |
|
231 |
40,6 |
28,5 |
235 |
38,8 |
23,5 |
|
ИТОГО (?) |
731,7 |
591,6 |
- |
738,4 |
594,3 |
Так как выборки малые (), то вычисление и проведем непосредственно с использованием ранее упомянутых формул.
.
Вычисление , Д, H предлагается провести самостоятельно по данным таблицы 10.10. Приведем результаты счета.
; ; ; ; ; ; ; .
Имея данные о средних значениях () двух выборок по диаметру, и их среднеквадратических ошибок (), а также об основных ошибках средних величин () можем сравнить выборки по критериям Стьюдента и Фишера.
t-критерий Стьюдента:
;
.
Величина t-критерия для диаметров и высот значительно меньше его критических значений (приложение Е), т. е. tфак < 2, что говорит о том, что различия между выборками носит случайный характер, и обе выборки взяты из одной генеральной совокупности. Это же подтверждает и сравнение по F-критерию Фишера (r=23).
.
.
.
Величины и меньше их критических значений при 5 % уровне значимости (Y=N1=23, N2=23). Полученные величины , и целесообразно сравнить по t и F-критериям с данными для нашей генеральной совокупности, т. е. с теми статистиками, которые вычислены по замерам 238 деревьев.
Подобные документы
Статическая проверка статистических гипотез. Ошибки первого и второго рода. Числовые характеристики случайной величины, распределенной по биномиальному закону. Проверка гипотезы о биномиальном распределении генеральной совокупности по критерию Пирсона.
курсовая работа [674,3 K], добавлен 03.05.2011Сходимость последовательностей случайных величин и вероятностных распределений. Метод характеристических функций. Проверка статистических гипотез и выполнение центральной предельной теоремы для заданных последовательностей независимых случайных величин.
курсовая работа [364,8 K], добавлен 13.11.2012- Закон больших чисел. Проверка статистических гипотез (критерий согласия w2 Мизеса: простая гипотеза)
Предельные теоремы теории вероятностей. Сходимость последовательностей случайных величин и вероятностных распределений. Метод характеристических функций. Закон больших чисел. Особенности проверки статистических гипотез (критерия согласия w2 Мизеса).
курсовая работа [1,0 M], добавлен 27.01.2012 Ознакомление с механизмом проверки гипотезы для случая единственной выборки, двух и нескольких независимых выборок. Проверка совпадений карт, выбор фильмов разных жанров. Обоснование результатов, полученных после проверки статистических гипотез.
курсовая работа [726,2 K], добавлен 26.02.2015Основные понятия, которые касаются центральной предельной теоремы для независимых одинаково распределенных случайных величин и проверки статистических гипотез. Анализ сходимости последовательностей случайных величин и вероятностных распределений.
курсовая работа [582,0 K], добавлен 13.11.2012Понятие вариационного ряда, статистического распределения. Эмпирическая функция и основные характеристики математического ожидания выборочной дисперсии. Точечные и интервальные оценки распределений. Теория гипотез - аналог теории доверительных интервалов.
контрольная работа [172,9 K], добавлен 22.11.2013Сходимость последовательностей случайных величин. Центральная предельная теорема для независимых одинаково распределенных случайных величин. Основные задачи математической статистики, их характеристика. Проверка гипотез по критерию однородности Смирнова.
курсовая работа [1,6 M], добавлен 13.11.2012Первичный анализ и основные характеристики статистических данных. Точечные оценки параметров распределения. Доверительные интервалы для неизвестного математического ожидания и для среднего квадратического отклонения. Проверка статистических гипотез.
дипломная работа [850,9 K], добавлен 18.01.2016Числовые характеристики непрерывных величин. Точечные оценки параметров распределения. Статистическая проверка гипотез. Сравнение средних известной и неизвестной точности измерений. Критерий Хи-квадрат для проверки гипотезы о виде распределения.
курсовая работа [79,0 K], добавлен 23.01.2012Определение вероятности, что машина с неисправной ходовой частью имеет также неисправный мотор. Методика вычисления дисперсии. Проверка статистических гипотез и дисперсионный анализ. Формирование контрольных карт, их содержание и принципы построения.
курсовая работа [686,4 K], добавлен 31.01.2015