Непараметрические критерии согласия Колмогорова, Смирнова, омега-квадрат и ошибки при их применении
Анализ работ А.Н. Колмогорова и Н.В. Смирнова, посвященных односторонним и двухсторонним критериям согласия и однородности. Рассмотрение типовых ошибок при применении перечисленных критериев для проверки нормальности распределения результатов измерений.
Рубрика | Математика |
Вид | статья |
Язык | русский |
Дата добавления | 14.05.2017 |
Размер файла | 63,9 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Непараметрические критерии согласия Колмогорова, Смирнова, омега-квадрат и ошибки при их применении
1. Введение
колмогоров смирнов критерий нормальность
Непараметрические критерии согласия Колмогорова, Смирнова, омега-квадрат, разработанные в 1930-е годы, являются основой непараметрической математической статистики. Они продолжают быть образцом при разработке новых методов и широко применяются на практике. Используются термины «статистики типа Колмогорова - Смирнова», «статистики типа омега-квадрат». Встречается в литературе и в описании программных продуктов некорректный термин «статистика Колмогорова - Смирнова». А также и другие некорректности - например, пишут о применении критерия Колмогорова для проверки согласия с семейством нормальных распределений. В последнем из упомянутых случаев речь отнюдь не только о терминологии - часты грубые ошибки при применении непараметрических критериев математической статистики, приводящие к неправильным управленческим решениям.
В настоящей статье рассмотрена система непараметрических критериев согласия Колмогорова, Смирнова, омега-квадрат и им аналогичных, а также проанализированы типовые ошибки при применении этих критериев.
Введем эмпирическую функцию распределения - основное понятие, используемое в статье. Рассмотрим конечную последовательность независимых одинаково распределенных числовых случайных величин, т.е. выборку , где n - объем выборки, а - функция распределения элементов выборки. Эмпирической функцией распределения называется функция Fn(x), для каждого действительного числа x равная доле наблюдений, меньших x, т.е.
,
где при u > 0 и при . Эмпирическая функция распределения Fn(x) является состоятельной оценкой теоретической функции распределения F(x), т.е. функции распределения элементов выборки. Справедлива теорема В.И. Гливенко: для любой непрерывной функции распределения F(x) при n эмпирическая функция распределения Fn(x) равномерно сходится к ней:
(сходимость по вероятности).
2. О критериях Колмогорова и Смирнова
В литературе, особенно переводной, иногда используют термин «критерий Колмогорова - Смирнова» по отношению к процедурам проверки непараметрических статистических гипотез. Однако анализ публикаций академика А.Н. Колмогорова (1903 - 1987) и член-корреспондента АН СССР Н.В. Смирнова (1900 - 1966), проведенный ниже, свидетельствует о том, что такого критерия не существует. У А.Н. Колмогорова и Н.В. Смирнова нет совместных работ, они никогда не изучали одновременно один и тот же статистический критерий. Право на существование имеет лишь термин «критерий типа Колмогорова - Смирнова».
Научное наследие А.Н. Колмогорова и Н.В. Смирнова отнюдь не потеряло актуальности. Например, в статье «Метод медиан в теории ошибок» 1931 г. [1] А.Н. Колмогоров показывает преимущество выборочной медианы результатов измерений перед выборочным средним арифметическим при оценивании истинного значения контролируемого параметра, если погрешности измерений имеют те или иные распределения. В работе «К вопросу о пригодности найденных статистическим путем формул прогноза» 1933 г. [2] он обсуждает методы прогнозирования на основе отбора информативных признаков в регрессии, указывает на типичные ошибки при интерпретации расчетов. Эти ошибки делаются и поныне. В работе Н.В. Смирнова [3] 1947 г. предложен и изучен непараметрический критерий «типа Колмогорова - Смирнова» для проверки симметрии функции распределения случайной величины относительно 0, который в настоящее время целесообразно включать в пакеты программ по прикладной статистике (как и критерий типа омега-квадрат для проверки той же гипотезы, предложенный и изученный в работе [4], через 32 года адаптированный для практического использования в статье [5]).
Рассмотрим работы А.Н. Колмогорова и Н.В. Смирнова, связанные с «критериями типа Колмогорова - Смирнова». (Все упомянутые в статье работы этих авторов перепечатаны в сборниках трудов [6, 7]).
В 1933 г. была опубликована на итальянском языке знаменитая статья А.Н. Колмогорова «Об эмпирическом определении закона распределения» [8], в которой была доказана следующая теорема:
«Теорема 1. Вероятность неравенства
(1)
стремится при равномерно по к
(2)
для любой непрерывной функции распределения F(x)».
Здесь Fn(x) - эмпирическая функция распределения, построенная по выборке объема n из непрерывной функции распределения F(x), т.е. nFn(x) - число элементов выборки , не превосходящих х.
Итак, в работе [8] найдено, выражаясь современным языком, предельное распределение статистики критерия Колмогорова для проверки согласия эмпирического распределения с заданным непрерывным теоретическим распределением.
В 1940 г. опубликована статья А.Н. Колмогорова «Об одном новом подтверждении законов Менделя» [9]. Он проанализировал статистические данные Н.И. Ермолаевой, считавшей, что эти данные опровергают законы Менделя. С помощью критерия Колмогорова в статье [9] было показано, что эти данные, наоборот, полностью подтверждают законы Менделя. Подробный анализ ситуации дан в работе [10].
Таким образом, к рассматриваемой тематике относятся две работы А.Н. Колмогорова: в первой из них он ввел свой знаменитый критерий для проверки согласия эмпирического распределения с заданным теоретическим и нашел предельное распределение статистики критерия, а во второй - применил его для решения важной научной задачи в области биологии. Больше к этой тематике он не возвращался (см. итоговый сборник статей [6]).
В те же 1930-е годы Н.В. Смирнов изучал различные непараметрические статистики. В статье 1939 г. «Об уклонениях эмпирической кривой распределения» [11] он рассматривал число пересечений эмпирической функции распределения Fn(x) c кривой и число выходов Fn(x) за пределы полосы при произвольном фиксированном .
Из предельной теоремы для числа пересечений эмпирической функции распределения с указанной выше кривой было получено утверждение об асимптотическом поведении статистики (в настоящее время ее называют «односторонней одновыборочной статистикой Смирнова»)
. (3)
А именно, в статье [11] сказано: «На основании теоремы II мы можем утверждать для :
». (4)
Аналогично частным случаем теоремы о предельном поведении числа выходов эмпирической функции распределения за пределы полосы является, согласно статье [11], указанная выше теорема 1 А.Н. Колмогорова [8]. Подчеркнем, что методы доказательства в работах А.Н. Колмогорова [8] и Н.В. Смирнова [11] принципиально различны.
В опубликованной в том же 1939 г. статье «Оценка расхождения между эмпирическими кривыми распределения в двух независимых выборках» [12] Н.В. Смирнов изучает статистику (в настоящее время ее называют «двухсторонней двухвыборочной статистикой Смирнова»)
, (5)
где Fn(1)(x) - эмпирическая функция распределения, построенная по первой выборке объема n(1) из непрерывной функции распределения F1(x), а Fn(2)(x) - эмпирическая функция распределения, построенная по второй выборке объема n(2) из непрерывной функции распределения F2(x), независимой от первой выборки. Статистика D(n(1), n(2)) используется для проверки гипотезы однородности двух независимых выборок, т.е. гипотезы
. (6)
В случае справедливости этой гипотезы в работе [12] доказана следующая теорема:
«Теорема 1. Если объемы выборок n(1) и n(2) неограниченно возрастают так, что отношение n(1)/n(2) = остается постоянным, то
, (7) где
, (8)
а - функция Колмогорова», заданная формулой (2).
Как и в работе [11], Н.В. Смирнов выводит эту теорему из более общего утверждения, касающегося числа точек пересечения кривых Fn(1)(x) и .
В статье [12] были приведены также таблицы функции Колмогорова . Наиболее подробные таблицы , рассчитанные в 1965 г. под руководством Н.В. Смирнова, опубликованы в работе [7, с.267-277].
Следует отметить, что условие в дальнейшем было заменено на более слабое: (см., например, монографию [13]). Математический аппарат, с помощью которого можно обосновать указанную замену, рассмотрен в разделе 2.6 монографии [14] (о двухсторонней двухвыборочной статистике Смирнова см. с.241).
В той же статье [12] Н.В. Смирнова найдено асимптотическое распределение односторонней статистики в случае двух выборок (в настоящее время ее называют «односторонней двухвыборочной статистикой Смирнова»)
.
Позже [15] Н.В. Смирновым найдено точное распределение одновыборочной односторонней статистики [см. формулу (3)], из которого им выведено асимптотическое распределение . Это - другой подход к получению соотношения (4), чем развитый в статье [11]. В качестве следствий Н.В. Смирнов получает теорему Гливенко и теоремы типа закона повторного логарифма для статистики Колмогорова, а также теорему 1 Колмогорова, приведенную выше.
Рассмотренные работы А.Н. Колмогорова и Н.В. Смирнова положили начало большому научному направлению в рамках непараметрической математической статистики. Если А.Н. Колмогоров, опубликовав две статьи, переключился на другие задачи, то Н.В. Смирнов продолжал развивать и применять свой виртуозный математический аппарат. В частности, им предложены [3] критерии для проверки симметрии распределения относительно 0 в стиле статистик D и . Математический аппарат, развитый Н.В. Смирновым для анализа распределений приведенных выше статистик, оказался полезным и для изучения непараметрических оценок плотности [16], так что Н.В. Смирнова следует считать основоположником и этого направления математической статистики.
Появились варианты статистики Смирнова , в которых супремум брался не по всей прямой, а по некоторому отрезку, или же разность делилась на F(x), т.е. бралась в относительном виде. Эти статистики изучали Г.М. Мания, А. Реньи, В.С. Королюк, Чжан Ли-цянь, Горо Ишии и др. Позднее в работе [17] Н.В. Смирнов описал точные распределения, а также асимптотику вероятностей больших значений для всех этих статистик.
Основной книгой по прикладной математической статистике на русском языке являются «Таблицы математической статистики» Л.Н. Большева и Н.В. Смирнова [18]. Кроме непосредственно таблиц, в этой книге имеется большой справочный раздел по основным статистическим методам. В главе «Таблицы непараметрической статистики» дана сводка по состоянию на 1965 г. - год первого издания книги. В отличие от других справочных изданий, данная книга практически не содержит ошибок.
Исследования в рассматриваемой области непараметрической статистики продолжаются (см., например, [13], [18-21]). Критерии D, , D(n(1), n(2)), D+(n(1), n(2)) рассматриваются в учебных курсах, включаются в пакеты статистических программ. Поэтому нельзя не обращать внимания на их наименования.
Проведенный выше анализ публикаций А.Н. Колмогорова и Н.В. Смирнова позволяет сделать следующие заключения.
1. Двухвыборочные критерии, основанные на статистиках D(n(1), n(2)) и D+(n(1), n(2)), должны носить имя Н.В. Смирнова.
2. Одновыборочные односторонние критерии, т.е. критерий на основе статистики и аналогичный критерий, в котором вместо супремума берется инфимум, - это критерии Смирнова.
3. Одновыборочный двухсторонний критерий D - это критерий Колмогорова.
Заключения 1 и 2 очевидны - А.Н. Колмогоров не занимался этими критериями, они введены и изучены Н.В. Смирновым. Заключение 3 также вряд ли вызовет возражения: хотя Н.В. Смирнов передоказывал теорему А.Н. Колмогорова, изучал свойства критерия D, составлял таблицы предельного распределения, А.Н. Колмогоров раньше получил все результаты, необходимые для практического использования критерия D, в том числе в работе [8] приведена первая таблица функции .
Разумеется, все рассматриваемые в настоящем разделе критерии - это критерии «типа Колмогорова-Смирнова». Что же это за «тип»? Так обычно называют критерии, построенные на основе эмпирических функций распределения (для одной или нескольких выборок), в которых используются операция взятия супремума. Примерами являются статистики, предложенные и изученные Г.М. Мания, А. Реньи, В.С. Королюк, Чжан Ли-цянь, Горо Ишии и др., упомянутые выше в связи с работой [17]. Один из вариантов строгой формулировки понятия «критерий типа Колмогорова - Смирнова» дан в работе [22].
Почему же в англоязычной литературе (см., например, [23]), а под влиянием ее недостаточно квалифицированных переводов и на русском языке двухвыборочный критерий проверки однородности [т.е. гипотезы (6)], основанный на статистике D(n(1), n(2)), называют «критерием Колмогорова - Смирнова»? В работе [23, с.239-240] сказано: «Смирнов получил предельное распределение статистики Колмогорова Смирнова Речь идет о статистике D(n(1), n(2))., основываясь на работе Колмогорова о предельном распределении одновыборочной статистики D». Ясно, что авторы цитируемой работы не читали соответствующей работы Н.В. Смирнова [12], иначе они бы знали, что метод доказательства в работе [12] не имеет ничего общего с методом доказательства в статье А.Н. Колмогорова [8]. Нет ничего удивительного в том, что не читали, поскольку работы как [8], так и [12] были малодоступны для англоязычных статистиков (статья А.Н. Колмогорова [8] была напечатана на итальянском языке, а статья Н.В. Смирнова [12] - на русском).
Теперь, когда все эти работы стали широко доступны российским специалистам (см. [6] и [7]), пора отбросить старые недоразумения и воздать должное великим статистикам А.Н. Колмогорову и Н.В. Смирнову.
Подчеркнем, что применение термина «критерий Колмогорова - Смирнова» к двухвыборочному критерию проверки однородности [т.е. гипотезы (6)], основанный на статистике D(n(1), n(2)), свидетельствует о том, что автор соответствующего текста не знаком с работами А.Н. Колмогорова и Н.В. Смирнова, пишет о том, чего не знает, т.е. является невеждой и вводит читателя в заблуждение.
В статье [24] показано, что термин «критерий Колмогорова - Смирнова» применительно к критериям на основе статистик D, , D(n(1), n(2)), D+(n(1), n(2)) использовать некорректно, и даны рекомендации по адекватному употреблению терминов «критерий Колмогорова», «критерий Смирнова», «критерий типа Колмогорова - Смирнова».
3. Проверка согласия эмпирического распределения с заданным теоретическим
Критерий Колмогорова предназначен для проверки согласия эмпирического распределения с заданным непрерывным теоретическим распределением, т.е. для проверки гипотезы
(9)
при всех возможных значениях аргумента x, где F(x) - функция распределения элементов выборки, F0(x) - заданная (т.е. полностью известная) функция теоретического распределения. Нулевую гипотезу (9) можно записать в виде
. (10)
Альтернативная гипотеза состоит в отрицании нулевой гипотезы, т.е.
. (11)
Для проверки гипотезы (9) - (10) выбирают уровень значимости , рассчитывают значение статистики
,
при заключают, что нулевая гипотеза (9) - (10) не отклоняется (как обычно несколько неточно говорят, принимается), а при отклоняется нулевая гипотеза (9) - (10) в пользу альтернативной гипотезы (11) (проще говоря, принимается альтернативная гипотеза). Граничное значение - квантиль функции распределения ,
. (12)
Граничные значения для наиболее распространенных уровней значимости приведены в табл.1.
Для проверки нулевой гипотезы (9) используют также критерий омега-квадрат. В работах Г. Крамера (1928) [25], Р. фон Мизеса (1931) [26] и Н.В. Смирнова (1936, 1937) [27, 28] (см. также [15]) была предложена статистика
, (13)
которая теперь называется статистикой Крамера - Мизеса - Смирнова. Отметим роль В.И. Гливенко, который предложил заменить интегрирование по dx, как было в первоначальном варианте, на интегрирование по dF0(x). Такая модификация привела к тому, что при справедливости нулевой гипотезы (9) распределение статистики не зависит от вида непрерывной функции F0(x).
В работах [27, 28] Н.В. Смирнов показал, что функция распределения Sn(x) статистики сходится при n к некоторой предельной функции распределения S0(x), а именно,
.ё (14)
Отметим, что в работах [27, 28] множитель (-1)k был пропущен. Этот недостаток был исправлен нами в [29] (совместно с С.А. Пироговым).
В [13, разд.2.3] дан обзор результатов, касающихся следующего шага исследований - оценки скорости сходимости Sn(x) к S0(x).
Нулевую гипотезу (9) можно записать в виде
. (15)
Альтернативная гипотеза состоит в отрицании нулевой гипотезы, т.е.
. (16)
Для проверки гипотезы (9) - (15) выбирают уровень значимости , рассчитывают значение статистики , при заключают, что нулевая гипотеза (9) - (15) не отклоняется, а при принимается альтернативная гипотеза (16). Граничное значение - квантиль функции распределения S0(x):
S0() = 1 - .
Граничные значения для наиболее распространенных уровней значимости приведены в табл.2.
По образцу статистики (13) разработаны многочисленные статистики интегрального типа [30, 31], предназначенные для проверки различных гипотез. Часто их можно назвать «статистики типа омега-квадрат». Например, в [4] сконструирована статистика типа омега-квадрат для проверки симметрии функции распределения относительно 0.
Выше описаны правила проверки статистических гипотез с использованием предельных распределений соответствующих статистик. Для малых объемов выборок рассчитаны таблицы, позволяющие принимать обоснованные решения [18, 23].
4. О критериях согласия с параметрическим семейством
Непараметрические критерии согласия Колмогорова, Смирнова, омега-квадрат широко используются на практике, включены в программные продукты и в учебные материалы. Однако с ними связаны и широко распространенные ошибки в применении статистических методов.
Дело в том, что перечисленные критерии были разработаны для проверки согласия с полностью известным теоретическим распределением. Расчетные формулы, таблицы распределений и критических значений широко распространены, поэтому не будем их приводить. В частности, они имеются в наилучшем на наш взгляд сборнике статистических таблиц Л.Н. Большева и Н.В.Смирнова [18].
Основная идея критериев Колмогорова, омега-квадрат и аналогичных им [18] состоит в измерении расстояния между функцией эмпирического распределения и функцией теоретического распределения. Различаются эти критерии видом расстояний в пространстве функций распределения.
Часто возникает задача проверки гипотезы согласия эмпирического распределения с параметрическим семейством, например, с семейством нормальных, Вейбулла-Гнеденко или гамма-распределений. Профанам представляется естественным оценить параметры распределения по выборке, а затем формально воспользоваться критериями согласия Колмогорова, Смирнова или омега-квадрат. При этом вместо фиксированной теоретической функции распределения подставляют функцию из параметрического семейства, в которой параметры заменены на их выборочные оценки.
В отличие от классических критериев, при этом измеряются расстояния от эмпирической функции распределения до многообразий (в пространстве функций распределения), соответствующих параметрическим семействам. Развита математическая техника проектирования в функциональных пространствах [32], которая позволяет строить методы проверки и иных гипотез, в частности, гипотезы симметрии функции распределения относительно 0 [4].
Такие критерии согласия уже не являются классическими. В частности, их нельзя считать непараметрическими. Их распределения (как предельные, так и при конечных объемах выборок) существенно отличаются от распределений классических критериев согласия Колмогорова, Смирнова или омега-квадрат. Такие критерии в отличие от классических обычно называют «критериями согласия с параметрическим семейством типа Колмогорова-Смирнова и типа омега-квадрат». (Как показано выше (и в [24]) на основе анализа исходных публикаций, термин «критерий Колмогорова-Смирнова» употреблять некорректно.)
Широко распространенные ошибки состоят в том, что для критериев согласия с параметрическими семействами используют критические значения классических критериев. При этом, например, гипотеза нормальности принимается гораздо чаще, чем следует. Поскольку в действующей нормативно-технической документации дальнейшие этапы анализа данных часто зависят от того, принимается нормальность или нет, то ошибки при такой проверке могут иметь далеко идущие последствия. Приведем пример из нашего опыта: при анализе характеристик эластомерных материалов при ошибочном подходе из 30 выборок нормальность была отвергнута лишь для 2, а при правильном - для 26, т.е. в подавляющем большинстве случаев [33].
Указанные ошибки встречаются в массе публикаций (хотя специалистам суть дела хорошо известна уже около 60 лет, со статьи Каца, Кифера и Вольфовица [34] 1955 г.). Наиболее известным примером является полностью ошибочный ГОСТ 11.006-74 (СТ СЭВ 1190-78) «Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим» (отменен в 1987 г. после яростного сопротивления разработчиков этого шедевра А.М. Бендерского и А.А. Богатырева; о большом числе ошибочных стандартов по статистическим методам рассказывается в [35, 36]).
В консультации [19] собраны основные факты о критериях согласия с параметрическими семействами типа Колмогорова-Смирнова и типа омега-квадрат и необходимые краткие таблицы. Современное положение дел в этой области отражено в дальнейших публикациях в журнале «Заводская лаборатория» [20, 21, 37].
Наибольшее продвижение в изучении критериев типа Колмогорова-Смирнова достигнуто Ю.Н.Тюриным и его ученицами [21, 38-40]. В частности, найдены удобные формулы для асимптотического достигаемого уровня значимости.
Исчерпывающие результаты по расчету предельных распределений критериев типа омега-квадрат приведены в монографии Г.В. Мартынова [41]. Скорость сходимости распределений критериев при конечных объемах выборки к предельным распределениям [18] изучалась теоретически в [29] и численно в [37]. Оказалось, в частности, что предельным распределением можно пользоваться при объеме выборки не менее 4, если уровень значимости не меньше 0,01.
В [20] описан оригинальный подход к рассматриваемой задаче, принадлежащий Дж. Дурбину [42]. Оказывается, если в теоретическую функцию распределения подставлять оценку максимального правдоподобия (или ей эквивалентную, например, одношаговую оценку [43]), построенную не по всей выборке, а по ее половине, то предельные распределения статистик типа Колмогорова-Смирнова и типа омега-квадрат будут совпадать с распределениями соответствующих классических статистик!
Для проверки согласия с параметрическим семейством используют также критерий хи-квадрат, при применении которого распространены свои типичные ошибки, разобранные М. Мирвалиевым и М.С. Никулиным [44] и В.Г. Воиновым [45]. Не потерял своего значения для проверки согласия и метод моментов [46].
Популярны и другие ошибки при применении рассматриваемых критериев. Некоторые пытаются их использовать для сгруппированных данных, что приводит к излишне частому принятию гипотез (см. монографию Р. Руниона [47]). Другие вместо эмпирической функции распределения рассматривают иные оценки теоретической функции распределения. Например, при использовании вероятностной бумаги удобно ординату точки, соответствующей i-ой порядковой статистике, установить равной (i - 0.5) / n, а не i / n, как в классической эмпирической функции распределения. Возникает искушение построенную так оценку использовать в критериях согласия вместо эмпирической функции распределения. Увы, распределение изменится (впрочем, в данном случае при росте объема выборки различие будет исчезать). Ряд иных ошибок рассмотрен в [18].
В целом, по нашему мнению, рассматриваемая тематика принадлежит к тупиковой линии развития. Из общих соображений очевидно, что распределения реальных данных никогда не входят в какое-либо параметрическое семейство. Другими словами, эти семейства - лишь возможные приближения, заведомо неточные. Анализ конкретных данных приводит к аналогичному заключению. Так, в статье [48] собраны факты, показывающие, что распределения ошибок измерений почти всегда отличаются от нормальных.
Следовательно, от методов параметрической статистики целесообразно переходить к непараметрическим и робастным методам. Однако это не значит, что, применяя параметрические методы, в частности, проверяя согласие с параметрическим семейством распределений, можно делать математические ошибки типа описанных выше. Приходится с сожалением констатировать, что распространенные программные продукты по статистическим методам анализа данных, как правило, отстали от современного уровня развития науки лет на 30 и зачастую содержат ошибки, в том числе описанные выше [49].
5. О проверке нормальности с помощью критериев типа Колмогорова -- Смирнова и типа омега-квадрат
Непараметрическая статистика включает в себя не только проверку гипотез с помощью рассмотренных выше критериев. В качестве примера непараметрического оценивания рассмотрим оценивание функции распределения. По теореме Гливенко эмпирическая функция распределения Fn(x) является состоятельной оценкой функции распределения F(x). Если F(x) - непрерывная функция, то на основе теоремы Колмогорова доверительные границы для функции распределения F(x) задают в виде
,
где k(г,n) - квантиль порядка г распределения статистики Колмогорова при объеме выборки n (напомним, что распределение этой статистики не зависит от F(x)).
Как известно [50], правила определения оценок и доверительных границ в параметрическом случае строятся на основе параметрического семейства распределений F(x; и). При обработке реальных данных возникает вопрос - соответствуют ли эти данные принятой вероятностной модели? То есть статистической гипотезе: результаты наблюдений имеют функцию распределения из семейства {F(x; и), иИ} при некотором и = и0. Такие гипотезы называют гипотезами согласия, а критерии их проверки - критериями согласия.
Если истинное значение параметра и = и0 известно, функция распределения F(x; и0) непрерывна, то для проверки гипотезы согласия часто применяют критерий Колмогорова, основанный на статистике
где Fn(x) - эмпирическая функция распределения, F(x; и0) = F0(x) - полностью известная теоретическая функция распределения.
Если истинное значение параметра и0 неизвестно, например, при проверке гипотезы о нормальности распределения результатов наблюдения (т.е. при проверке принадлежности этого распределения к семейству нормальных распределений), то иногда используют статистику типа Колмогорова-Смирнова (или, как выражаются короче, типа Колмогорова)
.
Она отличается от статистики Колмогорова Dn тем, что вместо истинного значения параметра и0 подставлена его оценка и*.
Распределение статистики Dn(и*) сильно отличается от распределения статистики Dn. В качестве примера рассмотрим проверку нормальности, когда и = (m, у2), а и* = (т.е. по выборке оцениваются как математическое ожидание, так и дисперсия нормального распределения). Для этого случая квантили распределений статистик Dn и Dn(и*) приведены в табл.1 (см., например, [19]). Таким образом, квантили отличаются примерно в 1,5 раза. Для приведенных в нижней строке табл.1 уровней значимости соответствующие квантили являются критическими значениями при проверке нулевых гипотез, описанных выше.
Таблица 1. Квантили статистик Колмогорова Dn и типа Колмогорова - Смирнова Dn(и*) при проверке нормальности
Порядок р квантиля |
0,85 |
0,90 |
0,95 |
0,975 |
0,99 |
|
Квантили порядка р для Dn |
1,138 |
1,224 |
1,358 |
1,480 |
1,626 |
|
Квантили порядка р для Dn(и*) |
0,775 |
0,819 |
0,895 |
0,955 |
1,035 |
|
Уровень значимости |
0,15 |
0,10 |
0,05 |
0,025 |
0,01 |
В ряде литературных источников и программных продуктов при описании и использовании критериев согласия допускается грубая ошибка: при проверке нормальности вместо критических значений статистики Dn(и*) применяют критические значения статистики Dn. В результате гипотеза нормальности принимается гораздо чаще, чем следует. Эта ошибка подробно рассмотрена в статье [19].
Аналогична ситуация с неправомерным использованием статистики омега-квадрат. Если истинное значение параметра и = и0 известно, функция распределения F(x; и0) непрерывна, то для проверки гипотезы согласия применяют критерий омега-квадрат (Крамера - Мизеса - Смирнова), основанный на статистике
,
где Fn(x) - эмпирическая функция распределения, F(x; и0) = F0(x) - полностью известная статистику теоретическая функция распределения.
Если истинное значение параметра и0 неизвестно, например, при проверке гипотезы о нормальности распределения результатов наблюдения (т.е. при проверке принадлежности этого распределения к семейству нормальных распределений), то иногда используют статистику типа омега-квадрат
.
Она отличается от статистики омега-квадрат (Крамера - Мизеса - Смирнова) тем, что вместо истинного значения параметра и0 подставлена его оценка и*.
Распределение статистики сильно отличается от распределения классической статистики омега-квадрат . В качестве примера рассмотрим проверку нормальности, когда и = (m, у2), а и* = (т.е. по выборке оцениваются как математическое ожидание, так и дисперсия нормального распределения).
Для этого случая квантили распределений статистик и приведены в табл.2 (см., например, [19]). Таким образом, квантили отличаются в 3 - 4 раза. Для приведенных в нижней строке табл.2 уровней значимости соответствующие квантили являются критическими значениями при проверке нулевых гипотез, описанных выше.
Таблица 2. Квантили статистики омега-квадрат (Крамера - Мизеса - Смирнова) и типа омега-квадрат при проверке нормальности
Порядок р квантиля |
0,85 |
0,90 |
0,95 |
0,975 |
0,99 |
|
Квантили порядка р для |
0,284 |
0,347 |
0,461 |
0,581 |
0,743 |
|
Квантили порядка р для |
0,091 |
0,104 |
0,126 |
0,148 |
0,178 |
|
Уровень значимости |
0,15 |
0,10 |
0,05 |
0,025 |
0,01 |
С сожалением констатируем, что в ряде литературных источников и программных продуктов при описании и использовании критериев согласия допускается грубая ошибка: при проверке нормальности вместо критических значений статистики типа омега-квадрат применяют критические значения классической статистики омега-квадрат (Крамера - Мизеса - Смирнова) . В результате этой грубой ошибки гипотеза нормальности принимается гораздо чаще, чем следует. Эта ошибка подробно рассмотрена в статье [19].
Описанные выше ошибки давно известны специалистам. Ю,В. Линник обращал на них внимание еще в 1953 г. [51, 52]. Суть дела была полностью выяснена в статье Каца, Кифера и Вольфовица [34] 1955 г., содержащей, в частности, материал, представленный в таблицах 1 и 2 выше. (Эту публикацию автор настоящей статьи изучал в 1968 г. качестве курсовой работы на третьем году обучения на кафедре теории вероятностей и математической статистики механико-математического факультета МГУ им. М.В. Ломоносова). В дальнейшем методы расчетов таблиц типа 1 и 2 были развиты, в частности, Ю.Н. Тюриным [38] и его учениками, Г.В. Мартыновым [41]. О рассмотренных выше ошибках Ю.Н, Тюрин рассказал в выпущенной массовым тиражом (40 тыс. экз.) брошюре Общества «Знание» [53]. Наша статья [19] была выпущена в рубрике «Наши консультации» раздела «Математические методы исследования» журнала «Заводская лаборатория» (тираж 9390 экз.).
Однако поток публикаций с ошибками не утихает. Особенно позорным является полностью ошибочный ГОСТ 11.006-74 (СТ СЭВ 1190-78) «Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим», отмененный лишь в 1987 г. - через 13 лет после утверждения, и ставший за это время стандартом СЭВ. Весьма печально, что ошибки встречаются и в учебной литературе. Некоторые примеры приведены в статье [19] и в материалах Интернет-ресурса [54]. Причины, очевидно, лежат в низкой квалификации лиц, берущихся за изготовление учебников. Жаль, что из всех публикаций автора настоящей статьи консультация [19] остается одной из самых востребованных.
Заключение
Критерии Колмогорова, Смирнова, омега-квадрат (Крамера - Мизеса - Смирнова) являются непараметрическими, поскольку при их определении не используются какие-либо параметрические семейства распределений [55].
Распределения статистик этих критериев - одни и те же при любом непрерывном распределении элементов выборки или выборок (при справедливости нулевой гипотезы), т.е. не меняются при любом строго возрастающем непрерывном изменении шкалы измерения. Другими словами, эти критерии предназначены для анализа данных, измеренных в порядковой шкале [50, 56]. Это их свойство вытекает из того, статистики указанных критериев являются функциями не от самых элементов выборки , а от величин где - функция распределения элементов выборки (конкретный вид упомянутых функций см., например, в [18]). Ясно, что
,
т.е. преобразованные элементы выборки имеют равномерное распределение на отрезке [0; 1] при любом непрерывном распределении исходных результатов измерений, наблюдений, испытаний, анализов, опытов. Переход от случайной величины к случайной величине называется преобразованием Смирнова. Оно позволяет находить распределения непараметрических критериев с помощью анализа выборок из равномерного распределения на стандартном отрезке [0; 1], а при безграничном росте объема выборки (или объемов, если выборок несколько) использовать распределения функционалов от таких хорошо изученных случайных процессов, как винеровский процесс и броуновский мост.
Отметим, что значения статистик некоторых критериев типа Колмогорова - Смирнова и типа омега-квадрат меняются при отдельных строго возрастающих преобразованиях шкалы. Таковы, например, критерии типа омега-квадрат, разработанные для проверки симметрии распределения [4, 5]. Однако их распределения (при справедливости нулевой гипотезы) не меняются, поскольку выражаются через распределения выборки из равномерного распределения на отрезке [0; 1], полученной с помощью преобразования Смирнова.
С точки зрения новой парадигмы прикладной математической статистики [57 - 59] и математических методов экономики [60, 61] переход от параметрической статистики Пирсона, Стьюдента и Фишера к непараметрической статистике Колмогорова и Смирнова соответствует переходу от старой парадигмы к новой, от устаревших и не соответствующих реальности постановок задач анализа данных к современным статистическим методам.
Литература
Колмогоров А.Н. Метод медиан в теории ошибок // Математический сборник. 1931. Т.38. №3/4. С.47-50.
Колмогоров А.Н. К вопросу о пригодности найденных статистическим путем формул прогноза // Журнал геофизики. 1933. Т.3. №1. С.78-82.
Смирнов Н.В. О критерии симметрии закона распределения случайной величины // Доклады АН СССР, 1947. Т.56. №1. С.13-16.
Орлов А.И. О проверке симметрии распределения // Теория вероятностей и ее применения 1972. Т.17. №2. С.372-377.
Орлов А.И. Методы проверки однородности связанных выборок // Заводская лаборатория. Диагностика материалов. 2004. Т.70. №7. С.57-61.
Колмогоров А.Н. Теория вероятностей и математическая статистика: Сб. статей. - М.: Наука, 1986. - 535 с.
Смирнов Н.В. Теория вероятностей и математическая статистика. Избранные труды. -М.: Наука, 1970. - 289 с.
Kolmogoroff A. Sulla determinazione empirica di una legge di distribuzione // Guornale dell' Instituto Italiano degli Attuari. 1933. V.4. №1. P.83-91.
Колмогоров А.Н. Об одном новом подтверждении законов Менделя // Доклады АН СССР, 1940. Т.27. №1. С.38-42.
Тутубалин В.Н., Барабашева Ю.М., Девяткова Г.Н., Угер Е.Г. Критерий Колмогорова и экспериментальная проверка законов наследственности Менделя // URL: http://ecology.genebee.msu.ru/3_SOTR/CV_Barabasheva_publ/Kolm-Mend-2008.pdf.
Смирнов Н.В. Об уклонениях эмпирической кривой распределения // Математический сборник. 1939. Т.6(48). №1. С.3-24.
Смирнов Н.В. Оценка расхождения между эмпирическими кривыми распределения в двух независимых выборках // Бюллетень МГУ. 1939. Т.2. №2. С.3-14.
Орлов А.И. Устойчивость в социально-экономических моделях. -- М.: Наука,1979. -- 296 с.
Орлов А.И. Организационно-экономическое моделирование : учебник : в 3 ч. Ч. 1. Нечисловая статистика. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2009. -- 541 с.
Смирнов Н.В. Приближение законов распределения случайных величин по эмпирическим данным // Успехи математических наук. 1944. Вып.Х. С.179-206.
Смирнов Н.В. О приближении плотностей распределения случайных величин // Ученые записки МГПИ им. В.П. Потемкина. 1951. Т. XVI. Вып.3. С.69-96.
Смирнов Н.В. Вероятности больших значений непараметрических односторонних критериев согласия // Труды Математического института АН СССР им. В.А. Стеклова. 1961. Т.64. С.185-210.
Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. - М.: ВЦ АН СССР, 1968 (2-е изд.). - 474 с.
Орлов А.И. Распространенная ошибка при использовании критериев Колмогорова и омега-квадрат // Заводская лаборатория.1985. Т.51. №1. С.60-62.
Бондарев Б. В. О проверке сложных статистических гипотез // Заводская лаборатория. 1986. Т. 52. № 10. С. 62-63.
Кулинская Е.В., Саввушкина Н. Е. О некоторых ошибках в реализации и применении непараметрических методов в пакете для IBM PC // Заводская лаборатория. 1990. Т. 56. № 5. С. 96-99.
Орлов А.И. Переход от сумм к интегралам и его применения в изучении асимптотических распределений статистик // Теория вероятностей и ее применения. 1973. Т. XVIII. №4. С. 881-883.
Холлендер М., Вульф Д. Непараметрические методы статистики / Пер. с англ. Д.С. Шмерлинга; под ред. Ю.П. Адлера и Ю.Н. Тюрина. - М.: Финансы и статистика, 1983. - 518 с.
Орлов А.И. О критериях Колмогорова и Смирнова // Заводская лаборатория. 1995. Т.61. №7. С.59-61.
Cramer H. On the composition of elementary errors // Skand. Aktuarientidskr. 1928. V/11/ P/17-34, 141-180.
Mises R. von. Wahrscheinlichkeitsrechnung und ihre Anwendung in der Statistik und theoretischen Physik. Leipzig; Wien, Deutscke. 1931. S.316-335.
Smirnoff N.V. Sur la distribution de (criterium de M.R. v. Mises) // Compt. Rend. Ser. Math. Paris. 1936. V.202. №6. P.449-452.
Смирнов Н.В. О распределении - критерия Мизеса // Математический сборник. 1937. Т.2 (44). №5. С.973-993.
Орлов А.И. Скорость сходимости распределения статистики Мизеса - Смирнова // Теория вероятностей и ее применения. 1974. Т.19. №4. С.766-786.
Орлов А.И. Асимптотическое поведение статистик интегрального типа // Доклады АН СССР. 1974. Т.219. №4. С. 808-811.
Орлов А.И. Асимптотическое поведение статистик интегрального типа // Вероятностные процессы и их приложения. Межвузовский сборник научных трудов. - М.: МИЭМ, 1989. С.118-123.
Тюрин Ю.Н. Линейная модель в многомерной непараметрической статистике // Многомерный статистический анализ в социально-экономических исследованиях. - М.: Наука, 1974. С.7-24.
Орлов А.И. О критериях согласия с параметрическим семейством // Заводская лаборатория. 1997. Т.63. №5. С. 49-50.
Kac M., Kiefer J., Wolfowitz J. On tests of normality and other tests of goodness of fit based on distance methods // Ann. Math. Statist. 1955. V.26. №2. P.189-211.
Орлов А.И. О современных проблемах внедрения прикладной статистики и других статистических методов // Заводская лаборатория. 1992. Т.58. № 1. С.67-74.
Орлов А.И. Сертификация и статистические методы (обобщающая статья) // Заводская лаборатория. 1997. Т.63. №3. С. 55-62.
Залесский Б.А., Ольшевская О.В. О функции распределения статистик омега-квадрат при малых выборках // Заводская лаборатория. 1989. Т.55. №7. С.103-105.
Тюрин Ю.Н. Исследования по непараметрической статистике (непараметрические методы и линейная модель). Автореф. дисс. докт. физ.-мат. наук. - М.: МГУ, 1985. - 33 с.
Тюрин Ю. Н. О предельном распределении статистик Колмогорова-Смирнова для сложной гипотезы // Известия АН СССР. Сер. «Математика». 1984. Т.48. № 6. C. 1314-1343.
Тюрин Ю.Н., Саввушкина Н.Е. Критерии согласия для распределения Вейбулла - Гнеденко // Известия АН СССР. Сер. «Техническая кибернетика». 1984. № 3. С.109-112.
Мартынов Г.В. Критерии омега-квадрат. - М.: Наука, 1978. -78 с.
Durbin J. Kolmogorov-Smirnov test when parameters are estimated // Lect. Notes Math. 1976. Vol. 566. P. 33-44.
Орлов А.И. О нецелесообразности использования итеративных процедур нахождения оценок максимального правдоподобия // Заводская лаборатория. 1986. Т.52. №5. С.67-69.
Мирвалиев М., Никулин М.С. Критерии согласия типа хи-квадрат // Заводская лаборатория. 1992. Т.58. № 3. С.52-58.
Воинов В.Г. Об оптимальных свойствах критерия Рао-Робсон - Никулина // Заводская лаборатория. 2006 Т.72. №3. С.65-70.
Орлов А.И. Метод моментов проверки согласия с параметрическим семейством распределений // Заводская лаборатория. 1989. Т.55. № 10. С.90-93.
Рунион Р. Справочник по непараметрической статистике. - М.: Финансы и статистика, 1982. - 198 с.
Орлов А.И. Часто ли распределение результатов наблюдений является нормальным? // Заводская лаборатория. 1991. Т.57. №7. С.64-66.
Орлов А.И. Статистические пакеты - инструменты исследователя // Заводская лаборатория. 2008. Т.74. №5. С.76-78.
Орлов А.И. Прикладная статистика. - М.: Экзамен, 2006. - 671 с.
Линник Ю.В. Линейные формы и статистические критерии. 1 - 2 // Украинский математический журнал. 1953. Т.5. №2. С.207-243; №3. С.247-290.
Линник Ю.В. Избранные труды. Математическая статистика. - Л.: Наука, 1982. - 284 с.
Тюрин Ю.Н. Непараметрические методы статистики. - М.: Знание, 1978. - 64 с.
Профессора - невежды готовят себе на смену новых невежд // URL: http://forum.orlovs.pp.ru/viewtopic.php?f=1&t=548 (дата обращения 01.03.2014).
Орлов А.И. Вероятность и прикладная статистика: основные факты: справочник. - М.: КНОРУС, 2010. - 192 с.
Луценко Е.В. Метризация измерительных шкал различных типов и совместная сопоставимая количественная обработка разнородных факторов в системно-когнитивном анализе и системе «Эйдос» / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2013. - №08(092). С. 859 - 883. - IDA [article ID]: 0921308058. - Режим доступа: http://ej.kubagro.ru/2013/08/pdf/58.pdf
Орлов А.И. Новая парадигма прикладной статистики // Статистика и прикладные исследования: сборник трудов Всерос. научн. конф. - Краснодар: Издательство КубГАУ, 2011. - С.206-217.
Орлов А.И. Новая парадигма прикладной статистики. - Журнал «Заводская лаборатория. Диагностика материалов». №1, часть I. 2012. Том 78. С.87-93.
Орлов А.И. Основные черты новой парадигмы математической статистики / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2013. - №06(090). С.188-214. - IDA [article ID]: 0901306013. - Режим доступа: http://ej.kubagro.ru/2013/06/pdf/13.pdf
Орлов А.И. Новая парадигма разработки и преподавания организационно-экономического моделирования, эконометрики и статистики в техническом университете // Статистика и прикладные исследования: сборник трудов Всерос. научн. конф. - Краснодар: Издательство КубГАУ, 2011. - С.131-144.
Орлов А.И. Новая парадигма математических методов экономики // Экономический анализ: теория и практика. - 2013. - № 36 (339). - С.25-30.
Размещено на Allbest.ru
Подобные документы
Критерий согласия – критерий проверки гипотезы о предполагаемом законе распределения генеральной совокупности. Критерий Колмогорова-Смирнова и его практическое применение. Критические значения статистик Стефенса. Критерии Пирсона и Смирнова-Крамера.
курсовая работа [629,9 K], добавлен 26.08.2012Суть понятия "критерии согласия". Критерии согласия Колмогорова и омега-квадрат в случае простой гипотезы. Критерии согласия Пирсона для простой гипотезы, Фишера для сложной гипотезы. Теоретическое обоснование и практическое применение критерия согласия.
курсовая работа [3,6 M], добавлен 18.11.2010Критерии выбросов в случае нормального распределения, их асимптотические свойства и эмпирическая мощность. Исследование распределения статистик по критериям Колмогорова и Смирнова. Реализация критериев определения выбросов в статистическом пакете R.
курсовая работа [521,9 K], добавлен 10.01.2016Проведение проверки гипотезы о нормальности закона распределения вероятности результатов измерения случайной величины по критерию согласия Пирсона. Определение ошибок в массивах данных: расчет периферийных значений, проверка серии на равнорассеянность.
контрольная работа [1,8 M], добавлен 28.11.2011Одномерная выборка, ее представление и числовые характеристики. Проведение исследования нормального, равномерного и экспоненциального распределения. Проверка гипотез по критерию Пирсона и Колмогорова-Смирнова. Особенность изучения двухмерных выборок.
курсовая работа [1,2 M], добавлен 22.11.2021Способы получения псевдослучайных чисел. Общая характеристика генератора псевдослучайных чисел фон Неймана. Сущность равномерного закона распределения. Понятие о критериях согласия. Анализ критериев Пирсона и Колмогорова.
курсовая работа [176,9 K], добавлен 28.04.2010Доверительное оценивание параметров законов распределения (дисперсия, математическое ожидание), классический регрессионный анализ. Проверка гипотез, методики расчета доверительных интервалов и критериев согласия для различных числовых характеристик.
курсовая работа [302,9 K], добавлен 25.07.2013Проверка выполнимости теоремы Бернулли на примере вероятности прохождения тока по цепи. Моделирование дискретной случайной величины, имеющей закон распределения Пуассона. Подтверждение гипотезы данного закона распределения с помощью критерия Колмогорова.
курсовая работа [134,2 K], добавлен 31.05.2010Краткие сведения о жизненном пути и деятельности Колмогорова Андрея Николаевича - одного из крупнейших математиков ХХ века. Начало его научной деятельности. Реформа школьного математического образования. Выдающиеся фундаментальные работы Колмогорова.
презентация [1,2 M], добавлен 06.09.2013Детство и отрочество Андрея Колмогорова - советского математика, одного из основоположников современной теории вероятностей. Студенческие годы А.Н. Колмогорова, его становление в науке. Научная и педагогическая деятельность ученого, признание заслуг.
реферат [862,6 K], добавлен 17.03.2014