Теория люсианов

Модель дихотомических данных в виде конечной последовательности независимых испытаний Бернулли. Задачи проверки статистических гипотез, классификации, усреднения люсианов. Проверка гипотез по совокупности выборок, теория несмещенных статистических оценок.

Рубрика Математика
Вид статья
Язык русский
Дата добавления 15.05.2017
Размер файла 65,6 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

1

Научный журнал КубГАУ, №101(07), 2014 года

ТЕОРИЯ ЛЮСИАНОВ

Орлов Александр Иванович

д.э.н., д.т.н., к.ф.-м.н., профессор

Московский государственный технический университет

Люсиан - модель дихотомических данных в виде конечной последовательности независимых испытаний Бернулли с, вообще говоря, различными вероятностями успеха. Рассмотрены задачи проверки статистических гипотез, классификации, усреднения люсианов. В соответствии с потребностями практики постановки задач рассмотрены, прежде всего, в асимптотике растущей размерности, в которой число неизвестных параметров растет пропорционально объему данных. Оказались полезными метод проверки гипотез по совокупности малых выборок и теория несмещенных статистических оценок

Lusian - dichotomous data model as a finite sequence of independent Bernoulli trials with, generally speaking, different probabilities of success. The tasks of statistical hypothesis testing, classification, averaging lusians are discussed. In accordance with the requirements of practice the problems are considered primarily in the asymptotic behavior of increasing dimension, in which the number of unknown parameters increases in proportion to the size of data. The method of testing hypotheses on set of small samples and the theory of unbiased statistical estimates were proved to be useful

Ключевые слова: СТАТИСТИЧЕСКИЕ МЕТОДЫ, МАТЕМАТИЧЕСКАЯ СТАТИСТИКА, ПРИКЛАДНАЯ СТАТИТИКА, НЕЧИСЛОВАЯ СТАТИСТИКА, ЛЮСИАНЫ, ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ, АСИМПТОТИКА РАСТУЩЕЙ РАЗМЕРНОСТИ, НЕСМЕЩЕННЫЕ СТАТИСТИЧЕСКИЕ ОЦЕНКИ, ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ, АСИМПОТИЧЕСКАЯ НОРМАЛЬНОСТЬ

Keywords: STATISTICAL METHODS, MATHEMATICAL STATISTICS, APPLIED STATISTICS, NON-NUMERIC STATISTICS, LUSIANS, STATISTICAL HYPOTHESIS TESTING, ASYMPTOTIC BEHAVIOR OF INCREASING DIMENSION, UNBIASED STATISTICAL ESTIMATES, LIMIT THEOREMS, ASYMPTOTIC NORMALITY

Введение

В статье впервые в научной периодике систематически развивается математико-статистическая теория анализа дихотомических данных. В соответствии с потребностями практики постановки задач рассмотрены, прежде всего, в асимптотике растущей размерности, в которой число неизвестных параметров растет пропорционально объему данных. Оказалось, что для решения рассматриваемых задач полезна теория несмещенных статистических оценок.

Дихотомические (бинарные) данные

Это данные, которые могут принимать одно из двух значений (0 или 1), т.е. результаты измерений значений альтернативного признака [1]. Как известно [2], измерения в шкале наименований и порядковой шкале приводят к бинарным отношениям, а те могут быть выражены как результаты измерений по нескольким альтернативным признакам, соответствующим элементам матриц из 0 и 1, описывающих бинарные отношения. Дихотомические данные возникают в прикладных исследованиях и многими иными путями. дихотомический гипотеза бернулли люсиан

В настоящее время в большинстве технических регламентов, стандартов, технических условий, договоров на поставку конкретной продукции предусмотрен контроль по альтернативному признаку. Это означает, что единица продукции относится к одной из двух категорий - «годных» или «дефектных», т.е. соответствующих или не соответствующих требованиям соответствующего нормативно-технического документа. Отечественными специалистами проведены обширные теоретические исследования проблем статистического приемочного контроля по альтернативному признаку. Основополагающими в этой области являются работы академика А.Н. Колмогорова. Подход отечественной вероятностно-статистической школы к проблемам контроля качества продукции отражен в фундаментальных монографиях Ю.К. Беляева [3] и Я.П. Лумельского [4] (см. также главу 10 учебника [5]).

Дихотомические данные - давний объект математической статистики. Особенно большое применение они имеют в экономических и социологических исследованиях, в которых большинство переменных, интересующих специалистов, измеряется по качественным шкалам. При этом дихотомические данные зачастую являются более адекватными, чем результаты измерений по методикам, использующим большее число градаций. В частности, психологические тесты типа MMPI (расшифровывается как «Миннесотское многофакторное личностное исследование») используют только дихотомические данные. На них опираются и популярные в технико-экономическом анализе (и вообще в экспертных оценках) методы парных сравнений [6, 7].

Элементарным актом в методе парных сравнений является предъявление эксперту для сравнения двух объектов (сравнение может проводиться также прибором). В одних постановках эксперт должен выбрать из двух объектов лучший по качеству, в других - ответить, похожи объекты или нет. В обоих случаях ответ эксперта можно выразить одной из двух цифр (меток) - 0 или 1. В первой постановке: 0, если лучшим объявлен первый объект; 1 - если второй. Во второй постановке: 0, если объекты похожи, схожи, близки; 1 - в противном случае.

Подводя итоги, можно сказать, что рассмотренные выше виды данные могут быть представлены в виде векторов из 0 и 1 (при обосновании этого утверждения используется тот очевидный факт, что матрицы могут быть записаны в виде векторов). Более того, поскольку все мыслимые результаты наблюдений имеют лишь несколько значащих цифр, то, используя двоичную систему счисления, любые виды анализируемых статистическими методами данных можно записать в виде векторов конечной длины (размерности) из 0 и 1. Представляется, однако, что эта возможность в большинстве случаев имеет лишь академический интерес. Но, во всяком случае, можно констатировать, что анализ дихотомических данных необходим во многих прикладных постановках.

Вероятностная модель дихотомических данных - люсиан

Рассмотрим базовую вероятностную модель дихотомических данных - бернуллиевский вектор (в терминологии энциклопедии «Вероятность и математическая статистика» [8] - люсиан), т.е. конечную последовательность независимых испытаний Бернулли (т.е. случайных величин, принимающих два значения, а именно, 1 и 0), для которых и причем вероятности pi могут быть различны.

Бернуллиевские вектора часто применяются при практическом использовании статистических методов. Так, они использованы в монографии [2] для описания равномерно распределенных случайных толерантностей. Как известно, толерантность на множестве из m элементов можно задать симметричной матрицей |||| из 0 и 1, на главной диагонали которой стоят 1. Тогда случайная толерантность описывается распределением m(m-1)/2 дихотомических случайных величин а для равномерно распределенной (на множестве всех толерантностей) толерантности эти случайные величины, как можно доказать [2], оказываются независимыми и принимают значения 0 и 1 с равными вероятностями 1/2. Записав элементы задающей такую толерантность матрицы в строку, получим бернуллиевский вектор с k = m(m-1)/2 и pi = 1/2,

В связи с оцениванием по статистическим данным функции принадлежности нечеткой толерантности в 1970-е годы нами была построена теория случайных толерантностей с такими независимыми что вероятности произвольны [2]. Случайные множества с независимыми элементами использовались как общий язык для описания парных сравнений и случайных толерантностей. В некоторых публикациях термин «люсиан» применялся как сокращение для выражения «случайное множество с независимыми элементами».

Был выявлен ряд областей, в которых полезен математический аппарат решения различных статистических задач, связанных с бернуллиевскими векторами (люсианами). Перечислим некоторые из них, включая ранее названные:

- анализ случайных толерантностей;

- случайные множества с независимыми элементами;

- обработка результатов независимых парных сравнений;

- статистические методы анализа точности и стабильности технологических процессов,

- анализ и синтез планов статистического приемочного контроля (по альтернативным, т.е. дихотомическим, признакам);

- обработка маркетинговых и социологических анкет (с закрытыми вопросами типа «да» - «нет»);

- обработка социально-психологических и медицинских данных, в частности, ответов на психологические тесты типа MMPI (используемых, в частности, в задачах управления персоналом),

- анализ топографических карт (применяемых для анализа и прогноза зон поражения при технологических авариях, распространении коррозии, распространении экологически вредных загрязнений, в медицине и в других ситуациях), и т.д.

Теорию бернуллиевских векторов (люсианов) можно выразить в терминах любой из этих теоретических и прикладных областей. Однако терминология одной из этих областей «режет слух» и приводит к недоразумениям в другой из них. Поэтому целесообразно использовать термин «бернуллиевский вектор» в указанном выше значении, не связанном ни с какой конкретной из перечисленных областей приложения этой теории (в ряде публикаций, в том числе и в настоящей статье, в том же значении используется термин «люсиан»).

Распределение бернуллиевского вектора Х полностью описывается векторным параметром , т.е. нечетким подмножеством множества {1,2,...,k}. Действительно, для любого детерминированного вектора из 0 и 1 имеем

где h(x,p)=p при х = 1 и h(х,р)=1 - р при х = 0.

Теперь можно уточнить способы использования люсианов в прикладной статистике. Бернуллиевскими векторами можно моделировать:

- результаты статистического контроля (0 - годное изделие, 1 - дефектное);

- результаты маркетинговых и социологических опросов (0 - опрашиваемый выбрал первую из двух подсказок, 1 - вторую);

- распределение посторонних включений в материале (0 - нет включения в определенном объеме материала, 1 - есть);

- результаты испытаний и анализов (0 - нет нарушений требований нормативно-технической документации, 1 - есть такие нарушения);

- процессы распространения, например, пожаров (0 - нет загорания, 1 - есть; подробнее см. [2, с. 215-223]);

- состояние технологического процесса (0 - процесс находится в границах допуска, 1 - вышел из них);

- ответы экспертов (опрашиваемых) о сходстве объектов (проектов, образцов), и т.д.

Асимптотика растущей размерности и проверяемые гипотезы

Продолжим изучение люсианов в рамках модели порождения дихотомических данных. Пусть A1, A2, ..., As - независимые (между собой) люсианы с векторами параметров Р1, Р2, ..., Рs соответственно. Будем использовать асимптотику s = const, k > ?. При этом число неизвестных параметров растет пропорционально объему данных. (Модели, в которых число неизвестных параметров фиксировано, рассмотрены в [9].)

В последние десятилетия (с начала 1970-х годов) в прикладной статистике все большее распространение получают постановки, в которых число неизвестных параметров растет вместе с объемом выборки. Результаты, полученные в подобных постановках, называют найденными «в асимптотике растущей размерности» или «в асимптотике А.Н. Колмогорова» [10], перенося терминологию исследований по дискриминантному анализу на общий случай. Как известно, в задаче дискриминации [11] в две совокупности (т.е. отнесения вновь появляющегося объекта к одному из двух классов) академик АН СССР А.Н. Колмогоров (1903 - 1987) предложил рассматривать асимптотику

,

где А - размерность пространства (число признаков), Ni - объемы обучающих выборок, лi - константы, i = 1,2. Эта асимптотика естественна при обработке многих видов технических, организационно-экономических, социологических, медицинских данных, поскольку число признаков, определяемых для каждого изучаемого объекта, респондента или пациента, обычно имеет тот же порядок, что и объем выборки.

Рассмотрим независимые (между собой) люсианы A1, A2, ..., As с векторами параметров Р1, Р2, ..., Рs соответственно. Гипотезой согласованности будем называть гипотезу

Р1 = Р2 = ...= Рs.(1)

В отличие от толерантностей, описываемых люсианами, для случайных ранжировок и разбиений под согласованностью понимают более частную гипотезу, предполагающую отрицание равномерности распределений (т.е. одинаковой вероятности появления каждой возможной ранжировки или разбиения), что соответствует замене проверки гипотезы (1) на проверку гипотезы

Р1 = Р2 = ...= Рs = (1/2, 1/2, ..., 1/2).(2)

Как разъяснено в [2, 12], гипотеза (1) более адекватна конкретным задачам обработки реальных данных, например, экспертных оценок, чем (2). Поэтому полученные от экспертов данные, содержащие противоречия, целесообразно рассматривать как люсианы и проверять гипотезу (1), а не подбирать ближайшие ранжировки или разбиения, после чего проверять согласованность методами теории случайных ранжировок или разбиений, как иногда рекомендуется.

Пусть A1, A2, ..., Am и B1, B2, ..., Bn - независимые в совокупности люсианы длины k, одинаково распределенные в каждой группе с параметрами Р(А) и Р(В) соответственно. Гипотезой однородности называется гипотеза

Р(А) = Р(В).

В асимптотике растущей размерности принимаем, что объемы групп m и n постоянны, а размерность бернуллиевского вектора (число парных сравнений) k > ?.

Пусть (Ai, Bi), i = 1. 2, ..., s - последовательность (фиксированной длины) пар люсианов. Пары предполагаются независимыми между собой. Требуется проверить гипотезу независимости Ai и Bi, т.е. внутри пар. В ранее введенных обозначениях гипотеза независимости - это гипотеза

P(Xij(A) = 1, Xij(B) = 1) = P(Xij(A) = 1)P(Xij(B) = 1),

i = 1, 2, ..., s; j = 1, 2, ..., k,

проверяемая в предположении

Р1(А) = Р2(А) = ... = Рs(А), Р1(B) = Р2(B) = ... = Рs(B).

В настоящем разделе излагается метод проверки гипотез о люсианах в асимптотике растущей размерности на примере гипотезы согласованности. Эти результаты сформулированы в [2, 12, 13]. Дальнейшее изучение проведено Г.В. Рыдановой, Т.Н. Дылько, Г.В. Раушенбахом, О.В. Филипповым, А.М. Никифоровым и др. Гипотеза однородности рассмотрена, например, в [13]. Методы проверки гипотезы однородности люсианов развиты и изучены Г.В. Рыдановой [14] на основе описанного ниже подхода. Она помимо доказательства предельных теорем провела подробное изучение скорости сходимости методом статистических испытаний.

Методы проверки согласованности люсианов нашли практическое применение, в частности, в медицине. Они были использованы в кардиологии при анализе данных кинетотопографии [13, 15, 16]. Эти методы включены в методические рекомендации Академии медицинских наук СССР и Ученого Медицинского Совета Минздрава СССР по управлению научными медицинскими исследованиями [17].

Метод проверки гипотез о люсианах в асимптотике растущей размерности

Будем использовать дальнейшее развитие разработанного нами метода проверки гипотез по совокупности малых выборок (см., например, [9, с. 323-336]). Почему нельзя использовать иные подходы, имеющиеся в математической статистике, например, предназначенные для исключения влияния мешающих параметров? Поскольку число неизвестных параметров растет вместе с объемом выборки и пропорционально ему, эти параметры не являются мешающими (в том смысле, как этот термин понимается в теории математической статистики). Отметим, что согласно [18] равномерно наиболее мощных критериев не существует, поскольку параметров много. Не останавливаясь на других подходах математической статистики, констатируем необходимость применения метода проверки гипотез по совокупности малых выборок.

Пусть имеются k выборок, независимых между собой. Пусть при справедливости нулевой гипотезы по каждой из выборок можно построить несмещенную оценку векторного нуля , где р > 1, i = 1, 2, ..., k. Другими словами, пусть распределение i-ой выборки описывается параметром иi, лежащим в произвольном пространстве, а нулевая гипотеза, очевидно, состоит в том, что иiИ0i, где И0i - собственное подмножество множества {иi}. Предполагается, что можно по i-ой выборке вычислить статистику оi такую, что

Mоi = 0(3)

при всех иiИ0i. Очевидно, оi ? 0 удовлетворяют (1). Однако для рассматриваемого метода необходимо, чтобы при всех иiИ0i ковариационная матрица вектора оi была ненулевой:

.(4)

В теории математической статистики иногда используют понятие полноты параметрического семейства распределений. Если рассматриваемое семейство является полным - а так и есть для люсианов, - то не существует достаточной статистики, удовлетворяющей одновременно условиям (1) и (2) (см., например, [19, §§2.12 - 2.14]). Поэтому будем использовать статистики, не являющиеся достаточными.

Следующее предположение - ковариационные матрицы статистик оi, т.е. Covi), также допускают несмещенные оценки Si по тем же выборкам:

M(Si) = Covi)(5)

при всех иiИ0i.

Рассматриваемый метод основан на том, что поскольку случайные вектора оi определяются по независимым между собой выборкам, то оi независимы в совокупности, а потому случайный вектор

(6)

является суммой независимых случайных векторов, имеет в силу (3) нулевое математическое ожидание, а его ковариационная матрица равна

.

При справедливости многомерной центральной предельной теоремы (простейшее условие справедливости этой теоремы для оi в случае люсианов - отделенность от 0 и 1 всех элементов матриц Pj, равномерная по s и k) вектор о является асимптотически нормальным, т.е. при k > ? распределение о сближается (в смысле, раскрытом в [9, Приложение 1]) с многомерным нормальным распределением N(0; Ck).

Однако эту сходимость нельзя непосредственно использовать для проверки исходной гипотезы, поскольку матрица Ck неизвестна статистику. Необходимо оценить эту матрицу по статистическим данным. В силу (5) в качестве оценки Ck естественно использовать

.

Простейшая формулировка условий справедливости такой замены - предположение о том, что к последовательности Si можно применить закон больших чисел. А именно, пусть существует неотрицательно определенная матрица С такая, что при k > ?

.(7)

В силу результатов приложения 1 из асимптотической нормальности о и соотношений (7) следует, что распределение статистики

сходится к нормальному распределению N(0; C). При этом, если некоторый случайный вектор ф имеет распределение N(0; C), то распределение случайной величины q(з) сходится к распределению q(ф) для произвольной интегрируемой по Риману по любому кубу функции q: Rp > R1 [9, Приложение 1]. Для проверки нулевой гипотезы предлагается пользоваться статистикой q(з) при подходящей функции q, а процентные точки брать соответственно распределению q(ф). В этом и состоит рассматриваемый метод проверки гипотез о люсианах в асимптотике растущей размерности. Для реальных расчетов целесообразно использовать линейные или квадратические функции q от координат вектора з.

Отклонения от нулевой гипотезы приводят, как правило, к нарушению равенств (3) и (4). Случайный вектор з при этом обычно остается асимптотически нормальным, но с другими параметрами, что может быть обычным образом использовано для построения оптимального решающего правила, соответствующего заданной альтернативе (например, согласно лемме Неймана-Пирсона). Поведение при альтернативах для некоторых гипотез изучено в [13, 14], здесь его не будем рассматривать, поскольку вычисление мощности не требует новых идей.

Несмещенные оценки параметров асимптотического распределения вектора попарных расстояний

Применим описанный выше метод для проверки гипотезы согласованности люсианов. Исходные данные - люсианы

Aj = (X1j, X2j, ..., Xkj), j = 1, 2, ..., s.

В качестве i-й выборки возьмем совокупность испытаний Бернулли, стоящих на i-м месте в рассматриваемых люсианах:

Xi1, Xi2, ..., Xis.(8)

При справедливости нулевой гипотезы в (8) стоят независимые испытания Бернулли с одной и той же вероятностью успеха pi; при нарушении нулевой гипотезы согласованности независимость испытаний Бернулли сохраняется, но вероятности успеха могут различаться.

В качестве вектора о, на основе которого строятся статистики для проверки согласованности, будем использовать вектор попарных расстояний между люсианами

о = {d(Ap, Aq), 1 < p < q < s},(9)

в котором пары (p, q) упорядочены лексикографически,

.(10)

В [9, гл. 1] это расстояние выведено из некоторой системы аксиом (напомним, что совокупность векторов из 0 и 1 размерности k находится во взаимно-однозначном соответствии с совокупностью подмножеств множества из k элементов; при этом 1 соответствует тому, что элемент входит в подмножество, а 0 - что не входит).

Из вида расстояния в формуле (10) следует, что введенный в (9) вектор о имеет вид (6) с

оi = мi{|Xip - Xiq|, 1 < p < q < s}.(11)

Следовательно, для применения описанного выше метода проверки гипотез о люсианах в асимптотике растущей размерности достаточно построить на основе вектора оi из (11) несмещенную оценку 0 и найти несмещенную оценку ковариационной матрицы этой оценки.

Чтобы применить общую схему, необходимо начать с построения статистики в такой, чтобы при всех pi имело место равенство

M(|Xip - Xiq| - в) - 0, 1 < p < q < s.

Элементарный расчет дает:

M|Xip - Xiq| = 2pi (1 - pi).

Как известно [4, с.56-57], несмещенная оценка многочлена

по результатам m независимых испытаний Бернулли с вероятностью успеха р в каждом имеет вид

,(12)

где г - общее число успехов в m испытаниях и использовано обозначение

n[h] = n(n - 1)...(n - h + 1).

Ясно, что многочлены степени m + 1 и более высокой невозможно несмещенно оценить по результатам m испытаний.

В случае f(p) = 2p(1 - p) в соответствии с (12) получаем несмещенную оценку

. (13)

Таким образом, можно применять общий метод проверки гипотез о люсианах в асимптотике растущей размерности с

оi = мi ({|Xip - Xiq|, 1 < p < q < s} - вie),

где коэффициенты вi определяются с помощью формулы (13) по гi - общему числу единиц, стоящих на i-м месте в люсианах A1, A2, ..., As, а e - вектор размерности s(s - 1)/2 с единичными координатами. Тогда несмещенная оценка 0, о которой идет речь в методе проверки гипотез по совокупности малых выборок, имеет вид

.

Для использования статистики типа з, распределение которой приближается с помощью нормального распределения

,

необходимо уметь несмещенно оценивать ковариационные матрицы Covi). Для этого достаточно найти математические ожидания элементов матрицы как функции (многочлены) от pi, а затем использовать формулу (12) для получения несмещенных оценок.

Вычисление матрицы хотя и трудоемко, но не содержит каких-либо принципиальных трудностей. В [13] вычислены диагональные элементы рассматриваемой матрицы. Вычисление занимает около 2,5 книжных страниц (с.299 - 301). Поэтому здесь приведен только окончательный итог.

Обозначим для краткости pi = р. В [13] показано, что

.

Если двухэлементные множества {p, q} и {r, t} не имеют ни одного общего элемента, то

,

а если имеют ровно один общий элемент, то

.

С помощью формулы (12) получаем несмещенные оценки для D, C1 и C2 как многочленов от р:

,

,

.

С помощью трех чисел выписывается несмещенная оценка матрицы ковариаций вектора оii, которую обозначим Bi. Тогда асимптотически нормальный вектор о имеет нулевое математическое ожидание и ковариационную матрицу, несмещенно и состоятельно (в смысле соотношений (7)) оцениваемую с помощью

.(14)

Асимптотическая нормальность доказывается, естественно, в схеме серий. Достаточным условием является существование положительной константы е такой, что

(15)

при всех k и i, 1 < i < k.

Поскольку D, C1 и C2 являются многочленами четвертой степени от р, то несмещенные оценки для них существуют при s > 4. Если же s < 4, то несмещенных оценок не существует. Поэтому указанным методом проверять согласованность можно лишь при числе люсианов s > 4.

Проверка согласованности люсианов

Пусть б - нормально распределенный случайный вектор размерности s(s - 1)/2 с нулевым математическим ожиданием и ковариационной матрицей, определенной формулой (14). Согласно результатам, приведенным в [9, Приложение 1], для любой действительнозначной функции f, интегрируемой по Риману по любому гиперкубу, распределения случайных величин f(о) и f(б) сближаются при k > ?. Это означает, что вместо распределения случайной величины f(о) для построения критериев проверки гипотез можно использовать распределение случайной величины f(б). Более того, аналогичный результат верен при замене f на fn (при слабых внутриматематических условиях регулярности, наложенных на последовательность функций fn). Следовательно, для проверки гипотезы согласованности люсианов можно пользоваться любой статистикой fn(о), для которой могут быть вычислены с помощью соответствующего программного продукта или заранее табулированы процентные точки распределения fn(б), аппроксимирующего распределение fn(о).

В частности, можно использовать линейные статистики, представляющие собой скалярное произведение случайного вектора о и некоторого заданного детерминированного вектора коэффициентов а, т.е.

.(16)

Линейные статистики имеют нулевое математическое ожидание и дисперсию, очевидным образом выражающуюся через матрицу коэффициентов ||aij|| и числа D, C1 и C2, а потому несмещенно и состоятельно оцениваемую с помощью с помощью выписанных выше оценок для D, C1 и C2.

Отметим, что (о, а) = 0 при aij ? 1, 1 < j < t < s. Это следует как из непосредственного вычисления дисперсии (о, а), так и из того, что (о, а) в рассматриваемом случае выражается через достаточную статистику (г1, г2, ..., гk) и является несмещенной оценкой нуля, а семейство биномиальных распределений полно, т.е. существует только одна несмещенная оценка нуля - тождественный нуль. Таким образом, сумма координат вектора о, т.е. непосредственный аналог коэффициента ранговой конкордации Кендалла - Смита из теории ранговой корреляции [20, 21], тождественно равна 0.

Распределение статистики (16) при альтернативах изучено в работе [14].

Рассмотрим два частных случая.

Первый частный случай. Проверка согласованности двух определенных люсианов (ответов двух экспертов), j-го и t-го, может осуществляться с помощью статистики (16), в которой отличен от 0 только член с ajt = 1. Оценкой дисперсии является D*.

Второй частный случай. Пусть необходимо проверить согласованность люсианов с одним из них, скажем, с j-м (например, люсианы отражают мнения экспертов, а j-й из них является наиболее компетентным - по априорной оценке, или «лицом, принимающим решения», или его мнение сильно отличается от мнений остальных). Это можно сделать с помощью статистики (16), в которой

ajt = 1, t -= j + 1, j + 2, ..., s; atj = 1, t = 1, 2, ..., j - 1;

aqt =0, q ? j, t ? j, 1 < q < t < s.

Другими словами, она имеет вид

,(17)

где расстояние d между люсианами определено в (10), а вi - в (13) с заменой m на s и г на гi. Используя полученные ранее несмещенные оценки элементов ковариационной матрицы, нетрудно показать, что несмещенная и состоятельная (в смысле формулы (7) выше) оценка дисперсии W имеет вид

.

Тогда при выполнении некоторых внутриматематических условий регулярности, например, условий (15), распределение статистики

сходится при k > ?, s = const к стандартному нормальному распределению с математическим ожиданием 0 и дисперсией 1 (при справедливости гипотезы (1) согласованности люсианов).

Статистика (17) наряду со статистикой, предназначенной для проверки гипотезы однородности люсианов, включена в «Методические рекомендации» АМН СССР и УМС Минздрава СССР [17]. Последнюю статистику не расписываем здесь, поскольку для этого не требуются новые идеи.

Различные подходы к понятию согласованности

Обсудим условия, при выполнении которых люсианы естественно считать согласованными (а экспертов, чьи мнения отражают люсианы, имеющими единое мнение, искаженное случайными ошибками), т.е. обсудим различные методы проверки гипотезы (1).

Полное индивидуальное согласие имеет место, если никакие два эксперта не являются «несогласованными». Уровень значимости определяется описанным выше способом (первый частный случай). Однако наличие одной или нескольких пар экспертов, чьи мнения нельзя считать согласованными, не свидетельствует о необходимости отклонения гипотезы (1), поскольку парных проверок проводится много, а именно, s(s - 1) > 6, а способы установления уровня значимости при множественных проверках, зависимых между собой, к настоящему времени плохо разработаны [22]. Проблема множественных проверок для количественных признаков обсуждается А.А. Любищевым [23, с.36-39], выход дается дисперсионным анализом. Можно брать не все попарные проверки, а только для [s/2] пар люсианов, причем разбиение на пары проводить независимо от принятых люсианами значений, как это делает Т.Н. Дылько [24]. Тогда для проверки гипотезы (1) на уровне значимости б надо брать для проверки в каждой паре уровень значимости в, где в рассчитывается понятным образом, приближенно в = б / [s/2].

Полное согласие в целом означает, что для любого эксперта мнения всех остальных оказываются с ним согласованными при использовании статистики (17) (второй частный случай). Отсутствие подобного согласия для одного или нескольких экспертов не означает отклонения гипотезы согласованности люсианов (1) - по тем же причинам, что и в предыдущем случае.

Минимальное согласие имеют мнения экспертов, когда хотя бы для одного из них гипотеза согласованности не отвергается с помощью статистики (17). В этом случае групповое мнение целесообразно строить, выделяя «ядро», о чем подробнее сказано ниже.

Расстояние d между люсианами (см. формулу (10)) введено аксиоматически в [9, гл. 1] (напомним, что реализацию люсиана можно рассматривать как подмножество конечного множества). Там же из иной системы аксиом выведено другое расстояние - D-метрика. Рассмотрим проверку согласованности люсианов с использованием D-метрики. В этом случае расстояние между люсианами А1 и А2 имеет вид

Где .

Ясно, что теория, основанная на D-метрике, из-за наличия знаменателя в только что приведенной формуле существенно сложнее теории, основанной на метрике d. Ясно, что описанный выше метод проверки гипотез о люсианах в асимптотике растущей размерности применить не удается. Чтобы продемонстрировать существенное усложнение ситуации, опишем лишь асимптотическое поведение расстояния D(А1, А2) между двумя люсианами, анонсированное в [25].

Теорема. Пусть p1i и p2i отделены от 0 и 1, а мi отделены от 0 и +?. Тогда расстояние D(А1, А2) между люсианами А1 и А2 асимптотически нормально при k > ? с параметрами

,

т.е. для любого числа х справедливо предельное соотношение

,

где Ц(х) - функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1.

Величины Nj, j = 1, 2, 2, 4, 5, выражаются через мi и величины

p3i = p1i + p2i - 2p1i p2i, p4i = p1i + p2i - p1i p2i

следующим образом:

.

Следствие 1. Пусть p1i = p1 и p2i = p2 при всех i, k, причем p1 и p2 лежат внутри отрезка (0; 1). Пусть мi отделены от 0 и +?. Тогда расстояние D(А1, А2) между люсианами А1 и А2 асимптотически нормально при k > ? с параметрами

,

Где p3 = p1 + p2 - 2p1p2, p4 = p1 + p2 - p1p2.

Следствие 2. Пусть в предположениях следствия 1 p1 = p2 = р и мi = 1 при всех i, k. Тогда

.

Замечание. Пусть вследствие 2 р = 1/2. Тогда А1 и А2 - люсианы, равномерно распределенные на множестве всех последовательностей из 0 и 1 длины k. В частности, эти люсианы могут соответствовать независимым случайным множествам, равномерно распределенным на совокупности всех подмножеств конечного множества из k элементов, или независимым толерантностям, равномерно распределенным на множестве всех толерантностей, определенных на множества из m элементов, где m(m - 1)/2 = k. По следствию 2 расстояние между люсианами D(А1, А2) асимптотически нормально с математическим ожиданием 0,667 и дисперсией 0,296 k-1. Напомним, что распределения коэффициентов ранговой корреляции Кендалла и Спирмена изучены (в основном) лишь при условии равномерности распределения случайных ранжировок на множестве всех возможных ранжировок фиксированного числа объектов. Для теории люсианов случай равномерности распределения - весьма частный, а для теории ранжировок - основной. Как уже говорилось, отказ от равномерности - привлекательная черта теории люсианов.

Классификация люсианов

Отсутствие согласованности в одном из перечисленных выше смыслов позволяет сделать заключение о целесообразности разбиения всех люсианов (например, если они выражают мнения экспертов) на группы близких между собой, т.е. о целесообразности классификации люсианов, точнее, их кластер-анализа. Поскольку введена мера близости между люсианами d(А1, А2) или D(А1, А2), то естественным является следующий способ действий: провести разбиение на кластеры с помощью одного из алгоритмов, основанных на использовании меры близости, а затем проверить мнения в каждом классе на согласованность. Однако применение того или иного алгоритма кластер-анализа, вообще говоря, может нарушить предпосылки описанных выше способов описанных выше способов проверки согласованности (ср. обсуждение похожей проблемы, связанной с применением регрессионного анализа после кластер-анализа, в [26, гл.11]). Поэтому опишем методы классификации, опирающиеся на результаты проверки согласованности.

Разбиение на кластеры, внутри каждого из которых имеет место «полное индивидуальное согласие», может быть проведено с помощью агломеративного иерархического алгоритма «дальнего соседа», дополненного ограничением сверху на диаметр кластера. Это ограничение строится из статистических соображений, в отличие от методов, обычно используемых в кластер-анализе [11]. При этом в качестве меры близости между люсианами используют не расстояния d или D, а модуль статистики, применяемой для проверки согласованности двух люсианов, т.е. статистики (16), в которой только одно из чисел aij отлично от 0. Упомянутое ограничение таково: диаметр кластера не должен превосходить процентной точки предельного распределения, соответствующей используемому при анализе рассматриваемых данных уровню значимости (можно порекомендовать 5%-й уровень значимости). В результате работы алгоритма получим кластеры, в которых имеется «полное индивидуальное согласие», причем объединение любых двух кластеров приведет к исчезновению этого свойства у объединения. Поскольку способ выделения итогового разбиения из иерархического дерева разбиений имеет вероятностно-статистическое обоснование, изложенное выше, то описанный метод классификации люсианов следует считать - в терминологии [27] - не методом анализа данных, а вероятностно-статистическим методом.

Кластеры «с полным согласием в целом» могут быть получены с помощью агломеративного иерархического алгоритма, в котором мерой близости двух кластеров является максимальное значение модуля статистики (17), когда j пробегает номера мнений (люсианов), вошедших в объединение рассматриваемых кластеров, а суммирование в (17) проводится по всем люсианам в этом объединении. Ограничение сверху на меру близости кластеров определяется процентной точкой предельного распределения статистики W, заданной формулой (17).

Кластеры «с минимальным согласием» можно получить, при фиксированном j выделяя совокупность люсианов, согласованных с Aj в смысле статистики W из (17).

На основе двух рассмотренных выше частных случаев линейной статистики (16) можно строить и другие способы классификации. Например, для каждого люсиана Am можно выделить кластер «типа шара» (см. [26, гл.5]) из люсианов, попарно согласованных с Am. Все такие способы имеют вероятностно-статистическое обоснование, и потому к ним относится сказанное выше относительно выделения кластеров «с полным индивидуальным согласием».

Замечание. Проверка согласованности приведенными выше критериями может привести к отрицательному результату двумя способами - либо значение статистики окажется слишком большим, либо слишком малым. Первое означает, что гипотеза согласованности люсианов (1) неверна, вторая - что неверна вероятностная модель реального явления или процесса, основанная на люсианах. С необходимостью учета второй возможности мы столкнулись при применении теории люсианов для анализа данных топокарт, полученных при проведении кинетокардиографии у больных инфарктом миокарда [15, 16].

Нахождение среднего

В результате классификации получаем согласованные (в одном из указанных выше смыслов) группы люсианов. Для каждой из них полезно рассмотреть среднее. В зависимости от конкретных приложений в прикладных исследованиях применяют либо среднее в виде последовательностей 0 и 1, т.е. в виде реализации люсиана, либо среднее в виде последовательности оценок вероятностей (p1, p2, ..., pk). Кроме того, оно может находиться либо с помощью методов, подавляющих «засорения» («выбросы»), либо без учета возможности засорения. Рассмотрим все четыре возможности.

В соответствии с подходом главы 2 при отсутствии засорения эмпирическое среднее ищется как решение задачи

,(18)

где A1, A2, ..., Am - люсианы, входящие в рассматриваемый кластер, Х - множество, которому принадлежит среднее. Если Х - совокупность последовательностей из 0 и 1, то правило (18) дает решение по правилу большинства.

Если Х - пространство последовательностей вероятностей, то решением задачи (18) является та же последовательность 0 и 1, что и в первом случае. Поэтому в качестве среднего вместо решения задачи (18) целесообразно рассматривать просто последовательность частот.

Асимптотическое поведение средних при m > ? вытекает из законов больших чисел [28], теорем, описывающих асимптотику решений экстремальных статистических задач [29], и теоремы Муавра-Лапласа соответственно.

В работе [30] при анализе результатов эксперимента показано, что ответы реальных экспертов разбиваются на многочисленное «ядро», расположенное вокруг истинного мнения, и отдельных «диссидентов», разбросанных по периферии. Причем оценка истинного мнения по «ядру» является более точной, чем по всей совокупности, поскольку мнения «диссидентов» не отражают истинного мнения. Поэтому для построения группового мнения, в том числе среднего для совокупности люсианов, отражающих мнения экспертов, естественно применять методы, подавляющие мнения «диссидентов», что соответствует методологии робастности.

«Ядро» может быть построено следующим образом. Решается задача (18) с конечным множеством Х, состоящим из всех исходных люсианов: Х = {A1, A2, ..., Am}, т.е. из результатов наблюдений выбирается тот, что находится «в центре» совокупности результатов наблюдений. Пусть Aj является решением этой задачи. В качестве ядра предлагается рассматривать совокупность всех люсианов, которые попарно согласованы с Aj. Другой вариант: рассматривается кластер с «полным внутренним согласием», куда входит Aj. (При этом, очевидно, должно быть изменено (уменьшено) критическое значение критерия по сравнению с процедурой, приведшей к выделению группы, нахождением группового мнения которой мы занимаемся.) Затем групповое мнение ищется лишь для элементов «ядра». Описанная процедура особенно необходима в случае, когда не было предварительного разбиения совокупности люсианов на группы, согласованные друг с другом. Новым по сравнению с [30] является придание вероятностного смысла порогу, выделяющему «ядро».

Обобщая идею выделения «ядра», приходим к «взвешенным итеративным методам оценивания среднего» (ВИМОП - оценкам среднего), введенным и первоначально изученным в работе [31]. Их применение для люсианов не требует специальных рассмотрений.

Таким образом, в настоящей статье представлен ряд методов обработки специального вида объектов нечисловой природы - люсианов. При этом для решения одной и той же задачи, например, задачи классификации, предлагается ряд методов, точно так же, как для решения классической задачи проверки однородности двух независимых выборок имеется большое число методов [26, гл.4].

Теория люсианов - часть статистики объектов нечисловой природы [32]. Разработка этой теории ведется в соответствии с новой парадигмой математической статистики [33] и анализа статистических и экспертных данных в задачах экономики и управления [34]. Распределение люсиана описывается нечетким множеством, а потому рассматриваемая теория относится к системной нечеткой интервальной математике [35, 36].

Литература

1. Суппес П., Зинес Дж. Основы теории измерений // Психологические измерения. - М.: Мир, 1967. - С.9 - 110.

2. Орлов А.И. Устойчивость в социально-экономических моделях. - М.: Наука, 1979. - 296 с.

3. Беляев Ю.К. Вероятностные методы выборочного контроля. - М.: Наука, 1975. - 408 с.

4. Лумельский Я.П. Статистические оценки результатов контроля качества. - М.: Изд-во стандартов, 1979. - 200 с.

5. Орлов А.И. Организационно-экономическое моделирование : учебник : в 3 ч. Ч.3. Статистические методы анализа данных. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2012. - 624 с.

6. Дэвид Г. Метод парных сравнений. - М.: Статистика, 1978.- 144 с.

7. Орлов А.И. Организационно-экономическое моделирование: учеб. Ч.2. Экспертные оценки. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2011. - 486 с.

8. Вероятность и математическая статистика: Энциклопедия / Гл. ред. Ю.В. Прохоров. - М.: Большая Российская энциклопедия, 1999. - 910 с.

9. Орлов А.И. Организационно-экономическое моделирование : учебник : в 3 ч. Ч. 1. Нечисловая статистика. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2009. -- 541 с.

10. Орлов А.И. Парные сравнения в асимптотике Колмогорова. - В сб.: Экспертные оценки в задачах управления. - М.: Изд-во Института проблем управления АН СССР, 1982. - С. 58-66.

11. Орлов А.И. Математические методы теории классификации / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. - №01(095). С. 423 - 459. - IDA [article ID]: 0951401023. - Режим доступа: http://ej.kubagro.ru/2014/01/pdf/23.pdf

12. Орлов А.И. Статистика объектов нечисловой природы и экспертные оценки. - В сб.: Экспертные оценки / Вопросы кибернетики. Вып.58. - М.: Научный Совет АН СССР по комплексной проблеме "Кибернетика", 1979. - С.17-33.

13. Орлов А.И. Случайные множества с независимыми элементами (люсианы) и их применения. - В сб.: Алгоритмическое и программное обеспечение прикладного статистического анализа. Ученые записки по статистике, т.36. - М.: Наука, 1980. - С. 287-308.

14. Рыданова Г.В. Некоторые вопросы статистического анализа случайных бинарных векторов. Дисс. ... канд. физ.-мат. наук. - М.: МГУ, ф-т вычислительной математики и кибернетики, 1987. - 139 с.

15. Аксенова Г.А., Кузьмина Е.С., Орлов А.И., Розова Н.К. Кинетотопография в диагностике инфаркта миокарда. - В сб.: Актуальные вопросы клинической и экспериментальной медицины. - М.: 4 Главное Управление при Минздраве СССР, 1979. С.24-26.

16. Попов В.Г., Аксенова Г.А., Орлов А.И., Розова Н.К., Кузьмина Е.С. Кинетокардиография в определении зон асинергии у больных инфарктом миокарда. - Журнал «Клиническая медицина». 1982. Т.LX. No.3. С.25-30.

17. Методические рекомендации по проведению экспертной оценки планируемых и законченных научных работ в области медицины (по проблемам союзного значения) / Составители: Г.В. Раушенбах, О.В. Филиппов. - М.: АМН СССР - Ученый медицинский совет Минздрава СССР, 1982. - 36 с.

18. Леман Э. Проверка статистических гипотез. - М.: Наука, 1979. - 408 с.

19. Боровков А.А. Математическая статистика / Учебное пособие для вузов. - М.: Наука, 1984. - 472 с.

20. Кендэл М. Ранговые корреляции. - М.: Статистика, 1975. - 216 с.

21. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. - М.: Наука, 1965 (1-е изд.), 1968 (2-е изд.), 1983 (3-е изд.).

22. Орлов А.И. Проблема множественных проверок статистических гипотез |// Заводская лаборатория. Диагностика материалов. 1996. Т.62. № 5. С.51 - 54.

23. Любищев А.А. Дисперсионный анализ в биологии. - М.: Изд-во МГУ, 1986. - 200 с.


Подобные документы

  • Ознакомление с механизмом проверки гипотезы для случая единственной выборки, двух и нескольких независимых выборок. Проверка совпадений карт, выбор фильмов разных жанров. Обоснование результатов, полученных после проверки статистических гипотез.

    курсовая работа [726,2 K], добавлен 26.02.2015

  • Предельные теоремы теории вероятностей. Сходимость последовательностей случайных величин и вероятностных распределений. Метод характеристических функций. Закон больших чисел. Особенности проверки статистических гипотез (критерия согласия w2 Мизеса).

    курсовая работа [1,0 M], добавлен 27.01.2012

  • Вероятностная модель и аксиоматика А.Н. Колмогорова. Случайные величины и векторы, классическая предельная проблема теории вероятностей. Первичная обработка статистических данных. Точечные оценки числовых характеристик. Статистическая проверка гипотез.

    методичка [433,3 K], добавлен 02.03.2010

  • Основные понятия, которые касаются центральной предельной теоремы для независимых одинаково распределенных случайных величин и проверки статистических гипотез. Анализ сходимости последовательностей случайных величин и вероятностных распределений.

    курсовая работа [582,0 K], добавлен 13.11.2012

  • Сходимость последовательностей случайных величин и вероятностных распределений. Метод характеристических функций. Проверка статистических гипотез и выполнение центральной предельной теоремы для заданных последовательностей независимых случайных величин.

    курсовая работа [364,8 K], добавлен 13.11.2012

  • Первичный анализ и основные характеристики статистических данных. Точечные оценки параметров распределения. Доверительные интервалы для неизвестного математического ожидания и для среднего квадратического отклонения. Проверка статистических гипотез.

    дипломная работа [850,9 K], добавлен 18.01.2016

  • Статическая проверка статистических гипотез. Ошибки первого и второго рода. Числовые характеристики случайной величины, распределенной по биномиальному закону. Проверка гипотезы о биномиальном распределении генеральной совокупности по критерию Пирсона.

    курсовая работа [674,3 K], добавлен 03.05.2011

  • Основные понятия математической статистики, интервальные оценки. Метод моментов и метод максимального правдоподобия. Проверка статистических гипотез о виде закона распределения при помощи критерия Пирсона. Свойства оценок, непрерывные распределения.

    курсовая работа [549,1 K], добавлен 07.08.2013

  • Математическая статистика как наука о математических методах систематизации статистических данных, ее показатели. Составление интегральных статистических распределений выборочной совокупности, построение гистограмм. Вычисление точечных оценок параметров.

    курсовая работа [241,3 K], добавлен 10.04.2011

  • Сущность вероятностной задачи-схемы независимых испытаний швейцарского профессора математики Я. Бернулли. Пример решения задачи по формуле Бернулли. Применение методов теории вероятностей в различных отраслях естествознания, техники и прикладных науках.

    презентация [301,3 K], добавлен 10.03.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.