Теория вероятностей и математическая статистика
Группировки 0-го, 1-го, 2-го порядков в распределении качественных признаков. Ряды распределения в зависимости от признака положенного в основу группировки. Условия использования формулы Пуассона. Критерии проверки гипотез о корреляционном отношении.
Рубрика | Математика |
Вид | контрольная работа |
Язык | русский |
Дата добавления | 27.01.2014 |
Размер файла | 550,0 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
ИНСТИТУТ МИРОВОЙ ЭКОНОМИКИ И ИНФОРМАТИЗАЦИИ
НЕГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
Теория вероятностей и математическая статистика
Студент: Савина Анна Даниловна
МОСКВА 2013
1. Рассказать о группировках 0-го, 1-го, 2-го порядков в распределении качественных признаков
Ответ:
При группировке по качественному признаку число групп равно числу градаций, видов, состояний (наименований) явления, если их число не очень велико.
При достаточно большой численности совокупности (200 наблюдений) и нормальном распределении единиц совокупности число групп с равными интервалами можно определить по формуле Стерджесса:
,
где - число единиц совокупности.
Рекомендуется брать 2-3 группы при числе наблюдений до 40, 4-5 групп, если число наблюдений будет 40-60.
Интервал - это значение варьирующего признака лежащие в определенных границах «от и до». Каждый интервал имеет верхнюю и нижнюю границы или хотя бы одну из них. Нижняя граница - это наименьшее значение признака в интервале. Верхняя граница - это наибольшее значение признака в интервале.
Виды интервалов:
а) открытые - имеется только либо верхняя, либо нижняя граница;
б) закрытые - имеются нижняя и верхняя границы.
Виды интервалов в зависимости от их величины:
а) неравные - разность между максимальным и минимальным значениями в каждом из интервалов неодинакова (подразделяются на прогрессивно возрастающие, прогрессивно убывающие, произвольные и специализированные).
б) равные - разность между максимальным и минимальным значениями в каждом из интервалов одинакова. Данные интервалы используются в том, случае, если вариация признака не значительна, а распределение является более или менее равномерным.
Величина равного интервала определяется по формуле:
,
где - соответственно максимальное и минимальное значение признака в совокупности;
- число групп.
Величина равного интервала определяется по формуле Стерджесса (знаменатель округляем до целого числа):
,
Величину интервала округляют до целого (всегда больше) числа, исключение составляют, случае когда изучается малейшие колебания признака.
Способы построения группировки:
1) Способ равного интервала. Суть способа - к минимальному значению признака прибавляют найденную величину интервала , получаем верхнюю границу первой группы. Затем к верхней границы первой группы прибавляют найденную величину интервала, и получаем верхнюю границу второй группы и т.д. Для устранения неопределенности в группировках, открывают один из крайних интервалов или используют принцип единообразия - левое число включает в себя обозначение значение, а правое не включает.
2) Способ равных частот. Суть способа - изучаемая совокупность выстраивается в ранжированный ряд по значению группировочного признака. Далее совокупность расчленяется на заданное количество групп с равным количеством наблюдений в каждой группе.
Ряд распределения - это простейший вид структурной группировки, в которой отражены значения признака по группам и численность каждой группы.
Виды рядов распределения в зависимости от признака положенного в основу группировки:
1) Атрибутивные - в основу группировки положен атрибутивный признак (в порядке возрастания или убывания). Например, распределение населения по полу, занятости, национальности, профессиям.
2) Вариационные - в основу группировки положен количественный признак. Например, распределение населения по возрасту и т.д.
Группировка выполняется в несколько стадий. На первой важно отобрать группировочный признак. Им должен быть существенный признак из числа заданных. Если в числе заданных есть атрибутивный признак, то именно он становится группировочным признаком. Если группировочных признаков несколько (если признаки атрибутивные, их должно быть не меньше двух), группировка выполняется в несколько стадий.
Группировку по первому признаку называют первичной, а группировку по всем другим признакам - вторичной.
Группировка проводится или по одному или по нескольким взаимосвязанным признакам. Во втором случае выполняется процедура расчета функционального признака по заданным факториальным. Этот функциональный признак будет играть роль группировочного. Группировка должна осуществляться после выполнения сводки, которая, и это следует помнить, возможна только по количественным объемным признакам. Качественные признаки не подлежат сводке (качественный признак всегда есть результат деления объемного или количественного признака на другой объемный признак или на собственную базу).
Результат сводки - вертикальный столбец цифр, записанных беспорядочно. Он замкнут границами уровня выполнения сводки. Для выполнения группировки этот материал должен быть упорядочен (записан в нарастающем или убывающем порядке). Нарастание или убывание определяется тенденцией изменения данного признака (например, себестоимость снижается, производительность труда увеличивается). Такой ряд чисел называется вариационным. Его элементы - числа (уровни ряда). Ряды бывают дискретными (уровень задан одним числом) и интервальными. Дискретные ряды являются исходным материалом выполнения группировки, а интервальные - ее результатом.
Группировка, содержащая всего два элемента: перечень групп и число единиц, входящих в каждую группу, - называется рядом распределения. Соответственно ряды распределения чаще всего являются результатом группировки.
Ряды распределения бывают первичными и вторичными. К первичным относятся упорядоченные (или вариационные) ряды по данным статистического наблюдения. Эти ряды характеризуются дискретной записью уровней и небольшими частотами (часто они равны единице). Вторичные ряды обязательно являются результатом группировки по количественному признаку. Эти ряды могут быть интервальными и смешанными. У интервальных рядов уровень ряда - интервал, у смешанных - интервалы чередуются с дискретным значением уровня. Частоты таких рядов распределяются по уровням неравномерно. Характер распределения частот определяет качество группировки, ее надежность.
Для вторичных рядов кроме частот определяются частости, т.е. частоты, выраженные в долях или процентах к объему ряда (сумме единиц ряда). Интервальные вторичные ряды могут иметь равные или неравные интервалы.
Интервальные ряды распределения - это непосредственный результат группировки, так как каждый интервал цифр в нем - это объем признака, характеризующий определенный объем качества.
Интервальный ряд распределения характеризуют следующие элементы:
уровни ряда (варианты) - интервальные значения признака;
частота - число единиц совокупности, соответствующее данному уровню;
частость - частота в относительном измерении, т.е. частота, отнесенная к объему ряда, где объем ряда - число единиц изучаемой совокупности. Сумма всех частостей равна соответственно единице или 100 %. Равномерность распределения признака в исследуемой совокупности определяется значениями частот или частостей;
плотность распределения признака - удельная частота в пределах интервала; отношение частоты (частости) к величине интервала. Необходимость в расчете этого показателя возникает в рядах с неравными интервалами, так как колебания объемов признака по уровням качества как правило не характеризуется пропорциональной зависимостью.
Формирование равных интервалов предполагает достаточно однородную совокупность по изучаемому признаку с медленным нарастанием или убыванием последнего. Во всех остальных случаях формируются неравные интервалы.
Независимо от величины интервала группировку начинают с выделения равных интервалов, а затем переходят к неравным.
Построение ряда с равными интервалами предполагает наличие вариационного ряда по группировочному признаку. Построение искомого ряда включает следующие операции:
определение размаха ряда - разности между крайними значениями ряда Хmax - Xmin;
обоснование числа групп вторичного ряда распределения n, которое зависит от объема выборки. Эта зависимость имеет опытно-статистический характер, применяется в зависимости от сферы изучаемого явления и декларируется специальными статистическими таблицами;
определение величины интервала
;
построение интервалов прибавлением к минимальному значению признака : Xmin + i = X1. Таким образом, последовательно получаем интервалы [Xmin - X1], [X1 - X2] = [X1 - (X1 + i)] и т.д., пока не придем к максимальному значению признака.
Параметры ряда i и n взаимосвязаны: чем больше длина интервала, тем меньше интервалов. Число интервалов зависит от объема выборки, размаха и некоторых других характеристик ряда. В зависимости от объема выборки N можно принимать следующее число интервалов n:
Таблица 1
N |
До 10 |
До 10-30 |
30-100 |
100-500 |
500-3000 |
Более 3000 |
|
n |
3 |
3-4 |
4-8 |
8-9 |
9-13 |
13-18 |
Построение интервального ряда завершается распределением единиц совокупности по выделенным интервалам.
После того, как найдены частоты интервального ряда, строится их график, причем по оси абсцисс откладывают интервальные значения признака, а по оси ординат - частоты. Если полученный график близок к прямой или параболе, группировку можно заканчивать, она качественна. Для рядов с неравными интервалами данный график будет точнее, если вместо частот использовать плотность распределения.
Построению рядов с неравными интервалами предшествует анализ динамики признака по совокупности и регистрация моментов накопления объема признака. Совмещение этих двух направлений анализа сопровождается обычно вторичной группировкой. При первичной группировке этот процесс возможен только путем построения интервального ряда с равными интервалами.
Таким образом, процедура первичной группировки выглядит следующим образом:
1. Формируется ряд (с равными интервалами) на базе ряда распределения.
2. Выполняется графическая проверка полученного результата. График строится следующим образом: по оси абсцисс откладывают интервалы ряда с регистрацией их средних, по оси ординат - частоты (частости). Точки графика получают на пересечении срединных значений уровней ряда и соответствующих ординат.
3. Проводится анализ полученного графика посредством построения линии тренда. Если линия тренда представляет собой прямую линию или параболическую кривую (второго порядка), то полученные результаты являются достаточно надежными (качественными) и группировку можно закончить. Если линия тренда представлена гиперболической или синусоидальной кривой, то результаты группировки нельзя признать надежными и процедуру следует продолжить. Как правило, последующие стадии группировки заканчиваются построением рядов с неравными интервалами.
4. Осуществляется процедура проверки рядов с неравными интервалами:
1) по исходным данным определяется плотность распределения признака в пределах интервала по единицам совокупности;
2) строится график, в котором по оси абсцисс откладывают интервалы ряда с регистрацией середины; по оси ординат - плотность распределения;
3) проводится анализ полученного результата.
Кроме того, результатами группировки могут быть смешанные ряды, когда одни уровни представлены интервальными значениями, а другие - дискретными (геостатистика, гидрометеорологические исследования).
2. Формула Пуассона, условия ее использования
Ответ:
Распределение (формула) Пуассона - это распределение редких событий. Условия применения формулы требуют, чтобы вероятность события p была мала, а число испытаний n велико. Обычно формулу используют, Если вероятность появления события А в n отдельных независимых испытаниях очень мала (р<q), а np<10. Кроме того, отличие от биноминального распределения состоит в том, что то сколько раз событие не наблюдалось, значения не имеет. Например, мы можем заявить, что лампочка должна заменяться три раза в течение 10000 часов. Однако, вопрос “сколько раз не следует менять лампочку в течение того же времени”, смысла иметь не будет.
Распределение Пуассона распространяется на случаи, когда возможность совершить ошибку сохраняется непрерывно, но, фактически, совершаются лишь несколько ошибок (редкие события).
Примеры распределения Пуассона:
1. число чернильных клякс на 100 страницах монографии;
2. число разговоров регистрируемых на АТС в течение определённого интервала времени;
3. количество распадающихся за короткий промежуток времени атомов радиоактивных веществ;
4. число обрывов нити определенного сорта пряжи в течение заданного периода;
5. число дефектов в куске ткани определенной длины;
6. число зафиксированных за определенный период метеоритов.
Таким образом, распределение Пуассона применяется для определения числа отказов изделия за определенный промежуток времени.
Если вероятность появления события А в n отдельных независимых испытаниях очень.
Мала (р<q), то применяется формула Пуассона.
Формула Пуассона выводится из формулы Бернулли и после ряда преобразований выглядит следующим образом
,
где
- математическое ожидание.
=np, n - число независимых испытаний с постоянной малой вероятностью р.
k - количество раз, которое произойдет редкое событие.
-- основание натурального логарифма.
Эта формула применяется в прикладных разработках, в теории массового обслуживания (теории очередей), которая используется для расчета оптимального числа точек обслуживания, числа бензоколонок, числа рабочих мест операционистов в банке (такое число, чтобы не было очередей).
Кроме того, формула Пуассона применяется в ситуациях, когда не требуется высокая точность расчетов, а вероятность события p не велика.
3. Сформулировать теорему Бернулли
Ответ:
Теорема Бернулли: Если вероятность события А в каждом из п независимых испытаний постоянна и равна р, то при достаточно большом п для произвольного >0 справедливо неравенство.
Переходя к пределу, имеем: Если в каждом из независимых испытаний вероятность появления события постоянна, то как угодно близка к единице вероятность того, что отклонение относительной частоты от вероятности по абсолютной величине будет сколь угодно малым, если число испытаний достаточно велико.
Другими словами, 0 < p < 1, если -- сколь угодно малое положительное число, то при соблюдении условий теоремы имеет место равенство:
Теорема Бернулли устанавливает связь между вероятностью появления события и его относительной частотой появления и позволяет при этом предсказать, какой примерно будет эта частота в п испытаниях. Из теоремы видно, что отношение т/п обладает свойством устойчивости при неограниченном росте числа испытаний.
Иногда (при решении практических задач) требуется оценить вероятность того, что отклонение числа т появления события в п испытаниях от ожидаемого результата пр не превысит определенного числа . Для данной оценки неравенство переписывают в виде
4. Дать определение точечной оценки параметра распределения
Ответ:
Задача оценивания параметров распределения генеральной - одна из основных задач математической статистики. На содержательном уровне задача оценивания параметров распределения формулируется так: располагая выборкой реализаций случайной величины Х, необходимо получить оценку неизвестного параметра генеральной совокупности а и ее статистические свойства.
Оценивание параметров распределения осуществляется в два этапа. На первом этапе, на основании выборки х1, х2,...,,хn,строится статистика , значение которой при данной выборке х1, х2,...,хn принимают за приближенное значение оцениваемого параметра а: а.
Так как параметр генеральной совокупности оценивается числом, которое на числовой оси изображается точкой, то оценку называют точечной.
Для получения точечной оценки существует много статистик, которые могут быть использованы в качестве оценок. Поэтому второй этап оценивания состоит в выборе наилучшей оценки, что требует введения критерия качества получаемых оценок. Задача усложняется тем, что ввиду малого объема выборки требуется статистический подход к качеству оценки.
По опытным данным (выборке) путем построения гистограммы или с помощью других средств можно попытаться выбрать вероятностную модель (определить закон распределения генеральной совокупности). При этом выборочные данные позволяют уточнить детали вероятностной модели. Знание вероятностной модели дает возможность прогнозировать будущие события, что важно для принятия решений. В приложениях обычно задаются определенным типом закона распределения генеральной совокупности (плотностью распределения) f = f(x; a1, a2,..., am) и по данным случайной выборки х1, х2,..., хn оценивают неизвестные параметры a1, a2,..., am. Чаще всего параметрами являются генеральное среднее и дисперсия, а качестве оценки тогда используют выборочные характеристики: выборочное среднее и выборочную дисперсию.
Рассмотрим следующую задачу. Пусть имеется случайная величина Х и нам известен ее закон распределения f = f(x, a), который содержит один неизвестный параметр а. Требуется на основании выборочных данных х1, х2,..., хn найти подходящую оценку параметра а. Для решения этой задачи построим следующую математическую модель. Пусть Х1, Х2,..., Хn - независимые случайные величины, которые принимают соответствующие выборочные значения (для данной выборки значения х1, х2,..., хn) и пусть случайная величина получена на основе случайных величин Х1, Х2,..., Хn, то есть Будем считать, как и ранее, что случайные величины Х1, Х2,..., Хn имеют один и тот же закон распределения с плотностью распределения величины Х (генеральной совокупности) f(x). Тогда является случайной величиной, закон распределения которой зависит от n и от f(x). Для того чтобы оценка имела практическую ценность она должна обладать следующими свойствами.
Итак, статистической оценкой неизвестного параметра теоретического распределения называют функцию от наблюдаемых случайных величин.
Для того чтобы статистические оценки давали «хорошие» приближения оцениваемых параметров, они должны удовлетворять определенным требованиям: оценка должна быть несмещенной, эффективной и состоятельной.
1. Несмещенность оценки. Оценка называется несмещенной, если ее математическое ожидание равно оцениваемому параметру генеральной совокупности:
В противном случае оценка называется смещенной и допускает систематическую ошибку. Так, рассмотренное ранее среднее выборочное является несмещенной оценкой среднего генерального. В то же время выборочная дисперсия
является смещенной оценкой генеральной дисперсии.
2. Состоятельность оценки. Оценка называется состоятельной, если она по вероятности с увеличением объема выборки п стремится к параметру генеральной совокупности:
Это условие будет выполняться, если
и оценка является несмещенной. Доказательство этого основано на неравенстве Чебышева.
3. Эффективность оценки. Если составлять множество несмещенных и состоятельных оценок, то эти оценки будут иметь разные дисперсии. Ясно, что, чем меньше будет дисперсия, тем меньше будет вероятность грубой ошибки при определении приближенного параметра генеральной совокупности. Поэтому нужно выбрать такую оценку, у которой дисперсия была бы минимальной:
Такая оценка называется эффективной.
Заключение. При обработке экспериментальных данных необходимо руководствоваться сформулированными свойствами оценок.
В качестве примера покажем, что рассмотренные ранее оценки: выборочное среднее и выборочная дисперсия , будучи несмещенными, являются и состоятельными оценками. Действительно, так как согласно теореме Чебышева
то выборочное среднее является состоятельной оценкой.
Для того чтобы доказать, что выборочная дисперсия является состоятельной оценкой, покажем вначале, что смещенная оценка - состоятельная оценка. С этой целью запишем:
(8.1)
При n ® Ґ по вероятности случайная величина стремится к М(Х2), а выборочное среднее - к среднему генеральному mx. Тогда из соотношения (1) следует, что по вероятности стремится при n ® Ґ к величине М(Х2)-mx2=D(X)=s2, которая является генеральной дисперсией. Тем самым доказана состоятельность оценки . Если теперь рассмотреть несмещенную оценку генеральной дисперсии то поскольку множитель стремится к единице при n ® Ґ, а стремится по вероятности к , то и оценка стремится по вероятности к , что доказывает состоятельность оценки .
Замечание. Для простоты изложения формулы оценок математического ожидания и дисперсии, которые были использованы при доказательстве свойств оценок, были построены с использованием статистического ряда. Если данные выборки представлено в виде интервального вариационного ряда, то для вычисления соответствующих выборочных числовых характеристик используют следующие формулы.
1. Выборочное взвешенное среднее:
.
2. Выборочная взвешенная дисперсия:
,
которая является смещенной оценкой и несмещенная оценка
.
Здесь п - объем выборки, т - число разных вариант, nj - частоты вариант (п1+п2+…+пт=п).
5. Что называют ошибкой 1-го рода?
Ответ:
Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза.
Проверка статистических гипотез складывается из следующих этапов:
* формулируется в виде статистической гипотезы задача исследования;
* выбирается статистическая характеристика гипотезы;
* выбираются испытуемая и альтернативная гипотезы на основе анализа возможных ошибочных решений и их последствий;
* определяются область допустимых значений, критическая область, а также критическое значение статистического критерия по соответствующей таблице;
* вычисляется фактическое значение статистического критерия;
* проверяется испытуемая гипотеза на основе сравнения фактического и критического значений критерия, и в зависимости от результатов проверки гипотеза либо отклоняется, либо не отклоняется.
Пусть дана выборка из неизвестного совместного распределения , и поставлена бинарная задача проверки статистических гипотез:
где -- нулевая гипотеза, а -- альтернативная гипотеза. Предположим, что задан статистический критерий
,
сопоставляющий каждой реализации выборки одну из имеющихся гипотез. Тогда возможны следующие четыре ситуации:
1. Распределение выборки соответствует гипотезе , и она точно определена статистическим критерием, то есть .
2. Распределение выборки соответствует гипотезе , но она неверно отвергнута статистическим критерием, то есть .
3. Распределение выборки соответствует гипотезе , и она точно определена статистическим критерием, то есть .
4. Распределение выборки соответствует гипотезе , но она неверно отвергнута статистическим критерием, то есть .
Во втором и четвертом случае говорят, что произошла статистическая ошибка, и её называют ошибкой первого и второго рода соответственно.
При проверке гипотез по одному из критериев возможны два ошибочных решения:
1) неправильное отклонение нулевой гипотезы: ошибка 1-го рода;
2) неправильное принятие нулевой гипотезы: ошибка 2-го рода. В то время, как фактически нулевая гипотеза верна (1) и нулевая гипотеза не верна (2), принимают два ошибочных решения: 1) нулевая гипотеза отклоняется и принимается альтернативная гипотеза; 2) нулевая гипотеза не отклоняется.
Таблица 2
|
Верная гипотеза |
|||
|
|
|||
Результат применения критерия |
|
верно принята |
неверно принята |
|
|
неверно отвергнута (Ошибка первого рода) |
верно отвергнута |
Применение ошибок 1 рода:
Ошибка первого рода происходит, когда механизм блокировки/фильтрации спама ошибочно классифицирует легитимное email-сообщение как спам и препятствует его нормальной доставке. В то время как большинство «антиспам»-алгоритмов способны блокировать/фильтровать большой процент нежелательных email-сообщений, гораздо более важной задачей является минимизировать число «ложных тревог» (ошибочных блокировок нужных сообщений).
Понятие ошибки первого рода также используется, когда антивирусное программное обеспечение ошибочно классифицирует безвредный файл как вирус. Неверное обнаружение может быть вызвано особенностями эвристики, либо неправильной сигнатурой вируса в базе данных. Подобные проблемы могут происходить также и с антитроянскими и антишпионскими программами.
При поиске в базе данных к ошибкам первого рода можно отнести документы, которые выдаются поиском, несмотря на их иррелевантность (несоответствие) поисковому запросу. Ошибочные срабатывания характерны для полнотекстового поиска, когда поисковый алгоритм анализирует полные тексты всех хранимых в базе данных документов и пытается найти соответствия одному или нескольким терминам, заданным пользователем в запросе.
Ошибки первого рода регулярно встречаются каждый день в компьютерных системах предварительного досмотра пассажиров в аэропортах. Установленные в них детекторы предназначены для предотвращения проноса оружия на борт самолёта; тем не менее, уровень чувствительности в них зачастую настраивается настолько высоко, что много раз за день они срабатывают на незначительные предметы, такие как ключи, пряжки ремней, монеты, мобильные телефоны, гвозди в подошвах обуви и т.п. (см. обнаружение взрывчатых веществ, металлодетекторы).
Таким образом, соотношение числа ложных тревог (идентифицикация благопристойного пассажира как правонарушителя) к числу правильных срабатываний (обнаружение действительно запрещённых предметов) очень велико.
6. Перечислить основные задачи корреляционного анализа
Ответ:
Корреляционный анализ призван решать следующие задачи:
1. Измерение степени связности двух и более переменных. Наши общие знания об объективно существующих причинных связях должны дополняться научно обоснованными знаниями о количественной мере зависимости между переменными. Данный пункт подразумевает верификацию уже известных связей.
2. Обнаружение неизвестных причинных связей. Корреляционный анализ непосредственно не выявляет причинных связей между переменными, но устанавливает силу этих связей и их значимость. Причинный характер выясняют с помощью логических рассуждений, раскрывающих механизм связей.
3. Отбор факторов, существенно влияющих на признак.
Самые важные те факторы, которые сильнее всего коррелируют с изучаемыми признаками.
4. Критерии проверки гипотез о векторе математических ожиданий и ковариационной матрице.
Важными статистическими задачами корреляционного анализа являются задачи проверки гипотез о том, что вектор математических ожиданий нормального распределения является данным вектором. Эти задачи могут быть рассмотрены в предположении, что ковариационная матрица известна из ранее проводимых экспериментов, или неизвестна, тогда она должна быть оценена.
Критерии для проверки гипотез о векторе математических ожиданий, основываются на следующих двух теоремах [2-4, 18, 19, 25, 33,59].
Теорема 1. Если проверяемая гипотеза для выборки объема , взятой из совокупности с нормальным законом , имеет вид и ковариационная матрица известна, тогда гипотеза не отклоняется с уровнем значимости при выполнении неравенства
где распределение левой части неравенства есть "- распределение с степенями свободы, и удовлетворяет равенству
Теорема 2. Когда ковариационная матрица неизвестна и проверяется гипотеза по выборке "- мерного случайного вектора объема , полученной из совокупности с нормальным законом , то гипотеза не отвергается для уровня значимости , если
где распределение левой части неравенства есть "- распределение Фишера с и степенями свободы, и удовлетворяет равенству
Задачи проверки гипотез о ковариационной матрице имеют вид , где "-- номинальное значение ковариационной матрицы. Подразумевается, что вектор математических ожиданий будет оцениваться по исследуемой выборке. В случае, когда проверяется совместная гипотеза о векторе математических ожиданий и о ковариационной матрице, тогда гипотеза имеет вид . В корреляционном анализе для задач о ковариационных матрицах используют критерии, определяемые следующими теоремами.
Теорема 3. Если проверяемая гипотеза имеет вид для "- мерных случайных векторов , подчиняющихся нормальному закону , тогда отношение правдоподобия имеет вид
Где
В этом случае распределение статистики представляет собой "- распределение с степенями свободы. Гипотеза принимается с уровнем значимости , когда выполняется условие
где удовлетворяет равенству
Теорема 4. Для проверки гипотезы по выборке "- мерных случайных векторов , принадлежащих нормальному закону , отношение правдоподобия имеет вид
В этом случае распределение статистики представляет собой "- распределение с степенями свободы. Гипотеза не отвергается при уровне значимости , если
где определяется равенством
5. Критерии проверки гипотез о коэффициентах корреляции
В случае необходимости исследования взаимозависимости случайных величин применяют различные критерии корреляционного анализа, предназначенные для выявления характера статистической зависимости. Затрагиваются задачи корреляционного анализа, связанные с парной, частной и множественной корреляцией случайных величин.
Если требуется исследовать взаимозависимость двух величин, применяют критерии о парной корреляции, которые базируются на следующих теоремах.
Теорема 5. Пусть "-- независимые одинаково распределенные случайные величины с нормальным законом распределения . Если проверяемая гипотеза имеет вид , тогда гипотеза не отвергается с уровнем значимости при условии, что выполняется неравенство
где "-- ОМП парного коэффициента корреляции между компонентами вектора и , распределение статистики есть "- распределение Стьюдента с числом степеней свободы , и удовлетворяет равенству
Теорема 6. Если проверяется гипотеза по выборке случайных векторов, распределенных по нормальному закону , то гипотеза принимается с уровнем значимости , если выполняется соотношение
Где
,
"-- ОМП парного коэффициента корреляции между компонентами вектора и , распределение статистики есть стандартное нормальное распределение, и удовлетворяет
Если нас интересует взаимозависимость двух величин при устранении воздействия остальных величин, то исследуется, так называемая, частная корреляция. Критерии проверки гипотез о частном коэффициенте корреляции вида и базируются на тех же самых теоремах[2,8,33,58], что и для парного коэффициента корреляции. Только в этом случае в соответствующих соотношениях заменяется на , где "-- число компонент случайного вектора в условном распределении и при фиксировании остальных.
Когда исследуется зависимость единственной величины от группы других, рассматривается множественная корреляция, и используют критерии проверки гипотез о множественной корреляции. В работе рассматривается критерий проверки гипотезы о значимости множественного коэффициента корреляции, базирующийся на следующей теореме [2, 9, 33, 58].
Теорема 7. Если проверяется гипотеза вида по выборке "- мерного случайного вектора объема , полученной из совокупности с нормальным законом, тогда гипотеза принимается с уровнем значимости , если справедливо следующее неравенство
где "-- ОМП множественного коэффициента корреляции. Распределение левой части неравенства представляет собой "- распределение Фишера с и степенями свободы, удовлетворяет равенству
6. Критерии проверки гипотез о корреляционном отношении
В корреляционном анализе на основании соотношений между парным коэффициентом корреляции и корреляционным отношением можно судить о характере зависимости между компонентами случайного вектора.
Если требуется проверить гипотезы вида: о равенстве корреляционного отношения нулю
распределение группировка пуассон корреляционный
или о равенстве корреляционного отношения квадрату коэффициента корреляции
(критерий линейности регрессии по ), применяют критерии о корреляционном отношении, которые базируются на следующих теоремах [58].
Теорема 8. Если проверяется гипотеза вида по выборке "- мерного случайного вектора объема , полученной из совокупности с нормальным законом, тогда гипотеза принимается с уровнем значимости , если справедливо следующее неравенство
где "-- оценка корреляционного отношения. Распределение левой части неравенства представляет собой "- распределение Фишера с и степенями свободы, удовлетворяет равенству
Теорема 9. В случае когда проверяется гипотеза вида по выборке случайных векторов, распределенных по нормальному закону , то гипотеза принимается с уровнем значимости , если справедливо следующее неравенство
где и "-- соответственно оценка корреляционного отношения и ОМП парного коэффициента корреляции. Распределение левой части неравенства представляет собой "- распределение Фишера с и степенями свободы, удовлетворяет равенству
Размещено на Allbest.ru
Подобные документы
Статистическое, аксиоматическое и классическое определение вероятности. Дискретные случайные величины. Предельные теоремы Лапласа и Пуассона. Функция распределения вероятностей для многомерных случайных величин. Формула Байеса. Точечная оценка дисперсии.
шпаргалка [328,7 K], добавлен 04.05.2015Вероятностная модель и аксиоматика А.Н. Колмогорова. Случайные величины и векторы, классическая предельная проблема теории вероятностей. Первичная обработка статистических данных. Точечные оценки числовых характеристик. Статистическая проверка гипотез.
методичка [433,3 K], добавлен 02.03.2010Правила выполнения и оформления контрольных работ для заочного отделения. Задания и примеры решения задач по математической статистике и теории вероятности. Таблицы справочных данных распределений, плотность стандартного нормального распределения.
методичка [250,6 K], добавлен 29.11.2009Функциональные и степенные ряды. Разложение функций в ряды Тейлора и Макларена. Теорема Дерихле. Основные понятия в теории вероятностей. Теорема умножения и сложения вероятностей независимых событий. Формулы Бейеса, Бернулли. Локальная теорема Лапласа.
методичка [96,6 K], добавлен 25.12.2010Пространство элементарных событий. Понятие совместных и несовместных событий и их вероятностей. Плотность распределения вероятностей системы двух случайных величин. Числовые характеристики системы. Закон генеральной совокупности и его параметры.
контрольная работа [98,1 K], добавлен 15.06.2012Теория вероятностей. Коэффициенты использования рабочего времени. Закон распределения случайной величины. Функция плотности. Математическое ожидание. Закон распределения с математическим ожиданием. Статистика. Доверительный интервал. Выборочная средняя.
контрольная работа [178,3 K], добавлен 24.11.2008Числовые характеристики положения о распределении Пуассона и разброса. Асимметрия и эксцесс распределения Пуассона, его дополнительные характеристики, точечная и интервальная оценка параметра. Пример условия, при котором возникает распределение Пуассона.
курсовая работа [116,2 K], добавлен 22.05.2010Пространство элементарных событий. Совместные и несовместные события. Плотность распределения вероятностей системы двух случайных величин. Эмпирическая функция распределения. Числовые характеристики случайной функции. Условие независимости двух событий.
контрольная работа [30,0 K], добавлен 15.06.2012Сущность закона распределения и его практическое применение для решения статистических задач. Определение дисперсии случайной величины, математического ожидания и среднеквадратического отклонения. Особенности однофакторного дисперсионного анализа.
контрольная работа [328,2 K], добавлен 07.12.2013Программа курса, основные понятия и формулы теории вероятностей, их обоснование и значение. Место и роль математической статистики в дисциплине. Примеры и разъяснения по решению самых распространенных задач по различным темам данных учебных дисциплин.
методичка [574,5 K], добавлен 15.01.2010