Элементы математической статистики
Особенности описания реальной системы вероятностными методами. Вычисление вероятностей одних случайных событий по известным вероятностям других случайных событий. Оценка функций распределения. Точечные оценки неизвестных параметров законов распределения.
Рубрика | Экономико-математическое моделирование |
Вид | лекция |
Язык | русский |
Дата добавления | 21.03.2018 |
Размер файла | 289,2 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
28
Размещено на http://www.allbest.ru/
Элементы математической статистики
Как уже отмечалось, теория вероятностей - математическая наука, задачей которой является вычисление вероятностей одних случайных событий по известным вероятностям других случайных событий; если известна функция распределения какой-либо случайной величины, то теория вероятностей предлагает методы нахождения ее числовых характеристик, функцию распределения другой случайной величины и так далее.
В решении большинства таких задач существенную помощь оказывает построение вероятностного пространства (,1,Р). Более того, можно сказать, что вероятностное пространство является определяющим в создании математической модели эксперимента или случайного явления [2].
Практически любая, сколько-нибудь сложная реальная система может быть описана и проанализирована, с той или иной точностью, методами теории вероятностей, если удается построить вероятностное пространство. Для этого необходимо знать вероятности исходных случайных событий или распределение вероятностей случайных величин, описывающих реальную систему.
В случаях, когда вероятностное пространство построить не удается, ограничиваются числовыми характеристиками.
Таким образом, чтобы описать реальную систему вероятностными методами, при функционировании которой возникают явления, описываемые случайной величиной (и, тем самым, обладающие статистической устойчивостью), необходимо выработать методы проверки теории на опыте. Однако одних методов недостаточно, поскольку, в силу специфики случайных явлений, необходимо решить следующую проблему: как зная лишь часть (эмпирические данные) сделать выводы о целом (распределение вероятностей, числовые характеристики и др.)? Для пояснения сказанного, рассмотрим три примера.
Пример 1. Найти траекторию S (t) движения точки, заданной уравнением
.
Траектория будет определена, если задать начальные условия, например, . Таким образом,
.
Пример 2. Используя симплекс - метод, максимизировать выражение: 5y1+8y2, при ограничениях
Ответ: у1 = 1, у2 = 0,5.
Пример 3. На основании многолетних наблюдений установлено, что в августе, в среднем, 8 дождливых дней, а в сентябре - 13. Можно ли принять за вероятность события того, что наудачу взятый день дождливый -
а) в августе, число 8/31;
б) в сентябре, число 13/30;
в) в августе или сентябре - 21/61?
Решение. Если в примерах 1, 2 ответ содержится в самом методе, то здесь мы должны обосновать правомерность принятия частоты за вероятность. Это можно сделать на основании закона больших чисел для пп. а), б). Для п. в), сначала следует убедиться в статистической однородности объектов исследования, а затем, если это окажется правомерным, применить закон больших чисел. Так как однородность нарушена (август - лето, а сентябрь уже осень), то оценка будет слишком грубая и, в данном случае, неправомерна.
Ответ: а), б) - можно, в) - нельзя.
Математическая статистика - раздел математики, посвященный математическим методам систематизации, обработки и использования статистических данных для теоретических исследований и практических выводов.
Статистические данные - есть результат эксперимента (наблюдения).
Результаты наблюдения бывают количественные (например, процентное содержание отдельного компонента в продукте) и качественные (например, органолептические оценки: вкус, запах, цвет и др.). Качественные результаты наблюдений всегда можно выразить количественно (в нашем случае, в баллах).
Таким образом, статистические данные - набор числовых значений, полученных многократным повторением эксперимента.
Замечание. Математическая статистика тесно связана с теорией вероятностей, но не следует из неё, хотя только она позволяет испытать методы теории вероятностей на практике. Этим объясняется использование в математической статистике многих положений теории вероятностей (статистическое оценивание распределений и их числовых характеристик, закон больших чисел, теория ошибок, в основе которой лежит центральная предельная теорема и др.). С другой стороны, теория вероятностей изучает только такие случайные явления, которые имеют соответствующие им распределения вероятностей, а математическая статистика изучает массовые явления произвольной природы и, помимо вероятностных, имеет свои собственные методы с разработанной системой понятий и техникой вычислений.
Статистика имеет почтенный возраст, однако, как математическая статистика, эта наука завоевала право так называться лишь в 20 - м веке.
Математическая статистика (status-положение, состояние) в настоящее время включает в себя, последовательно:
а) сбор статистических данных - конечный набор отдельных элементов из некоторой совокупности (реального явления);
б) исследование этих элементов - выявление закономерностей, присущих всей совокупности;
в) разработку приемов и методов анализа отобранных элементов;
г) прогнозирование поведения явления.
Несмотря на то, что последний раздел относится к теории вероятностей, его выполнение необходимо для подтверждения адекватности модели реальной ситуации (явления).
Оценка функций распределения
Теоретической основой статистического исследования является генеральная совокупность Г, представляющая собой отображение всех свойств реального явления в некоторое числовое множество.
Исходным материалом статистического исследования является совокупность статистических данных, представленных в виде конечного набора n чисел:
(118)
из генеральной совокупности Г.
Набор чисел (118) называется выборкой объема n, если он получен в соответствии с правилами комбинаторики при выборе с возвращением.
Пусть - случайная величина, определенная на множестве Г, с функцией распределения F (x).
Поставим задачу: по выборке (118) получить как можно больше информации о всей генеральной совокупности (в идеале, это построение вероятностного пространства (Г, F (x)), хотя, в ряде случаев, ограничиваются оценкой числовых характеристик случайных величин).
Замечание. Интуитивно ясно, что выборка (118) должна быть репрезентативна, то есть ее элементы должны отражать все основные свойства реального явления. Если это неизвестно, то следует полагаться на интуицию. В любом случае, репрезентативность выборки можно оценить только при проверке построенной статистической модели на адекватность.
Выберем из выборки (118) элементы в порядке их возрастания
… . (119)
Упорядоченная выборка (119) называется вариационным рядом, а его элементы признаками. Обозначим через mr число повторений признака r,
, тогда выборку (118) можно представить в виде простой статистической табл.10.
Таблица 10
. |
( mr = n). |
|||||
. |
Числа называют абсолютной частотой,
Как правило, таблица 10 составляется для дискретных, случайных величин.
Для непрерывных случайных величин используется табл.11.
Таблица 11
интервалы |
. |
|||||
относит. частота |
. |
Величина называется относительной частотой,
Табл.11 можно изобразить графически в виде гистограммы, представленной на рис.32.
Рис.32
Гистограмма - набор прямоугольников, в основании которых лежат длины интервалов , а их высоты определяются равенством . Учитывая, что сумма площадей прямоугольников равна , то гистограмма есть статистический аналог плотности.
Замечание. Часто, при исследовании непрерывной случайной величины для выборок большого объема (n 50) рассматривают интервалы равной длины h, определяемые формулой
,
, .
Обычно , что продиктованол практической целесообразностью.
Величина R = называется размахом выборки (118) (или вариационного ряда (119)).
Желательно, чтобы, при выборе длин интервалов hr гистограммы, не получались прямоугольники с площадью равной 0. В противном случае, это может привести к неверному выбору плотности распределения. Положение всегда можно исправить путем соответствующего изменения длин интервалов hr.
Если выборка (118) достаточно большого объема и репрезентативна, то можно построить эмпирическую функцию распределения исследуемой случайной величины , , которая определяется формулой:
(120)
где , а m - число элементов выборки (118), не превосходящих заданного х.
Если случайная величина - непрерывна, то эмпирическая функция может быть задана формулой
(121)
Свойства эмпирической функции распределения
1)
2)
имеет ступенчатый вид, непрерывна слева по определению,
если
если
Видно, что свойства эмпирической функции распределения вполне аналогичны теоретической.
Для оценки эмпирической функции распределения теоретической используют критерий Колмогорова А. Н.
Теорема. Если функция F (x) непрерывна, то
при n,
где
Функция называется функцией Колмогорова 2. Её значения табулированы и приведены в приложении (табл.5).
Замечание. Из теоремы следует, что критерий Колмогорова применим для оценки только непрерывных распределений.
Пусть требуется проверить гипотезу Но о том, что случайная величина имеет своей функцией распределения непрерывную функцию F (x). Проведем n независимых испытаний и построим эмпирическую функцию Согласно теореме Гливенко [2] есть приближение к функции .
Величина есть мера отклонения Пусть такое, что , где . Если можно считать, что в единичном испытании практически невозможно произойти событию, вероятность которого равна , то мы приходим к следующему критерию проверки гипотезы Н0 (Критерий Колмогорова).
Выдвигаем гипотезу Н0: F (x) - функция распределения исследуемой сл. в. .
Находим
Вычисляем
По таблице находим .
Если достаточно велико (больше 0,2),
то гипотезу Н0 принимаем.
Пример 1. При концентрировании молочного сырья проницаемость растворителя через мембрану является случайной величиной , распределенной по эмпирическому закону:
.
Таблица 12
(мин) |
5 |
10 |
15 |
20 |
25 |
30 |
35 |
40 |
45 |
|
0,135 |
0,26 |
0,36 |
0,45 |
0,518 |
0,57 |
0,628 |
0,648 |
0,735 |
50 |
55 |
60 |
65 |
70 |
75 |
80 |
|
0,78 |
0,72 |
0,83 |
0,85 |
0,875 |
0,892 |
0,91 |
Требуется, используя критерий Колмогорова, подобрать теоретическую функцию распределения сл. в. при числе опытов n = 16.
Решение. Из практических соображений есть основание считать, что искомой функцией является экспоненциальное распределение:
,
Составим таблицу значений теоретической функции распределения.
(мин) |
5 |
10 |
15 |
20 |
25 |
30 |
35 |
40 |
45 |
|
10-3F () |
139 |
259 |
362 |
451 |
528 |
593 |
650 |
700 |
741 |
50 |
55 |
60 |
65 |
70 |
75 |
80 |
|
777 |
808 |
835 |
858 |
878 |
895 |
909 |
Максимальный разброс Dn при = 55 мин. равен: , тогда . По табл.5 приложения находим, при значение Так как 0 1 ,2, то гипотезу об экспоненциальности распределения проницаемости принимаем.
Рис.33 демонстрирует приближение эмпирической функции экспоненциальной.
Рис.33
Критерий Колмогорова обладает наглядностью и простотой, однако, для его применения необходимо знать не только вид теоретической функции распределения, но и значения всех, входящих в неё, параметров. Заметим, что такая ситуация редко встречается на практике.
Другим критерием проверки гипотезы, о соответствии эмпирической функции распределения теоретической, является критерий 2 (Пирсона).
Пусть имеем табл.11. Требуется проверить согласование экспериментальных данных с гипотсзой о том, что случайная величина имеет теоретическое распределение F (x).
Находим теоретические вероятности попадания случайной величины в каждый интервал табл.11:
р1, р2, …, рк.
Меру расхождения 2 вычисляем по формуле Пирсона 3:
.
Распределение 2 зависит от объема выборки n и числа степеней свободы r:
.
Во всех случаях имеем одно ограничение: значит, число степеней свободы Если в теоретическом распределении присутствует один параметр (например ), то число степеней свободы Если два параметра, (например, ), то число степеней свободы и. т.д.
Зададим доверительную вероятность р. Гипотеза о законе распределения F (x) принимается, на уровне значимости р, если
.
При использовании критерия 2 желательно, чтобы объем выборки был достаточно велик (n>50), а число интервалов к 5.
Пример 2. Для проверки соответствия опытных данных экспоненциальному распределению примера 1, применим критерий 2. Объем выборки n = 16, число степеней свободы r = 16-2 = 14. Будем считать, что число интервалов к = 16.
Взяв середину интервалов из табл.12, получим следующую таблицу:
Таблица 13
i |
2,5 |
7,5 |
12,5 |
17,5 |
22,5 |
27,5 |
32,5 |
||
0,135 |
0,125 |
0,1 |
0,09 |
0,068 |
0,082 |
0,048 |
|||
iрi |
0,338 |
0,938 |
1,250 |
1,575 |
1,530 |
2,255 |
1,560 |
||
37,5 |
42,5 |
47,5 |
52,5 |
57,5 |
62,5 |
67,5 |
72,5 |
77,5 |
|
0,052 |
0,04 |
0,04 |
0,03 |
0,02 |
0,02 |
0,025 |
0,017 |
0,018 |
|
1,950 |
1,700 |
1,900 |
1,575 |
1,150 |
1,250 |
1,688 |
1,233 |
1,395 |
Из табл.13 находим:
.
Для теоретической функции распределения , где значения вероятностей рi найдем из формулы:
или
Результат сведем в таблицу:
2,5 |
7,5 |
17,5 |
22,5 |
27,5 |
32,5 |
||
pi |
0, 193 |
0,349 |
0,576 |
0,658 |
0,724 |
0,778 |
|
0,0174 |
0,00536 |
0,0012 |
0,0024 |
0,0034 |
0,00067 |
37,5 |
42,5 |
47,5 |
52,5 |
57,5 |
62,5 |
67,5 |
72,5 |
77,5 |
|
0,821 |
0,855 |
0,884 |
0,906 |
0,924 |
0,949 |
0,951 |
0,960 |
0,968 |
|
0,019 |
0,001 |
0,0051 |
0,0024 |
0,00022 |
0,0017 |
0,0014 |
0,00071 |
0,00125 |
Составим сумму
= 16 0,0829 = 1,326.
Зададим доверительную вероятность р=0,95.
По таблицам приложения (табл.6), при n - r = 16 - 2 = 14 степеней свободы, определяем значение 2 = 23,7, а так как , то с вероятностью р = 0,95 гипотеза, о соответствии эмпирической функции теоретической, принимается.
Упражнение. Решить пример для случая, когда число интервалов к = 8.
Замечание. В предлагаемых примерах соответствие настолько хорошее, что вызывает сомнение в том, что эмпирические данные не подтасованы. В практических приложениях уже при 0,3 гипотезу можно считать правдоподобной, тем более, если критерий Колмогорова дает аналогичный результат.
Замечание. Следует заметить, что для критерия Колмогорова параметр 0,03 взят интуитивно, а для критерия 2, он получен по опытным данным. Если бы мы для поверки гипотезы использовали бы 0,03 в критерии 2, то соответствие было бы еще лучше. Следовательно, можно поставить задачу о нахождении интервала допустимых значений параметра , которая рассматривается ниже.
Как видно, для применения критерия Пирсона, необходимо иметь достаточно большой объем выборки, да и его использование, по сравнению с критерием Колмогорова, достаточно громоздко.
Тем не менее, применение критерия Пирсона обладает тем преимуществом, что числовые значения параметров теоретической функции распределения можно получить из имеющейся выборки, то есть заранее нам достаточно знать только общий вид теоретической функции распределения, причем любой случайной величины.
Критерий Колмогорова в этом смысле более жесткий.
Желательно при проверке гипотезы о соответствии теоретической функции распределения эмпирическим данным, применять оба критерия.
Задача нахождения теоретической функции распределения требует проведения достаточно большого числа опытов, а также, по крайней мере, общего вида искомой функции.
Такая ситуация далеко не всегда встречается на практике.
Чаще всего имеется выборка относительно малого объема или вид теоретической функции распределения неизвестен.
В этом случае обычно вычисляют числовые характеристики случайных величин (моменты, вероятности и т.д.).
Точечные оценки неизвестных параметров законов распределения
Здесь мы рассматриваем задачи определения неизвестных параметров законов распределения случайных величин в условиях относительно малых объемов эмпирических данных.
Ясно, что каким бы не был объем выборки, значение параметра, который мы оцениваем, будет приближенным. Это приближение называется оценкой параметра.
Для того чтобы оценка была наилучшей, требуется иметь о ней наиболее полное представление.
Пусть случайная величина распределена по закону, который содержит неизвестный параметр .
Требуется найти для него подходящую оценку по результатам выборки:
. (122)
При выборе условий, налагаемых на оценку неизвестного параметра прежде мы должны построить математическую модель эксперимента. Под этим мы понимаем следующее:
выборка (122) является n-мерным случайным вектором
где случайные величины определены на одном и том же пространстве элементарных событий и имеют, соответственно, одну и ту же функцию распределения и, тем самым, одни и те же параметры;
2) выборка (122) репрезентативна, то есть любой элемент пространства элементарных событий имеет одинаковую вероятность попасть в выборку.
Таким образом, оценка параметра есть n-мерная неслучайная функция n случайных аргументов
.
Принято считать, что оценка должна удовлетворять условиям
а) несмещенности:
практически это означает, что систематические ошибки отсутствуют;
б) эффективности, то есть оценка более эффективна чем , если
эффективность оценки означает, что её дисперсия меньше, чем дисперсия других оценок;
в) состоятельности, то есть
при
состоятельность означает, что для оценки выполняется закон больших чисел (теорема Чебышева или её следствия, см. раздел 3).
Замечание. На практике не всегда удается удовлетворить всем этим требованиям по соображениям объективного или экономического характера. Тем не менее, желательно пытаться исследовать оценку на достоверность.
Итак, пусть имеем выборку (122). Для оценки математического ожидания случайной величины всем условиям удовлетворяет средняя арифметическая [4]:
. (123)
Для оценки дисперсии, в условиях выборок относительно большого объема, используется выборочная дисперсия:
(124)
или
(125)
Выборочная дисперсия не удовлетворяет условию несмещенности.
Всем трем условиям удовлетворяет исправленная дисперсия.
или
. (126)
Ясно, что если выборка имеет достаточный объем (n>50), то использовать можно как формулу (124), так и (126).
Для оценки среднеквадратичного отклонения наилучшей оценки не найдено. Обычно рассматривают , .
Для вычисления моментов более высокого порядка можно использовать статистические аналоги, но они с увеличением порядка снижают точность оценки.
Таким образом, в условиях ограниченного объема выборки мы имеем методику оценки неизвестных параметров распределения. Такая оценка называется точечной.
математическая статистика закон распределение
Доверительный интервал
При применении критерия Колмогорова значения всех параметров теоретической функции распределения должны быть известны. При применении критерия 2, для той же функции, параметры, если они неизвестны, оцениваются приближенно. (Например, для экспоненциального распределения параметр оценивается средним арифметическим). Естественно возникает вопрос: "В каких интервалах могут находиться оцениваемые параметры, чтобы гипотеза о соответствии эмпирической функции распределения теоретической была принята?"
Кроме того, если мы оцениваем только параметры, не зная функции распределения, нахождение допустимого интервала важно, например, для оценки ошибки принятого точечного значения параметра.
Мы приходим к задаче нахождения случайного интервала, покрывающего теоретический параметр. Прежде всего, на действительной прямой мы должны найти точку являющуюся серединой случайного интервала. В идеале это значение теоретического параметра, но мы его не знаем. Тогда берут такую точечную оценку , которая была бы наилучшим приближением к теоретическому параметру (например, для оценки математического ожидания берут среднее арифметическое). Затем находят границы интервала . Значения также случайны, следовательно, мы должны задать - вероятность того, что наш интервал покрывает теоретический параметр . Итак, имеем уравнение
. (127)
Задача решалась бы просто, если бы мы знали закон распределения оценки , который на самом деле неизвестен. Однако, если оценивается математическое ожидание и дисперсия, а число опытов n > 20, то для них, в силу центральной предельной теоремы, считают закон распределения средней арифметической и дисперсии нормальным, тогда имеем из (127)
,
а так как распределена нормально, то
(128)
где .
В уравнении (128) одно неизвестное - , которое легко найти. Тогда доверительный интервал будет иметь вид.
(129)
Аналогичным образом можно получить доверительный интервал для дисперсии:
. (130)
В целях удобства вычисления доверительных интервалов для математического ожидания и дисперсии вместо (129) и (130) рассматривают интервалы:
(131)
(132)
где
(arg - аргумент ),
Итак, если число испытаний n > 20, то для оценки математического ожидания и дисперсии доверительные интервалы, с удовлетворительной для практики точностью, находятся по формулам (129) и (130) или (131) и (132).
Более точные методы требуют, для построения доверительных интервалов, знать заранее вид закона распределения исследуемой случайной величины .
Пример. Пусть имеем n = 22 результата измерения х1, х2,…, х22 объема в мм3 некоторой физической величины: 3,1; 3,3; 2,9; 3,0; 3,1; 3,2; 2,8; 2,7; 3,1; 3,2; 2,9; 3,0; 2,9; 3,1; 2,8; 2,9; 3,2; 3,3; 2,9; 3,1; 3,2; 3,0. Построить доверительный интервал для математического ожидания и дисперсии D.
Решение. Считая, что объем физической величины является случайной величиной , распределенной по нормальному закону, воспользуемся формулами (131) и (132).
Имеем
.
Отсюда, учитывая (131), а из (132), имеем
.
Значение Зададим ,, тогда
По табл.3 приложения, находим .
Таким образом, окончательно получаем
3,0318 - 1,960,037 < < 3,0318+1,960,037,0,0303 - 1,960,0094 < D < 0,0303+1,960,0094, или 2,9593 < < 3,1043,0,0119 < D < 0,0487.
Предположение о нормальности закона распределения произвольной случайной величины далеко не всегда оправдано даже при больших выборках. В некоторых случаях удается построить доверительный интервал, относительно точно, если заменить закон распределения случайной величины , содержащий неизвестные параметры, на достаточно близкий к ней закон распределения, этих параметров не содержащий. Мы рассмотрим здесь случай только нормально распределенной случайной величины с неизвестными параметрами а и . Для этого потребуются следующие распределения:
1). Распределение Стьюдента (Госсетта). Плотность распределения Стьюдента (или t - распределения) c (n - 1) степенью свободы:
(133)
Доказано, что, если нормально распределенная случайная величина, то случайная величина подчинена закону (133).
2). Распределение 2. Плотность распределения 2 c (n-1) степенью свободы:
(134)
Данное распределение имеет случайная величина
где исправленная дисперсия нормально распределенной случайной величины .
Легко заметить, что распределение Стьюдента (133) можно использовать при построении доверительного интервала для математического ожидания, а распределение 2 (134) при построении доверительного интервала для дисперсии.
В самом деле, пусть доверительные интервалы для М и D определяются доверительной вероятностью .
Построим доверительный интервал для М. Возьмем его симметричным относительно , взяв за половину длины интервала. Ясно, что величина удовлетворяет равенству
.
Переходя от случайной величины к случайной величины , распределенной по закону Стьюдента, получим
, где .
Значение найдем из условия (с учетом четности функции ):
(135)
При различных значениях доверительной вероятности и числе испытаний n, значения представлены в табл.7, приложения.
Таким образом, из условий:
и .
получаем доверительный интервал для оценки математического ожидания случайной величины :
(136)
Для оценки дисперсии, рассмотрим распределение 2 для случайной величины
Зная закон распределения , можно найти доверительный интервал, в который случайная величина попадает с вероятностью .
Плотность имеет вид, изображенный на рис.34.
Рис.34
Выбрать интервал так, как для оценки математического ожидания мы не можем, поскольку распределение 2 не симметрично.
Будем выбирать интервал таким образом, чтобы вероятность выхода случайной величины за пределы интервала влево и вправо (заштрихованные области на рис.31) были одинаковы и равны
Построение интервала с таким свойством сводится, очевидно, к выполнению условия
, (137)
где случайная величина имеет распределение 2 с r степенями свободы. При числе степеней свободы r=n-1, находим два значения 2 из уравнения:
,
а) для левого конца интервала (рис.34), при , имеем ;
б) для правого конца интервала, при , имеем
Соответствующие значения приведены в табл.6, приложения.
Из (134) учитывая, что и (137), получаем:
а) для левого конца
б) для правого конца
Окончательно, доверительный интервал для оценки дисперсии имеет вид
(138)
Пример. Построить доверительный интервал для математического ожидания и дисперсии нормально распределенной случайной величины
Решение. Дано: n = 22, число степеней свободы r = n-1 = 21, при доверительной вероятности ,:
а) для имеем, из (136),
где получено из табл.7, распределения Стьюдента, при r = 21 степени свободы и ,
Окончательно
2,9528<M<3,1108;
б) для D, при = 1- ,0.
Из формулы (138) и приложения, таблица 7, для р= и r = 21, имеем .
Тогда для D, из формулы (138), получаем
или .
Сравнивая результаты для приближенного и точного методов интервальных оценок, можно выдвинуть гипотезу о том, что если доверительный интервал для математического ожидания меняет центр симметрии, то для дисперсии он тем больше, чем ближе к нормальному распределению выборка.
Проверка статистической однородности
Теория вероятностей изучает такие события, результат которых устойчив, или, что тоже самое, статистически однороден. Как определить, достигли мы желаемого результата, после проведенной серии экспериментов, или нет?
Следует ли провести еще одну серию, чтобы закрепить свои предположения? Ясно, что исчерпывающего ответа на эти вопросы получить нельзя.
Однако некоторые оценки сделать можно, если использовать центральную предельную теорему.
Пусть имеем случайную величину = (1, …, n), с нормированным нормальным распределением (М = 0, D = 1), где 1,., n - результат серии экспериментов.
Поставим задачу. Проведено две серии экспериментов: в первой серии из n1 экспериментов событие А появилось 1 раз, а во второй серии из n2 экспериментов событие А появилось 2 раз. Можно ли предполагать что вероятность события А одинакова в обоих случаях?
Пусть в первой серии Р{А}= р1, а во второй Р{А}= р2. Верна ли гипотеза Н0: р1 = р2?
Для ответа на вопрос, необходимо чтобы разность частот , была достаточно мала, тогда ее можно объяснить случайными причинами. Если ошибка в самом деле мала, то естественно предположить, что случайные величины 1 и 2 распределены нормально, то есть при р1 = р2, будем иметь
.
Если считать, что серии опытов независимы, то имеет распределение близкое к нормальному, у которого и
Если значение известно, то по табл.3 приложения, нормального распределения, можно получить ответ на вопрос.
Серии опытов, в силу предположения, будем считать сериями испытаний Бернулли, тогда если р1 = р2 = р, то
и
.
Значение р неизвестно, но используя данные эксперимента, можно заменить р на
(так как это лучшее, что можно предложить в данной ситуации), тогда
. (139)
Случайная величина нормирована и имеет приблизительно нормальное распределение, из которого следует, что значения >2 3 маловероятны.
В самом деле, например, для = - 1,96, по табл.3 приложения находим Ф (-1,96) = 0,0250, а для = 1,96, значение Ф ( >1,96) = 0,0250 (рис.35).
Рис.35
Представим сказанное на языке теории вероятностей, то есть определим область принятия гипотезы Н0.
Заранее зададим малое (например, = 0,05), означающее, что событию с такой вероятностью произойти практически невозможно. Число называется уровнем значимости. Используются значения 0,1; 0,05; 0,02; 0,01; 0,001.
Пусть значение случайной величины , в данной серии испытаний, оказалось равным =. Если 0, то находим Р = Ф; Если >0, то имеем Р > = 1-Ф+ (табл.3 приложения).
Объединяя, значения вероятностей, получаем Р > = 2Ф- (в нашем случае, Р >=20,025 = 0,05, рис.35). При 2Ф- , гипотеза Н0 отвергается, иначе - данные выборки не противоречат гипотезе Н0 и ее нет оснований не принять, если отсутствует субъективный фактор.
Замечание. Так как, например, как в нашем случае, при Ф = 0,0250 следует, что = - 1,96, то область принятия гипотезы Н0 есть -1,96 1,96.
Если значение вероятности равно или близко к , то принять гипотезу Н0 или отвергнуть, зависит от изучаемого объекта и субъективного фактора.
Задача. Пусть вероятность успеха р, заданной серии n испытаний Бернулли предполагается равной числу р0. Если проверяется гипотеза Н0: р = р0, то случайная величина
(140)
(где - число успехов в серии)
имеет, приблизительно, стандартное нормальное распределение.
Вывод формулы (140) вполне аналогичен предыдущим рассуждениям.
Пример. Проверяется симметричность монеты, гипотеза Н0: р0 = 0,5, по двум проведенным сериям из n испытаний Бернулли каждая, для уровня значимости = 0,05.
Герб имеет частоту а) в первой серии , б) во второй серии . Требуется проверить однородность выборок и выполнение гипотезы Н0 для первой, второй и обеих серий.
Решение. Проверим выборки на однородность. Имеем, по формуле (139),
.
Так как - 0,447>-1,96 (см. замечание), то гипотеза Н0 принимается, то есть с вероятностью 0,95 можно считать, что монета симметрична.
Проверим монету на симметричность по первой выборке. По формуле (140) имеем
.
Так как - 1,26 >-1,96, то гипотезу Н0 принимаем. Для других вариантов результат, очевидно, будет лучше.
Библиографический список
1. Ахназарова С.Л., Кафаров В.В. Методы оптимизации эксперимента в химической технологии. - М.: Высшая школа, 1985. - 327 с.
2. Боровков А.А. Теория вероятностей, - М.: Наука, 1986. - 432с.
3. Вентцель Е.С. Теория вероятностей. - М.: Высшая школа, 2002. - 576 с.
4. Гмурман В.Е. Теория вероятностей и математическая статистика. - М.: Высшая школа, 2002. - 479 с.
5. Гнеденко Б.В. Курс теории вероятностей. - М.: Наука, 1988. - 446с.
6. Карлин С. Основы теории случайных процессов. - М, "Мир", 1971.
7. Кафаров В.В., Дорохова И.Н., Арутюнов С.Ю. Системный анализ процессов химической технологии. - М.: Наука, 1985. - 440 с.
8. Клейнрок Л. Теория массового обслуживания. - М.: Машиностроение, 1979. - 432 с.
Размещено на Allbest.ru
Подобные документы
Элементарные понятия о случайных событиях, величинах и функциях. Числовые характеристики случайных величин. Виды асимметрии распределений. Статистическая оценка распределения случайных величин. Решение задач структурно-параметрической идентификации.
курсовая работа [756,0 K], добавлен 06.03.2012Закон распределения генеральной совокупности. Вычисление вероятности при помощи распределения Гаусса. Срок действия декларации о соответствии и сертификата соответствия. Применение математической статистики при измерениях и испытаниях продукции.
презентация [128,7 K], добавлен 30.07.2013Разработка алгоритма и программы на одном из алгоритмических языков для построения эмпирической плотности распределения случайных величин. Осуществление проверки гипотезы об идентичности двух плотностей распределения, используя критерий Пирсонга.
лабораторная работа [227,8 K], добавлен 19.02.2014Группировка предприятий по стоимости основных фондов, построение гистограммы распределения, определение моды графическим и аналитическими способами. Оценка объемов продаж товара методами математической статистики. Задача на экономические индексы.
задача [1,7 M], добавлен 03.02.2010Формулы вычисления критерия Пирсона, среднего квадратического отклонения и значений функций Лапласа. Определение свойств распределения хи-квадрата. Критерий согласия Колмогорова-Смирнова. Построение графика распределения частот в заданном массиве.
контрольная работа [172,2 K], добавлен 27.02.2011Способы описания случайной величины, основные распределения и их генерация в Excel. Дисперсионный анализ как особая форма анализа регрессии. Применение элементов линейной алгебры в моделировании экономических процессов и решение транспортной задачи.
курс лекций [1,6 M], добавлен 05.05.2010Способы применения теорий вероятности в практической статистике. Решение задач с применением математической статистики: теоремы появления независимых событий, формулы полной вероятности, формулы Бернулли. Постороение статистических таблиц и графиков.
контрольная работа [637,9 K], добавлен 06.01.2009Ковариация и коэффициент корреляции, пары случайных переменных. Вычисление их выборочных значений и оценка статистической значимости в Excel. Математическая мера корреляции двух случайных величин. Построение моделей парной и множественной регрессии.
контрольная работа [2,2 M], добавлен 24.12.2014Эконометрическая модель и исследование проблемы автокорреляции случайных отклонений с помощью тестов Бреуша-Годфри, Сведа-Эйзенхарта и статистики Дарбина-Уотсона. Связь между реальным и номинальным обменными курсами на примере белорусского рубля.
курсовая работа [483,8 K], добавлен 19.12.2011Расчет уравнения линейной регрессии. Построение на экран графика и доверительной области уравнения. Разработка программы, генерирующей значения случайных величин, имеющих нормальный закон распределения для определения параметров уравнения регрессии.
лабораторная работа [18,4 K], добавлен 19.02.2014