Проверка статистических гипотез

Определение размаха варьирования уровня моря. Расчет числа и величины разрядов выборки. Подсчет частот по интервалам. Составление ряда распределения. Построение полигона и гистограммы. Оценка математического ожидания, дисперсии. Проверка критерия Пирсона.

Рубрика Математика
Вид курсовая работа
Язык русский
Дата добавления 18.10.2017
Размер файла 257,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Министерство образования и науки РФ

Российский Государственный Гидрометеорологический Университет

Курсовая работа

по дисциплине «Математическая статистика в информационных технологиях»

на тему:

«Проверка статистических гипотез»

Выполнил:

студент гр.ОИ-309 Андриянов А.В.

Принял:

Митько В.Б.

Санкт-Петербург

2008 г.

Задание

На основе эмпирически полученных данных осуществить проверку гипотезы о нормальном распределении по критерию Пирсона.

Исходные данные:

Даны наблюдения за уровнем моря с размерностью выборки 200 измерений

Перечень основных вопросов и документов, подлежащих разработке:

Определить размах варьирования измеренной величины;

Объединить выборку в разряды с определением числа разрядов и величины разрядов;

Составить таблицу подсчета частот по интервалам

Данные таблицы подсчета частот представить в виде ряда распределения;

Построить многоугольник частот (полигон), гистограмму и кумулятивную частоту;

Рассчитать доверительные интервалы для оценок математического ожидания и дисперсии

Проверить соответствие эмпирического закона распределения нормальному по критерию Пирсона

Теоретические сведения

Исходными данными работы служат эмпирически полученные значения наблюдений за уровнем моря. Целью работы является проверка гипотезы о том, что закон распределения полученных значений относится к нормальному закону распределения.

Сведения о проверке статистических гипотез

Статистической называют гипотезу о виде неизвестного распределения или о параметрах известных распределений. Нулевой (основной) называют выдвинутую гипотезу Н0. Конкурирующей (альтернативной) называют гипотезу Н1, которая противоречит основной. Различают гипотезы, которые содержат одно и более одного предположений. Простой называют гипотезу, содержащую только одно предположение. Сложной называют гипотезу, которая состоит из конечного или бесконечного числа простых гипотез.

В итоге проверки гипотезы могут быть допущены ошибки двух родов. Ошибка первого рода состоит в том, что будет отвергнута правильная нулевая гипотеза. Вероятность ошибки первого рода называют уровнем значимости и обозначают б. Ошибка второго рода, состоит в том, что будет принята неправильная нулевая гипотеза. Вероятность ошибки второго рода обозначают в.

Статистическим критерием (или просто критерием) называют случайную величину К, которая служит для проверки гипотезы. Наблюдаемым (эмпирическим) значением Кнабл называют то значение критерия, которое вычислено по выборкам.

Критической областью называют совокупность значений критерия, при которых нулевую гипотезу отвергают. Областью принятия гипотезы (областью допустимых значений) называют совокупность значений критерия, при которых нулевую гипотезу принимают.

Основной принцип проверки статистических гипотез: если наблюдаемое значение критерия принадлежит критической области, то нулевую гипотезу отвергают; если наблюдаемое значение критерия принадлежит области принятия гипотезы, то гипотезу принимают.

Критическими точками (границами) kkp называют точки, отделяющие критическую область от области принятия гипотезы. Правосторонней называют критическую область, определяемую неравенством K>kkp, где kkp -- положительное число.

Левосторонней называют критическую область, определяемую неравенством K<kkp, где kkp -- отрицательное число.

Двусторонней называют критическую область, определяемую неравенством k1<K<k2, где k2>k1. В частности, если критические точки симметричны относительно нуля, то двусторонняя критическая область определяется неравенствами ( в предположении, что kкр>0)

K<-kkp, K>kkp,

или равносильным неравенством

|К|>kкр.

Для отыскания критической области задаются уровнем значимости и ищут критические точки, исходя их следующих соотношений:

а) для правосторонней критической области

P(K>kkp)=б (kkp>0);

б) для левосторонней критической области

P(K<kkp)=б (kkp<0);

в) для двусторонней симметричной области

P(K>kkp)=б/2 (kkp>0), P(K<-kkp)=б/2

Мощностью критерия называют вероятность попадания критерия в критическую область при условии, что справедлива конкурирующая гипотеза. Другими словами, мощность критерия есть вероятность того, что нулевая гипотеза будет отвергнута, если верна конкурирующая гипотеза.

Критерий Пирсона

Критерий Пирсона, или критерий ч2 -- наиболее часто употребляемый критерий для проверки гипотезы о законе распределения. Во многих практических задачах, как и в данной работе, точный закон распределения неизвестен, то есть является гипотезой, которая требует статистической проверки. Сравнение эмпирического F * (x) и теоретического распределений производится с помощью специально подобранной случайной величины -- критерия согласия. Одним из таких критериев и является критерий Пирсона.

где ni - эмпирические (опытные) частоты случайной величины,n'i = N*pi - теоретические частоты, представляющие произведение числа наблюдений N на вероятности ,pi рассчитанные по предполагаемому теоретическому распределению.

Эта величина в свою очередь является случайной (в силу случайности X) и должна подчиняться распределению ч2. Перед тем, как сформулировать правило принятия или отвержения гипотезы необходимо учесть, что критерий Пирсона обладает правосторонней критической областью.

Нормальное распределение

Нормальное распределение, также называемое распределением Гаусса, -- распределение вероятностей, которое играет важнейшую роль во многих областях знаний, особенно в физике. Физическая величина подчиняется нормальному распределению, когда она подвержена влиянию огромного числа случайных помех. Ясно, что такая ситуация крайне распространена, поэтому можно сказать, что из всех распределений в природе чаще всего встречается именно нормальное распределение -- отсюда и произошло одно из его названий.

Нормальное распределение зависит от двух параметров -- смещения и масштаба, то есть является с математической точки зрения не одним распределением, а целым их семейством. Значения параметров соответствуют значениям среднего (математического ожидания) и разброса (стандартного отклонения).

Стандартным нормальным распределением называется нормальное распределение с математическим ожиданием 0 и стандартным отклонением 1.

Для представления о законе распределения нет необходимости строить статистическую функцию распределения по каждому наблюденному значению случайной величины. Этим целям служат группированный статистический ряд и гистограмма. Группированным статистическим рядом называется таблица, где в верхней строчке указаны разряды, в нижней -- соответствующие им частоты. Частота каждого события вычисляется как отношение числа опытов, в которых значение случайной величины Х попало в i-ый разряд, к общему числу n произведенных опытов. Откладывая по оси абсцисс разряды и строя на каждом разряде как на основании прямоугольник, получим гистограмму -- статистический аналог кривой распределения.

Математическое ожидание

Среднее значение, одна из важнейших характеристик распределения вероятностей случайной величины. Для случайной величины X, принимающей последовательность значений y1, y2,..., yk,... с вероятностями, равными соответственно p1, p2,..., pk.

Дисперсия

Дисперсия случайной величины -- мера разброса данной случайной величины, т. е. её отклонения от математического ожидания.

Метод произведений вычисления выборочных средней и дисперсии

Пусть выборка задана в виде распределения равноотстоящих вариант и соответствующих им частот. В этом случае удобно находить выборочно среднюю и дисперсию методом произведений по формулам

Хв1*h+С,

Dв=[M2*h -(M1*h)2]*h2, где h -- шаг (разность между двумя соседними вариантами); выборка распределение ожидание дисперсия

С -- ложный нуль (варианта, которая имеет наибольшую частоту);

ui=(xi-C)/h -- условная варианта;

M1*=?nu/n -- условный момент первого порядка;

M2*=?nu2/n -- условный момент второго порядка.

Практическая часть

В качестве средства вычисления величин и построения графиков использовалась программа Microsoft Office Excel 2003.

Исходные данные

Для индивидуализации исходных значений, часть случайных величин была изменена в соответствии с датой рождения автора работы -- 03.08.1988.

Таблица исходных данных

Рез. изм

1

-1,0

39

10,0

76

9,0

114

8,0

152

3,0

189

-8,0

2

22,0

40

8,5

77

8,0

115

1,0

153

0,0

190

-4,0

3

7,0

41

0,0

78

8,0

116

9,0

154

8,0

191

0,0

4

0,0

42

3,0

79

8,5

117

8,0

155

1,0

192

3,0

5

-6,5

43

0,0

80

7,5

118

8,0

156

9,0

193

0,0

6

4,0

44

8,0

81

0,0

119

-11,5

157

8,0

194

8,0

7

-4,5

45

1,0

82

3,0

120

-11,5

158

8,0

195

1,0

8

5,0

46

9,0

83

0,0

121

0,0

159

7,0

196

9,0

9

18,5

47

8,0

84

8,0

122

3,0

160

4,5

197

8,0

10

4,5

48

8,0

85

1,0

123

0,0

161

0,0

198

8,0

11

0,0

49

19,0

86

9,0

124

8,0

162

3,0

199

-6,5

12

3,0

50

14,0

87

8,0

125

1,0

163

0,0

200

-8,0

13

0,0

51

0,0

88

8,0

126

9,0

164

8,0

14

8,0

52

3,0

89

4,5

127

8,0

165

1,0

15

1,0

53

0,0

90

5,0

128

8,0

166

9,0

16

9,0

54

8,0

91

0,0

129

1,5

167

8,0

17

8,0

55

1,0

92

3,0

130

-18,0

168

8,0

18

8,0

56

9,0

93

0,0

131

0,0

169

7,0

19

-1,5

57

8,0

94

8,0

132

3,0

170

12,0

20

1,0

58

8,0

95

1,0

133

0,0

171

0,0

21

0,0

59

17,5

96

9,0

134

8,0

172

3,0

22

3,0

60

25,5

97

8,0

135

1,0

173

0,0

23

0,0

61

0,0

98

8,0

136

9,0

174

8,0

24

8,0

62

3,0

99

-3,0

137

8,0

175

1,0

25

1,0

63

0,0

100

-14,0

138

8,0

176

9,0

26

9,0

64

8,0

101

0,0

139

-10,5

177

8,0

27

8,0

65

1,0

102

3,0

140

14,5

178

8,0

28

8,0

66

9,0

103

0,0

141

0,0

179

9,5

29

0,5

67

8,0

104

8,0

142

3,0

180

12,5

30

3,5

68

8,0

105

1,0

143

0,0

181

0,0

31

0,0

69

11,5

106

9,0

144

8,0

182

3,0

32

3,0

70

10,5

107

8,0

145

1,0

183

0,0

33

0,0

71

0,0

108

8,0

146

9,0

184

8,0

34

8,0

72

3,0

109

-1,0

147

8,0

185

1,0

35

1,0

73

0,0

110

-3,0

148

8,0

186

9,0

36

9,0

74

8,0

111

0,0

149

4,0

187

8,0

37

8,0

75

1,0

112

3,0

150

0,0

188

8,0

38

8,0

113

0,0

151

0,0

Определение размаха варьирования

Размах варьирования находим по формуле:

R=xmax-xmin

xmax=25.5, xmin=-18

R=25.5-(-18.0)=43.5

Объединение выборки в разряды с определением числа разрядов и величины разрядов

Число разрядов для данной выборки значений определим по формуле Стерджесса

m=1+3.322 lg n, где n - общее число единиц совокупности.

Полученную по этой формуле величину округляют до целого большего числа, поскольку количество групп не может быть дробным числом.

Величина интервалов, вычисляется как отношение размаха варьирования случайной величины к числу разрядов,

i=R/k=43.5/9=4.833

Составление таблицы частот по интервалам

Объединим значения случайных величин в группы по интервалам, вычислим частоту попадания случайных величин в интервалы, вычислим частость, составим таблицу.

Определим следующие интервалы:

-18,000

-13,167

-13,167

-8,333

-8,333

-3,500

-3,500

1,333

1,333

6,167

6,167

11,000

11,000

15,833

15,833

20,667

20,667

25,500

Чтобы вычислить частоту попадания случайных величин в тот или иной интервал воспользуемся встроенной функцией Excel «ЧАСТОТА(массив_данных;массив_интервалов)», её использование наглядно и не составляет особого труда, данные занесем в таблицу №2.

Вычисление частости (вероятности наступления события) следующее: отношение частоты на объем выборки, то есть: частость=ni/n

Таблица распределения частот и частостей по интервалам

границы интервалов

середины

частоты f

частости w

Nинт

ниж

верх

интервалов

попадания

накопленн

накопленн

в долях

в %

1

-18,000

-13,167

-15,583

2

2

0,01

0,01

1,0%

2

-13,167

-8,333

-10,750

3

5

0,025

0,015

1,5%

3

-8,333

-3,500

-5,917

6

11

0,055

0,03

3,0%

4

-3,500

1,333

-1,083

66

77

0,385

0,33

33,0%

5

1,333

6,167

3,750

28

105

0,525

0,14

14,0%

6

6,167

11,000

8,583

85

190

0,95

0,425

42,5%

7

11,000

15,833

13,417

5

195

0,975

0,025

2,5%

8

15,833

20,667

18,250

3

198

0,99

0,015

1,5%

9

20,667

25,500

23,083

2

200

1

0,01

1,0%

Построение многоугольника частот

Используя полученные данные построим многоугольник частот. По оси ОХ отложим интервалы, а по оси ОУ -- частоты. Полученные точки соединим прямыми отрезками. Получим многоугольник частот (график 1), который наглядно показывает распределение частот по интервалам.

Построение гистограммы

Исходя из того, что гистограмма представляет собой графическое изображение зависимости частоты попадания элементов выборки от соответствующего интервала группировки и используя ранее полученные значения частот и середин интервалов, построим гистограмму. По оси Ох -- номера интервалов, а по оси Оу -- частоты в долях на разряд, то есть высота прямоугольников равна отношению частоты к величине разряда:

Построение графика кумулятивной частости

График кумулятивной частости -- это график распределения случайных величин с «накоплением».

Вычисление оценок математического ожидания и среднего квадратического отклонения

Значения математического ожидания, дисперсии, среднего квадратичного отклонения, находим с помощью функций пакета MS Excel:

СРЗНАЧ(число1; число2; ...)

Возвращает среднее арифметическое своих аргументов.

ДИСП(число1;число2; ...)

Оценивает дисперсию по выборке.

СТАНДОТКЛОН(число1; число2; ...)

Оценивает стандартное отклонение по выборке. Стандартное отклонение -- это мера того, насколько широко разбросаны точки данных относительно их среднего.

ХИ2РАСП(x;степени_свободы)

Возвращает одностороннюю вероятность распределения ч2. Распределение ч2 связано с критерием ч2. Критерий ч2 используется для сравнения предполагаемых и наблюдаемых значений. Например, в генетическом эксперименте выдвигается гипотеза, что следующее поколение растений будет обладать определенной окраской. Сравнивая наблюдаемые результаты с предполагаемыми, можно определить, была ли верна исходная гипотеза.

Количество степеней свободы находим по формуле: k = m - r - 1, где m - число интервалов эмпирического распределения (вариационного ряда); r - число параметров теоретического распределения, определяемых по опытным данным (например, в случае нормального закона распределения число оцениваемых по выборке параметров r = 2): k = 9 - 2 - 1 = 6.

Матем. ожидание mx=4.355,

Дисперсия у=32.858,

Среднее кв. отклонение s=5.732,

Значение критерия ч2=0.238.

Используя справочные таблицы, находим значение критической точки правосторонней области: ч2кр=12.6. Если фактически наблюдаемое значение ч2 больше критического, то есть ч2> ч2кр гипотеза H0 отвергается, если ч2 ? ч2кр, то гипотеза H0 не противоречит опытным данным. В нашем случае 0.238?12.6, поэтому предположение о нормальном распределении уровня поверхности моря считаем верным.

Размещено на Allbest.ru


Подобные документы

  • Вычисление математического ожидания, дисперсии и коэффициента корреляции. Определение функции распределения и его плотности. Нахождение вероятности попадания в определенный интервал. Особенности построения гистограммы частот. Применение критерия Пирсона.

    задача [140,0 K], добавлен 17.11.2011

  • Построение полигона относительных частот, эмпирической функции распределения, кумулянты и гистограммы. Расчет точечных оценок неизвестных числовых характеристик. Проверка гипотезы о виде распределения для простого и сгруппированного ряда распределения.

    курсовая работа [216,2 K], добавлен 28.09.2011

  • Понятие вариационного ряда, статистического распределения. Эмпирическая функция и основные характеристики математического ожидания выборочной дисперсии. Точечные и интервальные оценки распределений. Теория гипотез - аналог теории доверительных интервалов.

    контрольная работа [172,9 K], добавлен 22.11.2013

  • Определение вероятность срабатывания устройств при аварии. Расчет математического ожидания, дисперсии и функции распределения по заданному ряду распределения. Построение интервального статистического ряда распределения значений статистических данных.

    контрольная работа [148,8 K], добавлен 12.02.2012

  • Закон и свойства нормального распределения случайной величины. На основе критерия согласия Пирсона построение гистограммы, статистической функции и теоретической кривой и определение согласованности теоретического и статистического распределения.

    курсовая работа [894,5 K], добавлен 30.10.2013

  • Построение гистограммы и полигона по данным измерений. Статистический ряд распределения температур. Проверка нормальности распределения по критерию Пирсона. Определение погрешности средства измерений. Отсев аномальных значений. Интервальная оценка.

    курсовая работа [150,5 K], добавлен 25.02.2012

  • Определение математического ожидания и среднеквадратического отклонения с целью подбора закона распределения к выборке статистических данных об отказах элементов автомобиля. Нахождения числа событий в заданном интервале; расчет значения критерия Пирсона.

    контрольная работа [336,3 K], добавлен 01.04.2014

  • Нахождение вероятности события, используя формулу Бернулли. Составление закона распределения случайной величины и уравнения регрессии. Расчет математического ожидания и дисперсии, сравнение эмпирических и теоретических частот, используя критерий Пирсона.

    контрольная работа [167,7 K], добавлен 29.04.2012

  • Определение вероятности того, что из урны взят белый шар. Нахождение математического ожидания, среднего квадратического отклонения и дисперсии случайной величины Х, построение гистограммы распределения. Определение параметров распределения Релея.

    контрольная работа [91,7 K], добавлен 15.11.2011

  • Основные понятия математической статистики, интервальные оценки. Метод моментов и метод максимального правдоподобия. Проверка статистических гипотез о виде закона распределения при помощи критерия Пирсона. Свойства оценок, непрерывные распределения.

    курсовая работа [549,1 K], добавлен 07.08.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.