Анализ эмпирического распределения. Проведение выборочного наблюдения

Развитие политической арифметики и государствоведения, возникновение и формирование статистики как науки, ее основные понятия. Анализ эмпирического распределения и значений варьирующего признака. Проведение выборочного наблюдения, понятие ранжирования.

Рубрика Экономика и экономическая теория
Вид контрольная работа
Язык русский
Дата добавления 17.05.2009
Размер файла 81,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

3

Содержание работы

Введение

1. Анализ эмпирического распределения

2. Проведение выборочного наблюдения.

Список используемой литературы

ВВЕДЕНИЕ

Статистика - самостоятельная общественная наука, имеющая свой предмет и метод исследования. Возникла она из практических потребностей общественной жизни. Уже в древнем мире появилась потребность подсчитывать численность жителей государства, учитывать людей, пригодных к военному делу, определять количество скота, размеры земельных угодий и другого имущества. Информация такого рода была необходима для сбора налогов, ведения войн и т.п. В дальнейшем, по мере развития общественной жизни, круг учитываемых явлений постепенно расширяется.

Особенно возрастает объем собираемой информации с развитием капитализма и мирохозяйственных связей. Потребности этого периода вынуждали органы государственного управления и капиталистические предприятия собирать для практических нужд обширную и разнообразную информацию о рынках труда и сбыта товаров, сырьевых ресурсах.

В середине 17-го века в Англии возникло научное направление, получившее название "политической арифметики". Начало этому направлению положили Вильям Петти (1623-1687) и Джон Граунт (1620-1674 г.г.). "Политические арифметики" на основе изучения информации о массовых общественных явлениях стремились открыть закономерности общественной жизни и таким образом ответить на вопросы, возникавшие в связи с развитием капитализма.

Наряду со школой "политических арифметиков" в Англии, в Германии развивалась школа описательной статистики или "государствоведения". Возникновение этой науки относится к 1660 г.

Развитие политической арифметики и государствоведения привело к появлению науки статистики.

Понятие "статистика" происходит от латинского слова "status", которое в переводе означает - положение, состояние, порядок явлений.

В научный оборот термин "статистика" ввел профессор Геттингенского университета Готфрид Ахенваль (1719-1772).

В зависимости от объекта изучения статистика как наука подразделяется на социальную, демографическую, экономическую, промышленную, торговую, банковскую, финансовую, медицинскую и т.д. Общие свойства статистических данных, независимо от их природы и методы их анализа рассматриваются математической статистикой и общей теорией статистики.

1. Анализ эмпирического распределения

Первой или одной из первых задач статистической обработки данных, является анализ распределения значений варьирующего признака, с которой статистик сталкивается в реальной жизни. Работа включает в себя такие взаимосвязанные разделы, как расчет основных выборочных статистик, построение интервального вариационного ряда и его графическое представление, расчет интервальных оценок генеральной средней и генеральной дисперсии, сглаживание эмпирического распределения некоторым модельным распределением, статистическая проверка гипотезы о правомерности выбранного варианта сглаживания. Исходными данными к работе являются либо случайная выборка из гипотетической генеральной совокупности, распределенной по заданному закону распределения, либо статистика, полученная в результате некоторого статистического наблюдения. Анализ изучаемой совокупности начнём с расчёта выборочных статистик:

Variable: ST0405.work0405

Sample size 195

Average 342.294

Median 340.7

Mode 340.7

Variance 16474

Standard deviation 128.351

Range 623.2

Lower quartile 249.9

Upper quartile 431

Skewness 0.0378546

Kurtosis -0.399633

Coeff. of variation 37.4974

Рассчитаны следующие выборочные статистики:

Average -- средняя арифметическая, рассчитываемая по формуле простой средней:

;

Median -- медиана:

, если n -- четное,

, если n -- нечетное;

Mode -- мода Мо определяется непосредственно по исходным данным;

Variance -- дисперсия - средняя из квадратов отклонений вариантов значений признака от их средней величины

;

Standard deviation -- среднее квадратическое отклонение:

;

Range -- размах вариации: R = Xmax - Xmin;

Lower quartile -- нижний квартиль:

, где , ,

floor -- округление до ближайшего целого,

ceiling -- округление до ближайшего большего;

Upper quartile -- верхний квартиль:

, где , ;

Skewness -- асимметрия:

;

Kurtosis -- коэффициент эксцесса (куртозис):

;

Coeff. of variation -- коэффициент вариации (%):

;

Ранжирование - является первым шагом в упорядочении первичного ряда --- все результаты наблюдений располагаются по их численному значению в возрастающем или убывающем порядке. Основное преимущество ранжированного ряда в том и состоит, что он дает характеристику или показывает отдельные случаи при одновременном рассмотрении всей совокупности. Всякая сводка и группировка уничтожает индивидуальные очертания отдельной единицы совокупности, обезличивает их, растворяет в группе; между тем в ранжированном ряду каждый отдельный случай еще полностью сохраняет свою индивидуальность. Поэтому там, где растворение индивидуального случая в группе нежелательно, применение ранжированного ряда вполне уместно Использование ранжированного ряда также позволяет легко разделить все данные по группам.

Variable: ST0405.work0405 (length = 195)

( 1) 26.4 ( 19) 173 ( 37) 233.4 ( 55) 261.4 ( 73) 304.4

( 2) 46.9 ( 20) 173.4 ( 38) 235.8 ( 56) 262.9 ( 74) 307.3

( 3) 56.5 ( 21) 174.1 ( 39) 237 ( 57) 265.2 ( 75) 309.1

( 4) 79.9 ( 22) 177.2 ( 40) 237.8 ( 58) 267.8 ( 76) 311.5

( 5) 86.9 ( 23) 178.6 ( 41) 240.2 ( 59) 268.6 ( 77) 312.4

( 6) 108.9 ( 24) 185.2 ( 42) 243 ( 60) 269.1 ( 78) 312.5

( 7) 120.9 ( 25) 188.5 ( 43) 243.5 ( 61) 271 ( 79) 313.2

( 8) 123 ( 26) 190.7 ( 44) 243.8 ( 62) 281.3 ( 80) 314.1

( 9) 126.9 ( 27) 196.7 ( 45) 245.7 ( 63) 282.1 ( 81) 314.7

( 10) 130.9 ( 28) 197.4 ( 46) 246.7 ( 64) 288.1 ( 82) 314.9

( 11) 133.2 ( 29) 208.3 ( 47) 247.8 ( 65) 293.7 ( 83) 317.8

( 12) 136 ( 30) 213.1 ( 48) 248.8 ( 66) 297 ( 84) 318.2

( 13) 148.9 ( 31) 214.9 ( 49) 249.9 ( 67) 297.3 ( 85) 318.4

( 14) 151.8 ( 32) 215.3 ( 50) 251.2 ( 68) 298.9 ( 86) 318.7

( 15) 155 ( 33) 217 ( 51) 255.4 ( 69) 299.7 ( 87) 318.7

( 16) 156.5 ( 34) 218.6 ( 52) 255.6 ( 70) 301.1 ( 88) 320.2

( 17) 157.8 ( 35) 221.9 ( 53) 257.7 ( 71) 301.5 ( 89) 328.8

( 18) 165.2 ( 36) 224.1 ( 54) 261.3 ( 72) 303.8 ( 90) 331.6

( 91) 331.8 (109) 358.2 (127) 379.4 (145) 429.2 (163) 482.1

( 92) 332.3 (110) 359.3 (128) 380.8 (146) 430.6 (164) 482.7

( 93) 333.3 (111) 359.5 (129) 381.8 (147) 431 (165) 485.8

( 94) 333.9 (112) 360.2 (130) 382.5 (148) 431.6 (166) 486.4

( 95) 334.8 (113) 360.7 (131) 382.6 (149) 437.7 (167) 487.4

( 96) 337.6 (114) 361.3 (132) 383.6 (150) 439.8 (168) 490.1

( 97) 340.1 (115) 361.3 (133) 385.8 (151) 450.3 (169) 498.3

( 98) 340.7 (116) 361.4 (134) 389.4 (152) 451.8 (170) 499.2

( 99) 340.7 (117) 362.1 (135) 392.9 (153) 452.3 (171) 501.6

(100) 341.9 (118) 365.1 (136) 393.5 (154) 457.5 (172) 504

(101) 344 (119) 365.6 (137) 396.8 (155) 459.9 (173) 509.4

(102) 345.6 (120) 366.4 (138) 406.6 (156) 461 (174) 510.7

(103) 346 (121) 366.5 (139) 406.7 (157) 465.3 (175) 528.2

(104) 347 (122) 372.2 (140) 407.5 (158) 467.9 (176) 529.1

(105) 352.4 (123) 372.3 (141) 409.8 (159) 470.2 (177) 530.7

(106) 353.2 (124) 375.8 (142) 420.9 (160) 471.5 (178) 532.3

(107) 355.6 (125) 378.2 (143) 423.6 (161) 471.6 (179) 533.4

(108) 356.6 (126) 378.8 (144) 428.9 (162) 477.8 (180) 534.9

(181) 539

(182) 541.6

(183) 544

(184) 546.9

(185) 558.3

(186) 559.6

(187) 566.8

(188) 569.6

(189) 570.2

(190) 571.4

(191) 593.2

(192) 594.8

(193) 599.7

(194) 642.6

(195) 649.6

Первым и наиболее простым способом обобщения статистических данных являются ряды распределения.

Статистическим рядом распределения называют численное распределение единиц совокупности по изучаемому признаку. В зависимости от признака ряды могут быть вариационные (количественные) и атрибутивные.

Вариационные ряды могут быть дискретными или интервальными.

Дискретный ряд распределения - это ряд, в котором численное распределение признака выражено одним конечным числом.

В зависимости от признака ряды могут быть вариационные (для количественных признаков) и атрибутивные (для качественных признаков). Вариационные ряды бывают:

дискретными, если значение признака задано как дискретное (точечное);

интервальными, если значение признака задано интервалом.(для нашей работы)

Цель его - выявление основных свойств и закономерностей исследуемой статистической совокупности.

При построении интервальных рядов распределения необходимо прежде всего установить число интервалов, на которые следует разбить все единицы изучаемой совокупности. Автоматически устанавливается рекомендуемое системой число интервалов. В нашем примере --23. При этом следует иметь ввиду, что алгоритм определения числа интервалов, реализуемый в пакете STATGRAPHICS, дает завышенное число интервалов по сравнению с тем, что получается по известной Sturge's формуле: K = 1 + 3.322 Lg n. Следующим этапом анализа является табличное и графическое представление исходных данных. Графическое изображение рядов распределения наряду со статистическими таблицами, являются важным средством выражения и анализа статистических данных, поскольку наглядное представление облегчает восприятие информации. Графики позволяют мгновенно охватить и осмыслить совокупность показателей - выявить наиболее типичные соотношения и связи этих показателей, определить тенденции развития, охарактеризовать структуру, степень выполнения плана, оценить географическое размещение объектов. Этим объясняется широкое применение графиков и таблиц для пропаганды статистической информации, характеризующей результаты развития различных сфер национальной экономики и социальных отношений.

Frequency Tabulation

Lower Upper Relative Cumulative Cum. Rel.

Class Limit Limit Midpoint Frequency Frequency Frequency Frequency

at or below -10.00 0 .0000 0 .0000

1 -10.00 24.78 7.39 0 .0000 0 .0000

2 24.78 59.57 42.17 3 .0154 3 .0154

3 59.57 94.35 76.96 2 .0103 5 .0256

4 94.35 129.13 111.74 4 .0205 9 .0462

5 129.13 163.91 146.52 8 .0410 17 .0872

6 163.91 198.70 181.30 11 .0564 28 .1436

7 198.70 233.48 216.09 9 .0462 37 .1897

8 233.48 268.26 250.87 21 .1077 58 .2974

9 268.26 303.04 285.65 13 .0667 71 .3641

10 303.04 337.83 320.43 25 .1282 96 .4923

11 337.83 372.61 355.22 27 .1385 123 .6308

12 372.61 407.39 390.00 16 .0821 139 .7128

13 407.39 442.17 424.78 11 .0564 150 .7692

Mean = 342.294 Standard Deviation = 128.351 Median = 340.7

Frequency Tabulation

Lower Upper Relative Cumulative Cum. Rel.

Class Limit Limit Midpoint Frequency Frequency Frequency Frequency

14 442.17 476.96 459.57 11 .0564 161 .8256

15 476.96 511.74 494.35 13 .0667 174 .8923

16 511.74 546.52 529.13 9 .0462 183 .9385

17 546.52 581.30 563.91 7 .0359 190 .9744

18 581.30 616.09 598.70 3 .0154 193 .9897

19 616.09 650.87 633.48 2 .0103 195 1.0000

20 650.87 685.65 668.26 0 .0000 195 1.0000

21 685.65 720.43 703.04 0 .0000 195 1.0000

22 720.43 755.22 737.83 0 .0000 195 1.0000

23 755.22 790.00 772.61 0 .0000 195 1.0000

above 790.00 0 .0000 195 1.0000

Mean = 342.294 Standard Deviation = 128.351 Median = 340.7

В данной таблице для каждого интервала определен верхний и нижний предел, медиана данного интервала, абсолютная частота, относительная частота. Из данной таблицы видно, что наибольшее количество единиц генеральной совокупности сосредоточено в одиннадцатом интервале ( 27 единиц ).

В качестве графического изображения вариационного ряда могут быть использованы традиционные графики: гистограмма, полигон, кумулята.

(В нашем примере графики строятся в абсолютных частотах. )

Для графического изображения интервальных вариационных рядов применяется гистограмма --- ступенчатая фигура из прямоугольников с основанием равным величине интервала ( на оси абсцисс откладываются равные отрезки, которые в принятом масштабе соответствуют величине интервалов вариационного ряда. На отрезках строят прямоугольники, площади которых пропорциональны частотам интервала.

Гистограмма может быть преобразована в полигон распределения, если середины верхних сторон прямоугольников соединить отрезками прямых. Две крайние точки прямоугольников замыкаются по оси абсцисс на середины интервалов, в которых частоты равны нулю. )

1. Гистограмма К= 23 (предложение программы)

Для изображения вариационных рядов используется кумулятивная кривая - кумулята --- ломаная, составленная по накопленным частотам или частостям. ( Для её построения надо рассчитать накопленные частоты и частости. Накопленные частоты показывают, сколько единиц совокупности имеют значение признака не больше, чем рассматриваемое значение, и определяются последовательным суммированием частот интервалов. При построении кумуляты интервального ряда распределения нижней границе первого интервала соответствует частота, равная нулю, а верхней границе - вся частота данного интервала.)

2. Кумулята К= 23 (предложение программы)

Для графического изображения дискретного ряда применяют полигон распределения --- ломаная, отрезки которой соединяют точки с координатами. ( Для его построения на оси абсцисс отмечают точки, соответствующие величине вариантов значений признака, из них восстанавливаются перпендикуляры, длина которых соответствует частоте ( частости ) этих вариантов по принятому масштабу на оси ординат. Вершины перпендикуляров в последовательном порядке соединяются отрезками прямых.)

3. Полигон К=23 (предложение программы)

Используя Sturge's формулу, вычислим количество интервалов для нашей совокупности, подставив количество единиц данной совокупности (195 единиц по условию) в формулу:

K= 1 + 3.322 Lg 195 = 8.6, округляем до целого числа получим 9 интервалов. Построим гистограмму, кумуляту и полигон с этим количеством интервалов.

4. Гистограмма К= 9 (Sturge's формула)

5. Кумулята К= 9 (Sturge's формула)

6. Полигон К=9 (Sturge's формула)

Эмпирические данные в определённой степени связаны со случайными ошибками наблюдения, величина которых неизвестна. Влияние этих случайностей затемняет основную закономерность изменения величины признака. С увеличением числа наблюдений и одновременным уменьшением величины интервала зигзаги полигона распределения начинают сглаживаться, и в пределе мы приходим к плавной кривой, которая называется кривой распределения. Кривая распределения характеризует теоретическое распределение, т.е. то распределение, которое получилось бы при полном погашении всех случайных причин, затемняющих основную закономерность. Исследование закономерности ( или формы ) распределения включает решение трёх основных задач:

а) выяснение общего характера распределения

б) выравневание эмпирического распределения, которое состоит в том, что на основании

эмпирического распределения строится кривая y = f (x) c заданной формой

в) проверка соответствия найденного теоретического распределения эмпирическому

В ППП STATGRAPHICS предлагается сгладить эмпирическое распределение несколькими теоретическими законами:

1. Сглаживание эмпирического распределения нормальным законом распределения

2. Сглаживание эмпирического распределения треугольным законом распределения

Сгладив эмпирическое распределение некоторыми теоретическими законами распределения, необходимо оценить правомерность такого сглаживания, то есть провести проверку статистической гипотезы о законе распределения. Проведем проверку статистической гипотезы о законе распределения по критерию Пирсона -- "Chi-square test":

ч 2 =

(Чем больше разность между наблюдаемыми и теоретическими частотами, тем больше величина критерия Пирсона.)Чтобы отличить существенные значения ч 2 от значений, которые могут возникнуть в результате случайностей выборки, рассчитанное значение критерия сравнивается с табличным значением ч т2 при соответствующем числе степеней свободы и заданном уровне значимости. Уровень значимости выбираем таким образом, что Р (ч 2 > ч т2) = Ь ( величина Ь принимается равной 0.05). С помощью ППП STATGRAPHICS оценим правомерность нормального (1) и треугольного (2) сглаживания, используя критерий Пирсона.

1.Chisquare Test

Lower Upper Observed Expected

Limit Limit Frequency Frequency Chisquare

at or below 94.348 5 5.2 .00809

94.348 163.913 12 10.8 .12355

163.913 198.696 11 9.6 .19892

198.696 233.478 9 13.0 1.23017

233.478 268.261 21 16.3 1.33331

268.261 303.043 13 19.1 1.93670

303.043 337.826 25 20.7 .88568

337.826 372.609 27 20.9 1.77182

372.609 407.391 16 19.6 .66886

407.391 442.174 11 17.1 2.18618

442.174 476.957 11 13.9 .59780

476.957 511.739 13 10.5 .61482

511.739 546.522 9 7.3 .37917

above 546.522 12 10.9 .11567

Chisquare = 12.0507 with 11 d.f. Sig. level = 0.359842

2.Chisquare Test

Lower Upper Observed Expected

Limit Limit Frequency Frequency Chisquare

at or below 129.130 9 10.2 .136098

129.130 163.913 8 8.1 .000418

163.913 198.696 11 10.4 .035649

198.696 233.478 9 12.7 1.090252

233.478 268.261 21 15.1 2.344795

268.261 303.043 13 17.4 1.108786

303.043 337.826 25 19.7 1.410942

337.826 372.609 27 21.1 1.644540

372.609 407.391 16 18.9 .449681

407.391 442.174 11 16.4 1.768174

442.174 476.957 11 13.8 .585535

476.957 511.739 13 11.3 .251584

511.739 546.522 9 8.8 .005594

above 546.522 12 11.1 .068069

Chisquare = 10.9001 with 10 d.f. Sig. level = 0.365352

Определив значение критерия Пирсона по данным конкретной выборки, можно встретиться с такими вариантами:

1. ч 2 > ч т2 , т.е. ч 2 попадает в критическую область. Это означает, что расхождение между эмпирическими и теоретическими частотами существенно и его нельзя объяснить случайными колебаниями выборочных данных. В таком случае гипотеза о близости эмпирического распределения к нормальному отвергается.

2. ч 2 ? ч т2 , т.е. рассчитанный критерий не превышает максимально возможную величину расхождений эмпирических и теоритических частот, которая может возникнуть в силу случайных колебаний выборочных данных. В этом случае гипотеза о близости эмпирического распределения к нормальному не отвергается.

Исходя из расчета (для данной работы), критерий Пирсона для треугольного закона сглаживания равен 12,0507 , при числе степеней свобод 11 уровне значимости 0,05.

При сравнении данных показателей с табличными видно, что табличный показатель больше расчетного критерия Пирсона равного 19,675 (при уровне значимости 0,05 и числе степеней свобод 11).

Исходя из расчета: для нормального закона сглаживания критерий Пирсона равен 10,9001 при числе степеней свободы 10, что меньше табличного значения, которое равно 18,307.

При расчёте критерия Пирсона нужно соблюдать следующие условия:

а) если теоретические частоты в некоторых интервалах меньше 5, то такие интервалы объединяют так, что частоты были больше 5.

2. Проведение выборочного наблюдения

Процесс сбора этих данных называется статистическим наблюдением . Но не всякий сбор данных является статистическим наблюдением, а лишь планомерный научно- организованный систематизированный и направленный на регистрацию признаков характерных для исследуемых явлений и процессов.

Статистическое наблюдение, или первичный статистический учет, является научной, специально организованной регистрацией признаков каждой единицы совокупности и записью их в определенных документах.

Статистическим наблюдением называется планомерный научно организованный сбор или получение массовых сведений о явлениях общественной жизни.

В процессе статистического наблюдения получаются статистические данные, необходимые для осуществления познавательной и контрольно-организаторской функции статистики.

Статистическое наблюдение выступает первым этапом статистического исследования, оно совпадает в основном с первой (чувственной или эмпирической) ступенью процесса познания общественной жизни, является важнейшим специфическим статистическим приемом исследования. Всякое исследование, в т.ч. и статистическое, начинается со сбора фактов, наблюдения; выводы, обобщения как в науке, так и в практике ценны лишь тогда, когда они обоснованы фактами.

К статистическим данным, пригодным для обобщений, предъявляется ряд требований:

- данные должны быть максимально полными, но не отрывочными, случайно выхваченными;

- данные должны быть абсолютно достоверными и точными;

- данные должны соответствовать принципу единообразия, сопоставимости;

- данные должны соответствовать принципу своевременности (сбор должен быть организован только в строго определенное время, но кроме этого, данные должны быть представлены так же в срочном порядке).

Сплошное наблюдение - учет всех без исключения единиц в пределах данной совокупности, например перепись всех видов оборудования или материалов в данном предприятии. Материалы сплошного наблюдения позволяют выделить в составе изучаемой массе единицы качественно однородной группы и определить по каждой группе средние величины по наиболее существенным признакам. Единовременное и текущее наблюдения осуществляются в форме сплошного наблюдения, если необходимо получить сведения об объеме изучаемых явлений.

Организация сплошного наблюдения не всегда возможна и целесообразна, особенно для контроля за качеством продукции. В этом случае сплошное наблюдение приводит к исключению из сферы практического использования массы продукции предприятий. Поэтому необходимо осуществлять несплошное (частичное) наблюдение - учитывать только часть единиц совокупности, по которой составляют представление о характерных особенностях изучаемого явления в целом.

Несплошное наблюдение имеет определенные преимущества по сравнению со сплошным наблюдением:

- требуется значительно меньше затрат труда и средств в связи с уменьшением числа обследуемых единиц;

- данные могут быть собраны в более короткие сроки и по более широкой программе, чтобы в заданных пределах всесторонне раскрыть особенности изучаемой совокупности, провести более глубокое научное исследование;

- данные не сплошного наблюдения привлекаются для контроля материалов сплошного наблюдения;

- не сплошное наблюдение должно быть репрезентативным (представительным).

Обследуемые единицы отбираются так, чтобы, опираясь на полученные по этим единицам данные, составить правильное представление о явлении в целом. Поэтому одной из существенных особенностей не сплошного наблюдения является организация отбора единиц обследуемой совокупности способами: основного массива, монографическим, анкетным и выборочным наблюдением.

По условиям курсовой работы предлагается провести выборочное наблюдение методом случайной бесповторной выборки с реализацией пяти выборок объемом 20 единиц, одной выборки большого объема и результаты выборочного наблюдения сравнить с результатами полученными в первой части работы.

Используя функцию получения случайной бесповторной выборки ППП STATGRAPHICS реализуем пять выборок объемом в 20 единиц.

Выборка 1

Variable: WORK04.D1 (length = 20)

( 1) 247.8 (19) 490.1

( 2) 383.6 (20) 237.8

( 3) 293.7

( 4) 353.2

( 5) 360.7

( 6) 120.9

( 7) 156.5

( 8) 541.6

( 9) 485.8

(10) 457.5

(11) 451.8

(12) 314.1

(13) 318.7

(14) 482.7

(15) 546.9

(16) 366.4

(17) 261.4

(18) 133.2

Выборка 2

Variable: WORK04.D2 (length = 20)

( 1) 217 (19) 312.5

( 2) 353.2 (20) 157.8

( 3) 383.6

( 4) 544

( 5) 174.1

( 6) 218.6

( 7) 26.4

( 8) 265.2

( 9) 477.8

(10) 318.7

(11) 355.6

(12) 251.2

(13) 379.4

(14) 247.8

(15) 406.6

(16) 318.2

(17) 423.6

(18) 337.6

Выборка 3

Variable: WORK04.D3 (length = 20)

( 1) 151.8 (19) 297.3

( 2) 243.8 (20) 530.7

( 3) 265.2

( 4) 546.9

( 5) 356.6

( 6) 430.6

( 7) 459.9

( 8) 381.8

( 9) 389.4

(10) 359.3

(11) 566.8

(12) 26.4

(13) 173.4

(14) 382.6

(15) 261.4

(16) 372.3

(17) 358.2

(18) 534.9

Выборка 4

Variable: WORK4.D4 (length = 20)

( 1) 233.4 (19) 298.9

( 2) 188.5 (20) 361.3

( 3) 451.8

( 4) 331.6

( 5) 185.2

( 6) 345.6

( 7) 571.4

( 8) 130.9

( 9) 439.8

(10) 155

(11) 261.4

(12) 267.8

(13) 314.1

(14) 307.3

(15) 360.2

(16) 249.9

(17) 288.1

(18) 213.1

Выборка 5

Variable: WORK04.D5 (length = 20)

( 1) 243.5 (19) 510.7

( 2) 366.5 (20) 307.3

( 3) 157.8

( 4) 174.1

( 5) 467.9

( 6) 213.1

( 7) 148.9

( 8) 268.6

( 9) 86.9

(10) 406.7

(11) 559.6

(12) 482.1

(13) 352.4

(14) 365.6

(15) 123

(16) 136

(17) 255.4

(18) 485.8

По результатам выборочного наблюдения определим выборочные средние и выборочные дисперсии.

Выборка 1

Variable: WORK04.D1

Sample size 20

Average 350.22

Variance 17255.4

Выборка 2

Variable: WORK04.D2

Sample size 20

Average 308.445

Variance 14136.3

Выборка 3

Variable: WORK04.D3

Sample size 20

Average 354.465

Variance 19968.1

Выборка № 4

Variable: WORK4.D4

Sample size 20

Average 297.765

Variance 11539.7

Выборка № 5

Variable: WORK04.D5

Sample size 20

Average 305.595

Variance 21379

Определим объем большой выборки по предложенным данным предельной ошибки выборки к генеральной средней. По условию работы предельная ошибка выборки к генеральной средней равна 5 % и значение доверительной вероятности Р, равное 0,90 (коэффициент доверия t = 1,65). Формула для случайной бесповторной выборки имеет вид:

n = где

n - количество единиц выборки

N - количество единиц генеральной совокупности

- квадрат коэффициента доверия

- дисперсия

- квадрат абсолютной предельной ошибки

По условию работы мы имеем не значение абсолютной предельной ошибки, а величину относительной погрешности, выраженную в процентах к средней, равную 5 %. Значение абсолютной предельной ошибки определяется по формуле:

Подставив в формулу имеющиеся данные получим, что количество единиц выборки примерно равно 85.

Используя ту же функцию получения случайной бесповторной выборки, получим следующую совокупность:

Variable: WORK04.D6 (length = 85)

( 1) 375.8 (19) 353.2 (37) 268.6 (55) 312.5 (73) 318.7

( 2) 461 (20) 173 (38) 156.5 (56) 213.1 (74) 499.2

( 3) 372.3 (21) 346 (39) 347 (57) 288.1 (75) 504

( 4) 429.2 (22) 190.7 (40) 271 (58) 299.7 (76) 86.9

( 5) 594.8 (23) 361.4 (41) 341.9 (59) 301.1 (77) 148.9

( 6) 571.4 (24) 530.7 (42) 407.5 (60) 599.7 (78) 340.1

( 7) 366.4 (25) 314.1 (43) 320.2 (61) 642.6 (79) 470.2

( 8) 487.4 (26) 471.5 (44) 345.6 (62) 165.2 (80) 314.7

( 9) 248.8 (27) 313.2 (45) 509.4 (63) 358.2 (81) 451.8

(10) 528.2 (28) 126.9 (46) 240.2 (64) 130.9 (82) 379.4

(11) 482.7 (29) 359.3 (47) 251.2 (65) 267.8 (83) 534.9

(12) 331.6 (30) 301.5 (48) 340.7 (66) 298.9 (84) 221.9

(13) 649.6 (31) 247.8 (49) 393.5 (67) 539 (85) 450.3

(14) 188.5 (32) 510.7 (50) 465.3 (68) 317.8

(15) 197.4 (33) 558.3 (51) 333.3 (69) 333.9

(16) 309.1 (34) 235.8 (52) 360.7 (70) 257.7

(17) 362.1 (35) 215.3 (53) 224.1 (71) 331.8

(18) 269.1 (36) 569.6 (54) 431 (72) 337.6

Выборочная средняя и выборочная дисперсия для выборки с количеством единиц 85

Variable: WORK04.D6

Sample size 85

Average 354.455

Variance 16315.2

Цель выборочного наблюдения --- распространения выводов, полученных по данным выборки, на генеральную совокупность. Одной из основных задач является оценка по данным выборки интересующих характеристик генеральной совокупности. Рассмотрим определение величины средней арифметической генеральной совокупности на основе выборочных данных. Выборочное наблюдение дает возможность определить среднюю арифметическую выборочной совокупности и величину предельной ошибки этой средней , которая показывает ( с определенной вероятностью ), насколько выборочная средняя может отличаться от генеральной средней в большую или меньшую сторону. Тогда величина генеральной средней будет представлена интервальной оценкой, для которой нижняя граница будет равна , а верхняя граница . Пределы в которых с данной степенью вероятности будет заключена неизвестная величина оцениваемого параметра, называют доверительными, а вероятность Р - доверительной вероятностью. Доверительный интервал для генеральной средней можно записать как:

? ?

Аналогичным образом можно записать доверительный интервал для генеральной дисперсии:

? ?

ППП STATGRAPHICS позволяет вычислить доверительные интервалы для генеральной средней и генеральной дисперсии по выборкам с различными значениями доверительной вероятности. При входе в программу предопределены значения доверительной вероятности (выраженные в процентах) для интервальной оценки генеральной средней и генеральной дисперсии: 95 и 0 соответственно и определим доверительные интервалы.

Установим для генеральной дисперсии и генеральной средней доверительную вероятность 90 % и определим доверительные интервалы генеральной средней и генеральной дисперсии по имеющимся случайным выборкам:

One-Sample Analysis Results

WORK04.D1

Sample Statistics: Number of Obs. 20

Average 350.22

Variance 17255.4

Std. Deviation 131.36

Median 356.95

Confidence Interval for Mean: 90 Percent

Sample 1 299.418 401.022 19 D.F.

Confidence Interval for Variance: 90 Percent

Sample 1 10876.4 32406.3 19 D.F.

Hypothesis Test for H0: Mean = 0 Computed t statistic = 11.9232

vs Alt: NE Sig. Level = 2.88742E-10

at Alpha = 0.05 so reject H0.

One-Sample Analysis Results

WORK04.D2

Sample Statistics: Number of Obs. 20

Average 308.445

Variance 14136.3

Std. Deviation 118.896

Median 318.45

Confidence Interval for Mean: 90 Percent

Sample 1 262.464 354.426 19 D.F.

Confidence Interval for Variance: 90 Percent

Sample 1 8910.36 26548.5 19 D.F.

Hypothesis Test for H0: Mean = 0 Computed t statistic = 11.6018

vs Alt: NE Sig. Level = 4.57143E-10

at Alpha = 0.05 so reject H0.

One-Sample Analysis Results

WORK04.D3

Sample Statistics: Number of Obs. 20

Average 354.465

Variance 19968.1

Std. Deviation 141.308

Median 365.8

Confidence Interval for Mean: 90 Percent

Sample 1 299.816 409.114 19 D.F.

Confidence Interval for Variance: 90 Percent

Sample 1 12586.2 37500.7 19 D.F.

Hypothesis Test for H0: Mean = 0 Computed t statistic = 11.2181

vs Alt: NE Sig. Level = 8.01401E-10

at Alpha = 0.05 so reject H0.

One-Sample Analysis Results

WORK4.D4

Sample Statistics: Number of Obs. 20

Average 297.765

Variance 11539.7

Std. Deviation 107.423

Median 293.5

Confidence Interval for Mean: 90 Percent

Sample 1 256.221 339.309 19 D.F.

Confidence Interval for Variance: 90 Percent

Sample 1 7273.7 21672 19 D.F.

Hypothesis Test for H0: Mean = 0 Computed t statistic = 12.3963

vs Alt: NE Sig. Level = 1.49385E-10

at Alpha = 0.05 so reject H0.

One-Sample Analysis Results

WORK04.D5

Sample Statistics: Number of Obs. 20

Average 305.595

Variance 21379

Std. Deviation 146.216

Median 287.95

Confidence Interval for Mean: 90 Percent

Sample 1 249.048 362.142 19 D.F.

Confidence Interval for Variance: 90 Percent

Sample 1 13475.6 40150.5 19 D.F.

Hypothesis Test for H0: Mean = 0 Computed t statistic = 9.3469

vs Alt: NE Sig. Level = 1.54445E-8

at Alpha = 0.05 so reject H0.

One-Sample Analysis Results

WORK04.D6

Sample Statistics: Number of Obs. 85

Average 354.455

Variance 16315.2

Std. Deviation 127.731

Median 340.1

Confidence Interval for Mean: 90 Percent

Sample 1 331.408 377.503 84 D.F.

Confidence Interval for Variance: 90 Percent

Sample 1 12881 21455.2 84 D.F.

Hypothesis Test for H0: Mean = 0 Computed t statistic = 25.5844

vs Alt: NE Sig. Level = 0

at Alpha = 0.05 so reject H0.

Доверительные интервалы для генеральных средних и дисперсии полученные из анализа случайных выборок :

1. Для выборки № 1 299.418 ? ? 401.022

10876.4 ? ? 32406.3

2. Для выборки № 2 262.464 ? ? 354.426

8910.36 ? ? 26548.5

3. Для выборки № 3 299.816 ? ? 409.114

12586.2 ? ? 37500.7

4. Для выборки № 4 256.221 ? ? 339.309

7273.7 ? ? 21672

5. Для выборки № 5 249.048 ? ? 362.142

13475.6 ? ? 40150.5

6. Для выборки № 6 331.408 ? ? 377.503

12881 ? ? 21455.2

Проведя анализ доверительных интервалов, можно сделать вывод--- значение генеральных средней (=342,294) и дисперсии (=16474) входят во все доверительные интервалы выборок.

Кроме построения доверительных интервалов пользователю предлагается возможность статистической проверки гипотезы. Под статистической гипотезой понимаются различного рода предположения относительно характера или параметров распределения случайной переменной, которые можно проверить, опираясь на результаты наблюдений в случайной выборке. Для построения статистического критерия, позволяющего проверить некоторую гипотезу, необходимо следующее:

Сформулировать проверяемую гипотезу Но. Наряду с проверяемой гипотезой формулируется также конкурирующая ( альтернативная ) гипотеза

Выбрать уровень значимости Ь, контролирующий допустимую вероятность ошибки

Определить область допустимых значений и так называемую критическую область

Принять то или иное решение на основе сравнения фактического и критического значений критерия.

Автоматически в программе выставлен уровень значимости равный 0.05. Предопределена проверка нулевой гипотезы H0: = 0 против альтернативной (vs Alt), которая может быть сформулирована по-разному. Предоставляется возможность как односторонней, так и двухсторонней проверки: vs Alt: NE (Ha:=, двусторонняя проверка) vs Alt: GT (Ha:>, односторонняя проверка) vs Alt: LT (Ha:<, односторонняя проверка).

Для иллюстрации проверим гипотезу H0: =195. Альтернативная гипотеза формулируется vs Alt: NE.

Получим результат:

One-Sample Analysis Results

WORK04.D3

Sample Statistics: Number of Obs. 20

Average 354.465

Variance 19968.1

Std. Deviation 141.308

Median 365.8

Confidence Interval for Mean: 90 Percent

Sample 1 299.816 409.114 19 D.F.

Confidence Interval for Variance: 90 Percent

Sample 1 12586.2 37500.7 19 D.F.

Hypothesis Test for H0: Mean = 195 Computed t statistic = 5.04676

vs Alt: NE Sig. Level = 7.16254E-5

at Alpha = 0.05 so do not reject H0.

Вывод: при выбранном уровне значимости равном 0.05 есть основания отвергнуть нулевую гипотезу (so do not reject H0) . Также проведем одностороннюю проверку и получим следующие результаты:

One-Sample Analysis Results

WORK04.D3

Sample Statistics: Number of Obs. 20

Average 354.465

Variance 19968.1

Std. Deviation 141.308

Median 365.8

Confidence Interval for Mean: 90 Percent

Sample 1 299.816 409.114 19 D.F.

Confidence Interval for Variance: 90 Percent

Sample 1 12586.2 37500.7 19 D.F.

Hypothesis Test for H0: Mean = 250 Computed t statistic = 3.30611

vs Alt: LT Sig. Level = 0.998143

at Alpha = 0.05 so do not reject H0.

Вывод: при выбранном уровне значимости равном 0.05 нет оснований отвергнуть нулевую гипотезу. (so do not reject H0)

One-Sample Analysis Results

WORK04.D3

Sample Statistics: Number of Obs. 20

Average 354.465

Variance 19968.1

Std. Deviation 141.308

Median 365.8

Confidence Interval for Mean: 90 Percent

Sample 1 299.816 409.114 19 D.F.

Confidence Interval for Variance: 90 Percent

Sample 1 12586.2 37500.7 19 D.F.

Hypothesis Test for H0: Mean = 150 Computed t statistic = 6.47092

vs Alt: GT Sig. Level = 1.67587E-6

at Alpha = 0.05 so reject H0.

Вывод: при выбранном уровне значимости равном 0.05 есть основание отвергнуть нулевую гипотезу. (so reject H0)

ППП STATGRAPHICS позволяет сравнить результаты выборочного наблюдения с результатами полученными в первой части работы с помощью сравнительной гистограммы.

Сравнительная гистограмма одной из малых выборок с генеральной совокупностью:

Сравнительная гистограмма выборки большого объема с генеральной совокупностью:

Часто на практике полезна проверка статистической гипотезы о существенности разности двух выборочных средних по t - критерию. Для проверки этой гипотезы потребуется сопоставить разности двух выборочных средних с величиной средней квадратической ошибки этих средних, т.е. должна быть расчитана по фактическим данным двух выборок величина t. Формула стандартной ошибки разности двух выборочных средних имеет вид:

tрасч =

В данной формуле переменная это стандартная ошибка разности двух выборочных средних, определяемая по формуле:

где,

- оценка генеральной дисперсии по данным двух выборок

- количество наблюдений в первой и во второй выборке

Если tрасч оказывается больше табличного значения ( определяется по таблице распределения Стьюдента ) при определенном уровне значимости, то разность двух выборочных средних нельзя объяснить случайностями выборки. А вот как проверка статистической гипотезы о существенности разности двух выборочных средних по t - критерию реализуется в ППП STATGRAPHICS:

Two-Sample Analysis Results

WORK04.D1 WORK04.D3 Pooled

Sample Statistics: Number of Obs. 20 20 40

Average 350.22 354.465 352.343

Variance 17255.4 19968.1 18611.8

Std. Deviation 131.36 141.308 136.425

Median 356.95 365.8 360

Difference between Means = -4.245

Conf. Interval For Diff. in Means: 90 Percent

(Equal Vars.) Sample 1 - Sample 2 -76.9957 68.5057 38 D.F.

(Unequal Vars.) Sample 1 - Sample 2 -77.0054 68.5154 37.8 D.F.

Ratio of Variances = 0.864152

Conf. Interval for Ratio of Variances: 0 Percent

Sample 1 ц Sample 2

Hypothesis Test for H0: Diff = 0 Computed t statistic = -0.0983975

vs Alt: NE Sig. Level = 0.922134

at Alpha = 0.05 so do not reject H0.

В данном примере выставлена доверительная вероятность равная 90% и рассчитаны два доверительных интервала для разности выборочных средних: (Equal Vars.)- для равных дисперсий и (Unequal Vars.)- для неравных значений дисперсии, т.е. доверительный интервал для разности выборочных средних можно записать так:

-76,69058 ? ? 68,5057

Проведем одностороннюю и двустороннюю проверку данного доверительного интервала.

Двусторонняя проверка:

Two-Sample Analysis Results

WORK04.D3 WORK04.D1 Pooled

Sample Statistics: Number of Obs. 20 20 40

Average 354.465 350.22 352.343

Variance 19968.1 17255.4 18611.8

Std. Deviation 141.308 131.36 136.425

Median 365.8 356.95 360

Difference between Means = 4.245

Conf. Interval For Diff. in Means: 90 Percent

(Equal Vars.) Sample 1 - Sample 2 -68.5057 76.9957 38 D.F.

(Unequal Vars.) Sample 1 - Sample 2 -68.5154 77.0054 37.8 D.F.

Ratio of Variances = 1.1572

Conf. Interval for Ratio of Variances: 0 Percent

Sample 1 ц Sample 2

Hypothesis Test for H0: Diff = 0 Computed t statistic = 0.0983975

vs Alt: NE Sig. Level = 0.922134

at Alpha = 0.05 so do not reject H0.

Вывод: при выбранном уровне значимости равном 0.05 нет оснований отвергнуть нулевую гипотезу (so do not reject H0) .

Односторонняя проверка:

Two-Sample Analysis Results

WORK04.D3 WORK04.D1 Pooled

Sample Statistics: Number of Obs. 20 20 40

Average 354.465 350.22 352.343

Variance 19968.1 17255.4 18611.8

Std. Deviation 141.308 131.36 136.425

Median 365.8 356.95 360

Difference between Means = 4.245

Conf. Interval For Diff. in Means: 90 Percent

(Equal Vars.) Sample 1 - Sample 2 -68.5057 76.9957 38 D.F.

(Unequal Vars.) Sample 1 - Sample 2 -68.5154 77.0054 37.8 D.F.

Ratio of Variances = 1.1572

Conf. Interval for Ratio of Variances: 0 Percent

Sample 1 ц Sample 2

Hypothesis Test for H0: Diff = -67 Computed t statistic = 1.65143

vs Alt: LT Sig. Level = 0.946554

at Alpha = 0.05 so do not reject H0.

Вывод: при выбранном уровне значимости равном 0.05 нет оснований отвергнуть нулевую гипотезу (so do not reject H0)

Two-Sample Analysis Results

WORK04.D3 WORK04.D1 Pooled

Sample Statistics: Number of Obs. 20 20 40

Average 354.465 350.22 352.343

Variance 19968.1 17255.4 18611.8

Std. Deviation 141.308 131.36 136.425

Median 365.8 356.95 360

Difference between Means = 4.245

Conf. Interval For Diff. in Means: 90 Percent

(Equal Vars.) Sample 1 - Sample 2 -68.5057 76.9957 38 D.F.

(Unequal Vars.) Sample 1 - Sample 2 -68.5154 77.0054 37.8 D.F.

Ratio of Variances = 1.1572

Conf. Interval for Ratio of Variances: 0 Percent

Sample 1 ц Sample 2

Hypothesis Test for H0: Diff = 77 Computed t statistic = -1.68643

vs Alt: GT Sig. Level = 0.950046

at Alpha = 0.05 so do not reject H0.

Вывод: при выбранном уровне значимости равном 0.05 нет оснований отвергнуть нулевую гипотезу (so do not reject H0) .

Список используемой литературы

1. «Теория статистики» Шмойлова Р.А Москва 2002 год.

2. Краткое описание пакета STATGRAPHICS. / Э.А. Вуколов, В.В.Лесин, Ю.П. Лисовец др. М.: МГИЭТ. вып. 1, 2. 1993.

3. Пособие по статистике на CD


Подобные документы

  • Цель выборочного наблюдения и формирование выборки. Особенности организации различных видов выборочного наблюдения. Ошибки выборочного отбора и методы их расчета. Применение выборочного метода для анализа предприятий топливно-энергетического комплекса.

    курсовая работа [71,7 K], добавлен 06.10.2014

  • Понятие выборочного наблюдения. Определение объема и численности выборки. Практическое применение в статистическом анализе выборочного наблюдения. Формулы предельных ошибок выборочной доли и среднего показателя. Значения гарантийного коэффициента.

    курсовая работа [123,0 K], добавлен 11.02.2015

  • Сущность статистического анализа и выборочного метода. Правила группировки данных выборочного наблюдения по величине объема инвестиций. Графическое представление вариационного ряда (гистограмма, кумулята, кривая Лоренца). Расчет асимметрии и эксцесса.

    курсовая работа [70,7 K], добавлен 26.10.2011

  • Определение среднего значения показателя в совокупности. Вариационный анализ статистической совокупности по показателю. Проведение выборочного наблюдения и корреляционно-регрессионного анализа. Построение уравнения парной регрессии, ряды динамики.

    курсовая работа [290,2 K], добавлен 29.11.2011

  • Метод статистики, анализ данных, поиск закономерностей. Сводка и группировка данных статистического наблюдения за жилищным фондом. Вариационный анализ показателя площади жилищ, приходящихся в среднем на одного жителя. Выборочное наблюдение субъектов.

    курсовая работа [117,9 K], добавлен 04.10.2008

  • Понятие и отличительные особенности выборочного статистического исследования, условия и возможности его применения в конкретной ситуации. Оценка преимуществ и недостатков данной разновидности исследований перед другими. Логика выборочного наблюдения.

    контрольная работа [47,1 K], добавлен 04.11.2010

  • Сущность понятий выборки и выборочного наблюдения, основные виды и категории отбора. Определение объема и численности выборки. Практическое применение статистического анализа выборочного наблюдения. Расчет ошибок выборочной доли и выборочной средней.

    курсовая работа [132,8 K], добавлен 17.02.2015

  • Проведение уточнения величины валового внутреннего продукта региона с использованием распределения малых предприятий по объему выпуска продукции, полученной на основе десятипроцентного выборочного наблюдения. Средний размер произведенной продукции.

    задача [87,2 K], добавлен 00.00.0000

  • Понятие и основные виды выборочного наблюдения. Ошибки выборочного статистического наблюдения. Определение генеральной совокупности, проблема соотношения выборки и совокупности. Точечная и интервальная оценка параметров генеральной совокупности.

    контрольная работа [32,6 K], добавлен 02.12.2015

  • Классификация ошибок наблюдения в зависимости от причин возникновения. Особенности ошибок регистрации и репрезентативности. Преимущества выборочного наблюдения перед сплошным. Допустимый уровень ошибки. Понятие ряда динамики в статистической науке.

    контрольная работа [73,8 K], добавлен 22.06.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.