Методи перевірки статистичних гіпотез

Поняття про статистичні гіпотези. Критерії Фішера і Романовського на основі критерію "хі-квадрат". Квантилі розподілу Колмогорова. Сутність перевірки статистичних гіпотез на основі теорії Пірсона. Характеристика закону розподілу випадкової величини.

Рубрика Экономико-математическое моделирование
Вид реферат
Язык украинский
Дата добавления 12.02.2011
Размер файла 197,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

1

Методи ПЕРЕВІРКи СТАТИСТИЧНИХ ГІПОТЕЗ

1. Поняття про статистичні гіпотези і критерії їхньої перевірки

Статистичною гіпотезою називається припущення про вигляд невідомого розподілу чи про невідоме значення параметра відомого розподілу, або про наявність кореляційного зв'язку між випадковими величинами з невідомим законом розподілу. Такими є, наприклад, припущення: 1) генеральна сукупність розподілена за біноміальним законом; 2) дисперсії двох нормальних сукупностей рівні між собою; 3) коефіцієнт кореляції між двома випадковими величинами дорівнює нулю. Ці гіпотези називаються простими, тому що містять тільки по одному припущенню.

Складною називається гіпотеза, яка складається з кінцевого чи нескінченного числа простих гіпотез. Прикладом такої гіпотези є припущення про те, що параметр розподілу Бернуллі належить інтервалу , тому що це припущення еквівалентно незліченній безлічі простих гіпотез вигляду

,

де - будь-яке число з інтервалу (0,55; 0,70).

Статистична гіпотеза висувається на основі багаторазово проведених вибірок з генеральної сукупності і побудови вибіркового розподілу розглянутої статистики. Далі для її перевірки проводять наступні процедури:

- вибір закону розподілу оцінки параметра в припущенні справедливості висунутої статистичної гіпотези, якщо він невідомий і його вигляд сам не є статистичною гіпотезою;

- розрахунок точкової оцінки параметра;

- виділення на числовій осі області практично достовірного і практично неможливого існування оцінки параметра;

- прийняття статистичної гіпотези, якщо точкова оцінка потрапила в область практичної вірогідності, і її невизнання, якщо точкова оцінка потрапила в область практичної неможливості.

Правило, що дозволяє прийняти чи відкинути висунуту статистичну гіпотезу в залежності від того, в яку область існування потрапила статистика вибірки, називається критерієм статистичної гіпотези.

Висування гіпотези з подальшим її підтвердженням або запереченням, по суті, означає, що одночасно з цією гіпотезою висувається альтернативна їй гіпотеза. При цьому перша з них, яка позначається , називається випробуваною (нульовою) гіпотезою, а друга - альтернативною гіпотезою. Висунута гіпотеза в дійсності може бути правильною чи неправильною. При її статистичній перевірці, як у першому, так і в другому випадку, можна зробити також два висновки про її істинність: "вона правильна" чи "вона неправильна".

У результаті правильне рішення може бути прийняте у двох випадках:
1) гіпотеза приймається, коли вона є вірною; 2) гіпотеза відкидається, коли вона в дійсності невірна. Аналогічно і помилковий висновок про істинність гіпотези може бути зроблено також у двох випадках: відкидається вірна гіпотеза або приймається помилкова гіпотеза. Тобто можуть бути допущені помилки двох різновидів (табл. 1).

Таблиця 1. Можливі сполучення ухвалення рішення про істинність гіпотези з її дійсною істинністю.

Дійсність Рішення

Дійсна істинність гіпотези

Прийняття рішення про істинність гіпотези

"Істинна "

Вірне рішення з ймовірністю

Помилка 2-го роду з ймовірністю

"Істинна "

Помилка 1-го роду з ймовірністю

Вірне рішення з ймовірністю

Помилкою першого роду називають заперечення правильної гіпотези. Її ймовірність називають рівнем значущості і позначають звичайно символом . Найчастіше рівень значущості вибирають рівним 0,05 чи 0,01.

Помилка другого роду полягає в прийнятті гіпотези, що перевіряється, коли вона невірна. Ймовірність помилки другого роду позначимо через .

Величину , зміст якої полягає в ймовірності визнати правильною істинну гіпотезу , називають надійністю критерію; а величину (ймовірність відкинути основну гіпотезу, якщо вона помилкова) - потужністю критерію.

Очевидно, що бажана мінімізація помилок, як першого, так і другого роду, при заданому обсязі вибірки одночасно неможлива (цього можна домогтися лише за рахунок збільшення обсягу вибірки), що наочно продемонстровано на рис. 1, де наведено типові функції щільності розподілу

і .

Рисунок 1 - Щільності ймовірності помилок

, .

У принципі, вибір з двох альтернативних гіпотез основної (нульової) гіпотези , що випробується, є досить довільним. Однак він спричиняє два протилежні варіанти в термінології для двох можливих помилок (яка з них буде названа помилкою першого роду і яка - другого), що звичайно є нерівнозначними за своїх наслідків. Тому вибір основної випробуваної (нульової) гіпотези проводиться відповідно до загальноприйнятої домовленості про те, що більш важкою за своїми наслідками має бути помилка першого роду.

Критерій для перевірки нульової гіпотези. Для перевірки нульової гіпотези використовують спеціально підібрану випадкову величину, розподіл якої є відомим. Її традиційно позначають символом: чи , якщо вона розподілена нормально; чи за законом розподілу Снедекора-Фишера; - при розподілі Стьюдента та у випадку розподілу за законом "хі-квадрат". Для спільності при загальному аналізі її будемо позначати як .

Статистичним критерієм (критерієм) називається випадкова величина , що застосовується для перевірки нульової гіпотези.

Наприклад, під час перевірки гіпотези про рівність дисперсій двох нормальних генеральних сукупностей у якості критерію приймають відношення виправлених вибіркових дисперсій (1.7):

.

Ця характеристика є випадковою величиною, розподіленою за законом Снедекора-Фишера (2.9), тому її і позначено літерою .

Для перевірки гіпотези за даними вибірок обчислюють конкретні окремі значення величин, що входять до критерію, при цьому одержують окреме значення критерію.

Окремим (таким, що спостерігається) значенням називають значення критерію, що було обчислене по даним вибірки. Наприклад, якщо по двох вибірках знайдено виправлені вибіркові дисперсії і , то

.

Критерій рівня значимості називається оптимальним, якщо він забезпечує мінімум ймовірності помилки другого роду (максимум потужності) серед усіх критеріїв того ж рівня значимості. Можна показати, що задача побудови оптимального критерію рівня значимості може бути завжди розв'язна лише у разі простої гіпотези. У загальному випадку оптимальний критерій не завжди існує.

Область прийняття гіпотези. Безліч усіх можливих значень обраного критерію являє собою деякий інтервал, що точками розподілу (їх позначають як і називають критичними) розбивається на дві непересічні підмножини. Одна з них містить значення критерію, при яких нульова гіпотеза відкидається, а інша - при який вона приймається.

Областю прийняття гіпотези (областю припустимих значень) називають сукупність значень критерію, при яких гіпотезу приймають.

Критичною областю називають сукупність значень критерію, при яких нульову гіпотезу відкидають.

Розрізняють однобічні: правосторонню та лівосторонню критичні області, що обумовлені нерівностями чи , відповідно; а також двосторонню, у випадку якої нульову гіпотезу відкидають під час виконання сукупності нерівностей:

де .

Критичні точки і критичні області знаходять відповідно до принципу практичної неможливості малоймовірних подій в окремому випробуванні.

Наприклад, у випадку правобічної критичної області задаються достатньою малою ймовірністю - рівнем значимості . Потім за його значенням з урахуванням його змісту (ймовірність заперечення правильної гіпотези), використовуючи таблиці розподілу конкретного критерію , знаходять критичну точку і критичну область відповідно до умови:

.

Після цього за даними вибірок знаходять величину і зіставляють її із значенням . У випадку нульову гіпотезу відкидають. Якщо ж , причин, щоб відкинути нульову гіпотезу, немає.

2. Перевірка статистичних гіпотез відносно закону розподілу

2.1 Загальні положення

Часом закон розподілу випадкової величини, що досліджується, невідомий, але є припущення, що він має визначений вигляд. Перевірка цієї гіпотези є однією з головних задач математичної статистики.

У загальній постановці задача статистичної перевірки гіпотези про закон розподілу формулюється у такий спосіб.

За результатами випробувань отримано статистичну оцінку закону розподілу випадкової величини , що зображено на рис. 2 у вигляді емпіричної функції розподілу . Формулюється статистична гіпотеза про те, що закон розподілу випадкової величини , що досліджується, має вигляд, кривої на тому ж рисунку.

Перевірка гіпотези про можливий закон невідомого розподілу проводиться так само, як і перевірка гіпотези про параметри розподілу, тобто за допомогою спеціально підібраної випадкової величини - критерію згоди.

Критерієм згоди називають критерій перевірки гіпотези про передбачуваний закон невідомого розподілу. Він характеризує неузгодженість між гіпотетичним і емпіричним законами. Ступінь їх близькості може оцінюватися різними способами. Наприклад, за сумою модулів різниці між і або їхніх квадратів для усіх вибіркових значень , чи з модуля максимальної різниці між і .

Рисунок 2 - Теоретична та емпірична функції розподілів

Вибравши міру неузгодженості (статистику критерію), проводять оцінку закону її розподілу. Задавшись рівнем значущості , будують критичну область. Потім обчислюють значення критерію, що спостерігається, і визначають, в яку область можливих значень статистики критерію воно потрапило. Якщо вибіркове значення статистики знаходиться поза критичної області, то гіпотезу, що перевіряється, приймають, у протилежному випадку її відкидають. З множини відомих критеріїв згоди та їх модифікацій ми розглянемо тільки основні: критерій Пірсона, критерій Колмогорова і критерій Мізеса-Смирнова, причому більше уваги буде приділено першому з них у зв'язку з його практичною важливістю і широким застосуванням.

статистичний гіпотеза пірсон колгоморов

2.2 Критерій згоди Пірсона

Припустимо, що гіпотеза, яка перевіряється, цілком визначає вигляд закону розподілу досліджуваної випадкової величини (дискретної чи неперервної), тобто вона є простою.

Розіб'ємо всю область визначення випадкової величини на інтервалів і як міру неузгодженості гіпотетичного й емпіричного розподілів розглянемо введену Пірсоном величину , що дорівнює

, (1)

де: - обсяг вибірки;

- кількість інтервалів;

- частота влучення вибіркових значень до -го інтервалу;

- теоретична ймовірність влучення до -го інтервалу, обчислена з використанням закону розподілу випадкової величини відповідно до гіпотези, що випробується.

На практиці замість (1) звичайно використовують більш зручну для розрахунків формулу, яку легко одержати з (1):

. (2)

Пірсоном доведено теорему, відповідно до якої при закон розподілу випадкової величини (1) прагне до закону розподілу "хі-квадрат" з ступенями волі, незалежно від того, якому закону розподілу підлягає генеральна сукупність. Чисельність ступенів волі знаходять за формулою

,

де - кількість груп (часткових інтервалів) вибірки.

Таким чином, для перевірки за критерієм квадрат гіпотези про передбачуваний закон невідомого розподілу необхідно, використовуючи результати вибіркового обстеження, за формулою (2) розрахувати вибіркове значення статистики . Потім, задавшись рівнем значущості і числом ступенів волі, визначають критичну точку .

У разі , гіпотеза, що випробується, приймається, у противному випадку , її відкидають.

Критерій згоди Пірсона є самим раннім, досить універсальним і найбільш поширеним. Він дозволяє перевіряти будь-які статистичні гіпотези (прості і складні) для будь-якого класу розподілів як дискретних, так і неперервних випадкових величин. Однак у нього є і ряд обмежень.

Він вимагає досить великого обсягу вибірки (), є досить трудомістким, результати статистичних висновків залежать від кількості інтервалів, вибір яких у достатній мері має суб'єктивний характер. Рекомендується область існування випадкової величини розбивати на інтервали, для яких виконувалася б умова (щоб кожна група містила не менш ніж 5 - 8 варіант). Малочислені групи при цьому необхідно поєднувати в одну, підсумовуючи частоти.

Для подолання недоліків критерію згоди Пірсона на його основі були розроблені його модифікації, а також були запропоновані принципово інші критерії.

2.3 Критерії Фішера і Романовського на основі критерію "хі-квадрат"

Застосування критерію згоди Пірсона потребує цілком визначеного гіпотетичного розподілу. Однак на практиці така можливість зустрічається рідко.

Звичайно клас гіпотетичного розподілу може бути обґрунтований досить переконливо, а параметри цього розподілу невідомі (складна гіпотеза). У цьому випадку для визначення ймовірностей влучення в інтервал у формулах (1) і (2), замість істинних значень параметрів доводиться підставляти їхні оцінки. При цьому ймовірності самі стають випадковими величинами і закон розподілу статистики (1) стане відмінним від того, що сформульовано у теоремі Пірсона.

Фішер заново знайшов граничний розподіл величини

, (3)

де - ймовірність влучення до -го інтервалу, яку обчислено за гіпотетичним розподілом з використанням оцінок параметрів. Він довів, що величина , обумовлена формулою (3), при має розподіл "хі-квадрат" з ступенями волі, де - число параметрів гіпотетичного розподілу, що оцінені за даними вибірки відповідно методу максимальної правдоподібності.

Отже, якщо в гіпотетичний розподіл замість параметрів підставити їхні оцінки, то характер розподілу не змінюється, а тільки зменшується на одиниць кількість ступенів волі. Зокрема, якщо передбачуваний розподіл - нормальний, оцінюють два параметри (математичне сподівання і середнє квадратичне відхилення), тому і число ступенів волі . У випадку, якщо генеральна сукупність приблизно розподілена за законом Пуассона, оцінюється один параметр , отже тепер .

Романовський запропонував спрощений критерій перевірки статистичних гіпотез на основі критерію Пірсона, який не потребує застосування таблиць розподілу "хі-квадрат". Він досліджував статистику , що являє собою функціональне перетворення статистики критерію Пірсона:

,

де використано ті ж позначення, що і раніше.

У якості критичної області вибирається область, нижньою границею якої є число 3. Якщо >3, то гіпотеза, що випробується, відкидається, а якщо <3, її приймають.

Характерною вадою цього наближеного критерію є його інваріантість щодо рівня значущості ; перевагою - фіксована критична точка, для визначення якої не потрібно мати будь-які таблиці.

2.4 Інші критерії перевірки статистичних гіпотез

З критеріїв перевірки статистичних гіпотез, істотно відмінних від критерію Пірсона, заслуговують на увагу лише два: критерій Колмогорова і критерій Мізеса-Смирнова.

Критерій Мізеса-Смирнова було розроблено спеціально для невеликих обсягів вибірок, для яких відзначений раніше недолік критерію Пірсона виявляється настільки сильно, що зневажати цим не можна. Критерій Мізеса-Смирнова рекомендується застосовувати, для перевірки простої статистичної гіпотези, коли гіпотетичний закон розподілу передбачається відомим з точністю до параметрів.

У цьому критерії у якості міри неузгодженості (статистики критерію) застосовується величина , обумовлена інтегралом у визначені Стілтьеса

, (4)

яка має сенс середнього квадрата розбіжностей між гіпотетичним і емпіричним розподілами в усіх можливих значеннях аргументу . Для одержання самого критерію величину множать на обсяг вибірки .

При розрахунках складний інтеграл (4), що завдає клопоту, замінюють наближеною формулою

, (5)

де - -й елемент варіаційного ряду, тобто ряду, впорядкованого за зростаннями значень вибіркової сукупності ( < < < ... < );

- значення гіпотетичної функції розподілу у точці ;

- обсяг вибірки.

Обчисливши значення критерію за формулою (5) з даних вибірки, порівнюють його з критичною точкою, що знаходять в таблиці 2 при обраному рівні значущості .

Таблиця 2

Рівень значущості

0,2

0,1

0,05

0,01

0,001

Критична точка

0,2412

0,3473

0,4614

0,7435

1,1679

Якщо випробувану гіпотезу приймають, якщо навпроти - гіпотезу відкидають.

Критерій Колмогорова було розроблено для перевірки простої статистичної гіпотези у випадку гіпотетичної функції розподілу , відомої з точністю до параметрів, що до того ж є неперервною і має похідну в кожній точці області існування випадкової величини .

У якості критерію (міри) неузгодженості використовується статистика вигляду

, (6)

,

- обсяг вибірки.

Колмогоров знайшов граничний розподіл випадкової величини при :

.

Квантилі розподілу Колмогорова табульовані і наведені в таблиці 3:

Таблиця 3

0,99

0,44

0,50

0,83

0,15

1,14

0,90

0,57

0,40

0,89

0,10

1,22

0,80

0,64

0,30

0,97

0,05

1,36

0,70

0,71

0,25

1,02

0,02

1,52

0,60

0,77

0,20

1,07

0,01

1,63

Розраховане за формулою (6) значення статистики порівнюється з критичною точкою з таблиці квантилів розподілу Колмогорова при заданому рівні значимості . Якщо випробувану гіпотезу приймають, у разі - її відхиляють.

Размещено на Allbest.ru


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.