Математическая статистика

Выборочный метод и его основные понятия. Эмпирическая функция распределения и ее свойства. Проверка статистических гипотез, область их принятия, элементы теории корреляции и выборочные уравнения регрессии. Характеристика цепей Маркова и матрица перехода.

Рубрика Математика
Вид реферат
Язык русский
Дата добавления 25.02.2011
Размер файла 166,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

ОСНОВЫ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

Выборочный метод и его основные понятия

Установление закономерностей, которым подчиняются массовые случайные явления, основано на изучение методами теории вероятностей статистических данных - результатов наблюдений.

Первая задача математической статистики - указать способы сбора и группировки статистических данных, полученных в результате наблюдений или в результате специально поставленных экспериментов.

Второй задачей математической статистики является разработка методов анализа статистических данных в зависимости от целей исследования. К этой задаче относятся: оценка неизвестной вероятности события; оценка неизвестной функции распределения; оценка параметров распределения, вид которого известен; оценка зависимости случайной величины от одной или нескольких случайных величин и т.п.

Проверка статистических гипотез о виде неизвестного распределения или о величине параметров распределения, вид которого известен.

Современную математическую статистику можно определить как науку о принятии решений в условиях неопределенности, так как она разрабатывает способы определения числа необходимых испытаний до начала исследования (планирование эксперимента), в процессе исследования (последовательный анализ) и решает многие другие аналогичные задачи.

Пусть требуется изучить совокупность однородных объектов относительно некоторого качественного или количественного признака, характеризующего эти объекты. Например, для партии деталей качественным признаком может служить стандартность детали, а количественным - контролируемый размер детали.

В принципе, возможно проведение сплошного обследования, т.е. обследование всех объектов. На практике такое обследование применяется редко, например:

· из-за большого числа объектов;

· из-за дороговизны проведения операции контроля;

· из-за того, что контроль часто связан с разрушением объекта (проверка электролампы на долговечность ее работы), и т.д.

В таких случаях случайно отбирается и изучается ограниченное число объектов из совокупности.

Выборочной совокупностью или случайной выборкой называют совокупность случайно отобранных объектов.

Генеральной совокупностью называют совокупность объектов, из которых производится выборка.

Объемом совокупности (выборочной или генеральной) называют число объектов этой совокупности. Например, если из 1000 деталей отбирается для обследования 100, то объем генеральной совокупности N=1000, а объем выборки n = 100.

При составлении выборки можно поступать двумя способами: после того как объект отобран и исследован, его можно возвратить или не возвращать в генеральную совокупность. В связи с этим выборки подразделяются на повторные и бесповторные.

Повторной называют выборку, при которой отобранный объект (перед отбором следующего) возвращается в генеральную совокупность. При бесповторной выборке отобранный объект в генеральную совокупность не возвращается.

Для того чтобы по данным выборки можно было достаточно уверенно судить об интересующем признаке генеральной совокупности, необходимо, чтобы объекты выборки правильно его представляли. Выборка должна правильно представлять пропорции генеральной совокупности, т.е. выборка должна быть репрезентативной (представительной).

В силу закона больших чисел можно утверждать, что выборка будет репрезентативной, если ее осуществить случайно: каждый объект выборки отобран случайно из генеральной совокупности, если все объекты имеют одинаковую вероятность попасть в выборку.

Если объем выборки достаточно велик, а выборка составляет лишь незначительную часть совокупности, то различие между повторной и бесповторной выборкой стирается.

Способы отбора

На практике применяются различные способы отбора, которые можно подразделить на два вида:

1. Отбор, не требующий расчленения генеральной совокупности на части. Сюда относятся а) простой случайный бесповторный отбор и б) простой случайный повторный отбор.

2. Отбор, при котором генеральная совокупность разбивается на части. Сюда относятся а) типический отбор, б) механический отбор и в) серийный отбор.

Простым случайным называют отбор, при котором объекты извлекаются по одному из генеральной совокупности. Осуществить такой отбор для генеральной совокупности из N объектов можно, например, посредством записи на карточках номеров от 1 до N, последующем перемешиванием карточек и выниманием их наугад. При этом обследованию подлежат объекты, имеющие номера, совпадающие с номерами карточек. Если карточки возвращаются в пачку, то имеем простую случайную повторную выборку, в противном случае - простую бесповторную. При большом объеме генеральной совокупности более рациональным является использование таблиц случайных чисел. Например, чтобы выбрать 50 объектов из пронумерованной генеральной совокупности, открывают любую страницу таблицы случайных чисел и выписывают 50 чисел подряд; в выборку попадают те объекты, номера которых совпадают с выписанными случайными числами. Если случайное число таблицы превосходит число N, такое число пропускают. При проведении бесповторной выборки пропускают также случайные числа, уже встречавшиеся раньше.

Типическим называют отбор, при котором объекты отбираются не из всей генеральной совокупности, а из каждой ее «типической» части. Например, если детали изготовлены на нескольких станках, то отбор производят из продукции каждого станка в отдельности.

Механическим называют отбор, при котором генеральная совокупность механически делится на столько групп, сколько объектов должно войти в выборку, а из каждой группы выбирается один объект. Например, если нужно отобрать 20% изготовленных станком деталей, то отбирают каждую пятую деталь.

Серийным называют отбор, при котором объекты отбирают из генеральной совокупности не по одному, а «сериями», которые подвергаются сплошному обследованию. Например, если изделия производятся большой группой станков-автоматов, то подвергают сплошному обследованию продукцию только нескольких станков. Этим видом отбора пользуются тогда, когда обследуемый признак колеблется в различных сериях незначительно.

На практике часто применяют комбинированный отбор, при котором сочетаются указанные выше способы. Например, разбивают генеральную совокупность на серии одинакового объема, затем простым случайным отбором выбирают несколько серий и, наконец, из каждой серии простым случайным отбором извлекают отдельные объекты.

Вариационный ряд для дискретных и непрерывных случайных величин

Пусть из генеральной совокупности извлечена выборка, причем значение исследуемого параметра наблюдалось раз, - раз и т.д. При этом объем выборки. Наблюдаемые значения называют вариантами, а последовательность вариант, записанных в возрастающем порядке - вариационным рядом. Числа наблюдений называют частотами, а их отношения к объему выборки - относительными частотами.

Вариационный ряд можно представить таблицей вида:

X

…..

n

….

Статистическим распределением выборки называют перечень вариант и соответствующих им относительных частот. Статистическое распределение можно представить как:

X

…..

w

….

где относительные частоты .

Заметим, что в теории вероятностей под распределением понимают соответствие между возможными значениями случайной величины и их вероятностями, а в математической статистике - соответствие между наблюдаемыми вариантами и их частотами или относительными частотами.

Приведенный способ представления статистических данных применяют в случае дискретных случайных величин. Для непрерывных случайных величин удобнее разбить отрезок [a,b] возможных значений случайной величины на частичные полуинтервалы ( замкнут также и справа) с помощью некоторой системы точек . Часто разбиение [a,b] производят на равные части, тогда:

где .

В качестве частот теперь надо брать количество наблюдаемых значений, попавших на каждый из частичных интервалов . Вариационный ряд имеет в таком случае вид:

X

…..

n

….

А статистическое распределение -

X

…..

n

….

Полигон и гистограмма

Для наглядности строят различные графики статистического распределения, в частности, полигон и гистограмму.

Полигоном частот называют ломаную линию, отрезки которой соединяют точки . Для построения полигона частот на оси абсцисс откладывают варианты , а на оси ординат - соответствующие им частоты и соединяют точки отрезками прямых.

Полигон относительных частот строится аналогично, за исключением того, что на оси ординат откладываются относительные частоты .

В случае непрерывного признака строится гистограмма, для чего интервал, в котором заключены все наблюдаемые значения признака, разбивают на несколько частичных интервалов длиной h и находят для каждого частичного интервала - сумму частот вариант, попавших в i-й интервал.

Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которой служат частичные интервалы длиною h, а высоты равны отношению . Для построения гистограммы частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии (высоте) . Площадь i-го прямоугольника равна - сумме частот вариант i-о интервала, поэтому площадь гистограммы частот равна сумме всех частот, т.е. объему выборки.

В случае гистограммы относительных частот по оси ординат откладываются относительные частоты , на оси абсцисс - частичные интервалы, над ними проводят отрезки, параллельные оси абсцисс на высоте . Площадь i-го прямоугольника равна относительной частоте вариант , попавших в i-й интервал. Поэтому площадь гистограммы относительных частот равна сумме всех относительных частот, то есть единице.

Эмпирическая функция распределения и ее свойства

Пусть известно статистическое распределение частот количественного признака X. Обозначим через число наблюдений, при которых наблюдалось значение признака, меньшее x и через n - общее число наблюдений. Очевидно, относительная частота события X<x равна и является функцией x. Так как эта функция находится эмпирическим (опытным) путем, то ее называют эмпирической.

Эмпирической функцией распределения (функцией распределения выборки) называют функцию , определяющую для каждого значения x относительную частоту события X<x. Таким образом, по определению , где - число вариант, меньших x, n - объем выборки.

В отличие от эмпирической функции распределения выборки, функцию распределения генеральной совокупности называют теоретической функцией распределения. Различие между этими функциями состоит в том, что теоретическая функция определяет вероятность события X<x, тогда как эмпирическая - относительную частоту этого же события.

При росте n относительная частота события X<x, т.е. стремится по вероятности к вероятности этого события. Иными словами:

.

Свойства эмпирической функции распределения

Значения эмпирической функции принадлежат отрезку [0,1].

- неубывающая функция.

Если - наименьшая варианта, то =0 при ,

если - наибольшая варианта, то =1 при .

Эмпирическая функция распределения выборки служит для оценки теоретической функции распределения генеральной совокупности.

Пример. Построим эмпирическую функцию по распределению выборки:

Варианты

2

6

10

Частоты

12

18

30

Найдем объем выборки: 12+18+30=60. Наименьшая варианта равна 2, поэтому =0 при x2. Значение x6, т.е. , наблюдалось 12 раз, следовательно, =12/60=0,2 при 2<x6. Аналогично, значения X10, т.е. и наблюдались 12+18=30 раз, поэтому =30/60 =0,5 при 6<x10. Так как

x=10 - наибольшая варианта, то =1 при x>10. таким образом, искомая эмпирическая функция имеет вид:

Статистические оценки параметров распределения. Состоятельность и несмещенность статистических оценок

Пусть требуется изучить некоторый количественный признак генеральной совокупности. Допустим, что из теоретических соображений удалось установить, какое именно распределение имеет признак и необходимо оценить параметры, которыми оно определяется. Например, если изучаемый признак распределен в генеральной совокупности нормально, то нужно оценить математическое ожидание и среднее квадратическое отклонение; если признак имеет распределение Пуассона - то необходимо оценить параметр .

Обычно имеются лишь данные выборки, например значения количественного признака , полученные в результате n независимых наблюдений. Рассматривая как независимые случайные величины можно сказать, что найти статистическую оценку неизвестного параметра теоретического распределения - это значит найти функцию от наблюдаемых случайных величин, которая дает приближенное значение оцениваемого параметра. Например, для оценки математического ожидания нормального распределения роль функции выполняет среднее арифметическое:

Для того чтобы статистические оценки давали корректные приближения оцениваемых параметров, они должны удовлетворять некоторым требованиям, среди которых важнейшими являются требования несмещенности и состоятельности оценки.

Пусть - статистическая оценка неизвестного параметра теоретического распределения. Пусть по выборке объема n найдена оценка . Повторим опыт, т.е. извлечем из генеральной совокупности другую выборку того же объема и по ее данным получим другую оценку . Повторяя опыт многократно, получим различные числа . Оценку можно рассматривать, как случайную величину, а числа - как ее возможные значения.

Если оценка дает приближенное значение с избытком, т.е. каждое число больше истинного значения то, как следствие, математическое ожидание (среднее значение) случайной величины больше, чем :

.

Аналогично, если дает оценку с недостатком, то .

Таким образом, использование статистической оценки, математическое ожидание которой не равно оцениваемому параметру, привело бы к систематическим (одного знака) ошибкам. Если, напротив, , то это гарантирует от систематических ошибок.

Несмещенной называют статистическую оценку , математическое ожидание которой равно оцениваемому параметру при любом объеме выборки .

Смещенной называют оценку, не удовлетворяющую этому условию.

Несмещенность оценки еще не гарантирует получения хорошего приближения для оцениваемого параметра, так как возможные значения могут быть сильно рассеяны вокруг своего среднего значения, т.е. дисперсия может быть значительной. В этом случае найденная по данным одной выборки оценка, например , может оказаться значительно удаленной от среднего значения , а значит, и от самого оцениваемого параметра.

Эффективной называют статистическую оценку, которая, при заданном объеме выборки n, имеет наименьшую возможную дисперсию.

При рассмотрении выборок большого объема к статистическим оценкам предъявляется требование состоятельности.

Состоятельной называется статистическая оценка, которая при n стремится по вероятности к оцениваемому параметру. Например, если дисперсия несмещенной оценки при n стремится к нулю, то такая оценка оказывается и состоятельной.

Выборочные среднее и дисперсия

Пусть для изучения генеральной совокупности относительно количественного признака X извлечена выборка объема n.

Выборочным средним называют среднее арифметическое значение признака выборочной совокупности. Если все значения признака выборки объема n различны, то:

.

Если значения признака имеют частоты соответственно, причем , то:

.

Выборочное среднее, найденное по данным одной выборки, равно определенному числу. При извлечении других выборок того же объема выборочное среднее будет меняться от выборки к выборке. То есть выборочное среднее можно рассматривать, как случайную величину, и можно говорить о его распределениях (теоретическом и эмпирическом) и о числовых характеристиках этого распределения (например, о математическом ожидании и дисперсии).

Для охарактеризования рассеяния наблюдаемых значений количественного признака выборки вокруг среднего значения вводится выборочная дисперсия. Выборочной дисперсией называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения . Если все значения признака выборки объема n различны, то:

.

Если значения признака имеют частоты соответственно, причем , то:

.

Аналогично выборочным среднему и дисперсии определяются генеральные среднее и дисперсия, характеризующие генеральную совокупность в целом. Для расчета этих характеристик достаточно в вышеприведенных соотношениях заменить объем выборки n на объем генеральной совокупности N.

Фундаментальное значение для практики имеет нахождение среднего и дисперсии признака генеральной совокупности по соответствующим известным выборочным параметрам. Можно показать, что выборочное среднее является несмещенной состоятельной оценкой генерального среднего. В то же время, несмещенной состоятельной оценкой генеральной дисперсии оказывается не выборочная дисперсия , а так называемая «исправленная» выборочная дисперсия, равная .

Таким образом, в качестве оценок генерального среднего и дисперсии в математической статистике принимают выборочное среднее и исправленную выборочную дисперсию.

Надежность и доверительный интервал

До сих пор мы рассматривали точечные оценки, т.е. такие оценки, которые определяются одним числом. При выборке малого объема точечная оценка может значительно отличаться от оцениваемого параметра, что приводит к грубым ошибкам. В связи с этим при небольшом объеме выборки пользуются интервальными оценками.

Интервальной называют оценку, определяющуюся двумя числами - концами интервала. Пусть найденная по данным выборки статистическая характеристика служит оценкой неизвестного параметра . Очевидно, тем точнее определяет параметр , чем меньше абсолютная величина разности . Другими словами, если и , то чем меньше , тем точнее оценка. Таким образом, положительное число характеризует точность оценки.

Статистические методы не позволяют утверждать, что оценка удовлетворяет неравенству , можно говорить лишь о вероятности, с которой это неравенство осуществляется.

Надежностью (доверительной вероятностью) оценки по называют вероятность , с которой осуществляется неравенство . Обычно надежность оценки задается заранее, причем, в качестве берут число, близкое к единице - как правило, 0,95; 0,99 или 0,999.

Пусть вероятность того, что равна :

.

Заменим неравенство равносильным ему двойным неравенством .

Это соотношение следует понимать так: вероятность того, что интервал заключает в себе (покрывает) неизвестный параметр , равна.

Таким образом, доверительным называют интервал , который покрывает неизвестный параметр с заданной надежностью .

Определение доверительных интервалов

статистический эмпирический корреляция регрессия матрица

Доверительный интервал для математического ожидания нормального распределения при известной дисперсии

Пусть количественный признак X генеральной совокупности распределен нормально, причем среднее квадратическое отклонение этого распределения известно. Требуется оценить неизвестное математическое ожидание a по выборочному среднему . Найдем доверительные интервалы, покрывающие параметр a с надежностью .

Будем рассматривать выборочное среднее , как случайную величину (т.к. меняется от выборки к выборке), и выборочные значения , как одинаково распределенные независимые случайные величины (эти числа также меняются от выборки к выборке). Другими словами, математическое ожидание каждой из этих величин равно a и среднее квадратическое отклонение - . Так как случайная величина X распределена нормально, то и выборочное среднее также распределено нормально. Параметры распределения равны:

.

Потребуем, чтобы выполнялось соотношение , где - заданная надежность.

Используем формулу .

Заменим X на и на и получим:

,

где .

Выразив из последнего равенства , получим:

.

Так как вероятность P задана и равна , окончательно имеем:

.

Смысл полученного соотношения - с надежностью можно утверждать, что доверительный интервал покрывает неизвестный параметр a, причем точность оценки равна .

Таким образом, задача решена. Число определяется из равенства ; по таблице функции Лапласа находят аргумент , которому соответствует значение функции Лапласа, равное .

Следует отметить два момента: 1) при возрастании объема выборки n число убывает и, следовательно, точность оценки увеличивается, 2) увеличение надежности оценки приводит к увеличению (так как функция Лапласа - возрастающая функция) и, следовательно, к возрастанию , то есть увеличение надежности оценки влечет за собой уменьшение ее точности.

Если требуется оценить математическое ожидание с наперед заданной точностью и надежностью , то минимальный объем выборки, который обеспечит эту точность, находят по формуле , следующей из равенства .

Доверительный интервал для математического ожидания нормального распределения при неизвестной дисперсии

Пусть количественный признак X генеральной совокупности распределен нормально, причем среднее квадратическое отклонение этого распределения неизвестно. Требуется оценить неизвестное математическое ожидание с помощью доверительных интервалов.

Оказывается, что по данным выборки можно построить случайную величину , которая имеет распределение Стьюдента с степенями свободы. В последнем выражении - - выборочное среднее, - исправленное среднее квадратическое отклонение, - объем выборки; возможные значения случайной величины T мы будем обозначать через t. Плотность распределения Стьюдента имеет вид:

,

где некоторая постоянная, выражающаяся через гамма-функции. Как видно, распределение Стьюдента определяется параметром n - объемом выборки (или, что то же самое - числом степеней свободы ) и не зависит от неизвестных параметров . Поскольку - четная функция от t , то вероятность выполнения неравенства определяется следующим образом:

.

Заменив неравенство в круглых скобках двойным неравенством, получим выражение для искомого доверительного интервала:

Итак, с помощью распределения Стьюдента найден доверительный интервал , покрывающий неизвестный параметр a с надежностью . По таблице распределения Стьюдента и заданным n и можно найти , и, используя найденные по выборке и , можно определить доверительный интервал.

Пример. Количественный признак X генеральной совокупности распределен нормально. По выборке объема n=16 найдены генеральное среднее и исправленное среднее квадратическое отклонение . Требуется оценить неизвестное математическое ожидание при помощи доверительного интервала с надежностью 0,95.

Решение. Найдем по таблице распределения Стьюдента, используя значения . Этот параметр оказывается равным 2,13. Найдем границы доверительного интервала:

.

То есть с надежностью 0,95 неизвестный параметр a заключен в доверительном интервале .

Можно показать, что при возрастании объема выборки n распределение Стьюдента стремится к нормальному. Поэтому практически при n>30 можно вместо него пользоваться нормальным распределением. При малых n это приводит к значительным ошибкам.

Доверительный интервал для оценки среднего квадратического отклонения нормального распределения

Пусть количественный признак X генеральной совокупности распределен нормально и требуется оценить неизвестное генеральное среднее квадратическое отклонение по исправленному выборочному среднему квадратическому отклонению s. Найдем доверительные интервалы, покрывающие параметр с заданной надежностью .

Потребуем, чтобы выполнялось соотношение:

или .

Преобразуем двойное неравенство в равносильное неравенство и обозначим /s=q. Имеем:

(A)

и необходимо найти q. С этой целью введем в рассмотрение случайную величину .

Оказывается, величина распределена по закону с n-1 степенями свободы. Плотность распределения имеет вид:

Это распределение не зависит от оцениваемого параметра , а зависит только от объема выборки n.

Преобразуем неравенство (A) так, чтобы оно приняло вид . Вероятность этого неравенства равна заданной вероятности , т.е.

.

Предполагая, что q<1, перепишем (A) в виде:

,

далее, умножим все члены неравенства на :

или .

Вероятность того, что это неравенство, а также равносильное ему неравенство (A) будет справедливо, равна:

.

Из этого уравнения можно по заданным найти , используя имеющиеся расчетные таблицы. Вычислив по выборке и найдя по таблице , получим искомый интервал (A1), покрывающий с заданной надежностью .

Пример. Количественный признак X генеральной совокупности распределен нормально. По выборке объема n=25 найдено исправленное среднее квадратическое отклонение s=0.8. Найти доверительный интервал, покрывающий генеральное среднее квадратическое отклонение с надежностью 0,95.

Решение. Используя заданные значения , по таблице находим значение q=0.32. Искомый доверительный интервал есть:

.

Необходимо сделать замечание. Мы предполагали, что q<1. Если это не так, то мы придем к соотношениям:

.

Следовательно, значение q >1 может быть найдено из уравнения:

Проверка статистических гипотез

Закон распределения определяет количественные характеристики генеральной совокупности.

Если закон распределения неизвестен, но есть основания предположить, что он имеет определенный вид (например, А), то выдвигают гипотезу: генеральная совокупность распределена по закону А. В этой гипотезе речь идет о виде предполагаемого распределения.

Часто закон распределения известен, но неизвестны его параметры. Если есть основания предположить, что неизвестный параметр равен определенному значению , то выдвигается гипотеза . То есть в этой гипотезе речь идет о предполагаемой величине параметра известного распределения.

Возможны и другие гипотезы: о равенстве параметров двух или нескольких распределений, о независимости выборок и т.д.

Статистической называют гипотезу о виде неизвестного распределения или о параметрах известных распределений. Примеры статистических гипотез: генеральная совокупность распределена по закону Пуассона; дисперсии двух нормальных распределений равны между собой.

Наряду с выдвинутой гипотезой рассматривают и противоречащую ей гипотезу. Если выдвинутая гипотеза будет отвергнута, то имеет место противоречащая гипотеза.

Нулевой (основной) называют выдвинутую гипотезу .

Альтернативной (конкурирующей) называют гипотезу , которая противоречит нулевой. Например, если нулевая гипотеза состоит в предположении, что математическое ожидание нормального распределения равно 5, то альтернативная гипотеза, например, может состоять в предположении, что . Кратко это записывают так: .

Простой называют гипотезу, содержащую только одно предположение. Например, если - параметр показательного распределения, то гипотеза - простая. Сложной называют гипотезу, состоящую из конечного или бесконечного числа простых гипотез. Например, сложная гипотеза состоит из бесконечного множества простых гипотез вида , где - любое число, большее 3.

Выдвинутая гипотеза может быть правильной или неправильной, поэтому возникает необходимость ее проверки. Так как проверку производят статистическими методами, то ее называют статистической. В итоге статистической проверки гипотезы в двух случаях может быть принято неправильное решение, т.е. могут быть допущены ошибки двух родов.

Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза. Ошибка второго рода состоит в том, что будет принята неправильная гипотеза. Следует отметить, что последствия ошибок могут оказаться различными. Если отвергнуто правильное решение «продолжать строительство жилого дома», то эта ошибка первого рода повлечет материальный ущерб; если же принято неправильное решение «продолжать строительство» несмотря на опасность обвала дома, то эта ошибка второго рода может привести к многочисленным жертвам. Иногда, наоборот, ошибка первого рода влечет более тяжелые последствия.

Правильное решение может быть принято также в двух случаях, когда принимается правильная гипотеза или отвергается неверная гипотеза.

Вероятность совершить ошибку первого рода принято обозначать через ; ее называют уровнем значимости. Чаще всего, уровень значимости принимают равным 0,05 или 0,01. Если, например, принят уровень значимости 0,05, то это означает, что в пяти случаях из ста имеется риск допустить ошибку первого рода (отвергнуть правильную гипотезу).

Статистический критерий

Для проверки нулевой гипотезы используют специально подобранную случайную величину, точное или приближенное распределение которой известно. Эту величину обозначают через U или Z, если она распределена нормально, через F - если она распределена по закону Фишера - Снедекора, через T - по закону Стьюдента, - по закону «хи квадрат» и т.п.

Статистическим критерием (или просто критерием) называют случайную величину (обозначим ее через K), которая служит для проверки нулевой гипотезы. Например, если проверяют гипотезу о равенстве дисперсий двух нормальных генеральных совокупностей, то в качестве критерия K принимают отношение исправленных выборочных дисперсий .

Очевидно, что эта величина случайная, т.к. в различных опытах дисперсии принимают различные, заранее неизвестные значения.

Наблюдаемым значением критерия Kнабл называют значение критерия, вычисленное по выборкам. Например, если в вышеприведенном случае , то Kнабл = 20/5 = 4.

Критическая область. Область принятия гипотезы. Критические точки

После выбора определенного критерия множество всех его возможных значений разбивают на два непересекающихся подмножества, одно из которых содержит значения критерия, при которых нулевая гипотеза отвергается, а другое - при которых она принимается.

Критической областью называют совокупность значений критерия, при которых нулевую гипотезу отвергают.

Областью принятия гипотезы (областью допустимых значений) называют совокупность значений критерия, при которых гипотезу принимают.

Основной принцип проверки статистических гипотез можно сформулировать так: если наблюдаемое значение критерия принадлежит критической области - гипотезу отвергают, если области принятия гипотезы - гипотезу принимают.

Так как критерий K - одномерная случайная величина, то все ее возможные значения принадлежат некоторому интервалу и, соответственно, должны существовать точки, разделяющие критическую область и область принятия гипотезы. Такие точки называются критическими точками.

Различают одностороннюю (правостороннюю и левостороннюю) и двустороннюю критические области.

Правосторонней называют критическую область, определяемую неравенством , где - положительное число.

Левосторонней называют критическую область, определяемую неравенством , где - отрицательное число.

Двусторонней называют критическую область, определяемую неравенствами , где . В частности, если критические точки симметричны относительно нуля, двусторонняя критическая область определяется неравенствами или равносильным неравенством . Различия между вариантами критических областей иллюстрирует следующий рисунок.

Рис. 1. Различные варианты критических областей a) правосторонняя, b) левосторонняя, с) двусторонняя

Резюмируя, сформулируем этапы проверки статистической гипотезы:

· Формулируется нулевая гипотеза ;

· Определяется критерий K, по значениям которого можно будет принять или отвергнуть и выбирается уровень значимости ;

· По уровню значимости определяется критическая область;

· По выборке вычисляется значение критерия K, определяется, принадлежит ли оно критической области и на основании этого принимается или .

Критерий согласия Пирсона о виде распределения

До сих пор мы предполагали, что закон распределения генеральной совокупности известен. Если закон распределения неизвестен, но есть основания предполагать, что он имеет определенный вид (назовем его А), то проверяют нулевую гипотезу: генеральная совокупность распределена по закону А. Проверка этой гипотезы производится при помощи специально подобранной случайной величины - критерия согласия.

Критерием согласия называют критерий проверки гипотезы о предполагаемом законе неизвестного распределения.

Имеется несколько критериев согласия, наиболее часто используемым является критерий согласия К.Пирсона («хи квадрат»). Ограничимся применением критерия Пирсона к проверке гипотезы о нормальном распределении генеральной совокупности.

Пусть по выборке объема n получено эмпирическое распределение:

Варианты……………………

Эмпирические частоты…….

Допустим, что в предположении нормального распределения генеральной совокупности вычислены теоретические частоты . При уровне значимости требуется проверить нулевую гипотезу: генеральная совокупность распределена нормально.

В качестве критерия проверки нулевой гипотезы примем случайную величину:

(А)

Естественно, чем меньше различаются эмпирические и теоретические частоты, тем меньше величина критерия, и, следовательно, он характеризует близость эмпирического и теоретического распределений.

Доказано, что при n закон распределения случайной величины (А) стремится к закону распределения с степенями свободы независимо от того, какому закону распределения подчинена генеральная совокупность. Поэтому сам критерий называют критерием согласия .

Число степеней свободы определяется из равенства , где s - число групп (частичных интервалов) выборки,

r - число параметров предполагаемого распределения. В частности, если предполагаемое распределение - нормальное, то оценивают два параметра (математическое ожидание и среднее квадратическое отклонение), поэтому число степеней свободы .

Построим правостороннюю критическую область, исходя из требования, чтобы вероятность попадания критерия в эту область в предположении справедливости нулевой гипотезы была равна принятому уровню значимости :

.

Таким образом, правосторонняя критическая область определяется неравенством , а область принятия нулевой гипотезы - соответственно неравенством . Обозначим значение критерия, вычисленного по данным наблюдений, через и сформулируем правило проверки нулевой гипотезы:

Для того, чтобы при заданном уровне значимости проверить нулевую гипотезу H0: генеральная совокупность распределена нормально, необходимо сначала вычислить теоретические частоты, а затем наблюдаемое значение критерия и по таблице критических точек распределения , по заданному уровню значимости и числу степеней свободы k=n-3 найти критическую точку . Если - нет оснований отвергать нулевую гипотезу. В противном случае нулевую гипотезу отвергают, считая, что генеральная совокупность не распределена по нормальному закону.

Отметим два обстоятельства.

Объем выборки должен быть достаточно велик (не менее 50). Каждая группа должна содержать не менее 5-8 вариант, а малочисленные группы следует объединять в одну, суммируя частоты.

Поскольку возможны ошибки первого и второго рода, следует проявлять осторожность. Например, можно повторить опыт, увеличить число наблюдений, построить предварительно график распределения и т.п.

Пример. При уровне значимости 0,05 проверить гипотезу о нормальном распределении генеральной совокупности, если известны эмпирические и теоретические частоты:

Эмпирические частоты

6

13

38

74

106

85

30

14

Теоретические частоты

3

14

42

82

99

76

37

13

Рассчитаем =7,19, число степеней свободы определим по соотношению k= -3=5 (в нашем случае s=8). Используя рассчитанные значения и k, по таблице критических точек распределения хи-квадрат при уровне значимости находим . Так как , то нет оснований отвергать нулевую гипотезу. Данные наблюдений согласуются с гипотезой о нормальном распределении генеральной совокупности.

Элементы теории корреляции

Две (или несколько) случайных величин могут быть связаны либо функциональной, либо статистической зависимостью.

Строгая функциональная зависимость реализуется редко, так как случайные величины подвержены действию случайных факторов, причем среди них могут быть и общие для двух или нескольких величин. В этом случае возникает статистическая зависимость.

Статистической называют зависимость, при которой изменение одной из величин влечет изменение распределения другой. В частности, статистическая зависимость проявляется в том, что при изменении одной из величин изменяется среднее значение другой - в этом случае статистическая зависимость называется корреляционной.

Пример корреляционной зависимости: урожай зерна Y зависит от количества внесенных удобрений X. С одинаковых по площади участков при равных количествах внесенных удобрений снимают разные урожаи. Это связано с влиянием случайных факторов (осадки, температура воздуха и др.). Вместе с тем, средний урожай зависит от количества удобрений, т.е. Y связано с X корреляционной зависимостью.

При рассмотрении взаимосвязей, как правило, рассматривают одну из величин как независимую (объясняющую), а другую как зависимую (объясняющую). При этом изменение первой из них может служить причиной изменения другой. Например, рост дохода ведет к увеличению потребления; рост цены - к снижению спроса; снижение процентной ставки увеличивает инвестиции и т.д. Подобная зависимость не является однозначной в том смысле, что каждому конкретному значению объясняющей переменой может соответствовать не одно, а множество значений из некоторой области. Другими словами, каждому конкретному значению X соответствует некоторое вероятностное распределение зависимой переменной. Поэтому анализируют, как объясняющая переменная (или переменные) влияет (или влияют) на зависимую переменную «в среднем». Зависимость такого типа, выражаемая соотношением:

называется функцией регрессии Y на X. При рассмотрении зависимости двух случайных величин говорят о парной регрессии.

Зависимость нескольких переменных, выражаемую функцией , называют множественной регрессией.

Под регрессией понимается функциональная зависимость между объясняющими переменными и условным математическим ожиданием (средним значением) зависимой переменной Y, которая строится с целью предсказания (прогнозирования) среднего значения Y при фиксированных значениях независимых переменных.

Так как реальные значения зависимой переменной не всегда совпадают с ее средним значением и могут быть различными при данном X (или ), зависимость должна быть дополнена некоторым слагаемым , которое, по существу, является случайной величиной. Получающиеся в результате соотношения:

или

называются регрессионными моделями (или уравнениями).

Решение задачи построения качественного уравнения регрессии, соответствующего эмпирическим данным и целям исследования, является достаточно сложным и многоступенчатым процессом. Его можно разбить на три этапа:

· выбор формулы уравнения регрессии;

· определение параметров выбранного уравнения;

· анализ качества уравнения и проверка адекватности уравнения эмпирическим данным и, при необходимости, совершенствование уравнения.

Выборочные уравнения регрессии

Для определения значений теоретических коэффициентов, входящих в уравнения регрессии, вообще говоря, необходимо знать и использовать все значения переменных генеральной совокупности, что практически невозможно. В связи с этим по выборке ограниченного объема строится так называемое выборочное (эмпирическое) уравнение регрессии. В силу несовпадения статистической базы для генеральной совокупности и выборки оценки коэффициентов, входящих в уравнение регрессии, практически всегда отличаются от истинных (теоретических) значений, что приводит к несовпадению эмпирической и теоретической линий регрессии. Различные выборки из одной и той же генеральной совокупности обычно приводят к отличающимся друг от друга оценкам. Задача состоит в том, чтобы по конкретной выборке найти оценки неизвестных параметров так, чтобы построенная линия регрессии являлась бы наилучшей, среди всех других линий.

Линейная регрессия

Если функция регрессии линейна, то говорят о линейной регрессии. Линейная регрессия (линейное уравнение) является наиболее распространенным (и простым) видом зависимости между экономическими переменными. Для этого простейшего случая имеем:

или

Последнее соотношение называется теоретической линейной регрессионной моделью; коэффициенты - теоретическими параметрами регрессии; - случайным отклонением.

По выборке ограниченного объема строится выборочное уравнение регрессии:

,(1)

где - оценки неизвестных параметров , называемые выборочными (эмпирическими) коэффициентами регрессии, - оценка условного математического ожидания . Для величин справедлива формула:

,(2)

где отклонение - оценка теоретического отклонения .

Построенная прямая выборочной регрессии должна наилучшим образом описывать эмпирические данные, т.е. коэффициенты должны быть такими, чтобы случайные отклонения были минимальны. Наиболее распространенным методом нахождения коэффициентов уравнения регрессии является метод наименьших квадратов (МНК).

Если по выборке требуется определить оценки выборочного уравнения регрессии (2), то вводится в рассмотрение и минимизируется функция:

.

Необходимым условием существования минимума данной функции двух переменных является равенство нулю ее частных производных по неизвестным параметрам :

.

Отсюда:

,

выразив из последних соотношений коэффициенты, получим окончательно:

,(3)

где введены обозначения:

.

Множественная линейная регрессия

На любой экономический показатель, чаще всего, оказывает влияние не один, а несколько факторов. Например, спрос на некое благо определяется не только ценой данного блага, но и ценами на замещающие и дополняющие блага, доходом потребителей и многими другими факторами. В этом случае рассматривается множественная регрессия:

.

Теоретическое линейное уравнение регрессии имеет вид:

,

или для индивидуальных наблюдений :

.

Параметры регрессии могут быть найдены в случае, если . Самым распространенным методом оценки параметров уравнения множественной линейной регрессии также является метод наименьших квадратов.

Нелинейная регрессия

Многие экономические зависимости не являются линейными, и поэтому их моделирование линейными уравнениями регрессии не может дать положительного результата. Например, при анализе эластичности спроса по цене применяется так называемая логарифмическая модель, при анализе издержек от объема выпуска - полиномиальная (кубическая) модель. Достаточно широко применяются и многие другие модели - в частности, обратная и экспоненциальная модели. Кратко рассмотрим некоторые из моделей нелинейной регрессии.

Логарифмическая модель

Пусть некоторая экономическая зависимость моделируется формулой , где A, - параметры модели. Эта функция может отражать зависимость спроса Y на благо от его цены X

(в этом случае 0) или от дохода X (0 - функция Энгеля). Прологарифмировав обе части последнего соотношения, получим , замена переменных вида позволяет формально свести уравнение к линейному виду:

.

По МНК можно рассчитать значения параметров аналогично случаю линейной модели (при этом вместо наблюдений рассматриваются наблюдения ).

Обратная модель

Обратная модель имеет вид .

Заменой эта модель сводится к линейной. Модель применяется, например, для характеристики связи удельных расходов сырья, материалов, топлива с объемом выпускаемой продукции. Кроме этого, классическим примером применения модели является кривая Филлипса, характеризующая нелинейное соотношение между нормой безработицы x и процентом прироста заработной платы y.

Степенная модель

Степенная функция вида при m=3 (кубическая функция) в микроэкономике моделирует зависимость общих издержек от объема выпуска; квадратичная функция (m=2) отражает зависимость между объемом выпуска и средними или предельными издержками (или между расходами на рекламу и прибылью). Модель может быть сведена к линейной модели множественной регрессии с помощью замены . Параметры модели ищут с помощью МНК.

Показательная модель

Показательная функция может использоваться при анализе изменения переменной Y с постоянным темпом прироста во времени. Например, производственная функция Кобба - Дугласа с учетом научно - технического прогресса:

.

Прологарифмировав, получаем соотношение:

,

которое сводится к линейному виду с помощью замен

.

ЦЕПИ МАРКОВА

Цепи Маркова с дискретным временем

Цепи Маркова широко используются в экономических исследованиях - в частности, при изучении систем массового обслуживания. Примерами процессов массового обслуживания могут служить, в частности: обслуживание покупателей в сфере розничной торговли, транспортное обслуживание, ремонт аппаратуры, машин и механизмов, находящихся в эксплуатации, обработка документов в системе управления и т.п. Главной особенностью процессов массового обслуживания является случайность (момент возникновения заявки на обслуживание и окончание обслуживания заявки часто непредсказуемы).

В теоретическом плане цепи Маркова рассматриваются как частный вид случайных процессов. Функция называется случайной, если ее значение при любом аргументе t является случайной величиной. Если в качестве t выступает время, то случайная функция описывает случайный процесс.

Цепью Маркова называют последовательность испытаний, в каждом из которых появляется только одно из k несовместных событий полной группы, причем, условная вероятность того, что в s-м испытании наступит событие , при условии, что в (s-1)-м испытании наступило событие , не зависит от результатов предшествующих испытаний.

Например, если последовательность испытаний образует цепь Маркова, и полная группа состоит из четырех несовместных событий , причем, известно, что в шестом испытании появилось событие , то условная вероятность того, что в седьмом испытании наступит событие , не зависит от того, какие события появились в первом, втором, …пятом испытаниях.

Пусть некоторая система в каждый момент времени находится в одном из k состояний. В отдельные моменты времени в результате испытания состояние системы изменяется, т.е. система переходит из одного состояния, например i, в другое, например j. После испытания система может остаться в том же состоянии (перейти из состояния в состояние ).

Для цепей Маркова часто используется следующая терминология: события называют состояниями системы, а испытания - изменениями ее состояний.

В связи с этим цепью Маркова можно назвать последовательность испытаний, в каждом из которых система принимает только одно из k состояний полной группы, причем, условная вероятность того, что в s-м испытании система будет находиться в состоянии j, при условии, что после (s-1)-м испытания она находилась в состоянии i, не зависит от результатов предшествующих испытаний.

Цепью Маркова с дискретным временем называют цепь, изменение состояний которой происходит в определенные фиксированные моменты времени.

Цепью Маркова с непрерывным временем называют цепь, изменение состояний которой происходит в любые случайные возможные моменты времени.

Однородные цепи Маркова

Однородной называют цепь Маркова, для которой условная вероятность перехода из состояния в состояние не зависит от номера испытания. Для однородных цепей вместо используют обозначение .

Примером однородной цепи Маркова могут служить случайные блуждания. Пусть на прямой Ox в точке с целочисленной координатой x=n находится материальная частица. В определенные моменты времени частица скачкообразно меняет свое положение (например, с вероятностью p может сместиться вправо и с вероятностью 1-p - влево). Очевидно, координата частицы после скачка зависит от того, где находилась частица после непосредственно предшествующего скачка, и не зависит от того, как она двигалась в предшествующие моменты времени.

В дальнейшем ограничимся рассмотрением конечных однородных цепей Маркова.

Переходные вероятности. Матрица перехода

Переходной вероятностью называют условную вероятность того, что из состояния в итоге следующего испытания система перейдет в состояние . Таким образом, индекс относится к предшествующему, а - к последующему состоянию.

Будем считать, что число состояний конечно и равно k.

Матрицей перехода системы называют матрицу, которая содержит все переходные вероятности этой системы:

,

где представляют вероятности перехода за один шаг.

Отметим некоторые особенности матрицы перехода:

· Элементы каждой строки матрицы представляют собой вероятности всех возможных переходов за один шаг из выбранного состояния, в том числе и вероятность отсутствия перехода (элемент строки с равными индексами);

· Элементы столбцов задают вероятности всех переходов системы за один шаг в заданное состояние.

Так как в каждой строке матрицы помещены вероятности событий (т.е. вероятности перехода из состояния в любое возможное состояние ), которые образуют полную группу, то сумма вероятностей этих событий равна единице:

По главной диагонали матрицы перехода стоят вероятности того, что система не выйдет из состояния, а останется в нем.

Равенство Маркова

Обозначим через вероятность того, что в результате n шагов (испытаний) система перейдет из состояния в состояние . Например, - вероятность перехода за 10 шагов из третьего состояния в шестое. Отметим, что при n=1 эта вероятность сводится просто к переходной вероятности .

Возникает вопрос, как, зная переходные вероятности , найти вероятности перехода состояния в состояние за n шагов. С этой целью вводится в рассмотрение промежуточное (между и ) состояние r. Другими словами, полагают, что из первоначального состояния за m шагов система перейдет в промежуточное состояние r с вероятностью , после чего за оставшиеся n-m шагов из промежуточного состояния r она перейдет в конечное состояние с вероятностью . Используя формулу полной вероятности, можно показать, что справедлива формула:


Подобные документы

  • Основные понятия теории марковских цепей. Теория о предельных вероятностях. Области применения цепей Маркова. Управляемые цепи Маркова. Выбор стратегии. Оптимальная стратегия является марковской - может зависеть еще и от момента времени принятия решения.

    реферат [75,6 K], добавлен 08.03.2004

  • Основные понятия математической статистики, интервальные оценки. Метод моментов и метод максимального правдоподобия. Проверка статистических гипотез о виде закона распределения при помощи критерия Пирсона. Свойства оценок, непрерывные распределения.

    курсовая работа [549,1 K], добавлен 07.08.2013

  • Понятие вариационного ряда, статистического распределения. Эмпирическая функция и основные характеристики математического ожидания выборочной дисперсии. Точечные и интервальные оценки распределений. Теория гипотез - аналог теории доверительных интервалов.

    контрольная работа [172,9 K], добавлен 22.11.2013

  • Первичный анализ и основные характеристики статистических данных. Точечные оценки параметров распределения. Доверительные интервалы для неизвестного математического ожидания и для среднего квадратического отклонения. Проверка статистических гипотез.

    дипломная работа [850,9 K], добавлен 18.01.2016

  • Длина интервала группирования. Графическое описание выборки. Гистограмма относительных частот. Кусочно-постоянная функция. Границы доверительного интервала математического ожидания. Вычисление коэффициента корреляции. Эмпирическая функция распределения.

    практическая работа [737,5 K], добавлен 14.02.2009

  • Исследование сходимости рядов. Степенной ряд интеграла дифференциального уравнения. Определение вероятности событий, закона распределения случайной величины, математического ожидания, эмпирической функции распределения, выборочного уравнения регрессии.

    контрольная работа [420,3 K], добавлен 04.10.2010

  • Вероятностная модель и аксиоматика А.Н. Колмогорова. Случайные величины и векторы, классическая предельная проблема теории вероятностей. Первичная обработка статистических данных. Точечные оценки числовых характеристик. Статистическая проверка гипотез.

    методичка [433,3 K], добавлен 02.03.2010

  • Задачи математической статистики. Распределение случайной величины на основе опытных данных. Эмпирическая функция распределения. Статистические оценки параметров распределения. Нормальный закон распределения случайной величины, проверка гипотезы.

    курсовая работа [57,0 K], добавлен 13.10.2009

  • Сходимость последовательностей случайных величин и вероятностных распределений. Метод характеристических функций. Проверка статистических гипотез и выполнение центральной предельной теоремы для заданных последовательностей независимых случайных величин.

    курсовая работа [364,8 K], добавлен 13.11.2012

  • Основные понятия теории марковских цепей, их использование в теории массового обслуживания для расчета распределения вероятностей числа занятых приборов в системе. Методика решения задачи о наилучшем выборе. Понятие возвратных и невозвратных состояний.

    курсовая работа [107,2 K], добавлен 06.11.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.