Выборочные распределения на шкалах Int и Rel
Оценка наблюдений при неизвестном и известном законе распределения. Числовые показатели "жизни" системы в целом и отдельных её элементов и их разновидности. Вычисления математического ожидания. Оценка параметров нормальных и дискретных распределениях.
Рубрика | Экономико-математическое моделирование |
Вид | реферат |
Язык | русский |
Дата добавления | 28.01.2009 |
Размер файла | 35,8 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
РЕФЕРАТ
Выборочные распределения на шкалах Int и Rel
Оценка наблюдений при неизвестном законе распределения
Какова цель наблюдений над случайной величиной; для чего используются результаты наблюдений; где, как и для чего применить возможности теории вероятностей и прикладной статистики? Ответы на эти, простые с виду, вопросы зависят от многих факторов, обстоятельств и не всегда оказываются конкретными.
Попытаемся всё же сформулировать ответ применительно к конкретной обстановке - при статистических расчетах в экономических системах.
В таких системах основные числовые показатели “жизни” системы в целом и отдельных её элементов можно свести к трем разновидностям:
продукция, с конкретными ее показателями (вес, объем, количество и т.д.), - величинами на шкале Int или Rel;
деньги, с единицей измерения по шкале Int или Rel (отрицательные величины обычно означают убытки или долги);
информация, с несколькими шкалами измерений - в битах (байтах) для количественного описания по шкале Int или в виде сообщений о событиях на шкалах Nom или Ord.
Простые размышления приводят к мысли о возможности допустить, что все эти величины являются, во-первых, случайными и, во-вторых, дискретными. Ясно также, что без учета всех этих величин эффективной экономики быть не может - только знание всех этих показателей позволит управлять экономикой.
Конечно, у многих из вас уже готово решение проблемы - раз уж мы не знаем точно значение величины (скажем - суммы прибыли), так воспользуемся её математическим ожиданием! Это верная мысль…
Но для вычисления математического ожидания надо знать закон распределения вероятностей, т.е. иметь информацию
обо всех допустимых (возможных) значениях прибыли;
о соответствующих им значениях вероятностей.
Рассмотрим простейший пример. Пусть у нас есть всего четыре наблюдения над суммой G дневной выручки в 196, 208, 210 и 214 гривен. Легко подсчитать среднее значение - оно составит 207 гривен. Какое доверие к этой цифре? Ведь мы совершенно ничего не знаем о законе распределения СВ, кроме того, что эта величина дискретная и имеет относительную шкалу. Тем не менее, кое-что полезное из таких скудных наблюдений (малой выборки) можно извлечь.
Поступим следующим образом - вместо случайной величины G будем рассматривать другую величину U= (G-M(G)). Математическое ожидание новой СВ будет всегда равно нулю - какие бы гипотезы о значении M(G) мы ни выдвигали,
Теперь подумаем о том, как сформулировать нулевую гипотезу. Вроде бы это надо делать так:
Теперь результаты наблюдений над выручкой G можно представить в виде четырех наблюдений над U: -11,+1,+3,+7. Теория математической статистики предлагает следующий, т.н. биномиальный критерий проверки гипотез в подобных ситуациях.
Предполагается, что распределение вероятностей наблюдаемой величины U симметрично относительно значения математического ожидания, т.е. относительно нуля.
Далее предлагается рассматривать N имеющихся у нас значений U как совокупность случайных величин, принимающих с вероятностью 0.5 значения по итогам наблюдения или противоположные им по знаку. В нашем примере это приводит к
P(U1=11)=P(U1= -11)= 1/ 2; P(U2=1)=P(U2= -1)= 1/ 2;
P(U3=3)=P(U3= -3)= 1/ 2; P(U4=7)=P(U4= -7)= 1/ 2;
Теперь рассматривается сумма этих случайных величин S - она может принимать 2N различных значений, с одинаковой вероятностью 1/2N.
Таблица 5-1
U1 |
11 |
11 |
11 |
11 |
11 |
11 |
11 |
11 |
-11 |
-11 |
-11 |
-11 |
-11 |
-11 |
-11 |
-11 |
|
U2 |
1 |
1 |
1 |
1 |
-1 |
-1 |
-1 |
-1 |
1 |
1 |
1 |
1 |
-1 |
-1 |
-1 |
-1 |
|
U3 |
3 |
3 |
-3 |
-3 |
3 |
3 |
-3 |
-3 |
3 |
3 |
-3 |
-3 |
3 |
3 |
-3 |
-3 |
|
U4 |
-7 |
7 |
7 |
-7 |
7 |
-7 |
7 |
-7 |
7 |
-7 |
7 |
-7 |
7 |
-7 |
7 |
-7 |
|
S |
8 |
22 |
16 |
2 |
20 |
6 |
14 |
0 |
0 |
-14 |
-6 |
-20 |
-2 |
-16 |
-8 |
-22 |
Отклонения от гипотетического математического ожидания в сумме составляют в нашем примере точно 0 и нам необходимо определить количество вариантов, в которых сумма S>0. Всего вариантов 16, а вариантов с нулевой или положительной суммой 9. Вероятность ошибки при отклонении Њ0 оказалась равной 9/160.57, что намного больше контрольных 5 % . Как и следовало ожидать, нам нет смысла отбрасывать нулевую гипотезу - слишком велика ошибка первого рода.
Все было бы хорошо, но если мы выдвинем другую нулевую гипотезу о математическом ожидании выручки, например - Њ0: M(G)= 196 гривен, то после аналогичных расчетов получим результат -- и эту гипотезу нет оснований отбрасывать, правда вероятность ошибки первого рода теперь будет иной - “всего лишь” 0.125. Столько же составит вероятность этой ошибки и при Њ0: M(G)= 214. Таким образом, все нулевые гипотезы со значениями от 196 до 214 можно не отвергать (не достигнуто пороговое значение 0.05). Можно ли рекомендовать принятие альтернативной гипотезы и, если - да, то при каком значении гипотетического математического ожидания?
Теория прикладной статистики отвечает на этот вопрос однозначно -- нет, рекомендовать нам это она не вправе!
Вспомним “неудобное” свойство статистических выводов или рекомендаций - они никогда не бывают однозначными, конкретными. Поэтому наивно ожидать решения задачи об оценке математического ожидания по данным наблюдений в виде одного, конкретного числа.
Еще раз продумаем, чего мы добиваемся, меняя значение в нулевой гипотезе? Ведь самая большая ошибка первого рода была как раз тогда, когда мы выдвинули такое понятное предположение - математическое ожидание равно среднему.
Более того, проверка нулевой гипотезы такого вида была совершенно бессмысленным делом. Практически всегда в этих случаях альтернативная гипотеза окажется самой вероятной, но практически никогда вероятность ее истинности не достигнет желанных 95 %.
Всё дело в том, что просчитать последствия своего решения мы умеем только отвергая нулевую гипотезу, но, принимая ее, последствия просчитать не можем.
Вот если бы, передвигая воображаемый указатель по шкале СВ мы получили сигнал “СТОП, достаточно! Достигнут уровень ошибки 5 %”, то мы бы запомнили данное значение как левую (или правую) границу интервала, в котором почти “наверняка” лежит искомое нами математическое ожидание. В нашем примере этого не произошло и, оказывается и не могло произойти.
Дело в том, что у нас всего 4 наблюдения (196,208,210,214) со средним значением 207 и среднеквадратичным отклонением около 13.5 гривен (т.е. более 6 % от среднего). И получить значимые статистические выводы в этом случае просто невозможно - надо увеличить объем выборки, число наблюдений.
А вот на вопрос - а сколько же надо наблюдений, каково их достаточное число, прикладная статистика имеет ответ: для “преодоления 5 % барьера” достаточно 5 наблюдений.
Попробуем решить другую задачу об оценке математического ожидания СВ на интервальной шкале, но будем решать её не “по чувству”, а “по разуму”.
Наблюдения над случайной величиной X: 19,17,15,13,12,11,10,8,7.
Количество наблюдений: 9, возможных исходов 512.
Њ0: M(X)= 9, Њ1: M(X)# 9.
Найдем сумму отклонений от гипотетического среднего, S = 31.
Из 512 возможных вариантов суммы отклонений выберем только те, в которых эта сумма составляет 31 и более. Таких вариантов всего 11, значит при принятии нулевой гипотезы Њ0: M(X)= 9 вероятность наблюдать такие суммы P(S 31) составляет 11/512 0.02 , что меньше порогового значения в 5 % .
Вывод: гипотезу Њ0 следует отвергнуть и считать приемлемым по надежности неравенство M(X) # 9.
До сих пор мы выдвигали гипотезу о значении математического ожидания на “левом крае” распределения наблюдений и могли бы повторять проверки, задаваясь значениями M(X) в 10, 11 и т.д., до тех пор, пока вероятность ошибки первого рода не достигла бы порогового значения.
Можно также исследовать правый край распределения -- проверять гипотезы при больших значениях математического ожидания.
Например:
Наблюдения над случайной величиной X: 19,17,15,13,12,11,10,8,7.
Количество наблюдений: 9, возможных исходов 512.
Њ0: M(X)= 17, Њ1: M(X)# 17.
Теперь сумма отклонений от гипотетического среднего окажется S = - 41.
Из 512 возможных вариантов суммы отклонений выберем только те, в которых эта сумма составляет -41 и менее. Таких вариантов всего 3, значит при принятии нулевой гипотезы Њ0: M(X)= 17 вероятность наблюдать такие суммы составляет P(S - 31) = 3/512 0.006 , что намного меньше порогового значения в 5 % . Следовательно, можно попробовать гипотезы с меньшим M(X), сужая диапазон или так называемый доверительный интервал для неизвестного нам математического ожидания.
1.1 Оценка наблюдений при известном законе распределения
Не всегда закон распределения СВ представляет для нас полную тайну. В ряде случаев у нас могут быть основания предполагать, что случайные события, определяющие наблюдаемые нами значения этой величины, подчиняются определенной вероятностной схеме.
В таких случаях использование методов выдвижения и проверки гипотез даст нам информацию о параметрах распределения, что может оказаться вполне достаточно для решения конкретной экономической задачи.
1.1.1 Оценка параметров нормального распределения
Нередки случаи, когда у нас есть некоторые основания считать интересующую нас СВ распределенной по нормальному закону. Существуют специальные методы проверки такой гипотезы по данным наблюдений, но мы ограничимся напоминанием природы этого распределения - наличия влияния на значение данной величины достаточно большого количества случайных факторов.
Напомним себе также, что у нормального распределения всего два параметра - математическое ожидание и среднеквадратичное отклонение .
Пусть мы произвели 40 наблюдений над такой случайной величиной X и эти наблюдения представили в виде:
Таблица 5-2
Xi |
85 |
105 |
125 |
145 |
165 |
185 |
205 |
225 |
Всего |
|
ni |
4 |
3 |
3 |
2 |
4 |
7 |
12 |
5 |
40 |
|
f i |
0.100 |
0.075 |
0.075 |
0.050 |
0.100 |
0.175 |
0.300 |
0.125 |
1 |
Если мы усредним значения наблюдений, то формула расчета выборочного среднего
Mx = Xi ni = Xi fi {5-1} будет отличаться от выражения для математического ожидания только использованием частот вместо вероятностей.
В нашем примере выборочное среднее значение составит Mx = 171.5 , но из этого пока еще нельзя сделать заключение о равенстве = 171.5.
Во-первых, Mx - это непрерывная СВ, следовательно, вероятность ее точного равенства чему-нибудь вообще равна нулю.
Во-вторых, нас настораживает отсутствие ряда значений X.
В-третьих, частоты наблюдений стремятся к вероятностям при бесконечно большом числе наблюдений, а у нас их только 40. Не мало ли?
Если мы усредним теперь значения квадратов отклонений наблюдений от выборочного среднего, то формула расчета выборочной дисперсии
Dx = (Sx)2 = (Xi - Mx)2 ni = (Xi)2 fi - (Mx)2 {5-2} также не будет отличаться от формулы, определяющей дисперсию 2 .
В нашем примере выборочное значение среднеквадратичного отклонения составит Sx= 45.5 , но это совсем не означает, что =45.5.
И всё же -- как оценить оба параметра распределения или хотя бы один из них по данным наблюдений, т.е. по уже найденным Mx и Sx?
Прикладная статистика дает следующие рекомендации:
значение дисперсии 2 считается неизвестным и решается первый вопрос - достаточно ли число наблюдений N для того, чтобы использовать вместо величины ее выборочное значение Sx;
если это так, то решается второй вопрос - как построить нулевую гипотезу о величине математического ожидания и как ее проверить.
Предположим вначале, что значение каким-то способом найдено. Тогда формулируется простая нулевая гипотеза Њ0: =Mx и осуществляется её проверка с помощью следующего критерия. Вычисляется вспомогательная функция (Z-критерий)
, {5-3}
значение и знак, которой зависят от выбранного нами предполагаемого .
Доказано, что значение Z является СВ с математическим ожиданием 0 , дисперсией 1 и имеет нормальное распределение.
Теперь важно правильно построить альтернативную гипотезу Њ1. Здесь чаще всего применяется два подхода.
Выбор одного из них зависит от того - большое или малое (по модулю) значение Z у нас получилось. Иными словами - как далеко от расчетного Mx мы выбрали гипотетическое ..
При малых отличиях между Mx и разумно строить гипотезы в виде
Њ0: = Mx;
Њ1: неизвестное нам значение лежит в пределах
Mx - Z 2k Mx + Z 2k {5-4}
Критическое (соответствующее уровню значимости в 5%) значение критерия составляет при этом = 1.96 (двухсторонний критерий). Если оказывается, что выборочное значение критерия Z < 1.96, то гипотеза Њ0: =Mx принимается, данные наблюдений не противоречат ей.
Если же это не так, то мы “в утешение” получаем информацию другого вида - где, на каком интервале находится искомое значение .
При больших отличиях (в большую или меньшую сторону) между и Mx гипотезы строятся иначе Њ0: = Mx; Њ1: неизвестное нам значение лежит вне пределов, указанных в {5-4}.
Теперь критическое (соответствующее уровню значимости в 5%) значение критерия составляет Z 1k = 1.645 (односторонний критерий). Если оказывается, что выборочное значение критерияZ 1.645, то гипотеза Њ0: =Mx отвергается, данные наблюдений противоречат ей.
Если же это не так, то мы получаем информацию другого вида - где, на каком крае интервале находится искомое значение . Разумеется, для других (не 5%) значений уровня значимости Z1k и Z 2k являются другими.
Чуть сложнее путь проверки гипотез о математическом ожидании в случаях, когда нам неизвестна и приходится довольствоваться выборочным значением среднеквадратичного отклонения по данным наблюдений.
В этом случае вместо “z -критерия” используется т.н. “t-критерий” или критерий Стьюдента
,{5-5}
в котором используется значение “несмещенной” оценки для дисперсии 2
(Sx)2 = (Xi - Mx)2 ni . {5-6}
Далее используется доказанное в теории положение -- случайная величина t имеет специальное распределение Стьюдента с m=N-1 степенями свободы.
Существуют таблицы для этого распределения, по которым можно найти вероятность ошибки первого рода или, что более удобно, - граничное значение этой величины при заданных заранее и m. Таким образом, если вычисленное нами значение t t(,m), то Њ0 отвергается, если же это не так - Њ0 принимается. Конечно, при большом количестве наблюдений (N>100…120) различие между z- и t-критериями несущественно. Значения критерия Стьюдента для =0.05 при разных количествах наблюдений составляют:
Таблица 5-3
m |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
20 |
30 |
40 |
120 |
|
t |
12.7 |
4.30 |
3.18 |
2.78 |
2.57 |
2.45 |
2.36 |
2.31 |
2.26 |
2.23 |
2.09 |
2.04 |
2.02 |
1.98 |
1.1.2 Оценка параметров дискретных распределений
В ряде случаев работы с некоторой дискретной СВ нам удается построить вероятностную схему событий, приводящих к изменению значений данной величины. Иными словами -- закон распределения нам известен, но неизвестны его параметры. И наша задача -- научиться оценивать эти параметры по данным наблюдений.
Начнем с наиболее простого случая. Пусть у нас есть основания считать, что случайная величина X может принимать целочисленные значения на интервале [0…k…n] с вероятностями
P(X=k)=pk(1- p)n-k,
т.е. распределена по биномиальному закону. Так вот, - единственный параметр p этого распределения нас как раз и интересует.
Примером подобной задачи является чисто практический вопрос о контроле качества товара.
Пусть мы решили оценить качество одной игральной кости из партии, закупленной для казино. Проведя n=200 бросаний мы обнаружили появлений цифры 6 в X = 25 случаях.
Выдвинем нулевую гипотезу Њ0: кость симметрична, то есть p= 1/6.
Вроде бы по наблюдениям частота выпадения цифры 6, составившая 25/200 не совпадает с гипотетическим значением вероятности 1/6. Но это чисто умозрительное, дилетантское заключение.
Теория прикладной статистики рекомендует вычислить значение непрерывной СВ
, {5-7}
т.е. использовать z-критерий (см. {5-3}).
В нашем примере наблюдаемое значение Z составит около -1.58. Следовательно, при пороговой вероятности в 5% условие Z< 1.96 выполняется и у нас нет оснований отбрасывать нулевую гипотезу о симметрии игральной кости.
Отметим, что z-критерий позволяет решать еще одну важную задачу - о достаточном числе испытаний.
Пусть нам требуется проверить качество товара - некоторых изделий, каждое из которых может быть годным или негодным (бракованным). Пусть допустимый процент брака составляет p=5%. Ясно, что чем больше испытаний мы проведем, тем надежнее будет наш статистический вывод - браковать партию товара (например, - 10000 штук) или считать её пригодной.
Если мы провели n=500 проверок и обнаружили X=30 бракованных изделий, то выдвинув гипотезу Њ0: p=5% , мы найдем выборочное значение критерия по {5-7}. Оно составит около 1.03, что меньше “контрольного” 1.96 . Значит, у нас нет оснований браковать всю партию.
Но возникает вопрос - сколько проверок достаточно для принятия решения с уровнем значимости в 5%? Для этого достаточно учесть допустимый процент брака (т.е. задать p), указать допустимое расхождение между ним и наблюдаемым процентом брака в выборке (d= p-X/n) и воспользоваться выражением
{5-8}
Если мы примем d=0.02, то получим ответ - вполне достаточно 456 проверок, чтобы убедиться в том, что реальный процент брака отличается от допустимого не более чем на 2%.
Подобные документы
Формулы вычисления критерия Пирсона, среднего квадратического отклонения и значений функций Лапласа. Определение свойств распределения хи-квадрата. Критерий согласия Колмогорова-Смирнова. Построение графика распределения частот в заданном массиве.
контрольная работа [172,2 K], добавлен 27.02.2011Основные понятия теории графов. Схема построения сетевой модели рынка. Основная идея бутстрэпа. Процедура проверки многих гипотез сравнения распределения вершин двух выборочных MST. Значения доверительных интервалов векторов наблюдений за два года.
курсовая работа [1,0 M], добавлен 19.09.2016Построение гистограммы и эмпирической функции распределения. Нахождение доверительного интервала для оценки математического распределения. Проверка статистической гипотезы о равенстве средних значений, дисперсий, их величине, о виде закона распределения.
курсовая работа [1,7 M], добавлен 29.11.2014Использование статистических характеристик для анализа ряда распределения. Частотные характеристики ряда распределения. Показатели дифференциации, абсолютные характеристики вариации. Расчет дисперсии способом моментов. Теоретические кривые распределения.
курсовая работа [151,4 K], добавлен 11.09.2010Оценка параметров шестимерного нормального закона распределения с помощью векторов средних арифметических и среднеквадратического отклонений и матрицы парных коэффициентов корреляции (по программе Statistica). Методика определения Z-преобразования Фишера.
контрольная работа [33,6 K], добавлен 13.09.2010Анализ распределений для выявления закономерности изменения частот в зависимости от значений варьирующего признака и анализ различных характеристик изучаемого распределения. Характеристика центральной тенденции распределения и оценка вариации признака.
лабораторная работа [606,7 K], добавлен 13.05.2010Особенности метода проверки гипотезы о законе распределения по критерию согласия хи-квадрат Пирсона. Свойства базовой псевдослучайной последовательности. Методы оценки закона распределения и вероятностных характеристик случайной последовательности.
лабораторная работа [234,7 K], добавлен 28.02.2010Элементарные понятия о случайных событиях, величинах и функциях. Числовые характеристики случайных величин. Виды асимметрии распределений. Статистическая оценка распределения случайных величин. Решение задач структурно-параметрической идентификации.
курсовая работа [756,0 K], добавлен 06.03.2012Проведение расчета балансовой экономико-математической модели природоохранной деятельности предприятия. Рассмотрение способов формирования и распределения дохода организации с учетом различных элементов механизмов природоиспользования и охраны природы.
дипломная работа [344,5 K], добавлен 11.04.2010Расчет параметров A и B уравнения линейной регрессии. Оценка полученной точности аппроксимации. Построение однофакторной регрессии. Дисперсия математического ожидания прогнозируемой величины. Тестирование ошибок уравнения множественной регрессии.
контрольная работа [63,3 K], добавлен 19.04.2013