Вычисление таблиц для совместного распределения вероятностей двух случайных величин

Шкалирование случайных величин. Законы и моменты распределений дискретных случайных величин. Односторонние и двухсторонние значения вероятностей. Распределения выборочных значений параметров нормального распределения. Статистики таблиц сопряженности.

Рубрика Экономика и экономическая теория
Вид контрольная работа
Язык русский
Дата добавления 02.02.2010
Размер файла 151,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ

Государственное образовательное учреждение высшего профессионального образования

РОССИЙСКИЙ ГОСУДАРСТВЕННЫЙ ГУМАНИТАРНЫЙ УНИВЕРСИТЕТ

ИНСТИТУТ ЭКОНОМИКИ, УПРАВЛЕНИЯ И ПРАВА

ЭКОНОМИЧЕСКИЙ ФАКУЛЬТЕТ

Контрольная работа по дисциплине статистика

Вычисление таблиц для совместного распределения вероятностей двух случайных величин

Москва - 2009

Содержание

1. Шкалирование случайных величин

2. Законы распределений дискретных случайных величин

3. Односторонние и двухсторонние значения вероятностей

4. Моменты распределений дискретных случайных величин

5. Распределения непрерывных случайных величин

5.1 Нормальное распределение

5.2 Распределения выборочных значений параметров нормального распределения

6. Таблицы сопряженности

Список используемой литературы.

1. Шкалирование случайных величин

Дискретной называют величину, которая может принимать одно из счетного множества так называемых “допустимых” значений. Примеров дискретных величин, у которых есть некоторая именованная единица измерения, можно привести достаточно много.

Прежде всего, надо учесть тот факт, что все физические величины (вес, расстояния, площади, объемы и т.д.) теоретически могут принимать бесчисленное множество значений, но практически только те значения, которые мы можем установить измерительными приборами. А это значит, что в прикладной статистике вполне допустимо распространить понятие дискретных СВ на все без исключения численные описания величин, имеющих единицы измерения.

Вместе с тем надо не забывать, что некоторые СВ просто не имеют количественного описания, естественных единиц измерения (уровень знаний, качество продукции и т. п.).

Покажем, что для решения вопроса о “единицах измерения” любых СВ, с которыми приходится иметь дело в прикладной статистике, достаточно использовать четыре вида шкал.

Nom. Первой из них рассмотрим так называемую номинальную шкалу применяемую к тем величинам, которые не имеют природной единицы измерения. В ряде случаев нам приходится считать случайными такие показатели предметов или явлений окружающего нас мира, как марка автомобиля; национальность человека или его пол, социальное положение; цвет некоторого изделия и т.п.

В таких ситуациях можно говорить о случайном событии "входящий в магазин посетитель оказался мужчиной", но вполне допустимо рассматривать пол посетителя как дискретную СВ, которая приняла одно из допустимых значений на своей номинальной шкале.

Итак, если некоторая величина может принимать на своей номинальной шкале значения X, Y или Z, то допустимыми считаются только выражения типа: X # Y, X=Z , в то время как выражения типа X Z, X + Z не имеют никакого смысла.

Ord. Второй способ шкалирования - использование порядковых шкал. Они незаменимы для СВ, не имеющих природных единиц измерения, но позволяющих применять понятия предпочтения одного значения другому. Типичный пример: оценки знаний (даже при числовом описании), служебные уровни и т. п. Для таких величин разрешены не только отношения равенства (= или #), но и знаки предпочтения (> или <). Очень часто порядковые шкалы называют ранговыми и говорят о рангах значений таких величин.

Int. Для СВ, имеющих натуральные размерности (единицы измерения в прямом смысле слова), используется интервальная шкала. Для таких величин, кроме отношений равенства и предпочтения, допустимы операции сравнения - т. е. все четыре действия арифметики. Главная особенность таких шкал заключается в том, что разность двух значений на шкале (36 и 12) имеет один смысл для любого места шкалы (28 и 4). Вместе с тем на интервальной шкале не имеют никакого смысла отрицательные значения, если это веса предметов, возраст людей и подобные им показатели.

Rel. Если СВ имеет естественную единицу измерения (например, температура по шкале Цельсия) и ее отрицательные значения столь же допустимы, как и положительные, то шкалу для такой величины называют относительной.

Методы использования описанных шкал относится к специальному разделу - так называемой непараметрической статистике и обеспечивают, по крайней мере, два неоспоримых преимущества.

Появляется возможность совместного рассмотрения нескольких СВ совершенно разной природы (возраст людей и их национальная принадлежность, марка телевизора и его стоимость) на единой платформе положения каждой из величин на своей собственной шкале.

Если мы сталкиваемся с СВ непрерывной природы, то использование интервальной или относительной шкалы позволит нам иметь дело не со случайными величинами, а со случайными событиями -- типа “вероятность того, что вес продукции находится в интервале 17 Кг”. Появляется возможность применения единого подхода к описанию всех интересующих нас показателей при статистическом подходе к явлениям окружающего нас мира.

2. Законы распределений дискретных случайных величин

Пусть некоторая СВ является дискретной, т.е. может принимать лишь фиксированные (на некоторой шкале) значения X i. В этом случае ряд значений вероятностей P(X i)для всех (i=1…n) допустимых значений этой величины называют её законом распределения.

В самом деле, такой ряд содержит всю информацию о СВ, это максимум наших знаний о ней. Другое дело, откуда мы можем получить эту информацию, как найти закон распределения? Попытаемся ответить на этот принципиально важный вопрос, используя уже рассмотренное понятие вероятности.

Точно также, как и для вероятности случайного события, для закона распределения СВ есть только два пути его отыскания. Либо мы строим схему случайного события и находим аналитическое выражение (формулу) вычисления вероятности (возможно, кто-то уже сделал или сделает это за нас!), либо придется использовать эксперимент и по частотам наблюдений делать какие-то предположения (выдвигать гипотезы) о законе распределения.

Заметим, что во втором случае нас будет ожидать новый вопрос, а какова уверенность в том, что наша гипотеза верна? Какова, выражаясь языком статистики, вероятность ошибки при принятии гипотезы или при её отбрасывании?

Продемонстрируем первый путь отыскания закона распределения.

Пусть важной для нас случайной величиной является целое число, образуемое по следующему правилу: мы трижды бросаем симметричную монетку, выпадение герба считаем числом 1 (в противном случае 0) и после трех бросаний определяем сумму S.

Ясно, что эта сумма может принимать любое значение в диапазоне 0…3, но всё же каковы вероятности P(S=0), P(S=1), P(S=2), P(S=3); что можно о них сказать, кроме очевидного вывода их сумма равна 1?

Попробуем построить схему интересующих нас событий. Обозначим через p вероятность получить 1 в любом бросании, а через q=(1-p) вероятность получить 0. Сообразим, что всего комбинаций ровно 8 (или 23), а поскольку монетка симметрична, то вероятность получить любую комбинацию трех независимых событий (000,001,010…111) одна и та же: q3 = q2p =…= p3 = 0.125 . Но если p # q , то варианты все тех же восьми комбинаций будут разными:

Таблица 11

Первое бросание

0

0

0

0

1

1

1

1

Второе бросание

0

0

1

1

0

0

1

1

Третье бросание

0

1

0

1

0

1

0

1

Сумма S

0

1

1

2

1

2

2

3

Вероятность P(S)

q3

q2p

q2p

qp2

q2p

qp2

qp2

p3

Запишем то, что уже знаем сумма вероятностей последней строки должна быть равна единице:

p3 +3qp2 + 3q2p + q3 = (p + q)3 = 1

Перед нами обычный бином Ньютона 3-й степени, но оказывается его слагаемые четко определяют вероятности значений случайной величины S !

Мы “открыли” закон распределения СВ, образуемой суммированием результатов n последовательных наблюдений, в каждом из которых может появиться либо 1 (с вероятностью p), либо 0 (с вероятностью 1- p).

Итог этого открытия достаточно скромен:

возможны всего N = 2 n вариантов значений суммы;

вероятности каждого из вариантов определяются элементами разложения по степеням бинома (p + q) n ;

такому распределению можно дать специальное название биномиальное.

Конечно же, мы опоздали со своим открытием лет на 300, но, тем не менее, попытка отыскания закона распределения с помощью построения схемы событий оказалась вполне успешной.

В общем случае биномиальный закон распределения позволяет найти вероятность события S = k в виде

P(S=k)=pk(1- p)n-k, {2-1}

где т.н. биномиальные коэффициенты, отыскиваемые из известного “треугольника Паскаля” или по правилам комбинаторики как число возможных сочетаний из n элементов по k штук в каждом:

= n(n -1) ...(n - k + 1)/ (12 .... k). {2-2}

Многие дискретные СВ позволяют построить схему событий для вычисления вероятности каждого из допустимых для данной случайной величины значений.

Конечно же, для каждого из таких, часто называемых "классическими", распределений уже давно эта работа проделана -- широко известными и очень часто используемыми в прикладной статистике являются биномиальное и полиномиальное распределения, геометрическое и гипергеометрическое, распределение Паскаля и Пуассона и многие другие.

Для почти всех классических распределений немедленно строились и публиковались специальные статистические таблицы, уточняемые по мере увеличения точности расчетов. Без использования многих томов этих таблиц, без обучения правилам пользования ими последние два столетия практическое использование статистики было невозможно.

Сегодня положение изменилось - нет нужды хранить данные расчетов по формулам (как бы последние не были сложны!), время на использование закона распределения для практики сведено к минутам, а то и секундам.

Уже сейчас существует достаточное количество разнообразных пакетов прикладных компьютерных программ для этих целей. Кроме того, создание программы для работы с некоторым оригинальным, не описанным в классике распределением не представляет серьезных трудностей для программиста “средней руки”.

Приведем примеры нескольких распределений для дискретных СВ с описанием схемы событий и формулами вычисления вероятностей. Для удобства и наглядности будем полагать, что нам известна величина p - вероятность того, что вошедший в магазин посетитель окажется покупателем и обозначая (1- p) = q.

Биномиальное распределение

Если X - число покупателей из общего числа n посетителей, то вероятность

P(X= k) = pkqn-k .

Отрицательное биномиальное распределение (распределение Паскаля)

Пусть Y - число посетителей, достаточное для того, чтобы k из них оказались покупателями. Тогда вероятность того, что n-й посетитель окажется k-м покупателем составит

P(Y=n) =pk qn-k.

Геометрическое распределение

Если Y - число посетителей, достаточное для того, чтобы один из них оказался покупателем,

то P(Y=1) = p qn-1.

Распределение Пуассона

Если ваш магазин посещают довольно часто, но при этом весьма редко делают покупки, то вероятность k покупок в течение большого интервала времени, (например, - дня) составит

P(Z=k) = k Exp(-) / k! ,

где - особый показатель распределения, так называемый его параметр.

3. Односторонние и двухсторонние значения вероятностей

Если нам известен закон распределения СВ (пусть - дискретной), то в этом случае очень часто приходится решать задачи, по крайней мере, трех стандартных типов:

какова вероятность того, что случайная величина X окажется равной (или наоборот - не равной) некоторому значению, например - Xk ?

какова вероятность того, что случайная величина X окажется больше (или наоборот - меньше) некоторого значения, например - Xk ?

какова вероятность того, что случайная величина X окажется не меньше Xi и при этом не больше Xk ?

Первую вероятность иногда называют "точечной", ее можно найти из закона распределения, но только для дискретной случайной величины. Разумеется, что вероятность равенства задана самим законом распределения, а вероятность неравенства составляет

P(X#Xk) = 1 - P(X=Xk).

Вторую вероятность принято называть "односторонней". Вычислять ее также достаточно просто - как сумму вероятностей всех допустимых значений, равных и меньших Xk . Для примера "открытого" нами закона биномиального распределения при p=0.5 и m=4 одностороння вероятность того, что X окажется менее 3 (т.е.0, 1 или 2), составит точно 0.0625+0.25+0.375=0.6875.

Вероятность третьего типа называют "двухсторонней" и вычисляют как сумму вероятностей значений X внутри заданного интервала. Для предыдущего примера вероятность того, что X менее 4 и более 1 составит 0.375+0.25=0.625.

Односторонняя и двухсторонняя вероятности являются универсальными понятиями - они применимы как для дискретных, так и для непрерывных случайных величин.

4. Моменты распределений дискретных случайных величин

Итак, закон распределения вероятностей дискретной СВ несет в себе всю информацию о ней и большего желать не приходится.

Не будет лишним помнить, что этот закон (или просто - распределение случайной величины) можно задать тремя способами:

в виде формулы: например, для биномиального распределения при n=3 и p=0.5 вероятность значения суммы S=2 составляет 0.375;

в виде таблицы значений величины и соответствующих им вероятностей:

в виде диаграммы или, как ее иногда называют, гистограммы распределения:

Таблица 2-1

Сумма

0

1

2

3

Вероятность

0.125

0.375

0.375

0.125

Рис. 2-1 Гистограмма распределения

Необходимость рассматривать вопрос, поставленный в заглавии параграфа, не так уж и очевидна, поскольку непонятно, что же еще нам надо знать?

Между тем, все достаточно просто. Пусть, для какого-то реального явления или процесса мы сделали допущение (выдвинули гипотезу), что соответствующая СВ принимает свои значения в соответствии с некоторой схемой событий. Рассчитать вероятности по принятой нами схеме -- не проблема!

Вопрос заключается в другом - как проверить свое допущение или, на языке статистики, оценить достоверность гипотезы?

По сути дела, кроме обычного наблюдения за этой СВ у нас нет иного способа выполнить такую проверку. И потом - в силу самой природы СВ мы не можем надеяться, что через достаточно небольшое число наблюдений их частоты превратятся в “теоретические” значения, в вероятности. Короче - результат наблюдения над случайной величиной тоже … случайная величина или, точнее, - множество случайных величин.

Так или примерно так рассуждали первые статистики-профессионалы. И у кого-то из них возникла простая идея: сжать информацию о результатах наблюдений до одного, единственного показателя!

Как правило, простые идеи оказываются предельно эффективными, поэтому способ оценки итогов наблюдений по одному, желательно “главному”, “центральному” показателю пережил все века становления прикладной статистики и по ходу дела обрастал как теоретическими обоснованиями, так и практическими приемами использования.

Вернемся к гистограмме рис. 2-1 и обратим внимание на два, бросающихся в глаза факта:

“наиболее вероятными” являются значения суммы S=1 и S=2 и эти же значения лежат “посредине” картинки;

вероятность того, что сумма окажется равной 0 или 1, точно такая же, как и вероятность 2 или 3, причем это значение вероятности составляет точно 50 %.

Напрашивается простой вопрос - если СВ может принимать значения 0, 1, 2 или 3, то сколько в среднем составляет ее значение или, иначе - что мы ожидаем, наблюдая за этой величиной?

Ответ на такой вопрос на языке математической статистики состоит в следующем. Если нам известен закон распределения, то, просуммировав произведения значений суммы S на соответствующие каждому значению вероятности, мы найдем математическое ожидание этой суммы как дискретной случайной величины -

M(S) = S i P(S i). {2-3}

В рассматриваемом нами ранее примере биномиального распределения, при значении p=0.5, математическое ожидание составит

M(S) = 00.125+10.375+20.375+30.125= 1.5 .

Обратим внимание на то, что математическое ожидание дискретной величины типа Int или Rel совсем не обязательно принадлежит к множеству допустимых ее значений. Что касается СВ типа Nom или Ord, то для них понятие математического ожидания (по закону распределения), конечно же, не имеет смысла. Но так как с номинальной, так и с порядковой шкалой дискретных СВ приходится иметь дело довольно часто, то в этих случаях прикладная статистика предлагает особые, непараметрические методы.

Продолжим исследование свойств математического ожидания и попробуем в условиях нашего примера вместо S рассматривать U= S - M(S). Такая замена СВ (ее часто называют центрированием) вполне корректна: по величине U всегда можно однозначно определить S и наоборот.

Если теперь попробовать найти математическое ожидание новой (не обязательно дискретной) величины M(U) , то оно окажется равным нулю, независимо от того считаем ли мы конкретный пример или рассматриваем такую замену в общем виде.

Мы обнаружили самое важное свойство математического ожидания - оно является “центром” распределения. Правда, речь идет вовсе не о делении оси допустимых значений самой СВ на две равные части. Поистине - первый показатель закона распределения “самый главный” или, на языке статистики, - центральный.

Итак, для СВ с числовым описанием математическое ожидание имеет достаточно простой смысл и легко вычисляется по законам распределения. Заметим также, что математическое ожидание - просто числовая величина (в общем случае не дискретная, а непрерывная) и никак нельзя считать ее случайной.

Другое дело, что эта величина зависит от внутренних параметров распределения (например, - значения вероятности р числа испытаний n биномиальном законе).

Так для приведенных выше примеров дискретных распределений математическое ожидание составляет:

Тип распределения

Математическое ожидание

Биномиальное

np

Распределение Паскаля

k q / p

Геометрическое распределение

q / p

Распределение Пуассона

Возникает вопрос - так что же еще надо? Ответ на этот вопрос можно получить как из теории, так и из практики.

Один из разделов кибернетики - теория информации (курс “Основы теории информационных систем” у нас впереди) в качестве основного положения утверждает, что всякая свертка информации приводит к ее потере. Уже это обстоятельство не позволяет допустить использование только одного показателя распределения СВ - ее математического ожидания.

Практика подтверждает это. Пусть мы построили (или использовали готовые) законы распределения двух случайных величин X и Y и получили следующие результаты:

Таблица 2-2

Значения

1

2

3

4

P(X) %

12

38

38

12

P(Y) %

30

20

20

30

Рис. 2-2

Простое рассмотрение табл.2-2 или соответствующих гистограмм рис.2-2 приводит к выводу о равенстве M(X) = M(Y) = 0.5 , но вместе с тем столь же очевидно, что величина X является заметно “менее случайной”, чем Y.

Приходится признать, что математическое ожидание является удобным, легко вычислимым, но весьма неполным способом описания закона распределения. И поэтому требуется еще как-то использовать полную информацию о случайной величине, свернуть эту информацию каким-то иным способом.

Обратим внимание, что большие отклонения от M(X) у величины X маловероятны, а у величины Y - наоборот. Но при вычислении математического ожидания мы, по сути дела “усредняем” именно отклонения от среднего, с учетом их знаков. Стоит только “погасить” компенсацию отклонений разных знаков и сразу же первая СВ действительно будет иметь показатель разброса данных меньше, чем у второй. Именно такую компенсацию мы получим, усредняя не сами отклонения от среднего, а квадраты этих отклонений.

Соответствующую величину

D(X) = (X i - M(X))2 P(X i); {2-4}

принято называть дисперсией распределения дискретной СВ.

Ясно, что для величин, имеющих единицу измерения, размерность математического ожидания и дисперсии оказываются разными. Поэтому намного удобнее оценивать отклонения СВ от центра распределения не дисперсией, а квадратным корнем из нее - так называемым среднеквадратичным отклонением , т.е. полагать

2 = D(X). {2-5}

Теперь оба параметра распределения (его центр и мера разброса) имеют одну размерность, что весьма удобно для анализа.

Отметим также, что формулу {2-3} часто заменяют более удобной

D(X) = (X i)2 P(X i) - M(X)2. {2-6}

Весьма полезно будет рассмотреть вопрос о предельных значениях дисперсии.

Подобный вопрос был бы неуместен по отношению к математическому ожиданию -- мало ли какие значения может иметь дискретная СВ, да еще и со шкалой Int или Rel.

Но дословный перевод с латыни слова “дисперсия” означает “рассеяние”, “разброс” и поэтому можно попытаться выяснить - чему равна дисперсия наиболее или наименее “разбросанной” СВ? Скорее всего, наибольший разброс значений (относительно среднего) будет иметь дискретная случайная величина X, у которой все n допустимых значений имеют одну и ту же вероятность 1/n. Примем для удобства Xmin и Xmax (пределы изменения данной величины), равными 1 и n соответственно.

Математическое ожидание такой, равномерно распределенной случайной величины составит M(X) = (n+1)/2 и остается вычислить дисперсию, которая оказывается равной

D(X) = (Xi)2/n - (n+1)2/4 = (n2-1)/ 12.

Можно доказать, что это наибольшее значение дисперсии для дискретной СВ со шкалой Int или Rel .

Последнее выражение позволяет легко убедиться, что при n =1 дисперсия оказывается равной нулю - ничего удивительного: в этом случае мы имеем дело с детерминированной, неслучайной величиной.

Дисперсия, как и среднеквадратичное отклонение для конкретного закона распределения являются просто числами, в полном смысле показателями этого закона.

Полезно познакомиться с соотношениями математических ожиданий и дисперсий для упомянутых ранее стандартных распределений:

Таблица 2-3

Тип

распределения

Математическое ожидание

Дисперсия

Коэффициент

вариации

Биномиальное

np

npq

Sqrt(q/np)

Паскаля

kq/p

kq/p2

Sqrt(1/ kq)

Геометрическое

q/p

q/p2

Sqrt(1/q)

Пуассона

Sqrt(1/)

Можно ли предложить ещё один или несколько показателей - сжатых описаний распределения дискретной СВ? Разумеется, можно.

Первый показатель (математическое ожидание) и второй (дисперсия) чаще всего называют моментами распределения. Это связано со способами вычисления этих параметров по известному закону распределения - через усреднение значений самой СВ или усреднение квадратов ее значений.

Конечно, можно усреднять и кубы значений, и их четвертые степени и т.д., но что мы при этом получим? Поищем в теории ответ и на эти вопросы.

Начальными моментами k-го порядка случайной величины X обычно называют суммы:

k = (X i)k P(X i); 0 = 0; {2-7}

а центральными моментами - суммы:

k= (X i -1)k P(X i), {2-8}

при вычислении которых усредняются отклонения от центра распределения - математического ожидания.

Таким образом,

1 = 0;

1 = M(X) является параметром центра распределения;

2 = D(X) является параметром рассеяния; {2-9}

3 и 3 - описывают асимметрию распределения;.

4 и 4 - описывают т.н. эксцесс (выброс) распределения и т.д.

Иногда используют еще один показатель степени разброса СВ - коэффициент вариации V= / M(X), имеющий смысл при ненулевом значении математического ожидания.

5. Распределения непрерывных случайных величин

До этого момента мы ограничивались только одной “разновидностью” СВ - дискретными, т.е. принимающими конечные, заранее оговоренные значения на любой из шкал Nom, Ord, Int или Rel .

Но теория и практика статистики требуют использовать понятие непрерывной СВ -- допускающей любые числовые значения на шкале типа Int или Rel . И дело здесь вовсе не в том, что физические величины теоретически могут принимать любые значения - в конце концов, мы всегда ограничены точностью приборов их измерения. Причина в другом…

Математическое ожидание, дисперсия и другие параметры любых СВ практически всегда вычисляются по формулам, вытекающим из закона распределения. Это всего лишь числа и далеко не всегда целые.

Так обстоит дело в теории. На практике же, мы имеем только одно - ряд наблюдений над случайной (будем далее полагать - всегда дискретной) величиной. По этим наблюдениям можно строить таблицы или гистограммы, используя значения соответствующих частот (вместо вероятностей). Такие распределения принято называть выборочными, а сам набор данных наблюдений - выборкой.

Пусть мы имеем такое выборочное распределение некоторой случайной величины X - т.е. для ряда ее значений (вполне возможно неполного, с “пропусками" некоторых допустимых) у нас есть рассчитанные нами же частоты f i .

В большинстве случаев нам неизвестен закон распределения СВ или о его природе у нас имеются догадки, предположения, гипотезы, но значения параметров и моментов (а это неслучайные величины!) нам неизвестны.

Разумеется, частоты fi суть непрерывные СВ и, кроме первой проблемы -- оценки распределения X, мы имеем ещё одну -- проблему оценки распределения частот.

Существование закона больших чисел, доказанность центральной предельной теоремы поможет нам мало:

во-первых, надо иметь достаточно много наблюдений (чтобы частоты “совпали” с вероятностями), а это всегда дорого;

во-вторых, чаще всего у нас нет никаких гарантий в том, что условия наблюдения остаются неизменными, т.е. мы наблюдаем за независимой случайной величиной.

Теория статистики дает ключ к решению подобных проблем, предлагает методы “работы” со случайными величинами. Большинство этих методов появилось на свет как раз благодаря теоретическим исследованиям распределений непрерывных величин.

5.1 Нормальное распределение

Первым, фундаментальным по значимости, является т.н. нормальный закон распределения непрерывной случайной величины X, для которой допустимым является любое действительное числовое значение. Доказано, что такой закон распределения имеет величина, значение которой обусловлено достаточно большим количеством факторов (причин).

Для вычисления вероятности того, что X лежит в заранее заданном диапазоне, получено выражение, которое называют интегралом вероятности:

P(a X b) =

Обратим внимание на то, что в это выражение входят две константы (параметра) и . Как и для любой (не обязательно дискретной) СВ, здесь также имеют смысл понятия моментов распределения и оказывается, что

M(X) = , а D(x) = 2 . {2-10}

Для непрерывно распределенных величин не существует понятия вероятности конкретного значения. Вопрос -- “какова вероятность достижения температурой воздуха значения 14 градусов?” - некорректен. Все зависит от прибора измерения, его чувствительности, ошибок измерения. Но вместе с тем функция под интегралом вероятности существует, она однозначно определена:

(X) = ,

ее график (аналог гистограммы) имеет вид:

а площадь под кривой на заданном интервале X определяет вероятность попадания в этот интервал.

Чаще всего закон нормального распределения используется для нормированной случайной величины

Z = (X - ) /, {2-11} у которой M(Z)=0; D(Z)=1. {2-12}

Отметим ряд других особенностей этого распределения, полагая его нормированным.

Доказано, что целый ряд “классических” распределений (как дискретных, так и непрерывных) стремятся к нормальному при непрерывном изменении их внутренних параметров.

Симметрия нормального распределения позволяет достаточно просто оценивать вероятность “попадания” случайной нормированной величины в заданный диапазон. Очень часто в прикладной статистике приходится использовать понятие “маловероятного” значения. Для нормированной величины с нормальным распределением вероятность попадания в диапазон 3 составляет 0.9973 (правило “трех сигм”).

Особую роль играет нормальное распределение при решении вопросов о “представительности” наблюдений. Оказывается, что работа с выборочными распределениями в большинстве случаев позволяет решить проблему оценки наших предварительных выводов, предположений, гипотез - с использованием разработанных и теоретически обоснованных приемов на базе нормального закона.

5.2 Распределения выборочных значений параметров нормального распределения

Пусть у нас имеется некоторая непрерывная случайная величина X , распределенная нормально с математическим ожиданием и среднеквадратичным отклонением. Если мы имеем n наблюдений над такой величиной (имеем выборку объемом n из генеральной совокупности), то выборочные значения Mx и Sx являются также случайными величинами и нам крайне важно знать их законы распределения. Это необходимо как для оценки доверия к этим показателям, так и для проверки принадлежности исходного распределения к нормальному. Существует ряд теоретически обоснованных выводов по этой проблеме:

величина имеет нормированное нормальное распределение, что позволяет оценивать Mx при заранее известной дисперсии;

величина имеет так называемое распределение Стьюдента, для которого также имеется выражение плотности вероятности и построены таблицы;

величина имеет распределение "хи-квадрат", также с аналитической функцией плотности и рассчитанными по ней таблицами.

Отметим, что распределения Стьюдента и "хи-квадрат" имеют свой внутренний параметр, который принято называть числом степеней свободы. Этот параметр полностью определяется объемом выборки (численностью наблюдений) и выбирается обычно равным m = (n - 1).

6.Таблицы сопряженности

Таблицы сопряженности - это обычные таблицы частот (с одним входом) для рассматриваемых переменных. Так как эти частоты располагаются на краях таблицы, то они называются маргинальными. Маргинальные значения важны, т.к. позволяют оценить распределение частот в отдельных столбцах и строках таблицы. Например, 40% и 60% мужчин и женщин (соответственно), выбравших марку A (см. первый столбец таблицы), не могли бы показать какой-либо связи между переменными Пол и Газ. вода, если бы маргинальные частоты переменной Пол были также 40% и 60%. В этом случае они просто отражали бы разную долю мужчин и женщин, участвующих в опросе. Таким образом, различие в распределении частот в строках (или столбцах) отдельных переменных и в соответствующих маргинальных частотах дают информацию о связи переменных.

Проценты по столбцам, по строкам и проценты от общего числа наблюдений. Пример в предыдущем разделе показывает, что для оценки связи между табулированными переменными, необходимо сравнить маргинальные и индивидуальные частоты в таблице. Такие сравнения легче проводить, имея дело с относительными частотами или процентами. Графическое представление таблиц сопряженности. В целях исследования отдельные строки и столбцы таблицы удобно представлять в виде графиков. Полезно также отобразить целую таблицу на отдельном графике. Таблицы с двумя входами можно изобразить на 3-мерной гистограмме. Другой способ визуализации таблиц сопряженности - построение категоризованной гистограммы, в которой каждая переменная представлена индивидуальными гистограммами на каждом уровне другой переменной. Преимущество 3М гистограммы в том, что она позволяет представить на одном графике таблицу целиком. Достоинство категорированного графика в том, что он дает возможность точно оценить отдельные частоты в каждой ячейке.

Таблицы флагов и заголовков. Или, кратко, таблицы заголовков позволяют отобразить несколько двухходовых таблиц в сжатом виде. Этот тип таблиц можно объяснить на примере файла интересов к спорту (см. таблицу ниже). Для краткости, в таблице изображены только строки для категорий Всегда и Обычно.

STATISTICA

ОСНОВНЫЕ

СТАТИСТИКИ

Таблица флагов и заголовков:

Проценты по строкам

Фактор

ФУТБОЛ

ВСЕГДА

ФУТБОЛ

ОБЫЧНО

Всего

по строке

БЕЙСБОЛ: ВСЕГДА

БЕЙСБОЛ: ОБЫЧНО

92.31

61.54

7.69

38.46

66.67

33.33

БЕЙСБОЛ: Всего

82.05

17.95

100.00

ТЕННИС: ВСЕГДА

ТЕННИС: ОБЫЧНО

87.50

87.50

12.50

12.50

66.67

33.33

ТЕННИС: Всего

87.50

12.50

100.00

БОКС: ВСЕГДА

БОКС: ОБЫЧНО

77.78

100.00

22.22

0.00

52.94

47.06

БОКС : Всего

88.24

11.76

100.00

Интерпретация таблиц заголовков. В приведенной выше таблице результатов представлены три двувходовые таблицы, в которых интерес к Футболу сопряжен с интересом к Бейсболу, Теннису и Боксу. Таблица содержит информацию о процентах по столбцам, поэтому суммы по строкам равны 100%. Например, число в левом верхнем углу таблицы результатов (92.31) показывает, что 92.31 процентов всех респондентов ответили, что им всегда интересно смотреть футбол и всегда интересно смотреть баскетбол. Если вы посмотрите следующую часть таблицы, то увидите, что процент тех, кому всегда интересно смотреть футбол и всегда интересно смотреть теннис, равен 87.50; для бокса этот процент составляет 77.78. Проценты в столбце (Всего по строке), показанные после каждого набора переменных, всегда связаны с общим числом наблюдений.

Многоходовые таблицы с категориальными переменными. Когда кросстабулируются только две переменные, результирующая таблица называется двувходовой. Конечно, общую идею кросстабулирования можно обобщить на большее число переменных. В примере с "газированной водой" (см. выше) добавим третью категориальную переменную с информацией о городе, в котором проводилось исследование (Москва или Петербург).

 

ПОЛ

ГАЗ. ВОДА

ГОРОД

наблюдение 1

наблюдение 2

наблюдение 3

наблюдение 4

наблюдение 5

...

мужчина

женщина

женщина

женщина

мужчина

...

A

B

B

A

B

...

МОСКВА

ПЕТЕРБУРГ

МОСКВА

МОСКВА

ПЕТЕРБУРГ

...

Кросстабуляция этих 3-х переменных представлена в следующей таблице:

 

ГОРОД: ПЕТЕРБУРГ

ГОРОД: МОСКВА

 

ГАЗ. ВОДА: A

ГАЗ. ВОДА: B

 

ГАЗ. ВОДА: A

ГАЗ. ВОДА: B

 

Пол:мужчина

20

30

50

 5

45

50

Пол:женщина

30

20

50

45

 5

50

 

50

50

100

50

50

100

Теоретически любое число переменных может быть кросстабулировано в одной многовходовой таблице. Однако на практике возникают сложности с проверкой и "пониманием" таких таблиц, даже если они содержат более четырех переменных. Рекомендуется анализировать зависимости между факторами в таких таблицах с помощью более продвинутых методов, таких как Логлинейный анализ или Анализ соответствий.

Графическое представление многовходовых таблиц. Можно построить "дважды категоризованные" гистограммы, 3М гистограммы

или линейные графики, позволяющие свести частоты для более чем 3-х факторов в один график.

Наборы (каскады) графиков используются для интерпретации сложных многовходовых таблиц (как показано на следующем графике).

Статистики таблиц сопряженности

· Обзор

· Критерий хи-квадрат Пирсона

· Критерий хи-квадрат (метод максимального правдоподобия)

· Поправка Йетса

· Точный критерий Фишера

· Хи-квадрат Макнемара

· Коэффициент Фи

· Тетрахорическая корреляция

· Коэффициент сопряженности

· Интерпретация мер связи

· Статистики, основанные на рангах

· R Спирмена

· Тау Кендалла

· Коэффициент d Соммера: d(X|Y), d(Y|X)

· Гамма-статистика

· Коэффициенты неопределенности: S(X,Y), S(X|Y), S(Y|X)

Таблицы сопряженности позволяют измерить связи между кросстабулированными переменными. Следующая таблица отчетливо показывает сильную связь между двумя переменными: переменная Возраст (Взрослый или Ребенок) и переменная - предпочитаемое Печенье (сорт A или сорт B).

 

ПЕЧЕНЬЕ: A

ПЕЧЕНЬЕ: B

 

ВОЗРАСТ: ВЗРОСЛЫЙ

50

 0

50

ВОЗРАСТ: РЕБЕНОК

 0

50

50

 

50

50

100

Из таблицы видно, что все взрослые выбирают печенье A, а все дети печенье B. В данном случае, нет оснований сомневаться в надежности этого факта. Взглянув на таблицу, мало кто усомнится, что между предпочтениями детей и взрослых имеется отчетливое различие. Однако наблюдаемые на практике связи значительно слабее, и поэтому возникает вопрос: как измерить связи между табулированными переменными и оценить их надежность (статистическую значимость). Далее обсуждаются самые общие меры связи между двумя категорированными переменными. Методы, используемые для анализа связей между более чем двумя переменными в таблицах высокого порядка, обсуждаются в разделах Логлинейный анализ и Анализ соответствий.

Список используемой литературы

1.Беккенбах Э.- «Прикладная комбинаторная математика» (ред.) 1968 г.

2.Бикел П., Доксам М.- «Математическая Статистика». 1987г.

3.Большев Л.Н., Смирнов Н.В. «Таблицы математической статистики» 1965г.

4.Дейвисон М.- «Многомерное шкалирование»1988г.

5.Диде Э. и др.- «Методы анализа данных»1987г.

6.Кэндалл М., Стьюарт А.- «Теория распределений» 1966г., «Статистические выводы и связи»1973г.

7.Кокс Д., Хинкли Д. «Статистические выводы и связи» 1978г.

8.Крамгер Г.- «Математические методы статистики». 1975г.

9.Лазарьсфельд П., Генри Н.- «Математические методы в социальных науках». 1973г.

10.Ллойд Э., Ледерман У. - «Справочник по прикладной статистике» т.1., т.2.-1989г., 1990г.

11.Райфа Г., Шлейфер Р.- «Прикладная теория статистических решений» 1987г.

12.Свешников А.А. -«Сборник задач по теории вероятностей…» 1965г.

13.Холендер М , Вульф Д.- « Непараметрические методы статистики» 1983г.

14.Чернов Г.. Мозес Л. - «Элементарная теория статистических решений» 1962г.

15.Шорм Р.- «Теория вероятностей, мат. Статистика…»

16.Материалы сайта: http:www.Statsoft. ru/ houm textbook/ modules/stbasic. html


Подобные документы

  • Распределение вероятностей случайных величин. Числовые характеристики случайных величин. Смешанные начальный и центральный моменты совместного распределения совокупности случайных величин. Физический смысл понятия корреляции. Модель потока редких событий.

    лекция [429,8 K], добавлен 02.08.2009

  • Законы распределения случайных величин. Закон распределения Пуассона. Свойства плотности вероятности. Критериальные случайные величины. Свойство коэффициента корреляции. Закон больших чисел и его следствия. Предельные теоремы теории вероятностей.

    курс лекций [774,3 K], добавлен 11.03.2011

  • Комбинаторный метод вычисления вероятностей. Понятие случайных величин. Характеристики положения и рассеивания. Закон больших чисел. Центральная предельная теорема. Статистическое оценивание характеристик распределения генеральной совокупности по выборке.

    учебное пособие [554,6 K], добавлен 15.06.2015

  • Преобразование плотностей непрерывных случайных величин. Модели безынерционных преобразований случайных процессов. Кусочно-линейное, двустороннее квадратичное преобразование. Одномерное распределение гармонического колебания со случайной начальной фазой.

    лекция [523,2 K], добавлен 02.08.2009

  • Построение ряда распределения предприятий по стоимости основных производственных фондов методом статистической группировки. Нахождение средних величин и индексов. Понятие и вычисление относительных величин. Показатели вариации. Выборочное наблюдение.

    контрольная работа [120,9 K], добавлен 01.03.2012

  • Нахождение доверительных интервалов с помощью функции Лапласа и критериев распределения Стьюдента: сравнение средних выборок; корреляция случайных величин. Метод наименьших квадратов: построение модели; расчет доверительных интервалов для коэффициентов.

    презентация [109,2 K], добавлен 30.07.2013

  • Составление закона распределения случайной величины X—числа студентов, успешно сдавших экзамен. Расчет математического ожидания, дисперсии и среднего квадратического отклонения случайной величины. Таблица накопленных частот для сгруппированной выборки.

    курсовая работа [1,8 M], добавлен 11.01.2015

  • Технические условия на дефектацию сопряжений тракторных деталей. Определение минимального объема наблюдений при проведении эксперементально-исследовательских значений случайных величин. Доверительные границы остаточного ресурса шестерни трактора.

    курсовая работа [27,5 K], добавлен 16.12.2011

  • Оформление результатов сводки и группировки материалов статистического наблюдения в виде рядов распределения (атрибутивных и вариационных). Расчет средних величин и показателей вариации, моды и меридианы. Графическое изображение статистических данных.

    контрольная работа [226,8 K], добавлен 31.07.2011

  • Абсолютные и относительные статистические показатели, методы прогнозирования. Закон распределения вероятностей дискретной случайной величины. Оценки параметров генеральной совокупности. Статистическое исследование социально-экономического потенциала.

    шпаргалка [1,8 M], добавлен 16.05.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.