Основы научных исследований
Требования, виды и последовательность организации эксперимента. Статистическая вероятность и распределения случайных величин. Параметры эмпирических распределений и проверка нормальности распределения. Основы корреляционного и регрессионного анализов.
Рубрика | Экономико-математическое моделирование |
Вид | учебное пособие |
Язык | русский |
Дата добавления | 04.02.2016 |
Размер файла | 666,7 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
,
где
Если А и В по модулю значительно, в 2-3 раза, превышают свои средние квадратичные ошибки, то нормальность распределения сомнительна и следует провести проверку по более точному критерию. Обычно используется критерий ч2 (хи-квадрат), но при этом требуется объем выборки не менее 50 единиц. В противном случае оснований для сомнений нет.
Если проверка показала, что распределение нормально, то можно проводить дальнейшую статистическую обработку данной совокупности методами классической математической статистики. Если даже более точная проверка показала отличие данного распределения от нормального, то тогда следует попытаться привести его к нормальному заменой независимой переменной.
Например, положительно асимметричные распределения часто встречаются при обработке экономической информации. Они легко приводятся к нормальному виду логарифмированием случайной величины (рис.8.4):
Размещено на http://www.allbest.ru/
Рисунок 8.4 Логарифмирование независимой переменной
Некоторые случайные величины, имеющие размерность квадрата какой-либо величины (например, площади), могут быть приведены к нормальному виду преобразованием: .
Если никакими преобразованиями распределение не приводится к нормальному виду, то тогда для дальнейшей работы с ним нужно использовать методы непараметрической статистики. Они значительно сложнее и дают меньшую точность оценок (при одинаковом объеме данных). Но в технических науках. где распределения обычно являются нормальными, в использовании этих методов необходимость возникает редко.
9.1 Основные задачи статистики
Назначение статистических методов состоит в том, чтобы по выборкам ограниченного объема делать обоснованные выводы о свойствах генеральных совокупностей, из которых эти выборки были извлечены. При этом возникает две основные задачи:
1. Оценивание параметров.
2. Проверка статистических гипотез.
Первая задача заключается в получении по выборочным данным оценок параметров генеральных совокупностей посредством каких-либо подходящих функций от элементов выборок. Это т.н. параметризация.
Параметрами (статистическими характеристиками) называются все подлежащие определению величины генеральной совокупности.
Примеры параметров: вероятности событий, математические ожидания, дисперсии.
Оценка - это найденное по выборочным данным значение параметра.
Статистические характеристики (параметры) вообще принято обозначать буквой , а их оценки - .
Термин «оценка» используется вследствие того, что из-за случайного характера выборочных исследований в принципе невозможно гарантировать не выход ошибки параметризации из любых наперед заданных пределов. Поэтому предпочитают говорить не о приближенном значении параметра, а о получении наилучшей среди возможных оценке его величины.
На рисунке 9.1 параметром является дисперсия у2(х), а его оценкой - эмпирическая дисперсия s2(х).
Размещено на http://www.allbest.ru/
Рисунок 9.1 Параметр и его оценка
Оценив по выборочным (эмпирическим) данным тот или иной параметр, нужно выяснить, насколько согласуется с опытными данными гипотеза о том, что параметры действительно имеют те значения, которые получены в результате их оценивания. Это - задача проверки статистических гипотез.
9.2 Типы оценок
Оценки бывают двух типов - точечные и интервальные.
Оценка называется точечной, если в результате оценивания получается значение неизвестного параметра в виде числа.
Например, точечной оценкой математического ожидания м(х) является среднее значение случайной величины =3,14.
Точечная оценка является функцией от элементов выборки:
= g(x1,x2... xN ).
Например, то же среднее арифметическое
.
Оценка называется интервальной, если в результате оценивания получаются границы интервала, внутри которого с определенной вероятностью находится значение искомого параметра:
На рисунке 9.2 показана графическая интерпретация интервального оценивания.
Размещено на http://www.allbest.ru/
9.2 Интервальное оценивание
Интервал называется доверительным интервалом, его нижняя и верхняя границы называются соответственно нижним и верхним доверительными пределами, а вероятность р - доверительной вероятностью. Т.о. при интервальном оценивании находится интервал, в котором с заданной доверительной вероятностью находится параметр, причем центром этого интервала является точечная оценка .
Статистическое оценивание будет полным, если найдены как точечная, так и интервальная оценки исследуемого параметра.
Например, точечная и интервальная оценки роста некоторой совокупности людей (рис.7.3):
Размещено на http://www.allbest.ru/
Рисунок 7.3 Полная оценка роста
9.3 Статистики
Любая функция от элементов выборки называется статистикой. Следовательно, точечная оценка также является статистикой. Однако не всякая статистика может быть использована для оценивания параметров генеральной совокупности.
Из определения статистики следует, что произвольная статистика как функция от элементов случайной выборки сама является случайной величиной. Поэтому, как и любая другая случайная величина, она может быть описана с вероятностной точки зрения распределением и параметрами.
Конкретное значение статистики g, найденное по каждой выборке, является значением этой случайной величины. На рисунке 9.4 показаны различные выборки из генеральной совокупности и рассчитанные по ним статистики gi.
Размещено на http://www.allbest.ru/
Рисунок 9.4 Статистика как случайная величина
Поэтому любая оценка параметра является величиной случайной, тогда как оцениваемый параметрне случаен. Поскольку оценки являются случайными величинами, то их статистические свойства описываются т.н. выборочными распределениями.
9.4 Свойства оценок
Для оценивания одного и того же параметра можно использовать разные статистики. Например, для оценивания м(х) можно применять простое среднее , среднее взвешенное , среднее геометрическое и среднее гармоническое . Однако для того, чтобы оценивание было произведено наилучшим образом, оценки должны обладать следующими свойствами:
1. Состоятельности - при неограниченном увеличении объема выборки N оценка стремится к параметру с достоверностью.
Это означает, что с ростом N выборочные распределения все в большей степени концентрируются вокруг и точность оценки не ограниченно возрастает. В частности, для состоятельной оценки справедливо
.
2. Несмещенности - если для любого объема выборки математическое ожидание оценки равно оцениваемому параметру:
.
Для несмещенной оценки характерно отсутствие систематической погрешности; при любом объеме выборки функция плотности вероятности имеет своим центром истинное значение параметра. Если , но , то такая оценка называется асимптотически несмещенной.
3. Эффективности - если несмещенная оценка среди всех других оценок параметра обладает наименьшей дисперсией
.
Если для любого конечного N, но: , то такая оценка называется асимптотически несмещенной.
4. Достаточности - если знание любых других оценок не дает никакой дополнительной информации осверх той, которая имеется в.
В настоящее время разработаны общие методы, позволяющие находить во многих случаях «хорошие» оценки для разных статистических параметров. Одним из них является метод максимального правдоподобия.
9.5 Метод максимального правдоподобия
Разработан Р.Фишером. Пусть х1,х2...хN - выборка из генеральной совокупности случайной величины х с функцией плотности вероятности р(х,и), зависящей от постоянного параметра и. Выборочная плотность вероятности при объеме выборки N будет равна
, (9.1)
т.к. по условию все элементы выборки статистически независимы. Значения выборки известны - это некоторые числа, а параметр - не известен. Зависящая от функция, которая получается при подстановке выборочных значений хi в (9.1), называется функцией правдоподобия L() для параметра
. (9.2)
Метод максимального правдоподобия состоит в том, что в качестве оценки неизвестного параметра выбирается то его значение, которое максимизирует функцию (9.2). Для этого выполняется исследование (9.2) на экстремум.
Достоинством метода максимального правдоподобия является то, что с его помощью можно сравнительно легко находить оценки, обладающие хорошими свойствами. Доказано, что:
1. Если существует эффективная оценка, то метод максимального правдоподобия дает именно такую оценку и более точную найти нельзя.
2. Оценка, найденная методом максимального правдоподобия, при до-вольно слабых ограничениях состоятельна, по крайней мере асимптотически эффективна и асимптотически нормальна с математическим ожиданием, равным.
В частности показано, что если случайная величина распределена по нормальному закону с известной дисперсией, то оценкой ее математического ожидания будет среднее значение . Если случайная величина х распределена по нормальному закону с известным м(х), то ее несмещенной оценкой дисперсии будет статистика
.
10.1 Выборочные распределения
Выборочное распределение - это распределение какой-либо статистики, полученное в результате отбора различных случайных выборок из одной и той же генеральной совокупности и расчета по ним числовых значений этой статистики.
На рисунке 10.1 показаны распределение исходной случайной величины х и распределение статистки g, полученное из генеральной совокупности исходной случайной величины х.
Размещено на http://www.allbest.ru/
Рисунок 10.1 Выборочное распределение
Выборочные распределения в обобщенном виде отражают вариации того или иного параметра всех возможных случайных выборок данного объема N. На практике редко берется более одной выборки.
Поэтому выборочные распределения являются теоретическим понятием, которое используется для того, чтобы по результатам одной выборки оценить степень достоверности полученного числового значения оцениваемого параметра.
Для каждого из статистических параметров, таких, как м(х), у2(х) и т.д. можно построить свои выборочные распределения. Наиболее важными из них являются распределения, связанные со средними и дисперсиями.
10.2 Распределение Стьюдента
Служит для изучения вероятностных характеристик выборочных средних. Из того факта, что каждая выборка отбирается из генеральной совокупности случайным образом, следует, что для распределения средних справедливо следующее:
1. Среднее значение распределения равно среднему в генеральной совокупности
2. Его стандартное (среднеквадратичное) отклонение равно ,
где - дисперсия исходной генеральной совокупности.
3. Его форма будет близкой к «колоколу» нормального распределения, если объемы выборок не слишком малы.
Эти положения хорошо подтверждаются опытом при обобщении эмпирически полученных выборочных распределений.
На практике нам не известны ни м(х), ни у2(х). По выборочным данным можно рассчитать только их оценки и . Эти данные не дают оснований считать, что выборочное распределение является нормальным со стандартным отклонением (на самом деле его стандартное отклонение неизвестно и равно ). В таком случае возникает проблема: как описать выборочное распределение?
Решение этой проблемы было дано в 1908г. У.Госеттом, который публиковал свои работы под псевдонимом «Стьюдент». Это было первым серьезным достижением в статистическом анализе малых выборок. Госетт показал, что статистика
(10.1)
подчиняется так называемому t-распределению (которое стали назы-вать распределением Стьюдента) с числом степеней свободы (ЧСС), равным н. Это означает, что данное распределение зависит только от одного параметра - н, который легко находится по объему выборки. Оно имеет очень сложную формулу плотности распределения
(10.2)
где ! - знак факториала.
Число степеней свободы - параметр, равный объему выборки минус число оцениваемых по этой выборке параметров.
Для t-распределения ЧСС н = N-1.
График функции плотности t-распределения симметричен относительно оси ординат и с ростом н приближается к кривой нормального распределения (рис.10.2). При малых н t- распределение заметно отличается от нормального своей большой рассеянностью значений относительно центра распределения. Для того, чтобы распределение.
Стьюдента не слишком отличалось от нормального, объемы выборок должны быть не очень малыми .
Размещено на http://www.allbest.ru/
Рисунок 10.2 Распределение Стьюдента
Это следует из того, что у нормального распределения 95% наблюдаемых значений заключено в интервале , а для распределения Стьюдента при N=10 - в пределах . Т.о. даже для относительно небольших выборок расчет дисперсии по выборочным данным не может сильно исказить оценку математического ожидания.
Практическое значение распределения Стьюдента в том, что:
1. Найден точный ответ на вопрос о характере выборочного распределения средних для выборок небольшого объема.
2. Обосновано положение о том, что разница между распределением средних и нормальным распределением невелика. Нормальное распределение может служить хорошей аппроксимацией даже в том случае, когда вместо приходится использовать .
3. Получена возможность выяснения вероятностных свойств выборочных средних, когда дисперсия неизвестна.
4. Статистика (8.1) может использоваться до отбора выборки для выдвижения различных гипотез относительно выборочных средних, в частности, при интервальном оценивании.
10.3 Распределение (хи-квадрат)
Это распределение, называемое также распределением Пирсона, используется при изучении вероятностных свойств выборочных дисперсий.
Если s2(x) - дисперсия случайной величины по выборке из генеральной совокупности с дисперсией у2(х) и неизвестным м(х), то статистика
(10.3)
подчиняется так называемому ч2 - распределению с единственным параметром н = N-1.
Распределение хи-квадрат возникает при рассмотрении случайной величины
,
где - независимые нормально распределенные случайные величины
с м(u) = 0 и у2(u) = 1.
Функция плотности распределения ч2, подобно функции плотности t-распределения, имеет очень сложную структуру
(10.4)
Графики функции плотности этого распределения показаны на рисунке 10.3:
Размещено на http://www.allbest.ru/
Рисунок 10.3 Распределение ч2
По рисунку 10.3 видно, что с ростом объема выборки ч2-распределение очень быстро становится похожим на нормальное. Область определения функции р(ч2) - от 0 до + ?. При малых ЧСС она асимметрична, но с ростом н она становится более пологой и симметричной. При N > ? распределение стремится к нормальному с параметрами
и .
Распределение хи-квадрат применяется для описания вероятностных свойств эмпирических дисперсий. При помощи статистики (10.2) можно осуществлять интервальное оценивание эмпирической дисперсии s2(х), если до опыта известно у2(х), а м(х) - неизвестно
,
где - уровень значимости критерия (см. лекцию № 9).
10.4 Распределение Фишера
Служит для сравнения дисперсий разных статистических совокупностей разных случайных величин х1 и х2. Ему подчиняется статистика
(10.5)
где s2(x1) > s2(x2).
Распределение Фишера зависит от двух параметров- чисел степеней свободы каждой совокупности
.
Функция плотности этого распределения имеет довольно сложную структуру
(10.6)
Ее область определения: от 0 до .С увеличением ЧСС первоначально асимметричная кривая начинает приближаться по форме к кривой нормального распределения (рис.10.4).
Размещено на http://www.allbest.ru/
Рисунок 10.4 Распределение Фишера
Имеются многочисленные таблицы, облегчающие применение F-распределения. Оно применяется для выдвижения статистических гипотез об отношениях выборочных дисперсий до извлечения выборок, например для определения интервала, в котором с заданной доверительной вероятностью будет заключено данное отношение.
11.1 Статистические гипотезы
Как известно, одной из двух основных задач математической статистики является проверка статистических гипотез.
Статистическая гипотеза - это некоторое предположение о свойствах генеральной совокупности, из которой извлекается выборка.
Это может быть предположения о том, что некоторый параметр генеральной совокупности равен определенному числу, или что некоторые параметры двух разных совокупностей равны (или не равны) друг другу и т.п.
Например: дисперсия генеральной совокупности равна нулю: у2(х) = 0; или математические ожидания разных генеральных совокупностей не равны друг другу: м(х1) ? м(х2).
Поскольку выборочные аналоги параметров генеральных совокупностей являются их оценками , то они позволяют выдвигать определенные предположения о величинах и их соотношениях.
Например, если s2(х) = 0,0012, то естественно предположить, что в генеральной совокупности оно будет точно равна нулю, а отклонение выборочной дисперсии от нуля обусловлено случайными причинами.
Проверка статистических гипотез осуществляется при помощи статистических критериев, позволяющих принимать или отбрасывать данную гипотезу на основе выборочных данных.
Характерной особенностью статистических критериев является то, что они могут устанавливать только отличие, но не тождественность чего-то относительно рассматриваемых признаков. Это следует из природы индуктивного вывода. Поэтому любая статистическая гипотеза состоит из двух частей: нулевой гипотезы и альтернативной гипотезы.
Нулевой гипотезой (или нуль-гипотезой) называется предположение о равенстве параметра и какому-то числу или о равенстве некоторых параметров двух генеральных совокупностей друг другу.
Записывается в виде:
Н0: = m0; или Н0: 1=2
Например:
Н0: м(х) = 0; или у2(х1) = у2(х2).
Поскольку для доказательства Н0 требуется исследование всей генеральной совокупности, то она отбрасывается, если оказывается верным противоположное предположение, записываемое в виде альтернативной гипотезы:
Н1: ? m0; или Н1: 1 >2 или Н1: 1 < 2 и т.д.
Альтернативная гипотеза выдвигается на основе выборочных данных. Если в выборке, например, >, то и в генеральной совокупности .
Полная запись статистической гипотезы имеет вид:
Н0: = m0; или Н0: 1= 2
Н1: Н1: 1> 2 и т.д.
11.2 Проверка статистических гипотез
Для проверки статистических гипотез используются статистики, называемые статистическими критериями или иначе - критериями значимости. В частности, для проверки гипотез о математическом ожидании применяется критерий Стьюдента, о дисперсии - критерий ч2, а для сравнения дисперсий - критерий Фишера.
Идею проверки рассмотрим на примере. Пусть требуется проверить гипотезу:
Н0: м(х) = 0
Н1: м(х) > 0
По выборочным данным . Это еще не опровергает Н0, т.к. выборочное значение статистики является всего лишь одним из возможных значений случайной величины, порождаемой различными выборками. Возникает вопрос: насколько сильно должно отличаться от, чтобы можно было принять Н1(и т.о. отбросить Н0)?
Поскольку речь идет о выборочном среднем, то при рассмотрении этого вопроса нужно использовать распределение Стьюдента.
Зная объем выборки N, следовательно ЧСС, можно построить распределение Стьюдента для данного н (рис.11.1):
Размещено на http://www.allbest.ru/
Рисунок 11.1 Критическая область t-распределения
При этом следует помнить, что t-распределение справедливо только при нормальном распределении случайной величины х, выборки из генеральной совокупности которой образовали это распределение.
По распределению можно судить о том, какова вероятность того, что значение среднего будет иметь ту или иную величину. Для этого следует вычислить теоретическое значение t-критерия
.
Затем можно вычислить вероятность того, что случайная величина может принять значение, большее
.
Если эта вероятность больше некоторого достаточно малого числа q, называемого уровнем значимости, то есть основания сомневаться в справедливости нулевой гипотезы.
На практике решается обратная задача: по заданной доверительной вероятности р определяется то теоретическое значение , за пределы которого с заданной вероятностью не может выйти любой выборки. Теоретические значения t-критерия при заданных н и р затабулированы и поэтому называются табличными. Затем вычисляется эмпирическое значение t-критерия по выборочным данным
=.
Оно сравнивается с табличным значением, делящим t-распределение на две области: область принятия Н0 (если < ) и критическую область (если > ). Если < , то принимается Н0.
Критическая область состоит из всех тех значений статистики, при которых принимается решение отвергнуть Н0 как ложную. Поскольку такие решения базируются на статистиках, найденных по выборкам ограниченного объема, то всегда есть вероятность совершить ошибку одного из следующих типов:
Проверяемая гипотеза |
Объективно верна |
Объективно неверна |
|
Н0 принимается |
Правильное решение |
Ошибка ІІ-го рода |
|
Н0 отвергается |
Ошибка І-го рода |
Правильное решение |
Вероятность совершить ошибку первого рода называется уровнем значимости критерия q.
Вероятность совершить ошибку ІІ-го рода обозначается в. Она зависит от мощности критерия, представляющей вероятность отбрасывания неверной гипотезы и равной 1-в. При построении статистических критериев стараются минимизировать суммарную ошибку обоих родов. При любом постоянном объеме выборки вероятность ошибки І-го рода можно уменьшить, уменьшая уровень значимости q. Однако при этом растет вероятность допустить ошибку ІІ-го рода, т.е. падает мощность критерия. Единственный выход из этой противоречивой ситуации, позволяющий одновременно уменьшить q и в - увеличить N.
Выбор уровня значимости q при проверке гипотез производится из тех же соображений, что и выбор доверительной вероятности р при интервальном оценивании, т.к. q = 1-р. Поэтому q: 0,1(10%); 0,05, (5%); 0,01(1%) и т.д.
Вид критической области полностью зависит от вида Н1. Если Н0: = m0 противостоит Н1: ? m0, то критерий для проверки Н0 будет двухсторонним. Его критическая область состоит из двух частей. Например, для t-критерия (рис.11.2):
Размещено на http://www.allbest.ru/
Рисунок 11.2 Двухсторонняя критическая область
Границы критической области обычно выбирают так, чтобы вероятность попадания в левую и правую части были одинаковыми и равными q/2. Поэтому уровень значимости уменьшается вдвое.
Если же Н0: = m0 противостоит Н1: > m0 (или Н1: < m0), то соответствующий критерий для проверки будет односторонним и его критическая область будет состоять из одной части (рис.11.1).
Двухсторонний критерий всегда имеет меньшую мощность, чем односторонний. Поэтому нужно всегда, если есть такая возможность, отдавать предпочтение односторонним критериям.
Тема 3. Основы корреляционного и регрессионного анализов
12.1 Корреляция и регрессия
Вспомним, что зависимости называются вероятностными или стохастическими, если каждому набору факторов хi соответствует множество значений откликов у, случайным образом рассеянных вокруг среднего значения. Все стохастические зависимости подразделяются на корреляционные и регрессионные. Однако эта терминология не является вполне однозначной: часто, особенности среди не профессионалов, корреляцией называют всякую вероятностную зависимость, не имеющую функционального характера. Однако более узкое и более точное определение корреляции таково:
Корреляция - это двухсторонняя стохастическая зависимость между несколькими величинами, каждая из которых изменяется случайным образом.
Например, количество брака на производстве, будучи величиной случайной, зависит от качества исходного сырья, которое также меняется случайным образом. Но, в то же время, количество брака однозначно не зависит от качества сырья, т.к. на него влияет множество других производственных факторов: состояние оборудования, профессиональная подготовка персонала, система управления и т.д. Количество брака и качество сырья связаны только корреляционно.
На графике корреляционная зависимость выглядит в виде облака рассеивания (рис.12.1).
Размещено на http://www.allbest.ru/
Рисунок 12.1 Корреляционная зависимость
Чем уже облако, тем ближе корреляционная зависимость к функциональной; чем оно шире - тем слабее причинная связь между переменными и в пределе, когда точки случайно рассеяны по плоскости графика, всякая причинная связь отсутствует.
Корреляционным анализом называется задача изучения зависимостей между величинами, каждая из которых подвержена случайному рассеиванию.
В результате корреляционного анализа:
1. Устанавливается степень тесноты связи между рассматриваемыми случайными величинами. Количественно теснота связи оценивается корреляционным отношением з или коэффициентом корреляции с.
2. Обнаруживаются ранее неизвестные причинные связи между явлениями, поскольку устанавливается степень достоверности суждений о наличии таких связей.
Различают линейную и нелинейную, прямую и обратную, непосредственную и косвенную корреляции. Считается, что бывает также ложная корреляция, когда формально степень связи между случайными величинами велика, а причинной связи между ними нет.
Термин «корреляция» введен английским ученым Ф.Гальтоном (от позднелатинского correlatio - соотношение).
Регрессия - зависимость среднего значения случайной величины от одной или нескольких не случайных величин.
Регрессию также называют односторонней стохастической связью, поскольку в этом случае отклики являются случайными величинами, а факторы - не случайными.
Регрессия возникает, когда на функциональную связь между откликами и факторами накладываются случайные помехи, которые и делают отклики величинами случайными. Типичный график регрессионной зависимости приведен на рисунке 5.2. По нему видно, что одному и тому же значению х соответствуют разные значения y, но группируются они вокруг среднего.
Термин «регрессия» также был введен Ф.Гальтоном и вначале применялся в смысле возврата к среднему: «regression to mediocrity». В дальнейшем это понятие было обобщено и ныне применяется для обозначения всякой односторонней стохастической связи, т.е. такой, у которой только одна из переменных изменяется случайным образом. Именно в этом смысле корреляция является двухсторонней связью.
Односторонняя стохастическая связь выражается при помощи функции, которая для отличия от математического понятия «функция» названа регрессией. Ее фундаментальным свойством является необратимость: зная регрессию нельзя найти обратную функцию , что возможно в случае функциональной зависимости. Говорят, что регрессии y по х не соответствует регрессия х по y.
Различают простую регрессию, когда отклик зависит только от одного фактора, и множественную, когда он зависит от нескольких факторов
По форме регрессия бывает линейной и нелинейной, положи-тельной, когда с ростом х растет в среднем и у рис.(12.2), и отрицатель-ной (рис.12.3).
Размещено на http://www.allbest.ru/
Рисунок 12.3 Положительная Рисунок 10.4 - Отрицательная нелинейная регрессия линейная регрессия
Для проведения регрессионного анализа необходимо иметь несколько (не менее трех) значений откликов для каждого фиксированного значения фактора (или факторов). Опытные данные для регрессионного анализа записывают в виде таблицы 12.1. Затем математической обработкой получают эмпирические формулы. Математическая обработка обычно ведется методом наименьших квадратов, который предполагает решение достаточно больших систем линейных уравнений. Поэтому получение регрессий осуществляется на компьютерах.
Таблица 12.1
Форма записи данных для регрессионного анализа
у1 |
у2 |
... |
уn |
||
x1 |
|||||
x2 |
|||||
xk |
12.2 Корреляционный анализ
Корреляционный анализ представляет из себя совокупность методов обнаружения корреляционных связей между случайными величинами. Для двух случайных величин он включает:
1. Построение поля (облака) рассеивания и составление корреляционной таблицы.
2. Вычисление выборочных корреляционных отношений или коэффициентов корреляции .
3. Проверку статистической гипотезы о значимости корреляционной связи:
Зависимости между несколькими случайными величинами изучаются многомерным корреляционным анализом, который включает вычисление частных и множественных корреляционных отношений или коэффициентов корреляции.
Поля рассеивания строятся путем нанесения на плоскость ХОУ точек, соответствующих выборочным значениям случайной величины. Характерные поля рассеивания показаны на рисунке 12.5.
Размещено на http://www.allbest.ru/
Рисунок 12.5 Виды полей рассеивания
Корреляция может быть сильной (рис.12.5а), слабой (рис.12.5б) или отсутствовать вообще (рис.12.5д); положительной (рис.12.5а) или отрицательной (рис.12.5г); линейной (рис.12.5а,б,г) и нелинейной монотонной (рис.12.5в) или немонотонной (рис.12.5.е).
Для численной обработки результатов наблюдений их группируют и представляют в виде корреляционной таблиц. Общая форма корреляционной таблицы показана на примере таблицы 12.2.
Таблица 12.2
Корреляционная таблица
Середины интервалов уk |
Середины интервалов хj |
Сумма частот |
||||||
x1 |
x2 |
... |
xj |
... |
xt |
|||
y1 |
p11 |
p12 |
... |
p1j |
... |
p1t |
h1 |
|
y2 |
p21 |
p22 |
... |
p2j |
... |
p2t |
h2 |
|
yk |
pk1 |
pk2 |
... |
pkj |
... |
pkt |
hk |
|
ys |
ps1 |
ps2 |
... |
psj |
... |
pst |
hs |
|
Сумма частот |
g1 |
g2 |
... |
gj |
... |
gt |
N |
Например, корреляция между диаметрами (у) и высотами (х) стволов северной сосны (табл. 12.3). Здесь pkj - абсолютное число случаев появления стволов высотой yk и диаметром xj. Сумма частот hk - общее число появления стволов высотой yk, а сумма частот gj - общее яисло случаев появления стволов диаметром xj. Естественно что N - общее число стволов.
Таблица 12.3
Корреляция между диаметрами и высотой сосны
Диаметр, см |
Высота, м |
Итого |
||||||
17 |
18 |
... |
24 |
... |
30 |
|||
14-17 |
2 |
2 |
... |
8 |
... |
1 |
17 |
|
18-21 |
1 |
3 |
... |
12 |
... |
2 |
47 |
|
54-57 |
... |
... |
98 |
|||||
58 и > |
1 |
4 |
... |
6 |
... |
- |
12 |
|
Итого |
7 |
13 |
... |
124 |
... |
5 |
624 |
13.1 Коэффициент корреляции
Если между случайными величинами х и у существует линейная корреляционная зависимость (рис. 12.5 а,б,г), то интенсивность корреляционной связи определяется при помощи коэффициента корреляции
(13.1)
где - ковариация (момент связи) переменных х и у;
- среднеквадратичные отклонения переменных х и у.
Ковариация является простейшей характеристикой связи между случайными величинами. Она представляет собой математическое ожидание произведения отклонений случайных величин х и у от центров их распределений:
(13.2)
где - математические ожидания случайных величин х и у.
Выборочная ковариация рассчитывается по формуле
Выборочный коэффициент корреляции
(13.3)
Коэффициент корреляции изменяется в пределах
Если = +1(-1), то между х и у существует прямая (обратная) функциональная связь. При связь является корреляционной. Чем ближе к нулю, тем слабее линейная корреляционная связь. При = 0 линейная корреляционная связь отсутствует. Однако это не означает, что отсутствует всякая корреляция. Нелинейная корреляция при этом может быть, и даже быть очень сильной. Коэффициент корреляции не позволяет выяснить, имеется или нет нелинейная корреляционная зависимость. Для выяснения этого вопроса используется корреляционное отношение.
Коэффициент корреляции выражает взаимозависимость переменных. Если поменять местами переменные, то коэффициент корреляции не изменится. Поэтому = , т.е. этот параметр является симметричной функцией переменных х и у.
Коэффициент корреляции не изменится, если переменные подвергнуть какому-либо преобразованию или поменять их размерность. Следует помнить, что выборочный коэффициент корреляции rух является всего лишь оценкой . Поэтому, особенно при малых объемах выборок, нужно проверять значимость коэффициентов корреляции по критерию Стьюдента, используя статистическую гипотезу:
При больших объемах выборок коэффициенты корреляции удобнее считать по сгруппированным данным (в виде корреляционной таблицы). Вместо отдельных значений хi и уi в этом случае используются середины интервалов xj и yk таблицы 12.2. Формула (13.3) приобретет вид
(13.4)
Коэффициент корреляции, вычисленный по не сгруппированным данным точнее, т.к. он свободен от погрешностей группирования. Но вычисление по (13.4) при больших выборках упрощается, а погрешность обычно настолько мала, что не имеет практического значения.
13.2 Множественный коэффициент корреляции
Задача определения интенсивности или, как ее еще называют, тесноты связи между более чем двумя переменными относится к множественному корреляционному анализу (МКА). В этом случае при наличии линейной связи определяется множественный коэффициент корреляции. Он показывает интенсивность связи между объясняемой переменной у и несколькими объясняющими переменными хn
(13.5)
где - коэффициенты парной корреляции между откликом и i-тым фактором;
- т.н. нормированные коэффициенты регрессии (см. далее).
Подобные документы
Элементарные понятия о случайных событиях, величинах и функциях. Числовые характеристики случайных величин. Виды асимметрии распределений. Статистическая оценка распределения случайных величин. Решение задач структурно-параметрической идентификации.
курсовая работа [756,0 K], добавлен 06.03.2012Получение функции отклика показателя качества Y2 и формирование выборки объемом 15 и более 60. Зависимость выбранного Y от одного из факторов Х. Дисперсионный анализ и планирование эксперимента. Проведение корреляционного и регрессионного анализа.
курсовая работа [827,2 K], добавлен 19.06.2012Разработка алгоритма и программы на одном из алгоритмических языков для построения эмпирической плотности распределения случайных величин. Осуществление проверки гипотезы об идентичности двух плотностей распределения, используя критерий Пирсонга.
лабораторная работа [227,8 K], добавлен 19.02.2014Теоретические основы прикладного регрессионного анализа. Проверка предпосылок и предположений регрессионного анализа. Обнаружение выбросов в выборке. Рекомендации по устранению мультиколлинеарности. Пример практического применения регрессионного анализа.
курсовая работа [1,2 M], добавлен 04.02.2011Вид одномерного распределения для номинальной шкалы с совместимыми альтернативами. Меры центральной тенденции. Математическое ожидание, отклонение. Показатели асимметрии, эксцесса. Построение распределений в пакете ОСА и SPSS, визуальное представление.
курс лекций [2,4 M], добавлен 09.10.2013Анализ распределений для выявления закономерности изменения частот в зависимости от значений варьирующего признака и анализ различных характеристик изучаемого распределения. Характеристика центральной тенденции распределения и оценка вариации признака.
лабораторная работа [606,7 K], добавлен 13.05.2010Изучение показателей качества конструкционного газобетона как случайных величин. Проведение модульного эксперимента и дисперсионного анализа с целью определения достоверности влияния факторов на поведение выбранных показателей качества данной продукции.
курсовая работа [342,3 K], добавлен 08.05.2012Зависимости, выявленные в результате анализа двумерных распределений. Статистические критерии для таблиц сопряженности. Коэффициенты Спирмена и Кендела. Коэффициент парной корреляции по Пирсону. Порядок расчета двумерного распределения в пакете ОСА.
презентация [232,3 K], добавлен 09.10.2013Необходимость и цели опытно-конструкторских работ. Оценка количественной зависимости выхода сахаров при гидролизе древесных отходов от температуры и концентрации катализатора. Проведение регрессионного анализа с использованием линейной модели процесса.
контрольная работа [69,5 K], добавлен 23.09.2014Построение гистограммы и эмпирической функции распределения. Нахождение доверительного интервала для оценки математического распределения. Проверка статистической гипотезы о равенстве средних значений, дисперсий, их величине, о виде закона распределения.
курсовая работа [1,7 M], добавлен 29.11.2014